算法、AI深度學習和大數據的發展,使得人類在肆虐的病毒面前不會無動于衷。
文 | 劉志剛
1月24日,北京大學工學院教授朱懷球團隊在bioRxiv預印版平台發表《深度學習算法預測新型冠狀病毒的宿主和感染性》一文中指出,蝙蝠和水貂可能是新型冠狀病毒的兩個潛在宿主,水貂可能是中間宿主。
論文截圖
據朱懷球團隊的研究表明,新型冠狀病毒與雲南菊頭蝠中存在的RaTG13冠狀病毒一致性高達96%;另外,基于深度學習開發的VHP(病毒宿主預測)方法預測的結構化顯示,水貂的病毒的傳染性模式更接近新型冠狀病毒。
據悉,在此次研究中,該團隊使用了基于深度學習模型的AI技術尋找病毒宿主。這可能是國內首次在2019新型冠狀病毒的研究中使用深度學習AI取得成果。
01
AI加入抗擊疫情一線,深度學習尋找病毒宿主
一種前所未知的新型病毒出現後,確定病毒宿主是十分重要的。由于病毒複雜的多樣性,目前人類已知的病毒和對病毒本身的了解還遠遠不夠,大多數以人類爲宿主的病毒,通常對人類造成生命安全威脅之後,才會進一步引起人們的重視。
對一些本不以人類爲宿主的病毒來說,其本身也可能突發變異,或者通過中間宿主也可感染至人類。因此,快速尋找鑒別未知病毒的宿主,能夠幫助人類了解病毒與宿主間的相互作用,以應對突發變異等潛在威脅,從而有針對性的對病毒進行預防和控制,具有重要意義。
圖片來源:新京報網
爲了檢測新病毒的潛在宿主和致病性,傳統的方法是基于通過建立病毒基因庫,將新型病毒的DNA序列與已知病毒的基因序列做對比檢索,通過比較病毒DNA局部的相似性,從而做出對新病毒宿主的模糊預測。
北京大學朱懷球團隊在對2019新型冠狀病毒的宿主研究和預測中,通過構建VHP算法模型,將已經提取的新型冠狀病毒的基因組,與已有病毒基因數據庫做數據檢索和對比。在算力的支持下,通過深度學習模型對病毒基因數據的廣域檢索,實現新型冠狀病毒自然宿主的尋找和預測。
02
VHP模型計算出新型冠狀病毒的感染性
朱懷球團隊在bioRxiv預印版平台發表的論文中稱:“爲了構建VHP模型,我們使用了一個雙路卷積神經網絡用于預測病毒序列宿主;我們把病毒的宿主分爲五種類型,包括植物、細菌、無脊椎動物、脊椎動物和人類;輸入病毒核苷酸序列,基于深度學習的VHP模型,將爲每種宿主類型分別輸出5類結果,分別反映出新型冠狀病毒在每種類型中感染性。”
通過對VHP模型計算的結果分析,篩選的病毒宿主包括犬、豬、貂、龜和貓。研究人員經過分析比較後認爲水貂的病毒的傳染性模式更接近新型冠狀病毒。
圖片來源:新京報網
實際上,相比傳統的AI機器學習方法,AI深度學習的方法訓練出的模型可以適用于多種不同類型的數據,還可以結合多種來源的數據,共同完成一個任務。
在基因數據中,並不是所有的數據都有准確的高質量數據標簽,而通過深度生成模型,即使沒有高質量標簽的數據也能得到充分使用,從而使得模型能夠持續的提升性能。
因而,從AI深度學習的種類上來看,除了常見的有監督學習和無監督學習,半監督學習與強化學習更適合,也更需要醫學界、生物界更多的關注。
03
深度學習AI+醫療:應用前景廣闊但也有局限性
在AI的應用場景中,醫療行業是其應用前景最爲廣闊的行業之一。生物信息領域中,制藥企業的藥物研發、醫療設備收集的健康數據、病患者的診斷以及治療方案的確定都有深度學習型AI的應用需求。
深度學習的本質,是一個複雜的AI學習算法。目前,深度學習應用最爲廣泛的是在計算機視覺以及語言識別領域。其中計算機視覺技術在醫療領域也有一定的應用,如醫學影像的識別。
不過,深度學習在醫療領域的應用也面臨現實應用的局限性,其中之一就是分析過程缺乏解釋性。實際上,深度學習本質上也是統計學習的一種,通過對已知數據的彙總和檢索,以算法的優化達到某種結果的預測。
圖片來源:新京報網
也就是說,深度學習算法得出的結果是概率學上對現有數據條件下的結果預測,並不能給出“解題過程”只能給出結果。這也使得不可避免的出現一定的現實結果偏差。
以此次新型冠狀病毒宿主研究爲例,在VHP模型計算給出結果後,篩選的病毒宿主包括犬、豬、貂、龜和貓,仍需要研究人員對比分析後得出進一步的結論:水貂的病毒的傳染性模式更接近新型冠狀病毒。
04
技術之力亦需“跨越偏見”
此外,如果輸入數據樣本本身帶有“大數據偏見”,那麽模型計算則會放大這種“偏見”,從而影響結果在現實場景中的准確性。
對于基于深度學習的醫療AI而言,這樣的情況也很難以能夠說百分之百避免,特別是面對複雜龐大的醫療數據而言,這樣的“偏見”帶來的結果是人們難以接受的。
因而對于深度學習AI在醫療領域的落地,除了技術實現本身要解決的問題之外,由技術引發蝴蝶效應也更應該獲得關注。
從好的一面來看,深度學習型AI在醫療領域的落地,不啻爲補充優質醫療資源的“良方”,同時深度學習AI以及大數據等新技術的應用,也爲人們在未來面對“新型冠狀病毒”之類的突發性傳染病給予技術的力量。
05
我們將生活在一個分析所有數據的時代
《大數據時代》作者維克托·迈尔-舍恩伯格前瞻性地預見到:“在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣。”
圖片來源:新京報網
在數據時代,AI深度學習與算法、大數據的進步與發展將使得人類迎來一個全新的時代,在肆虐的病毒面前,人類並不會無動于衷。在當前新型冠狀病毒暴發的艱難時刻,更需要人們充滿信心,以更加頑強的勇氣和智慧,以面對新型病毒的挑戰!
□劉志剛(互聯網分析師)
編輯:李碧瑩 校對:王心
投稿、合作、聯系我們:[email protected]