該研究提出一種基于深度學習的病毒宿主預測方法,用于檢測以DNA序列爲輸入的病毒能感染哪種宿主,並將其應用于武漢2019年新型冠狀病毒(2019-nCoV)。
爲了構建病毒宿主預測VHP模型,朱懷球團隊使用了雙路卷積神經網絡(BiPathCNN),其中每個病毒序列分別由其堿基和密碼子的一個熱矩陣表示。
所謂雙路卷積神經網絡(BiPathCNN),即針對相同構造的卷積神經網絡輸入同樣的數據集也會提取到不同特征的情況,爲利用該差異挖掘圖像的深層特征,提出一種雙路卷積神經網絡模型的圖像分類算法。
考慮到輸入序列長度的差異,該研究分別建立了兩個BiPathCNN(BiPathCNN-A和BiPathCNN-B),分別用于預測100bp到400bp和400bp到800bp的病毒序列宿主。
除此之外,大多數報告的人類感染性冠狀病毒的p值均爲VHP法預測的最低值。2019-nCoV和其他人類冠狀病毒的相似概率說明了2019-nCoV的高風險。
VHP方法以及算法的驗證:
爲了構建VHP模型,朱懷球團隊使用了雙路卷積神經網絡(BiPathCNN),其中每個病毒序列分別由其堿基和密碼子的一個熱矩陣表示。
考慮到輸入序列長度的差異,分別建立了兩個BiPathCNN(BiPathCNN-A和BiPathCNN-B)用于預測100bp到400bp和400bp到800bp的病毒序列宿主。
用于訓練和測試的數據集包括所有DNA病毒的基因組、所有RNA病毒的編碼序列及其在GenBank中的宿主信息。爲了開發新病毒潛在宿主類型預測的方法專家,使用2018年之前發布的病毒序列數據構建訓練集,而使用2018年之後發布的病毒序列數據進行測試。
將病毒的宿主分爲五類,包括植物、細菌、無脊椎動物、脊椎動物和人類。
本報告中預測了2019年nCoV感染人類的可能性,並暗示了2019年nCoV的風險。
報告也顯示,VHP模型可以在公共衛生服務中發揮重要作用,爲預防可能感染人類的新型病毒提供強有力的幫助,從而提供可靠的預測宿主和感染人類的潛力。


