原創:譚婧
他回答道,“我們已經在一線駐場了”。
阿裏巴巴達摩院算法專家,顧斐博士在微信中回複我的詢問。他口中的一線指的是——浙江省疾控中心。
疫情肆虐,阿裏巴巴達摩院科學家們以及奔赴到戰鬥的最前線。
他說,“差不多用一天時間,阿裏巴巴團隊就已經搭建出針對新型冠狀病毒的全基因組檢測分析平台。”
大疫當前,爭分奪秒。
科技部網站2020年1月29日發文透露,近日曾下發通知,要求各有關攻關項目承擔單位及其科研人員勇挑重擔、敢于擔當,把研究精力全部投入到各項攻關任務上來,把論文寫在抗擊疫情的第一線,把研究成果應用到戰勝疫情中。這個通知的全名是《科技部辦公廳關于加強新型冠狀病毒肺炎科技攻關項目管理有關事項的通知》。
科技攻關,衆志成城。
中國疾控中心,分秒必爭。他們已成功分離病毒,而疫苗研發和藥物篩選仍在繼續。新藥和疫苗研發期間,需要進行大量的數據分析、大規模文獻篩選和科學超算工作。敢問科技企業誰能支援?
從新中國曆史上最冷清的春節中醒來。
2020年1月29日,阿裏雲宣布,將與合作機構向全球科學共同體免費開放相關藥物研發資源,共同加速針對新型冠狀病毒的藥物研發。
2020年1月30日,百度研究院宣布,將向各基因檢測機構、防疫中心及全世界科學研究中心免費開放算法資源以及結構預測網站,以提升新型冠狀病毒 RNA 空間結構預測速度。
科研工作在和死神搶時間。各個戰區都在努力完成自己的任務。
全球健康藥物研發中心(Global Health Drug Discovery Institute)也參與進來,它是由比爾及梅琳達·盖茨基金会、清华大学和北京市政府共同创立和建设的一个公益型科研创新机构。它正与阿里云合作开发人工智能药物研发和大数据平台,针对SARS與MERS等冠狀病毒的曆史藥物研發,進行數據挖掘與集成,開放相關臨床前和臨床數據資源,計算靶點和藥物分子性質,並跟進新型冠狀病毒最新科研動態,實時向科學界和公衆公布,爲新型冠狀病毒科學研究提供重要支撐。
需要補充了解的背景知識是,此次引起武漢肺炎的新型冠狀病毒(2019-nCoV)與“非典”病毒、艾滋病毒、埃博拉病毒、流感病毒一樣,都屬于 RNA 病毒,其單鏈結構導致病毒更容易變異,這也就意味著,疫苗開發,不易。
不僅如此,新型冠狀病毒比2003年的“非典”病毒潛伏期長。一邊潛伏,還能一邊傳染。防控工作難上加難。
除了時間緊迫之外,病毒也很狡猾。RNA病毒有豐富的蛋白結構,決定病毒功能。傳統上,蛋白質二級結構預測需要複雜度更高的算法。
也就是說,如果序列長度翻一倍的話,需要花費的計算時間指數級上升。
計算 RNA 病毒基因組這樣的超長序列(例如艾滋病毒有約 1 萬個堿基,埃博拉病毒有約 2 萬個堿基),科學家們需要花費更長的時間用來計算。冠狀病毒家族包括了非典病毒和新型冠狀病毒(2019-nCoV),冠狀病毒家族的基因組又是所有 RNA 病毒裏最長的(之一)。
回到杭州市濱江區信誠路630號,浙江省疾控中心。
顧斐博士透露,現在的算法既包括經典算法,也包括自研算法,但是,目前困難來自算法、算力以及平台各方面。
他這次奔赴一線的工作任務,主要是分析浙江省疑似病例的實際樣本,通過全基因組測序的方法,這有別于普通核酸檢測的方法。
當被問到“此次任務科技含量最高的地方在哪”時?
他回答說,“算得快,算得多”。
算得多是指,不僅能計算基因序列、蛋白結構等,還能做序列拼接,以及幫助發現新病毒。
算得快是指,使用阿裏雲分布式計算,並行計算技術。此次,阿裏雲提供強大的AI算力,支持病毒基因測序、新藥研發、蛋白篩選等工作,幫助科研機構縮短研發周期。
疫情當前,阿裏巴巴集團旗下雲計算及人工智能公司能做的工作有很多,
第一、用分子動力學HPC應用算病毒、蛋白質、藥物結構,靶點作用模擬和設計藥物篩選的實驗,以及使用QD量子動力學等做藥物研究。
第二、對病毒植株和染病者的染病DNA提取,進行基因組計算、基因組學計算。
第三、在MD,MM,QD基礎上做虛擬篩選。
他堅定地告訴我,“雖然浙江省疾控中心的現場只有他一人,但是背後還有幾十人的團隊在默默支援。”
江湖傳聞,阿裏雲辦公室裏貼有這樣的一副對聯,“代碼成就萬世基積沙鎮海,夢想永在淩雲意意氣風發”。回憶起2019年8月,顧斐博士曾經和我談起,美國哈佛大學生物信息博士後畢業之後,他的選擇有很多,可以做醫學研究,也可以留校任教,只是想不到自己會變成阿裏雲達摩院算法專家。
這裏沒有烽火、沒有硝煙,卻是抗擊病毒的最前線。阿裏巴巴將阿裏雲達摩院的科學家派往了戰區,在危難中執行科研任務。
顧斐博士告訴我,“出發時,他沒有猶豫過”。
(完)
《親愛的數據》出品人,譚婧。
更多閱讀:懷孕那點事:阿裏巴巴AI技術用于孕期糖尿病基因檢測