作者:郭天南(西湖大學特聘研究員);孫耀庭、梁潇(該校博士生)
分子時代,科學家發現蛋白質的種類、含量、性質、結構、時空定位以及動態變化與生命健康息息相關,是疾病發生最基礎的元素。細胞內外有無數的蛋白質“機器”,它們總是處于動態運作之中,指示著當前生命體的健康狀態和疾病進展情況。如果能夠通過技術對蛋白質的即時狀態進行測量,我們就有可能探索疾病發生、發展的規律,並開發更加有效的治療方法。
1“暗物質”蛋白質世界:生在基因,命在蛋白
提到生命科學,大家可能對基因更爲熟悉,而對相對年輕的蛋白質科學則鮮有了解。事實上,雖然基因譜寫了生命的藍圖,但其僅是一維的線性序列。基因通過轉錄翻譯,表達爲蛋白質,才組成了三維世界的動態生命體。如毛蟲化蝶、蝌蚪變蛙,其個體基因不曾改變;一個人從出生到死亡,基因組也基本保持穩定。這些生命過程的改變,背後是無數蛋白質的動態驅動。中國科學院院士賀福初教授有句話總結得好,“生在基因,命在蛋白”。
在一維空間,永遠無法理解三維空間的複雜性。相較而言,蛋白質的複雜性要比基因高出許多。首先,一種基因可以表達成多種蛋白質;其次,蛋白質會像變形金剛一樣不斷在時空中發生變化;此外,蛋白質處于不斷的生成和降解的平衡中,有多種多樣的翻譯後修飾變體,且能組成複雜的複合物,等等。
人體到底有多少種蛋白質?據估計,已知的至少有兩萬種,預測至少有16萬種以上。加之多個蛋白質構成的不同變體及修飾,蛋白質的種類可能超過千萬。
而蛋白質組又是什麽?蛋白質組的概念最早在1994年被提出,被定義爲“由一個基因組所表達的所有蛋白質”。
蛋白質組學研究面臨多大的挑戰呢?若想在一個成年人體內找到某個蛋白質,就如在千萬條江河中尋找一滴水。在某種意義上,每一個人體都可以視作由蛋白質機器爲主構成的“蛋白質宇宙”。由于研究難度太高、需要複雜的技術手段等種種因素,我們對人體的蛋白質宇宙知之甚少,這個領域是生命科學中最前沿、最有挑戰性的方向之一。
據估計,目前95%以上的人類蛋白質組功能研究都聚焦于約5000種研究較多的人類蛋白質,而人體內還存在著一個巨大的“暗物質”蛋白質世界——這些沒有或者很少被研究的蛋白質越來越無人問津;而事實上,這些功能未知的蛋白質可能掌握著打開解決人類重大疾病的鑰匙,如癌症、阿爾茲海默症以及多種罕見病。
如今,在世界主要發達國家,科技界和産業界已經逐漸認識到蛋白質組的重要性。2018年,我國科技部組織遴選了一批國際大科學計劃培育項目,由賀福初教授領導的“人類蛋白質組計劃2.0暨蛋白質組驅動的精准醫學”項目是首批啓動的三個項目之一。2022年2月2日,美國總統拜登重啓了奧巴馬時代的“癌症登月計劃”,而蛋白質組正是這個項目的最重要的方向之一。就在不久前,包括我國科學家在內的六國科學家也在世界範圍內聯合發起了一項“未充分研究的蛋白質”調查,並在國際學術期刊《自然》的系列子刊上發表了關于該調查的文章,呼籲更多研究人員和科學家加入該項研究,解密那些未知的“暗物質”蛋白質世界,不斷擴大人類對生命活動認知的邊界。
2蛋白質組+AI:新技術破解疾病治療“密碼”
來源于人類、動物、植物、微生物等的標本,不管是液態的血液、尿液、眼淚、腦脊液、唾液,還是固態的、手術切除的冰凍或石蠟組織,甚至是一些特殊樣品,如頭發、牙齒、指甲、骨骼、糞便,都含有豐富的蛋白質。但它們含有多少種蛋白質?每一種蛋白質表達有多少?絕大部分是未知的,而這些未知的蛋白質組信息和疾病的診斷及治療息息相關。
如果我們能盡可能多地采集到樣本中的蛋白質組信息,是否可以結合AI分析其中的規律,從而加深人類對疾病的理解、掌握治療疾病的“密碼”呢?這是生命科學一個未知的領域。
現階段已積累的微觀世界,尤其是蛋白質組的數據還非常少,因爲解析蛋白質組數據依賴于非常複雜的技術,這些技術在過去5年內才開始比較迅猛地叠代發展。如今,我們有了一些新技術,可用于分析極微量樣本的蛋白質組。例如,我們能實現0.1mg組織中數千蛋白質的提取分析,其組織大小僅相當于半顆小米粒。這樣的話,即使樣品十分有限,我們也可以通過多次全蛋白質組分析測到數千甚至上萬種蛋白質,並可實現快速深入、高通量、高重現性檢測;而且得到的蛋白質數據可以永久保存、在未來反複分析和挖掘。
同時,雖然我們看不到蛋白質的形態,但可通過AI計算預測其形態模型,使之在我們眼前呈現。這些可視化的模型直觀地展現了蛋白質的多樣性,正如宏觀世界中形態各異的各種物體。
這樣的方法,將來也有望用于疾病的診斷和治療。現在,通過AI技術對常規的醫學檢查圖像(包括B超、CT、病理圖像等),以及實驗室生化檢測的數據文本(如血、尿、糞的生化檢測數據),進行智能分析,已經可以用來輔助疾病診斷和治療。
但是這些數據都是宏觀層面,旨在分辨病理表型,對探究疾病發生的機理,始終如隔靴搔癢、霧裏看花。而溯本求源,微觀層面的分子的性質和功能,才是真正的決定因素。這樣的分子數據的集合,我們稱爲多組學數據,包括基因組、轉錄組、蛋白質組、代謝組等等。其中最核心的是蛋白質組,幾乎所有藥物的靶點都是蛋白質。蛋白質組也能更直接地反映疾病的發生發展狀態。通過現今的蛋白質組學技術大量臨床樣品,積累海量蛋白質組大數據後,結合其他組學的數據,經AI整合可以更精准地找到更多潛在的生物標記物。
3蛋白質+AI:正在疾病診斷領域嶄露頭角
如今,蛋白質+AI的研究正在進行中,也取得了一些突破性進展。
例如,我們嘗試發揮蛋白質+AI的優勢,讓甲狀腺結節診斷變得更加精准。甲狀腺形如蝴蝶,是人體最大的內分泌器官之一。有些人把它稱爲人體新陳代謝的CEO,影響各個器官。它接受來自大腦的信息,調控甲狀腺素的分泌,這個激素會調控五髒六腑,也控制肌肉力量、情緒,對人體非常重要。數據顯示,成年人中大概有一半的人患有甲狀腺結節(其中多數是良性結節)。從性別上看,女性甲狀腺結節的患病率高于男性,大約是男性的3~5倍。從年齡上看,20~55歲是甲狀腺結節高發的年齡段。
在臨床實踐中,10%~30%的甲狀腺結節是無法在術前精確診斷的。這一診斷准確度也取決于醫生較爲主觀的臨床經驗,不同的醫生可能會對同一個結節的良惡性有不同的判斷。難以診斷的甲狀腺結節的判斷有多種輔助檢測的方法,基于基因水平的診斷在西方國家被廣泛接受。然而,基因檢測准確率並不是很高,因爲甲狀腺結節的基因突變總體比較少,且存在個體差異,mRNA相對來說又不太穩定,檢測的難度較高。美國的一些實驗室與公司開發了基因測序試劑盒,通過較爲成熟的基因測序輔助判斷結節的良惡性。這一方法的靈敏度達83%~100%,但是特異性只有10%~52%。這意味著,如果是惡性,基本可以檢測出來,幾乎不會漏掉,然而,對于良性結節的診斷仍存在巨大挑戰。
這種情況下,醫生和患者有時會選擇一切了之。這雖然堵住了發展爲惡性腫瘤的可能,但也給生活帶來了很多不便——切除甲狀腺後的患者需要終身服用甲狀腺素代替藥物,因爲人體其他器官無法自行合成甲狀腺素,如果不服藥,失衡的激素水平會引起其他繼發性疾病。
而蛋白質+AI則有助于判斷甲狀腺結節的性質。我們科研團隊與包括新加坡和中國在內的幾十家醫院進行合作,建立了多中心、回顧性和前瞻性的數據集,對1000多名患者的甲狀腺結節樣品進行蛋白質組分析,再通過AI神經網絡算法進行分析,建立了由多個蛋白特征構成的AI模型,可以用于結節良惡性的評估。這些結果的准確度高達90%。而通過現實可行的産業轉化,該成果預期有望應用于臨床。這個例子只是精准診斷中的一個應用範式,該研究範例理論上可推廣至其他病種,比如卵巢癌、大腸癌等都可以用類似的方法進行處理。
蛋白質組對疾病的診斷非常重要,最新的蛋白質組技術越來越多地應用于臨床生物標志物的發現。未來,我們會繼續和臨床醫生、計算機科學家一起開發基于蛋白質組的大數據,進行人工智能分析的診斷篩查新模式。當然,蛋白質組只是所有測量中的一部分,我們還可以結合多組學,結合臨床圖像和病人臨床數據建立綜合模型,爲健康生活提供更多保障。
《光明日報》( 2022年06月09日16版)
來源: 光明網-《光明日報》