![]()
這項基于 UK Biobank 的研究顯示,人工智能結(jié)合血液多組學(xué)信息,可系統(tǒng)評估未來 15 年多種心血管疾病的發(fā)生風(fēng)險。
作者丨鄭佳美
編輯丨岑峰
![]()
在心血管疾病預(yù)防中,一個長期存在的難題是:許多疾病在發(fā)病前已在體內(nèi)潛伏多年,但要在早期準確判斷一個人未來是否會同時面臨多種心血管疾病風(fēng)險,并不容易。
以往的風(fēng)險評估主要依賴年齡、血壓、血脂等常規(guī)臨床指標,或多基因遺傳風(fēng)險評分。然而心血管疾病往往是一個長期演變、可能同時出現(xiàn)多種結(jié)局的過程,單一指標或針對單一疾病的預(yù)測方式,很難全面反映真實風(fēng)險。
隨著大規(guī)模人群隊列和高通量分子檢測技術(shù)的發(fā)展,研究者發(fā)現(xiàn)血液中的蛋白質(zhì)和代謝物能夠更直接地反映身體當(dāng)前的生理狀態(tài)以及疾病進程。這些分子信號不僅受到遺傳因素影響,也會隨環(huán)境和生活方式變化,為長期風(fēng)險評估提供了新的信息來源。
在此背景下,由香港大學(xué)數(shù)據(jù)科學(xué)研究院及藥理與藥劑學(xué)系副教授張清鵬領(lǐng)銜的研究團隊,基于 UK Biobank 大規(guī)模前瞻性人群數(shù)據(jù),開展了一項多組學(xué)信息與人工智能相結(jié)合的研究。
研究團隊不再局限于“一病一模型”的思路,而是將蛋白組和代謝組信息納入統(tǒng)一框架,同時評估多種心血管疾病的長期風(fēng)險。相關(guān)成果以《AI-based multiomics profiling reveals complementary omics contributions to personalized prediction of cardiovascular disease 》為題發(fā)表于 Nature Communications,為心血管風(fēng)險研究提供了一種更整體、也更貼近真實人群的研究路徑。
![]()
論文地址:https://www.nature.com/articles/s41467-026-68956-6
01
用血液多組學(xué)信息,系統(tǒng)評估多種心血管疾病風(fēng)險
這項研究的核心發(fā)現(xiàn)是:在傳統(tǒng)臨床指標的基礎(chǔ)上,引入血液多組學(xué)信息,可以顯著提升對心血管疾病長期風(fēng)險的預(yù)測能力,而且這種提升在多種心血管疾病中都表現(xiàn)得穩(wěn)定一致。
研究基于 UK Biobank 的長期隨訪數(shù)據(jù),采用分階段的方式構(gòu)建和驗證模型。研究團隊提出了CardiOmicScore 框架,分別利用血液中的2,920 種蛋白質(zhì)和168 種代謝物,訓(xùn)練了兩類人工智能模型,并由此生成了兩種疾病特異性風(fēng)險評分:基于蛋白組的ProScore和基于代謝組的MetScore。
與傳統(tǒng)只針對單一疾病構(gòu)建的風(fēng)險評分不同,這兩種評分是在同一模型中同時納入多種心血管疾病進行訓(xùn)練,系統(tǒng)性地捕捉了多種心血管疾病之間的共性生物學(xué)特征及其各自的分子差異,最終會為每一種疾病分別生成對應(yīng)的風(fēng)險評分。在隨后納入約 2.4 萬名基線時未患心血管疾病的驗證人群中,研究者系統(tǒng)評估了這些風(fēng)險評分的預(yù)測效果。
![]()
(圖1. 研究設(shè)計與分析流程。a. 研究人群;b. 模型開發(fā)流程;c. 模型性能評估。)
結(jié)果顯示,即使不依賴任何傳統(tǒng)臨床指標,ProScore和MetScore本身就已經(jīng)具備較強的風(fēng)險識別能力,能夠在疾病發(fā)生前十年以上發(fā)出預(yù)警信號。其中,基于蛋白組的ProScore預(yù)測效果最為穩(wěn)定,其區(qū)分高風(fēng)險與低風(fēng)險人群的能力(C-index在0.69-0.82之間)明顯優(yōu)于多基因風(fēng)險評分(C-index在0.52-0.60之間),在部分心血管結(jié)局中接近常用的臨床風(fēng)險模型。基于代謝組的MetScore表現(xiàn)(C-index在0.64-0.74之間)略弱于ProScore,但整體仍優(yōu)于多基因風(fēng)險評分。
在真實人群中,這些多組學(xué)評分也能清晰區(qū)分不同風(fēng)險水平,識別出更容易發(fā)生心血管事件的個體。無論是蛋白組還是代謝組評分,高風(fēng)險人群在隨訪期間發(fā)生心血管疾病的概率始終顯著高于低風(fēng)險人群,而且這種差異在六種心血管疾病中均一致存在。
![]()
(圖2. MetScore 與 ProScore 對心血管疾病風(fēng)險的區(qū)分能力。a. 按MetScore分層的生存概率;b. 按ProScore分層的生存概率;c. MetScore和ProScore與心血管疾病風(fēng)險的關(guān)聯(lián)強度。)
進一步分析發(fā)現(xiàn),多組學(xué)信息在現(xiàn)有臨床評估基礎(chǔ)上能提供額外價值。無論模型中已包含多少臨床信息,只要加入蛋白組或代謝組評分,預(yù)測效果都會明顯提升,其中蛋白組評分帶來的改善最為突出,代謝組次之,而多基因風(fēng)險評分的提升相對有限。這表明,多組學(xué)信號反映的是傳統(tǒng)臨床檢查難以直接捕捉的分子層面風(fēng)險。
![]()
(圖3. 多組學(xué)信息對心血管疾病的預(yù)測性能。a. 模型的判別能力;b. 加入多組學(xué)信息后基線臨床模型預(yù)測性能的變化。)
從實際應(yīng)用角度看,加入多組學(xué)信息后的模型預(yù)測結(jié)果穩(wěn)定可靠,預(yù)測風(fēng)險與真實事件發(fā)生率高度一致,不會系統(tǒng)性高估或低估風(fēng)險。在多種模擬的臨床決策場景中,這類模型顯示出更高的潛在收益,有望在減少不必要干預(yù)的同時,更早、更準確地識別真正的高風(fēng)險人群。
![]()
(圖4. 心血管疾病預(yù)測模型的校準能力和凈收益曲線。a. 校準曲線;b. 凈收益曲線。)
為了理解模型“為什么這樣預(yù)測”,研究者通過SHAP 方法進一步分析了模型最依賴的分子特征。結(jié)果顯示,一些臨床上早已熟知的指標仍然是核心預(yù)測因子,例如與心臟負荷相關(guān)的NT-proBNP 和 NPPB 蛋白,以及反映腎功能和營養(yǎng)狀態(tài)的肌酐和白蛋白。
在此基礎(chǔ)上,模型還識別出了一批具有潛在價值的新型生物標志物。在蛋白組中,GDF15、MMP12、FASLG 和NEFL顯示出較強的預(yù)測能力;在代謝組中,谷氨酰胺、脂肪酸、糖蛋白乙酰基(GlycA)以及多種脂質(zhì)相關(guān)分子同樣具有重要作用。
這些分子在不同心血管疾病中的表現(xiàn)并不完全相同,為深入理解心血管疾病的復(fù)雜分子機制,以及探索新的干預(yù)靶點提供了線索。這些分子的作用模式,與心肌應(yīng)激、炎癥反應(yīng)和代謝紊亂等已知病理過程高度一致,說明模型確實抓住了心血管疾病的關(guān)鍵生物學(xué)信號。
![]()
(圖5. 心血管疾病風(fēng)險預(yù)測中具有代表性的關(guān)鍵代謝物和蛋白質(zhì)。a. 關(guān)鍵代謝物;b. 關(guān)鍵蛋白質(zhì)。)
![]()
(圖6. 代謝物和蛋白質(zhì)在心血管疾病風(fēng)險預(yù)測中的相對貢獻。a. 代謝物的預(yù)測貢獻;b. 蛋白質(zhì)的預(yù)測貢獻。)
02
基于大規(guī)模人群數(shù)據(jù)的研究設(shè)計與模型驗證
這項研究依托 UK Biobank 大規(guī)模前瞻性隊列開展。研究采用了“先開發(fā)、再驗證”的嚴謹設(shè)計:首先利用只包含單一組學(xué)信息的大規(guī)模人群數(shù)據(jù)訓(xùn)練模型,其中包括約 22 萬名具有代謝組數(shù)據(jù)的參與者和約 1.9 萬名具有蛋白組數(shù)據(jù)的參與者;隨后,再在一組同時具備遺傳、代謝和蛋白信息、且基線時沒有心血管疾病的 2.4 萬名個體中進行獨立驗證。這些人群的中位隨訪時間約為15 年,使研究能夠充分觀察心血管疾病的長期發(fā)生過程。
研究重點關(guān)注了六種常見且臨床負擔(dān)較重的心血管疾病。所有疾病結(jié)局均通過醫(yī)院住院記錄和死亡登記信息進行確認,確保了結(jié)果判定的可靠性和一致性。隨訪時間從基線評估開始,一直持續(xù)到疾病發(fā)生、死亡、失訪或隨訪結(jié)束。
在數(shù)據(jù)層面,研究整合了三類關(guān)鍵信息。遺傳風(fēng)險通過既往全基因組關(guān)聯(lián)研究中已驗證的遺傳變異構(gòu)建,用來反映個體的先天易感性;代謝組數(shù)據(jù)來自血液樣本,涵蓋脂質(zhì)、脂蛋白、氨基酸以及炎癥相關(guān)代謝物,能夠反映機體當(dāng)前的代謝狀態(tài);蛋白組數(shù)據(jù)則一次性檢測了近 3,000 種循環(huán)蛋白,覆蓋炎癥、免疫、代謝調(diào)控和心血管結(jié)構(gòu)重塑等多種關(guān)鍵生物過程。
在此基礎(chǔ)上,研究團隊開發(fā)了一套名為CardiOmicScore的人工智能模型框架,分別針對蛋白組(ProNet)和代謝組(MetNet)信息構(gòu)建風(fēng)險預(yù)測模型。該框架的一個重要特點是,它既能學(xué)習(xí)多種心血管疾病之間的共通生物學(xué)特征,也能同時捕捉每一種疾病特有的分子信號。模型最終輸出的是連續(xù)的風(fēng)險評分,而不是簡單的“有病或沒病”,因此更適合用于長期風(fēng)險評估。
在驗證階段,研究采用了嚴格的獨立測試策略,確保模型在新的人群中依然有效。模型性能不僅通過常用的預(yù)測準確度指標進行評估,還結(jié)合了校準分析和決策曲線分析,系統(tǒng)檢驗其在真實臨床使用場景中的可靠性和潛在價值。
此外,研究還對模型進行了深入解釋,分析哪些具體的蛋白和代謝物在風(fēng)險預(yù)測中起到了關(guān)鍵作用。這一步使得模型的預(yù)測結(jié)果能夠與已知和潛在的生物學(xué)機制相對應(yīng),而不是停留在“黑箱預(yù)測”的層面。
03
一個可持續(xù)擴展的心血管風(fēng)險評估模型框架
從研究意義上看,這項工作為心血管疾病風(fēng)險預(yù)測提供了一種新的整體框架。研究清楚表明,僅依賴傳統(tǒng)臨床指標或遺傳信息,很難全面反映一個人未來的長期心血管風(fēng)險;而血液中的蛋白質(zhì)和代謝物,能夠更直接地反映身體當(dāng)前的生理狀態(tài)和疾病進展過程。將這些信息系統(tǒng)性地整合起來,可以更準確地預(yù)測未來心血管事件的發(fā)生。
在臨床應(yīng)用層面,研究提出了一種更高效的風(fēng)險評估方式:通過一次血液檢測,同時評估多種心血管疾病的長期風(fēng)險。這種方法打破了傳統(tǒng)“一病一模型”的做法,更貼近真實臨床中多種心血管風(fēng)險往往同時存在的情況,也為未來開展更精準、更高效的風(fēng)險篩查提供了可能。
在精準醫(yī)學(xué)的背景下,研究進一步凸顯了蛋白組和代謝組信息的獨特優(yōu)勢。與相對固定的遺傳風(fēng)險不同,這些分子能夠反映環(huán)境、生活方式和健康狀態(tài)的綜合影響,因此更適合用于動態(tài)風(fēng)險評估和早期干預(yù),為心血管疾病的一級預(yù)防提供了新的科學(xué)依據(jù)。
此外,通過對模型的解釋性分析,研究不僅驗證了傳統(tǒng)的NT-proBNP等既往已知的心血管相關(guān)生物標志物,還通過AI揭示了一批潛在的新分子線索。這些結(jié)果有助于加深對心血管疾病分子機制的理解,并為未來生物標志物開發(fā)、藥物靶點發(fā)現(xiàn)以及治療策略優(yōu)化提供方向。
從更長遠的角度來看,這項研究展示了一種具有良好擴展性的醫(yī)學(xué)人工智能研究范式。隨著未來進一步整合影像、心電圖等多模態(tài)數(shù)據(jù),這類模型有潛力發(fā)展為更全面的心血管風(fēng)險評估工具,為臨床決策提供更加個體化和前瞻性的支持。
04
主要作者
論文的作者包括:香港大學(xué)羅顏、崔夢瑤、張清鵬,天津醫(yī)科大學(xué)第二醫(yī)院劉彤、張楠,南京大學(xué)羊劍楠,香港中文大學(xué)蔡錦輝教授和利物浦大學(xué) Gregory Y. H. Lip,張清鵬與劉彤為共同通訊作者。
未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.