網易首頁 > 網易號 > 正文申請入駐

當AI第一次讀完整本基因之書，十億參數單細胞大模型能干什么？

2026-03-18 12:22:56　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】十億參數單細胞基礎模型scLong不再只看少數高表達基因，而是把一個細胞里接近 2.8 萬個基因都納入建模，并結合 Gene Ontology（GO）的生物學知識，去理解更完整的基因上下文。

在單細胞轉錄組學領域，研究者希望從每個細胞的基因表達中讀出細胞狀態、調控關系，甚至預測當某個基因被敲除、某種藥物被加入后，細胞會發生什么變化。

過去幾年，foundation model（基礎模型）開始進入這一領域，顯示出強大的遷移能力；但長期以來，現有方法往往為了節省計算，只關注少量高表達基因，忽略了大量低表達甚至零表達基因，同時也缺少對外部基因功能知識的系統整合。這不僅會丟失重要調控信號，也容易讓模型對復雜生物過程「只見樹木，不見森林」。

近日，MBZUAI、加州大學圣地亞哥分校（UC San Diego）等機構聯合團隊在 Nature Communications 發表研究成果scLong。

論文鏈接：https://www.nature.com/articles/s41467-026-69102-y

這是一種擁有10億參數的單細胞基礎模型，基于約4800萬個細胞進行預訓練，能夠在整個人類轉錄組范圍內對約27874個基因建模，并將GO（Gene Ontology）提供的結構化生物學知識融入模型中。

論文報告顯示，scLong在遺傳擾動預測、化學擾動預測、癌癥藥物反應預測、基因調控網絡推斷等多項任務上，均優于現有單細胞基礎模型和多種任務專用模型。

研究背景

為什么單細胞領域需要一個「更長」的模型？

因為一個細胞并不是只由少數幾個「明星基因」決定的。很多現有模型只在約 1500 到 2000 個高表達基因上做 self-attention，這樣確實更省算力，但代價是：大量低表達基因被排除在外。

而這些低表達基因雖然「聲音不大」，卻常常扮演調控開關、信號微調器，甚至在稀有細胞類型、應激反應、疾病進展中發揮關鍵作用。

換句話說，過去很多模型更像是在讀「摘要」，而不是在讀「全文」。

另一個問題是，單靠表達矩陣本身，模型未必能真正理解「這個基因是干什么的」。

而Gene Ontology恰恰提供了基因在生物過程（Biological Process）、分子功能（Molecular Function）、細胞組分（Cellular Component）上的結構化知識。過去很多模型主要從數據里「自己悟」，但沒有顯式利用這些成熟的生物學先驗，因此在理解功能關聯、調控關系和跨條件泛化時仍然受限。

于是，scLong想做的事情很直接：不僅把基因看全，還要把基因「看懂」。

把一個細胞，讀成一整句話

如果用自然語言來打比方，scLong的核心思想很有畫面感：把一個細胞的整條基因表達譜，當成一句非常長、非常復雜的話來讀。

在這個「句子」里，每個「詞」不是普通單詞，而是一個「基因 ID + 表達值」的組合。模型先用一個表達編碼器，把數值型表達量映射成向量；再用一個基因編碼器，為每個基因生成帶有生物學含義的表示；兩者相加后，就得到這個「詞」的初始表示。

隨后，模型通過上下文編碼器，讓這些基因彼此「看見對方」，從而學習基因之間在當前細胞中的上下文關系。

這里最有意思的一點是：scLong并沒有粗暴地把低表達基因扔掉。它采用了一個雙編碼器設計：對高表達基因使用更大的Performer編碼器，對低表達基因使用更小的Performer編碼器，最后再通過一個full-length Performer把全體基因整合起來。這樣既盡量保住了全基因組范圍的上下文信息，又在計算量和建模能力之間做了平衡。

更進一步，scLong還把GO知識圖譜接進來了。研究團隊先根據基因共享的GO注釋來構建基因圖：

如果兩個基因在生物過程、分子功能或細胞定位上足夠相似，它們就會被連接起來；

然后再用圖卷積網絡（GCN）來學習基因表示。

這樣一來，模型不僅知道「這個基因在這個細胞里表達了多少」，還知道「這個基因通常和哪些功能、哪些基因有關系」。這相當于給每個「詞」都加了一層背景知識。

預訓練方面，scLong使用的是一種類似BERT的思路：隨機遮掉一部分表達值，讓模型去重建它們。

研究團隊用來自1618個單細胞數據集、覆蓋50多種組織的約4800萬個人類細胞進行預訓練，覆蓋27874個基因，其中既包括蛋白編碼基因，也包括非編碼基因。對單細胞領域來說，這相當于讓模型先在海量真實細胞中「通讀語料」，再去做各種下游任務。

還有一個非常值得注意的設計：scLong甚至把零表達也當作信息來建模。因為零不一定意味著「沒意義」，它可能代表「表達太低沒測到」，也可能代表「這個基因在該細胞里確實被關閉了」。

前者可能對應弱但真實的生物信號，后者則可能恰恰揭示了某種細胞身份或調控狀態。對于單細胞數據來說，這種「把缺席也當作信息」的思路非常重要。

從基因擾動到藥物反應

遺傳擾動預測：沒見過的擾動，也更會猜

在遺傳擾動任務中，模型需要根據細胞擾動前的表達和擾動條件，預測擾動后的表達變化。

論文使用Norman數據集進行評測，并特別關注模型對未見過擾動組合的泛化能力。結果顯示，scLong在大多數場景下都優于 Geneformer、scGPT、scFoundation、UCE，以及任務專用模型GEARS、ALM和簡單基線No-Change。尤其是在更困難的Seen 0/1和Seen 0/2場景中，scLong的優勢更明顯：例如在Seen 0/1 場景下，scLong的Pearson相關系數達到0.625，高于GEARS的0.561；在Seen 0/2場景下，scLong的MSE為0.170，也優于多數基線。

不僅如此，scLong對雙基因擾動中的協同（synergy）和抑制（suppressor）兩類遺傳互作的識別也優于GEARS。

這意味著它不僅能預測「會變多少」，還更接近理解「這些基因之間是怎樣一起起作用的」。

化學擾動預測：新藥上來，先讓模型「測一測」

在化學擾動任務中，模型輸入藥物分子圖、劑量和細胞系信息，輸出擾動后的基因表達。論文在L1000子集上評估了scLong，結果顯示：無論是RMSE、Spearman/Pearson 相關，還是Top-100精度指標，scLong都顯著優于Geneformer、scGPT、scFoundation、UCE和任務專用模型DeepCE。

換句話說，面對一個新化合物，scLong更擅長預判它會把細胞「推向什么狀態」。

癌癥藥物反應預測：更懂癌細胞，也更懂聯合用藥

在癌癥藥物反應預測任務中，模型需要根據藥物結構和癌細胞表達譜，預測藥物療效。論文在DeepCDR數據集上報告，scLong的Pearson相關系數達到0.878，高于Geneformer 的0.852、scFoundation的0.867、DeepCDR的0.837以及線性模型的0.746

更有意思的是，研究團隊還把問題升級到藥物組合預測：同一個癌細胞系面對兩種藥物聯用，會不會有更好的反應？

在分布外測試集上，scLong的AUROC達到0.652，同樣超過了多種基礎模型和任務模型。這說明它不僅能看單藥，還能在更復雜的聯合治療場景中提供線索。

基因調控網絡與批次整合：不僅會預測，還會「組織知識」

在基因調控網絡（GRN）推斷任務中，scLong從基因表示之間的相似性出發，去重建誰調控誰。

結果顯示，其AUPR達到1.35，顯著優于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3以及直接使用GO圖的基線。

也就是說，scLong學到的并不是「死記硬背」的GO網絡，而是結合具體細胞數據后更貼近真實生物系統的關系圖。

在零樣本批次整合任務中，scLong在pancreas數據集上取得0.96的batch ASW，超過Raw、HVG、scVI以及其他foundation model

值得注意的是，scLong既沒有在這個數據集上預訓練，也沒有微調，卻仍然超過了專門在該數據集上訓練的scVI，顯示出很強的遷移性。

最后，消融實驗也給出了很強的支撐：去掉低表達基因建模、或者去掉 GO 圖后，性能都會下降。這說明scLong的提升不是偶然，而正是來自「看全基因」和「引入生物知識」這兩件事本身。

核心亮點總結

從「看少數基因」走向「看全基因組」：它把約 2.8 萬個基因都納入上下文建模，而不是只盯著高表達基因。

把生物知識真正嵌進模型：GO 不再只是注釋表，而是參與到基因表示學習的核心結構中。

大規模預訓練帶來強遷移能力：基于 4800 萬細胞的預訓練，讓模型在多個下游任務上都能穩健發揮。

不只是「更大」，而是「更懂生物」：論文最重要的啟發不是參數量本身，而是證明了低表達/零表達基因和結構化先驗知識，對單細胞 foundation model 來說都非常關鍵。

實際應用前景

從應用角度看，scLong 展示出的潛力相當清晰。

首先，在基因擾動與功能研究中，它可以幫助研究者更快預測敲除、過表達、組合擾動可能帶來的轉錄組變化，從而減少大量濕實驗試錯成本。

其次，在藥物發現和精準醫學中，它能夠預測化學擾動和癌癥藥物反應，為候選藥物篩選、聯合用藥設計和個體化治療提供計算支持。

再次，在系統生物學層面，它還能輔助重建基因調控網絡、理解細胞狀態轉換，并在多批次數據整合中提供更穩定的細胞表示。論文作者也指出，這樣的模型有望進一步推動精準醫療、藥物研發和細胞生物學研究。

更長遠地看，scLong代表了一種很值得關注的方向：單細胞基礎模型不應只是把Transformer搬到生物數據上，而應該同時擁抱「全局上下文」和「領域知識」。

當模型既能「讀完整本基因之書」，又能理解每個基因在生物學中的位置，它才更有可能真正成為生命科學里的通用智能工具。

參考資料：

https://www.nature.com/articles/s41467-026-69102-y

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.