![]()
新智元報道
編輯:LRST
【新智元導讀】十億參數單細胞基礎模型scLong不再只看少數高表達基因,而是把一個細胞里接近 2.8 萬個基因 都納入建模,并結合 Gene Ontology(GO) 的生物學知識,去理解更完整的基因上下文。
在單細胞轉錄組學領域,研究者希望從每個細胞的基因表達中讀出細胞狀態、調控關系,甚至預測當某個基因被敲除、某種藥物被加入后,細胞會發生什么變化。
過去幾年,foundation model(基礎模型)開始進入這一領域,顯示出強大的遷移能力;但長期以來,現有方法往往為了節省計算,只關注少量高表達基因,忽略了大量低表達甚至零表達基因,同時也缺少對外部基因功能知識的系統整合。這不僅會丟失重要調控信號,也容易讓模型對復雜生物過程「只見樹木,不見森林」。
![]()
近日,MBZUAI、加州大學圣地亞哥分校(UC San Diego)等機構聯合團隊在 Nature Communications 發表研究成果scLong。
![]()
論文鏈接:https://www.nature.com/articles/s41467-026-69102-y
這是一種擁有10億參數的單細胞基礎模型,基于約4800萬個細胞進行預訓練,能夠在整個人類轉錄組范圍內對約27874個基因建模,并將GO(Gene Ontology) 提供的結構化生物學知識融入模型中。
論文報告顯示,scLong在遺傳擾動預測、化學擾動預測、癌癥藥物反應預測、基因調控網絡推斷等多項任務上,均優于現有單細胞基礎模型和多種任務專用模型。
研究背景
為什么單細胞領域需要一個「更長」的模型?
因為一個細胞并不是只由少數幾個「明星基因」決定的。很多現有模型只在約 1500 到 2000 個高表達基因上做 self-attention,這樣確實更省算力,但代價是:大量低表達基因被排除在外。
而這些低表達基因雖然「聲音不大」,卻常常扮演調控開關、信號微調器,甚至在稀有細胞類型、應激反應、疾病進展中發揮關鍵作用。
換句話說,過去很多模型更像是在讀「摘要」,而不是在讀「全文」。
另一個問題是,單靠表達矩陣本身,模型未必能真正理解「這個基因是干什么的」。
而Gene Ontology恰恰提供了基因在生物過程(Biological Process)、分子功能(Molecular Function)、細胞組分(Cellular Component)上的結構化知識。過去很多模型主要從數據里「自己悟」,但沒有顯式利用這些成熟的生物學先驗,因此在理解功能關聯、調控關系和跨條件泛化時仍然受限。
于是,scLong想做的事情很直接:不僅把基因看全,還要把基因「看懂」。
把一個細胞,讀成一整句話
![]()
如果用自然語言來打比方,scLong的核心思想很有畫面感:把一個細胞的整條基因表達譜,當成一句非常長、非常復雜的話來讀。
在這個「句子」里,每個「詞」不是普通單詞,而是一個 「基因 ID + 表達值」 的組合。模型先用一個表達編碼器,把數值型表達量映射成向量;再用一個基因編碼器,為每個基因生成帶有生物學含義的表示;兩者相加后,就得到這個「詞」的初始表示。
隨后,模型通過上下文編碼器,讓這些基因彼此「看見對方」,從而學習基因之間在當前細胞中的上下文關系。
這里最有意思的一點是:scLong并沒有粗暴地把低表達基因扔掉。 它采用了一個雙編碼器設計:對高表達基因使用更大的Performer編碼器,對低表達基因使用更小的Performer編碼器,最后再通過一個full-length Performer把全體基因整合起來。這樣既盡量保住了全基因組范圍的上下文信息,又在計算量和建模能力之間做了平衡。
更進一步,scLong還把GO知識圖譜 接進來了。研究團隊先根據基因共享的GO注釋來構建基因圖:
如果兩個基因在生物過程、分子功能或細胞定位上足夠相似,它們就會被連接起來;
然后再用圖卷積網絡(GCN)來學習基因表示。
這樣一來,模型不僅知道「這個基因在這個細胞里表達了多少」,還知道「這個基因通常和哪些功能、哪些基因有關系」。這相當于給每個「詞」都加了一層背景知識。
預訓練方面,scLong使用的是一種類似BERT的思路:隨機遮掉一部分表達值,讓模型去重建它們。
研究團隊用來自1618個單細胞數據集、覆蓋50多種組織 的約4800萬個人類細胞 進行預訓練,覆蓋27874個基因,其中既包括蛋白編碼基因,也包括非編碼基因。對單細胞領域來說,這相當于讓模型先在海量真實細胞中「通讀語料」,再去做各種下游任務。
還有一個非常值得注意的設計:scLong甚至把零表達也當作信息來建模。 因為零不一定意味著「沒意義」,它可能代表「表達太低沒測到」,也可能代表「這個基因在該細胞里確實被關閉了」。
前者可能對應弱但真實的生物信號,后者則可能恰恰揭示了某種細胞身份或調控狀態。對于單細胞數據來說,這種「把缺席也當作信息」的思路非常重要。
從基因擾動到藥物反應
遺傳擾動預測:沒見過的擾動,也更會猜
![]()
在遺傳擾動任務中,模型需要根據細胞擾動前的表達和擾動條件,預測擾動后的表達變化。
論文使用Norman數據集進行評測,并特別關注模型對未見過擾動組合的泛化能力。結果顯示,scLong在大多數場景下都優于 Geneformer、scGPT、scFoundation、UCE,以及任務專用模型GEARS、ALM和簡單基線No-Change。尤其是在更困難的Seen 0/1和Seen 0/2場景中,scLong的優勢更明顯:例如在Seen 0/1 場景下,scLong的Pearson相關系數達到0.625,高于GEARS的0.561;在Seen 0/2場景下,scLong的MSE為0.170,也優于多數基線。
不僅如此,scLong對雙基因擾動中的協同(synergy)和抑制(suppressor)兩類遺傳互作的識別也優于GEARS。
這意味著它不僅能預測「會變多少」,還更接近理解「這些基因之間是怎樣一起起作用的」。
化學擾動預測:新藥上來,先讓模型「測一測」
在化學擾動任務中,模型輸入藥物分子圖、劑量和細胞系信息,輸出擾動后的基因表達。論文在L1000子集上評估了scLong,結果顯示:無論是RMSE、Spearman/Pearson 相關,還是Top-100精度指標,scLong都顯著優于Geneformer、scGPT、scFoundation、UCE和任務專用模型DeepCE。
換句話說,面對一個新化合物,scLong更擅長預判它會把細胞「推向什么狀態」。
癌癥藥物反應預測:更懂癌細胞,也更懂聯合用藥
在癌癥藥物反應預測任務中,模型需要根據藥物結構和癌細胞表達譜,預測藥物療效。論文在DeepCDR數據集上報告,scLong的Pearson相關系數達到0.878,高于Geneformer 的0.852、scFoundation的0.867、DeepCDR的0.837以及線性模型的0.746
![]()
更有意思的是,研究團隊還把問題升級到藥物組合預測:同一個癌細胞系面對兩種藥物聯用,會不會有更好的反應?
在分布外測試集上,scLong的AUROC達到0.652,同樣超過了多種基礎模型和任務模型。這說明它不僅能看單藥,還能在更復雜的聯合治療場景中提供線索。
基因調控網絡與批次整合:不僅會預測,還會「組織知識」
在基因調控網絡(GRN)推斷任務中,scLong從基因表示之間的相似性出發,去重建誰調控誰。
結果顯示,其AUPR達到1.35,顯著優于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3以及直接使用GO圖的基線。
也就是說,scLong學到的并不是「死記硬背」的GO網絡,而是結合具體細胞數據后更貼近真實生物系統的關系圖。
![]()
在零樣本批次整合任務中,scLong在pancreas數據集上取得0.96的batch ASW,超過Raw、HVG、scVI以及其他foundation model
值得注意的是,scLong既沒有在這個數據集上預訓練,也沒有微調,卻仍然超過了專門在該數據集上訓練的scVI,顯示出很強的遷移性。
最后,消融實驗也給出了很強的支撐:去掉低表達基因建模、或者去掉 GO 圖后,性能都會下降。這說明scLong的提升不是偶然,而正是來自「看全基因」和「引入生物知識」這兩件事本身。
核心亮點總結
從「看少數基因」走向「看全基因組」:它把約 2.8 萬個基因都納入上下文建模,而不是只盯著高表達基因。
把生物知識真正嵌進模型:GO 不再只是注釋表,而是參與到基因表示學習的核心結構中。
大規模預訓練帶來強遷移能力:基于 4800 萬細胞的預訓練,讓模型在多個下游任務上都能穩健發揮。
不只是「更大」,而是「更懂生物」:論文最重要的啟發不是參數量本身,而是證明了低表達/零表達基因和結構化先驗知識,對單細胞 foundation model 來說都非常關鍵。
實際應用前景
從應用角度看,scLong 展示出的潛力相當清晰。
首先,在基因擾動與功能研究中,它可以幫助研究者更快預測敲除、過表達、組合擾動可能帶來的轉錄組變化,從而減少大量濕實驗試錯成本。
其次,在藥物發現和精準醫學中,它能夠預測化學擾動和癌癥藥物反應,為候選藥物篩選、聯合用藥設計和個體化治療提供計算支持。
再次,在系統生物學層面,它還能輔助重建基因調控網絡、理解細胞狀態轉換,并在多批次數據整合中提供更穩定的細胞表示。論文作者也指出,這樣的模型有望進一步推動精準醫療、藥物研發和細胞生物學研究。
更長遠地看,scLong代表了一種很值得關注的方向:單細胞基礎模型不應只是把Transformer搬到生物數據上,而應該同時擁抱「全局上下文」和「領域知識」。
當模型既能「讀完整本基因之書」,又能理解每個基因在生物學中的位置,它才更有可能真正成為生命科學里的通用智能工具。
參考資料:
https://www.nature.com/articles/s41467-026-69102-y
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.