337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

當AI第一次讀完整本基因之書,十億參數單細胞大模型能干什么?

0
分享至


新智元報道

編輯:LRST

【新智元導讀】十億參數單細胞基礎模型scLong不再只看少數高表達基因,而是把一個細胞里接近 2.8 萬個基因 都納入建模,并結合 Gene Ontology(GO) 的生物學知識,去理解更完整的基因上下文。

在單細胞轉錄組學領域,研究者希望從每個細胞的基因表達中讀出細胞狀態、調控關系,甚至預測當某個基因被敲除、某種藥物被加入后,細胞會發生什么變化。

過去幾年,foundation model(基礎模型)開始進入這一領域,顯示出強大的遷移能力;但長期以來,現有方法往往為了節省計算,只關注少量高表達基因,忽略了大量低表達甚至零表達基因,同時也缺少對外部基因功能知識的系統整合。這不僅會丟失重要調控信號,也容易讓模型對復雜生物過程「只見樹木,不見森林」。


近日,MBZUAI、加州大學圣地亞哥分校(UC San Diego)等機構聯合團隊在 Nature Communications 發表研究成果scLong。


論文鏈接:https://www.nature.com/articles/s41467-026-69102-y

這是一種擁有10億參數的單細胞基礎模型,基于約4800萬個細胞進行預訓練,能夠在整個人類轉錄組范圍內對約27874個基因建模,并將GO(Gene Ontology) 提供的結構化生物學知識融入模型中。

論文報告顯示,scLong在遺傳擾動預測、化學擾動預測、癌癥藥物反應預測、基因調控網絡推斷等多項任務上,均優于現有單細胞基礎模型和多種任務專用模型。

研究背景

為什么單細胞領域需要一個「更長」的模型?

因為一個細胞并不是只由少數幾個「明星基因」決定的。很多現有模型只在約 1500 到 2000 個高表達基因上做 self-attention,這樣確實更省算力,但代價是:大量低表達基因被排除在外。

而這些低表達基因雖然「聲音不大」,卻常常扮演調控開關、信號微調器,甚至在稀有細胞類型、應激反應、疾病進展中發揮關鍵作用。

換句話說,過去很多模型更像是在讀「摘要」,而不是在讀「全文」。

另一個問題是,單靠表達矩陣本身,模型未必能真正理解「這個基因是干什么的」。

而Gene Ontology恰恰提供了基因在生物過程(Biological Process)、分子功能(Molecular Function)、細胞組分(Cellular Component)上的結構化知識。過去很多模型主要從數據里「自己悟」,但沒有顯式利用這些成熟的生物學先驗,因此在理解功能關聯、調控關系和跨條件泛化時仍然受限。

于是,scLong想做的事情很直接:不僅把基因看全,還要把基因「看懂」。

把一個細胞,讀成一整句話


如果用自然語言來打比方,scLong的核心思想很有畫面感:把一個細胞的整條基因表達譜,當成一句非常長、非常復雜的話來讀。

在這個「句子」里,每個「詞」不是普通單詞,而是一個 「基因 ID + 表達值」 的組合。模型先用一個表達編碼器,把數值型表達量映射成向量;再用一個基因編碼器,為每個基因生成帶有生物學含義的表示;兩者相加后,就得到這個「詞」的初始表示。

隨后,模型通過上下文編碼器,讓這些基因彼此「看見對方」,從而學習基因之間在當前細胞中的上下文關系。

這里最有意思的一點是:scLong并沒有粗暴地把低表達基因扔掉。 它采用了一個雙編碼器設計:對高表達基因使用更大的Performer編碼器,對低表達基因使用更小的Performer編碼器,最后再通過一個full-length Performer把全體基因整合起來。這樣既盡量保住了全基因組范圍的上下文信息,又在計算量和建模能力之間做了平衡。

更進一步,scLong還把GO知識圖譜 接進來了。研究團隊先根據基因共享的GO注釋來構建基因圖:

如果兩個基因在生物過程、分子功能或細胞定位上足夠相似,它們就會被連接起來;

然后再用圖卷積網絡(GCN)來學習基因表示。

這樣一來,模型不僅知道「這個基因在這個細胞里表達了多少」,還知道「這個基因通常和哪些功能、哪些基因有關系」。這相當于給每個「詞」都加了一層背景知識。

預訓練方面,scLong使用的是一種類似BERT的思路:隨機遮掉一部分表達值,讓模型去重建它們。

研究團隊用來自1618個單細胞數據集、覆蓋50多種組織 的約4800萬個人類細胞 進行預訓練,覆蓋27874個基因,其中既包括蛋白編碼基因,也包括非編碼基因。對單細胞領域來說,這相當于讓模型先在海量真實細胞中「通讀語料」,再去做各種下游任務。

還有一個非常值得注意的設計:scLong甚至把零表達也當作信息來建模。 因為零不一定意味著「沒意義」,它可能代表「表達太低沒測到」,也可能代表「這個基因在該細胞里確實被關閉了」。

前者可能對應弱但真實的生物信號,后者則可能恰恰揭示了某種細胞身份或調控狀態。對于單細胞數據來說,這種「把缺席也當作信息」的思路非常重要。

從基因擾動到藥物反應

遺傳擾動預測:沒見過的擾動,也更會猜


在遺傳擾動任務中,模型需要根據細胞擾動前的表達和擾動條件,預測擾動后的表達變化。

論文使用Norman數據集進行評測,并特別關注模型對未見過擾動組合的泛化能力。結果顯示,scLong在大多數場景下都優于 Geneformer、scGPT、scFoundation、UCE,以及任務專用模型GEARS、ALM和簡單基線No-Change。尤其是在更困難的Seen 0/1和Seen 0/2場景中,scLong的優勢更明顯:例如在Seen 0/1 場景下,scLong的Pearson相關系數達到0.625,高于GEARS的0.561;在Seen 0/2場景下,scLong的MSE為0.170,也優于多數基線。

不僅如此,scLong對雙基因擾動中的協同(synergy)和抑制(suppressor)兩類遺傳互作的識別也優于GEARS。

這意味著它不僅能預測「會變多少」,還更接近理解「這些基因之間是怎樣一起起作用的」。

化學擾動預測:新藥上來,先讓模型「測一測」

在化學擾動任務中,模型輸入藥物分子圖、劑量和細胞系信息,輸出擾動后的基因表達。論文在L1000子集上評估了scLong,結果顯示:無論是RMSE、Spearman/Pearson 相關,還是Top-100精度指標,scLong都顯著優于Geneformer、scGPT、scFoundation、UCE和任務專用模型DeepCE。

換句話說,面對一個新化合物,scLong更擅長預判它會把細胞「推向什么狀態」。

癌癥藥物反應預測:更懂癌細胞,也更懂聯合用藥

在癌癥藥物反應預測任務中,模型需要根據藥物結構和癌細胞表達譜,預測藥物療效。論文在DeepCDR數據集上報告,scLong的Pearson相關系數達到0.878,高于Geneformer 的0.852、scFoundation的0.867、DeepCDR的0.837以及線性模型的0.746


更有意思的是,研究團隊還把問題升級到藥物組合預測:同一個癌細胞系面對兩種藥物聯用,會不會有更好的反應?

在分布外測試集上,scLong的AUROC達到0.652,同樣超過了多種基礎模型和任務模型。這說明它不僅能看單藥,還能在更復雜的聯合治療場景中提供線索。

基因調控網絡與批次整合:不僅會預測,還會「組織知識」

在基因調控網絡(GRN)推斷任務中,scLong從基因表示之間的相似性出發,去重建誰調控誰。

結果顯示,其AUPR達到1.35,顯著優于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3以及直接使用GO圖的基線。

也就是說,scLong學到的并不是「死記硬背」的GO網絡,而是結合具體細胞數據后更貼近真實生物系統的關系圖。


在零樣本批次整合任務中,scLong在pancreas數據集上取得0.96的batch ASW,超過Raw、HVG、scVI以及其他foundation model

值得注意的是,scLong既沒有在這個數據集上預訓練,也沒有微調,卻仍然超過了專門在該數據集上訓練的scVI,顯示出很強的遷移性。

最后,消融實驗也給出了很強的支撐:去掉低表達基因建模、或者去掉 GO 圖后,性能都會下降。這說明scLong的提升不是偶然,而正是來自「看全基因」和「引入生物知識」這兩件事本身。

核心亮點總結

從「看少數基因」走向「看全基因組」:它把約 2.8 萬個基因都納入上下文建模,而不是只盯著高表達基因。

把生物知識真正嵌進模型:GO 不再只是注釋表,而是參與到基因表示學習的核心結構中。

大規模預訓練帶來強遷移能力:基于 4800 萬細胞的預訓練,讓模型在多個下游任務上都能穩健發揮。

不只是「更大」,而是「更懂生物」:論文最重要的啟發不是參數量本身,而是證明了低表達/零表達基因和結構化先驗知識,對單細胞 foundation model 來說都非常關鍵。

實際應用前景

從應用角度看,scLong 展示出的潛力相當清晰。

首先,在基因擾動與功能研究中,它可以幫助研究者更快預測敲除、過表達、組合擾動可能帶來的轉錄組變化,從而減少大量濕實驗試錯成本。

其次,在藥物發現和精準醫學中,它能夠預測化學擾動和癌癥藥物反應,為候選藥物篩選、聯合用藥設計和個體化治療提供計算支持。

再次,在系統生物學層面,它還能輔助重建基因調控網絡、理解細胞狀態轉換,并在多批次數據整合中提供更穩定的細胞表示。論文作者也指出,這樣的模型有望進一步推動精準醫療、藥物研發和細胞生物學研究。

更長遠地看,scLong代表了一種很值得關注的方向:單細胞基礎模型不應只是把Transformer搬到生物數據上,而應該同時擁抱「全局上下文」和「領域知識」。

當模型既能「讀完整本基因之書」,又能理解每個基因在生物學中的位置,它才更有可能真正成為生命科學里的通用智能工具。

參考資料:

https://www.nature.com/articles/s41467-026-69102-y

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大快人心!日本持續暴跌達45%,中國人真不來了,高市已付出代價

大快人心!日本持續暴跌達45%,中國人真不來了,高市已付出代價

杰絲聊古今
2026-03-22 19:24:47
王衛安,已任湖南省政府黨組成員!徐華敏履新,任閩發鋁業副總經理!

王衛安,已任湖南省政府黨組成員!徐華敏履新,任閩發鋁業副總經理!

起喜電影
2026-03-24 14:00:18
含劇毒,無解藥!每家每戶都有,千萬別亂吃

含劇毒,無解藥!每家每戶都有,千萬別亂吃

周哥一影視
2026-03-22 17:19:26
全體起立!內地樓市“最后一跌”來了

全體起立!內地樓市“最后一跌”來了

扒財經
2026-03-24 15:20:19
對陣巴列卡諾亞馬爾不滿被換下:簡直離譜,怎么總是針對我

對陣巴列卡諾亞馬爾不滿被換下:簡直離譜,怎么總是針對我

懂球帝
2026-03-24 07:13:06
“億元村”飲水難的背后:重慶奉節縣永樂鎮大壩村部分村民反映,日常生活要喝雨水、溪溝水

“億元村”飲水難的背后:重慶奉節縣永樂鎮大壩村部分村民反映,日常生活要喝雨水、溪溝水

澎湃新聞
2026-03-24 13:42:03
680家門店的最大粵菜連鎖竟然不是廣東人開的

680家門店的最大粵菜連鎖竟然不是廣東人開的

商業弧光
2026-03-22 07:09:18
快訊!尹乃菁的反水給鄭麗文敲響了警鐘!

快訊!尹乃菁的反水給鄭麗文敲響了警鐘!

達文西看世界
2026-03-24 10:01:06
10戰10勝!看完上海隊接下來的8個對手,18連勝應該是手拿把掐了

10戰10勝!看完上海隊接下來的8個對手,18連勝應該是手拿把掐了

男足的小球童
2026-03-24 17:47:57
暴跌150萬:炒海景房的中產,深陷泥潭

暴跌150萬:炒海景房的中產,深陷泥潭

視覺志
2026-03-23 10:35:10
一位女按摩師揭秘:多數男客戶找我們,不僅僅是為了按摩!

一位女按摩師揭秘:多數男客戶找我們,不僅僅是為了按摩!

千秋歷史
2026-03-18 21:13:44
突發:一架C-130運輸機墜毀,“約80名軍人死亡”

突發:一架C-130運輸機墜毀,“約80名軍人死亡”

揚子晚報
2026-03-24 07:29:54
自己當選MVP理由?文班:防守威懾、幾乎橫掃雷霆、進攻影響

自己當選MVP理由?文班:防守威懾、幾乎橫掃雷霆、進攻影響

懂球帝
2026-03-24 12:21:17
56歲魯豫坐竹椅瘦脫相!手骨像枯枝,這病態美讓人心疼又上頭?

56歲魯豫坐竹椅瘦脫相!手骨像枯枝,這病態美讓人心疼又上頭?

娛樂領航家
2026-02-12 23:00:04
傅盛深夜向周鴻祎道歉:酒后沖動,一起打仗的日子是職業生涯最寶貴的記憶

傅盛深夜向周鴻祎道歉:酒后沖動,一起打仗的日子是職業生涯最寶貴的記憶

澎湃新聞
2026-03-24 09:12:26
為什么盜版音樂已被嚴格限制,而中國音樂卻還是沒有發展起來?

為什么盜版音樂已被嚴格限制,而中國音樂卻還是沒有發展起來?

小椰的奶奶
2026-03-22 11:56:34
35分0罰球!這紀錄要來干嘛?!

35分0罰球!這紀錄要來干嘛?!

左右為籃
2026-03-24 17:07:44
郭晶晶在香港組了個飯局,成就了含金量拉滿的“頂峰相見”

郭晶晶在香港組了個飯局,成就了含金量拉滿的“頂峰相見”

科學發掘
2026-03-24 13:53:46
邱貽可40歲生日,孫穎莎蒯曼聯袂慶生,高顏值師母竟是斯坦福學霸

邱貽可40歲生日,孫穎莎蒯曼聯袂慶生,高顏值師母竟是斯坦福學霸

章眽八卦
2026-03-24 11:01:28
外媒:美以伊戰事給印度經濟帶來“真正風暴”

外媒:美以伊戰事給印度經濟帶來“真正風暴”

參考消息
2026-03-24 14:18:40
2026-03-24 18:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14804文章數 66713關注度
往期回顧 全部

科技要聞

黃仁勛看透中國AI圈 人情世故卷出最快創新

頭條要聞

外媒披露特朗普"急轉彎"原因:盟友和海灣國家發出警告

頭條要聞

外媒披露特朗普"急轉彎"原因:盟友和海灣國家發出警告

體育要聞

NBA最強左手射手,是個右撇子

娛樂要聞

林峰張馨月全家浙江游 岳母幫忙帶女兒

財經要聞

很多人,都被黃金嚇怕了!

汽車要聞

尚界Z7雙車預售22.98萬起 問界M6預售26.98萬起

態度原創

旅游
藝術
健康
公開課
軍事航空

旅游要聞

景區NPC,“千街一面”的終結者來了?

藝術要聞

懷素去世前寫的草書,徐悲鴻贊嘆:天下無敵

轉頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

以色列媒體:美國計劃于4月9日結束對伊朗戰爭

無障礙瀏覽 進入關懷版