撰文丨王聰
編輯丨王多魚
排版丨水成文
在生物醫(yī)學研究領域,科學家們一直夢想能擁有一個“虛擬細胞”(Virtual Cell)——一個可以像計算機模擬天氣一樣,精準模擬真實細胞狀態(tài)、并能預測細胞在藥物或基因擾動下如何反應的數(shù)字模型。如今,這個夢想正被人工智能(AI)推向現(xiàn)實。
對細胞狀態(tài)進行建模并預測其對干擾的反應,是計算生物學和虛擬細胞開發(fā)中的核心挑戰(zhàn)。現(xiàn)有的單細胞轉錄組學基礎模型提供了強大的靜態(tài)表示,但它們并未明確地對細胞狀態(tài)的分布進行建模以用于生成模擬。
近日,阿里達摩院的研究團隊在預印本平臺 arXiv 上發(fā)布了題為:Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells 的研究論文。
該研究發(fā)布了生成式細胞世界模型——靈樞細胞(Lingshu-Cell),該模型能夠以前所未有的精度模擬細胞的轉錄組狀態(tài),并預測細胞在面對遺傳改變(例如基因擾動)或外界刺激(例如細胞因子藥物)時的整體反應,為藥物研發(fā)、疾病機制研究和個性化醫(yī)療打開了新大門。這項工作突破了靜態(tài)表征學習,朝著細胞狀態(tài)分布和擾動響應的生成式建模邁進了一步,向虛擬細胞邁進了重要一步。
![]()
靈樞細胞的亮點——
提出了一種基于掩碼離散擴散框架的單細胞轉錄組學生成式細胞世界模型。
可直接在與單細胞 RNA 測序數(shù)據(jù)的稀疏性和非連續(xù)性相兼容的離散標記空間中對約 18000 個基因進行全轉錄組建模,無需事先選擇基因。
在不同組織和物種中能夠準確捕捉細胞狀態(tài)分布、標記基因表達模式和細胞亞型比例。
在預測基因和細胞因子擾動下的細胞反應方面也表現(xiàn)出色。
從“拍照存檔”到“動態(tài)模擬”:單細胞研究的范式轉變
過去十年,單細胞 RNA 測序技術讓我們能夠以前所未有的分辨率窺見生命的基本單元——細胞內(nèi)部的基因活動圖譜。然而,現(xiàn)有的分析方法大多停留在“拍照存檔”和分類描述的階段,缺乏預測和動態(tài)模擬的能力。
傳統(tǒng)的 AI 模型,例如 scGPT、Geneformer 等,雖然能學習細胞的靜態(tài)特征,但無法生成新的、逼真的細胞狀態(tài),更難以預測“如果對細胞進行某種操作,它會變成什么樣”。而一些生成模型,又受限于其連續(xù)數(shù)據(jù)的假設,與單細胞數(shù)據(jù)本身稀疏、離散的特性不匹配,效果大打折扣。
該研究推出的靈樞細胞(Lingshu-Cell)的核心突破,在于它找到了一條更貼合生物學數(shù)據(jù)本質(zhì)的技術路徑。靈樞細胞是一種用于細胞狀態(tài)全轉錄組生成建模的掩碼離散擴散模型。其通過通過離散基因表達詞元的掩碼和預測目標進行訓練。這種設計能夠實現(xiàn)全轉錄組譜的非自回歸雙向優(yōu)化,同時與單細胞 RNA 測序數(shù)據(jù)的稀疏性和非序列性相兼容。
技術核心:掩碼離散擴散模型
就像教 AI 玩一個“基因填空”游戲,研究團隊將單個細胞中約 1.8 萬個基因的表達量(活躍程度)轉換成離散的“詞元”(Token)。然后,隨機遮蓋(掩碼)其中一部分基因,讓 AI 模型根據(jù)上下文去預測被遮蓋基因應有的表達水平。通過海量數(shù)據(jù)的訓練,模型逐漸學會了細胞內(nèi)部復雜的基因調(diào)控網(wǎng)絡和表達規(guī)律。
這種“掩碼離散擴散模型”(masked discrete diffusion model)架構,完美契合了單細胞數(shù)據(jù)沒有固定順序、高度稀疏的特點。它無需事先篩選“重要基因”,而是直接在全轉錄組層面進行建模,從而能更完整、更真實地捕捉細胞的異質(zhì)性。
![]()
靈樞細胞框架概述
兩大核心能力:創(chuàng)造與預測
1、高保真“創(chuàng)造”虛擬細胞
研究團隊在涵蓋人類 8 種組織(包括大腦皮層、心臟、肺)和 4 個其他物種(小鼠、獼猴、斑馬魚、果蠅)的海量數(shù)據(jù)上測試了靈樞模型。結果表明,靈樞模型生成的虛擬細胞,不僅在整體基因表達分布上與真實細胞高度一致,還能精確復現(xiàn)不同細胞類型特有的“標記基因”表達模式,以及各種細胞亞型的比例。這意味著 AI 模型已經(jīng)學會了生命在不同組織和物種中“設計”細胞的基本法則。
2、精準預測細胞“應激反應”
更令人興奮的是它的預測能力。研究團隊將細胞類型和擾動信息(例如要敲除的基因、或要添加的細胞因子)作為條件輸入模型,靈樞細胞便能預測出細胞在擾動后的全轉錄組表達變化。
在“虛擬細胞挑戰(zhàn)賽”的基因擾動基準測試中,靈樞細胞在 25 支頂尖團隊中取得了最佳綜合排名,尤其在預測表達變化的絕對誤差和相關性上表現(xiàn)最優(yōu)。
在預測細胞因子對免疫細胞的影響時,靈樞細胞同樣表現(xiàn)卓越,它能準確預測不同供體的外周血單核細胞在 90 種不同細胞因子刺激下的反應,為理解免疫應答和個人化用藥提供了強大工具。
![]()
靈樞細胞準確預測細胞系對基因擾動的單細胞轉錄組反應
![]()
靈樞細胞準確預測外周血單個核細胞(PBMC)對細胞因子干擾的單細胞轉錄組反應
邁向“虛擬細胞”時代:無限的應用想象
靈樞細胞的成功,標志著單細胞生物學從“靜態(tài)圖譜”邁向“動態(tài)模擬”的關鍵一步。它作為一個統(tǒng)一的細胞世界模型,為未來的生物醫(yī)學研究帶來了革命性的可能性:
加速藥物發(fā)現(xiàn):在計算機中大規(guī)模、低成本地模擬藥物對各類細胞的影響,快速篩選候選藥物,降低實驗成本和失敗率。
揭示疾病機制:模擬疾病狀態(tài)下細胞的異常變化,或預測基因突變導致的后果,從而深入理解癌癥、自身免疫病等復雜疾病的根源。
個性化醫(yī)療:結合個人的細胞數(shù)據(jù),預測其對特定治療方案的反應,實現(xiàn)真正的精準醫(yī)療。
“靈樞”一詞,源自中醫(yī)經(jīng)典《黃帝內(nèi)經(jīng)》,意指生命活動的關鍵與樞紐。達摩院以此命名,寓意其模型旨在捕捉細胞生命活動的核心規(guī)律。靈樞細胞不僅是 AI 在計算生物學領域的一次技術勝利,更是我們向理解生命復雜性、并最終駕馭它來改善人類健康邁出的堅實一步,也標志著虛擬細胞的時代正在到來。
論文鏈接:
https://arxiv.org/abs/2603.25240
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.