![]()
單細胞測序的稀疏性曾被視為技術局限,ScDiVa卻將其轉化為建模優勢。
![]()
單細胞RNA測序(scRNA-seq)技術的快速發展使研究者能夠以前所未有的分辨率解析細胞異質性。然而,該技術產生的數據具有高維、極度稀疏(零值比例常超過80%)和無序集合(unordered multiset)的特性,給計算建模帶來根本性挑戰。
針對上述問題,來自中國人民大學高瓴人工智能學院和開睿醫療的團隊提出ScDiVa(Single-cell Masked Diffusion for Identity & Value),全球首個基于掩碼離散擴散的單細胞基礎模型。該模型在59,162,450個單細胞轉錄組上完成預訓練,系統性驗證了其在重建、整合、注釋及因果推斷等任務上的優越性能,大幅度領先已有細胞基礎模型。該工作第一作者為中國人民大學研究生王銘軒,通訊作者為中國人民大學高瓴人工智能學院馬彥彪老師和開睿醫療施璐博士。
項目已全面開源:
? 論文:https://arxiv.org/abs/2602.03477
? 模型:https://huggingface.co/warming666/ScDiVa
? 代碼:https://github.com/wangmingxuan666/ScDiVa
? 數據集:https://huggingface.co/datasets/warming666/ScDiVa
? 項目網站:https://wangmingxuan666.github.io/ScDiVa-web/
01
從結構性錯配到機制對齊:為什么掩碼擴散更適合單細胞數據?
理解ScDiVa的創新,需先厘清現有方法的局限。
自回歸模型的順序困境
自回歸(AR)模型通過“從左到右”依次預測基因表達來生成細胞狀態。這種設計隱含了一個假設:基因之間存在嚴格的因果時序。然而在真實的基因調控網絡中,調控關系多為對稱或循環的——轉錄因子A激活基因B的同時,B的產物也可能反饋調節A。強制線性順序不僅引入了生物學上不存在的依賴關系,還會導致“暴露偏差”(exposure bias):早期預測的微小誤差會沿序列級聯放大,使整個細胞狀態的重建偏離真實軌跡。
高斯擴散的數值困境
另一類方法將表達值視為連續變量,通過添加高斯噪聲進行擴散建模。但單細胞測序中的“零值”具有雙重含義:可能是基因真實不表達,也可能是技術性信號丟失。高斯噪聲假設數值擾動是平滑連續的,卻無法區分“低表達”與“信號丟失”這兩種本質不同的狀態。這導致模型傾向于生成“過度平滑”的表達譜,丟失了基因激活/失活的離散事件特性。
ScDiVa的機制同構設計
ScDiVa的核心突破在于建立了前向擴散過程與技術性dropout之間的數學同構。模型定義了一個連續時間的馬爾可夫過程 :在任意時刻 ,每個基因位置以概率 被替換為吸收態[MASK](即完全信息丟失),以概率 1-t 保留原始狀態。這一設計與單細胞測序的物理機制高度一致——當 時,所有信號消失,對應極低測序深度;當 趨于0時,信號完整保留,對應高深度測序。
更重要的是,ScDiVa采用雙向Transformer編碼器進行去噪,可同時利用所有未掩碼位置的全局上下文推斷被掩碼基因。這完美契合基因調控的非順序性:推斷基因A的狀態時,既可參考上游調控因子,也可參考下游效應基因,形成閉環推理。該設計從根本上避免了AR模型的暴露偏差及人為順序依賴。
![]()
ScDiVa架構概覽。該框架采用掩碼建模方法,引入潛在編碼器以捕獲細胞的全局上下文信息。輸入的基因表達譜經隨機掩碼后,通過一個配備RoPE相對位置編碼和SwiGLU激活函數的12層Transformer編碼器進行處理。模型優化雙重目標損失(L):結合交叉熵損失(LCE)用于基因身份重建,以及均方誤差損失(LMSE)用于表達量值回歸,實現基因調控拓撲與表達劑量的聯合建模。
02
關鍵技術組件:如何實現身份與表達量的聯合建模?
單細胞表達譜包含兩類異質信息:基因身份(決定調控拓撲)與表達量值(編碼功能劑量)。傳統方法往往側重其一:離散tokenization擅長捕獲身份結構但丟失數值精度;連續回歸保留數值信息卻模糊了基因事件的離散性。
ScDiVa提出雙重去噪損失(Dual Denoising Loss),在統一框架下同步優化兩類目標:
? 身份損失(L id ):對掩碼位置進行基因分類,重建調控網絡的拓撲結構
? 值損失(L val ):對同一位置進行表達值回歸,恢復精確的劑量信息
二者通過加權組合: 。理論推導表明,該目標等價于聯合分布的變分下界(ELBO)最大化,確保模型學習到身份與值的聯合概率分布。
為在有限上下文窗口(ScDiVa設為1200)內編碼最大信息量,模型進一步引入熵歸一化序列化(Entropy-Normalized Serialization)。傳統按表達量降序選取基因的方法易陷入“高豐度陷阱”:管家基因(如GAPDH、ACTB)在所有細胞中高表達,占據大量token卻提供極少的細胞類型判別信息。ScDiVa對每個基因計算群體水平的Shannon熵 ,熵值越低表示該基因在細胞群體中表達越一致(判別力弱)。排序分數定義為:
該公式對高豐度但低熵的管家基因施加“懲罰”,使模型將token預算分配給高判別性的稀有基因。實驗表明,該策略在細胞注釋任務中使Macro-F1提升5.3%,尤其改善了稀有細胞類型的識別。
針對不同單細胞實驗測序深度差異巨大的問題(10x Genomics平臺通常每個細胞測得1000–5000個UMI,而Smart-seq2可達數十萬),ScDiVa設計了深度不變采樣(Depth-Invariant Sampling)策略:將擴散時間 視為測序深度的倒數代理,訓練時均勻采樣 ,迫使模型學習一個深度不變的規范流形。該設計使模型無需顯式批次校正即可在多批次整合任務中實現技術噪聲消除與生物信號保留的最優平衡。
03
系統性驗證:從重建到因果推斷的全棧能力
ScDiVa在5900余萬個單細胞轉錄組上完成預訓練,系統性評估覆蓋四大任務層級:
1.重建任務:同時恢復基因排序與表達量
重建任務要求模型同時恢復基因的相對排序(Rank)與絕對表達量(Value)。ScDiVa在4個基準數據集上全面超越基線:在極度稀疏的Immune數據集(88%零值)上,Spearman秩相關系數達0.970,比次優模型GeneMamba(0.844)提升14.9%;在PBMC12k上,相關性達0.812,提升14.2%。關鍵的是,ScDiVa在Value維度的提升未以犧牲Rank為代價——BLEU分數保持0.987,證明其避免了“數值平滑化”陷阱。
![]()
使用L-Dist(↓)、BLEU(↑) 和Spearman(↑) 對多個數據集的重建質量進行評估。
2.多批次整合:消除技術噪聲同時保留生物信號
整合任務要求模型消除不同實驗平臺、不同測序深度引入的技術批次效應,同時保留真實的生物異質性。ScDiVa在5個異構數據集上實現Avg-Batch(批次混合度)與Avg-Bio(生物結構保留度)的帕累托最優:在PBMC12k上,Avg-Batch達0.9960(近乎完美混合),Avg-Bio達0.9566(生物結構高度保留);在病理狀態復雜的COVID-19數據集上,Avg-Bio達0.6689,比次優模型scGPT(0.6476)提升3.3%。
![]()
ScDiVa展現出卓越
的批次集成能力,在各種基準測試中,平衡了技術噪聲消除(
Avg-Batch
)和生物保護(
Avg-Bio
scDiVa
與領先基準在各種基準測試中的比較。
3.細胞注釋:精準識別稀有細胞類型
在4個組織特異性數據集上的微調實驗中,ScDiVa在hPancreas上達到98.6%準確率與0.7919 Macro-F1;在高度不平衡的多發性硬化癥(MS)數據集上,Macro-F1達0.7271,比GeneMamba提升36%。零樣本評估(凍結主干,僅訓練分類頭)在8個數據集上平均準確率91.4%,Macro-F10.841,表明預訓練表征具備強大的泛化能力。
![]()
ScDiVa 在精細調整(針對特定組織)和零樣本場景中均能實現高精度
4.擾動預測與調控網絡推斷:邁向因果理解
在Adamson單基因擾動數據集上,ScDiVa預測與觀測的表達變化相關性達0.837,MSE 0.134;在Norman雙基因擾動數據集上,相關性0.709,成功建模非加性遺傳互作。對髓系主調控因子SPI1的分析顯示:模型精準識別其促進髓系標記(MS4A3、FTH1)同時抑制紅系基因(HBG1/2)的雙重邏輯,且排除了非因果的細胞周期基因(CCNB2、TOP2A),驗證了模型的生物學可解釋性。
![]()
03
范式轉移:離散擴散為何是單細胞建模的“自然選擇”?
ScDiVa的成功驗證了一種領域原生的建模范式。與自回歸和高斯擴散相比,掩碼離散擴散在三個維度上與單細胞數據本質對齊:
維度
自回歸模型
掩碼離散擴散(ScDiVa)
結構假設
強制線性順序,破壞調控對稱性
無序集合建模,尊重基因調控的非順序性
噪聲建模
無顯式噪聲模型
掩碼吸收態,與技術性dropout同構
生成機制
順序采樣,誤差級聯
并行去噪,利用全局上下文,避免暴露偏差
這種對齊不是工程技巧的堆砌,而是將數據生成的物理機制內化為模型先驗。當AI模型的歸納偏置與數據的生成機制一致時,學習效率與泛化能力將獲得質的提升。
05
應用前景
? 基礎研究:作為“ 計算顯微鏡 ” ,通過注意力分析揭示未知調控關系,指導濕實驗驗證
? 臨床轉化:在癌癥異質性分析中識別稀有耐藥亞群;在免疫治療中預測T 細胞響應;在再生醫學中設計最優重編程路徑
? 技術融合:框架可擴展至空間轉錄組、多組學整合等場景,構建統一的單細胞多模態生成模型
單細胞測序的稀疏性曾被視為技術局限,ScDiVa卻將其轉化為建模優勢。這不僅是工程創新,更是對“如何讓AI理解生命數據”這一根本問題的重新思考——真正的智能不在于對抗世界的不完美,而在于理解不完美背后的生成邏輯,并與之共舞。
06
ScDiVa 背后的科研工作者
本文第一作者王銘軒本科就讀吉林大學數學學院,現為中國人民大學統計學院2026級碩士研究生,研究方向聚焦于AI for Science,大模型機理等,于高瓴人工智能學院馬彥彪老師處進行科研實習。
2023至2024年,他曾在吉林大學數學學院進行科研實習,從事時間序列領域的研究。
自2024年起,王銘軒開始參與馬彥彪老師課題,深度參與與開睿公司合作的細胞大模型項目。
![]()
本文的通訊作者為馬彥彪,他是中國人民大學高瓴人工智能學院講師。于2020年和2025年獲得西安電子科技大學學士和博士學位,導師為焦李成教授。
他的研究方向涵蓋大模型機理,多模態大模型圖文理解,多智能體系統優化,長尾學習等,以第一作者和通訊作者在TPAMI、IJCV、CVPR、ICLR等人工智能領域頂級期刊發表論文20余篇,曾獲6項由IGARSS、CVPR、ICCV等舉辦的國際競賽冠軍。長期擔任TPAMI、CVPR、NeurIPS、ICLR等期刊和會議的審稿人。
![]()
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.