組織的細胞架構 —— 即不同細胞類型在空間中的組織方式 —— 是細胞間通訊、器官功能和病理學的基礎。近年來,新興的空間轉錄組學( Spatial Transcriptomics , ST )技術為在原位繪制精細粒度的轉錄細胞類型圖譜提供了重要機遇,例如在人類肺組織中可以鑒定多達 80 種細胞類型。然而,現有的 ST 技術由于成本高昂且通量有限,難以大規模應用于臨床樣本;而傳統的數字病理學方法通常只能識別 2–4 種粗粒度的細胞類型,對于深入分析組織微環境提供的信息十分有限。因此,人們迫切需要一種低成本且可擴展的方法,能夠直接從常規的組織病理學圖像中解析精細粒度的細胞組成。
![]()
圖 1 Hist2Cell 工作流程及下游應用概覽
近日,香港大學計算與數據科學學院 余樂全 教授團隊和生物醫學學院 黃元華 教授團隊在Cell Genomics期刊在線發表了題為 Hist2Cell: Deciphering fine-grained cellular architectures from histology images 的研究論文。該研究提出了Hist2Cell——一種視覺圖-Transformer框架,能夠直接從蘇木精-伊紅( H&E )染色的組織病理學圖像中準確解析精細粒度的轉錄細胞類型(多達 80 種),實現可擴展的超分辨率細胞圖譜繪制與精準癌癥預后。
![]()
圖 2 Hist2Cell 論文
技術路線
Hist2Cell 的核心創新在于提出了一種 “ 一階段 ” 預測框架。與以往方法需要對每個新樣本從空間轉錄組數據中進行參考依賴的估算不同, Hist2Cell 將該問題重新定義為監督學習任務:首先利用 Cell2location 算法從空間轉錄組數據中獲得高質量的細胞豐度標注作為訓練標簽,然后訓練模型直接從 H&E 圖像預測細胞類型豐度,將預測過程與分子數據解耦。
![]()
圖3 Hist2Cell模型架構
在模型架構設計上, Hist2Cell 采用了圖 -Transformer ( Graph-Transformer )架構,將全切片圖像( WSI )建模為空間圖,每個 spot 作為節點、空間鄰近關系作為邊。模型通過從 WSI 中隨機采樣局部子圖作為訓練輸入,利用圖注意力層( Graph Attention layers )學習 spot 與空間鄰居之間的局部上下文關系,同時通過 Transformer 層建模遠程相關性,最終融合多尺度特征進行精細粒度的細胞豐度預測。這種設計使 Hist2Cell 同時兼具局部方法和全局方法的優勢,避免了各自的局限性。
研究團隊首先在健康人肺數據集上驗證了 Hist2Cell 的有效性。該數據集來自 4 位供體的 5 個從近端到遠端的位置,包含 11 張 H&E 染色組織切片、共 20,770 個 spots 和 80 種精細粒度轉錄細胞類型。通過 “ 留一供體交叉驗證 ” 的方式, Hist2Cell 展現出顯著優于已有方法( STNet 、 DeepSpaCE 、 Hist2ST 和 THItoGene )的細胞類型豐度預測性能,平均 Pearson 相關系數為 0.31 ,相比最佳基線方法提升了約 50% 。特別值得一提的是, Hist2Cell 在多個關鍵細胞類型上表現尤為突出,如纖毛細胞( Pearson R = 0.79 )、 CD4+ 效應記憶 T 細胞( Pearson R = 0.68 )和 CD8 EM 細胞( Pearson R = 0.68 ),這些細胞類型在人類氣道系統中發揮著關鍵的免疫和穩態功能。此外, Hist2Cell 還能夠準確捕獲細胞類型之間的共定位模式。以 SpatialDM 中的雙變量 Moran's R 統計量衡量, Hist2Cell 在余弦相似度和相關性兩個指標上均顯著優于對比方法。例如, Hist2Cell 成功識別了 IgA 漿細胞與粘膜下腺( SMG )之間的共定位關系,而這正是原始研究中的一項重大發現。
進一步地,通過將Hist2Cell的預測結果與原始研究中病理學家的手動注釋進行對比,研究團隊發現Hist2Cell預測的細胞類型能夠準確對應其已知的解剖學位置:纖毛上皮細胞定位于氣道腔內、基底細胞圍繞其周圍、I型和II型肺泡細胞(AT1和AT2)分布于肺實質區域、軟骨細胞則定位于軟骨組織中。此外,Hist2Cell還準確定位了一類富集于氣道的成纖維細胞亞群——支氣管周圍成纖維細胞(PB-fibro),將其精確地映射到氣道上皮周圍區域,而PB-fibro已被認為是肺部疾病中的關鍵細胞類型,這也驗證了Hist2Cell在臨床研究中的應用價值。
為了評估泛化能力,研究團隊在 her2st 乳腺癌數據集( 8 位患者、 36 個切片)上訓練 Hist2Cell ,然后 不經任何重新訓練或微調 ,直接應用于來自不同實驗室的 STNet 乳腺癌數據集( 23 位患者、 69 個切片)。在該外部數據集上, Hist2Cell 對全部 39 種細胞類型的預測均呈正相關,平均 Pearson 相關系數為 0.29 (最佳基線方法僅為 0.19 ),其中乳腺導管上皮細胞( Pearson R = 0.87 )和成纖維細胞( Pearson R = 0.71 )等關鍵細胞類型表現尤為突出。這表明 Hist2Cell 具有強大的跨數據集泛化能力,能夠克服不同實驗室間的批次效應和技術差異。同時,該團隊還將驗證擴展到了一種完全不同的組織類型 —— 人類皮膚組織(炎癥性皮膚病), Hist2Cell 在該數據上取得了 0.67 的平均 Pearson R ,顯著優于所有基線方法,進一步證實了框架的魯棒性。
得益于出色的泛化性能, Hist2Cell 被直接應用于 565 例 TCGA 乳腺癌樣本的 H&E 切片(無需重新訓練),實現了大規模隊列的共識細胞分析。盡管 TCGA 切片來自不同機構、采用不同掃描設備,且僅有 bulk RNA-seq 數據(而非來自同一組織的空間轉錄組數據), Hist2Cell 的預測結果與 26/39 種細胞類型呈正相關,其中 13 種達到統計顯著性。通過聚合數百名患者的細胞架構信息, Hist2Cell 釋放了大規模公共 H&E 隊列的巨大潛力,能夠為研究者提供當前 ST 技術因成本限制而無法規模化實現的共識性生物學分析。
更為重要的是,該團隊驗證了 Hist2Cell 在精準癌癥預后方面的應用價值。在肺鱗狀細胞癌( LUSC )、三陰性乳腺癌( BRCA-TNBC )和 HER2 陽性乳腺癌( BRCA-HER2+ )三種癌癥亞型的生存風險預測任務中,基于 Hist2Cell 預測的細胞豐度訓練的 Cox 回歸模型在所有三種癌癥中均優于此前先進的病理學模型 HIPT—— 特別是在 BRCA-HER2+ 中 C-index 提高了約 10% 。值得注意的是, Hist2Cell 僅在 114 張乳腺癌切片和 34 張肺癌切片上訓練,遠少于 HIPT 所需的 10,000 張 WSI 。更令人振奮的是, Hist2Cell 的表現甚至可與昂貴的 bulk RNA-seq 相媲美,在 BRCA-TNBC 上 C-index 還超出了 4% 。這表明 Hist2Cell 有望作為一種低成本替代方案,在真實臨床場景中輔助癌癥預后評估。此外,利用積分梯度( Integrated Gradients )方法, Hist2Cell 揭示了不同細胞群體與患者死亡風險之間的關系,發現 CD8 活化 T 細胞在 HER2+ 癌癥的長期生存分析中具有更強的效應,為后續的癌癥研究提供了有價值的生物學見解。
Hist2Cell 還能夠生成超分辨率的精細粒度細胞圖譜。通過從更高分辨率的 spot 坐標采樣子圖, Hist2Cell 可以通過兩種策略提供超分辨率細胞圖譜:一是從低分辨率細胞圖譜進行插值微調,二是直接從 H&E 圖像預測。研究展示了高達 16 倍的超分辨率結果,分辨率接近單細胞水平,為理解復雜組織微環境中的精細細胞模式提供了前所未有的視角。
Hist2Cell 的推出證明了直接從組織病理學圖像預測轉錄水平的精細粒度細胞類型是可行的,且比預測單個基因表達更為準確。 該框架為大規模空間生物學研究和精準癌癥預后提供了一種低成本、可擴展的解決方案。值得一提的是, Hist2Cell 的架構設計具有天然的靈活性,將其圖像編碼器替換為最新的病理學基礎模型( UNIv2 )后,在所有測試數據集上獲得了顯著且一致的性能提升(如人肺數據集上平均相關性提高 16% ),展現了該框架隨計算病理學領域發展持續進化的潛力。 Hist2Cell 有望在診斷和個體化醫學中發揮廣泛的應用價值。
香港大學計算與數據科學學院 余樂全 教授和生物醫學學院 黃元華 教授為論文共同通訊作者,計算與數據科學學院博士 畢業 生 趙尉欽 為論文第一作者。
原文鏈接:https://doi.org/10.1016/j.xgen.2025.101137
制版人:十一
BioArt
Med
Plants
人才招聘
學術合作組織
(*排名不分先后)
![]()
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.