*僅供醫學專業人士閱讀參考
![]()
熟悉CRISPR基因編輯誕生歷史的朋友們一定知道,CRISPR其實脫胎于細菌的免疫系統,關鍵的基因序列識別能力和切割能力都來自于與噬菌體的對抗。那么從原理上來說,其他細菌防御系統也同樣具有被開發成基因編輯工具的潛力。
,研究者們依照這個思路,對超過45000種已知的細菌和古細菌基因組進行了篩選,并對有潛力的基因序列逐個進行了功能測試,最終發現了10種全新的細菌免疫防御系統。
8年后的今天,在機器學習的加持下,科學家們已經能夠大批量篩選細菌基因組,一口氣找到海量的防御相關蛋白了。
今日,《科學》雜志同期發表了兩篇論文,一篇來自麻省理工學院科研團隊,研究者們開發了一個名為DefensePredictor的機器學習模型,在1000多種原核基因組中鑒定到了5000多個防御相關蛋白,且與當前已知防御蛋白并非同源物。
![]()
另一篇論文則來自巴斯德研究所科研團隊,研究者們開發了三個互補的機器學習模型,構建了迄今為止最全面的細菌免疫圖譜,模型預測了239萬個抗噬菌體蛋白。
![]()
在細菌中,抗噬菌體免疫基因普遍傾向于彼此緊密聚集,形成名為防御島的基因簇。在2018年的《科學》論文中,科學家們采用的就是篩選已知防御基因附近功能未知基因的策略。
但是,也并非所有免疫基因都會位于防御島上,也可能存在于質粒、前噬菌體、轉座子等可移動元件上,或零散分布在基因組其他位置。
為了識別這些潛在的防御系統,麻省理工的研究者們基于17000個原核基因組數據,標記其中已知的防御系統基因和大量非防御基因,并利用蛋白質語言模型ESM2生成防御基因及其周圍四個基因,用于訓練DefensePredictor模型。在模擬中,DefensePredictor能識別到100個已知防御系統中的82個,可見模型能夠捕捉到廣泛的防御系統特征。
接下來,研究者在69種大腸桿菌菌株中應用DefensePredictor,模擬得到624種防御相關蛋白簇,其中超過100個與已知防御相關蛋白簇無可檢測同源性,50%散布于沒有明顯免疫特征的位置。
研究者將94個預測到的防御系統克隆到易感大腸桿菌內進行測試,發現其中42個對至少一種噬菌體提供了保護作用。研究者在這42個防御系統中發現了15個此前從未鑒定到的防御性蛋白質結構域,看來細菌的免疫機制我們還遠遠沒摸透呢。
最后,研究者將DefensePredictor應用范圍擴大到1000余種原核基因組中,更是一口氣預測了5000多個防御蛋白簇,而且并非已知防御蛋白的明確同源物。
![]()
巴斯德研究所的研究者們采用的也是類似的思路。他們構建的其中一個模型ESMDF基于氨基酸序列,使用蛋白質語言模型來捕捉防御蛋白的序列特征;另一個模型ALBERTDF則不依賴具體的序列信息,而是基于局部基因鄰域來推斷防御功能;最后一個模型GeneCLRDF綜合了氨基酸序列和基因組上下文信息。
對超過32000個細菌基因組的模擬結果顯示,所有編碼基因中約1.5%用于免疫防御,超過85%防御相關蛋白此前從未與免疫關聯。模型預測了239萬個抗噬菌體蛋白,其中相當一部分單獨存在,并鑒定到了約23000個操縱子家族。
可見細菌的防御系統結構極其多樣,我們了解的只不過是冰山一角。
奇點小伙伴們的播客欄目開播啦!在這個欄目里,我們會分享近期熱門的藥物研發資訊和行業新鮮動態,附贈奇點糕們(可能犀利)的銳評,歡迎大家點擊訂閱和奇點糕一起嘮嗑~
參考資料:
[1]DeWeirdt P C, Mahoney E M, Laub M T. DefensePredictor: A machine-learning model for discovering prokaryotic immune systems. Science. 2026;392(6793):eadv7924. doi:10.1126/science.adv7924
[2]Mordret E, Elwess A, Tesson F, et al. Protein and genomic language models reveal unexplored diversity of bacterial immunity. Science. 2026;392(6793):eadv8275. doi:10.1126/science.adv8275
![]()
本文作者丨代絲雨
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.