撰文丨王聰
編輯丨王多魚(yú)
排版丨水成文
細(xì)菌編碼了種類繁多的抗病毒(噬菌體)免疫防御系統(tǒng),已有超過(guò) 250 種系統(tǒng)經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,涵蓋了廣泛的分子機(jī)制。正在進(jìn)行的計(jì)算和實(shí)驗(yàn)篩選仍在不斷揭示新系統(tǒng),這表明細(xì)菌的抗病毒免疫防御系統(tǒng)的多樣性可能遠(yuǎn)超我們的認(rèn)知,之前的發(fā)現(xiàn)或許只是冰山一角。但這種多樣性到底有多大,目前仍不得而知。
2026 年 4 月 2 日,法國(guó)巴斯德研究所的研究人員在國(guó)際頂尖學(xué)術(shù)期刊Science上發(fā)表了題為 : Protein and genomic language models uncover the unexplored diversity of bacterial immunity 的研究論文。
該研究開(kāi)發(fā)并優(yōu)化了三個(gè)互補(bǔ)的蛋白質(zhì)語(yǔ)言模型和基因組語(yǔ)言模型,以大規(guī)模預(yù)測(cè)細(xì)菌的抗病毒功能,這些模型預(yù)測(cè)了 239 萬(wàn)個(gè)抗病毒蛋白,其中相當(dāng)一部分以單基因防御形式存在,而共同預(yù)測(cè)的基因定義了約 23000 個(gè)操縱子家族,其中大多數(shù)此前與抗病毒防御毫無(wú)關(guān)聯(lián)。這些預(yù)測(cè)共同勾勒出了一幅細(xì)菌抗病毒免疫圖譜,揭示出的細(xì)菌免疫的多樣性比此前所知的要大得多,也豐富得多,這些發(fā)現(xiàn)也為有針對(duì)性的功能探索奠定了基礎(chǔ)。
![]()
細(xì)菌免疫的“暗物質(zhì)”問(wèn)題
就像宇宙中大部分物質(zhì)是看不見(jiàn)的暗物質(zhì)一樣,細(xì)菌的抗病毒防御系統(tǒng)也存在大量“暗物質(zhì)”,也就是那些我們尚未發(fā)現(xiàn)、功能未知的防御機(jī)制。傳統(tǒng)方法主要依賴“有罪關(guān)聯(lián)”原則:如果一個(gè)蛋白質(zhì)家族經(jīng)常出現(xiàn)在已知防御系統(tǒng)附近,就被推測(cè)具有防御功能。但這種方法存在明顯局限:它只能識(shí)別與已知系統(tǒng)相關(guān)的蛋白質(zhì),而無(wú)法發(fā)現(xiàn)那些獨(dú)立存在或位于非典型基因組位置的防御系統(tǒng)。
三大 AI 模型的協(xié)同作戰(zhàn)
在這項(xiàng)最新研究中,研究團(tuán)隊(duì)開(kāi)發(fā)了三種互補(bǔ)的深度學(xué)習(xí)模型,從不同角度“透視”細(xì)菌基因組:
ALBERTDF:專注于基因組上下文信息,將蛋白質(zhì)家族視為“單詞”,將相鄰基因序列視為“句子”,學(xué)習(xí)細(xì)菌基因組的“語(yǔ)法規(guī)則”。
ESMDF:基于蛋白質(zhì)語(yǔ)言模型,直接分析氨基酸序列,這個(gè)模型能夠捕捉蛋白質(zhì)序列中的復(fù)雜模式,即使與已知防御系統(tǒng)沒(méi)有明顯同源性,也能識(shí)別出防御功能。實(shí)驗(yàn)驗(yàn)證顯示,它發(fā)現(xiàn)的系統(tǒng)中包含 DUF7946 等此前與抗病毒免疫無(wú)關(guān)的結(jié)構(gòu)域。
GeneCLRDF:整合了序列和基因組上下文信息的“全能選手”,達(dá)到了 99% 的精確度和 92% 的召回率,成為性能最強(qiáng)的預(yù)測(cè)工具。這個(gè)模型通過(guò)對(duì)比學(xué)習(xí),讓同一基因的序列表示和上下文表示相互對(duì)齊,實(shí)現(xiàn)了對(duì)防御蛋白的精準(zhǔn)識(shí)別。
驚人的發(fā)現(xiàn):細(xì)菌免疫比想象中豐富得多
應(yīng)用這些模型,研究團(tuán)隊(duì)對(duì)超過(guò) 32000 個(gè)細(xì)菌基因組進(jìn)行分析后,研究得出了令人震驚的結(jié)論——
1、規(guī)模龐大:預(yù)測(cè)出 239 萬(wàn)個(gè)抗噬菌體蛋白,其中 85% 此前被認(rèn)為與免疫無(wú)關(guān);
2、普遍存在:典型細(xì)菌基因組中約 1.5% 的基因?qū)iT(mén)用于抗病毒防御;
3、系統(tǒng)多樣:定義了約 23000 個(gè)預(yù)測(cè)的操縱子家族,大多數(shù)此前未知;
4、單基因防御:大量預(yù)測(cè)的防御蛋白以單基因形式存在,挑戰(zhàn)了傳統(tǒng)認(rèn)知。
![]()
實(shí)驗(yàn)驗(yàn)證:從預(yù)測(cè)到實(shí)證
該研究不僅停留在計(jì)算預(yù)測(cè),還進(jìn)行了嚴(yán)格的實(shí)驗(yàn)驗(yàn)證。研究團(tuán)隊(duì)在大腸桿菌和白色鏈霉菌中測(cè)試了模型預(yù)測(cè)的系統(tǒng),成功驗(yàn)證了 12 個(gè)全新的抗噬菌體防御系統(tǒng)。這些系統(tǒng)包含脫氧核糖核酸酶、肽酶等多樣結(jié)構(gòu)域,甚至包括一些此前與抗噬菌體免疫完全無(wú)關(guān)的蛋白質(zhì)結(jié)構(gòu)域。
開(kāi)放資源:細(xì)菌抗病毒免疫圖譜
為了讓科學(xué)界能夠探索這些發(fā)現(xiàn),研究團(tuán)隊(duì)創(chuàng)建了一個(gè)交互式可視化資源(https://defensefinder.mdmlab.fr/wiki/refseq_predicted)。這個(gè)“細(xì)菌抗病毒免疫圖譜”包含了超過(guò) 19000 個(gè)候選操縱子家族,為后續(xù)實(shí)驗(yàn)研究提供了寶貴線索。
總的來(lái)說(shuō),這項(xiàng)研究表明了細(xì)菌免疫系統(tǒng)的多樣性遠(yuǎn)超此前的認(rèn)知,提供了一種大規(guī)模發(fā)現(xiàn)細(xì)菌免疫系統(tǒng)的深度學(xué)習(xí)框架,并構(gòu)建了細(xì)菌抗病毒免疫的系統(tǒng)圖譜。隨著更多實(shí)驗(yàn)驗(yàn)證的進(jìn)行,這些新發(fā)現(xiàn)細(xì)菌免疫系統(tǒng)可能為開(kāi)發(fā)新型抗菌策略、理解微生物群落動(dòng)態(tài)、以及設(shè)計(jì)合成生物學(xué)工具提供全新思路。
論文鏈接:
https://www.science.org/doi/10.1126/science.adv8275
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.