撰文丨王聰
編輯丨王多魚
排版丨水成文
在生命科學(xué)領(lǐng)域,同源搜索(Homology Search)是一項(xiàng)基礎(chǔ)且至關(guān)重要的任務(wù)。簡(jiǎn)單來(lái)說(shuō),它就是通過比較 DNA 或蛋白質(zhì)的序列,來(lái)尋找那些源自共同祖先、可能具有相似功能的“親戚”。這就像是在龐大的“生命字母表”中,快速找到拼寫相似的段落。
無(wú)論是鑒定一個(gè)新發(fā)現(xiàn)的基因功能,追溯病毒的進(jìn)化路徑,還是在宏基因組數(shù)據(jù)中挖掘有用的酶,都離不開高效的序列比對(duì)工具。幾十年來(lái),BLAST 及其衍生工具一直是該領(lǐng)域的金標(biāo)準(zhǔn)。然而,隨著測(cè)序技術(shù)的飛速發(fā)展,生物數(shù)據(jù)庫(kù)的規(guī)模已呈指數(shù)級(jí)增長(zhǎng),傳統(tǒng)方法在處理海量數(shù)據(jù)時(shí)的速度和精度遇到了巨大瓶頸。在浩如煙海的生物序列數(shù)據(jù)庫(kù)中,精準(zhǔn)找到一個(gè)蛋白質(zhì)的“遠(yuǎn)親,傳統(tǒng)方法可能需要數(shù)小時(shí)甚至數(shù)天。
2026 年 4 月 1 日,騰訊生命科學(xué)實(shí)驗(yàn)室(AI for Life Sciences Laboratory)姚建華研究員、何冰研究員及浙江大學(xué)陳華鈞教授、張強(qiáng)助理教授作為共同通訊作者(姜一諾、何冰為共同第一作者),在Nature Biotechnology期刊發(fā)表了題為:Scalable homology detection with ERAST 的研究論文。
該研究開發(fā)了融合大語(yǔ)言模型與向量數(shù)據(jù)庫(kù)技術(shù)的同源檢測(cè)工具——ERAST(Efficient Retrieval-Augmented Search Tool)。該研究構(gòu)建了目前全球規(guī)模最大的生物向量數(shù)據(jù)庫(kù)(涵蓋超 10 億條蛋白質(zhì)序列與 3000 萬(wàn)條核酸序列),在十億級(jí)數(shù)據(jù)規(guī)模下實(shí)現(xiàn)了毫秒級(jí)的精準(zhǔn)檢索,相比傳統(tǒng)工具 TM-align 計(jì)算效率提升約 5 萬(wàn)倍。此外,ERAST 通過全局聚類分析成功揭示了海量“暗功能”蛋白質(zhì)的潛在進(jìn)化聯(lián)系,為蛋白質(zhì)功能注釋提供了全新的技術(shù)范式。
![]()
ERAST:當(dāng) AI 大模型遇見向量數(shù)據(jù)庫(kù)
該研究開發(fā)的高效檢索增強(qiáng)搜索工具——ERAST(efficient retrieval-augmented search tool),是一種旨在處理迄今為止最大的向量數(shù)據(jù)庫(kù)中約 10 億個(gè)生物序列的解決方案。ERAST的核心創(chuàng)新在于巧妙地將前沿的大語(yǔ)言模型與高效的向量數(shù)據(jù)庫(kù)相結(jié)合,為同源生物序列提供高效且精確的搜索。它通過整合預(yù)檢索、檢索和后檢索優(yōu)化階段來(lái)提高搜索質(zhì)量,并支持核苷酸和蛋白質(zhì)序列。
1、構(gòu)建“生命序列的地圖”:ERAST 首先使用經(jīng)過預(yù)訓(xùn)練的大語(yǔ)言模型(例如蛋白質(zhì)語(yǔ)言模型 ESM-2,DNA 語(yǔ)言模型 MAMBA),將抽象的生物序列轉(zhuǎn)化為高維空間中的“向量”坐標(biāo)。這相當(dāng)于為每一條序列賦予了獨(dú)一無(wú)二的“數(shù)學(xué)指紋”。超過 10 億個(gè)這樣的指紋被存入一個(gè)特制的向量數(shù)據(jù)庫(kù)中,并建立了高效的索引。
2、三步走,實(shí)現(xiàn)精準(zhǔn)狙擊:ERAST 的搜索流程被精心設(shè)計(jì)為三個(gè)階段,層層過濾,確保結(jié)果又快又準(zhǔn):
預(yù)檢索過濾:就像用“篩子”先過濾掉明顯不相關(guān)的數(shù)據(jù)。系統(tǒng)會(huì)根據(jù)查詢序列的元數(shù)據(jù)(例如長(zhǎng)度、家族標(biāo)簽)縮小搜索范圍。
向量檢索:將查詢序列也轉(zhuǎn)化為向量,并在數(shù)據(jù)庫(kù)中快速計(jì)算其與候選向量之間的“余弦距離”(一種相似度度量)。借助并行計(jì)算技術(shù),這個(gè)過程能在毫秒內(nèi)完成。
后檢索重排序:這是提升精度的關(guān)鍵一步。ERAST 自帶一個(gè)名為 EHSM 的評(píng)分模型,會(huì)對(duì)初步檢索出的候選序列進(jìn)行二次打分和排序,尤其擅長(zhǎng)識(shí)別那些進(jìn)化關(guān)系遙遠(yuǎn)、序列相似度低的“遠(yuǎn)親”。
![]()
ERAST 概述
性能碾壓:速度更快,準(zhǔn)度更高
論文中的 benchmark(性能測(cè)試)結(jié)果令人印象深刻:
速度:在標(biāo)準(zhǔn)的 SCOPe40 測(cè)試集上,ERAST 的搜索速度比目前廣泛使用的、基于結(jié)構(gòu)的快速搜索工具 Foldseek 快約 50 倍,比高精度結(jié)構(gòu)比對(duì)工具 TM-align 快約 5 萬(wàn)倍。對(duì)于長(zhǎng)達(dá) 10 萬(wàn)堿基對(duì)的 DNA 序列,ERAST 比經(jīng)典工具 BLASTn 快 60 倍。
精度:在識(shí)別蛋白質(zhì)同源關(guān)系時(shí),ERAST 的 Top-1 命中精度(P@1)顯著優(yōu)于包括 TM-Vec、DHR、PLMSearch 在內(nèi)的所有主流深度學(xué)習(xí)方法。即使在處理“分布外”的新奇序列時(shí),其穩(wěn)健性也遠(yuǎn)超傳統(tǒng)方法。
這種性能使得 ERAST 能夠在幾毫秒內(nèi)從包括數(shù)十億個(gè)生物序列的數(shù)據(jù)庫(kù)中進(jìn)行準(zhǔn)確搜索,精準(zhǔn)定位目標(biāo)同源序列。
不止于搜索:照亮“功能未知”的蛋白質(zhì)暗物質(zhì)
除了快速搜索,ERAST 還能做一件更有意義的事:大規(guī)模全局聚類分析。
在現(xiàn)有的蛋白質(zhì)數(shù)據(jù)庫(kù)中,有大量被標(biāo)記為“功能未知”、“假設(shè)蛋白”的序列,它們被稱為“蛋白質(zhì)暗物質(zhì)”。ERAST 能夠基于全局序列相似性,將整個(gè) UniRef90 數(shù)據(jù)庫(kù)中的蛋白質(zhì)進(jìn)行聚類,構(gòu)建出一個(gè)超大規(guī)模的功能聚類網(wǎng)絡(luò)。
研究發(fā)現(xiàn),94% 的功能未知蛋白質(zhì)簇,都能通過這個(gè)網(wǎng)絡(luò)與功能已知的蛋白質(zhì)簇連接起來(lái)。這為科學(xué)家們推斷這些“暗物質(zhì)”蛋白的可能功能、揭示其進(jìn)化關(guān)系,提供了前所未有的強(qiáng)大線索和全局視角。
工具開源,推動(dòng)生命科學(xué)探索
ERAST 不僅是一項(xiàng)學(xué)術(shù)成果,更是一個(gè)即將惠及全球科研人員的實(shí)用工具。該系統(tǒng)支持對(duì)蛋白質(zhì)和核苷酸序列的雙重搜索,其集成向量數(shù)據(jù)庫(kù)的網(wǎng)站已公開可用。
這項(xiàng)研究標(biāo)志著AI for Science(科學(xué)智能)在生物信息學(xué)核心領(lǐng)域的一次重要突破。它將使研究人員從耗時(shí)的計(jì)算等待中解放出來(lái),更專注于科學(xué)發(fā)現(xiàn)本身,有望加速新藥靶點(diǎn)發(fā)現(xiàn)、病原體追蹤、酶工程設(shè)計(jì)等眾多領(lǐng)域的研究進(jìn)程。
數(shù)據(jù)庫(kù)與在線工具訪問入口:https://ai4s.tencent.com/erast
ERAST 源代碼倉(cāng)庫(kù):https://github.com/TencentAILabHealthcare/ERAST
論文鏈接:
https://www.nature.com/articles/s41587-026-03051-1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.