網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

毫秒級(jí)搜索10億生物序列！騰訊×浙大合作推出最強(qiáng)生物序列搜索AI工具——ERAST

2026-04-06 15:07:19　來(lái)源: 生物世界

上海舉報(bào)

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

在生命科學(xué)領(lǐng)域，同源搜索（Homology Search）是一項(xiàng)基礎(chǔ)且至關(guān)重要的任務(wù)。簡(jiǎn)單來(lái)說(shuō)，它就是通過比較 DNA 或蛋白質(zhì)的序列，來(lái)尋找那些源自共同祖先、可能具有相似功能的“親戚”。這就像是在龐大的“生命字母表”中，快速找到拼寫相似的段落。

無(wú)論是鑒定一個(gè)新發(fā)現(xiàn)的基因功能，追溯病毒的進(jìn)化路徑，還是在宏基因組數(shù)據(jù)中挖掘有用的酶，都離不開高效的序列比對(duì)工具。幾十年來(lái)，BLAST 及其衍生工具一直是該領(lǐng)域的金標(biāo)準(zhǔn)。然而，隨著測(cè)序技術(shù)的飛速發(fā)展，生物數(shù)據(jù)庫(kù)的規(guī)模已呈指數(shù)級(jí)增長(zhǎng)，傳統(tǒng)方法在處理海量數(shù)據(jù)時(shí)的速度和精度遇到了巨大瓶頸。在浩如煙海的生物序列數(shù)據(jù)庫(kù)中，精準(zhǔn)找到一個(gè)蛋白質(zhì)的“遠(yuǎn)親，傳統(tǒng)方法可能需要數(shù)小時(shí)甚至數(shù)天。

2026 年 4 月 1 日，騰訊生命科學(xué)實(shí)驗(yàn)室（AI for Life Sciences Laboratory）姚建華研究員、何冰研究員及浙江大學(xué)陳華鈞教授、張強(qiáng)助理教授作為共同通訊作者（姜一諾、何冰為共同第一作者），在Nature Biotechnology期刊發(fā)表了題為：Scalable homology detection with ERAST 的研究論文。

該研究開發(fā)了融合大語(yǔ)言模型與向量數(shù)據(jù)庫(kù)技術(shù)的同源檢測(cè)工具——ERAST（Efficient Retrieval-Augmented Search Tool）。該研究構(gòu)建了目前全球規(guī)模最大的生物向量數(shù)據(jù)庫(kù)（涵蓋超 10 億條蛋白質(zhì)序列與 3000 萬(wàn)條核酸序列），在十億級(jí)數(shù)據(jù)規(guī)模下實(shí)現(xiàn)了毫秒級(jí)的精準(zhǔn)檢索，相比傳統(tǒng)工具 TM-align 計(jì)算效率提升約 5 萬(wàn)倍。此外，ERAST 通過全局聚類分析成功揭示了海量“暗功能”蛋白質(zhì)的潛在進(jìn)化聯(lián)系，為蛋白質(zhì)功能注釋提供了全新的技術(shù)范式。

ERAST：當(dāng) AI 大模型遇見向量數(shù)據(jù)庫(kù)

該研究開發(fā)的高效檢索增強(qiáng)搜索工具——ERAST（efficient retrieval-augmented search tool），是一種旨在處理迄今為止最大的向量數(shù)據(jù)庫(kù)中約 10 億個(gè)生物序列的解決方案。ERAST的核心創(chuàng)新在于巧妙地將前沿的大語(yǔ)言模型與高效的向量數(shù)據(jù)庫(kù)相結(jié)合，為同源生物序列提供高效且精確的搜索。它通過整合預(yù)檢索、檢索和后檢索優(yōu)化階段來(lái)提高搜索質(zhì)量，并支持核苷酸和蛋白質(zhì)序列。

1、構(gòu)建“生命序列的地圖”：ERAST 首先使用經(jīng)過預(yù)訓(xùn)練的大語(yǔ)言模型（例如蛋白質(zhì)語(yǔ)言模型 ESM-2，DNA 語(yǔ)言模型 MAMBA），將抽象的生物序列轉(zhuǎn)化為高維空間中的“向量”坐標(biāo)。這相當(dāng)于為每一條序列賦予了獨(dú)一無(wú)二的“數(shù)學(xué)指紋”。超過 10 億個(gè)這樣的指紋被存入一個(gè)特制的向量數(shù)據(jù)庫(kù)中，并建立了高效的索引。

2、三步走，實(shí)現(xiàn)精準(zhǔn)狙擊：ERAST 的搜索流程被精心設(shè)計(jì)為三個(gè)階段，層層過濾，確保結(jié)果又快又準(zhǔn)：

預(yù)檢索過濾：就像用“篩子”先過濾掉明顯不相關(guān)的數(shù)據(jù)。系統(tǒng)會(huì)根據(jù)查詢序列的元數(shù)據(jù)（例如長(zhǎng)度、家族標(biāo)簽）縮小搜索范圍。
向量檢索：將查詢序列也轉(zhuǎn)化為向量，并在數(shù)據(jù)庫(kù)中快速計(jì)算其與候選向量之間的“余弦距離”（一種相似度度量）。借助并行計(jì)算技術(shù)，這個(gè)過程能在毫秒內(nèi)完成。
后檢索重排序：這是提升精度的關(guān)鍵一步。ERAST 自帶一個(gè)名為 EHSM 的評(píng)分模型，會(huì)對(duì)初步檢索出的候選序列進(jìn)行二次打分和排序，尤其擅長(zhǎng)識(shí)別那些進(jìn)化關(guān)系遙遠(yuǎn)、序列相似度低的“遠(yuǎn)親”。

ERAST 概述

性能碾壓：速度更快，準(zhǔn)度更高

論文中的 benchmark（性能測(cè)試）結(jié)果令人印象深刻：

速度：在標(biāo)準(zhǔn)的 SCOPe40 測(cè)試集上，ERAST 的搜索速度比目前廣泛使用的、基于結(jié)構(gòu)的快速搜索工具 Foldseek 快約 50 倍，比高精度結(jié)構(gòu)比對(duì)工具 TM-align 快約 5 萬(wàn)倍。對(duì)于長(zhǎng)達(dá) 10 萬(wàn)堿基對(duì)的 DNA 序列，ERAST 比經(jīng)典工具 BLASTn 快 60 倍。

精度：在識(shí)別蛋白質(zhì)同源關(guān)系時(shí)，ERAST 的 Top-1 命中精度（P@1）顯著優(yōu)于包括 TM-Vec、DHR、PLMSearch 在內(nèi)的所有主流深度學(xué)習(xí)方法。即使在處理“分布外”的新奇序列時(shí)，其穩(wěn)健性也遠(yuǎn)超傳統(tǒng)方法。

這種性能使得 ERAST 能夠在幾毫秒內(nèi)從包括數(shù)十億個(gè)生物序列的數(shù)據(jù)庫(kù)中進(jìn)行準(zhǔn)確搜索，精準(zhǔn)定位目標(biāo)同源序列。

不止于搜索：照亮“功能未知”的蛋白質(zhì)暗物質(zhì)

除了快速搜索，ERAST 還能做一件更有意義的事：大規(guī)模全局聚類分析。

在現(xiàn)有的蛋白質(zhì)數(shù)據(jù)庫(kù)中，有大量被標(biāo)記為“功能未知”、“假設(shè)蛋白”的序列，它們被稱為“蛋白質(zhì)暗物質(zhì)”。ERAST 能夠基于全局序列相似性，將整個(gè) UniRef90 數(shù)據(jù)庫(kù)中的蛋白質(zhì)進(jìn)行聚類，構(gòu)建出一個(gè)超大規(guī)模的功能聚類網(wǎng)絡(luò)。

研究發(fā)現(xiàn)，94% 的功能未知蛋白質(zhì)簇，都能通過這個(gè)網(wǎng)絡(luò)與功能已知的蛋白質(zhì)簇連接起來(lái)。這為科學(xué)家們推斷這些“暗物質(zhì)”蛋白的可能功能、揭示其進(jìn)化關(guān)系，提供了前所未有的強(qiáng)大線索和全局視角。

工具開源，推動(dòng)生命科學(xué)探索

ERAST 不僅是一項(xiàng)學(xué)術(shù)成果，更是一個(gè)即將惠及全球科研人員的實(shí)用工具。該系統(tǒng)支持對(duì)蛋白質(zhì)和核苷酸序列的雙重搜索，其集成向量數(shù)據(jù)庫(kù)的網(wǎng)站已公開可用。

這項(xiàng)研究標(biāo)志著AI for Science（科學(xué)智能）在生物信息學(xué)核心領(lǐng)域的一次重要突破。它將使研究人員從耗時(shí)的計(jì)算等待中解放出來(lái)，更專注于科學(xué)發(fā)現(xiàn)本身，有望加速新藥靶點(diǎn)發(fā)現(xiàn)、病原體追蹤、酶工程設(shè)計(jì)等眾多領(lǐng)域的研究進(jìn)程。

數(shù)據(jù)庫(kù)與在線工具訪問入口：https://ai4s.tencent.com/erast

ERAST 源代碼倉(cāng)庫(kù)：https://github.com/TencentAILabHealthcare/ERAST

論文鏈接：

https://www.nature.com/articles/s41587-026-03051-1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.