網易首頁 > 網易號 > 正文申請入駐

牛津大學團隊讓機器人58倍提速研究流傳染病文獻

2026-04-01 22:37:25　來源: 科技行者

北京舉報

分享至

這項由牛津大學、帝國理工學院聯合多所國際知名學府進行的研究發表于2026年3月的arXiv預印本平臺，論文編號為2603.22327v1，有興趣深入了解的讀者可以通過該編號查詢完整論文。

科學家們每天都在發表大量關于傳染病的研究論文，就像一座不斷增高的知識金山。然而面對如此龐大的文獻庫，人類研究者就像拿著小鏟子的淘金者，需要花費數月甚至數年時間才能從中挖掘出真正有價值的信息。這種被稱為"系統性文獻綜述"的工作，傳統上需要專業團隊花費67周的時間和14.1萬美元的成本才能完成一次全面的梳理。

想象一下，如果我們能訓練一個超級智能助手，讓它像熟練的圖書管理員一樣，不僅能快速瀏覽成千上萬篇論文，還能準確提取其中的關鍵信息，并整理成條理清晰的報告，這會是多么神奇的事情。牛津大學的研究團隊就創造了這樣一個名為AgentSLR的人工智能系統，它能夠在短短20小時內完成原本需要人類7周才能完成的工作，效率提升了58倍。

這個智能助手專門針對傳染病學領域進行了優化訓練。研究團隊選擇了世界衛生組織認定的九種高危病原體作為測試對象，包括馬爾堡病毒、埃博拉病毒、拉薩熱病毒、非典病毒、寨卡病毒、中東呼吸綜合征病毒、尼帕病毒、裂谷熱病毒和克里米亞-剛果出血熱病毒。這些病原體都具有引發大規模疫情的潛力，因此對它們的研究資料進行及時整理和分析對全球公共衛生具有重要意義。

一、智能文獻管家的工作流程

AgentSLR的工作過程就像一個經驗豐富的研究助理，它按照固定的六個步驟來處理文獻。首先是文章搜索和獲取階段，系統會像一個勤奮的圖書管理員，在三個主要的學術數據庫中搜索相關論文，這三個數據庫分別是OpenAlex、PubMed和Europe PMC。系統使用精心設計的搜索策略，覆蓋七個核心流行病學領域，就像用不同的篩子來過濾不同類型的金沙。

接下來是標題和摘要篩選階段，這就像是初步的海選過程。系統會根據預設的納入和排除標準對論文進行初步篩選。這個過程采用了一種叫做"大語言推理模型"的技術，能夠在不需要特殊訓練的情況下進行推理判斷。系統的篩選結構包含五個組成部分：研究目標、納入排除標準、鏈式思維推理指令、文章摘要和結構化輸出格式。

然后是PDF轉Markdown轉換階段，這個步驟就像是把手寫的食譜轉錄成電子版本。系統將下載的PDF文件逐頁轉換為高分辨率圖像，然后使用OCR（光學字符識別）模型提取文本，同時保持文檔層次結構、數學公式和表格格式。這樣做的目的是讓機器能夠更好地"理解"論文內容。

全文篩選階段是第二輪更嚴格的篩選，就像是從海選中再次挑選出最有潛力的選手。在這個階段，系統使用與摘要篩選類似的提示結構，但采用更嚴格的標準，要求文章必須包含可提取的定量流行病學參數，如傳播率、潛伏期和嚴重程度結果，同時排除文獻綜述、薈萃分析和描述少于10個感染個體的病例研究。

數據提取階段是整個流程的核心，就像是一個專業的數據挖掘工程師在工作。系統從三個類別中提取結構化數據：流行病學參數、傳播模型和已結束的疫情爆發。這個過程采用多階段、模式約束框架，通過專門的工具調用來執行字段級約束并確保結構化輸出，就像人類注釋者從文章中提取相關數據并填寫調查表格一樣。

最后是報告生成階段，這就像是一個經驗豐富的編輯將收集到的所有信息整理成一份專業報告。提取的數據被轉換為結構化綜述，通過多階段過程生成。系統會計算描述性統計數據并制作可視化圖表，配以標準化圖形和證據表格。然后語言推理模型生成初始敘述綜合，隨后進行迭代自我完善循環。

二、驗證智能助手的準確性

為了確保這個智能助手的可靠性，研究團隊進行了嚴格的驗證測試，就像給新員工安排試用期一樣。他們使用了病原體流行病學綜述小組的專業數據作為標準答案，這個小組正在對九種世界衛生組織指定的優先病原體進行系統文獻綜述。

在文章篩選方面，團隊比較了三種不同的篩選策略。傳統的兩階段篩選流程中，AgentSLR達到了0.81的召回率，這意味著它能夠找到專家認為相關的文章中的81%。為了進一步提高性能，研究人員測試了兩種改進策略：一種是在人類摘要篩選的基礎上進行全文篩選，召回率提升到0.92；另一種是跳過摘要篩選直接進行全文篩選，召回率達到0.89，盡管這種方法會增加2.3倍的篩選時間。

在數據提取方面，系統的表現呈現出有趣的梯度特征。標記相關數據類型的準確率最高，平均F1得分為0.75；計數準確性次之，為0.65；而字段級提取準確性為0.63。這種遞減的趨勢反映了每個連續流水線階段不斷增加的難度，就像從粗選到精選的過程越來越具有挑戰性。

對于參數提取，AgentSLR表現出高召回率但中等精確率的特點。在參數類別標記方面，它能識別出92%的相關參數，但精確率只有51%，這意味著系統傾向于將更多內容標記為可能相關，然后在后續的結構化提取中進行更仔細的篩選。在字段級別上，系統對方法提取和特定不確定性字段的準確性接近完美，而數值字段和人群背景信息的處理則更具挑戰性。

模型提取方面的表現更為出色，標記準確率達到高召回率和高精確率的平衡。系統能夠識別出91%的相關模型，精確率達到90%。這種高召回率延續到了模型計數環節，表明幾乎所有來自標準答案數據的模型都被成功識別，盡管計數精確率相對較低。在字段級別上，核心結構特征如模型類型、隨機性與確定性以及代碼可用性的提取表現穩定，而復雜的多值字段如假設、干預措施和傳播途徑則仍然具有挑戰性。

疫情爆發提取的評估僅限于拉薩熱和寨卡病毒，因為埃博拉和非典缺乏人工注釋數據。文章標記顯示出兩種病原體的中等表現，而疫情計數顯示出高方差，這主要是由病原體層面的差異驅動的。盡管如此，字段級提取表現穩健，疫情提取在所有數據類型中達到了最高的精確率，在時間特征和病例負擔方面表現尤為突出。

三、不同AI模型的表現差異

研究團隊還測試了五種不同的前沿推理模型，發現每個模型都有自己的特長領域，就像不同的專家各有所長。在文章篩選階段，Kimi-K2.5和gpt-oss-120b表現最佳，前者在標題摘要篩選方面出色，后者在全文篩選方面領先。所有模型在參數提取方面都遇到了困難，最高性能仍由Kimi-K2.5獲得。GLM-4.7在模型提取方面表現良好，而GPT-5.2在疫情提取方面表現突出。

有趣的是，DeepSeek-V3.2展現出最可變的性能表現。它在文章篩選階段表現不佳，但在啟用函數調用的提取階段變得具有競爭力，特別是在模型和疫情提取方面。這就像一個在筆試中表現一般但在實踐操作中大放異彩的學生。

最小的模型gpt-oss-120b在所有階段的表現都與最佳模型相差不到4.5個百分點。下一個最小的模型GLM-4.7的參數量幾乎是它的3倍，達到3580億個參數。除了疫情提取外，gpt-oss-120b在各病原體間也表現出最低的方差之一。

從成本角度來看，更高的成本和更大的模型并不一定產生更高的性能，這個發現相當令人意外。gpt-oss-120b在最低總成本13.9美元的情況下實現了具有競爭力的平均性能，比GPT-5.2便宜96倍以上。盡管GPT-5.2是OpenAI的旗艦閉源模型，但它的平均F1得分實際上更低。表現最佳的模型Kimi-K2.5處于中等成本范圍，而GLM-4.7的成本第二高，但平均F1得分相當。

四、人類專家的評價和反饋

為了更全面地評估系統的實用性，研究團隊邀請了六名專業流行病學家對AgentSLR的提取結果進行評價。專家們需要對提取的準確性進行評分，并評估系統的整體勝任能力。

結果顯示，專家對字段級正確性的平均評分達到了80%左右，這比自動化評估的精確率高出近19個百分點。在參數和疫情提取方面，專家給出的勝任能力評分分別為4.2和3.9分（滿分7分），其中4分被定義為"在適度監督下可用的工具"的門檻。

專家們普遍反映AgentSLR相比完全手動提取確實提高了效率。雖然會出現一些誤報，但這些通常很容易識別和刪除，從而實現凈效率提升。提取難度因論文的復雜性和報告風格而異，在少數情況下，系統可能會在人類審稿人同樣面臨挑戰的情況下增加工作量。

專家們指出的常見錯誤類型包括：上下文信息不足、對文檔結構利用有限、跨提取約束失效，以及在信息為隱含時無法推斷出對人類注釋者顯而易見的字段。此外，系統在理解來源方面存在困難，偶爾會混淆新報告的發現與引用的先前研究信息。

五、效率革命的實際意義

這項研究的最重要發現是AgentSLR實現了數量級的效率提升，同時保持了覆蓋范圍。整個流水線將主動審查時間減少了19.3倍，從385個人工小時減少到20小時，其中全文篩選的速度提升了118倍。這種效率增益改變了大規模、快速發展文獻庫的證據綜合可行性，特別是在文獻增長速度超過審稿人處理能力或需要及時綜合的情況下具有重要意義。

在文章篩選階段，不同策略間的權衡是可預測且實際可管理的。摘要篩選是系統性綜述生產中的主要勞動瓶頸，人工處理每篇論文需要數分鐘時間，因此直接全文篩選對人類團隊來說在操作上是不可行的。AgentSLR的自主兩階段篩選實現了0.81的召回率，跳過摘要篩選直接處理全文可以將召回率提高到0.89，但運行時間增加2.3倍。

在數據提取階段，研究結果表明存在一個由任務復雜性而非模型特定弱點導致的結構性天花板。在測試的所有五個模型中，沒有模型在參數提取方面超過F1得分0.63，而最佳和最差性能者之間的差距相對于篩選階段明顯縮小。性能從標記預測性地下降到計數再到字段級提取，這種在結構化工具調用下的收斂表明瓶頸在于任務歧義性和論文間的報告異質性，而非原始模型能力。

專家驗證結果表明，精確匹配的標準答案評估低估了AgentSLR的實際效用。專家對字段級提取準確性的平均評分為0.80，比自動化精確率得分高出18.8個百分點。定性反饋一致表明，AgentSLR的提取通過提供可糾正的起點減少了凈注釋工作量。因此，針對單一注釋集的精確匹配評估是操作效用的保守下限。

六、技術創新和模型比較

這項研究的技術創新不僅在于實現了端到端的自動化，更在于發現了開源模型在科學文獻綜述部署方面提供了可行的基礎。在評估范圍內，開源模型實現了與閉源前沿模型相當的性能，同時運行成本大幅降低。gpt-oss-120b以超過96倍的成本優勢實現了與GPT-5.2相似的性能，而Kimi-K2.5在中等成本范圍內實現了最佳的整體性能。

更重要的是，研究團隊遭遇了閉源提供商的廣泛內容限制，這對關鍵科學應用構成風險。嘗試使用Claude Opus 4.5和Sonnet 4.5評估AgentSLR時遇到了一致的流式拒絕，研究人員認為這是由于流行病學術語被內容過濾器誤認為生物武器相關內容觸發的。雖然在消費者部署中這種謹慎是可以理解的，但過于寬泛的限制可能使整個模型系列無法用于合法的公共衛生研究。

在成本分析方面，不同模型間的巨大成本差異主要源于每篇文章的標記使用量差異，特別是在參數提取階段。例如，GPT-5.2每篇文章產生91.1萬個輸出標記，而DeepSeek-V3.2只有3萬個。參數提取占據了整體計算資源的主導地位，每階段的標記和成本明細顯示了這種差異的具體表現。

七、實際應用前景和局限性

研究團隊坦率地承認了幾個重要的局限性。首先是數據覆蓋范圍有限，分析僅限于開放獲取文章，僅匹配標準答案數據集的約26%。僅限英語的篩選進一步排除了某些研究，可能引入了多語言文獻承載重要流行病學信號的語料庫級偏差。

其次，評估指標可能并非適用于所有使用情況。為了優先考慮召回率，系統被指示傾向于納入。參數類別標記實現了高召回率但精確率較低，這意味著仍然需要下游的人工過濾。由于提取的字段和數值直接輸入基于證據的政策建議，不精確是一個重要的實踐關切。

再次，特定階段的編排限制了系統的代理能力。AgentSLR被有意約束為分階段提示和模式驗證的工具調用，并未充分發揮更廣泛的代理行為，如迭代解決檢索失敗或根據新穎研究設計定義自己的提取模式。團隊與人類專家共同開發和驗證了提取工具，但沒有正式量化這個過程。

最后，對完整證據綜合過程的覆蓋不完整。這項工作涵蓋了檢索、篩選和結構化提取，但沒有評估薈萃分析或最終綜述寫作等需要深思熟慮的步驟。報告生成階段產生敘述綜合但不包含推論統計。模型是否能夠正確指定和擬合統計模型并產生真正基于數千個收集數據點而非依賴表面流暢性的解釋，仍然是一個開放且重要的問題。

八、對科學研究的深遠影響

這項研究的意義遠遠超出了流行病學領域。它展示了人工智能在專業科學工作流程中的巨大潛力，就像第一次工業革命改變了手工業一樣，AI正在改變知識工作者的工作方式。在文獻爆炸式增長的今天，傳統的人工綜述方法已經難以跟上知識產生的速度，而AgentSLR這樣的系統為科學界提供了一種全新的解決方案。

對于公共衛生政策制定者來說，這種技術能夠實現"活體系統性綜述"，即隨著新研究的發表不斷更新綜述內容。這對于疫情防控具有重要價值，因為決策者需要基于最新的科學證據制定政策，而傳統綜述的長周期往往讓決策滯后于科學發現。

研究還發現，在人機協作模式下，AI系統的表現最佳。雖然AgentSLR缺乏完全自動化流行病學綜述所需的上下文理解能力，但它在人類主導的流程中提供了實質性的效率提升。手動審查限制了綜述的可擴展性，而全文處理需要比僅摘要分類更多的資源。鑒于強大的分類性能，AgentSLR非常適合在人類摘要過濾后加速全文篩選。

對于數據提取工作，高召回率確保相關證據得以保留供人類驗證，而專家報告在提供AgentSLR輸出時效率得到改善。通過減少使連續管理不可行的每次更新負擔，這些能力可以實現活體系統性綜述，為及時的疫情準備提供支持。

九、未來展望和技術演進

這項可行性研究為未來工作指明了許多令人興奮的方向。最緊迫的是需要進行適當的人類提升研究，以更穩健地量化人機協作實施的時間節約和有效性。研究團隊正在原型設計一個人機協作注釋工具，將其改進為生產級別并提供給進行未來綜述的流行病學家。

人類提升在未知或研究不足的疾病具有嚴重流行潛力的情況下最具說服力，或在文獻量超過審稿人能力的優先病原體上也很有價值。雖然AgentSLR的實現嚴重依賴流行病學領域知識，但它為綜述自動化提供的框架是可擴展的。未來工作可以探索推廣到醫學、社會和物理科學的其他科學領域，并研究模型是否能夠隨著領域知識的變化參與定義自己的提取工具。

研究顯示不同模型在不同階段表現優異，這表明將子任務路由到具有互補能力配置的模型的異構多智能體配置可能會改善整體流水線性能。這種方法就像組建一個專業化團隊，讓每個成員發揮自己的特長，最終實現整體效果的最大化。

說到底，這項研究向我們展示了人工智能在科學研究中的巨大潛力。雖然目前的系統還不能完全替代人類專家，但它已經能夠在很多環節大幅提升效率。就像計算器沒有取代數學家，但讓數學計算變得更快更準一樣，AgentSLR這樣的系統正在成為科研工作者的得力助手。

對于普通人來說，這意味著當下一次疫情來臨時，科學家能夠更快地整理和分析已有知識，為政策制定提供更及時的科學依據。這種效率的提升最終會轉化為更好的公共衛生保護和更精準的疫情防控措施。隨著技術的不斷完善，我們有理由相信，AI將在科學發現和知識綜合方面發揮越來越重要的作用，讓科學研究變得更加高效和普惠。

Q&A

Q1：AgentSLR系統能完全替代人類專家進行文獻綜述嗎？

A：目前不能完全替代。AgentSLR更適合作為人類專家的助手，在人機協作模式下表現最佳。雖然它能大幅提升效率，將7周的工作壓縮到20小時，但在復雜判斷和上下文理解方面仍需要人類專家的監督和驗證。

Q2：這個AI系統的準確率如何？

A：系統在不同任務上的準確率有所差異。在文章篩選方面召回率達到81%，在數據提取方面，專家評估的字段級準確率約為80%。雖然不是100%完美，但專家普遍認為它提供了有用的起點，能顯著減少人工工作量。

Q3：AgentSLR系統的成本如何？

A：成本因選擇的AI模型而差異很大。使用開源模型gpt-oss-120b自托管的成本約為137美元，使用API服務約50美元。相比傳統人工綜述14.1萬美元的成本，這是一個巨大的節約，且開源模型的性能與昂貴的閉源模型相當。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.