網易首頁 > 網易號 > 正文申請入駐

大變天？Nature 報道科研邁向AI自動化：從研究構思到通過盲審

2026-03-30 08:03:06　來源: PsyBrain腦心前沿

北京舉報

分享至

認知神經科學前沿文獻分享

基本信息

Title:Towards end-to-end automation of AI research

發表時間:2026-03-25

發表期刊:Nature

影響因子:48.5

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

過去幾年，AI在科研中的角色不斷擴張，但多數停留在查文獻、寫代碼、提假設等單點輔助上。真正困難的問題是：模型能否將一個研究想法推進成完整實驗，再把實驗結果整理成論文，并最終通過同行評議的檢驗？

這篇《Nature》論文探討的正是這一關鍵缺口：是否可以構建一個基于基礎模型（foundation models）的代理式系統（agentic system），端到端自動完成機器學習科研流程。作者提出了The AI Scientist系統，其目標不是簡單生成文本，而是覆蓋構思、查重、實驗、畫圖、寫作乃至AI審稿的完整鏈條。同時，評估這類系統本身也極具挑戰。若每次都依賴人類專家逐篇審稿，成本極高且難以規模化比較。因此，作者構建了配套的自動審稿器 The Automated Reviewer，用以近似人類評審群體的判斷。

這項工作最引人注目的結果在于其真實的外部驗證：經批準后，3篇全AI生成的論文被匿名投至ICLR 2025的一個workshop，其中1篇在真實盲審中超過了平均接收閾值。這表明AI自動化科研開始觸碰真實學術評審體系，但作者也極其謹慎地指出，這距離頂級主會標準仍有明顯差距，且系統的穩定性與方法正確性仍有待解決。

實驗設計與方法邏輯

論文的論證為三個層次：系統構建、評估器驗證與能力檢驗。

第一層是系統構建。The AI Scientist包含兩種形態：基于模板（template-based）的系統從人類提供的初始代碼出發，在特定子領域上迭代推進；無模板（template-free）系統則在更開放的空間中，通過代理式樹搜索（agentic tree search）生成代碼、調試并推進研究議程，更接近從零開始的開放式科研。

第二層是評估器驗證。作者構建了The Automated Reviewer，采用5個獨立AI審稿加1個元審稿（meta-review）的集成流程。在OpenReview的ICLR歷史決策數據上，該審稿器的平衡準確率（balanced accuracy）達到0.66至0.69，與已知的人類評審一致性水平相當。這使其具備了作為大規模比較系統輸出質量的近似標尺的資格。

第三層是能力檢驗。作者首先在內部比較了不同底層模型和測試時計算（test-time compute）對生成論文質量的影響。隨后進行了最關鍵的外部驗證：經ICLR 2025 workshop組織方和IRB批準，作者將3篇未經人工修改正文的AI生成論文提交至ICBINB workshop盲審。此設計的目的并非證明AI已達頂會水平，而是檢驗其能否在真實同行評審場景下跨過最低可接受門檻。

核心發現

發現一：AI首次閉環完成科研流程，并在真實workshop盲審中達到接收門檻

The AI Scientist將提出想法、新穎性檢查、修改代碼、運行實驗、繪制圖表、撰寫論文及AI審稿等環節串聯為完整閉環。在經批準的外部驗證中，3篇全AI生成的論文被提交至ICLR 2025的ICBINB workshop。其中1篇獲得6、7、6的評分，超過該workshop的平均接收閾值。這證明全AI生成的論文已能在真實的同行評審環境中跨過初步門檻，但作者強調，這僅是workshop級別，且3篇中僅1篇過線，尚未達到頂級主會標準。

Fig. 1a 中，作者展示了 The AI Scientist 覆蓋構思、實驗、寫作與審稿的完整流程；Fig. 2 則展示了在真實盲審中達到接收門檻的 AI 生成論文片段。

發現二：底層模型升級與測試時計算增加，能顯著提升AI生成的論文質量

借助與人類評審一致性相當的自動審稿器，作者量化評估了不同配置下的系統產出。結果顯示，驅動系統的底層基礎模型發布時間越新，生成的論文得分越高。此外，在無模板的開放式探索中，增加測試時計算，尤其是增加樹搜索中的實驗節點預算，能讓系統嘗試更多路徑并修復錯誤，從而進一步提高最終論文的質量評分。

Fig. 1b 中，作者展示了不同發布時間的底層模型驅動系統時，論文評分整體上升的趨勢；Fig. 3c 則表明隨著實驗節點數量增加，自動審稿器給出的論文分數也隨之上升。

發現三：當前系統仍存在方法錯誤與幻覺等短板，尚未能穩定替代人類科研

文中 Limitations 段落與討論中，作者認為：盡管實現了流程閉環，但當前系統在科學嚴謹性上仍存在明顯瓶頸。作者坦誠列舉了常見的失敗模式，包括研究想法不成熟、核心方法實現錯誤、實驗不夠嚴謹、圖表重復以及引用幻覺（hallucination）等。這些問題直接觸及科學研究的正確性與可信度。因此，當前的系統更像是一個能跑通流程的研究代理原型，若無監督地大規模使用，可能帶來制造文獻噪聲、擠占評審資源等倫理與社會風險。

省流總結

本研究提出The AI Scientist系統，實現了機器學習科研從構思到審稿的端到端自動化。在真實workshop盲審中，1篇AI生成論文達到接收門檻。盡管模型升級能提升質量，但系統仍存在實驗錯誤與幻覺等短板，距離頂會標準仍有差距。

請打分

這篇剛剛登上Nature的研究，是否實至名歸？我們邀請您作為“云審稿人”，一同品鑒。精讀全文后，歡迎在匿名投票中打分，并在評論區分享您的深度見解。

分享人：天天

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨行。歡迎加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵關注，點亮星標 ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.