337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

大變天?Nature 報道科研邁向AI自動化:從研究構思到通過盲審

0
分享至


認知神經科學前沿文獻分享


基本信息

Title:Towards end-to-end automation of AI research

發表時間:2026-03-25

發表期刊:Nature

影響因子:48.5

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本



研究背景

過去幾年,AI在科研中的角色不斷擴張,但多數停留在查文獻、寫代碼、提假設等單點輔助上。真正困難的問題是:模型能否將一個研究想法推進成完整實驗,再把實驗結果整理成論文,并最終通過同行評議的檢驗?

這篇《Nature》論文探討的正是這一關鍵缺口:是否可以構建一個基于基礎模型(foundation models)的代理式系統(agentic system),端到端自動完成機器學習科研流程。作者提出了The AI Scientist系統,其目標不是簡單生成文本,而是覆蓋構思、查重、實驗、畫圖、寫作乃至AI審稿的完整鏈條。同時,評估這類系統本身也極具挑戰。若每次都依賴人類專家逐篇審稿,成本極高且難以規模化比較。因此,作者構建了配套的自動審稿器 The Automated Reviewer,用以近似人類評審群體的判斷。

這項工作最引人注目的結果在于其真實的外部驗證:經批準后,3篇全AI生成的論文被匿名投至ICLR 2025的一個workshop,其中1篇在真實盲審中超過了平均接收閾值。這表明AI自動化科研開始觸碰真實學術評審體系,但作者也極其謹慎地指出,這距離頂級主會標準仍有明顯差距,且系統的穩定性與方法正確性仍有待解決。


實驗設計與方法邏輯

論文的論證為三個層次:系統構建、評估器驗證與能力檢驗。

第一層是系統構建。The AI Scientist包含兩種形態:基于模板(template-based)的系統從人類提供的初始代碼出發,在特定子領域上迭代推進;無模板(template-free)系統則在更開放的空間中,通過代理式樹搜索(agentic tree search)生成代碼、調試并推進研究議程,更接近從零開始的開放式科研。

第二層是評估器驗證。作者構建了The Automated Reviewer,采用5個獨立AI審稿加1個元審稿(meta-review)的集成流程。在OpenReview的ICLR歷史決策數據上,該審稿器的平衡準確率(balanced accuracy)達到0.66至0.69,與已知的人類評審一致性水平相當。這使其具備了作為大規模比較系統輸出質量的近似標尺的資格。

第三層是能力檢驗。作者首先在內部比較了不同底層模型和測試時計算(test-time compute)對生成論文質量的影響。隨后進行了最關鍵的外部驗證:經ICLR 2025 workshop組織方和IRB批準,作者將3篇未經人工修改正文的AI生成論文提交至ICBINB workshop盲審。此設計的目的并非證明AI已達頂會水平,而是檢驗其能否在真實同行評審場景下跨過最低可接受門檻。


核心發現

發現一:AI首次閉環完成科研流程,并在真實workshop盲審中達到接收門檻

The AI Scientist將提出想法、新穎性檢查、修改代碼、運行實驗、繪制圖表、撰寫論文及AI審稿等環節串聯為完整閉環。在經批準的外部驗證中,3篇全AI生成的論文被提交至ICLR 2025的ICBINB workshop。其中1篇獲得6、7、6的評分,超過該workshop的平均接收閾值。這證明全AI生成的論文已能在真實的同行評審環境中跨過初步門檻,但作者強調,這僅是workshop級別,且3篇中僅1篇過線,尚未達到頂級主會標準。



Fig. 1a 中,作者展示了 The AI Scientist 覆蓋構思、實驗、寫作與審稿的完整流程;Fig. 2 則展示了在真實盲審中達到接收門檻的 AI 生成論文片段。
發現二:底層模型升級與測試時計算增加,能顯著提升AI生成的論文質量

借助與人類評審一致性相當的自動審稿器,作者量化評估了不同配置下的系統產出。結果顯示,驅動系統的底層基礎模型發布時間越新,生成的論文得分越高。此外,在無模板的開放式探索中,增加測試時計算,尤其是增加樹搜索中的實驗節點預算,能讓系統嘗試更多路徑并修復錯誤,從而進一步提高最終論文的質量評分。


Fig. 1b 中,作者展示了不同發布時間的底層模型驅動系統時,論文評分整體上升的趨勢;Fig. 3c 則表明隨著實驗節點數量增加,自動審稿器給出的論文分數也隨之上升。
發現三:當前系統仍存在方法錯誤與幻覺等短板,尚未能穩定替代人類科研

文中 Limitations 段落與討論中,作者認為:盡管實現了流程閉環,但當前系統在科學嚴謹性上仍存在明顯瓶頸。作者坦誠列舉了常見的失敗模式,包括研究想法不成熟、核心方法實現錯誤、實驗不夠嚴謹、圖表重復以及引用幻覺(hallucination)等。這些問題直接觸及科學研究的正確性與可信度。因此,當前的系統更像是一個能跑通流程的研究代理原型,若無監督地大規模使用,可能帶來制造文獻噪聲、擠占評審資源等倫理與社會風險。


省流總結

本研究提出The AI Scientist系統,實現了機器學習科研從構思到審稿的端到端自動化。在真實workshop盲審中,1篇AI生成論文達到接收門檻。盡管模型升級能提升質量,但系統仍存在實驗錯誤與幻覺等短板,距離頂會標準仍有差距。


請打分

這篇剛剛登上Nature的研究,是否實至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區分享您的深度見解。

分享人:天天

審核:PsyBrain 腦心前沿編輯部

你好,這里是「PsyBrain 腦心前沿

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊

科研是一場探索未知的長跑,但你無需獨行。歡迎加入PsyBrain 學術社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。

點擊卡片進群,歡迎你的到來

一鍵關注,點亮星標 ? 前沿不走丟!


一鍵分享,讓更多人了解前沿

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
以總理:與伊朗的停火可能很快結束

以總理:與伊朗的停火可能很快結束

澎湃新聞
2026-04-13 20:22:08
黃河特大橋垮塌,13死3失聯!劣質螺栓流入國家級工程,全流程管理爛透了

黃河特大橋垮塌,13死3失聯!劣質螺栓流入國家級工程,全流程管理爛透了

火鍋局
2026-04-14 11:40:24
司馬南的綠卡和胡錫進的沃爾沃

司馬南的綠卡和胡錫進的沃爾沃

關爾東
2026-04-14 19:15:14
董軍防長警告:海峽封鎖不適用于中國油輪,純屬外媒的虛假報道

董軍防長警告:海峽封鎖不適用于中國油輪,純屬外媒的虛假報道

國平視野
2026-04-14 16:03:17
比亞迪回應坪山園區一立體車庫火情:為試驗及報廢車輛專用停放區 火勢已撲滅 無人員傷亡

比亞迪回應坪山園區一立體車庫火情:為試驗及報廢車輛專用停放區 火勢已撲滅 無人員傷亡

財聯社
2026-04-14 09:32:13
太陽報:伊朗女足隊長在澳大利亞避難,全部財產已被伊朗當局沒收

太陽報:伊朗女足隊長在澳大利亞避難,全部財產已被伊朗當局沒收

懂球帝
2026-04-14 08:51:06
4月14日俄烏最新:戰爭史上的第一次

4月14日俄烏最新:戰爭史上的第一次

西樓飲月
2026-04-14 19:50:20
內娛最抓馬的出軌大瓜,出現了

內娛最抓馬的出軌大瓜,出現了

獨立魚
2026-04-13 21:07:32
曝大鬧昆明候機廳:狂踹工作人員,鬧事母女正臉曝光,孩子受牽連

曝大鬧昆明候機廳:狂踹工作人員,鬧事母女正臉曝光,孩子受牽連

奇思妙想草葉君
2026-04-14 17:03:12
這居然是任泉?網友:真認不出來了

這居然是任泉?網友:真認不出來了

木子愛娛樂大號
2026-04-14 10:52:36
恒大集團退薪

恒大集團退薪

新浪財經
2026-04-12 10:31:26
CBA最新消息!廣東宏遠官宣臨時換帥,北京首鋼報價頂級外援

CBA最新消息!廣東宏遠官宣臨時換帥,北京首鋼報價頂級外援

體壇瞎白話
2026-04-14 20:06:19
市值暴跌7000億、聯合創始人接連退出,小米經歷了什么?

市值暴跌7000億、聯合創始人接連退出,小米經歷了什么?

花朵財經
2026-04-14 12:04:16
許家印當庭認罪,家族還有多少資產沒追回?

許家印當庭認罪,家族還有多少資產沒追回?

鳳凰網財經
2026-04-14 12:59:36
媽耶!就一首代表作也能開演唱會,票價賣到1180,到底誰給的自信

媽耶!就一首代表作也能開演唱會,票價賣到1180,到底誰給的自信

八卦南風
2026-04-14 12:21:59
英偉達首席科學家:以前8個人干10個月的活,現在一個晚上搞定了

英偉達首席科學家:以前8個人干10個月的活,現在一個晚上搞定了

頂級大佬思維
2026-04-14 18:13:14
陜西女子被丈夫和閨蜜背叛案二審開庭

陜西女子被丈夫和閨蜜背叛案二審開庭

黃河新聞網呂梁
2026-04-14 11:26:44
多地新能源車牌綠色變白色?有博主發布“車牌褪色”教程;交管部門:不合法

多地新能源車牌綠色變白色?有博主發布“車牌褪色”教程;交管部門:不合法

上觀新聞
2026-04-14 11:34:06
賽力斯汽車“車載便器”專利正式獲批:可解決長途出行內急需求

賽力斯汽車“車載便器”專利正式獲批:可解決長途出行內急需求

IT之家
2026-04-14 15:10:22
“74歲老太殺害73歲老太并藏尸”案宣判,被告人曾某某犯故意殺人罪,判處死刑,緩期二年執行;二人因柴火歸屬起爭執

“74歲老太殺害73歲老太并藏尸”案宣判,被告人曾某某犯故意殺人罪,判處死刑,緩期二年執行;二人因柴火歸屬起爭執

魯中晨報
2026-04-14 20:52:03
2026-04-14 21:36:49
PsyBrain腦心前沿
PsyBrain腦心前沿
追蹤腦科學新動態,聚焦認知與神經新研究
310文章數 15關注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

女子喪偶后和上海婆婆反目 婆婆出錢買的房打官司輸了

頭條要聞

女子喪偶后和上海婆婆反目 婆婆出錢買的房打官司輸了

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊道歉”

娛樂要聞

宋祖兒劉宇寧戀情大反轉 正主火速辟謠

財經要聞

許家印認罪,他和恒大還有多少欠債?

汽車要聞

售12.99萬起/續航2000km 風云T9L上市

態度原創

親子
藝術
健康
數碼
公開課

親子要聞

相愛十年最好的人生禮物來啦!

藝術要聞

這位美女畫家的夏天竟如此夢幻

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

OPPO Pad 5 Pro旗艦配置官曝,懸浮鍵盤確認配備全域壓感觸控板

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版