337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Agent不是關鍵!人大AiScientist實現23小時、74輪長程記憶

0
分享至


新智元報道

編輯:LRST

【新智元導讀】中國人民大學團隊打造的AiScientist,旨在解決長程機器學習研究工程的持續性難題。該系統從論文理解開始,跨越環境配置、代碼實現與實驗迭代,保持狀態連續與決策連貫,顯著提升科研效率。其核心在于通過File-as-Bus機制,穩定保存項目狀態,使AI能真正接手科研流程,而非僅輔助單個環節。

自動化科學研究,正在成為人工智能領域最受關注的方向之一。

在機器學習場景下,已經有越來越多系統能夠參與 idea generation、literature synthesis、targeted experimentation、scientific writing 等研究環節。無論是從論文到代碼,還是從實驗到分析,AI for Research 的邊界都在快速外擴。

AiScientist的切入點,是在這些已有進展的基礎上,進一步關注一個更具操作性、也更接近真實科研流程的設定:長程ML research engineering。

在這一設定下,系統不只是完成某一個環節,而是要從論文或研究目標出發,連續處理環境配置、依賴管理、資源獲取、代碼實現、實驗執行、結果對比、錯誤歸因和反復修復。這里既有局部環節本身的技術難度,也有跨階段持續推進時的系統性挑戰。

更關鍵的是,這些問題往往不會即時暴露。一個早期決策的偏差,可能要到數小時后的實驗結果里才會顯現;而一旦項目狀態在多輪推進中丟失,后續階段就很難判斷問題究竟來自論文理解、實現細節、數據處理,還是基礎設施配置。

中國人民大學高瓴人工智能學院此次提出的AiScientist,正是沿著這條方向,試圖把AI從「能參與若干研究環節」進一步推進到「能持續接手研究工程流程」。


論文:https://arxiv.org/pdf/2604.13018

倉庫:https://github.com/AweAI-Team/AiScientist

23小時、74輪實驗

AiScientist在做什么?


AiScientist最直觀的結果,來自MLE-Bench Lite的Detecting Insults任務。

在這一任務上,AiScientist在23小時內自主完成了74輪實驗循環,將validation AUC從0.903提升到了0.982,期間實現了18次best-so-far update

這一結果的意義,不只是分數提高了多少,更在于它呈現出了一條完整的研究工程鏈路:從讀取任務、搭建環境、撰寫實現,到運行實驗、分析偏差、修補系統、再驗證結果,整個過程并非單次生成,而是持續迭代。

換句話說,AiScientist試圖解決的并不是「再做一個更強的代碼助手」,而是讓 AI 在真實科研流程中,開始具備持續推進任務的能力。

AiScientist在解決什么問題?

現有不少AI for Research系統,已經能在某些研究環節展現出很強能力,例如生成代碼、總結論文、輔助實驗設計,甚至完成一整篇論文的撰寫。

AiScientist聚焦于實驗性更強的場景:ML research engineering,它不是一個單點問題,而是一條跨階段、長時間的連續任務鏈。系統需要先理解論文和目標設定,再處理依賴與資源,完成實現,運行實驗,并根據實驗輸出做歸因、修正和繼續迭代。

其中每一個環節,本身都已經足夠困難。論文可能是不完整、欠規格化的;環境配置與依賴下載常?,嵥槎嗳酰粚嶒灧答伨哂忻黠@延遲,而且錯誤原因往往交織在實現、數據、超參與基礎設施多個層面。

論文也指出,這一困難已經在嚴苛評測中有所體現:在 PaperBench 這類高難度從零復現任務上,最佳已報告agent僅達到約21%的replication rubric,而頂尖ML PhD在48小時預算下可達到41%。這說明,長程研究工程的瓶頸并不只是模型能否完成局部推理,而是系統能否跨越多個階段,保持狀態連續和決策連貫。

也就是說,長程ML research engineering既包含很多高難度的local problem,也要求把這些問題在時間線上順序串起來、相互校正、持續推進。真正的難點,不只是「這一輪會不會推理」,而是系統能不能在不同階段之間保持coherent progress。

不只是「多幾個Agent」


AiScientist 的核心設計理念,可以概括為一句話:thin control over thick state。

在這套系統中,頂層Orchestrator負責階段級控制與任務推進,相當于一個輕量的總調度器;而真正承載項目記憶的,則不是一輪輪對話上下文,而是workspace中持續演化的分析、計劃、代碼、日志與實驗記錄。

換句話說,AiScientist并不試圖讓某一個Agent把所有細節都「記在腦子里」,而是讓不同角色圍繞一個持續更新的項目狀態展開協作。頂層控制保持輕量,底層狀態保持厚實,系統因此可以在長程任務中逐步積累,而不是反復從頭開始。

這也是這篇工作的一個重要判斷:讓系統跑長的關鍵,不只是多智能體分工本身,而是這些分工能否建立在穩定、可繼承的項目狀態之上。

File-as-Bus是關鍵

AiScientist將這種「項目狀態」進一步落實成了File-as-Bus機制。

簡單理解,它不是把文件當作普通附件來存放,而是把文件系統本身當作長程協作的底座。論文分析、任務計劃、實現代碼、實驗日志、錯誤記錄和中間結果,都被持續寫回workspace,成為后續階段可以重新讀取和利用的 durable artifacts。

這意味著,系統不是依賴對話里殘留的幾句摘要繼續工作,而是可以圍繞真實存在的項目證據來推進下一步決策。對于長程研究工程來說,這一點非常重要。因為前一階段的一個判斷,可能會在幾個小時后才以實驗異常的形式暴露出來;如果這些中間狀態無法被完整保留,后續階段就很難準確歸因,更難在正確位置做修補。

也因此,AiScientist的重點并不只是「讓多個Agent配合起來」,而是讓整個系統具備一種更穩定的外部記憶能力。真正需要被傳遞的,不是某一輪的表面結論,而是項目在不同階段里逐步積累下來的狀態本身。

實驗結果


在PaperBench上,AiScientist相對最佳匹配基線平均提升約10.54 分。這一結果說明,它并不只是在某個單獨case上有效,而是能夠在從論文復現到完整工程實現的高難度場景中,穩定拉開與現有方法的差距。


在MLE-Bench Lite上,AiScientist達到了81.82% Any Medal,說明它不只擅長「把系統先跑起來」,也能在更接近真實競賽和研究迭代的場景中持續優化結果。

更重要的是,這種提升并不是簡單靠「多交互幾輪」堆出來的。論文明確指出:More interaction alone is not enough.額外的輪次只有建立在前面正確積累的狀態之上,才會真正轉化為長程能力。否則,更多交互反而可能帶來更高成本和更多噪聲。


機制分析進一步說明了這一點。移除File-as-Bus后,AiScientist在PaperBench上下降6.41分,在MLE-Bench Lite上Any Medal下降31.82個百分點。這表明,狀態連續性并不是一個「錦上添花」的設計,而是長程研究工程里真正影響系統能否持續推進的關鍵因素之一。

與此同時,論文也沒有把File-as-Bus說成唯一答案。實驗同樣表明,hierarchical orchestration也在性能提升中起到了重要作用。換句話說,AiScientist的價值并不來自某一個單獨組件,而是來自orchestration與state continuity 共同支撐的系統設計。

啟示

如果只看結果,AiScientist的貢獻似乎只是「分數更高了」。但從論文給出的機制分析來看,這項工作的價值其實更立體。

第一,長程ML research engineering不只是很多local problem的堆疊,它本身還是一個更難的 systems problem。論文理解、環境配置、資源下載、代碼實現、實驗執行、誤差診斷,這些環節單獨拿出來,很多都已經是足夠困難的技術任務;更難的是,要把這些環節在長時間跨度里順序接起來、相互校正、持續推進。也正因為如此,決定系統成敗的,不只是某一步做得好不好,而是整個流程能否在跨階段推進中保持連貫。

第二,AiScientist的關鍵,不只是用了multi-agent,而是把狀態連續性做成了系統能力。層級化orchestration當然重要,它幫助不同角色聚焦不同階段;但真正讓這套組織形式產生復利的,是項目狀態能否以durable artifact的形式被穩定保存、讀取、繼承和繼續利用。換句話說,multi-agent是組織形式,狀態連續性才是這套系統真正跑長的基礎。

第三,File-as-Bus的價值,更多體現在后期refinement,而不只是前期搭一個能跑的腳手架。從消融結果看,去掉File-as-Bus后,系統未必立刻連基礎可運行性都失去,但在更依賴后期優化和結果逼近的指標上,會出現更明顯退化。這意味著它真正帶來的,不只是executability,而是fidelity:讓系統能在多輪診斷、修補、對齊和優化中,把每一輪試錯都建立在前一輪留下的有效證據之上。

為什么這件事值得關注?

從更大的視角看,AiScientist指向的是一個比benchmark分數更值得關注的問題:AI能否真正進入科研流程,而不只是停留在某一個局部環節。

長程ML research engineering既是很多困難local problem的串聯,也是一個更難的systems problem。每個局部環節都足夠復雜,而把這些環節接起來、在多輪反饋里保持一致性、讓前一輪決策真正服務于后一輪推進,則更難。

AiScientist給出的一個重要啟示是:未來的AI科研系統,關鍵不只是模型會不會推理、會不會寫代碼、會不會調用工具,而是能否在長時間跨度里穩定保存、繼承并利用項目狀態。

這也是為什么這項工作值得被放在更廣的AI for Research進展中來看。它討論的不是單步能力的再增強,而是 AI 如何真正從「輔助一個環節」走向「接手一條流程」。

與此同時,團隊也在將AiScientist從benchmark中的評測對象,逐步推進為真實可用的軟件系統。換句話說,這項工作并不只是想回答「分數能不能提高」,也想回答「AI 能不能真正走進實驗、復現、調參和迭代的日常流程里,進一步解放實驗層面的生產力」。

總結

AiScientist試圖推動的,并不只是一個更強的科研Agent,而是一種對長程研究工程的新理解:在真實科研任務中,真正重要的往往不是單次生成得多漂亮,而是系統能否在跨階段、跨輪次、跨文件的任務鏈中,把項目狀態穩定存住,并據此持續推進。

如果這一點成立,那么AI進入科研流程的方式,也將從「輔助某一步」逐漸走向「接手整條鏈路」。

參考資料:

https://arxiv.org/pdf/2604.13018

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
成本5億積壓7年,院線都沒上直接免費網播,這電影就是個笑話!

成本5億積壓7年,院線都沒上直接免費網播,這電影就是個笑話!

可樂談情感
2026-04-17 19:40:59
國米650萬頂薪球員續約被擱置,32歲魔咒來了

國米650萬頂薪球員續約被擱置,32歲魔咒來了

體育硬核說
2026-04-19 14:13:26
美媒:中國“殲-50”可能只是F-47隱身戰斗機的“低配仿制型號”

美媒:中國“殲-50”可能只是F-47隱身戰斗機的“低配仿制型號”

零度Military
2026-04-18 14:36:44
潮水退去才知誰在裸泳!瘋狂倒賣俄油的印度,徹底慌了神

潮水退去才知誰在裸泳!瘋狂倒賣俄油的印度,徹底慌了神

安珈使者啊
2026-04-20 10:04:22
終于明白為什么要遠離行為怪異的人!網友:一句話就讓人后背發涼

終于明白為什么要遠離行為怪異的人!網友:一句話就讓人后背發涼

夜深愛雜談
2026-04-19 21:46:58
阿聯酋效率驚人,剛訪華回來,高調表態:上萬億真金白銀押注中國

阿聯酋效率驚人,剛訪華回來,高調表態:上萬億真金白銀押注中國

斜煙風起雨未
2026-04-20 15:01:33
教育部剛通知!9月起上學新規全覆蓋,普通家庭孩子上學迎公平

教育部剛通知!9月起上學新規全覆蓋,普通家庭孩子上學迎公平

復轉這些年
2026-04-18 11:43:46
很意外,蘇林坐了12小時中國高鐵,越南人急了

很意外,蘇林坐了12小時中國高鐵,越南人急了

新浪財經
2026-04-19 02:38:50
財務造假,3倍牛股突遭ST

財務造假,3倍牛股突遭ST

21世紀經濟報道
2026-04-20 13:17:37
英偉達178美元黃仁勛毛衣走紅

英偉達178美元黃仁勛毛衣走紅

三言科技
2026-04-20 11:42:06
公公住在我家,每月給我4500,我趕走他后接來我媽,半月后我哭了

公公住在我家,每月給我4500,我趕走他后接來我媽,半月后我哭了

熱心市民小黃
2026-04-20 03:06:45
女演員千萬別整容!看“金像獎紅毯”章子怡,舒淇同框,就懂了

女演員千萬別整容!看“金像獎紅毯”章子怡,舒淇同框,就懂了

童叔不飆車
2026-04-20 09:49:21
中東,突發大消息!伊朗革命衛隊向油輪開火!伊朗最高領袖發聲

中東,突發大消息!伊朗革命衛隊向油輪開火!伊朗最高領袖發聲

證券時報e公司
2026-04-18 20:38:43
英國遭到拒絕后發警告:中國如果不合作,中企海外資產將被沒收!

英國遭到拒絕后發警告:中國如果不合作,中企海外資產將被沒收!

荷蘭豆愛健康
2026-04-19 18:08:20
男性165-188cm標準體重對照表,若你能“達標”,恭喜,并不算胖

男性165-188cm標準體重對照表,若你能“達標”,恭喜,并不算胖

健身狂人
2026-04-17 13:06:22
打不得!日本戰艦闖入臺海峽,我軍為什么不直接擊沉它?

打不得!日本戰艦闖入臺海峽,我軍為什么不直接擊沉它?

趣文說娛
2026-04-18 19:34:03
世錦賽爆冷門!馬叔10-4晉級,肖國棟10-6爆冷,5人已經晉級16強

世錦賽爆冷門!馬叔10-4晉級,肖國棟10-6爆冷,5人已經晉級16強

劉哥談體育
2026-04-20 08:26:07
左小青這狀態,鯊瘋了!明媚動人,若隱若現

左小青這狀態,鯊瘋了!明媚動人,若隱若現

只要高興就好
2025-12-10 19:09:26
敲詐中國10億美元、拒絕中國飛機借道,如今這個國家又找上中國!

敲詐中國10億美元、拒絕中國飛機借道,如今這個國家又找上中國!

春序娛樂
2026-04-20 04:52:53
抗戰時日軍輕易占領上海、南京、武漢,但為何怎么也打不進重慶?

抗戰時日軍輕易占領上海、南京、武漢,但為何怎么也打不進重慶?

掠影后有感
2026-04-20 09:42:01
2026-04-20 15:35:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15017文章數 66787關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛星未入軌

頭條要聞

媒體:伊朗剛說不談 美國立即開打

頭條要聞

媒體:伊朗剛說不談 美國立即開打

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經要聞

月之暗面IPO迷局

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

家居
房產
時尚
親子
教育

家居要聞

自然慢調 慢享時光

房產要聞

重磅!??诒闭緛砹?!多項信息曝光,過海時間將大幅縮短!

今年最流行的衣服竟然是它?高級又氣質!

親子要聞

“疑似被鼠藥污染”,國際知名嬰幼兒食品多國下架

教育要聞

都說慣子如殺子,這3種隱形溺愛,希望你一件都沒做過……

無障礙瀏覽 進入關懷版