337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI學(xué)會(huì)左腳踩右腳自進(jìn)化?Meta華人新研究改寫(xiě)Agent法則

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】過(guò)去Agent比誰(shuí)更會(huì)干活,現(xiàn)在可能要比誰(shuí)更會(huì)變強(qiáng)。

AI已經(jīng)學(xué)會(huì)「左腳踩右腳上天」了?

Meta的一項(xiàng)最新研究表明:AI已經(jīng)開(kāi)始碰自己的「進(jìn)化引擎」了。

華人學(xué)者Jenny Zhang在Meta實(shí)習(xí)期間,聯(lián)合Meta AI、UBC、紐約大學(xué)等機(jī)構(gòu)研究者,提出了一種新的智能體框架:HyperAgents(DGM-H


https://arxiv.org/abs/2603.19461

這項(xiàng)工作的重點(diǎn),不是再造一個(gè)更能干活的Agent。

它瞄準(zhǔn)的是更高一層的問(wèn)題:

如果AI已經(jīng)能夠修改自己的任務(wù)解法,那它能不能連「自己以后該怎么修改自己」這件事,也一并改掉?

論文給出的答案是:可以。

而且,這不再是概念推演,而是已經(jīng)在實(shí)驗(yàn)中跑通的系統(tǒng)能力。

HyperAgents做的關(guān)鍵一步,是把「執(zhí)行任務(wù)的 agent」和「負(fù)責(zé)改進(jìn) agent 的 meta agent」合并進(jìn)同一個(gè)可編輯程序里,作者將之稱為hyperagent。


DGM依賴任務(wù)與自修改能力的對(duì)齊,而DGM-H不再需要這種對(duì)齊

在新框架下,系統(tǒng)不只會(huì)修改任務(wù)求解邏輯,還開(kāi)始修改未來(lái)生成改進(jìn)方案的機(jī)制本身。

論文把這種能力稱為metacognitive self-modification,也就是:元認(rèn)知自我修改

過(guò)去行業(yè)競(jìng)爭(zhēng)的是:誰(shuí)的Agent更會(huì)干活。

而HyperAgents 指向的下一階段則可能是:誰(shuí)的Agent更會(huì)變強(qiáng),而且會(huì)越來(lái)越會(huì)變強(qiáng)

以往的「自我進(jìn)化」

其實(shí)還只是半手工

這篇論文,指出了上一代自我進(jìn)化路線的天花板。

去年的Darwin G?del Machine(DGM),已經(jīng)很驚艷。

它能在coding任務(wù)中不斷自改代碼、自我驗(yàn)證、把成功版本存進(jìn)archive,再?gòu)倪@些「墊腳石」里繼續(xù)往前長(zhǎng)。

論文披露,DGM在SWE-bench上能從20.0%拉到50.0%,在Polyglot上從14.2%拉到30.7%。

但問(wèn)題在于,DGM之所以能在coding里成立,是因?yàn)椤冈u(píng)估」和「自我修改」本身也都是coding任務(wù)。

寫(xiě)代碼更強(qiáng)了,反過(guò)來(lái)就更會(huì)改自己的代碼。任務(wù)能力和自我改進(jìn)能力,在這個(gè)場(chǎng)景里是對(duì)齊的。

然而一旦離開(kāi)coding,這個(gè)對(duì)齊關(guān)系就斷了。

比如評(píng)審論文、設(shè)計(jì)機(jī)器人獎(jiǎng)勵(lì)函數(shù)、給IMO級(jí)數(shù)學(xué)解答打分,這些任務(wù)做得更好,不等于你就更會(huì)修改自己的元機(jī)制。

HyperAgents論文最核心的一招,就是直接把這個(gè)假設(shè)砍掉:

既然任務(wù)能力和自我改進(jìn)能力未必天然對(duì)齊,那就不要再把meta層寫(xiě)死

這說(shuō)明過(guò)去很多「自我進(jìn)化」系統(tǒng),本質(zhì)上還是在人為設(shè)定的軌道里進(jìn)化。

HyperAgents真正改變的,是改變機(jī)制本身。

HyperAgents新在哪里?

表面上看,HyperAgents只是多了一個(gè)meta agent。

但真正值得注意的是,它把task agent和meta agent合成了同一個(gè)可編輯程序。

以前的DGM里,系統(tǒng)有一個(gè)手工設(shè)計(jì)的instruction-generation機(jī)制,負(fù)責(zé)根據(jù)過(guò)往表現(xiàn)決定下一步怎么改。

這一步不能被改,所以它反而成了整個(gè)系統(tǒng)的瓶頸。

HyperAgents的做法是把這部分也納入可修改范圍。

換句話說(shuō),AI不只是改自己的答案、自己的工具、自己的流程,它開(kāi)始改「自己怎么提出修改建議」。

DGM里上層機(jī)制基本固定,DGM-H里meta層本身也進(jìn)入可演化空間,也就是說(shuō),它是一個(gè)會(huì)經(jīng)營(yíng)自己進(jìn)化過(guò)程的系統(tǒng)。

所以,HyperAgents做的不是「再加一個(gè)Agent」,而是取消了「上層永遠(yuǎn)不變」這個(gè)默認(rèn)前提

自我改進(jìn)開(kāi)始跨域遷移

在coding任務(wù)中,HyperAgents在Polyglot 上的提升,與原始DGM處在同一量級(jí):50-task訓(xùn)練子集從0.140提升到0.340,完整benchmark從0.084提升到0.267。

換句話說(shuō),它并不是只靠犧牲泛化來(lái)?yè)Q局部成績(jī)。

更關(guān)鍵的是,它不只在coding任務(wù)成立,還能在paper review、robotics reward design等非coding任務(wù)上繼續(xù)自我改進(jìn)。


在paper review上,初始agent在測(cè)試集得分為0.0,DGM-H提升到0.710;在robotics reward design上,則從0.060提升到0.372。

更關(guān)鍵的是,這些提升不僅出現(xiàn)在訓(xùn)練任務(wù)里,也轉(zhuǎn)移到了held-out test tasks。

與此同時(shí),對(duì)照組也很說(shuō)明問(wèn)題:去掉self-improve,效果明顯變?nèi)酰蝗サ鬿pen-ended exploration,系統(tǒng)也很難取得有意義進(jìn)展;原始DGM直接搬到非coding 域幾乎失效,只有經(jīng)過(guò)人工定制成DGM-custom后,才恢復(fù)競(jìng)爭(zhēng)力。

這說(shuō)明HyperAgents 的關(guān)鍵價(jià)值,不在于某一個(gè)benchmark多拿了幾個(gè)點(diǎn),而在于它把原本依賴coding場(chǎng)景對(duì)齊關(guān)系的自我改進(jìn),推進(jìn)成了一個(gè)能在非coding任務(wù)中運(yùn)行的框架。

更值得注意的是遷移實(shí)驗(yàn)。


作者把在paper review和robotics任務(wù)中演化出來(lái)的hyperagents,轉(zhuǎn)移到Olympiad-level math grading。

雖然這些轉(zhuǎn)移體自身初始得分仍接近0,但它們作為「生成更優(yōu)agent的meta agent」,卻能在50輪內(nèi)把最好生成體推到0.630,對(duì)應(yīng)imp@50從0拉到0.630。

相比之下,來(lái)自DGM-custom的轉(zhuǎn)移體幾乎沒(méi)有這種能力。

換句話說(shuō),遷移過(guò)去的,不只是任務(wù)經(jīng)驗(yàn),而是「如何持續(xù)變好」的能力。

它開(kāi)始自己長(zhǎng)基礎(chǔ)設(shè)施了

很多人看到「自我進(jìn)化」會(huì)以為,無(wú)非是AI自己改prompt、調(diào)工作流、加幾個(gè)規(guī)則。

但論文展示給我們、最讓人感到?jīng)_擊力的一個(gè)地方在于:它開(kāi)始自己長(zhǎng)基礎(chǔ)設(shè)施了

DGM-H在迭代中會(huì)自動(dòng)長(zhǎng)出performance tracking、persistent memory、evaluation analysis、compute-aware planning這些基礎(chǔ)設(shè)施。



論文中甚至直接給出了自動(dòng)生成的性能追蹤器代碼和持久記憶條目:它開(kāi)始記錄跨代指標(biāo)、總結(jié)哪些代際策略有效、診斷過(guò)度修正、制定下一輪改進(jìn)計(jì)劃。

這還不是「日志記錄」那么簡(jiǎn)單,系統(tǒng)開(kāi)始把改進(jìn)看成一個(gè)長(zhǎng)期經(jīng)營(yíng)過(guò)程,而不是一次次孤立的pa?tch。

它不只記錄每一代分?jǐn)?shù),還會(huì)比較趨勢(shì)、識(shí)別回退,并把跨代經(jīng)驗(yàn)沉淀進(jìn)persistent memory。

正如網(wǎng)友所說(shuō),真正讓這一切變成現(xiàn)實(shí)的關(guān)鍵,恰恰是persistent memory的自主出現(xiàn)。


論文展示的memory示例中寫(xiě)道:某一代評(píng)審準(zhǔn)確率更高,但過(guò)于嚴(yán)苛;另一代平衡更好;下一輪要融合兩者優(yōu)點(diǎn)。


沒(méi)有這層記憶,agent往往只會(huì)反復(fù)「重新發(fā)明輪子」;有了它,過(guò)去幾代的有效經(jīng)驗(yàn)才第一次能真正沉淀為下一輪改進(jìn)的起點(diǎn)。

這說(shuō)明Agent正在從「輸出一個(gè)結(jié)果」,走向「維護(hù)一個(gè)持續(xù)優(yōu)化系統(tǒng)」

這不是AGI宣言

但舊規(guī)則確實(shí)在失效

當(dāng)然,這篇論文沒(méi)有證明「無(wú)限自我進(jìn)化AI」已經(jīng)降臨。

作者自己也寫(xiě)得很清楚:

實(shí)驗(yàn)都在沙箱、資源限制和人工監(jiān)督下完成;外層循環(huán)還有不少部分沒(méi)有開(kāi)放給系統(tǒng)自改,比如任務(wù)分布、parent selection、evaluation protocol等;真正無(wú)界的open-ended self-improvement,還遠(yuǎn)遠(yuǎn)沒(méi)到。

但風(fēng)險(xiǎn)預(yù)警已經(jīng)出現(xiàn)。

一旦AI開(kāi)始改自己的改進(jìn)機(jī)制,安全討論就變得重要起來(lái)。

論文也專門(mén)有一節(jié)談風(fēng)險(xiǎn):隨著系統(tǒng)越來(lái)越能開(kāi)放式地修改自己,它的演化速度可能超過(guò)人類審計(jì)和理解速度。

今天靠sandbox和人工盯著還能管住,明天未必。


HyperAgents代表了一種新的路線,它可能會(huì)改寫(xiě)Agent競(jìng)爭(zhēng)。

未來(lái)比的不只是誰(shuí)會(huì)調(diào)模型、誰(shuí)會(huì)寫(xiě)workflow、誰(shuí)會(huì)做更強(qiáng)單點(diǎn)工具,而是誰(shuí)能把「改進(jìn)能力」本身產(chǎn)品化、系統(tǒng)化、可遷移化。

這將改變AI公司的護(hù)城河。

真正的壁壘,可能不再只是參數(shù)、算力和數(shù)據(jù),而是有沒(méi)有一套能跨任務(wù)累積經(jīng)驗(yàn)、跨運(yùn)行持續(xù)變好的自我改進(jìn)系統(tǒng)。

也會(huì)改變開(kāi)發(fā)者位置。

開(kāi)發(fā)者不再只是寫(xiě)功能的人,而更像是在設(shè)計(jì)AI可以繼續(xù)自我設(shè)計(jì)的邊界條件。

最重要的一點(diǎn),它改寫(xiě)了AI行業(yè)過(guò)去默認(rèn)的一條規(guī)則:系統(tǒng)可以變強(qiáng),但變強(qiáng)的方法由人來(lái)定義。

現(xiàn)在,這條規(guī)則開(kāi)始松動(dòng)了。

作者簡(jiǎn)介

Jenny Zhang


Jenny Zhang

Jenny Zhang,現(xiàn)為英屬哥倫比亞大學(xué)人工智能博士生,師從Jeff Clune,同時(shí)也是Vector Institute研究生,并曾在Meta擔(dān)任Research Scientist Intern。

她本科畢業(yè)于帝國(guó)理工學(xué)院,研究方向聚焦開(kāi)放式進(jìn)化、強(qiáng)化學(xué)習(xí)與自我改進(jìn)AI,代表工作包括《Darwin G?del Machine》《HyperAgents》以及OMNI系列研究。

她的長(zhǎng)期目標(biāo),是構(gòu)建能夠自主提出新任務(wù)、持續(xù)自我提升、不斷演化復(fù)雜能力的AI系統(tǒng)。

參考資料:

https://x.com/jennyzhangzt/status/2036099935083618487%20

https://arxiv.org/abs/2603.19461

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4月1日起,房子、車(chē)子、存款或?qū)⒂瓉?lái)大洗牌,普通人該何去何從?

4月1日起,房子、車(chē)子、存款或?qū)⒂瓉?lái)大洗牌,普通人該何去何從?

復(fù)轉(zhuǎn)這些年
2026-04-05 17:57:35
伊朗繳獲美軍飛行員的私人物品,有牙膏,內(nèi)褲,牛肉干,壓縮食品

伊朗繳獲美軍飛行員的私人物品,有牙膏,內(nèi)褲,牛肉干,壓縮食品

魔都姐姐雜談
2026-04-06 13:11:53
兩名美國(guó)飛行員被救,有些媒體又鬧笑話了

兩名美國(guó)飛行員被救,有些媒體又鬧笑話了

昊軒看世界
2026-04-06 20:43:25
升級(jí)版的仙人跳,比戴綠帽子還憋屈

升級(jí)版的仙人跳,比戴綠帽子還憋屈

霹靂炮
2026-02-24 22:53:34
臺(tái)灣地區(qū)前領(lǐng)導(dǎo)人馬英九:我不希望臺(tái)灣成為第二個(gè)香港!

臺(tái)灣地區(qū)前領(lǐng)導(dǎo)人馬英九:我不希望臺(tái)灣成為第二個(gè)香港!

共工之錨
2026-04-06 19:29:37
“一夜?jié)q50萬(wàn)元,還談個(gè)啥?”上海二手房市場(chǎng)現(xiàn)賣(mài)家大幅跳價(jià),買(mǎi)家不干了

“一夜?jié)q50萬(wàn)元,還談個(gè)啥?”上海二手房市場(chǎng)現(xiàn)賣(mài)家大幅跳價(jià),買(mǎi)家不干了

上觀新聞
2026-04-06 22:10:08
董宇輝無(wú)視法律,賣(mài)假保健品怒賺超1000萬(wàn)后,竟對(duì)消費(fèi)者只退款不賠償

董宇輝無(wú)視法律,賣(mài)假保健品怒賺超1000萬(wàn)后,竟對(duì)消費(fèi)者只退款不賠償

可達(dá)鴨面面觀
2026-04-06 15:47:53
越漲越猛,92號(hào)汽油大漲0.41元/升,4月7日汽柴油“第6次”上漲中

越漲越猛,92號(hào)汽油大漲0.41元/升,4月7日汽柴油“第6次”上漲中

豬友巴巴
2026-04-04 16:20:03
用戶吐槽minimax模型垃圾

用戶吐槽minimax模型垃圾

爆角追蹤
2026-04-06 21:18:42
潘石屹再預(yù)言未來(lái)樓市,前兩次已應(yīng)驗(yàn),今明兩年或大概率也是對(duì)的

潘石屹再預(yù)言未來(lái)樓市,前兩次已應(yīng)驗(yàn),今明兩年或大概率也是對(duì)的

專業(yè)聊房君
2026-04-06 17:35:09
風(fēng)塵女子要怎么分辨出來(lái)?行家人都能看出來(lái)

風(fēng)塵女子要怎么分辨出來(lái)?行家人都能看出來(lái)

霹靂炮
2026-04-03 21:31:48
醫(yī)院就診患者驚現(xiàn)“某某之女”被怒斥!網(wǎng)友:打拳打到新生兒科了

醫(yī)院就診患者驚現(xiàn)“某某之女”被怒斥!網(wǎng)友:打拳打到新生兒科了

火山詩(shī)話
2026-04-04 17:02:01
美國(guó)沒(méi)料到,俄羅斯也沒(méi)料到,中國(guó)完成了世界歷史上最厲害的逆襲

美國(guó)沒(méi)料到,俄羅斯也沒(méi)料到,中國(guó)完成了世界歷史上最厲害的逆襲

野渡舟山人
2026-03-28 18:54:46
西方要合圍中國(guó)?馬克龍拒邀G7,德日聯(lián)合聲明妄言插手臺(tái)海局勢(shì)!

西方要合圍中國(guó)?馬克龍拒邀G7,德日聯(lián)合聲明妄言插手臺(tái)海局勢(shì)!

軍機(jī)Talk
2026-04-06 15:11:34
后續(xù)!安徽失聯(lián)女童已遇害,兇手是女鄰居,此前有人精準(zhǔn)預(yù)測(cè)

后續(xù)!安徽失聯(lián)女童已遇害,兇手是女鄰居,此前有人精準(zhǔn)預(yù)測(cè)

潮鹿逐夢(mèng)
2026-04-07 00:36:40
王楚欽孫穎莎奪冠不足24小時(shí),日媒報(bào)道國(guó)乒有深意,重點(diǎn)提及一人

王楚欽孫穎莎奪冠不足24小時(shí),日媒報(bào)道國(guó)乒有深意,重點(diǎn)提及一人

萌蘭聊個(gè)球
2026-04-06 17:28:58
抓緊將“鼓勵(lì)生育”確立為基本國(guó)策,對(duì)公職人員帶頭生育列入考核

抓緊將“鼓勵(lì)生育”確立為基本國(guó)策,對(duì)公職人員帶頭生育列入考核

星空區(qū)塊鏈
2026-04-06 19:57:31
雪人集團(tuán)、永鼎股份、西部材料、東方電氣誰(shuí)是核聚變卷土重來(lái)老大

雪人集團(tuán)、永鼎股份、西部材料、東方電氣誰(shuí)是核聚變卷土重來(lái)老大

長(zhǎng)風(fēng)價(jià)值掘金
2026-04-06 21:30:20
“祖先給的特權(quán)”,河南網(wǎng)友稱祖墳在景區(qū)祭祖免票,景區(qū)回應(yīng):沒(méi)過(guò)檢票口,一般是附近住戶的祖墳

“祖先給的特權(quán)”,河南網(wǎng)友稱祖墳在景區(qū)祭祖免票,景區(qū)回應(yīng):沒(méi)過(guò)檢票口,一般是附近住戶的祖墳

大風(fēng)新聞
2026-04-06 15:06:12
衛(wèi)星圖披露美軍營(yíng)救飛行員行動(dòng)細(xì)節(jié):行動(dòng)區(qū)域布滿彈坑

衛(wèi)星圖披露美軍營(yíng)救飛行員行動(dòng)細(xì)節(jié):行動(dòng)區(qū)域布滿彈坑

環(huán)球網(wǎng)資訊
2026-04-06 17:54:07
2026-04-07 06:16:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14910文章數(shù) 66753關(guān)注度
往期回顧 全部

科技要聞

折疊屏iPhone要來(lái)了,富士康已在試產(chǎn)!

頭條要聞

特朗普:7日是最后期限 否則伊朗每座橋梁將被摧毀

頭條要聞

特朗普:7日是最后期限 否則伊朗每座橋梁將被摧毀

體育要聞

官方:中國(guó)女足球員邵子欽加盟本菲卡

娛樂(lè)要聞

唐嫣羅晉新加坡遛娃,6歲女兒身高搶鏡

財(cái)經(jīng)要聞

史詩(shī)級(jí)暴跌"一周年" A股接下來(lái)如何走?

汽車(chē)要聞

阿維塔06T快上市了 旅行車(chē)還能這么玩?

態(tài)度原創(chuàng)

教育
時(shí)尚
數(shù)碼
手機(jī)
公開(kāi)課

教育要聞

高中堅(jiān)持閱讀外刊,為啥英語(yǔ)成績(jī)沒(méi)突破詞匯沒(méi)增加,如何上140?

伊姐清明熱推:電視劇《冰湖重生》;電視劇《月鱗綺紀(jì)》......

數(shù)碼要聞

玄派玄機(jī)16 2026筆記本上架:銳龍AI Max+ 395,128GB + 2TB

手機(jī)要聞

OPPO Find X9s Pro真機(jī)現(xiàn)身,還有銀色哈蘇專業(yè)增距鏡

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版