337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepMind新論文炸鍋:AI全自動進化算法,寫出專家都想不到的解,網友:這可能就是“王牌”

0
分享至

  

  作者 | 木子

  說起 AI Coding,之前很多人好歹還有個“心理安慰”:AI 也就寫寫“腳手架代碼”、補補前端頁面,真到核心算法、業務邏輯,還是得人來。

  但這道“最后防線”,也正在松動。

  谷歌 DeepMind最近做了一件更狠的事:他們讓LLM 驅動的智能體,直接去改寫、進化算法代碼本身——不是調參數,而是改算法邏輯。

  改完就丟進真實博弈環境里反復跑,自動評測、優勝劣汰,一輪輪進化。

  結果呢?它真的做出了全新的多智能體學習算法,在多項測試中超過了人類專家手工打磨的版本。

  重要的是,這些機制并不直觀,屬于人類很難靠經驗窮舉出來的解。

  更關鍵的是:人只用定義好了算法骨架,之后的搜索、修改、篩選,全程自動完成,不用手調參數,不用反復試錯,也不靠研究者的直覺微調。

  

  這個智能體叫AlphaEvolve,延續了 DeepMind 一貫的“Alpha”命名傳統(AlphaGo、AlphaZero、AlphaFold)。其中 “Evolve” 意為“進化”,點明它的核心機制:通過類似生物進化的方式不斷改寫和篩選算法。

  這個 AlphaEvolve 本身去年就有,但這是它第一次被用來學習算法

  它把 Gemini 系列大模型,和進化搜索結合起來,把代碼不斷生成、測試、篩選、再進化。

  

  DeepMind 把把研究過程和成果寫成了一篇 37 頁的論文,題為《基于大語言模型的多智能體學習算法自動發現》(Discovering Multiagent Learning Algorithms with Large Language Models),一發出來就炸了技術圈。

  

  有網友看完直呼,這玩意真挺“可怕”的:

“這看起來像是 DeepMind 手中的一張王牌,我認為它可能導致谷歌贏得比賽。”

  

  有人銳評:

“這就像教一個孩子讀書,然后看著它自己編寫教科書。”

  

  還有人已經開始往更遠處想:既然 AI 已經能設計更好的學習算法,那或許它也該先給自己設計一套更完善的“倫理引擎”,在 ASI 真正爆發之前,先把對齊這件事想清楚。

  

  人只選定算法框架,

  AI 全自動閉環進化

  來展開看看實驗設計和操作過程。

  需要說明的是,研究團隊沒有讓模型“從零寫算法”,而是選定兩個成熟框架:

  CFR(后悔最小化):CFR 算法族,依賴遞歸定義來累積后悔值并構建平均策略。

  PSRO(策略種群訓練):通過迭代計算最優響應并求解元策略,不斷擴展策略種群。

  過去,在不完全信息博弈求解(比如撲克)中,像 CFR、PSRO 這些經典算法雖然理論扎實,但真正好用的“升級版”,還是要靠人類專家一點點憑經驗調參、改規則、試出來。

  然后,研究人員把算法核心邏輯,拆成幾個可被改寫的 Python 函數,例如:regret 累積規則、當前策略生成方式、平均策略更新規則、PSRO 的 meta-solver 邏輯。

  也就是說,他們只開放了“關鍵決策邏輯”給 LLM 改,其余框架固定。這一步很關鍵,相當于給進化定義“基因范圍”。

  接下來就進入真正的“進化環節”。

  AlphaEvolve 把當前算法代碼當作“個體”,由 LLM 生成若干語義上有意義的改寫版本:不是隨便亂改,而是改具體邏輯、控制流或更新規則。

  每一個改寫后的版本,都會被自動編譯、運行,然后丟進一組博弈環境里真實對戰,用 exploitability 這樣的指標打分。表現更好的版本被保留下來,作為下一輪搜索的基礎;表現差的直接淘汰。

  整個過程是閉環的:生成 → 運行 → 評估 → 篩選 → 再生成,循環推進。人類不參與中間調參,也不手動篩選,只負責設定規則和評價標準。

  

  圖注:這張示意圖也是 AI 做的

  結果,AI 進化出了兩個全新算法

  先看 CFR 這一派。AlphaEvolve 進化出了 VAD-CFR。

  AI 沒有去調那點小參數,而是直接改了“后悔值怎么累計、怎么打折、什么時候開始平均策略”這些核心邏輯。

  比如引入了 volatility-sensitive discounting(根據波動動態折扣)、hard warm-start schedule(前期蓄力、后期發力)這樣的機制。

  聽起來挺抽象的,但效果明顯:在多個博弈里,它超過了目前人類手工打磨出來的最強版本。

  

  這張圖很直觀,展示了多種 CFR 變體在不同博弈環境中的收斂表現。上半部分是用于搜索階段的訓練游戲,下半部分是規模更大、更復雜的測試游戲。

  橫軸是迭代次數(最多 1000 次),縱軸是 exploitability(越低越接近均衡)。曲線降得越快、越低,說明算法越強。

  灰色那條線就是 VAD-CFR。可以看到,在多數游戲里,它下滑得更快、落得更低,明顯壓過 CFR+、DCFR、PCFR+ 這些人類優化過多輪的版本。

  在一些游戲中,大約 500 次迭代之后,曲線像突然“踩了油門”,下降速度明顯加快——這正是它預熱階段結束、正式發力的時刻。

  前半段像是在默默蓄力,后半段才真正沖刺。

  更關鍵的是,在規模更大、難度更高的測試游戲中,VAD-CFR 依然比傳統的 CFR、CFR+、DCFR 等人工設計的算法收斂更快、結果更優,沒有出現“只會做模擬題”的情況。

  這說明,它不是針對訓練游戲做了小技巧,而是在算法結構層面找到了一種更高效的更新方式。

  再看PSRO這一派:AI 進化出了SHOR-PSRO算法。

  它做的事情很簡單也很大膽:重新設計“元求解器”。

  傳統方法要么偏探索,要么偏逼近均衡,權衡是固定的。而 SHOR 直接把多種更新機制混合在一起,設計了一種混合型 meta-solver,而且隨著訓練進程動態調整,讓訓練過程自動從“多樣性探索”過渡到“逼近均衡”。

  

  這張圖,展示的就是它和 Uniform、Nash、AlphaRank、PRD、RM 等經典方法的對比。

  圖中不同顏色代表不同元求解器:Uniform、Nash、AlphaRank、PRD、Regret Matching(RM),以及進化得到的 SHOR(棕色線)。

  整張圖分為上下兩部分。上半部分是訓練游戲,下半部分是規模更大、更復雜的測試游戲,用來檢驗算法是否具有泛化能力。

  橫軸是 PSRO 迭代次數(最多 100 輪),縱軸是 exploitability(可被利用度,對數坐標);數值越低,說明算法越接近博弈均衡、表現越好。

  可以看到,在多數游戲中,SHOR 曲線下降更快,而且在第 100 次迭代時的 exploitability 更低,說明它在同樣迭代次數下更有效地逼近均衡。

  尤其是在更復雜的測試游戲中(如 4-player Kuhn、6-sided Liar’s Dice),SHOR 依然保持優勢,沒有明顯退化。

  簡單說,SHOR-PSRO 在“什么時候多探索、什么時候專注逼近均衡”這件事上,比傳統方法更靈活、更聰明。

  它不是靠調參數贏的,而是把調度邏輯本身改了。

  論文地址:

https://arxiv.org/abs/2602.16928

  https://x.com/hasantoxr/status/2026371848217456738

  https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/?utm_source=chatgpt.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
重磅!我國臺辦正式宣布,鄭麗文訪問大陸行程確定,盧秀燕不裝了

重磅!我國臺辦正式宣布,鄭麗文訪問大陸行程確定,盧秀燕不裝了

奇思妙想生活家
2026-03-30 13:48:00
俄羅斯4人團隊做的VPN,成了中國用戶的救命稻草

俄羅斯4人團隊做的VPN,成了中國用戶的救命稻草

薛定諤的BUG
2026-03-28 11:13:03
伊朗的地面戰,可能要開始了

伊朗的地面戰,可能要開始了

夷門王生
2026-03-30 12:25:06
男子CT報告顯示“子宮形態密度正常”,山西長治醫學院附屬和平醫院發布情況說明

男子CT報告顯示“子宮形態密度正常”,山西長治醫學院附屬和平醫院發布情況說明

界面新聞
2026-03-30 17:14:36
兩“虎”任上被查,正部級老虎被開除黨籍!受賄6.13億,譚瑞松被判死緩

兩“虎”任上被查,正部級老虎被開除黨籍!受賄6.13億,譚瑞松被判死緩

上觀新聞
2026-03-30 15:17:05
小米汽車代言人翻車?舒淇竟無駕照!雷軍:我預判了你的預判!

小米汽車代言人翻車?舒淇竟無駕照!雷軍:我預判了你的預判!

品牌新
2026-03-30 12:08:31
歌手吳向飛喊話李榮浩道歉:未取得授權公開演唱其歌曲;李榮浩回應:并未在個人演唱會或音樂節晚會唱過,請列明場次,若侵權一定賠償道歉

歌手吳向飛喊話李榮浩道歉:未取得授權公開演唱其歌曲;李榮浩回應:并未在個人演唱會或音樂節晚會唱過,請列明場次,若侵權一定賠償道歉

極目新聞
2026-03-29 18:56:41
4-1大冷門,世界第85掀翻世界第55,新西蘭大爆發,大勝南美勁旅

4-1大冷門,世界第85掀翻世界第55,新西蘭大爆發,大勝南美勁旅

側身凌空斬
2026-03-30 16:06:06
新華社快訊:中國國航一架從北京飛往平壤的客機抵達平壤

新華社快訊:中國國航一架從北京飛往平壤的客機抵達平壤

新華社
2026-03-30 09:40:11
4月1日醫保新政:家有高血壓、糖尿病、心臟病的,抓緊辦

4月1日醫保新政:家有高血壓、糖尿病、心臟病的,抓緊辦

小談食刻美食
2026-03-30 08:26:34
跨國藥企密集發聲聚焦支付體系!鎂信健康加速創新藥價值落地

跨國藥企密集發聲聚焦支付體系!鎂信健康加速創新藥價值落地

智藥局
2026-03-30 17:16:19
事關中朝關系,金正恩做出一個前所未有的表態

事關中朝關系,金正恩做出一個前所未有的表態

近史博覽
2026-03-30 09:48:04
伊朗女足球員:澳方承諾給我們房子、車子和永居權,來說服我們留下

伊朗女足球員:澳方承諾給我們房子、車子和永居權,來說服我們留下

懂球帝
2026-03-30 13:45:07
兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

離離言幾許
2026-03-28 16:40:22
驚訝!伊朗大捷!用一場標志性大勝,讓美軍創下戰后最大戰損記錄

驚訝!伊朗大捷!用一場標志性大勝,讓美軍創下戰后最大戰損記錄

軍機Talk
2026-03-30 11:02:14
哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

黯泉
2026-03-29 12:00:55
楊瀚森復出6+4+1帽吃生涯首T!開拓者3人20+大勝奇才 阿夫20+7

楊瀚森復出6+4+1帽吃生涯首T!開拓者3人20+大勝奇才 阿夫20+7

醉臥浮生
2026-03-30 08:30:08
“讓公務員先獻血”的時候,就不談“自愿”了?

“讓公務員先獻血”的時候,就不談“自愿”了?

走讀新生
2026-03-30 15:41:47
1979年計劃生育,一家只準生一個,陳云:搞不好要被罵斷子絕孫

1979年計劃生育,一家只準生一個,陳云:搞不好要被罵斷子絕孫

觀史搜尋著
2026-03-19 06:44:44
心源性猝死的人越來越多?醫生強調:寧可打打牌,建議別做這7事

心源性猝死的人越來越多?醫生強調:寧可打打牌,建議別做這7事

醫學原創故事會
2026-03-29 23:50:13
2026-03-30 18:08:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1397文章數 143關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

游戲
健康
教育
房產
軍事航空

2025年的神作有中文了!M站92分 IGN9分超好評

干細胞抗衰4大誤區,90%的人都中招

教育要聞

五年級狀元題,求面積,會的不多

房產要聞

32億,三開三罄!誰在硬控海口樓市高端局?

軍事要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

無障礙瀏覽 進入關懷版