網易首頁 > 網易號 > 正文申請入駐

DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網友：這可能就是“王牌”

2026-02-27 14:05:02　來源: AI前線

北京舉報

分享至

　　作者 | 木子

　　說起 AI Coding，之前很多人好歹還有個“心理安慰”：AI 也就寫寫“腳手架代碼”、補補前端頁面，真到核心算法、業務邏輯，還是得人來。

　　但這道“最后防線”，也正在松動。

　　谷歌 DeepMind最近做了一件更狠的事：他們讓LLM 驅動的智能體，直接去改寫、進化算法代碼本身——不是調參數，而是改算法邏輯。

　　改完就丟進真實博弈環境里反復跑，自動評測、優勝劣汰，一輪輪進化。

　　結果呢？它真的做出了全新的多智能體學習算法，在多項測試中超過了人類專家手工打磨的版本。

　　重要的是，這些機制并不直觀，屬于人類很難靠經驗窮舉出來的解。

　　更關鍵的是：人只用定義好了算法骨架，之后的搜索、修改、篩選，全程自動完成，不用手調參數，不用反復試錯，也不靠研究者的直覺微調。

　　這個智能體叫AlphaEvolve，延續了 DeepMind 一貫的“Alpha”命名傳統（AlphaGo、AlphaZero、AlphaFold）。其中 “Evolve” 意為“進化”，點明它的核心機制：通過類似生物進化的方式不斷改寫和篩選算法。

　　這個 AlphaEvolve 本身去年就有，但這是它第一次被用來學習算法。

　　它把 Gemini 系列大模型，和進化搜索結合起來，把代碼不斷生成、測試、篩選、再進化。

　　DeepMind 把把研究過程和成果寫成了一篇 37 頁的論文，題為《基于大語言模型的多智能體學習算法自動發現》（Discovering Multiagent Learning Algorithms with Large Language Models），一發出來就炸了技術圈。

　　有網友看完直呼，這玩意真挺“可怕”的：

“這看起來像是 DeepMind 手中的一張王牌，我認為它可能導致谷歌贏得比賽。”

　　有人銳評：

“這就像教一個孩子讀書，然后看著它自己編寫教科書。”

　　還有人已經開始往更遠處想：既然 AI 已經能設計更好的學習算法，那或許它也該先給自己設計一套更完善的“倫理引擎”，在 ASI 真正爆發之前，先把對齊這件事想清楚。

　　人只選定算法框架，

　　AI 全自動閉環進化

　　來展開看看實驗設計和操作過程。

　　需要說明的是，研究團隊沒有讓模型“從零寫算法”，而是選定兩個成熟框架：

　　CFR（后悔最小化）：CFR 算法族，依賴遞歸定義來累積后悔值并構建平均策略。

　　PSRO（策略種群訓練）：通過迭代計算最優響應并求解元策略，不斷擴展策略種群。

　　過去，在不完全信息博弈求解（比如撲克）中，像 CFR、PSRO 這些經典算法雖然理論扎實，但真正好用的“升級版”，還是要靠人類專家一點點憑經驗調參、改規則、試出來。

　　然后，研究人員把算法核心邏輯，拆成幾個可被改寫的 Python 函數，例如：regret 累積規則、當前策略生成方式、平均策略更新規則、PSRO 的 meta-solver 邏輯。

　　也就是說，他們只開放了“關鍵決策邏輯”給 LLM 改，其余框架固定。這一步很關鍵，相當于給進化定義“基因范圍”。

　　接下來就進入真正的“進化環節”。

　　AlphaEvolve 把當前算法代碼當作“個體”，由 LLM 生成若干語義上有意義的改寫版本：不是隨便亂改，而是改具體邏輯、控制流或更新規則。

　　每一個改寫后的版本，都會被自動編譯、運行，然后丟進一組博弈環境里真實對戰，用 exploitability 這樣的指標打分。表現更好的版本被保留下來，作為下一輪搜索的基礎；表現差的直接淘汰。

　　整個過程是閉環的：生成 → 運行 → 評估 → 篩選 → 再生成，循環推進。人類不參與中間調參，也不手動篩選，只負責設定規則和評價標準。

　　圖注：這張示意圖也是 AI 做的

　　結果，AI 進化出了兩個全新算法。

　　先看 CFR 這一派。AlphaEvolve 進化出了 VAD-CFR。

　　AI 沒有去調那點小參數，而是直接改了“后悔值怎么累計、怎么打折、什么時候開始平均策略”這些核心邏輯。

　　比如引入了 volatility-sensitive discounting（根據波動動態折扣）、hard warm-start schedule（前期蓄力、后期發力）這樣的機制。

　　聽起來挺抽象的，但效果明顯：在多個博弈里，它超過了目前人類手工打磨出來的最強版本。

　　這張圖很直觀，展示了多種 CFR 變體在不同博弈環境中的收斂表現。上半部分是用于搜索階段的訓練游戲，下半部分是規模更大、更復雜的測試游戲。

　　橫軸是迭代次數（最多 1000 次），縱軸是 exploitability（越低越接近均衡）。曲線降得越快、越低，說明算法越強。

　　灰色那條線就是 VAD-CFR。可以看到，在多數游戲里，它下滑得更快、落得更低，明顯壓過 CFR+、DCFR、PCFR+ 這些人類優化過多輪的版本。

　　在一些游戲中，大約 500 次迭代之后，曲線像突然“踩了油門”，下降速度明顯加快——這正是它預熱階段結束、正式發力的時刻。

　　前半段像是在默默蓄力，后半段才真正沖刺。

　　更關鍵的是，在規模更大、難度更高的測試游戲中，VAD-CFR 依然比傳統的 CFR、CFR+、DCFR 等人工設計的算法收斂更快、結果更優，沒有出現“只會做模擬題”的情況。

　　這說明，它不是針對訓練游戲做了小技巧，而是在算法結構層面找到了一種更高效的更新方式。

　　再看PSRO這一派：AI 進化出了SHOR-PSRO算法。

　　它做的事情很簡單也很大膽：重新設計“元求解器”。

　　傳統方法要么偏探索，要么偏逼近均衡，權衡是固定的。而 SHOR 直接把多種更新機制混合在一起，設計了一種混合型 meta-solver，而且隨著訓練進程動態調整，讓訓練過程自動從“多樣性探索”過渡到“逼近均衡”。

　　這張圖，展示的就是它和 Uniform、Nash、AlphaRank、PRD、RM 等經典方法的對比。

　　圖中不同顏色代表不同元求解器：Uniform、Nash、AlphaRank、PRD、Regret Matching（RM），以及進化得到的 SHOR（棕色線）。

　　整張圖分為上下兩部分。上半部分是訓練游戲，下半部分是規模更大、更復雜的測試游戲，用來檢驗算法是否具有泛化能力。

　　橫軸是 PSRO 迭代次數（最多 100 輪），縱軸是 exploitability（可被利用度，對數坐標）；數值越低，說明算法越接近博弈均衡、表現越好。

　　可以看到，在多數游戲中，SHOR 曲線下降更快，而且在第 100 次迭代時的 exploitability 更低，說明它在同樣迭代次數下更有效地逼近均衡。

　　尤其是在更復雜的測試游戲中（如 4-player Kuhn、6-sided Liar’s Dice），SHOR 依然保持優勢，沒有明顯退化。

　　簡單說，SHOR-PSRO 在“什么時候多探索、什么時候專注逼近均衡”這件事上，比傳統方法更靈活、更聰明。

　　它不是靠調參數贏的，而是把調度邏輯本身改了。

　　論文地址：

https://arxiv.org/abs/2602.16928

　　https://x.com/hasantoxr/status/2026371848217456738

　　https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/?utm_source=chatgpt.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Echo：預測智能的一小步，通往通用智能的一大步

機器之心Pro 2026-03-30 10:23:07
2 跟貼 2
推理成功率暴漲 30%！極佳視界發布全新世界模型GigaWorld-Policy

機器之心Pro 2026-03-30 13:27:50
0 跟貼 0

人大林衍凱教授：OpenClaw就像早期Linux，真正的競爭才剛開始

機器之心Pro 2026-03-30 15:29:06
0 跟貼 0

研究員首次全線落敗——AI架構、數據、算法三戰獲科學發現級突破

機器之心Pro 2026-03-30 11:16:36
0 跟貼 0
視頻深度估計新SOTA來了，163倍數據效率解鎖生成式先驗

機器之心Pro 2026-03-30 11:36:53
0 跟貼 0

大學無用？奧特曼輟學當了CEO，但名校生撐起了整個OpenAI！

36氪 2026-01-18 10:45:08
37 跟貼 37

UCSD 推出 AIBuildAI 智能體，斬獲OpenAI MLE-Bench榜單第一

機器之心Pro 2026-03-30 13:03:41
0 跟貼 0
萬臺機器人下線，對話智元總裁彭志輝：靈巧手硬件仍是瓶頸，規模化帶來物理AI進化

每日經濟新聞 2026-03-30 17:40:05
0 跟貼 0

從能力到商品：Skills市場正在重塑開發者的生產方式

36氪 2026-03-20 10:24:05
29 跟貼 29
讓多模態模型學會主動說話：主動交互從訓練到評估的完整方案

機器之心Pro 2026-03-30 13:16:01
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
美國開源AI最后的旗幟，也倒了

量子位 2026-03-30 16:43:40
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
不玩假把式！智元第1萬臺人形機器人下線，機器人真去打工了

雷科技 2026-03-30 17:11:05
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
斯坦福、英偉達、新國立推出InfoTok，用信息論定義高效視頻分詞

機器之心Pro 2026-03-30 15:39:13
0 跟貼 0
明明是兩個不同的齒輪，轉起來卻能絲滑通過，這算法真絕了！

搞笑大蘑菇 2026-03-27 13:35:59
399 跟貼 399
哥哥幫19歲的妹妹快速進化到30歲，僅靠換一副眼鏡就讓妹妹變氣質姐姐，網友：這哪里是眼鏡，這是歲月濾鏡吧

觀象視頻 2026-03-29 10:58:32
348 跟貼 348
媒體：以高官警告"以軍瀕臨崩潰" 內塔尼亞胡仍難停手

新京報評論 2026-03-29 19:05:41
15333 跟貼 15333
對話「哈薩比斯傳」作者：“他不喜歡奧特曼”

量子位 2026-03-11 17:20:42
0 跟貼 0
Anthropic史上最大訓練曝光，Ilya錯了？CEO哀嚎：創業公司將被毀滅

新智元 2026-03-30 12:58:33
2 跟貼 2
身份證號的“X”到底咋讀？（不是“叉”也不是“埃克斯”）

隨州派 2026-03-30 16:33:14
0 跟貼 0
理性看待中俄關系：東大在俄烏沖突中的策略選擇1

胡又扯 2026-03-30 05:43:59
0 跟貼 0
無條件接納，絕不是什么“接納情緒但不接納行為”，這完全是扯淡

肯定式教養 2026-03-30 17:22:59
0 跟貼 0
深度長文：時間為什么必須與速度有關？都是因為“霸道”的光速！

宇宙時空 2026-03-30 14:35:03
1 跟貼 1
新一輪造富浪潮開啟，機器人時代真的要來了！

財才說 2026-03-28 18:24:20
0 跟貼 0
深度長文：為什么進化選擇繁衍，而非永生？

宇宙時空 2026-03-29 14:48:08
28 跟貼 28
當植物有了足夠多的時間進化，它們會變成神話故事中的妖怪嗎

趣知小故事 2026-03-26 12:47:20
1 跟貼 1
內存條價格出現斷崖式下跌，16G內存條1天跌了上百元，專家：未來將持續降價

極目新聞 2026-03-29 22:53:03
4561 跟貼 4561
豆包和紅果證明，字節的流量用來做游戲太浪費了

源Sight 2026-03-30 17:15:10
0 跟貼 0

AI前線

面向AI愛好者、開發者和科學家，提供AI領域技術資訊。

1397文章數 143關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

健康

教育

房產

軍事航空

手機 / 數碼

房產 / 家居

DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網友：這可能就是“王牌”

一句謊言引發的硅谷血案

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

想進世界杯，意大利還要過他這一關

單依純凌晨發長文道歉！李榮浩再回應

本輪地緣沖突，A股憑什么走出獨立行情

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

2025年的神作有中文了！M站92分 IGN9分超好評

干細胞抗衰4大誤區,90%的人都中招

五年級狀元題，求面積，會的不多

32億，三開三罄！誰在硬控海口樓市高端局？

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

尹正發文恭喜張雪奪冠張雪:沒錢請您做代言人送臺車

尹正發文恭喜張雪奪冠張雪:沒錢請您做代言人送臺車

第三艘航母出動數千名士兵抵達美軍大舉增兵中東戰場