近日,Google DeepMind發布最新研究成果,提出一種名為AlphaEvolve的方法,用大語言模型驅動的進化式搜索框架,自動發現新的多智能體強化學習算法。這項工作已經以論文形式發布,題為《Discovering Multiagent Learning Algorithms with Large Language Models》。
![]()
多智能體強化學習主要研究多個智能體在同一環境中博弈與協作的問題,廣泛應用于博弈論、自動對弈系統以及復雜策略優化場景。長期以來,這一領域的重要算法框架,如反事實遺憾最小化(CFR)和策略響應預言機(PSRO),雖然理論基礎扎實,但具體變體的設計往往依賴研究者不斷試驗、調參和經驗判斷。
Google DeepMind此次提出的AlphaEvolve,則嘗試改變這一傳統路徑。研究團隊將大語言模型用于生成和修改算法代碼,通過自動化演化過程,在大規模搜索空間中探索可能的算法結構。系統不再僅僅優化參數,而是直接對算法邏輯本身進行改寫和組合,從而產生新的訓練規則和更新機制。
![]()
在論文中,研究團隊報告了兩個主要成果。
其一是提出了一種名為VAD-CFR的新型遺憾最小化方法。該方法在傳統CFR框架基礎上,引入了與波動性相關的折扣機制、強調一致性的樂觀更新方式,以及特定的策略累積調度方案。在多個測試環境中,VAD-CFR的表現優于當前常用的Discounted Predictive CFR+等基線算法。
其二是在PSRO框架下,演化出一種名為SHOR-PSRO的元求解器。該方法將樂觀遺憾匹配與溫度控制的平滑最優響應策略結合起來,并通過動態調整混合系數,實現從策略多樣性探索到均衡收斂的平穩過渡。實驗結果顯示,SHOR-PSRO在收斂速度和穩定性方面優于傳統靜態元求解器。
研究團隊在論文中指出,這些新算法中包含一些“非直觀”的機制組合,也就是說,它們并非研究者憑借經驗自然會想到的結構,但在實證測試中表現良好。這意味著,AI系統不僅可以輔助調參,還可以參與到算法結構設計本身。
![]()
這項工作的意義在于,算法設計這一長期以來被視為高度依賴人類創造力和理論直覺的領域,開始出現由AI系統自動生成有效方案的案例。過去,多智能體強化學習算法往往需要多年迭代改進,而現在,大語言模型驅動的演化系統能夠在較短時間內探索大量可能路徑,并篩選出具有競爭力的方案。
從更廣的視角看,這種“用AI設計訓練AI的算法”的模式,可能會在強化學習、博弈論優化乃至更一般的機器學習框架中產生影響。如果類似方法在更多任務上被驗證有效,未來算法創新的方式可能會逐步發生變化。
目前,這項研究仍處于學術驗證階段,相關算法的實際應用效果還有待更多場景測試。但可以確定的是,AI正在從“執行既定算法”走向“參與算法創造”,這為人工智能研究帶來了新的方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.