網易首頁 > 網易號 > 正文申請入駐

強化學習遠不是最優，CMU剛剛提出最大似然強化學習

2026-02-05 19:14:01　來源: 人工智能學家

北京舉報

分享至

來源：機器之心

在大模型時代，從代碼生成到數學推理，再到自主規劃的 Agent 系統，強化學習幾乎成了「最后一公里」的標準配置。

直覺上，開發者真正想要的其實很簡單：讓模型更有可能生成「正確軌跡」。從概率角度看，這等價于最大化正確輸出的概率，也就是經典的最大似然（Maximum Likelihood）目標。

然而，一項來自 CMU、清華大學、浙江大學等研究機構的最新工作指出了一個頗具顛覆性的事實：

現實中廣泛使用的強化學習，并沒有真正在做最大似然優化。嚴格的理論分析顯示，強化學習只是在優化最大似然目標的一階近似—— 距離我們以為的最優訓練目標，其實還差得很遠。

正是基于這一觀察，研究團隊對強化學習的目標函數進行了重新審視，提出了最大似然強化學習（Maximum Likelihood Reinforcement Learning）：將基于正確性的強化學習重新刻畫為一個潛變量生成的最大似然問題，進一步引入一族以計算量為索引的目標函數，使訓練目標能夠逐步逼近真正的最大似然優化。

論文標題：Maximum Likelihood Reinforcement Learning

論文鏈接：https://arxiv.org/abs/2602.02710
項目地址：https://zanette-labs.github.io/MaxRL/

Github 地址：https://github.com/tajwarfahim/maxrl

傳統強化學習的「卡脖子」問題

在代碼生成、數學推理、多步決策這些任務中，我們已經形成了一種幾乎默認的共識：只要反饋是二值的、過程是不可微的，就用強化學習。

強化學習這套范式，支撐了從 AlphaGo 到大語言模型推理能力提升的一系列關鍵進展。

從端到端的角度看，強化學習就是給定一個輸入，模型隱式地誘導出一個「成功概率」. 如果不考慮可微性約束，最自然、也最原則性的目標，就是最大似然。

但論文研究團隊發現：基于期望獎勵的強化學習，其實只是在優化最大似然目標的一階近似。更具體地說，最大似然目標在總體層面可以展開為一系列以 pass@k 事件為基的項，而標準強化學習只優化了其中的一階項。

簡單來說，強化學習并沒有真正最大化「模型生成正確答案的概率」，而是在優化一個與真實似然存在系統性偏差的替代目標。

這也解釋了一個廣泛存在卻難以言說的現象：強化學習早期進展迅速，但越到后期，性能提升越困難。

研究團隊針對這一新發現，對「基于正確性反饋的強化學習」進行了重新刻畫，論文的主要貢獻如下：

將基于正確性的強化學習形式化為一個潛變量生成的最大似然問題，并證明標準強化學習僅優化了最大似然目標的一階近似。
提出了一族以計算量為索引的目標函數，通過對 pass@k 事件進行 Maclaurin 展開，在期望回報與精確最大似然之間實現連續插值。
推導出一種簡單的on-policy 估計器，其期望梯度與該計算量索引的似然近似目標完全一致，這意味著增加采樣真正改善了被優化的目標本身。

最大似然：真正改進優化目標

研究團隊認為，最大似然估計在有監督學習中表現卓越，為什么不直接在強化學習中實現它？

上一節中的觀察啟示我們：可以構造一個隨計算量變化的目標函數族，逐步引入更高階項；隨著可用計算資源的增加，該目標函數族將逐漸收斂到完整的最大似然目標。

論文通過一系列推導，將最大似然目標在失敗事件方面進行麥克勞林展開：

展開式中的最大似然梯度很難用有限樣本進行估計。

特別是，估計大 k 值的 pass@k 梯度需要越來越多的樣本，尤其是在通過率 p 很小的情況下。這種有限樣本的困難正是提出最大似然強化學習（MaxRL）的動機所在。

研究團隊將 MaxRL 定義為一類強化學習方法，它們顯式地以最大似然為目標，而不是以通過率為目標，同時在有限采樣和不可微生成的條件下仍然可實現。下面我們考慮一種實現該目標的原則性方法。

考慮通過將麥克勞林展開式截斷為有限階來近似最大似然目標，然后估計該目標。對于截斷級別 T ∈N，我們將固定輸入 x 的截斷最大似然目標定義為：

對其求導得到截斷的總體梯度：

這定義了一族目標函數：T = 1 還原為強化學習，T → ∞ 還原為最大似然，中間的 T 值則在兩者之間插值。因此，截斷級別 T 直接控制了有助于學習的正確性事件的階數。隨著在 rollout 方面消耗更多的計算量，對更高階梯度的估計變得可行。

換句話說： MaxRL 提供了一個原則性框架，用于通過增加計算量來換取對最大似然目標更高保真度的近似。

上述公式已經給出了一種可行的無偏估計思路：利用pass@k 梯度估計器，對有限級數中的每一項分別進行近似。在這一策略下，任何對 pass@k 估計器的改進，都會直接轉化為對截斷最大似然目標的更優梯度估計。

不過，在本篇論文中，研究者采取了一條不同的路徑，將帶來更為簡潔的估計器形式，同時也提供了一個新的理解視角。

最大似然目標的梯度可以寫成如下的條件期望形式：

該定理表明，最大似然梯度等價于僅對成功軌跡的梯度進行平均。這一解釋為構造具體的梯度估計器提供了直接途徑：只需用采樣得到的成功軌跡，對上述條件期望進行樣本平均即可。

其核心洞見在于：最大似然目標的梯度可以表示為在「成功條件分布」下的期望。

因此，本文采用了一種簡單的策略：從非條件化的策略分布進行采樣，但只對成功軌跡進行平均，得到了強化學習風格的估計器，其具備隨著 rollout 數的增加，對最大似然梯度的近似將不斷改善的特性。

換言之，在 MaxRL 框架下，額外的計算資源不僅改善了估計質量，更直接改進了被優化的目標本身。

令人驚訝的效率進步

在實驗中，這一改變帶來了遠超預期的收益。研究團隊在多個模型規模和多類任務上，對 MaxRL 進行了系統評估，結果顯示：MaxRL 在性能與計算效率的權衡上均穩定地優于現有強化學習方法。

實驗結果直觀展示了 MaxRL 在訓練效率上的優勢。在相同訓練步數下，MaxRL 性能提升明顯更快，并且隨著 rollout 數的增加，MaxRL 持續受益。

這種優勢并不只體現在訓練階段，相較于使用 GRPO 訓練的模型，MaxRL 測試時的 scaling 效率最高可提升20 倍。

在迷宮任務上，無論測試時的采樣預算 k 取何值，隨著訓練 rollouts 的增加，MaxRL 都能持續降低 ?log (Pass@k)，而 GRPO 與 RLOO 的改進幅度則明顯更早趨于平緩。這一結果直觀地展示了 MaxRL 在訓練階段更優的性能–效率權衡。

比較在不同 pass@k 設置下各方法隨訓練中采樣計算增加時的優化趨勢，可以看到，對于 GRPO 與 RLOO，曲線在早期下降后迅速變平，說明額外采樣主要用于降低噪聲；而 MaxRL 在不同 k 值下均保持持續下降，推動模型不斷逼近一個更接近最大似然的優化目標。

在更大規模設置下，MaxRL 的優勢依然保持穩定。這表明，MaxRL 所帶來的改進并非依賴于特定規?；虺瑓翟O置，當訓練規模擴大時，MaxRL 并未出現收益遞減過快或優勢消失的現象。

進一步的實驗結果表明，MaxRL 的優勢并不依賴于過于理想化的實驗條件，即使在反饋存在噪聲或驗證信號并非完全可靠的設置下，MaxRL 仍然能夠保持相對穩定的性能優勢。

總體來看，MaxRL 為不可微、基于采樣的學習問題提供了一種更為深入的解法。它通過一個隨計算量自然擴展的目標框架，系統性地逼近真正的似然優化。

當優化目標本身可以隨算力演進、逐步逼近最大似然，強化學習究竟會成為通往通用智能的長期答案，還是只是通往下一個訓練范式的過渡方案？

更多信息，請參閱原論文。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.