網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

人大高瓴趙鑫團隊新作：先拆掉 RLVR，再重建推理模型訓(xùn)練

2026-01-16 19:36:42　來源: AI科技評論

廣東舉報

分享至

A3PO：針對冷門正確與自信錯誤 token 的非對稱強化學(xué)習(xí)方法。

作者丨鄭佳美

編輯丨岑峰

當(dāng)大語言模型開始被要求解數(shù)學(xué)題、寫證明、規(guī)劃任務(wù)流程，人們才真正意識到一件事：會生成并不等于會推理。

過去幾年，行業(yè)把大模型推向前所未有的規(guī)模，用 RLHF 和各種獎勵技術(shù)把答案校準(zhǔn)得越來越像人類。但一個越來越尖銳的現(xiàn)實問題也隨之浮現(xiàn)：模型為什么有時一本正經(jīng)地胡說八道？為什么在同一訓(xùn)練框架下，它有時異常自信卻錯誤，有時又顯得畏首畏尾？在人們不斷強化學(xué)習(xí)信號、追求更高分數(shù)的同時，一個關(guān)鍵問題始終沒有被真正回答：正樣本與負樣本到底在模型內(nèi)部改變了什么。

正是在這樣的背景下，來自人大高瓴學(xué)院的趙鑫團隊把注意力放在了這一核心問題上。他們沒有急于再提出一個更大的模型或更復(fù)雜的算法，而是刻意退后一步，圍繞 RLVR 框架設(shè)計了一整套系統(tǒng)實驗：如果只用正樣本會發(fā)生什么，只用負樣本又會產(chǎn)生怎樣的行為變化。模型是在真正形成推理能力，還是被獎勵函數(shù)推著走向某些看似合理的套路？進一步地，在一條完整的推理鏈中，是否存在少數(shù)關(guān)鍵 token，像岔路口一樣決定模型是走向正確，還是自信地偏離軌道。

圍繞這些問題，研究團隊完成了論文《A3PO: Adaptive Asymmetric Advantage Shaping for Reasoning Models》，并提出了推理模型訓(xùn)練方法A3PO。與其說這是一次方法層面的創(chuàng)新，不如說它首先完成了一次機制澄清：正樣本主要收縮策略空間，使模型在既有正確路徑上更加篤定，負樣本則擴張策略空間，推動模型跳出舊有模式持續(xù)探索，而真正決定訓(xùn)練走向的，并非整條樣本本身，而是推理過程中那些冷門卻正確、以及自信但錯誤的關(guān)鍵 token。

在這一認識基礎(chǔ)上形成的 A3PO 方法，將訓(xùn)練重點從整體樣本轉(zhuǎn)向關(guān)鍵決策點，使推理模型的學(xué)習(xí)過程變得更加可解釋、也更可控制。這一轉(zhuǎn)變表明，推理大模型的進步不再只是依賴規(guī)模和算力，而正在走向?qū)τ?xùn)練機制本身的深入理解。

論文地址：https://arxiv.org/pdf/2512.21625v1

01
正樣本「收縮」vs 負樣本「探索」

實驗中，研究人員首先對比了正樣本和負樣本，并發(fā)現(xiàn)它們在訓(xùn)練過程中起到的作用完全不同。

具體表現(xiàn)為，當(dāng)只用正樣本訓(xùn)練（PSR）時，模型會變得越來越確定：熵迅速下降，輸出分布越來越尖銳，答案長度明顯變短，經(jīng)常直接給出結(jié)果而不展開完整推理。這說明正樣本更多是在強化已經(jīng)正確的推理路徑，讓模型不斷重復(fù)熟悉的解題套路，同時也會抑制繼續(xù)探索新路徑。

與此相反，只用負樣本訓(xùn)練（NSR）時，模型的熵保持在較高水平甚至上升，回答長度變長，推理步驟增多，表現(xiàn)出更強的嘗試和探索傾向。這是因為負樣本訓(xùn)練主要在削弱錯誤 token 的概率，使原本集中的概率被分散到其他候選路徑上，從而帶來更強的探索能力。

不過，實驗也表明，兩種極端方式其實都不理想：只用正樣本容易出現(xiàn) reward hacking，只報答案不推理，只用負樣本訓(xùn)練不穩(wěn)定，甚至可能生成亂碼。整體比較下來，正負樣本同時使用（DAPO）時訓(xùn)練曲線更平穩(wěn)，泛化能力也最好。

在此基礎(chǔ)上，研究人員又引入銳化（sharpen）和發(fā)現(xiàn)（discovery）兩個指標(biāo)來刻畫模型生成內(nèi)容的變化。銳化指標(biāo)反映模型是否在重復(fù)歷史正確答案中已經(jīng)出現(xiàn)過的 n-gram，而發(fā)現(xiàn)指標(biāo)反映是否產(chǎn)生了新的、從未出現(xiàn)過的 n-gram。

結(jié)果顯示，在銳化指標(biāo)上，PSR 高于 DAPO，DAPO 又高于 NSR，在發(fā)現(xiàn)指標(biāo)上則相反，NSR 最高，DAPO 居中，PSR 最低。這表明正樣本更像在磨刀，使已有正確模式變得更熟練、更穩(wěn)定，而負樣本更像在開路，推動模型尋找新的推理方式，兩者結(jié)合才能既保證穩(wěn)定性，又拓展能力上限。

研究團隊還從極性級 advantage的角度分析了正負樣本權(quán)重的影響。以 Qwen2.5-7B-Math 為例，當(dāng)增大正樣本權(quán)重（如 P2N1、P1N0.5）時，訓(xùn)練獎勵上升更快，但熵明顯下降、輸出變短，探索能力減弱，權(quán)重過大時甚至?xí)^擬合既有模式，而當(dāng)增大負樣本權(quán)重（如 P1N5）時，熵和輸出長度都更高，探索更充分，但獎勵上升變慢，模型表現(xiàn)得更加謹慎。

實驗表明，決定訓(xùn)練動態(tài)的關(guān)鍵不在于各自權(quán)重的絕對大小，而在于正負樣本之間的比例，例如 P2N1 與 P1N0.5 的比例相同，曲線表現(xiàn)也非常相似。總體來看，正負 advantage 比例大約在 1:2 左右時，能夠較好地兼顧收斂速度與探索能力。

最后，在token 級別的實驗中，研究人員進一步分析了哪些 token 在訓(xùn)練中最關(guān)鍵。結(jié)果發(fā)現(xiàn)，并不是所有 token 都同等重要，而是兩類最關(guān)鍵：一類是正樣本中的低概率 token，即冷門但正確的推理步驟，另一類是負樣本中的高概率 token，也就是模型非常自信但實際上是錯誤的部分。

前者需要重點獎勵，以保留多樣但正確的推理路徑，后者需要重點懲罰，防止模型固執(zhí)地堅持錯誤答案。新提出的 A3PO 方法正是圍繞這兩類關(guān)鍵 token 進行非對稱加權(quán)設(shè)計的，這一點也得到了實驗數(shù)據(jù)的支持。

在 Qwen2.5-7B-Math 上，A3PO 在 AIME24 與 AIME25 上分別從 DAPO 的 27.6 和 21.4 提升到 31.5 和 24.8；在 Qwen3-8B-Base 上，也從 34.2/26.1 提升到 37.8/30.4；在 DeepSeek-R1 蒸餾模型上，則從 60.8/50.8 提升到 65.2/54.1。并且，這些提升不僅出現(xiàn)在單一數(shù)據(jù)集上，而是在 AIME、MATH500、GPQA 等多個基準(zhǔn)上同時出現(xiàn)，其中多項結(jié)果還通過了顯著性檢驗。

因此，可以認為A3PO 在保持較強探索能力的同時，確實在不同模型與不同評測任務(wù)上帶來了穩(wěn)定且明確的性能提升。

02
在機制分析基礎(chǔ)上構(gòu)建 A3PO

為了得到全面的實驗結(jié)果，研究人員首先圍繞 RLVR 框架搭建了一系列對照實驗，目的是不急于提出新方法，而是先把正樣本和負樣本的作用拆開來看，分別考察只用正樣本、只用負樣本以及正負樣本同時使用時模型的具體表現(xiàn)。

實驗選擇了三種類型不同的大語言模型作為基座，包括數(shù)學(xué)能力增強的 Qwen2.5-7B-Math、通用預(yù)訓(xùn)練模型 Qwen3-8B-Base 以及經(jīng)過推理蒸餾的 DeepSeek-R1-Distill-Qwen-7B，并分別在三種訓(xùn)練范式下進行對比：只使用正樣本更新的 PSR，只使用負樣本更新的 NSR，以及同時利用正負樣本、目前較常用的 DAPO 方法。

整個訓(xùn)練過程中不僅跟蹤模型的熵、生成回答長度和獎勵值等指標(biāo)，以反映其確定性與探索性的變化，還在驗證集上測試 AIME25 的 Avg@32 和 Pass@32 等指標(biāo)，來評估真實推理能力。

在確認正負樣本都發(fā)揮重要且不同作用之后，研究人員進一步進行粗粒度的參數(shù)控制實驗，從極性層面調(diào)整 advantage 權(quán)重。在 Qwen2.5-7B-Math 上，將 RLVR 的損失函數(shù)拆分為正樣本項和負樣本項，通過設(shè)置不同的權(quán)重組合（如正負 1:5 或 2:1 等），系統(tǒng)比較不同權(quán)重比例下模型的熵、輸出長度、訓(xùn)練獎勵以及 AIME24 上的表現(xiàn)，從而分析正負樣本整體權(quán)重對訓(xùn)練動態(tài)的影響。

在此基礎(chǔ)上，研究視角被進一步細化到 token 層面。研究人員不再僅討論“正負樣本整體重要與否”，而是考察一條推理序列內(nèi)部不同 token 的差異作用。具體做法是根據(jù) token 的熵和概率兩個維度，挑選出正樣本和負樣本中高熵與低熵、高概率與低概率的不同 token 類型，然后分別對這些 token 的 advantage 進行大幅放縮，例如乘以 0.2 或 5，觀察模型訓(xùn)練曲線與生成行為隨之發(fā)生的變化，從而找出真正對訓(xùn)練最敏感、最關(guān)鍵的 token 區(qū)域。

在完成以上一系列分析之后，研究團隊提出了新的 A3PO 方法，其核心思想是在 RLVR 目標(biāo)中引入自適應(yīng)且非對稱的 token 級 advantage 加權(quán)機制：對正樣本中低概率的 token 給予更高獎勵，以鼓勵保留多樣但正確的推理路徑，對負樣本中高概率的 token 給予更強懲罰，以重點糾正模型自信但錯誤的推理。同時，這些加權(quán)系數(shù)在訓(xùn)練過程中逐步衰減，使模型能夠從前期的更強探索自然過渡到后期的穩(wěn)定收斂。

實驗采用與前述相同的三種模型，在 DAPO-Math 數(shù)據(jù)集上進行訓(xùn)練，基于 Verl 與 vLLM 的離線強化學(xué)習(xí)框架，每個提示生成 8 個樣本，訓(xùn)練 300 步，并與 GRPO、DAPO、W-REINFORCE、DAPO-Fork-Tokens 和 Lp-Reg 等方法進行對比，測試任務(wù)涵蓋 AIME24、AIME25、MATH500、GPQA 與 LiveCodeBench 等多個推理基準(zhǔn)。

此外，研究團隊還系統(tǒng)評估了 A3PO 在不同模型規(guī)模和不同訓(xùn)練數(shù)據(jù)集上的泛化能力，并對其關(guān)鍵超參數(shù)（包括 token 選擇比例、初始縮放系數(shù) ρ 以及衰減系數(shù) α）進行了敏感性分析，從而形成完整的實驗設(shè)計框架。

03
正負樣本作用邊界的重新界定

整體來看，這項研究的核心意義在于，它把原本相對模糊的 RLVR 訓(xùn)練過程，轉(zhuǎn)化為一個具有清晰結(jié)構(gòu)和內(nèi)部機制解釋的框架。過去在強化學(xué)習(xí)訓(xùn)練推理模型時，人們大致知道需要正樣本，也會使用負樣本，但往往難以回答一個根本問題：正負樣本各自在訓(xùn)練中究竟起什么作用，它們?nèi)绾胃淖兡Ｐ偷膶W(xué)習(xí)動力學(xué)。

這項工作通過系統(tǒng)實驗給出了明確答案：正樣本主要收縮策略空間，使模型已經(jīng)掌握的正確模式更加集中和穩(wěn)定，負樣本則擴張策略空間，迫使模型脫離舊有模式，去探索新的推理路徑。更重要的是，研究并未停留在正樣本銳化能力、負樣本促進探索這樣的概括層面，而是進一步指出訓(xùn)練質(zhì)量真正取決于哪些具體決策點被重點強化。

研究表明，正樣本中那些原本選擇概率較低但通向正確答案的 token，以及負樣本中那些模型高度自信卻指向錯誤答案的 token，對探索與利用平衡具有決定性影響。

A3PO 的設(shè)計正是把這一認識具體化為訓(xùn)練原則，在這些關(guān)鍵拐點上進行非對稱 advantage 放大，并隨訓(xùn)練進程逐步衰減這種偏置。由此，強化學(xué)習(xí)不再只是簡單地增加正確獎勵或扣減錯誤分數(shù)，而是轉(zhuǎn)向圍繞關(guān)鍵局部決策點有針對性地塑造策略分布。這樣的視角，使正負樣本從被動的數(shù)據(jù)來源，轉(zhuǎn)變?yōu)榭杀痪氄{(diào)控的優(yōu)化工具，也把方法研究從經(jīng)驗性調(diào)參提升到機制性設(shè)計層面。

從更長遠看，這一思路為大模型對齊、多模態(tài)推理以及智能體決策中的強化學(xué)習(xí)提供了共同的方向，即不再平均對待所有行為信號，而是抓住那些對整體策略結(jié)構(gòu)影響最大的關(guān)鍵 token 和關(guān)鍵狀態(tài)進行重點塑形。

04
背后的學(xué)術(shù)力量

這篇論文的通訊作者為趙鑫，現(xiàn)任中國人民大學(xué)高瓴人工智能學(xué)院教授、長聘副教授，同時他也是國家優(yōu)青項目獲得者。

趙鑫教授于 2014 年 7 月在北京大學(xué)取得博士學(xué)位，之后就職于中國人民大學(xué)，至今一直從事教學(xué)與科研工作。他的主要研究領(lǐng)域為信息檢索與自然語言處理，目前已發(fā)表學(xué)術(shù)論文 200 余篇，谷歌學(xué)術(shù)引用量超過 1.8 萬次。

他牽頭開發(fā)了開源推薦系統(tǒng)工具 RecBole（伯樂）和文本生成工具 TextBox（妙筆），并組織撰寫了《A Survey of Large Language Models》綜述論文及中文專著《大語言模型》。

趙鑫教授先后獲得吳文俊人工智能優(yōu)秀青年獎（2020）、ECIR 2021 時間檢驗獎、RecSys 2022 最佳學(xué)生論文提名、CIKM 2022 最佳資源論文提名等榮譽稱號，同時入選中國科協(xié)青年人才托舉工程、北京智源青年科學(xué)家和 CCF–IEEE CS 青年科學(xué)家計劃，其系列研究成果還榮獲教育部自然科學(xué)一等獎、北京市自然科學(xué)二等獎及中國計算機學(xué)會自然科學(xué)二等獎。

參考鏈接：https://gsai.ruc.edu.cn/waynexinzhao

未經(jīng)「AI科技評論」授權(quán)，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.