337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人大高瓴趙鑫團隊新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

0
分享至


A3PO:針對冷門正確與自信錯誤 token 的非對稱強化學(xué)習(xí)方法。

作者丨鄭佳美

編輯丨岑峰

當(dāng)大語言模型開始被要求解數(shù)學(xué)題、寫證明、規(guī)劃任務(wù)流程,人們才真正意識到一件事:會生成并不等于會推理。

過去幾年,行業(yè)把大模型推向前所未有的規(guī)模,用 RLHF 和各種獎勵技術(shù)把答案校準(zhǔn)得越來越像人類。但一個越來越尖銳的現(xiàn)實問題也隨之浮現(xiàn):模型為什么有時一本正經(jīng)地胡說八道?為什么在同一訓(xùn)練框架下,它有時異常自信卻錯誤,有時又顯得畏首畏尾?在人們不斷強化學(xué)習(xí)信號、追求更高分數(shù)的同時,一個關(guān)鍵問題始終沒有被真正回答:正樣本與負樣本到底在模型內(nèi)部改變了什么。

正是在這樣的背景下,來自人大高瓴學(xué)院的趙鑫團隊把注意力放在了這一核心問題上。他們沒有急于再提出一個更大的模型或更復(fù)雜的算法,而是刻意退后一步,圍繞 RLVR 框架設(shè)計了一整套系統(tǒng)實驗:如果只用正樣本會發(fā)生什么,只用負樣本又會產(chǎn)生怎樣的行為變化。模型是在真正形成推理能力,還是被獎勵函數(shù)推著走向某些看似合理的套路?進一步地,在一條完整的推理鏈中,是否存在少數(shù)關(guān)鍵 token,像岔路口一樣決定模型是走向正確,還是自信地偏離軌道。

圍繞這些問題,研究團隊完成了論文《A3PO: Adaptive Asymmetric Advantage Shaping for Reasoning Models》,并提出了推理模型訓(xùn)練方法A3PO。與其說這是一次方法層面的創(chuàng)新,不如說它首先完成了一次機制澄清:正樣本主要收縮策略空間,使模型在既有正確路徑上更加篤定,負樣本則擴張策略空間,推動模型跳出舊有模式持續(xù)探索,而真正決定訓(xùn)練走向的,并非整條樣本本身,而是推理過程中那些冷門卻正確、以及自信但錯誤的關(guān)鍵 token。

在這一認識基礎(chǔ)上形成的 A3PO 方法,將訓(xùn)練重點從整體樣本轉(zhuǎn)向關(guān)鍵決策點,使推理模型的學(xué)習(xí)過程變得更加可解釋、也更可控制。這一轉(zhuǎn)變表明,推理大模型的進步不再只是依賴規(guī)模和算力,而正在走向?qū)τ?xùn)練機制本身的深入理解。


論文地址:https://arxiv.org/pdf/2512.21625v1

01
正樣本「收縮」vs 負樣本「探索」

實驗中,研究人員首先對比了正樣本和負樣本,并發(fā)現(xiàn)它們在訓(xùn)練過程中起到的作用完全不同

具體表現(xiàn)為,當(dāng)只用正樣本訓(xùn)練(PSR)時,模型會變得越來越確定:熵迅速下降,輸出分布越來越尖銳,答案長度明顯變短,經(jīng)常直接給出結(jié)果而不展開完整推理。這說明正樣本更多是在強化已經(jīng)正確的推理路徑,讓模型不斷重復(fù)熟悉的解題套路,同時也會抑制繼續(xù)探索新路徑。


與此相反,只用負樣本訓(xùn)練(NSR)時,模型的熵保持在較高水平甚至上升,回答長度變長,推理步驟增多,表現(xiàn)出更強的嘗試和探索傾向。這是因為負樣本訓(xùn)練主要在削弱錯誤 token 的概率,使原本集中的概率被分散到其他候選路徑上,從而帶來更強的探索能力。

不過,實驗也表明,兩種極端方式其實都不理想:只用正樣本容易出現(xiàn) reward hacking,只報答案不推理,只用負樣本訓(xùn)練不穩(wěn)定,甚至可能生成亂碼。整體比較下來,正負樣本同時使用(DAPO)時訓(xùn)練曲線更平穩(wěn),泛化能力也最好。


在此基礎(chǔ)上,研究人員又引入銳化(sharpen)和發(fā)現(xiàn)(discovery)兩個指標(biāo)來刻畫模型生成內(nèi)容的變化。銳化指標(biāo)反映模型是否在重復(fù)歷史正確答案中已經(jīng)出現(xiàn)過的 n-gram,而發(fā)現(xiàn)指標(biāo)反映是否產(chǎn)生了新的、從未出現(xiàn)過的 n-gram。

結(jié)果顯示,在銳化指標(biāo)上,PSR 高于 DAPO,DAPO 又高于 NSR,在發(fā)現(xiàn)指標(biāo)上則相反,NSR 最高,DAPO 居中,PSR 最低。這表明正樣本更像在磨刀,使已有正確模式變得更熟練、更穩(wěn)定,而負樣本更像在開路,推動模型尋找新的推理方式,兩者結(jié)合才能既保證穩(wěn)定性,又拓展能力上限。


研究團隊還從極性級 advantage的角度分析了正負樣本權(quán)重的影響。以 Qwen2.5-7B-Math 為例,當(dāng)增大正樣本權(quán)重(如 P2N1、P1N0.5)時,訓(xùn)練獎勵上升更快,但熵明顯下降、輸出變短,探索能力減弱,權(quán)重過大時甚至?xí)^擬合既有模式,而當(dāng)增大負樣本權(quán)重(如 P1N5)時,熵和輸出長度都更高,探索更充分,但獎勵上升變慢,模型表現(xiàn)得更加謹慎。

實驗表明,決定訓(xùn)練動態(tài)的關(guān)鍵不在于各自權(quán)重的絕對大小,而在于正負樣本之間的比例,例如 P2N1 與 P1N0.5 的比例相同,曲線表現(xiàn)也非常相似。總體來看,正負 advantage 比例大約在 1:2 左右時,能夠較好地兼顧收斂速度與探索能力。


最后,在token 級別的實驗中,研究人員進一步分析了哪些 token 在訓(xùn)練中最關(guān)鍵。結(jié)果發(fā)現(xiàn),并不是所有 token 都同等重要,而是兩類最關(guān)鍵:一類是正樣本中的低概率 token,即冷門但正確的推理步驟,另一類是負樣本中的高概率 token,也就是模型非常自信但實際上是錯誤的部分。

前者需要重點獎勵,以保留多樣但正確的推理路徑,后者需要重點懲罰,防止模型固執(zhí)地堅持錯誤答案。新提出的 A3PO 方法正是圍繞這兩類關(guān)鍵 token 進行非對稱加權(quán)設(shè)計的,這一點也得到了實驗數(shù)據(jù)的支持。

在 Qwen2.5-7B-Math 上,A3PO 在 AIME24 與 AIME25 上分別從 DAPO 的 27.6 和 21.4 提升到 31.5 和 24.8;在 Qwen3-8B-Base 上,也從 34.2/26.1 提升到 37.8/30.4;在 DeepSeek-R1 蒸餾模型上,則從 60.8/50.8 提升到 65.2/54.1。并且,這些提升不僅出現(xiàn)在單一數(shù)據(jù)集上,而是在 AIME、MATH500、GPQA 等多個基準(zhǔn)上同時出現(xiàn),其中多項結(jié)果還通過了顯著性檢驗。

因此,可以認為A3PO 在保持較強探索能力的同時,確實在不同模型與不同評測任務(wù)上帶來了穩(wěn)定且明確的性能提升。


02
在機制分析基礎(chǔ)上構(gòu)建 A3PO

為了得到全面的實驗結(jié)果,研究人員首先圍繞 RLVR 框架搭建了一系列對照實驗,目的是不急于提出新方法,而是先把正樣本和負樣本的作用拆開來看,分別考察只用正樣本、只用負樣本以及正負樣本同時使用時模型的具體表現(xiàn)。

實驗選擇了三種類型不同的大語言模型作為基座,包括數(shù)學(xué)能力增強的 Qwen2.5-7B-Math、通用預(yù)訓(xùn)練模型 Qwen3-8B-Base 以及經(jīng)過推理蒸餾的 DeepSeek-R1-Distill-Qwen-7B,并分別在三種訓(xùn)練范式下進行對比:只使用正樣本更新的 PSR,只使用負樣本更新的 NSR,以及同時利用正負樣本、目前較常用的 DAPO 方法。


整個訓(xùn)練過程中不僅跟蹤模型的熵、生成回答長度和獎勵值等指標(biāo),以反映其確定性與探索性的變化,還在驗證集上測試 AIME25 的 Avg@32 和 Pass@32 等指標(biāo),來評估真實推理能力。


在確認正負樣本都發(fā)揮重要且不同作用之后,研究人員進一步進行粗粒度的參數(shù)控制實驗,從極性層面調(diào)整 advantage 權(quán)重。在 Qwen2.5-7B-Math 上,將 RLVR 的損失函數(shù)拆分為正樣本項和負樣本項,通過設(shè)置不同的權(quán)重組合(如正負 1:5 或 2:1 等),系統(tǒng)比較不同權(quán)重比例下模型的熵、輸出長度、訓(xùn)練獎勵以及 AIME24 上的表現(xiàn),從而分析正負樣本整體權(quán)重對訓(xùn)練動態(tài)的影響。


在此基礎(chǔ)上,研究視角被進一步細化到 token 層面。研究人員不再僅討論“正負樣本整體重要與否”,而是考察一條推理序列內(nèi)部不同 token 的差異作用。具體做法是根據(jù) token 的熵和概率兩個維度,挑選出正樣本和負樣本中高熵與低熵、高概率與低概率的不同 token 類型,然后分別對這些 token 的 advantage 進行大幅放縮,例如乘以 0.2 或 5,觀察模型訓(xùn)練曲線與生成行為隨之發(fā)生的變化,從而找出真正對訓(xùn)練最敏感、最關(guān)鍵的 token 區(qū)域。


在完成以上一系列分析之后,研究團隊提出了新的 A3PO 方法,其核心思想是在 RLVR 目標(biāo)中引入自適應(yīng)且非對稱的 token 級 advantage 加權(quán)機制:對正樣本中低概率的 token 給予更高獎勵,以鼓勵保留多樣但正確的推理路徑,對負樣本中高概率的 token 給予更強懲罰,以重點糾正模型自信但錯誤的推理。同時,這些加權(quán)系數(shù)在訓(xùn)練過程中逐步衰減,使模型能夠從前期的更強探索自然過渡到后期的穩(wěn)定收斂。

實驗采用與前述相同的三種模型,在 DAPO-Math 數(shù)據(jù)集上進行訓(xùn)練,基于 Verl 與 vLLM 的離線強化學(xué)習(xí)框架,每個提示生成 8 個樣本,訓(xùn)練 300 步,并與 GRPO、DAPO、W-REINFORCE、DAPO-Fork-Tokens 和 Lp-Reg 等方法進行對比,測試任務(wù)涵蓋 AIME24、AIME25、MATH500、GPQA 與 LiveCodeBench 等多個推理基準(zhǔn)。


此外,研究團隊還系統(tǒng)評估了 A3PO 在不同模型規(guī)模和不同訓(xùn)練數(shù)據(jù)集上的泛化能力,并對其關(guān)鍵超參數(shù)(包括 token 選擇比例、初始縮放系數(shù) ρ 以及衰減系數(shù) α)進行了敏感性分析,從而形成完整的實驗設(shè)計框架。

03
正負樣本作用邊界的重新界定

整體來看,這項研究的核心意義在于,它把原本相對模糊的 RLVR 訓(xùn)練過程,轉(zhuǎn)化為一個具有清晰結(jié)構(gòu)和內(nèi)部機制解釋的框架。過去在強化學(xué)習(xí)訓(xùn)練推理模型時,人們大致知道需要正樣本,也會使用負樣本,但往往難以回答一個根本問題:正負樣本各自在訓(xùn)練中究竟起什么作用,它們?nèi)绾胃淖兡P偷膶W(xué)習(xí)動力學(xué)。

這項工作通過系統(tǒng)實驗給出了明確答案:正樣本主要收縮策略空間,使模型已經(jīng)掌握的正確模式更加集中和穩(wěn)定,負樣本則擴張策略空間,迫使模型脫離舊有模式,去探索新的推理路徑。更重要的是,研究并未停留在正樣本銳化能力、負樣本促進探索這樣的概括層面,而是進一步指出訓(xùn)練質(zhì)量真正取決于哪些具體決策點被重點強化。

研究表明,正樣本中那些原本選擇概率較低但通向正確答案的 token,以及負樣本中那些模型高度自信卻指向錯誤答案的 token,對探索與利用平衡具有決定性影響。

A3PO 的設(shè)計正是把這一認識具體化為訓(xùn)練原則,在這些關(guān)鍵拐點上進行非對稱 advantage 放大,并隨訓(xùn)練進程逐步衰減這種偏置。由此,強化學(xué)習(xí)不再只是簡單地增加正確獎勵或扣減錯誤分數(shù),而是轉(zhuǎn)向圍繞關(guān)鍵局部決策點有針對性地塑造策略分布。這樣的視角,使正負樣本從被動的數(shù)據(jù)來源,轉(zhuǎn)變?yōu)榭杀痪氄{(diào)控的優(yōu)化工具,也把方法研究從經(jīng)驗性調(diào)參提升到機制性設(shè)計層面。

從更長遠看,這一思路為大模型對齊、多模態(tài)推理以及智能體決策中的強化學(xué)習(xí)提供了共同的方向,即不再平均對待所有行為信號,而是抓住那些對整體策略結(jié)構(gòu)影響最大的關(guān)鍵 token 和關(guān)鍵狀態(tài)進行重點塑形。

04
背后的學(xué)術(shù)力量

這篇論文的通訊作者為趙鑫,現(xiàn)任中國人民大學(xué)高瓴人工智能學(xué)院教授、長聘副教授,同時他也是國家優(yōu)青項目獲得者。

趙鑫教授于 2014 年 7 月在北京大學(xué)取得博士學(xué)位,之后就職于中國人民大學(xué),至今一直從事教學(xué)與科研工作。他的主要研究領(lǐng)域為信息檢索與自然語言處理,目前已發(fā)表學(xué)術(shù)論文 200 余篇,谷歌學(xué)術(shù)引用量超過 1.8 萬次。

他牽頭開發(fā)了開源推薦系統(tǒng)工具 RecBole(伯樂)和文本生成工具 TextBox(妙筆),并組織撰寫了《A Survey of Large Language Models》綜述論文及中文專著《大語言模型》。

趙鑫教授先后獲得吳文俊人工智能優(yōu)秀青年獎(2020)、ECIR 2021 時間檢驗獎、RecSys 2022 最佳學(xué)生論文提名、CIKM 2022 最佳資源論文提名等榮譽稱號,同時入選中國科協(xié)青年人才托舉工程、北京智源青年科學(xué)家和 CCF–IEEE CS 青年科學(xué)家計劃,其系列研究成果還榮獲教育部自然科學(xué)一等獎、北京市自然科學(xué)二等獎及中國計算機學(xué)會自然科學(xué)二等獎。


參考鏈接:https://gsai.ruc.edu.cn/waynexinzhao

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
天津女博主發(fā)布“征婚貼”,宣稱想結(jié)婚!網(wǎng)友:估計是債務(wù)要暴雷

天津女博主發(fā)布“征婚貼”,宣稱想結(jié)婚!網(wǎng)友:估計是債務(wù)要暴雷

火山詩話
2026-03-21 06:58:08
51歲港星廣東縣城賣10元云吞,凌晨5點起床,擦桌子收碗筷超勤快

51歲港星廣東縣城賣10元云吞,凌晨5點起床,擦桌子收碗筷超勤快

韓小娛
2026-03-17 11:28:35
女生長的太漂亮是什么體驗?網(wǎng)友:母以子貴,父以女榮

女生長的太漂亮是什么體驗?網(wǎng)友:母以子貴,父以女榮

另子維愛讀史
2026-03-10 22:56:08
蘋果折疊屏 iPhone Ultra 將延遲發(fā)售!

蘋果折疊屏 iPhone Ultra 將延遲發(fā)售!

XCiOS俱樂部
2026-03-21 17:00:19
美日達成一致,不許改變臺海現(xiàn)狀,還要踢開中國,中方反擊不過夜

美日達成一致,不許改變臺海現(xiàn)狀,還要踢開中國,中方反擊不過夜

人類的關(guān)注
2026-03-22 01:47:11
32歲潮汕女生征婚!要廣州有房有車有穩(wěn)定工作,網(wǎng)友:女方有點老

32歲潮汕女生征婚!要廣州有房有車有穩(wěn)定工作,網(wǎng)友:女方有點老

火山詩話
2026-03-20 07:06:19
傳德黑蘭遭大規(guī)模夜間打擊,約300名巴斯基指揮官被指身亡

傳德黑蘭遭大規(guī)模夜間打擊,約300名巴斯基指揮官被指身亡

桂系007
2026-03-17 22:14:18
二月二龍?zhí)ь^,提醒中老年:1不洗、2不碰、3不吃、4不說,別大意

二月二龍?zhí)ь^,提醒中老年:1不洗、2不碰、3不吃、4不說,別大意

興史興談
2026-03-21 01:09:45
本科學(xué)歷進央國企越來越難了

本科學(xué)歷進央國企越來越難了

戶外阿毽
2026-03-21 14:53:12
惹眾怒!張本兄妹改名風(fēng)波再升級,韓媒狠批:這就是“創(chuàng)氏改名”

惹眾怒!張本兄妹改名風(fēng)波再升級,韓媒狠批:這就是“創(chuàng)氏改名”

東方不敗然多多
2026-03-20 20:38:25
永遠不要在爛人爛事上找自我價值

永遠不要在爛人爛事上找自我價值

鹿和犀
2026-03-20 20:49:05
知名Rapper在央視發(fā)生重大演出事故!本人回應(yīng)!

知名Rapper在央視發(fā)生重大演出事故!本人回應(yīng)!

SwagFuck
2026-03-21 23:47:03
伊朗:已成功破解以色列軍隊的安全通信相關(guān)代碼

伊朗:已成功破解以色列軍隊的安全通信相關(guān)代碼

閃電新聞
2026-03-19 22:01:11
第八波反制來了,巴方請求中方高抬貴手,巴方的要求,中方接受不了

第八波反制來了,巴方請求中方高抬貴手,巴方的要求,中方接受不了

榮亭小吏
2026-03-20 19:42:36
30萬車主被坑慘!知名寶馬4S店突發(fā)爆雷

30萬車主被坑慘!知名寶馬4S店突發(fā)爆雷

蔣東文
2026-03-20 20:36:11
馬士基接巴拿馬港口運營權(quán),會影響在華造船訂單嗎?

馬士基接巴拿馬港口運營權(quán),會影響在華造船訂單嗎?

趣味萌寵的日常
2026-03-22 01:16:38
全民追兇十年終落網(wǎng)!人販子‘梅姨’真容曝光,拐賣兒童案告破

全民追兇十年終落網(wǎng)!人販子‘梅姨’真容曝光,拐賣兒童案告破

燕梳樓頻道
2026-03-21 21:10:03
中東大和解基本完了!

中東大和解基本完了!

種花島
2026-03-20 09:57:55
中國精準(zhǔn)反制巴拿馬!放棄180億換5億?兩大航運巨頭做兩難抉擇!

中國精準(zhǔn)反制巴拿馬!放棄180億換5億?兩大航運巨頭做兩難抉擇!

愛看劇的阿峰
2026-03-21 19:28:23
紅旗下的簇擁  阿爾巴尼亞宣傳畫里的領(lǐng)導(dǎo)人恩維爾?霍查

紅旗下的簇擁 阿爾巴尼亞宣傳畫里的領(lǐng)導(dǎo)人恩維爾?霍查

那些看得見的老照片
2026-03-20 11:30:05
2026-03-22 03:48:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7134文章數(shù) 20742關(guān)注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細節(jié)披露

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細節(jié)披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

財經(jīng)要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態(tài)度原創(chuàng)

房產(chǎn)
游戲
旅游
藝術(shù)
健康

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計劃】,即刻啟動!

魔獸世界:時光服P3階段將至,新手該練什么職業(yè),這個很重要!

旅游要聞

【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

藝術(shù)要聞

斯托揚畫作:她們的眼神能勾動你的心!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進入關(guān)懷版