337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

以判別式監(jiān)督學(xué)習(xí)強(qiáng)化推理LLM,解決難度偏差和熵崩塌難題

0
分享至



作者介紹:德州農(nóng)工大學(xué)博士生李港,專注于設(shè)計(jì)和應(yīng)用高效算法到大規(guī)模機(jī)器學(xué)習(xí)和人工智能任務(wù),包括增強(qiáng)大型基礎(chǔ)模型的后訓(xùn)練算法、對(duì)抗性魯棒學(xué)習(xí)算法和分布魯棒性學(xué)習(xí)算法。曾發(fā)表數(shù)篇論文在 NeurIPS、ICML、KDD 等頂會(huì), 并作為主要貢獻(xiàn)者之一發(fā)布了針對(duì)不平衡分類任務(wù)的知名軟件包 LibAUC。

DeepSeek-R1 的成功吸引了人們對(duì)群體相對(duì)策略優(yōu)化(GRPO)作為大型推理模型(LRM)強(qiáng)化學(xué)習(xí)方法的廣泛關(guān)注。

在本文中,作者分析了二元獎(jiǎng)勵(lì)(binary reward)設(shè)置下的 GRPO 優(yōu)化目標(biāo),發(fā)現(xiàn)了由其群體相對(duì)優(yōu)勢(shì)函數(shù)引起的問(wèn)題難度偏差的固有局限性,并且揭示了 GRPO 與傳統(tǒng)判別式監(jiān)督學(xué)習(xí)方法之間的聯(lián)系。

基于這些分析發(fā)現(xiàn),作者提出了一個(gè)新穎的判別式約束優(yōu)化(DisCO)框架來(lái)強(qiáng)化大型推理模型。該框架基于判別式學(xué)習(xí)的基本原則:增加正確答案的得分,同時(shí)減少錯(cuò)誤答案的得分。

與 GRPO 及其變體相比,DisCO 具有以下優(yōu)勢(shì):

  1. 它通過(guò)采用判別式優(yōu)化目標(biāo)完全消除了難度偏差
  2. 通過(guò)使用非裁剪評(píng)分函數(shù)和約束優(yōu)化方法,解決了 GRPO 及其變體的熵不穩(wěn)定性,得到了長(zhǎng)期穩(wěn)定的訓(xùn)練動(dòng)態(tài);
  3. 它允許結(jié)合先進(jìn)的判別式學(xué)習(xí)技術(shù)來(lái)解決數(shù)據(jù)不平衡問(wèn)題,例如在訓(xùn)練過(guò)程中一些問(wèn)題的錯(cuò)誤答案遠(yuǎn)遠(yuǎn)多于正確答案。

在增強(qiáng)大型模型的數(shù)學(xué)推理能力方面的實(shí)驗(yàn)表明,DisCO 大幅優(yōu)于 GRPO 及其改進(jìn)版本(如 DAPO),在 1.5B 模型的六個(gè)基準(zhǔn)任務(wù)中,平均增益比 GRPO 高 7%,比 DAPO 高 6%。值得注意的是,最大響應(yīng)長(zhǎng)度(max response length)為8k 的 DisCO甚至優(yōu)于最大響應(yīng)長(zhǎng)度為 32k 的 GRPO。

論文以「5,5,5,5」的高分被 NeurIPS 2025 接收。



  • 論文標(biāo)題:DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
  • 論文地址:https://arxiv.org/abs/2505.12366
  • 開(kāi)源模型地址:https://huggingface.co/collections/ganglii/disco-681b705decb9979e65614d65
  • GitHub 地址:https://github.com/Optimization-AI/DisCO

GRPO 的難度偏差問(wèn)題分析

GRPO 的核心思想在于對(duì)輸入問(wèn)題 q 生成多個(gè)輸出,并定義群體相對(duì)優(yōu)勢(shì)函數(shù)。當(dāng)采用期望形式而非經(jīng)驗(yàn)平均時(shí),其優(yōu)化目標(biāo)為:







其中:



從上面的變式分析中,作者有兩個(gè)重要發(fā)現(xiàn):

1. 與判別式監(jiān)督學(xué)習(xí)的聯(lián)系



2. 難度偏差(Difficulty Bias)





提出方法:判別式強(qiáng)化學(xué)習(xí)

1. 判別式目標(biāo)函數(shù)(類似 AUC 優(yōu)化)

基于上述與 AUC 最大化聯(lián)系的分析發(fā)現(xiàn),作者直接從判別式學(xué)習(xí)的原則重新設(shè)計(jì)了新的判別式強(qiáng)化學(xué)習(xí)框架:



為了避免其他研究發(fā)現(xiàn)的由裁剪操作引起的熵崩塌現(xiàn)象,作者設(shè)計(jì)選擇非裁剪評(píng)分函數(shù), 例如



2. 基于 DRO 的判別式目標(biāo)函數(shù)(類似局部 AUC 優(yōu)化)

基于判別式學(xué)習(xí)原則設(shè)計(jì)目標(biāo)函數(shù)的一個(gè)優(yōu)點(diǎn)是能夠利用文獻(xiàn)中先進(jìn)監(jiān)督學(xué)習(xí)技術(shù)來(lái)改進(jìn)訓(xùn)練。推理模型的強(qiáng)化學(xué)習(xí)微調(diào)的一個(gè)關(guān)鍵挑戰(zhàn)就是稀疏獎(jiǎng)勵(lì),這導(dǎo)致答案生成的不平衡。具體來(lái)說(shuō),對(duì)于一些問(wèn)題,錯(cuò)誤答案的輸出的數(shù)量可能大大超過(guò)正確答案的數(shù)量,這反映了一個(gè)經(jīng)典的數(shù)據(jù)不平衡問(wèn)題。這個(gè)問(wèn)題在判別式學(xué)習(xí)領(lǐng)域中得到了廣泛的研究。

為了解決這個(gè)問(wèn)題,作者利用局部 AUC 優(yōu)化設(shè)計(jì)了分布魯棒性優(yōu)化(DRO)目標(biāo):



3. 約束優(yōu)化(穩(wěn)定訓(xùn)練)

為了穩(wěn)定訓(xùn)練,作者借鑒 TRPO 中的信任域思想,加入 KL 散度約束,形成以下優(yōu)化問(wèn)題:



不同于 TRPO 的二階優(yōu)化方法,作者采用近期發(fā)展的一種非凸不等式約束優(yōu)化策略,將約束替換為平滑的方形鉸鏈懲罰項(xiàng) (squred hinge penalty):





實(shí)驗(yàn)結(jié)果與分析

測(cè)試效果對(duì)比

作者采用平均 16 次輸出的 Pass@1 作為評(píng)價(jià)指標(biāo),在六個(gè)數(shù)學(xué)基準(zhǔn)數(shù)據(jù)集上評(píng)估了 DisCO 和其他基線方法。

從下表觀察到,作者提出的 DisCO 方法始終顯著優(yōu)于其他基線方法。值得注意的是,訓(xùn)練和推理長(zhǎng)度均為 8k 的 DisCO (log-L)比 GRPO 平均提高了 7%,超過(guò)了以最大 24k 長(zhǎng)度訓(xùn)練并以 32k 長(zhǎng)度評(píng)估的 DeepScaleR-1.5B-Preview。在 7B 模型實(shí)驗(yàn)中,DisCO 也大幅優(yōu)于所有基線方法,比 GRPO 平均提高了 3.5%



在上面這張表格中,作者展示了多種強(qiáng)化學(xué)習(xí)方法在 1.5B 模型上的效果對(duì)比。作者也加入了 OpenAI 的 o1-preview 模型作為參考基線。 表中的 MRL(Max Response Length)表示訓(xùn)練或測(cè)試時(shí)使用的最大響應(yīng)長(zhǎng)度,限制模型能生成多長(zhǎng)的推理結(jié)果。 其中用陰影標(biāo)注的模型,是其他團(tuán)隊(duì)所訓(xùn)練的成果,相應(yīng)的指標(biāo)也來(lái)自他們的原始論文或 DeepScalaR 項(xiàng)目。除了這些以外,其余結(jié)果要么來(lái)自現(xiàn)有模型的直接評(píng)估,要么是基于不同方法訓(xùn)練后得到的結(jié)果。 值得注意的是,表格下半部分的所有方法,都是基于相同的數(shù)據(jù)集(DeepScaleR),對(duì) DeepSeek-R1-Distill-Qwen-1.5B 模型進(jìn)行微調(diào)的結(jié)果。其中,DS 是 DeepSeek-R1 的縮寫(xiě),DSR 是 DeepScalaR 的縮寫(xiě)。



訓(xùn)練動(dòng)態(tài)對(duì)比

隨著大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練成為改進(jìn)推理模型的核心技術(shù),學(xué)習(xí)算法的穩(wěn)定性至關(guān)重要,因?yàn)閷W(xué)習(xí)穩(wěn)定性決定了學(xué)習(xí)算法是否適用于大規(guī)模訓(xùn)練。作者從訓(xùn)練獎(jiǎng)勵(lì)和生成熵的角度比較了不同方法的訓(xùn)練動(dòng)態(tài)。

從下圖對(duì) 1.5B 和 7B 模型進(jìn)行微調(diào)的實(shí)驗(yàn)中,我們可以看到,由于 GRPO、GRPO-ER、Dr. GRPO 的熵崩塌和 DAPO 的熵過(guò)度增長(zhǎng),它們都只能獲得早熟的確定性策略或高度隨機(jī)的策略,所有基線都出現(xiàn)了過(guò)早飽和。使用 KL 散度正則化的 TRPA 在后面的步驟中也觀察到不穩(wěn)定的生成熵。

相比之下,作者提出的 DisCO 使用兩種非裁剪評(píng)分函數(shù)的方法最為穩(wěn)定,訓(xùn)練獎(jiǎng)勵(lì)不斷增加,生成熵保持相對(duì)穩(wěn)定。



上圖展示不同方法在訓(xùn)練過(guò)程中的動(dòng)態(tài)表現(xiàn):左邊兩張圖展示的是在訓(xùn)練 1.5B 模型時(shí)的訓(xùn)練情況,右邊兩張圖則對(duì)應(yīng)于訓(xùn)練 7B 模型。圖 (a) 和 (c) 展示了訓(xùn)練獎(jiǎng)勵(lì)隨訓(xùn)練步數(shù)的變化情況,獎(jiǎng)勵(lì)是對(duì)每一步中用于訓(xùn)練的問(wèn)題所生成答案的平均得分。圖 (b) 和 (d) 展示的是生成結(jié)果的熵值(反映輸出的多樣性)隨訓(xùn)練步數(shù)的變化趨勢(shì)。

消融實(shí)驗(yàn)



從下圖中可以看到,作者提出的每個(gè)組件在 DisCO 的改進(jìn)中都很重要,其中使用非裁剪評(píng)分函數(shù)是至關(guān)重要的。



總結(jié)

在這項(xiàng)工作中,作者提出了一種新的判別式約束優(yōu)化框架用于強(qiáng)化大型推理模型,避免了難度偏差和熵崩塌問(wèn)題。數(shù)學(xué)推理實(shí)驗(yàn)表明,與 GRPO 及其最近的變體相比,本文方法具有顯著的優(yōu)越性。

雖然這項(xiàng)工作主要關(guān)注的是二元獎(jiǎng)勵(lì),但是對(duì)于非二元獎(jiǎng)勵(lì),可以考慮利用監(jiān)督學(xué)習(xí)中排序目標(biāo)函數(shù)或者其他新穎的評(píng)分函數(shù)來(lái)進(jìn)行設(shè)計(jì)。作者將應(yīng)用判別式約束優(yōu)化微調(diào)更大的模型或其他推理任務(wù)留作后續(xù)研究。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
杜月笙在河邊釣魚(yú),遇到地痞要保護(hù)費(fèi),杜月笙:找你們老板過(guò)來(lái)

杜月笙在河邊釣魚(yú),遇到地痞要保護(hù)費(fèi),杜月笙:找你們老板過(guò)來(lái)

千秋文化
2026-03-25 21:29:50
國(guó)際油價(jià)暴跌!3月24日,全國(guó)各地各大加油站92號(hào)汽油、95號(hào)汽油、98號(hào)汽油最新油價(jià)

國(guó)際油價(jià)暴跌!3月24日,全國(guó)各地各大加油站92號(hào)汽油、95號(hào)汽油、98號(hào)汽油最新油價(jià)

吉林烏拉侯
2026-03-25 02:56:11
張雪峰猝然離世,辦公室內(nèi)景曝光,擺設(shè)奇怪,寫(xiě)真照被指像遺照,生前的話字字催淚

張雪峰猝然離世,辦公室內(nèi)景曝光,擺設(shè)奇怪,寫(xiě)真照被指像遺照,生前的話字字催淚

筆墨V
2026-03-26 14:53:51
2-1逆轉(zhuǎn)!南美弱旅闖入決賽,跟伊拉克爭(zhēng)進(jìn)世界杯,比賽時(shí)間如下

2-1逆轉(zhuǎn)!南美弱旅闖入決賽,跟伊拉克爭(zhēng)進(jìn)世界杯,比賽時(shí)間如下

侃球熊弟
2026-03-27 08:23:56
粉紅外套下的乳白誘惑,這丈母娘美得讓人心慌?

粉紅外套下的乳白誘惑,這丈母娘美得讓人心慌?

娛樂(lè)領(lǐng)航家
2026-03-17 20:30:03
千萬(wàn)網(wǎng)紅留幾手賬號(hào)被禁,徹底翻車(chē)

千萬(wàn)網(wǎng)紅留幾手賬號(hào)被禁,徹底翻車(chē)

新浪財(cái)經(jīng)
2026-03-26 18:59:50
是時(shí)候說(shuō)出真相!打越南時(shí)損失或超乎想象,從犧牲的名將后代便知

是時(shí)候說(shuō)出真相!打越南時(shí)損失或超乎想象,從犧牲的名將后代便知

輿圖看世界
2026-03-26 09:15:03
奧運(yùn)冠軍“拉拉鏈露胸”,讓耐克繃不住了!

奧運(yùn)冠軍“拉拉鏈露胸”,讓耐克繃不住了!

品牌營(yíng)銷(xiāo)報(bào)
2026-02-23 11:31:10
90萬(wàn)中國(guó)人定居日本,40%永住資格

90萬(wàn)中國(guó)人定居日本,40%永住資格

雪中風(fēng)車(chē)
2026-03-27 09:49:39
烏干達(dá)軍頭放話:以色列一句話,我立馬出兵!血債雕像焊死兄弟情

烏干達(dá)軍頭放話:以色列一句話,我立馬出兵!血債雕像焊死兄弟情

老馬拉車(chē)莫少裝
2026-03-26 21:01:23
羅技中國(guó)就爭(zhēng)議言論致歉!平臺(tái)賬號(hào)運(yùn)營(yíng)商:團(tuán)隊(duì)已被嚴(yán)肅處理

羅技中國(guó)就爭(zhēng)議言論致歉!平臺(tái)賬號(hào)運(yùn)營(yíng)商:團(tuán)隊(duì)已被嚴(yán)肅處理

南方都市報(bào)
2026-03-27 08:34:07
美國(guó)懸賞1000萬(wàn)美金,通緝一中國(guó)四川小伙,他到底做了什么?

美國(guó)懸賞1000萬(wàn)美金,通緝一中國(guó)四川小伙,他到底做了什么?

趣文說(shuō)娛
2026-03-26 18:11:01
初代丑男何潤(rùn)東的突然爆火,狠狠抽了內(nèi)娛一巴掌

初代丑男何潤(rùn)東的突然爆火,狠狠抽了內(nèi)娛一巴掌

娛樂(lè)圈筆娛君
2026-03-24 16:08:36
一覺(jué)醒來(lái),大量美軍逃匿!伊朗全力搜捕!美議長(zhǎng)透露重要信息

一覺(jué)醒來(lái),大量美軍逃匿!伊朗全力搜捕!美議長(zhǎng)透露重要信息

安安說(shuō)
2026-03-26 13:00:12
253記三分球!就在今天,2項(xiàng)前無(wú)古人的NBA紀(jì)錄被克神達(dá)成了

253記三分球!就在今天,2項(xiàng)前無(wú)古人的NBA紀(jì)錄被克神達(dá)成了

世界體育圈
2026-03-27 10:54:26
商務(wù)部:中方將自5月1日起對(duì)所有非洲建交國(guó)全面實(shí)施零關(guān)稅舉措

商務(wù)部:中方將自5月1日起對(duì)所有非洲建交國(guó)全面實(shí)施零關(guān)稅舉措

界面新聞
2026-03-26 16:08:24
現(xiàn)貨黃金價(jià)格深夜再度跳水,一度跌逾3%!金價(jià)為何“上躥下跳”?

現(xiàn)貨黃金價(jià)格深夜再度跳水,一度跌逾3%!金價(jià)為何“上躥下跳”?

澎湃新聞
2026-03-27 09:10:27
加拿大宣布對(duì)伊朗實(shí)施新制裁

加拿大宣布對(duì)伊朗實(shí)施新制裁

每日經(jīng)濟(jì)新聞
2026-03-27 08:32:12
魔笛J羅再相聚!皇馬兩代10號(hào)擁抱寒暄 賽后交換球衣

魔笛J羅再相聚!皇馬兩代10號(hào)擁抱寒暄 賽后交換球衣

葉青足球世界
2026-03-27 11:17:22
喪心病狂!河南14歲少年被虐死案:死時(shí)穿紙尿褲,胃里空無(wú)一物

喪心病狂!河南14歲少年被虐死案:死時(shí)穿紙尿褲,胃里空無(wú)一物

春日在捕月
2026-03-25 01:00:23
2026-03-27 12:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12612文章數(shù) 142595關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

男孩被搶走17年后找到生母 對(duì)"命好"的弟弟感情微妙

頭條要聞

男孩被搶走17年后找到生母 對(duì)"命好"的弟弟感情微妙

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強(qiáng)?

娛樂(lè)要聞

張雪峰靈堂內(nèi)景曝光,四周擺滿了鮮花

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車(chē)要聞

與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

本地
時(shí)尚
手機(jī)
公開(kāi)課
軍事航空

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

張雪峰曾經(jīng)“5次談猝死”

手機(jī)要聞

MIUI正式落幕,盧偉冰親自回應(yīng),下一個(gè)目標(biāo)見(jiàn)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版