337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

JustGRPO:擴(kuò)散語言模型的極簡主義回歸

0
分享至



擴(kuò)散語言模型(Diffusion LLMs, dLLMs)因支持「任意順序生成」和并行解碼而備受矚目。直覺上,打破傳統(tǒng)自回歸(AR)「從左到右」的束縛,理應(yīng)賦予模型更廣闊的解空間,從而在數(shù)學(xué)、代碼等復(fù)雜任務(wù)上解鎖更強(qiáng)的推理潛力。

然而,本研究揭示了一個(gè)反直覺的現(xiàn)實(shí):當(dāng)前的任意順序生成,反而通過「規(guī)避不確定性」收窄了模型的推理邊界。

基于此,本文提出了一種回歸極簡的方法——JustGRPO。實(shí)驗(yàn)表明,在 RL 階段讓模型自回歸生成,并直接用標(biāo)準(zhǔn)的 GRPO 進(jìn)行訓(xùn)練,即可超越當(dāng)前各類針對(duì) dLLM 設(shè)計(jì)的 RL 算法表現(xiàn)。更重要的是,這種訓(xùn)練方式在提升推理表現(xiàn)的同時(shí),并未犧牲dLLM 引以為傲的并行解碼能力。



  • 論文標(biāo)題:The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
  • 論文鏈接:https://huggingface.co/papers/2601.15165
  • 項(xiàng)目主頁:https://nzl-thu.github.io/the-flexibility-trap
  • 論文代碼:https://github.com/LeapLabTHU/JustGRPO

「靈活性陷阱」:

為什么選擇多反而考不好?

為了探究「靈活性是否等同于推理潛力」,本文引入了 Pass@k 作為核心衡量指標(biāo)。該指標(biāo)量化了在 k 次采樣中至少生成一個(gè)正確答案的概率,能夠有效反映模型解空間的覆蓋廣度以及 RL 訓(xùn)練可激發(fā)的推理潛力上限(Yue et al., 2025)。

對(duì)比實(shí)驗(yàn)涵蓋了兩種主要的解碼模式:

  • 任意順序(Arbitrary Order):允許模型根據(jù)置信度動(dòng)態(tài)選擇生成順序,這是擴(kuò)散語言模型的標(biāo)準(zhǔn)解碼方式。
  • AR 順序(AR Order):約束模型遵循傳統(tǒng) LLM 從左到右的生成順序。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)值得深思的趨勢(shì):雖然任意順序在 k=1 時(shí)表現(xiàn)尚可,但隨著采樣次數(shù) k 的增加,AR 順序的 Pass@k 曲線不僅攀升速率更快,且最終達(dá)到的上限顯著更高。這表明,在涉及復(fù)雜推理時(shí),AR 順序?qū)嶋H上可幫助模型覆蓋更廣闊的正確解空間。



圖:限制 dLLM 使用標(biāo)準(zhǔn)的 AR 順序,反而比靈活的任意順序擁有更高的推理上限。

熵坍塌現(xiàn)象

為何看似受限的 AR 順序反而更具潛力?這與兩種順序如何處理不確定性有關(guān)。

在自回歸模式下,模型被迫直面第一個(gè)未知 Token;而在任意順序模式下,模型則有跳過(bypass)當(dāng)前不確定 Token、優(yōu)先填充后續(xù)更確定的內(nèi)容的「特權(quán)」。統(tǒng)計(jì)顯示,被頻繁跳過的往往是諸如「Therefore」、「Thus」、「To」等邏輯銜接詞(下圖左):



圖左:任意順序下,模型傾向于跳過不確定token而先填后續(xù)token,且這些被跳過的token往往是一些邏輯銜接詞;圖右:這些邏輯銜接詞解碼時(shí)的entropy顯著低于自回歸順序(虛線代表average token entropy)。以上結(jié)果為LLaDA-Instruct在MATH-500數(shù)據(jù)集的結(jié)果。

已有工作(Wang et al., 2025)表明,這些邏輯銜接詞往往起到通往不同推理路徑的功能,且將這些詞保持高熵狀態(tài)對(duì)模型探索豐富的解空間至關(guān)重要。而在任意順序下,這些銜接詞被解碼時(shí)的熵(Entropy)顯著低于自回歸順序(上圖右)。

我們將這種現(xiàn)象稱為「熵降級(jí)」(Entropy Degradation)。形象地說,模型利用了任意順序的靈活性進(jìn)行了一種「局部貪婪優(yōu)化」:它跳過了艱難的推理決策點(diǎn),試圖通過先生成后續(xù)上下文來「湊」出邏輯連接。雖然這在單次生成中可能有效,但卻犧牲了對(duì)多樣化推理路徑的有效探索。



圖:任意順序生成傾向于繞過高熵的邏輯連接詞,導(dǎo)致解空間過早坍縮。

返璞歸真:

JustGRPO

既然「任意順序」反而可能限制推理路徑的探索,本文提出了一種回歸極簡的方法——JustGRPO。不同于現(xiàn)有 RL 算法,JustGRPO 不再試圖用各種近似處理以顯式保留任意順序特性,而是選擇了一條更為徹底的路徑:

在 RL 訓(xùn)練階段,直接摒棄對(duì)任意順序的執(zhí)念,強(qiáng)制擴(kuò)散語言模型采用自回歸(AR)順序生成。這樣不僅保持了更廣闊的推理路徑,同時(shí)也讓我們得以直接復(fù)用成熟的 GRPO 算法進(jìn)行優(yōu)化。這種「生成軌跡的確定性」也自然使得強(qiáng)化學(xué)習(xí)時(shí)的信用分配(Credit Assignment)更加清晰,有助于模型更有效地學(xué)習(xí)魯棒的聯(lián)合分布。

值得一提的是:「訓(xùn)練時(shí)的約束」≠「推理時(shí)的退化」

自回歸的約束僅存在于訓(xùn)練階段。它的目的是為了讓模型更有效地進(jìn)行 RL 階段的探索與信用分配,模型本身的雙向注意力機(jī)制并未被破壞。一旦訓(xùn)練完成,我們依然可以在推理階段無損地應(yīng)用并行解碼,在享受 AR 訓(xùn)練帶來的更優(yōu)推理表現(xiàn)的同時(shí),保留擴(kuò)散模型引以為傲的生成速度。

實(shí)驗(yàn)結(jié)果:

簡單,但極其有效

性能大幅提升

在數(shù)學(xué)推理和代碼生成這兩類通用的推理任務(wù)上,JustGRPO 均有優(yōu)秀的表現(xiàn):

  • 數(shù)學(xué)推理:在 GSM8K 和 MATH-500 上,模型展現(xiàn)了極高的推理上限,準(zhǔn)確率最高分別可達(dá) 89.8% 和 45.2%,相比之前的最佳方法(SPG)顯著提升。

  • 代碼生成:在 HumanEval 與 MBPP 數(shù)據(jù)集上,準(zhǔn)確率分別達(dá)到 49.4% 和 52.4%。



表:JustGRPO在多個(gè)基準(zhǔn)測(cè)試中超越了現(xiàn)有的 dLLM 強(qiáng)化學(xué)習(xí)方法,基座模型:LLaDA-Instruct。注:LLaDA-1.5使用了大規(guī)模私有數(shù)據(jù)集訓(xùn)練、LLaDOU在訓(xùn)練中引入了額外模塊,因此未列入對(duì)比。

并行能力不僅沒丟,還更強(qiáng)了

一個(gè)可能的擔(dān)憂是:用 AR 方式訓(xùn)練是否會(huì)讓 dLLM 退化,失去其并行優(yōu)勢(shì)?實(shí)驗(yàn)結(jié)果恰恰相反。使用現(xiàn)成的 training-free 并行采樣器(Ben-Hamu et al., 2025),JustGRPO 訓(xùn)練后的模型在并行解碼下表現(xiàn)更佳。例如在 MBPP 數(shù)據(jù)集上,當(dāng)每步并行解碼 5 個(gè) Token 時(shí),JustGRPO 相比基座模型(LLaDA-Instruct)的準(zhǔn)確率優(yōu)勢(shì)從單步的 10.6% 擴(kuò)大到了25.5%。

這表明訓(xùn)練后的模型學(xué)到了更魯棒的聯(lián)合分布,使其更能適應(yīng)并行采樣過程中的近似誤差。



圖:JustGRPO 訓(xùn)練后的模型在并行解碼時(shí)表現(xiàn)出更好的速度-精度權(quán)衡。

結(jié)語:

少即是多

這篇工作挑戰(zhàn)了該領(lǐng)域的一個(gè)普遍假設(shè),即「必須在 RL 中保留任意順序靈活性」。事實(shí)證明,通過限制訓(xùn)練時(shí)的生成順序,迫使模型直面邏輯分叉點(diǎn)的高不確定性,反而能更有效地激發(fā) dLLMs 的推理潛能。

JustGRPO以一種極簡的方式,實(shí)現(xiàn)了推理能力的大幅提升,同時(shí)未犧牲擴(kuò)散模型標(biāo)志性的推理速度。也希望借此工作啟發(fā)社區(qū)重新審視「任意順序生成」在通用推理任務(wù)中的真實(shí)價(jià)值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
知名歌手公開玩性感美女大作!網(wǎng)友賭他"最多十分鐘"

知名歌手公開玩性感美女大作!網(wǎng)友賭他"最多十分鐘"

游民星空
2026-03-26 17:09:32
特斯拉國內(nèi)規(guī)模最大高速服務(wù)區(qū)超級(jí)充電站項(xiàng)目上線

特斯拉國內(nèi)規(guī)模最大高速服務(wù)區(qū)超級(jí)充電站項(xiàng)目上線

新華社
2026-03-29 08:50:12
馮鞏在人民日?qǐng)?bào)發(fā)文,撕開喜劇圈臟亂內(nèi)幕,點(diǎn)破岳云鵬尷尬處境

馮鞏在人民日?qǐng)?bào)發(fā)文,撕開喜劇圈臟亂內(nèi)幕,點(diǎn)破岳云鵬尷尬處境

林雁飛
2026-03-27 14:42:10
海南昌江通報(bào)“史某輝申請(qǐng)國家賠償被依法中止辦理”:迅速成立聯(lián)合調(diào)查組

海南昌江通報(bào)“史某輝申請(qǐng)國家賠償被依法中止辦理”:迅速成立聯(lián)合調(diào)查組

界面新聞
2026-03-29 07:32:17
勇士消息:穆迪手術(shù)成功,鉑金渴望留隊(duì),戰(zhàn)掘金出場更新

勇士消息:穆迪手術(shù)成功,鉑金渴望留隊(duì),戰(zhàn)掘金出場更新

冷月小風(fēng)風(fēng)
2026-03-29 11:56:03
多位院士共識(shí):低密度脂蛋白在安全值,無需用藥降脂

多位院士共識(shí):低密度脂蛋白在安全值,無需用藥降脂

醫(yī)學(xué)科普匯
2026-03-28 22:55:03
億萬國人破防了!90歲院士平靜宣布,中國導(dǎo)彈從此沒有任何死角!

億萬國人破防了!90歲院士平靜宣布,中國導(dǎo)彈從此沒有任何死角!

墨蘭史書
2026-03-05 07:10:08
央媒點(diǎn)名批評(píng)國乒!直擊3大隱患,孫穎莎是典型,王勵(lì)勤遇到難題

央媒點(diǎn)名批評(píng)國乒!直擊3大隱患,孫穎莎是典型,王勵(lì)勤遇到難題

余憁搞笑段子
2026-03-29 08:30:59
美國務(wù)卿:中國正在經(jīng)歷人類最大規(guī)模軍力建設(shè),美國打不過中國

美國務(wù)卿:中國正在經(jīng)歷人類最大規(guī)模軍力建設(shè),美國打不過中國

快看張同學(xué)
2026-03-29 11:34:50
國乒剛到澳門,惡心一幕出現(xiàn)!孫穎莎王楚欽遭遇懟臉拍!CCTV直播澳門世界杯!

國乒剛到澳門,惡心一幕出現(xiàn)!孫穎莎王楚欽遭遇懟臉拍!CCTV直播澳門世界杯!

好乒乓
2026-03-28 12:18:59
11.7億元,廣州市中標(biāo)一個(gè)大項(xiàng)目

11.7億元,廣州市中標(biāo)一個(gè)大項(xiàng)目

藍(lán)天白云1111
2026-03-29 10:27:09
晚清首富盛宣懷:家有兩女傭,一個(gè)生了宋美齡,另一個(gè)生了趙一荻

晚清首富盛宣懷:家有兩女傭,一個(gè)生了宋美齡,另一個(gè)生了趙一荻

鶴羽說個(gè)事
2026-03-24 22:01:27
日本警視廳對(duì)強(qiáng)闖我駐日使館不法之徒所屬部隊(duì)駐地等展開搜查

日本警視廳對(duì)強(qiáng)闖我駐日使館不法之徒所屬部隊(duì)駐地等展開搜查

環(huán)球網(wǎng)資訊
2026-03-29 07:52:04
笑麻了!新手爸爸們的離譜行為,老婆要生了,結(jié)果人還在家

笑麻了!新手爸爸們的離譜行為,老婆要生了,結(jié)果人還在家

夜深愛雜談
2026-03-28 20:00:23
?一口氣吃完9個(gè)冰淇淋,這個(gè)視頻我第一次看到

?一口氣吃完9個(gè)冰淇淋,這個(gè)視頻我第一次看到

歲月有情1314
2026-03-28 08:35:45
16歲就是人間尤物,4年換19個(gè)男人,找老實(shí)人接盤后,變買菜媽媽

16歲就是人間尤物,4年換19個(gè)男人,找老實(shí)人接盤后,變買菜媽媽

一盅情懷
2026-03-28 15:38:13
伊朗已經(jīng)想好了:打完這場仗,自己將成阿拉伯國家的新“保護(hù)傘”

伊朗已經(jīng)想好了:打完這場仗,自己將成阿拉伯國家的新“保護(hù)傘”

我是盲流
2026-03-29 02:48:07
沙特削減對(duì)華供應(yīng),油少賣800萬桶,中方通知全球,指出當(dāng)務(wù)之急

沙特削減對(duì)華供應(yīng),油少賣800萬桶,中方通知全球,指出當(dāng)務(wù)之急

丁丁鯉史紀(jì)
2026-03-28 16:51:54
一輛自行車賣18萬元還被搶光,上海"首發(fā)經(jīng)濟(jì)"憑的是什么?

一輛自行車賣18萬元還被搶光,上海"首發(fā)經(jīng)濟(jì)"憑的是什么?

界面新聞
2026-03-29 08:01:04
輸了官司不爽 馬斯克嘲諷84歲法官:穿成這樣我怎能獲公正審判

輸了官司不爽 馬斯克嘲諷84歲法官:穿成這樣我怎能獲公正審判

金融界
2026-03-28 10:48:31
2026-03-29 13:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

網(wǎng)約車司機(jī)被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

頭條要聞

網(wǎng)約車司機(jī)被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂要聞

張凌赫事件持續(xù)升級(jí)!官方點(diǎn)名怒批

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

手機(jī)
游戲
旅游
本地
公開課

手機(jī)要聞

華為何剛預(yù)告小藝Claw新特性,可推每日健康報(bào)告、制定運(yùn)動(dòng)計(jì)劃

《428~被封鎖的澀谷~》主創(chuàng)新作眾籌5400萬日元 被平臺(tái)扣下一半

旅游要聞

艷染浦東!櫻花、杜鵑齊綻放,繁花激活文旅“春日經(jīng)濟(jì)”

本地新聞

在濰坊待了三天,沒遇到一個(gè)“濰坊人”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版