337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

提速4.6倍!NVIDIA×港大×MIT聯(lián)手重新定義擴散模型訓(xùn)練速度上限

0
分享至



當(dāng)強化學(xué)習(xí)后訓(xùn)練的大規(guī)模 rollout 已經(jīng)被證明能夠提升圖像生成模型的偏好對齊能力,推理負(fù)擔(dān)就成了制約訓(xùn)練速度的核心瓶頸。來自 NVIDIA、港大和 MIT 的團隊提出的 Sol-RL,通過「FP4 先探索、BF16 再訓(xùn)練」的后訓(xùn)練框架,將達(dá)到等效 reward 水平的收斂速度最高提升到 4.64x,在訓(xùn)練速度與對齊效果之間給出了一條更具工程可行性的解法。



Sol-RL(Speed-of-light RL)是一種將 NVFP4 推理融合進(jìn) Diffusion 強化學(xué)習(xí)微調(diào)的高效訓(xùn)練框架。該方法并不是用量化推理結(jié)果直接訓(xùn)練,而是讓 NVFP4 rollout 承擔(dān)高吞吐的大規(guī)模探索任務(wù),先在海量候選中篩出最有對比性的樣本的初始噪聲集合,再讓 BF16 對這些關(guān)鍵初始噪聲進(jìn)行高保真再生成并完成策略優(yōu)化。實驗結(jié)果表明,該設(shè)計在 SANA、FLUX.1 和 SD3.5-L 模型上都帶來了明顯收益:在相同 GPU-hour 預(yù)算下,達(dá)到等效 reward 水平的收斂速度最高提升 4.64x,同時基本保持了 BF16 高精度 pipeline 的訓(xùn)練保真度。本文將深入探討 Sol-RL 的核心思路、方法設(shè)計、實驗結(jié)果與實際意義。



  • 論文名稱:FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling
  • 論文地址:https://arxiv.org/abs/2604.06916
  • 項目主頁:https://nvlabs.github.io/Sana/Sol-RL/
  • 代碼鏈接:https://github.com/NVlabs/Sana/

效果展示

Sol-RL 在速度和性能上表現(xiàn)出色,下圖展示了經(jīng)過 Sol-RL 優(yōu)化后 SANA 模型的整體效果,以及與基礎(chǔ)模型相比在復(fù)雜細(xì)節(jié)、語義一致性和整體審美上的改善。



研究背景


在文生圖模型的后訓(xùn)練階段,強化學(xué)習(xí)正在成為提升人類偏好對齊能力的重要路徑。現(xiàn)有研究不斷表明,擴大 rollout,也就是為同一個 prompt 生成更多候選圖像,再從中篩選高對比樣本(例如其中表現(xiàn)最好的 n 個和最差的 n 個構(gòu)成的 2n 個圖像)進(jìn)行優(yōu)化,能夠顯著提升模型的對齊效果。對于基于 GRPO 的 Diffusion RL 來說,更多候選意味著更強的對比信號,也意味著更可靠的梯度更新。

但問題在于:rollout 一旦增大,訓(xùn)練瓶頸很快就會從參數(shù)更新轉(zhuǎn)移到海量候選樣本生成。尤其在 FLUX.1、SD3.5-L 這類參數(shù)量較大、需要多次迭代推理的文生圖 Diffusion 模型上,想真正把 rollout scaling 做起來,rollout 階段生成候選樣本的計算成本會迅速上升。為了提高海量 rollout 效率,團隊引入 nvfp4 量化推理,但論文進(jìn)一步指出,如果直接把低比特 rollout 樣本當(dāng)作訓(xùn)練目標(biāo),訓(xùn)練穩(wěn)定性和最終效果都會受到明顯影響。因此,關(guān)鍵并不只是「能不能用 FP4」,而是「FP4 應(yīng)該在訓(xùn)練流程里扮演什么角色」。

核心創(chuàng)新

Sol-RL 的核心創(chuàng)新在于其雙階段解耦框架。與直接把低精度計算貫穿整個訓(xùn)練流程不同,Sol-RL 把 rollout 樣本的「探索」和「生成」拆開處理,讓不同精度承擔(dān)不同職責(zé)。

量化 rollout 不適合直接訓(xùn)練:論文首先指出,直接將 FP4 量化推理樣本用作優(yōu)化目標(biāo),會帶來訓(xùn)練退化和不穩(wěn)定性的隱患,如下圖實驗中紅色曲線所示。



FP4 適合作為探索代理:盡管 FP4 樣本在像素層面會引入偏差,但研究發(fā)現(xiàn),給定相同的初始噪聲,在同組候選樣本的相對 reward 排序上,NVFP4 推理樣本依然保持了和 BF16 推理樣本足夠高的一致性。因此,它非常適合用來承擔(dān)「大規(guī)模探索」和「候選篩選」的任務(wù),也就是在大量初始噪聲中快速識別出哪些會產(chǎn)生「最好」或者「最壞」的最終圖像。




方法概述

Sol-RL 的整體流程可以概括為兩個階段。第一階段,框架使用 NVFP4 rollout 和更少的采樣步數(shù)快速生成一個大規(guī)模候選池,并根據(jù) reward 對候選樣本做排序,篩選出對應(yīng)圖像得分最高 / 最低的初始噪聲種子集合。第二階段,框架并不會直接拿這些低精度樣本做訓(xùn)練,而是只保留第一階段篩出的關(guān)鍵種子,再用 BF16 精度重新生成高保真樣本,并僅基于這些高保真樣本完成策略優(yōu)化。這樣一來,F(xiàn)P4 負(fù)責(zé)快速找方向,BF16 負(fù)責(zé)對其中一小部分高對比度樣本做高質(zhì)量生成用于訓(xùn)練,效率和穩(wěn)定性被重新組織到同一個框架中。這樣的流程讓高成本 BF16 計算只集中在真正會影響梯度更新的部分,而不是平均浪費在大量最終不會參與訓(xùn)練的候選圖像上。



實驗結(jié)果


實驗結(jié)果表明,Sol-RL 在多個基礎(chǔ)模型和多個 reward 指標(biāo)上都展現(xiàn)出明顯優(yōu)勢。在相同 GPU-hour 預(yù)算下,Sol-RL 在 SANA、FLUX.1 和 SD3.5-L 上持續(xù)優(yōu)于基線方法,并將達(dá)到等效 reward 水平的收斂速度最高提升至 4.64x。如下圖所示,Sol-RL 在相同 wall-clock 預(yù)算下能夠更快達(dá)到基線性能,在有限時間內(nèi)達(dá)到更高對齊質(zhì)量。



進(jìn)一步做時間拆解,相對于直接使用高精度進(jìn)行 rollout scaling,Sol-RL 在 rollout 階段的加速最高達(dá)到 2.41x,訓(xùn)練迭代時間最高提升 1.62x。Sol-RL 通過探索 - 重生成的兩階段設(shè)計,顯著緩解了完全使用 BF16 rollout scaling 帶來的計算瓶頸,并且避免了直接使用低精度樣本進(jìn)行訓(xùn)練帶來的不穩(wěn)定性,相對于全程 NVFP4 低精度推理版本僅帶來約為 2% 的額外開銷。



結(jié)論與展望

當(dāng)大規(guī)模 rollout 已經(jīng)被證明能夠持續(xù)提升生成模型偏好對齊能力,接下來的關(guān)鍵問題就是如何以更低成本釋放這種擴展帶來的收益。Sol-RL 給出的答案是:讓低精度負(fù)責(zé)探索,讓高精度負(fù)責(zé)優(yōu)化。這也意味著,F(xiàn)P4 在生成式模型后訓(xùn)練中的角色被重新定義了。它不再只是一個推理加速工具,而是開始成為強化學(xué)習(xí)探索階段的有效代理。對于文生圖后訓(xùn)練、偏好對齊、低比特量化以及系統(tǒng)級優(yōu)化方向的研究者和工程團隊來說,這個方案為生成模型后訓(xùn)練提供了一條更現(xiàn)實的落地路徑,具備持續(xù)關(guān)注的價值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新加坡已經(jīng)成功預(yù)測中美沖突,一旦爆發(fā),美稱中國不能攻打美本土

新加坡已經(jīng)成功預(yù)測中美沖突,一旦爆發(fā),美稱中國不能攻打美本土

起喜電影
2026-04-16 01:05:59
人民日報聯(lián)合工信部緊急預(yù)警:全體iPhone用戶,請立刻升級系統(tǒng)!

人民日報聯(lián)合工信部緊急預(yù)警:全體iPhone用戶,請立刻升級系統(tǒng)!

小柱解說游戲
2026-04-19 20:52:59
長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

西昆侖Bruce
2026-04-19 19:52:58
負(fù)債60億!年銷8.4萬臺豪車的百億巨頭破產(chǎn),浙商大佬全被套牢

負(fù)債60億!年銷8.4萬臺豪車的百億巨頭破產(chǎn),浙商大佬全被套牢

青眼財經(jīng)
2026-04-16 22:01:48
皇馬啟動穆帥回歸談判!老佛爺約見門德斯,5月28日定最終結(jié)果

皇馬啟動穆帥回歸談判!老佛爺約見門德斯,5月28日定最終結(jié)果

佳佳說奇事故事
2026-04-18 21:16:18
正大光明官宣!中國艦艇編隊過航橫當(dāng)水道

正大光明官宣!中國艦艇編隊過航橫當(dāng)水道

武器縱論
2026-04-19 21:56:32
多納魯馬快哭了!爭冠天王山超巨失誤,奪冠27天后“致敬”凱帕

多納魯馬快哭了!爭冠天王山超巨失誤,奪冠27天后“致敬”凱帕

奧拜爾
2026-04-20 00:11:14
烏度卡:杜蘭特訓(xùn)練時不慎與隊友膝蓋相撞,導(dǎo)致髕腱區(qū)域受傷

烏度卡:杜蘭特訓(xùn)練時不慎與隊友膝蓋相撞,導(dǎo)致髕腱區(qū)域受傷

懂球帝
2026-04-19 08:20:27
摸景甜胸側(cè),抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒分寸感

摸景甜胸側(cè),抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒分寸感

草莓解說體育
2026-04-15 04:23:51
男子爬上泰山“五岳獨尊”石刻拍照,景區(qū):將核查其身份進(jìn)行處理

男子爬上泰山“五岳獨尊”石刻拍照,景區(qū):將核查其身份進(jìn)行處理

揚子晚報
2026-04-17 12:09:40
輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊真的太冤了

輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊真的太冤了

兵哥籃球故事
2026-04-19 15:21:32
普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

卷史
2026-04-19 11:41:35
為了留住非洲最后一根救命稻草,賴清德拼了!結(jié)果大陸早布好了局

為了留住非洲最后一根救命稻草,賴清德拼了!結(jié)果大陸早布好了局

軒逸阿II
2026-04-20 01:05:31
113-102!尼克斯開門紅,唐斯爆發(fā)哈特立功系列賽或變天

113-102!尼克斯開門紅,唐斯爆發(fā)哈特立功系列賽或變天

愛情畢業(yè)了
2026-04-20 00:04:17
廣西欽州一女子后悔砌墻,多次舉報自己違建,當(dāng)事人:70多歲了上下樓吃力,想在樓后加裝電梯,但因左右建了墻,根本無法施工

廣西欽州一女子后悔砌墻,多次舉報自己違建,當(dāng)事人:70多歲了上下樓吃力,想在樓后加裝電梯,但因左右建了墻,根本無法施工

觀威海
2026-04-19 14:28:11
網(wǎng)友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應(yīng):正常回訪,但電話沒接通

網(wǎng)友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應(yīng):正常回訪,但電話沒接通

瀟湘晨報
2026-04-18 22:04:11
河南三地被曝巨額數(shù)據(jù)造假后續(xù)!河南問責(zé)25人

河南三地被曝巨額數(shù)據(jù)造假后續(xù)!河南問責(zé)25人

看看新聞Knews
2026-04-19 20:40:06
深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

牛鍋巴小釩
2026-04-17 13:18:03
教育部剛通知!9月起上學(xué)新規(guī)全覆蓋,普通家庭孩子上學(xué)迎公平

教育部剛通知!9月起上學(xué)新規(guī)全覆蓋,普通家庭孩子上學(xué)迎公平

復(fù)轉(zhuǎn)這些年
2026-04-18 11:43:46
李想怒噴日產(chǎn)的背后,藏著“增程帝國”崩塌的無能為力

李想怒噴日產(chǎn)的背后,藏著“增程帝國”崩塌的無能為力

少數(shù)派報告Report
2026-04-19 09:17:16
2026-04-20 02:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

手機
數(shù)碼
家居
公開課
軍事航空

手機要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

數(shù)碼要聞

華為新機發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

家居要聞

法式線條 時光靜淌

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版