![]()
超快速 AI 生圖領域再破性能天花板!香港科技大學唐靖團隊、香港科技大學(深圳分校)胡天陽、小紅書 hi-lab 羅維儉提出全新通用強化學習框架 TDM-R1,精準破解超快速擴散生成的核心痛點 —— 僅需 4 步采樣(4 NFE),便將組合式生成指標 GenEval 從 61% 飆升至 92%,不僅碾壓 80 步基礎模型的 63%,更直接超越 GPT-4o 的 84%,讓快節(jié)奏生圖不僅實現(xiàn) “高效低成本”,更能 “精準聽懂指令、貼合真實需求”。
![]()
TDM-R1-zimage 模型4步生成超高清圖像
當前,少步擴散模型已成為 AI 生圖的主流方向 —— 通過蒸餾、軌跡匹配等核心技術,將原本幾十步、上百步的采樣過程,壓縮至 4 步、8 步,大幅降低推理成本,完美適配工業(yè)級部署需求。但一個致命痛點始終難以突破:像 “圖中需包含 3 只狗”“英文單詞無拼寫錯誤”“用戶偏好 A 類圖像” 這類 “不可量化” 的反饋,無法穩(wěn)定應用于少步擴散模型的強化學習,導致模型即便推理速度再快,也始終 “聽不懂指令、做不對任務”。
TDM-R1 的出現(xiàn),正是為打破這一行業(yè)困局。該框架無需依賴可微獎勵反傳,創(chuàng)新地將學習過程拆分為 “代理獎勵學習 + 生成器學習” 兩部分,首次實現(xiàn)各類自由形式的不可微獎勵,與少步生成模型后訓練的深度融合。相關研究成果以論文《TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward》形式發(fā)布,作者團隊來自香港科技大學、香港中文大學(深圳)、小紅書 hi-lab、港科大(廣州)四大機構。
![]()
- 論文標題:TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward
- 論文作者:Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang
- 作者單位:香港科技大學、香港中文大學(深圳)、小紅書 hi-lab、港科大(廣州)
- 論文地址:https://arxiv.org/abs/2603.07700
- GitHub 代碼倉庫:https://github.com/Luo-Yihong/TDM-R1
- 項目主頁:https://luo-yihong.github.io/TDM-R1-Page/
痛點直擊:少步擴散 “快是快了,就是不聽話”
少步擴散模型的優(yōu)勢十分突出 —— 推理速度快、部署成本低,早已成為產(chǎn)業(yè)界的核心選擇,但它的短板同樣頑固,即便當前主流少步模型,也難逃三大核心問題,嚴重制約實用化落地:
- 復雜指令遵循能力弱:例如生成 “左側紅蘋果、右側綠香蕉” 這類包含位置與屬性約束的指令時,模型常出現(xiàn)位置顛倒、屬性對應錯誤等問題;
- 文字渲染穩(wěn)定性差:即便生成圖像畫面精美,也頻繁出現(xiàn)英文拼寫錯誤、漢字缺筆畫、文字黏連或排版混亂等問題,影響實際應用;
- 組合式生成能力拉胯:目標計數(shù)(如 “3 只貓”)、位置關系(如 “貓在狗旁邊”)、屬性綁定(如 “黑色小狗”)等任務中,模型往往 “看似能完成,實際效果偏差極大”,難以滿足精準需求。
從直覺來看,這些問題可通過強化學習解決 ——“對不對”“好不好看”“符不符合要求”,本身就是最直接的獎勵信號。但核心難題在于,這類獎勵大多是離散、不可微的(無法量化為模型可直接學習的梯度)。而此前超快速擴散模型的強化學習方法,均默認 “獎勵必須可微”,這就將大量真實場景中最具價值的反饋,直接排除在模型優(yōu)化范圍之外。
TDM-R1 的核心出發(fā)點,便是打破這一限制,讓少步擴散模型真正 “聽懂” 人類的真實需求,實現(xiàn) “快且精準” 的實用化突破。
![]()
TDM-R1的強化學習訓練曲線
核心思路:不硬剛獎勵反傳,兩步拆分破解困局
TDM-R1 建立在作者此前提出的少步生成框架 TDM(軌跡分布匹配)之上,與傳統(tǒng)擴散強化學習最大的區(qū)別的是:它不強行要求不可微獎勵 “實現(xiàn)反傳”,而是將整個學習過程拆分為兩條獨立且關聯(lián)的路線,分工明確、高效協(xié)同,徹底解決不可微獎勵的適配難題。
第一步:訓練 “獎勵翻譯官”—— 代理獎勵模型
針對離散、不可微的獎勵(如 “文字是否正確”“計數(shù)是否準確”“用戶是否偏好”),研究團隊首先訓練一個 “代理獎勵模型”。該模型如同 “翻譯官”,將模糊、不可量化的反饋,轉化為模型可理解、可學習的細粒度信號,同時精準擬合每一步去噪軌跡的優(yōu)劣關系。簡單來說,就是讓模型先學會 “判斷好壞”,再針對性地 “學好”,為后續(xù)優(yōu)化奠定基礎。
第二步:培育 “高效畫師”—— 少步生成器
在 “4 步采樣” 的嚴格約束下,訓練少步生成器最大化代理獎勵模型給出的 “優(yōu)質信號”;同時引入反向 KL 正則,將生成模型的分布穩(wěn)定在預訓練基礎模型附近,有效避免模型 “學偏”“走火入魔”,確保生成質量的穩(wěn)定性。
形象而言,這一設計相當于將 “判斷作品好壞” 與 “創(chuàng)作作品” 徹底拆分:“翻譯官” 專注解讀人類需求、評判生成效果,“畫師” 專注在快速創(chuàng)作的前提下,產(chǎn)出符合要求的作品,兩者高效配合,實現(xiàn) “快、準、優(yōu)” 三者兼顧。
關鍵創(chuàng)新:三大核心設計,鑄就少步生圖 “封神” 實力
TDM-R1 的成功并非簡單的方法拼接,而是精準抓住少步擴散模型的核心特性,設計三大關鍵創(chuàng)新點,三者相輔相成、缺一不可,最終實現(xiàn)性能的顛覆性提升:
1. 確定性軌跡:讓中間步驟的獎勵估計更精準
傳統(tǒng)擴散模型采樣過程充滿隨機性,如同 “同一張草圖,每次上色效果都不同”,難以給中間去噪步驟分配穩(wěn)定的獎勵 —— 多數(shù)方法只能將最終圖像的獎勵 “一刀切” 應用于所有中間步驟,誤差極大,嚴重影響模型收斂效果。
TDM-R1 充分利用 TDM 框架的核心優(yōu)勢:采樣軌跡具有確定性。也就是說,從初始噪聲到最終圖像的 “創(chuàng)作路徑” 固定不變,每一步中間狀態(tài)的優(yōu)劣,都能被精準估計。這一設計大幅降低了獎勵估計的誤差,讓模型收斂速度更快、最終生成效果更優(yōu)。實驗數(shù)據(jù)明確證明,若替換為隨機采樣變體,模型收斂速度與性能會出現(xiàn)明顯下降。
核心總結:TDM-R1 并未照搬 LLM 的 RLHF 方法,而是精準適配少步軌跡的特殊性,先實現(xiàn) “每一步獎勵的精準計算”,再推進強化學習,從根源上提升優(yōu)化效率。
2.組偏好優(yōu)化(GRPO,DGPO等):生成更穩(wěn)定的動態(tài)獎勵信號
僅實現(xiàn)中間步驟獎勵的精準估計還不夠,如何將不可微的獎勵信號,轉化為穩(wěn)定的訓練信號,也是核心難題。TDM-R1 借鑒 RLHF 與組偏好優(yōu)化的核心思路,摒棄 “單一樣本評判好壞” 的傳統(tǒng)模式,通過 “成組樣本的相對偏好” 來學習獎勵。
具體而言,研究團隊采用 Bradley-Terry 模型,對 “優(yōu)質樣本組” 與 “劣質樣本組” 的關系進行建模,再根據(jù)組內樣本的優(yōu)勢差異,為不同中間樣本分配對應權重 —— 讓模型更關注 “優(yōu)勢明顯的優(yōu)質樣本” 和 “差距顯著的劣質樣本”,大幅提升學習效率,也更貼合當前大模型強化學習的優(yōu)化趨勢。相較于傳統(tǒng)的 “兩兩對比” 模式,這種組偏好優(yōu)化能充分利用更細粒度的排序信息,優(yōu)化效果更突出。
3. 動態(tài)參考模型:靈活適配,避免訓練僵局
現(xiàn)有多數(shù)方法會采用完全凍結的參考模型,約束代理獎勵學習,導致 “規(guī)則過于嚴苛”,使得獎勵模型無法適應少步生成器的輸出分布,最終陷入訓練僵局,難以實現(xiàn)性能突破。
TDM-R1 做出實用性創(chuàng)新:采用代理獎勵模型參數(shù)的 EMA 版本(動態(tài)更新的平均版本)作為參考模型,既保留了訓練過程的穩(wěn)定性,又允許獎勵模型逐步跟上少步生成器的分布變化,實現(xiàn)動態(tài)適配。實驗結果驗證,該設計相較于靜態(tài)參考模型,不僅訓練過程更穩(wěn)定,最終生成性能也更優(yōu)。
實驗:4 步采樣碾壓 80 步模型,全面超越 GPT-4o
TDM-R1 的實驗表現(xiàn)堪稱 “降維打擊”,核心實驗圍繞組合式生成能力展開,在 GenEval 基準測試(專門考察組合式生成能力,覆蓋單目標、多目標、計數(shù)、顏色、位置、屬性綁定等核心難點)上,交出了驚艷全場的答卷:
- 4 步基線模型(TDM-SD3.5-M):GenEval 僅 61%,組合式生成能力薄弱;
- 加入 TDM-R1 后(仍為 4 步采樣):GenEval 直接飆升至 92%,實現(xiàn)質的飛躍;
- 對比組 1(80 步原始 SD3.5-M):GenEval 僅 63%,被 4 步 TDM-R1 全面碾壓;
- 對比組 2(GPT-4o):GenEval 為 84%,同樣被 TDM-R1 超越,凸顯模型核心優(yōu)勢。
更關鍵的是,92% 的高分并非 “單點僥幸”,而是所有子項全面開花,尤其是最難的位置關系和屬性綁定任務,徹底擺脫 “看似會、實則不會” 的困境,具體表現(xiàn)如下:
單目標 1.00、雙目標 0.96、計數(shù) 0.88、位置關系 0.93、屬性綁定 0.91—— 這一結果充分證明,TDM-R1 并非簡單 “拉高分數(shù)”,而是實打實補齊了少步生成模型的組合式指令遵循能力,讓模型真正 “聽懂指令、做好任務”。
![]()
TDM-R1與Z-image模型的直接比較
不止刷分:圖像質量不降級,實現(xiàn)協(xié)同提升
面對 GenEval 從 61% 到 92% 的夸張?zhí)嵘簧偃藭|疑:是否存在 “刷分” 嫌疑?即模型僅迎合 GenEval 指標,實際圖像質量反而下降?
研究團隊專門設計針對性驗證實驗,在 DrawBench 基準上引入 5 個不參與訓練的 “場外指標”(Aesthetic Score、DeQA、ImageReward、PickScore、UnifiedReward),全面檢驗模型是否 “刷分不長本事”。實驗結果令人信服:
TDM-R1(4 步采樣)不僅將 GenEval 從 61% 提升至 92%,在 5 項圖像質量 / 偏好指標上,不僅沒有出現(xiàn)掉點,反而整體優(yōu)于 4 步基線模型和 80 步基礎模型。例如,TDM-R1 的 Aesthetic=5.42、DeQA=4.07、ImageReward=1.11,均顯著超過基線模型的對應數(shù)值。
作者特別強調,此前傳統(tǒng)擴散強化學習方法,雖能提升目標指標,但往往伴隨圖像質量退化;而 TDM-R1 在少步場景下,完美兼顧 “更聽話” 與 “更好看”,真正實現(xiàn) “高效、精準、優(yōu)質” 三者兼得。
![]()
TDM-R1在Geneval測試上,通過強化學習技術,僅憑4步生成,將Geneval得分從61提升到92。
額外驚喜:文字渲染大突破,實現(xiàn)跨任務協(xié)同增益
除組合式生成能力的顛覆性提升外,TDM-R1 在文字渲染這一行業(yè) “老大難” 問題上,也交出亮眼答卷 ——OCR 準確率(文字識別準確率)從 4 步基線模型的 55%,直接提升至 95%,徹底解決了 “文字寫錯、缺筆畫、黏連” 的核心痛點,大幅提升圖像生成的實用性。
更令人意外的是,論文發(fā)現(xiàn)了顯著的 “協(xié)同增益”:用 GenEval 這類可驗證指標訓練模型,能同步提升 OCR 指標;反過來,用 OCR 獎勵訓練,也能促進其他可驗證任務的表現(xiàn)。作者認為,這一現(xiàn)象表明,只要選對代理任務,就能通過某類可驗證獎勵,低成本提升少步模型的通用指令遵循能力 —— 這或許是圖像模型走向 “通用對齊” 的一條便捷路徑。
可擴展性驗證:適配 6B Z-Image,通用范式實力凸顯
TDM-R1 并非 “針對特定模型的技巧性優(yōu)化”,而是一套通用的強化學習范式,可輕松擴展至更強的開源大模型。研究團隊將其應用于近期熱門的 6B 參數(shù) Z-Image 模型,以 HPSv3(一款優(yōu)質獎勵模型,能有效避免 “獎勵黑客” 現(xiàn)象,提升生成圖像實際質量)作為獎勵信號進行對齊,實驗結果同樣亮眼:
- Z-Image(100 步):GenEval 0.66,OCR 0.74;
- Z-Image-Turbo(4 步):GenEval 0.73,OCR 0.78;
- TDM-R1-ZImage(4 步):GenEval 0.77,OCR 0.79。
同時,在 HPSv3、Aesthetic 等多項質量指標上,TDM-R1-ZImage 也整體優(yōu)于 100 步原模型和 4 步 Turbo 版本,進一步驗證了 TDM-R1 的通用性與擴展性,為其大規(guī)模工業(yè)應用奠定基礎。
關鍵消融實驗:傳統(tǒng) RL 無法適配少步場景的核心原因
針對 “將傳統(tǒng)擴散 RL 損失函數(shù)直接加到少步模型上是否可行” 這一行業(yè)疑問,論文通過對比實驗給出明確答案:不可行。
研究團隊將傳統(tǒng)擴散 RL 的損失,與少步蒸餾目標直接相加,結果顯示,訓練出的模型不僅容易出現(xiàn)圖像模糊問題,性能還極不穩(wěn)定。核心原因在于:傳統(tǒng)擴散 RL 本質上仍是一種加權去噪損失,這種去噪目標與少步蒸餾追求的反向 KL 軌跡匹配,并不天然兼容 —— 在多步擴散場景中尚可勉強工作,但在 4 步這樣的少步場景下,會產(chǎn)生嚴重沖突,導致模型無法正常收斂。
這也正是 TDM-R1 的核心價值所在:它并非簡單照搬已有 RL 方法,而是針對少步生成機制的特性,設計了一套與之完美匹配的后訓練方法論,真正解決了少步擴散模型的強化學習適配難題。
行業(yè)意義:不止一個 SOTA,更是少步生圖的全新方向
4 步采樣、GenEval 從 61% 飆升至 92%、超越 GPT-4o,這些亮眼數(shù)據(jù)只是 TDM-R1 的表面成就,其真正的行業(yè)價值,在于為少步擴散模型打開了三條全新的發(fā)展可能,推動超快速 AI 生圖邁入實用化新階段:
- 少步模型可實現(xiàn) LLM 式 RL 后訓練:過去行業(yè)普遍將少步擴散視為 “蒸餾的終點”,認為 “快就足夠”,而 TDM-R1 證明,少步模型不僅能繼續(xù)優(yōu)化,還能通過通用不可微獎勵持續(xù)變強,打破 “少步即終點” 的固有認知;
- 不可微獎勵實現(xiàn)系統(tǒng)性接入:未來,無論是人類的二元偏好、產(chǎn)品側的離散反饋,還是用戶交互點擊數(shù)據(jù),都能用于少步模型的優(yōu)化,讓模型更貼合真實場景需求,提升實用價值;
- 可驗證任務成為通用對齊的低成本路徑:從 GenEval 與 OCR 的協(xié)同增益來看,未來圖像模型或許能像語言模型一樣,通過少量高質量、可程序驗證的任務,撬動更廣泛的能力提升,為圖像模型通用對齊提供全新思路。
結語
在大模型強化學習的熱潮中,圖像生成領域長期缺少一套真正適配少步模型的通用 RL 框架,而 TDM-R1 的出現(xiàn),恰恰補上了這塊關鍵拼圖。它不要求獎勵可微,不依賴額外真值圖像數(shù)據(jù),憑借確定性軌跡和動態(tài)代理獎勵兩大核心設計,將不可微反饋轉化為可優(yōu)化信號,讓少步模型真正實現(xiàn) “既快又準、既高效又聽話”。
GenEval 從 61% 到 92% 的跨越,不僅是一個數(shù)字的提升,更預示著下一代工業(yè)圖像生成系統(tǒng)的全新形態(tài):采樣步數(shù)極少、推理成本極低,但對人類偏好、結構約束和復雜指令的響應能力,卻持續(xù)增強。香港科技大學、香港中文大學(深圳)與小紅書 hi-lab 聯(lián)合帶來的這一突破,無疑為少步生圖的發(fā)展按下了加速鍵,推動超快速 AI 生圖向更精準、更實用、更通用的方向邁進。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.