GenEval從61%狂拉到92%，全面超越GPT-4o的TDM-R1模型來了

2026-04-09 19:57:13　來源: 機器之心Pro

河北舉報

分享至

超快速 AI 生圖領域再破性能天花板！香港科技大學唐靖團隊、香港科技大學（深圳分校）胡天陽、小紅書 hi-lab 羅維儉提出全新通用強化學習框架 TDM-R1，精準破解超快速擴散生成的核心痛點 —— 僅需 4 步采樣（4 NFE），便將組合式生成指標 GenEval 從 61% 飆升至 92%，不僅碾壓 80 步基礎模型的 63%，更直接超越 GPT-4o 的 84%，讓快節(jié)奏生圖不僅實現(xiàn) “高效低成本”，更能 “精準聽懂指令、貼合真實需求”。

TDM-R1-zimage 模型4步生成超高清圖像

當前，少步擴散模型已成為 AI 生圖的主流方向 —— 通過蒸餾、軌跡匹配等核心技術，將原本幾十步、上百步的采樣過程，壓縮至 4 步、8 步，大幅降低推理成本，完美適配工業(yè)級部署需求。但一個致命痛點始終難以突破：像 “圖中需包含 3 只狗”“英文單詞無拼寫錯誤”“用戶偏好 A 類圖像” 這類 “不可量化” 的反饋，無法穩(wěn)定應用于少步擴散模型的強化學習，導致模型即便推理速度再快，也始終 “聽不懂指令、做不對任務”。

TDM-R1 的出現(xiàn)，正是為打破這一行業(yè)困局。該框架無需依賴可微獎勵反傳，創(chuàng)新地將學習過程拆分為 “代理獎勵學習 + 生成器學習” 兩部分，首次實現(xiàn)各類自由形式的不可微獎勵，與少步生成模型后訓練的深度融合。相關研究成果以論文《TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward》形式發(fā)布，作者團隊來自香港科技大學、香港中文大學（深圳）、小紅書 hi-lab、港科大（廣州）四大機構。

論文標題：TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward
論文作者：Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang
作者單位：香港科技大學、香港中文大學（深圳）、小紅書 hi-lab、港科大（廣州）
論文地址：https://arxiv.org/abs/2603.07700
GitHub 代碼倉庫：https://github.com/Luo-Yihong/TDM-R1
項目主頁：https://luo-yihong.github.io/TDM-R1-Page/

痛點直擊：少步擴散 “快是快了，就是不聽話”

少步擴散模型的優(yōu)勢十分突出 —— 推理速度快、部署成本低，早已成為產(chǎn)業(yè)界的核心選擇，但它的短板同樣頑固，即便當前主流少步模型，也難逃三大核心問題，嚴重制約實用化落地：

復雜指令遵循能力弱：例如生成 “左側紅蘋果、右側綠香蕉” 這類包含位置與屬性約束的指令時，模型常出現(xiàn)位置顛倒、屬性對應錯誤等問題；
文字渲染穩(wěn)定性差：即便生成圖像畫面精美，也頻繁出現(xiàn)英文拼寫錯誤、漢字缺筆畫、文字黏連或排版混亂等問題，影響實際應用；
組合式生成能力拉胯：目標計數(shù)（如 “3 只貓”）、位置關系（如 “貓在狗旁邊”）、屬性綁定（如 “黑色小狗”）等任務中，模型往往 “看似能完成，實際效果偏差極大”，難以滿足精準需求。

從直覺來看，這些問題可通過強化學習解決 ——“對不對”“好不好看”“符不符合要求”，本身就是最直接的獎勵信號。但核心難題在于，這類獎勵大多是離散、不可微的（無法量化為模型可直接學習的梯度）。而此前超快速擴散模型的強化學習方法，均默認 “獎勵必須可微”，這就將大量真實場景中最具價值的反饋，直接排除在模型優(yōu)化范圍之外。

TDM-R1 的核心出發(fā)點，便是打破這一限制，讓少步擴散模型真正 “聽懂” 人類的真實需求，實現(xiàn) “快且精準” 的實用化突破。

TDM-R1的強化學習訓練曲線

核心思路：不硬剛獎勵反傳，兩步拆分破解困局

TDM-R1 建立在作者此前提出的少步生成框架 TDM（軌跡分布匹配）之上，與傳統(tǒng)擴散強化學習最大的區(qū)別的是：它不強行要求不可微獎勵 “實現(xiàn)反傳”，而是將整個學習過程拆分為兩條獨立且關聯(lián)的路線，分工明確、高效協(xié)同，徹底解決不可微獎勵的適配難題。

第一步：訓練 “獎勵翻譯官”—— 代理獎勵模型

針對離散、不可微的獎勵（如 “文字是否正確”“計數(shù)是否準確”“用戶是否偏好”），研究團隊首先訓練一個 “代理獎勵模型”。該模型如同 “翻譯官”，將模糊、不可量化的反饋，轉化為模型可理解、可學習的細粒度信號，同時精準擬合每一步去噪軌跡的優(yōu)劣關系。簡單來說，就是讓模型先學會 “判斷好壞”，再針對性地 “學好”，為后續(xù)優(yōu)化奠定基礎。

第二步：培育 “高效畫師”—— 少步生成器

在 “4 步采樣” 的嚴格約束下，訓練少步生成器最大化代理獎勵模型給出的 “優(yōu)質信號”；同時引入反向 KL 正則，將生成模型的分布穩(wěn)定在預訓練基礎模型附近，有效避免模型 “學偏”“走火入魔”，確保生成質量的穩(wěn)定性。

形象而言，這一設計相當于將 “判斷作品好壞” 與 “創(chuàng)作作品” 徹底拆分：“翻譯官” 專注解讀人類需求、評判生成效果，“畫師” 專注在快速創(chuàng)作的前提下，產(chǎn)出符合要求的作品，兩者高效配合，實現(xiàn) “快、準、優(yōu)” 三者兼顧。

關鍵創(chuàng)新：三大核心設計，鑄就少步生圖 “封神” 實力

TDM-R1 的成功并非簡單的方法拼接，而是精準抓住少步擴散模型的核心特性，設計三大關鍵創(chuàng)新點，三者相輔相成、缺一不可，最終實現(xiàn)性能的顛覆性提升：

1. 確定性軌跡：讓中間步驟的獎勵估計更精準

傳統(tǒng)擴散模型采樣過程充滿隨機性，如同 “同一張草圖，每次上色效果都不同”，難以給中間去噪步驟分配穩(wěn)定的獎勵 —— 多數(shù)方法只能將最終圖像的獎勵 “一刀切” 應用于所有中間步驟，誤差極大，嚴重影響模型收斂效果。

TDM-R1 充分利用 TDM 框架的核心優(yōu)勢：采樣軌跡具有確定性。也就是說，從初始噪聲到最終圖像的 “創(chuàng)作路徑” 固定不變，每一步中間狀態(tài)的優(yōu)劣，都能被精準估計。這一設計大幅降低了獎勵估計的誤差，讓模型收斂速度更快、最終生成效果更優(yōu)。實驗數(shù)據(jù)明確證明，若替換為隨機采樣變體，模型收斂速度與性能會出現(xiàn)明顯下降。

核心總結：TDM-R1 并未照搬 LLM 的 RLHF 方法，而是精準適配少步軌跡的特殊性，先實現(xiàn) “每一步獎勵的精準計算”，再推進強化學習，從根源上提升優(yōu)化效率。

2.組偏好優(yōu)化（GRPO，DGPO等）：生成更穩(wěn)定的動態(tài)獎勵信號

僅實現(xiàn)中間步驟獎勵的精準估計還不夠，如何將不可微的獎勵信號，轉化為穩(wěn)定的訓練信號，也是核心難題。TDM-R1 借鑒 RLHF 與組偏好優(yōu)化的核心思路，摒棄 “單一樣本評判好壞” 的傳統(tǒng)模式，通過 “成組樣本的相對偏好” 來學習獎勵。

具體而言，研究團隊采用 Bradley-Terry 模型，對 “優(yōu)質樣本組” 與 “劣質樣本組” 的關系進行建模，再根據(jù)組內樣本的優(yōu)勢差異，為不同中間樣本分配對應權重 —— 讓模型更關注 “優(yōu)勢明顯的優(yōu)質樣本” 和 “差距顯著的劣質樣本”，大幅提升學習效率，也更貼合當前大模型強化學習的優(yōu)化趨勢。相較于傳統(tǒng)的 “兩兩對比” 模式，這種組偏好優(yōu)化能充分利用更細粒度的排序信息，優(yōu)化效果更突出。

3. 動態(tài)參考模型：靈活適配，避免訓練僵局

現(xiàn)有多數(shù)方法會采用完全凍結的參考模型，約束代理獎勵學習，導致 “規(guī)則過于嚴苛”，使得獎勵模型無法適應少步生成器的輸出分布，最終陷入訓練僵局，難以實現(xiàn)性能突破。

TDM-R1 做出實用性創(chuàng)新：采用代理獎勵模型參數(shù)的 EMA 版本（動態(tài)更新的平均版本）作為參考模型，既保留了訓練過程的穩(wěn)定性，又允許獎勵模型逐步跟上少步生成器的分布變化，實現(xiàn)動態(tài)適配。實驗結果驗證，該設計相較于靜態(tài)參考模型，不僅訓練過程更穩(wěn)定，最終生成性能也更優(yōu)。

實驗：4 步采樣碾壓 80 步模型，全面超越 GPT-4o

TDM-R1 的實驗表現(xiàn)堪稱 “降維打擊”，核心實驗圍繞組合式生成能力展開，在 GenEval 基準測試（專門考察組合式生成能力，覆蓋單目標、多目標、計數(shù)、顏色、位置、屬性綁定等核心難點）上，交出了驚艷全場的答卷：

4 步基線模型（TDM-SD3.5-M）：GenEval 僅 61%，組合式生成能力薄弱；
加入 TDM-R1 后（仍為 4 步采樣）：GenEval 直接飆升至 92%，實現(xiàn)質的飛躍；
對比組 1（80 步原始 SD3.5-M）：GenEval 僅 63%，被 4 步 TDM-R1 全面碾壓；
對比組 2（GPT-4o）：GenEval 為 84%，同樣被 TDM-R1 超越，凸顯模型核心優(yōu)勢。

更關鍵的是，92% 的高分并非 “單點僥幸”，而是所有子項全面開花，尤其是最難的位置關系和屬性綁定任務，徹底擺脫 “看似會、實則不會” 的困境，具體表現(xiàn)如下：

單目標 1.00、雙目標 0.96、計數(shù) 0.88、位置關系 0.93、屬性綁定 0.91—— 這一結果充分證明，TDM-R1 并非簡單 “拉高分數(shù)”，而是實打實補齊了少步生成模型的組合式指令遵循能力，讓模型真正 “聽懂指令、做好任務”。

TDM-R1與Z-image模型的直接比較

不止刷分：圖像質量不降級，實現(xiàn)協(xié)同提升

面對 GenEval 從 61% 到 92% 的夸張?zhí)嵘簧偃藭|疑：是否存在 “刷分” 嫌疑？即模型僅迎合 GenEval 指標，實際圖像質量反而下降？

研究團隊專門設計針對性驗證實驗，在 DrawBench 基準上引入 5 個不參與訓練的 “場外指標”（Aesthetic Score、DeQA、ImageReward、PickScore、UnifiedReward），全面檢驗模型是否 “刷分不長本事”。實驗結果令人信服：

TDM-R1（4 步采樣）不僅將 GenEval 從 61% 提升至 92%，在 5 項圖像質量 / 偏好指標上，不僅沒有出現(xiàn)掉點，反而整體優(yōu)于 4 步基線模型和 80 步基礎模型。例如，TDM-R1 的 Aesthetic=5.42、DeQA=4.07、ImageReward=1.11，均顯著超過基線模型的對應數(shù)值。

作者特別強調，此前傳統(tǒng)擴散強化學習方法，雖能提升目標指標，但往往伴隨圖像質量退化；而 TDM-R1 在少步場景下，完美兼顧 “更聽話” 與 “更好看”，真正實現(xiàn) “高效、精準、優(yōu)質” 三者兼得。

TDM-R1在Geneval測試上，通過強化學習技術，僅憑4步生成，將Geneval得分從61提升到92。

額外驚喜：文字渲染大突破，實現(xiàn)跨任務協(xié)同增益

除組合式生成能力的顛覆性提升外，TDM-R1 在文字渲染這一行業(yè) “老大難” 問題上，也交出亮眼答卷 ——OCR 準確率（文字識別準確率）從 4 步基線模型的 55%，直接提升至 95%，徹底解決了 “文字寫錯、缺筆畫、黏連” 的核心痛點，大幅提升圖像生成的實用性。

更令人意外的是，論文發(fā)現(xiàn)了顯著的 “協(xié)同增益”：用 GenEval 這類可驗證指標訓練模型，能同步提升 OCR 指標；反過來，用 OCR 獎勵訓練，也能促進其他可驗證任務的表現(xiàn)。作者認為，這一現(xiàn)象表明，只要選對代理任務，就能通過某類可驗證獎勵，低成本提升少步模型的通用指令遵循能力 —— 這或許是圖像模型走向 “通用對齊” 的一條便捷路徑。

可擴展性驗證：適配 6B Z-Image，通用范式實力凸顯

TDM-R1 并非 “針對特定模型的技巧性優(yōu)化”，而是一套通用的強化學習范式，可輕松擴展至更強的開源大模型。研究團隊將其應用于近期熱門的 6B 參數(shù) Z-Image 模型，以 HPSv3（一款優(yōu)質獎勵模型，能有效避免 “獎勵黑客” 現(xiàn)象，提升生成圖像實際質量）作為獎勵信號進行對齊，實驗結果同樣亮眼：

Z-Image（100 步）：GenEval 0.66，OCR 0.74；
Z-Image-Turbo（4 步）：GenEval 0.73，OCR 0.78；
TDM-R1-ZImage（4 步）：GenEval 0.77，OCR 0.79。

同時，在 HPSv3、Aesthetic 等多項質量指標上，TDM-R1-ZImage 也整體優(yōu)于 100 步原模型和 4 步 Turbo 版本，進一步驗證了 TDM-R1 的通用性與擴展性，為其大規(guī)模工業(yè)應用奠定基礎。

關鍵消融實驗：傳統(tǒng) RL 無法適配少步場景的核心原因

針對 “將傳統(tǒng)擴散 RL 損失函數(shù)直接加到少步模型上是否可行” 這一行業(yè)疑問，論文通過對比實驗給出明確答案：不可行。

研究團隊將傳統(tǒng)擴散 RL 的損失，與少步蒸餾目標直接相加，結果顯示，訓練出的模型不僅容易出現(xiàn)圖像模糊問題，性能還極不穩(wěn)定。核心原因在于：傳統(tǒng)擴散 RL 本質上仍是一種加權去噪損失，這種去噪目標與少步蒸餾追求的反向 KL 軌跡匹配，并不天然兼容 —— 在多步擴散場景中尚可勉強工作，但在 4 步這樣的少步場景下，會產(chǎn)生嚴重沖突，導致模型無法正常收斂。

這也正是 TDM-R1 的核心價值所在：它并非簡單照搬已有 RL 方法，而是針對少步生成機制的特性，設計了一套與之完美匹配的后訓練方法論，真正解決了少步擴散模型的強化學習適配難題。

行業(yè)意義：不止一個 SOTA，更是少步生圖的全新方向

4 步采樣、GenEval 從 61% 飆升至 92%、超越 GPT-4o，這些亮眼數(shù)據(jù)只是 TDM-R1 的表面成就，其真正的行業(yè)價值，在于為少步擴散模型打開了三條全新的發(fā)展可能，推動超快速 AI 生圖邁入實用化新階段：

少步模型可實現(xiàn) LLM 式 RL 后訓練：過去行業(yè)普遍將少步擴散視為 “蒸餾的終點”，認為 “快就足夠”，而 TDM-R1 證明，少步模型不僅能繼續(xù)優(yōu)化，還能通過通用不可微獎勵持續(xù)變強，打破 “少步即終點” 的固有認知；
不可微獎勵實現(xiàn)系統(tǒng)性接入：未來，無論是人類的二元偏好、產(chǎn)品側的離散反饋，還是用戶交互點擊數(shù)據(jù)，都能用于少步模型的優(yōu)化，讓模型更貼合真實場景需求，提升實用價值；
可驗證任務成為通用對齊的低成本路徑：從 GenEval 與 OCR 的協(xié)同增益來看，未來圖像模型或許能像語言模型一樣，通過少量高質量、可程序驗證的任務，撬動更廣泛的能力提升，為圖像模型通用對齊提供全新思路。

結語

在大模型強化學習的熱潮中，圖像生成領域長期缺少一套真正適配少步模型的通用 RL 框架，而 TDM-R1 的出現(xiàn)，恰恰補上了這塊關鍵拼圖。它不要求獎勵可微，不依賴額外真值圖像數(shù)據(jù)，憑借確定性軌跡和動態(tài)代理獎勵兩大核心設計，將不可微反饋轉化為可優(yōu)化信號，讓少步模型真正實現(xiàn) “既快又準、既高效又聽話”。

GenEval 從 61% 到 92% 的跨越，不僅是一個數(shù)字的提升，更預示著下一代工業(yè)圖像生成系統(tǒng)的全新形態(tài)：采樣步數(shù)極少、推理成本極低，但對人類偏好、結構約束和復雜指令的響應能力，卻持續(xù)增強。香港科技大學、香港中文大學（深圳）與小紅書 hi-lab 聯(lián)合帶來的這一突破，無疑為少步生圖的發(fā)展按下了加速鍵，推動超快速 AI 生圖向更精準、更實用、更通用的方向邁進。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.