網易首頁 > 網易號 > 正文申請入駐

GenEval從61%狂拉到92%，全面超越GPT-4o的TDM-R1模型來了

2026-04-09 19:57:13　來源: 機器之心Pro

河北舉報

分享至

超快速 AI 生圖領域再破性能天花板！香港科技大學唐靖團隊、香港科技大學（深圳分校）胡天陽、小紅書 hi-lab 羅維儉提出全新通用強化學習框架 TDM-R1，精準破解超快速擴散生成的核心痛點 —— 僅需 4 步采樣（4 NFE），便將組合式生成指標 GenEval 從 61% 飆升至 92%，不僅碾壓 80 步基礎模型的 63%，更直接超越 GPT-4o 的 84%，讓快節奏生圖不僅實現 “高效低成本”，更能 “精準聽懂指令、貼合真實需求”。

TDM-R1-zimage 模型4步生成超高清圖像

當前，少步擴散模型已成為 AI 生圖的主流方向 —— 通過蒸餾、軌跡匹配等核心技術，將原本幾十步、上百步的采樣過程，壓縮至 4 步、8 步，大幅降低推理成本，完美適配工業級部署需求。但一個致命痛點始終難以突破：像 “圖中需包含 3 只狗”“英文單詞無拼寫錯誤”“用戶偏好 A 類圖像” 這類 “不可量化” 的反饋，無法穩定應用于少步擴散模型的強化學習，導致模型即便推理速度再快，也始終 “聽不懂指令、做不對任務”。

TDM-R1 的出現，正是為打破這一行業困局。該框架無需依賴可微獎勵反傳，創新地將學習過程拆分為 “代理獎勵學習 + 生成器學習” 兩部分，首次實現各類自由形式的不可微獎勵，與少步生成模型后訓練的深度融合。相關研究成果以論文《TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward》形式發布，作者團隊來自香港科技大學、香港中文大學（深圳）、小紅書 hi-lab、港科大（廣州）四大機構。

論文標題：TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward
論文作者：Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang
作者單位：香港科技大學、香港中文大學（深圳）、小紅書 hi-lab、港科大（廣州）
論文地址：https://arxiv.org/abs/2603.07700
GitHub 代碼倉庫：https://github.com/Luo-Yihong/TDM-R1
項目主頁：https://luo-yihong.github.io/TDM-R1-Page/

痛點直擊：少步擴散 “快是快了，就是不聽話”

少步擴散模型的優勢十分突出 —— 推理速度快、部署成本低，早已成為產業界的核心選擇，但它的短板同樣頑固，即便當前主流少步模型，也難逃三大核心問題，嚴重制約實用化落地：

復雜指令遵循能力弱：例如生成 “左側紅蘋果、右側綠香蕉” 這類包含位置與屬性約束的指令時，模型常出現位置顛倒、屬性對應錯誤等問題；
文字渲染穩定性差：即便生成圖像畫面精美，也頻繁出現英文拼寫錯誤、漢字缺筆畫、文字黏連或排版混亂等問題，影響實際應用；
組合式生成能力拉胯：目標計數（如 “3 只貓”）、位置關系（如 “貓在狗旁邊”）、屬性綁定（如 “黑色小狗”）等任務中，模型往往 “看似能完成，實際效果偏差極大”，難以滿足精準需求。

從直覺來看，這些問題可通過強化學習解決 ——“對不對”“好不好看”“符不符合要求”，本身就是最直接的獎勵信號。但核心難題在于，這類獎勵大多是離散、不可微的（無法量化為模型可直接學習的梯度）。而此前超快速擴散模型的強化學習方法，均默認 “獎勵必須可微”，這就將大量真實場景中最具價值的反饋，直接排除在模型優化范圍之外。

TDM-R1 的核心出發點，便是打破這一限制，讓少步擴散模型真正 “聽懂” 人類的真實需求，實現 “快且精準” 的實用化突破。

TDM-R1的強化學習訓練曲線

核心思路：不硬剛獎勵反傳，兩步拆分破解困局

TDM-R1 建立在作者此前提出的少步生成框架 TDM（軌跡分布匹配）之上，與傳統擴散強化學習最大的區別的是：它不強行要求不可微獎勵 “實現反傳”，而是將整個學習過程拆分為兩條獨立且關聯的路線，分工明確、高效協同，徹底解決不可微獎勵的適配難題。

第一步：訓練 “獎勵翻譯官”—— 代理獎勵模型

針對離散、不可微的獎勵（如 “文字是否正確”“計數是否準確”“用戶是否偏好”），研究團隊首先訓練一個 “代理獎勵模型”。該模型如同 “翻譯官”，將模糊、不可量化的反饋，轉化為模型可理解、可學習的細粒度信號，同時精準擬合每一步去噪軌跡的優劣關系。簡單來說，就是讓模型先學會 “判斷好壞”，再針對性地 “學好”，為后續優化奠定基礎。

第二步：培育 “高效畫師”—— 少步生成器

在 “4 步采樣” 的嚴格約束下，訓練少步生成器最大化代理獎勵模型給出的 “優質信號”；同時引入反向 KL 正則，將生成模型的分布穩定在預訓練基礎模型附近，有效避免模型 “學偏”“走火入魔”，確保生成質量的穩定性。

形象而言，這一設計相當于將 “判斷作品好壞” 與 “創作作品” 徹底拆分：“翻譯官” 專注解讀人類需求、評判生成效果，“畫師” 專注在快速創作的前提下，產出符合要求的作品，兩者高效配合，實現 “快、準、優” 三者兼顧。

關鍵創新：三大核心設計，鑄就少步生圖 “封神” 實力

TDM-R1 的成功并非簡單的方法拼接，而是精準抓住少步擴散模型的核心特性，設計三大關鍵創新點，三者相輔相成、缺一不可，最終實現性能的顛覆性提升：

1. 確定性軌跡：讓中間步驟的獎勵估計更精準

傳統擴散模型采樣過程充滿隨機性，如同 “同一張草圖，每次上色效果都不同”，難以給中間去噪步驟分配穩定的獎勵 —— 多數方法只能將最終圖像的獎勵 “一刀切” 應用于所有中間步驟，誤差極大，嚴重影響模型收斂效果。

TDM-R1 充分利用 TDM 框架的核心優勢：采樣軌跡具有確定性。也就是說，從初始噪聲到最終圖像的 “創作路徑” 固定不變，每一步中間狀態的優劣，都能被精準估計。這一設計大幅降低了獎勵估計的誤差，讓模型收斂速度更快、最終生成效果更優。實驗數據明確證明，若替換為隨機采樣變體，模型收斂速度與性能會出現明顯下降。

核心總結：TDM-R1 并未照搬 LLM 的 RLHF 方法，而是精準適配少步軌跡的特殊性，先實現 “每一步獎勵的精準計算”，再推進強化學習，從根源上提升優化效率。

2.組偏好優化（GRPO，DGPO等）：生成更穩定的動態獎勵信號

僅實現中間步驟獎勵的精準估計還不夠，如何將不可微的獎勵信號，轉化為穩定的訓練信號，也是核心難題。TDM-R1 借鑒 RLHF 與組偏好優化的核心思路，摒棄 “單一樣本評判好壞” 的傳統模式，通過 “成組樣本的相對偏好” 來學習獎勵。

具體而言，研究團隊采用 Bradley-Terry 模型，對 “優質樣本組” 與 “劣質樣本組” 的關系進行建模，再根據組內樣本的優勢差異，為不同中間樣本分配對應權重 —— 讓模型更關注 “優勢明顯的優質樣本” 和 “差距顯著的劣質樣本”，大幅提升學習效率，也更貼合當前大模型強化學習的優化趨勢。相較于傳統的 “兩兩對比” 模式，這種組偏好優化能充分利用更細粒度的排序信息，優化效果更突出。

3. 動態參考模型：靈活適配，避免訓練僵局

現有多數方法會采用完全凍結的參考模型，約束代理獎勵學習，導致 “規則過于嚴苛”，使得獎勵模型無法適應少步生成器的輸出分布，最終陷入訓練僵局，難以實現性能突破。

TDM-R1 做出實用性創新：采用代理獎勵模型參數的 EMA 版本（動態更新的平均版本）作為參考模型，既保留了訓練過程的穩定性，又允許獎勵模型逐步跟上少步生成器的分布變化，實現動態適配。實驗結果驗證，該設計相較于靜態參考模型，不僅訓練過程更穩定，最終生成性能也更優。

實驗：4 步采樣碾壓 80 步模型，全面超越 GPT-4o

TDM-R1 的實驗表現堪稱 “降維打擊”，核心實驗圍繞組合式生成能力展開，在 GenEval 基準測試（專門考察組合式生成能力，覆蓋單目標、多目標、計數、顏色、位置、屬性綁定等核心難點）上，交出了驚艷全場的答卷：

4 步基線模型（TDM-SD3.5-M）：GenEval 僅 61%，組合式生成能力薄弱；
加入 TDM-R1 后（仍為 4 步采樣）：GenEval 直接飆升至 92%，實現質的飛躍；
對比組 1（80 步原始 SD3.5-M）：GenEval 僅 63%，被 4 步 TDM-R1 全面碾壓；
對比組 2（GPT-4o）：GenEval 為 84%，同樣被 TDM-R1 超越，凸顯模型核心優勢。

更關鍵的是，92% 的高分并非 “單點僥幸”，而是所有子項全面開花，尤其是最難的位置關系和屬性綁定任務，徹底擺脫 “看似會、實則不會” 的困境，具體表現如下：

單目標 1.00、雙目標 0.96、計數 0.88、位置關系 0.93、屬性綁定 0.91—— 這一結果充分證明，TDM-R1 并非簡單 “拉高分數”，而是實打實補齊了少步生成模型的組合式指令遵循能力，讓模型真正 “聽懂指令、做好任務”。

TDM-R1與Z-image模型的直接比較

不止刷分：圖像質量不降級，實現協同提升

面對 GenEval 從 61% 到 92% 的夸張提升，不少人會質疑：是否存在 “刷分” 嫌疑？即模型僅迎合 GenEval 指標，實際圖像質量反而下降？

研究團隊專門設計針對性驗證實驗，在 DrawBench 基準上引入 5 個不參與訓練的 “場外指標”（Aesthetic Score、DeQA、ImageReward、PickScore、UnifiedReward），全面檢驗模型是否 “刷分不長本事”。實驗結果令人信服：

TDM-R1（4 步采樣）不僅將 GenEval 從 61% 提升至 92%，在 5 項圖像質量 / 偏好指標上，不僅沒有出現掉點，反而整體優于 4 步基線模型和 80 步基礎模型。例如，TDM-R1 的 Aesthetic=5.42、DeQA=4.07、ImageReward=1.11，均顯著超過基線模型的對應數值。

作者特別強調，此前傳統擴散強化學習方法，雖能提升目標指標，但往往伴隨圖像質量退化；而 TDM-R1 在少步場景下，完美兼顧 “更聽話” 與 “更好看”，真正實現 “高效、精準、優質” 三者兼得。

TDM-R1在Geneval測試上，通過強化學習技術，僅憑4步生成，將Geneval得分從61提升到92。

額外驚喜：文字渲染大突破，實現跨任務協同增益

除組合式生成能力的顛覆性提升外，TDM-R1 在文字渲染這一行業 “老大難” 問題上，也交出亮眼答卷 ——OCR 準確率（文字識別準確率）從 4 步基線模型的 55%，直接提升至 95%，徹底解決了 “文字寫錯、缺筆畫、黏連” 的核心痛點，大幅提升圖像生成的實用性。

更令人意外的是，論文發現了顯著的 “協同增益”：用 GenEval 這類可驗證指標訓練模型，能同步提升 OCR 指標；反過來，用 OCR 獎勵訓練，也能促進其他可驗證任務的表現。作者認為，這一現象表明，只要選對代理任務，就能通過某類可驗證獎勵，低成本提升少步模型的通用指令遵循能力 —— 這或許是圖像模型走向 “通用對齊” 的一條便捷路徑。

可擴展性驗證：適配 6B Z-Image，通用范式實力凸顯

TDM-R1 并非 “針對特定模型的技巧性優化”，而是一套通用的強化學習范式，可輕松擴展至更強的開源大模型。研究團隊將其應用于近期熱門的 6B 參數 Z-Image 模型，以 HPSv3（一款優質獎勵模型，能有效避免 “獎勵黑客” 現象，提升生成圖像實際質量）作為獎勵信號進行對齊，實驗結果同樣亮眼：

Z-Image（100 步）：GenEval 0.66，OCR 0.74；
Z-Image-Turbo（4 步）：GenEval 0.73，OCR 0.78；
TDM-R1-ZImage（4 步）：GenEval 0.77，OCR 0.79。

同時，在 HPSv3、Aesthetic 等多項質量指標上，TDM-R1-ZImage 也整體優于 100 步原模型和 4 步 Turbo 版本，進一步驗證了 TDM-R1 的通用性與擴展性，為其大規模工業應用奠定基礎。

關鍵消融實驗：傳統 RL 無法適配少步場景的核心原因

針對 “將傳統擴散 RL 損失函數直接加到少步模型上是否可行” 這一行業疑問，論文通過對比實驗給出明確答案：不可行。

研究團隊將傳統擴散 RL 的損失，與少步蒸餾目標直接相加，結果顯示，訓練出的模型不僅容易出現圖像模糊問題，性能還極不穩定。核心原因在于：傳統擴散 RL 本質上仍是一種加權去噪損失，這種去噪目標與少步蒸餾追求的反向 KL 軌跡匹配，并不天然兼容 —— 在多步擴散場景中尚可勉強工作，但在 4 步這樣的少步場景下，會產生嚴重沖突，導致模型無法正常收斂。

這也正是 TDM-R1 的核心價值所在：它并非簡單照搬已有 RL 方法，而是針對少步生成機制的特性，設計了一套與之完美匹配的后訓練方法論，真正解決了少步擴散模型的強化學習適配難題。

行業意義：不止一個 SOTA，更是少步生圖的全新方向

4 步采樣、GenEval 從 61% 飆升至 92%、超越 GPT-4o，這些亮眼數據只是 TDM-R1 的表面成就，其真正的行業價值，在于為少步擴散模型打開了三條全新的發展可能，推動超快速 AI 生圖邁入實用化新階段：

少步模型可實現 LLM 式 RL 后訓練：過去行業普遍將少步擴散視為 “蒸餾的終點”，認為 “快就足夠”，而 TDM-R1 證明，少步模型不僅能繼續優化，還能通過通用不可微獎勵持續變強，打破 “少步即終點” 的固有認知；
不可微獎勵實現系統性接入：未來，無論是人類的二元偏好、產品側的離散反饋，還是用戶交互點擊數據，都能用于少步模型的優化，讓模型更貼合真實場景需求，提升實用價值；
可驗證任務成為通用對齊的低成本路徑：從 GenEval 與 OCR 的協同增益來看，未來圖像模型或許能像語言模型一樣，通過少量高質量、可程序驗證的任務，撬動更廣泛的能力提升，為圖像模型通用對齊提供全新思路。

結語

在大模型強化學習的熱潮中，圖像生成領域長期缺少一套真正適配少步模型的通用 RL 框架，而 TDM-R1 的出現，恰恰補上了這塊關鍵拼圖。它不要求獎勵可微，不依賴額外真值圖像數據，憑借確定性軌跡和動態代理獎勵兩大核心設計，將不可微反饋轉化為可優化信號，讓少步模型真正實現 “既快又準、既高效又聽話”。

GenEval 從 61% 到 92% 的跨越，不僅是一個數字的提升，更預示著下一代工業圖像生成系統的全新形態：采樣步數極少、推理成本極低，但對人類偏好、結構約束和復雜指令的響應能力，卻持續增強。香港科技大學、香港中文大學（深圳）與小紅書 hi-lab 聯合帶來的這一突破，無疑為少步生圖的發展按下了加速鍵，推動超快速 AI 生圖向更精準、更實用、更通用的方向邁進。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.