337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GenEval從61%狂拉到92%,全面超越GPT-4o的TDM-R1模型來了

0
分享至



超快速 AI 生圖領域再破性能天花板!香港科技大學唐靖團隊、香港科技大學(深圳分校)胡天陽、小紅書 hi-lab 羅維儉提出全新通用強化學習框架 TDM-R1,精準破解超快速擴散生成的核心痛點 —— 僅需 4 步采樣(4 NFE),便將組合式生成指標 GenEval 從 61% 飆升至 92%,不僅碾壓 80 步基礎模型的 63%,更直接超越 GPT-4o 的 84%,讓快節(jié)奏生圖不僅實現(xiàn) “高效低成本”,更能 “精準聽懂指令、貼合真實需求”。



TDM-R1-zimage 模型4步生成超高清圖像

當前,少步擴散模型已成為 AI 生圖的主流方向 —— 通過蒸餾、軌跡匹配等核心技術,將原本幾十步、上百步的采樣過程,壓縮至 4 步、8 步,大幅降低推理成本,完美適配工業(yè)級部署需求。但一個致命痛點始終難以突破:像 “圖中需包含 3 只狗”“英文單詞無拼寫錯誤”“用戶偏好 A 類圖像” 這類 “不可量化” 的反饋,無法穩(wěn)定應用于少步擴散模型的強化學習,導致模型即便推理速度再快,也始終 “聽不懂指令、做不對任務”。

TDM-R1 的出現(xiàn),正是為打破這一行業(yè)困局。該框架無需依賴可微獎勵反傳,創(chuàng)新地將學習過程拆分為 “代理獎勵學習 + 生成器學習” 兩部分,首次實現(xiàn)各類自由形式的不可微獎勵,與少步生成模型后訓練的深度融合。相關研究成果以論文《TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward》形式發(fā)布,作者團隊來自香港科技大學、香港中文大學(深圳)、小紅書 hi-lab、港科大(廣州)四大機構。



  • 論文標題:TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward
  • 論文作者:Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang
  • 作者單位:香港科技大學、香港中文大學(深圳)、小紅書 hi-lab、港科大(廣州)
  • 論文地址:https://arxiv.org/abs/2603.07700
  • GitHub 代碼倉庫:https://github.com/Luo-Yihong/TDM-R1
  • 項目主頁:https://luo-yihong.github.io/TDM-R1-Page/

痛點直擊:少步擴散 “快是快了,就是不聽話”

少步擴散模型的優(yōu)勢十分突出 —— 推理速度快、部署成本低,早已成為產(chǎn)業(yè)界的核心選擇,但它的短板同樣頑固,即便當前主流少步模型,也難逃三大核心問題,嚴重制約實用化落地:

  • 復雜指令遵循能力弱:例如生成 “左側紅蘋果、右側綠香蕉” 這類包含位置與屬性約束的指令時,模型常出現(xiàn)位置顛倒、屬性對應錯誤等問題;
  • 文字渲染穩(wěn)定性差:即便生成圖像畫面精美,也頻繁出現(xiàn)英文拼寫錯誤、漢字缺筆畫、文字黏連或排版混亂等問題,影響實際應用;
  • 組合式生成能力拉胯:目標計數(shù)(如 “3 只貓”)、位置關系(如 “貓在狗旁邊”)、屬性綁定(如 “黑色小狗”)等任務中,模型往往 “看似能完成,實際效果偏差極大”,難以滿足精準需求。

從直覺來看,這些問題可通過強化學習解決 ——“對不對”“好不好看”“符不符合要求”,本身就是最直接的獎勵信號。但核心難題在于,這類獎勵大多是離散、不可微的(無法量化為模型可直接學習的梯度)。而此前超快速擴散模型的強化學習方法,均默認 “獎勵必須可微”,這就將大量真實場景中最具價值的反饋,直接排除在模型優(yōu)化范圍之外。

TDM-R1 的核心出發(fā)點,便是打破這一限制,讓少步擴散模型真正 “聽懂” 人類的真實需求,實現(xiàn) “快且精準” 的實用化突破。



TDM-R1的強化學習訓練曲線

核心思路:不硬剛獎勵反傳,兩步拆分破解困局

TDM-R1 建立在作者此前提出的少步生成框架 TDM(軌跡分布匹配)之上,與傳統(tǒng)擴散強化學習最大的區(qū)別的是:它不強行要求不可微獎勵 “實現(xiàn)反傳”,而是將整個學習過程拆分為兩條獨立且關聯(lián)的路線,分工明確、高效協(xié)同,徹底解決不可微獎勵的適配難題。

第一步:訓練 “獎勵翻譯官”—— 代理獎勵模型

針對離散、不可微的獎勵(如 “文字是否正確”“計數(shù)是否準確”“用戶是否偏好”),研究團隊首先訓練一個 “代理獎勵模型”。該模型如同 “翻譯官”,將模糊、不可量化的反饋,轉化為模型可理解、可學習的細粒度信號,同時精準擬合每一步去噪軌跡的優(yōu)劣關系。簡單來說,就是讓模型先學會 “判斷好壞”,再針對性地 “學好”,為后續(xù)優(yōu)化奠定基礎。

第二步:培育 “高效畫師”—— 少步生成器

在 “4 步采樣” 的嚴格約束下,訓練少步生成器最大化代理獎勵模型給出的 “優(yōu)質信號”;同時引入反向 KL 正則,將生成模型的分布穩(wěn)定在預訓練基礎模型附近,有效避免模型 “學偏”“走火入魔”,確保生成質量的穩(wěn)定性。

形象而言,這一設計相當于將 “判斷作品好壞” 與 “創(chuàng)作作品” 徹底拆分:“翻譯官” 專注解讀人類需求、評判生成效果,“畫師” 專注在快速創(chuàng)作的前提下,產(chǎn)出符合要求的作品,兩者高效配合,實現(xiàn) “快、準、優(yōu)” 三者兼顧。

關鍵創(chuàng)新:三大核心設計,鑄就少步生圖 “封神” 實力

TDM-R1 的成功并非簡單的方法拼接,而是精準抓住少步擴散模型的核心特性,設計三大關鍵創(chuàng)新點,三者相輔相成、缺一不可,最終實現(xiàn)性能的顛覆性提升:

1. 確定性軌跡:讓中間步驟的獎勵估計更精準

傳統(tǒng)擴散模型采樣過程充滿隨機性,如同 “同一張草圖,每次上色效果都不同”,難以給中間去噪步驟分配穩(wěn)定的獎勵 —— 多數(shù)方法只能將最終圖像的獎勵 “一刀切” 應用于所有中間步驟,誤差極大,嚴重影響模型收斂效果。

TDM-R1 充分利用 TDM 框架的核心優(yōu)勢:采樣軌跡具有確定性。也就是說,從初始噪聲到最終圖像的 “創(chuàng)作路徑” 固定不變,每一步中間狀態(tài)的優(yōu)劣,都能被精準估計。這一設計大幅降低了獎勵估計的誤差,讓模型收斂速度更快、最終生成效果更優(yōu)。實驗數(shù)據(jù)明確證明,若替換為隨機采樣變體,模型收斂速度與性能會出現(xiàn)明顯下降。

核心總結:TDM-R1 并未照搬 LLM 的 RLHF 方法,而是精準適配少步軌跡的特殊性,先實現(xiàn) “每一步獎勵的精準計算”,再推進強化學習,從根源上提升優(yōu)化效率。

2.組偏好優(yōu)化(GRPO,DGPO等):生成更穩(wěn)定的動態(tài)獎勵信號

僅實現(xiàn)中間步驟獎勵的精準估計還不夠,如何將不可微的獎勵信號,轉化為穩(wěn)定的訓練信號,也是核心難題。TDM-R1 借鑒 RLHF 與組偏好優(yōu)化的核心思路,摒棄 “單一樣本評判好壞” 的傳統(tǒng)模式,通過 “成組樣本的相對偏好” 來學習獎勵。

具體而言,研究團隊采用 Bradley-Terry 模型,對 “優(yōu)質樣本組” 與 “劣質樣本組” 的關系進行建模,再根據(jù)組內樣本的優(yōu)勢差異,為不同中間樣本分配對應權重 —— 讓模型更關注 “優(yōu)勢明顯的優(yōu)質樣本” 和 “差距顯著的劣質樣本”,大幅提升學習效率,也更貼合當前大模型強化學習的優(yōu)化趨勢。相較于傳統(tǒng)的 “兩兩對比” 模式,這種組偏好優(yōu)化能充分利用更細粒度的排序信息,優(yōu)化效果更突出。

3. 動態(tài)參考模型:靈活適配,避免訓練僵局

現(xiàn)有多數(shù)方法會采用完全凍結的參考模型,約束代理獎勵學習,導致 “規(guī)則過于嚴苛”,使得獎勵模型無法適應少步生成器的輸出分布,最終陷入訓練僵局,難以實現(xiàn)性能突破。

TDM-R1 做出實用性創(chuàng)新:采用代理獎勵模型參數(shù)的 EMA 版本(動態(tài)更新的平均版本)作為參考模型,既保留了訓練過程的穩(wěn)定性,又允許獎勵模型逐步跟上少步生成器的分布變化,實現(xiàn)動態(tài)適配。實驗結果驗證,該設計相較于靜態(tài)參考模型,不僅訓練過程更穩(wěn)定,最終生成性能也更優(yōu)。

實驗:4 步采樣碾壓 80 步模型,全面超越 GPT-4o

TDM-R1 的實驗表現(xiàn)堪稱 “降維打擊”,核心實驗圍繞組合式生成能力展開,在 GenEval 基準測試(專門考察組合式生成能力,覆蓋單目標、多目標、計數(shù)、顏色、位置、屬性綁定等核心難點)上,交出了驚艷全場的答卷:

  • 4 步基線模型(TDM-SD3.5-M):GenEval 僅 61%,組合式生成能力薄弱;
  • 加入 TDM-R1 后(仍為 4 步采樣):GenEval 直接飆升至 92%,實現(xiàn)質的飛躍;
  • 對比組 1(80 步原始 SD3.5-M):GenEval 僅 63%,被 4 步 TDM-R1 全面碾壓;
  • 對比組 2(GPT-4o):GenEval 為 84%,同樣被 TDM-R1 超越,凸顯模型核心優(yōu)勢。

更關鍵的是,92% 的高分并非 “單點僥幸”,而是所有子項全面開花,尤其是最難的位置關系和屬性綁定任務,徹底擺脫 “看似會、實則不會” 的困境,具體表現(xiàn)如下:

單目標 1.00、雙目標 0.96、計數(shù) 0.88、位置關系 0.93、屬性綁定 0.91—— 這一結果充分證明,TDM-R1 并非簡單 “拉高分數(shù)”,而是實打實補齊了少步生成模型的組合式指令遵循能力,讓模型真正 “聽懂指令、做好任務”。



TDM-R1與Z-image模型的直接比較

不止刷分:圖像質量不降級,實現(xiàn)協(xié)同提升

面對 GenEval 從 61% 到 92% 的夸張?zhí)嵘簧偃藭|疑:是否存在 “刷分” 嫌疑?即模型僅迎合 GenEval 指標,實際圖像質量反而下降?

研究團隊專門設計針對性驗證實驗,在 DrawBench 基準上引入 5 個不參與訓練的 “場外指標”(Aesthetic Score、DeQA、ImageReward、PickScore、UnifiedReward),全面檢驗模型是否 “刷分不長本事”。實驗結果令人信服:

TDM-R1(4 步采樣)不僅將 GenEval 從 61% 提升至 92%,在 5 項圖像質量 / 偏好指標上,不僅沒有出現(xiàn)掉點,反而整體優(yōu)于 4 步基線模型和 80 步基礎模型。例如,TDM-R1 的 Aesthetic=5.42、DeQA=4.07、ImageReward=1.11,均顯著超過基線模型的對應數(shù)值。

作者特別強調,此前傳統(tǒng)擴散強化學習方法,雖能提升目標指標,但往往伴隨圖像質量退化;而 TDM-R1 在少步場景下,完美兼顧 “更聽話” 與 “更好看”,真正實現(xiàn) “高效、精準、優(yōu)質” 三者兼得。



TDM-R1在Geneval測試上,通過強化學習技術,僅憑4步生成,將Geneval得分從61提升到92。

額外驚喜:文字渲染大突破,實現(xiàn)跨任務協(xié)同增益

除組合式生成能力的顛覆性提升外,TDM-R1 在文字渲染這一行業(yè) “老大難” 問題上,也交出亮眼答卷 ——OCR 準確率(文字識別準確率)從 4 步基線模型的 55%,直接提升至 95%,徹底解決了 “文字寫錯、缺筆畫、黏連” 的核心痛點,大幅提升圖像生成的實用性。

更令人意外的是,論文發(fā)現(xiàn)了顯著的 “協(xié)同增益”:用 GenEval 這類可驗證指標訓練模型,能同步提升 OCR 指標;反過來,用 OCR 獎勵訓練,也能促進其他可驗證任務的表現(xiàn)。作者認為,這一現(xiàn)象表明,只要選對代理任務,就能通過某類可驗證獎勵,低成本提升少步模型的通用指令遵循能力 —— 這或許是圖像模型走向 “通用對齊” 的一條便捷路徑。

可擴展性驗證:適配 6B Z-Image,通用范式實力凸顯

TDM-R1 并非 “針對特定模型的技巧性優(yōu)化”,而是一套通用的強化學習范式,可輕松擴展至更強的開源大模型。研究團隊將其應用于近期熱門的 6B 參數(shù) Z-Image 模型,以 HPSv3(一款優(yōu)質獎勵模型,能有效避免 “獎勵黑客” 現(xiàn)象,提升生成圖像實際質量)作為獎勵信號進行對齊,實驗結果同樣亮眼:

  • Z-Image(100 步):GenEval 0.66,OCR 0.74;
  • Z-Image-Turbo(4 步):GenEval 0.73,OCR 0.78;
  • TDM-R1-ZImage(4 步):GenEval 0.77,OCR 0.79。

同時,在 HPSv3、Aesthetic 等多項質量指標上,TDM-R1-ZImage 也整體優(yōu)于 100 步原模型和 4 步 Turbo 版本,進一步驗證了 TDM-R1 的通用性與擴展性,為其大規(guī)模工業(yè)應用奠定基礎。

關鍵消融實驗:傳統(tǒng) RL 無法適配少步場景的核心原因

針對 “將傳統(tǒng)擴散 RL 損失函數(shù)直接加到少步模型上是否可行” 這一行業(yè)疑問,論文通過對比實驗給出明確答案:不可行。

研究團隊將傳統(tǒng)擴散 RL 的損失,與少步蒸餾目標直接相加,結果顯示,訓練出的模型不僅容易出現(xiàn)圖像模糊問題,性能還極不穩(wěn)定。核心原因在于:傳統(tǒng)擴散 RL 本質上仍是一種加權去噪損失,這種去噪目標與少步蒸餾追求的反向 KL 軌跡匹配,并不天然兼容 —— 在多步擴散場景中尚可勉強工作,但在 4 步這樣的少步場景下,會產(chǎn)生嚴重沖突,導致模型無法正常收斂。

這也正是 TDM-R1 的核心價值所在:它并非簡單照搬已有 RL 方法,而是針對少步生成機制的特性,設計了一套與之完美匹配的后訓練方法論,真正解決了少步擴散模型的強化學習適配難題。

行業(yè)意義:不止一個 SOTA,更是少步生圖的全新方向

4 步采樣、GenEval 從 61% 飆升至 92%、超越 GPT-4o,這些亮眼數(shù)據(jù)只是 TDM-R1 的表面成就,其真正的行業(yè)價值,在于為少步擴散模型打開了三條全新的發(fā)展可能,推動超快速 AI 生圖邁入實用化新階段:

  • 少步模型可實現(xiàn) LLM 式 RL 后訓練:過去行業(yè)普遍將少步擴散視為 “蒸餾的終點”,認為 “快就足夠”,而 TDM-R1 證明,少步模型不僅能繼續(xù)優(yōu)化,還能通過通用不可微獎勵持續(xù)變強,打破 “少步即終點” 的固有認知;
  • 不可微獎勵實現(xiàn)系統(tǒng)性接入:未來,無論是人類的二元偏好、產(chǎn)品側的離散反饋,還是用戶交互點擊數(shù)據(jù),都能用于少步模型的優(yōu)化,讓模型更貼合真實場景需求,提升實用價值;
  • 可驗證任務成為通用對齊的低成本路徑:從 GenEval 與 OCR 的協(xié)同增益來看,未來圖像模型或許能像語言模型一樣,通過少量高質量、可程序驗證的任務,撬動更廣泛的能力提升,為圖像模型通用對齊提供全新思路。

結語

在大模型強化學習的熱潮中,圖像生成領域長期缺少一套真正適配少步模型的通用 RL 框架,而 TDM-R1 的出現(xiàn),恰恰補上了這塊關鍵拼圖。它不要求獎勵可微,不依賴額外真值圖像數(shù)據(jù),憑借確定性軌跡和動態(tài)代理獎勵兩大核心設計,將不可微反饋轉化為可優(yōu)化信號,讓少步模型真正實現(xiàn) “既快又準、既高效又聽話”。

GenEval 從 61% 到 92% 的跨越,不僅是一個數(shù)字的提升,更預示著下一代工業(yè)圖像生成系統(tǒng)的全新形態(tài):采樣步數(shù)極少、推理成本極低,但對人類偏好、結構約束和復雜指令的響應能力,卻持續(xù)增強。香港科技大學、香港中文大學(深圳)與小紅書 hi-lab 聯(lián)合帶來的這一突破,無疑為少步生圖的發(fā)展按下了加速鍵,推動超快速 AI 生圖向更精準、更實用、更通用的方向邁進。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國博士過剩!每年11萬博士畢業(yè),但高校機構坑位已經(jīng)滿了

中國博士過剩!每年11萬博士畢業(yè),但高校機構坑位已經(jīng)滿了

六子吃涼粉
2026-04-09 11:15:56
參觀洋山港后,鄭麗文一句話,將賴清德一軍,藍營又有一人支持

參觀洋山港后,鄭麗文一句話,將賴清德一軍,藍營又有一人支持

DS北風
2026-04-09 15:22:19
政變只是一個開始,伊朗要變天了,中國最擔心的事情,恐將發(fā)生

政變只是一個開始,伊朗要變天了,中國最擔心的事情,恐將發(fā)生

混沌錄
2026-04-09 16:05:29
法國滿載247人高鐵撞上軍用重卡!馬上退休的司機,用最悲壯的方式換全車平安!

法國滿載247人高鐵撞上軍用重卡!馬上退休的司機,用最悲壯的方式換全車平安!

新歐洲
2026-04-08 19:45:34
“渾身是血”的美軍上校,15分鐘轉移了

“渾身是血”的美軍上校,15分鐘轉移了

中國新聞周刊
2026-04-09 18:49:47
鐵飯碗砸了!小學老師被分流到事業(yè)單位工作,廣東網(wǎng)友爆料引熱議

鐵飯碗砸了!小學老師被分流到事業(yè)單位工作,廣東網(wǎng)友爆料引熱議

火山詩話
2026-04-09 07:35:23
男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現(xiàn)驚人現(xiàn)象

男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現(xiàn)驚人現(xiàn)象

詭譎怪談
2025-04-01 17:37:59
全紅嬋后續(xù):香港媒體先爆料,檢察日報喊話嚴查,隊友集體背刺!

全紅嬋后續(xù):香港媒體先爆料,檢察日報喊話嚴查,隊友集體背刺!

眼光很亮
2026-04-09 12:34:30
吃完了宴席,兩岸在上海談妥,對賴清德改了稱呼,鄭麗文一錘定音

吃完了宴席,兩岸在上海談妥,對賴清德改了稱呼,鄭麗文一錘定音

影孖看世界
2026-04-09 19:54:02
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

夜深愛雜談
2026-04-09 16:37:53
WTT太原賽大爆冷!男單頭號種子一輪游,向鵬0-3慘敗輸盧森堡選手

WTT太原賽大爆冷!男單頭號種子一輪游,向鵬0-3慘敗輸盧森堡選手

全言作品
2026-04-09 18:17:11
快訊!以色列宣布了!

快訊!以色列宣布了!

達文西看世界
2026-04-09 17:02:43
伊朗官員:若停火框架協(xié)議達成 或在與美會晤前開放霍爾木茲海峽

伊朗官員:若停火框架協(xié)議達成 或在與美會晤前開放霍爾木茲海峽

新京報
2026-04-08 20:26:42
全紅嬋遭霸凌升級,4年沒人阻止,2位省隊友被揪,難怪她想離隊

全紅嬋遭霸凌升級,4年沒人阻止,2位省隊友被揪,難怪她想離隊

奇思妙想草葉君
2026-04-09 13:47:19
陳麗華追悼會曝光,原來無兒無女的遲重瑞,早已被安排好“退路”

陳麗華追悼會曝光,原來無兒無女的遲重瑞,早已被安排好“退路”

天天熱點見聞
2026-04-09 13:18:54
江學勤的“伊朗贏學”,不過是滿紙荒唐言

江學勤的“伊朗贏學”,不過是滿紙荒唐言

冰川思想庫
2026-04-09 11:57:47
鄭麗文抵達上海受高規(guī)格接待!蔣萬安發(fā)聲:反對統(tǒng)一,要對等尊嚴

鄭麗文抵達上海受高規(guī)格接待!蔣萬安發(fā)聲:反對統(tǒng)一,要對等尊嚴

混沌錄
2026-04-08 19:31:04
西部形勢日趨明朗:雷霆鎖定第1+馬刺第2,森林狼太陽排名確定

西部形勢日趨明朗:雷霆鎖定第1+馬刺第2,森林狼太陽排名確定

全景體育V
2026-04-09 12:41:52
豐田社長警告484家供應商:中國電車面前,不改革就滅亡

豐田社長警告484家供應商:中國電車面前,不改革就滅亡

不掉線電波
2026-04-09 10:29:44
黎巴嫩宣布全國哀悼

黎巴嫩宣布全國哀悼

南方都市報
2026-04-09 09:24:03
2026-04-09 21:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12721文章數(shù) 142621關注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

市民買飲料過期 商家發(fā)白巖松視頻:過期不代表不能吃

頭條要聞

市民買飲料過期 商家發(fā)白巖松視頻:過期不代表不能吃

體育要聞

8萬人面前心臟驟停 現(xiàn)在他還站在球場上

娛樂要聞

金莎官宣結婚 與老公孫丞瀟相差18歲

財經(jīng)要聞

停火首日,霍爾木茲僅有4艘船通過

汽車要聞

文飛掌舵,給神行者帶來了什么?

態(tài)度原創(chuàng)

家居
房產(chǎn)
親子
時尚
教育

家居要聞

清新自然 復古風尚

房產(chǎn)要聞

利潤暴跌44%!那個春節(jié)被罵慘了的海峽股份 正在經(jīng)歷什么?

親子要聞

中山火炬高新區(qū)啟動幼兒園“特色發(fā)展共同體”建設

短發(fā)女孩這樣穿,真好看!

教育要聞

小學解方程,再笨也會了!

無障礙瀏覽 進入關懷版