337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

GenEval從61%狂拉到92%,全面超越GPT-4o的TDM-R1模型來了

0
分享至



超快速 AI 生圖領域再破性能天花板!香港科技大學唐靖團隊、香港科技大學(深圳分校)胡天陽、小紅書 hi-lab 羅維儉提出全新通用強化學習框架 TDM-R1,精準破解超快速擴散生成的核心痛點 —— 僅需 4 步采樣(4 NFE),便將組合式生成指標 GenEval 從 61% 飆升至 92%,不僅碾壓 80 步基礎模型的 63%,更直接超越 GPT-4o 的 84%,讓快節奏生圖不僅實現 “高效低成本”,更能 “精準聽懂指令、貼合真實需求”。



TDM-R1-zimage 模型4步生成超高清圖像

當前,少步擴散模型已成為 AI 生圖的主流方向 —— 通過蒸餾、軌跡匹配等核心技術,將原本幾十步、上百步的采樣過程,壓縮至 4 步、8 步,大幅降低推理成本,完美適配工業級部署需求。但一個致命痛點始終難以突破:像 “圖中需包含 3 只狗”“英文單詞無拼寫錯誤”“用戶偏好 A 類圖像” 這類 “不可量化” 的反饋,無法穩定應用于少步擴散模型的強化學習,導致模型即便推理速度再快,也始終 “聽不懂指令、做不對任務”。

TDM-R1 的出現,正是為打破這一行業困局。該框架無需依賴可微獎勵反傳,創新地將學習過程拆分為 “代理獎勵學習 + 生成器學習” 兩部分,首次實現各類自由形式的不可微獎勵,與少步生成模型后訓練的深度融合。相關研究成果以論文《TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward》形式發布,作者團隊來自香港科技大學、香港中文大學(深圳)、小紅書 hi-lab、港科大(廣州)四大機構。



  • 論文標題:TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward
  • 論文作者:Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang
  • 作者單位:香港科技大學、香港中文大學(深圳)、小紅書 hi-lab、港科大(廣州)
  • 論文地址:https://arxiv.org/abs/2603.07700
  • GitHub 代碼倉庫:https://github.com/Luo-Yihong/TDM-R1
  • 項目主頁:https://luo-yihong.github.io/TDM-R1-Page/

痛點直擊:少步擴散 “快是快了,就是不聽話”

少步擴散模型的優勢十分突出 —— 推理速度快、部署成本低,早已成為產業界的核心選擇,但它的短板同樣頑固,即便當前主流少步模型,也難逃三大核心問題,嚴重制約實用化落地:

  • 復雜指令遵循能力弱:例如生成 “左側紅蘋果、右側綠香蕉” 這類包含位置與屬性約束的指令時,模型常出現位置顛倒、屬性對應錯誤等問題;
  • 文字渲染穩定性差:即便生成圖像畫面精美,也頻繁出現英文拼寫錯誤、漢字缺筆畫、文字黏連或排版混亂等問題,影響實際應用;
  • 組合式生成能力拉胯:目標計數(如 “3 只貓”)、位置關系(如 “貓在狗旁邊”)、屬性綁定(如 “黑色小狗”)等任務中,模型往往 “看似能完成,實際效果偏差極大”,難以滿足精準需求。

從直覺來看,這些問題可通過強化學習解決 ——“對不對”“好不好看”“符不符合要求”,本身就是最直接的獎勵信號。但核心難題在于,這類獎勵大多是離散、不可微的(無法量化為模型可直接學習的梯度)。而此前超快速擴散模型的強化學習方法,均默認 “獎勵必須可微”,這就將大量真實場景中最具價值的反饋,直接排除在模型優化范圍之外。

TDM-R1 的核心出發點,便是打破這一限制,讓少步擴散模型真正 “聽懂” 人類的真實需求,實現 “快且精準” 的實用化突破。



TDM-R1的強化學習訓練曲線

核心思路:不硬剛獎勵反傳,兩步拆分破解困局

TDM-R1 建立在作者此前提出的少步生成框架 TDM(軌跡分布匹配)之上,與傳統擴散強化學習最大的區別的是:它不強行要求不可微獎勵 “實現反傳”,而是將整個學習過程拆分為兩條獨立且關聯的路線,分工明確、高效協同,徹底解決不可微獎勵的適配難題。

第一步:訓練 “獎勵翻譯官”—— 代理獎勵模型

針對離散、不可微的獎勵(如 “文字是否正確”“計數是否準確”“用戶是否偏好”),研究團隊首先訓練一個 “代理獎勵模型”。該模型如同 “翻譯官”,將模糊、不可量化的反饋,轉化為模型可理解、可學習的細粒度信號,同時精準擬合每一步去噪軌跡的優劣關系。簡單來說,就是讓模型先學會 “判斷好壞”,再針對性地 “學好”,為后續優化奠定基礎。

第二步:培育 “高效畫師”—— 少步生成器

在 “4 步采樣” 的嚴格約束下,訓練少步生成器最大化代理獎勵模型給出的 “優質信號”;同時引入反向 KL 正則,將生成模型的分布穩定在預訓練基礎模型附近,有效避免模型 “學偏”“走火入魔”,確保生成質量的穩定性。

形象而言,這一設計相當于將 “判斷作品好壞” 與 “創作作品” 徹底拆分:“翻譯官” 專注解讀人類需求、評判生成效果,“畫師” 專注在快速創作的前提下,產出符合要求的作品,兩者高效配合,實現 “快、準、優” 三者兼顧。

關鍵創新:三大核心設計,鑄就少步生圖 “封神” 實力

TDM-R1 的成功并非簡單的方法拼接,而是精準抓住少步擴散模型的核心特性,設計三大關鍵創新點,三者相輔相成、缺一不可,最終實現性能的顛覆性提升:

1. 確定性軌跡:讓中間步驟的獎勵估計更精準

傳統擴散模型采樣過程充滿隨機性,如同 “同一張草圖,每次上色效果都不同”,難以給中間去噪步驟分配穩定的獎勵 —— 多數方法只能將最終圖像的獎勵 “一刀切” 應用于所有中間步驟,誤差極大,嚴重影響模型收斂效果。

TDM-R1 充分利用 TDM 框架的核心優勢:采樣軌跡具有確定性。也就是說,從初始噪聲到最終圖像的 “創作路徑” 固定不變,每一步中間狀態的優劣,都能被精準估計。這一設計大幅降低了獎勵估計的誤差,讓模型收斂速度更快、最終生成效果更優。實驗數據明確證明,若替換為隨機采樣變體,模型收斂速度與性能會出現明顯下降。

核心總結:TDM-R1 并未照搬 LLM 的 RLHF 方法,而是精準適配少步軌跡的特殊性,先實現 “每一步獎勵的精準計算”,再推進強化學習,從根源上提升優化效率。

2.組偏好優化(GRPO,DGPO等):生成更穩定的動態獎勵信號

僅實現中間步驟獎勵的精準估計還不夠,如何將不可微的獎勵信號,轉化為穩定的訓練信號,也是核心難題。TDM-R1 借鑒 RLHF 與組偏好優化的核心思路,摒棄 “單一樣本評判好壞” 的傳統模式,通過 “成組樣本的相對偏好” 來學習獎勵。

具體而言,研究團隊采用 Bradley-Terry 模型,對 “優質樣本組” 與 “劣質樣本組” 的關系進行建模,再根據組內樣本的優勢差異,為不同中間樣本分配對應權重 —— 讓模型更關注 “優勢明顯的優質樣本” 和 “差距顯著的劣質樣本”,大幅提升學習效率,也更貼合當前大模型強化學習的優化趨勢。相較于傳統的 “兩兩對比” 模式,這種組偏好優化能充分利用更細粒度的排序信息,優化效果更突出。

3. 動態參考模型:靈活適配,避免訓練僵局

現有多數方法會采用完全凍結的參考模型,約束代理獎勵學習,導致 “規則過于嚴苛”,使得獎勵模型無法適應少步生成器的輸出分布,最終陷入訓練僵局,難以實現性能突破。

TDM-R1 做出實用性創新:采用代理獎勵模型參數的 EMA 版本(動態更新的平均版本)作為參考模型,既保留了訓練過程的穩定性,又允許獎勵模型逐步跟上少步生成器的分布變化,實現動態適配。實驗結果驗證,該設計相較于靜態參考模型,不僅訓練過程更穩定,最終生成性能也更優。

實驗:4 步采樣碾壓 80 步模型,全面超越 GPT-4o

TDM-R1 的實驗表現堪稱 “降維打擊”,核心實驗圍繞組合式生成能力展開,在 GenEval 基準測試(專門考察組合式生成能力,覆蓋單目標、多目標、計數、顏色、位置、屬性綁定等核心難點)上,交出了驚艷全場的答卷:

  • 4 步基線模型(TDM-SD3.5-M):GenEval 僅 61%,組合式生成能力薄弱;
  • 加入 TDM-R1 后(仍為 4 步采樣):GenEval 直接飆升至 92%,實現質的飛躍;
  • 對比組 1(80 步原始 SD3.5-M):GenEval 僅 63%,被 4 步 TDM-R1 全面碾壓;
  • 對比組 2(GPT-4o):GenEval 為 84%,同樣被 TDM-R1 超越,凸顯模型核心優勢。

更關鍵的是,92% 的高分并非 “單點僥幸”,而是所有子項全面開花,尤其是最難的位置關系和屬性綁定任務,徹底擺脫 “看似會、實則不會” 的困境,具體表現如下:

單目標 1.00、雙目標 0.96、計數 0.88、位置關系 0.93、屬性綁定 0.91—— 這一結果充分證明,TDM-R1 并非簡單 “拉高分數”,而是實打實補齊了少步生成模型的組合式指令遵循能力,讓模型真正 “聽懂指令、做好任務”。



TDM-R1與Z-image模型的直接比較

不止刷分:圖像質量不降級,實現協同提升

面對 GenEval 從 61% 到 92% 的夸張提升,不少人會質疑:是否存在 “刷分” 嫌疑?即模型僅迎合 GenEval 指標,實際圖像質量反而下降?

研究團隊專門設計針對性驗證實驗,在 DrawBench 基準上引入 5 個不參與訓練的 “場外指標”(Aesthetic Score、DeQA、ImageReward、PickScore、UnifiedReward),全面檢驗模型是否 “刷分不長本事”。實驗結果令人信服:

TDM-R1(4 步采樣)不僅將 GenEval 從 61% 提升至 92%,在 5 項圖像質量 / 偏好指標上,不僅沒有出現掉點,反而整體優于 4 步基線模型和 80 步基礎模型。例如,TDM-R1 的 Aesthetic=5.42、DeQA=4.07、ImageReward=1.11,均顯著超過基線模型的對應數值。

作者特別強調,此前傳統擴散強化學習方法,雖能提升目標指標,但往往伴隨圖像質量退化;而 TDM-R1 在少步場景下,完美兼顧 “更聽話” 與 “更好看”,真正實現 “高效、精準、優質” 三者兼得。



TDM-R1在Geneval測試上,通過強化學習技術,僅憑4步生成,將Geneval得分從61提升到92。

額外驚喜:文字渲染大突破,實現跨任務協同增益

除組合式生成能力的顛覆性提升外,TDM-R1 在文字渲染這一行業 “老大難” 問題上,也交出亮眼答卷 ——OCR 準確率(文字識別準確率)從 4 步基線模型的 55%,直接提升至 95%,徹底解決了 “文字寫錯、缺筆畫、黏連” 的核心痛點,大幅提升圖像生成的實用性。

更令人意外的是,論文發現了顯著的 “協同增益”:用 GenEval 這類可驗證指標訓練模型,能同步提升 OCR 指標;反過來,用 OCR 獎勵訓練,也能促進其他可驗證任務的表現。作者認為,這一現象表明,只要選對代理任務,就能通過某類可驗證獎勵,低成本提升少步模型的通用指令遵循能力 —— 這或許是圖像模型走向 “通用對齊” 的一條便捷路徑。

可擴展性驗證:適配 6B Z-Image,通用范式實力凸顯

TDM-R1 并非 “針對特定模型的技巧性優化”,而是一套通用的強化學習范式,可輕松擴展至更強的開源大模型。研究團隊將其應用于近期熱門的 6B 參數 Z-Image 模型,以 HPSv3(一款優質獎勵模型,能有效避免 “獎勵黑客” 現象,提升生成圖像實際質量)作為獎勵信號進行對齊,實驗結果同樣亮眼:

  • Z-Image(100 步):GenEval 0.66,OCR 0.74;
  • Z-Image-Turbo(4 步):GenEval 0.73,OCR 0.78;
  • TDM-R1-ZImage(4 步):GenEval 0.77,OCR 0.79。

同時,在 HPSv3、Aesthetic 等多項質量指標上,TDM-R1-ZImage 也整體優于 100 步原模型和 4 步 Turbo 版本,進一步驗證了 TDM-R1 的通用性與擴展性,為其大規模工業應用奠定基礎。

關鍵消融實驗:傳統 RL 無法適配少步場景的核心原因

針對 “將傳統擴散 RL 損失函數直接加到少步模型上是否可行” 這一行業疑問,論文通過對比實驗給出明確答案:不可行。

研究團隊將傳統擴散 RL 的損失,與少步蒸餾目標直接相加,結果顯示,訓練出的模型不僅容易出現圖像模糊問題,性能還極不穩定。核心原因在于:傳統擴散 RL 本質上仍是一種加權去噪損失,這種去噪目標與少步蒸餾追求的反向 KL 軌跡匹配,并不天然兼容 —— 在多步擴散場景中尚可勉強工作,但在 4 步這樣的少步場景下,會產生嚴重沖突,導致模型無法正常收斂。

這也正是 TDM-R1 的核心價值所在:它并非簡單照搬已有 RL 方法,而是針對少步生成機制的特性,設計了一套與之完美匹配的后訓練方法論,真正解決了少步擴散模型的強化學習適配難題。

行業意義:不止一個 SOTA,更是少步生圖的全新方向

4 步采樣、GenEval 從 61% 飆升至 92%、超越 GPT-4o,這些亮眼數據只是 TDM-R1 的表面成就,其真正的行業價值,在于為少步擴散模型打開了三條全新的發展可能,推動超快速 AI 生圖邁入實用化新階段:

  • 少步模型可實現 LLM 式 RL 后訓練:過去行業普遍將少步擴散視為 “蒸餾的終點”,認為 “快就足夠”,而 TDM-R1 證明,少步模型不僅能繼續優化,還能通過通用不可微獎勵持續變強,打破 “少步即終點” 的固有認知;
  • 不可微獎勵實現系統性接入:未來,無論是人類的二元偏好、產品側的離散反饋,還是用戶交互點擊數據,都能用于少步模型的優化,讓模型更貼合真實場景需求,提升實用價值;
  • 可驗證任務成為通用對齊的低成本路徑:從 GenEval 與 OCR 的協同增益來看,未來圖像模型或許能像語言模型一樣,通過少量高質量、可程序驗證的任務,撬動更廣泛的能力提升,為圖像模型通用對齊提供全新思路。

結語

在大模型強化學習的熱潮中,圖像生成領域長期缺少一套真正適配少步模型的通用 RL 框架,而 TDM-R1 的出現,恰恰補上了這塊關鍵拼圖。它不要求獎勵可微,不依賴額外真值圖像數據,憑借確定性軌跡和動態代理獎勵兩大核心設計,將不可微反饋轉化為可優化信號,讓少步模型真正實現 “既快又準、既高效又聽話”。

GenEval 從 61% 到 92% 的跨越,不僅是一個數字的提升,更預示著下一代工業圖像生成系統的全新形態:采樣步數極少、推理成本極低,但對人類偏好、結構約束和復雜指令的響應能力,卻持續增強。香港科技大學、香港中文大學(深圳)與小紅書 hi-lab 聯合帶來的這一突破,無疑為少步生圖的發展按下了加速鍵,推動超快速 AI 生圖向更精準、更實用、更通用的方向邁進。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
社保迎來第六險!繳費標準公布

社保迎來第六險!繳費標準公布

新浪財經
2026-04-18 22:37:58
18歲姐妹花接受“潛規則”后,先陪導演睡,2013年再陪投資人纏綿

18歲姐妹花接受“潛規則”后,先陪導演睡,2013年再陪投資人纏綿

漢史趣聞
2026-04-19 15:08:31
娶到小時候的女神是一種怎樣體驗?三天沒出門,后來想想不過如此

娶到小時候的女神是一種怎樣體驗?三天沒出門,后來想想不過如此

另子維愛讀史
2026-04-04 21:35:59
曝王思聰近況:暴瘦脫相 禿頂脫發,拒付200萬后,黃一鳴頻繁發聲

曝王思聰近況:暴瘦脫相 禿頂脫發,拒付200萬后,黃一鳴頻繁發聲

東方不敗然多多
2026-04-18 15:31:29
醫生忠告:肺癌早期不是咳嗽,而是頻繁出現這3個癥狀,小心異常

醫生忠告:肺癌早期不是咳嗽,而是頻繁出現這3個癥狀,小心異常

芹姐說生活
2026-04-18 15:22:35
鄭永剛轉身拒握手,情緒失控抑或刻意挑釁,聯賽禮儀該用規則守護

鄭永剛轉身拒握手,情緒失控抑或刻意挑釁,聯賽禮儀該用規則守護

籃球看比賽
2026-04-19 15:17:04
為什么全國人民都在拒接電話?

為什么全國人民都在拒接電話?

黯泉
2026-04-18 17:00:56
我國摧毀特大假酒網絡:查獲近2萬箱、涉案2.6億元,多在直播間銷售

我國摧毀特大假酒網絡:查獲近2萬箱、涉案2.6億元,多在直播間銷售

金融界
2026-04-19 14:16:10
山東贏8分!廣廈13分大勝!北京5分險勝,排名大變,官宣重罰山西

山東贏8分!廣廈13分大勝!北京5分險勝,排名大變,官宣重罰山西

老吳說體育
2026-04-19 21:51:59
蔣介石最大的決策失誤:錯殺瞿秋白,讓國民黨失去了最后的人心!

蔣介石最大的決策失誤:錯殺瞿秋白,讓國民黨失去了最后的人心!

掠影后有感
2026-04-16 09:44:54
我和老伴退休金共1萬8,自駕游3年風風光光,如今卻后悔不已

我和老伴退休金共1萬8,自駕游3年風風光光,如今卻后悔不已

蕭黎觀歷史
2024-04-22 17:59:28
爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

魯中晨報
2026-04-17 17:00:03
里弗斯曝恩比德不愿與哈登擋拆,騎士莫布里阿倫卻喜

里弗斯曝恩比德不愿與哈登擋拆,騎士莫布里阿倫卻喜

丁蓳解說
2026-04-20 03:36:14
特朗普沉默的一天

特朗普沉默的一天

求實處
2026-04-20 09:20:03
真子公主低調慶祝孩子1周歲生日,離開王室5年未回日本,比哈里狠

真子公主低調慶祝孩子1周歲生日,離開王室5年未回日本,比哈里狠

毒舌小紅帽
2026-04-19 21:42:56
隨著波爾圖2-0,63歲穆帥率隊2-1,布拉加2-2,葡超最新積分榜出爐

隨著波爾圖2-0,63歲穆帥率隊2-1,布拉加2-2,葡超最新積分榜出爐

側身凌空斬
2026-04-20 08:54:40
墨菲:奧沙利文和特魯姆普缺席媒體活動 會損害他倆的聲譽

墨菲:奧沙利文和特魯姆普缺席媒體活動 會損害他倆的聲譽

羅克
2026-04-19 16:38:00
火箭3主力身價暴跌!申京三無產品,謝潑德攻守全崩,阿門狂被帽

火箭3主力身價暴跌!申京三無產品,謝潑德攻守全崩,阿門狂被帽

籃球資訊達人
2026-04-19 12:26:12
活塞大爆冷!康寧漢姆39+5難救主,班凱羅爆發,貝恩20中7全隊第2

活塞大爆冷!康寧漢姆39+5難救主,班凱羅爆發,貝恩20中7全隊第2

魚崖大話籃球
2026-04-20 09:14:18
歐爾班威脅:下周恢復油運我們就解凍90億歐元援助

歐爾班威脅:下周恢復油運我們就解凍90億歐元援助

桂系007
2026-04-19 23:49:10
2026-04-20 10:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12795文章數 142632關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛星未入軌

頭條要聞

媒體:日本近期一系列危險動作挑釁中國 中國需警惕

頭條要聞

媒體:日本近期一系列危險動作挑釁中國 中國需警惕

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

月之暗面IPO迷局

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態度原創

游戲
教育
旅游
親子
數碼

《最后的生還者》前員工爆料:艾莉并非唯一免疫者!

教育要聞

所有地理老師請做好隨時失業的準備

旅游要聞

谷雨時節,赴一場牡丹與蝴蝶的浪漫之約

親子要聞

這睡眠質量也太高了

數碼要聞

內存供應短缺迫使蘋果推遲新Mac Studio與觸控屏MacBook Pro發布

無障礙瀏覽 進入關懷版