337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AdaGen: 讓圖像生成模型學會自適應策略

0
分享至



當前主流的圖像生成模型——擴散模型(如 DiT)、自回歸模型(如 VAR)、掩碼生成模型(如 MaskGIT)、流模型(如 SiT)——都遵循一個共同范式:將復雜的圖像生成任務拆解為多個可控的子步驟,逐步迭代完成。然而,這種多步策略引入了一個不可忽視的問題:每一步都需配置大量超參數(如噪聲水平、采樣溫度、引導尺度等),而現有方法普遍依賴手工設計的靜態調度規則來管理這些參數。

這種做法存在兩個重要缺陷:一是需要大量專家知識和反復調參,二是"一刀切"的靜態策略無法適配每個樣本的獨特特性

本文提出AdaGen——一個通用的、可學習的、樣本自適應的生成策略框架。通過強化學習訓練一個輕量級策略網絡,AdaGen 能根據當前生成狀態自動為每個樣本定制最優的生成策略,在四大主流生成范式上均實現了顯著的性能提升與效率優化。

  • 論文標題:
  • AdaGen: Learning Adaptive Policy for Image Synthesis
  • 論文鏈接:
  • https://arxiv.org/abs/2603.06993
  • 論文代碼:
  • https://github.com/LeapLabTHU/AdaGen

核心動機:從"靜態一刀切"到"動態因材施教"



圖:AdaGen的核心思想。現有方法使用預定義的靜態策略,所有樣本共享相同調度規則;AdaGen則通過RL訓練的策略網絡,為每個樣本自適應地產生定制化的生成策略。

現有的多步生成模型在推理時,所有樣本共享同一套預定義的調度規則。以 MaskGIT 為例,即使生成步數為 T = 16,也需要配置 64 個策略參數(每步 4 個參數),實際操作中極度依賴人工經驗。更關鍵的是,一張簡單的風景圖和一張復雜的人物肖像,真的應該用完全相同的生成策略嗎?

AdaGen 的核心思想非常直觀:引入一個通過強化學習訓練的策略網絡(Policy Network),讓它觀察當前的生成狀態,自動且自適應地為每個樣本決定最優的生成參數。

統一 MDP 建模:一個框架統一四大生成范式







狀態轉移 (Transition):由預訓練的生成模型決定。擴散模型和流模型的轉移由 ODE 求解器確定,是確定性的;MaskGIT 和自回歸模型的轉移則是隨機的





對抗獎勵建模:不讓策略"投機取巧"

訓練策略網絡的另一個核心挑戰在于:如何設計有效的獎勵信號?論文探索了三種方案,揭示了一個重要發現:



圖:三種獎勵設計的對比。(a) 用FID作獎勵:FID雖低至2.56,但圖像質量差,保真度不達標;(b) 用預訓練獎勵模型:保真度好了但樣本多樣性嚴重不足;(c) AdaGen的對抗獎勵建模:保真度與多樣性兼顧。

(a) 用 FID 作獎勵:雖然 FID 數值可以被優化到很低(2.56),但生成圖像的視覺質量反而很差。策略網絡學會了"刷"指標的捷徑,犧牲了視覺保真度。

(b) 用預訓練獎勵模型:保真度上去了,但生成樣本趨于同質化,多樣性嚴重不足。策略過擬合于獎勵模型的偏好。

(c) 對抗獎勵建模(AdaGen 的方案):引入一個判別器作為獎勵模型,與策略網絡進行對抗訓練。策略網絡試圖最大化獎勵,而判別器則不斷提高區分真假圖像的標準,有效防止策略過擬合。最終實現了保真度與多樣性的良好平衡



圖:AdaGen的訓練流程。策略網絡控制生成過程產生圖像,對抗獎勵模型同時評估生成結果并不斷自我進化。預訓練生成模型在整個過程中保持凍結。

訓練算法簡潔優雅,核心循環僅包含兩步:(1) 策略網絡優化:生成圖像,用 PPO 算法更新策略網絡使獎勵最大化;(2) 獎勵模型優化:同時采樣真實和生成圖像,訓練判別器更好地區分兩者。兩者交替進行,形成類似 GAN 的博弈過程。

動作平滑:馴服高維動作空間的探索





圖:優化過程。當生成步數從T=8增加到T=32時(黃色曲線),優化變得不穩定且性能下降。引入動作平滑后(紅色曲線),訓練恢復穩定且性能超越T=8基線。

論文發現,不穩定性的根源在于 PPO 探索時對每步獨立添加高斯噪聲,導致動作序列出現劇烈且不必要的高頻波動。而對于逐步推進的迭代生成過程,最優策略往往是平滑變化的。為此,論文提出動作平滑技術——對策略輸出施加指數移動平均(EMA)濾波:







圖:動作平滑前后的對比。左側未平滑時,動作序列劇烈抖動(FID=3.5);右側引入平滑后,序列合理平穩(FID=2.3)。

上圖直觀對比了平滑前后的效果:從雜亂無章的鋸齒波到平滑有序的下降曲線,FID 也從 3.5 降至 2.3。

實驗結果:四大范式全面提升

跨范式有效性驗證

AdaGen 在 ImageNet 256×256 上跨越四大生成范式、六個模型進行了驗證。在所有范式和推理步數下,AdaGen 均一致超越對應的基線方法,且性能增益在推理步數較少時更為顯著:



表:AdaGen 在 ImageNet 256×256 上的 FID-50K 結果(↓越低越好),覆蓋四大生成范式。注:MaskGIT、DiT、SiT 在不同推理步數 T 下評測;VAR 采用固定的 10 步生成,因此僅在 T=10 列報告結果。

效率優勢



圖:AdaGen在四種模型上的質量-效率權衡。無論是理論計算量(TFLOPs)還是實際GPU/CPU推理時延,AdaGen均能推進質量-效率前沿,實現1.6×到3.6×的推理加速。

上圖系統展示了 AdaGen 在四種生成模型上的質量-效率權衡。無論是理論計算量還是實際推理延遲,AdaGen 均一致推進了質量-效率前沿,實現1.6× 到 3.6×的推理加速。

極低的額外開銷

AdaGen 的策略網絡僅為生成器增加0.07% 到 0.40%的額外推理計算量,因此其性能提升并不以增大推理開銷為代價:



表:AdaGen 策略網絡的推理開銷占生成器總計算量的比例。

結語

AdaGen 將生成策略的設計從"手工藝術"轉變為"數據驅動的優化問題"。通過統一的 MDP 建模、對抗獎勵設計和動作平滑技術,AdaGen 以一種輕量、通用的方式,在四大主流生成范式上實現了 17% 到 54% 的性能提升,或 1.6× 到 3.6× 的推理加速。這一工作表明,多步生成模型的潛力遠未被充分挖掘——一個好的"調度策略",和模型架構本身同樣重要。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國的陰謀藏不住了!臺海南海就是幌子,真正目標是中國最大王牌

美國的陰謀藏不住了!臺海南海就是幌子,真正目標是中國最大王牌

歲暮的歸南山
2026-04-18 20:00:55
前世界第一中鋒!天王山統治內線取賽點:總決賽三戰69+36+6帽

前世界第一中鋒!天王山統治內線取賽點:總決賽三戰69+36+6帽

顏小白的籃球夢
2026-04-20 09:46:55
人心惶惶!兩位經理被裁拿到23萬、13萬補償,重慶網友發帖引熱議

人心惶惶!兩位經理被裁拿到23萬、13萬補償,重慶網友發帖引熱議

火山詩話
2026-04-20 05:59:58
“我老公喜歡大胸,能做多大做多大”,女子身高174,體重47公斤,想做隆胸手術被醫生勸退,醫生:她本身是A減,一心想做E杯

“我老公喜歡大胸,能做多大做多大”,女子身高174,體重47公斤,想做隆胸手術被醫生勸退,醫生:她本身是A減,一心想做E杯

觀威海
2026-04-07 10:15:03
蔚來樂道L90殺到!48小時席卷全國,友商瑟瑟發抖?

蔚來樂道L90殺到!48小時席卷全國,友商瑟瑟發抖?

三農老歷
2026-04-19 22:01:29
表妹和表哥偷情大瓜:8年感情歸零,表妹不滿表哥分手曝兩人奸情

表妹和表哥偷情大瓜:8年感情歸零,表妹不滿表哥分手曝兩人奸情

江山揮筆
2026-04-18 20:54:36
交錢也炸!伊朗內斗,全球驚呆

交錢也炸!伊朗內斗,全球驚呆

思哲與創富
2026-04-20 09:59:58
48歲的老阿姨,這氣質可以打多少分

48歲的老阿姨,這氣質可以打多少分

鄉野小珥
2026-04-20 09:26:48
驚天內幕!中國專家揭露美國攻打伊朗的真正目的,竟然是這個!

驚天內幕!中國專家揭露美國攻打伊朗的真正目的,竟然是這個!

橙色書卷
2026-04-18 22:56:03
日本爆冷奪冠!朝鮮U20女足全場0進球,球員賽后黑臉拒絕握手

日本爆冷奪冠!朝鮮U20女足全場0進球,球員賽后黑臉拒絕握手

談史論天地
2026-04-19 13:52:15
“磨膝大戶”被公布,是跑步的20倍,醫生:不想軟骨磨光,早扔掉

“磨膝大戶”被公布,是跑步的20倍,醫生:不想軟骨磨光,早扔掉

垚垚分享健康
2026-04-19 14:35:09
久保建英成為首個奪得國王杯的日本球員,也是其個人生涯首冠

久保建英成為首個奪得國王杯的日本球員,也是其個人生涯首冠

懂球帝
2026-04-19 15:42:52
初中就是:抓好初一,穩住初二,盯緊初三!

初中就是:抓好初一,穩住初二,盯緊初三!

好爸育兒
2026-04-20 08:34:38
71.5%!歷史性暴跌,以貸養貸的泡沫崩了

71.5%!歷史性暴跌,以貸養貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
一夜成名!張雪的岳父登上熱搜,被麻陽當地領導邀請參加騎行活動

一夜成名!張雪的岳父登上熱搜,被麻陽當地領導邀請參加騎行活動

火山詩話
2026-04-19 17:46:25
SpaceX:受天氣影響,GPS III-8發射任務調整為4月21日

SpaceX:受天氣影響,GPS III-8發射任務調整為4月21日

界面新聞
2026-04-20 10:43:44
我媽93歲,獨居自理,她的長壽秘訣就六個字:別老想著走動!

我媽93歲,獨居自理,她的長壽秘訣就六個字:別老想著走動!

蟬吟槐蕊
2026-04-19 06:23:45
砂之船關聯企業5.78億元拍下上海閔行爛尾商業項目 擬打造亞洲最大單體奧特萊斯

砂之船關聯企業5.78億元拍下上海閔行爛尾商業項目 擬打造亞洲最大單體奧特萊斯

觀點機構
2026-04-20 09:36:06
拉夫羅夫:西方將烏克蘭推向更大范圍沖突 俄方耐心有限

拉夫羅夫:西方將烏克蘭推向更大范圍沖突 俄方耐心有限

財聯社
2026-04-19 17:41:04
被章若楠“卷發高馬尾造型”驚艷了!藍衣灰裙,盡顯青春女大感!

被章若楠“卷發高馬尾造型”驚艷了!藍衣灰裙,盡顯青春女大感!

明星私服穿搭daily
2026-04-20 10:19:01
2026-04-20 11:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12801文章數 142632關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛星未入軌

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

章子怡!增重20斤素顏拍新片

財經要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態度原創

本地
家居
親子
教育
數碼

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

家居要聞

法式線條 時光靜淌

親子要聞

普通家庭養娃補鈣,90% 家長都補錯了!

教育要聞

給孩子最深的滋養:一半愛護,一半需要

數碼要聞

內存短缺或致蘋果推遲上新 新款Mac Studio據稱延遲數月發布

無障礙瀏覽 進入關懷版