網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

港大趙恒爽團(tuán)隊(duì)論文：讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

2026-03-17 18:46:44　來源: AI科技評(píng)論

廣東舉報(bào)

分享至

GDRO：一種通過組級(jí)獎(jiǎng)勵(lì)排序優(yōu)化擴(kuò)散模型生成能力的后訓(xùn)練方法。

作者丨鄭佳美

編輯丨岑峰

現(xiàn)如今，擴(kuò)散模型已經(jīng)成為當(dāng)前圖像生成領(lǐng)域的核心技術(shù)之一。從文本生成圖像到復(fù)雜視覺內(nèi)容合成，這類模型已經(jīng)能夠生成高度逼真的畫面。然而，在真實(shí)應(yīng)用場(chǎng)景中，人們對(duì)生成模型的要求并不僅僅是“生成逼真圖像”，而是希望模型能夠嚴(yán)格按照提示完成特定任務(wù)。

例如，在要求生成包含指定文字的圖像時(shí)，模型可能 simply 將文字放大到占據(jù)畫面大部分區(qū)域，從而輕松獲得 OCR 系統(tǒng)的高分，而在需要生成多個(gè)對(duì)象的任務(wù)中，模型也可能通過極度簡(jiǎn)化場(chǎng)景結(jié)構(gòu)來滿足評(píng)分規(guī)則。這種現(xiàn)象通常被稱為“獎(jiǎng)勵(lì)作弊”，已經(jīng)成為當(dāng)前生成模型對(duì)齊研究中的一個(gè)重要挑戰(zhàn)。

為了解決這一問題，近年來一些研究開始嘗試?yán)脧?qiáng)化學(xué)習(xí)或獎(jiǎng)勵(lì)機(jī)制對(duì)擴(kuò)散模型進(jìn)行后訓(xùn)練，希望通過獎(jiǎng)勵(lì)信號(hào)引導(dǎo)模型生成更加符合任務(wù)要求的內(nèi)容。然而實(shí)踐中逐漸發(fā)現(xiàn)，這種方法容易帶來一個(gè)新的問題：模型可能學(xué)會(huì)迎合評(píng)價(jià)指標(biāo)，而不是理解任務(wù)本身。

在這樣的研究背景下，香港大學(xué)趙恒爽團(tuán)隊(duì)提出了一種新的擴(kuò)散模型后訓(xùn)練方法，并在論文《GDRO: Group-level Reward Post-training Suitable for Diffusion Models》中系統(tǒng)探討了這一問題。研究通過引入組級(jí)獎(jiǎng)勵(lì)優(yōu)化機(jī)制對(duì)擴(kuò)散模型進(jìn)行后訓(xùn)練，在提升模型任務(wù)表現(xiàn)的同時(shí)有效緩解獎(jiǎng)勵(lì)作弊問題，并且還可以顯著提高訓(xùn)練效率。

更重要的，這一方法在實(shí)際應(yīng)用中也具有明顯的工程價(jià)值。傳統(tǒng)的在線強(qiáng)化學(xué)習(xí)方法通常需要在每一次優(yōu)化步驟中重新執(zhí)行完整的擴(kuò)散采樣過程來生成圖像，這意味著模型需要不斷運(yùn)行完整的擴(kuò)散鏈進(jìn)行圖像生成，在線采樣往往成為訓(xùn)練過程中最主要的時(shí)間和計(jì)算開銷。

相比之下，GDRO 支持完全離線的訓(xùn)練方式，在訓(xùn)練開始之前先生成并保存帶有評(píng)分信息的圖像數(shù)據(jù)，之后的優(yōu)化過程無需再依賴擴(kuò)散采樣，從而避免了重復(fù)執(zhí)行擴(kuò)散鏈帶來的巨大計(jì)算成本。同時(shí)，這個(gè)方法也不依賴特定的擴(kuò)散采樣器，不需要通過 ODE 到 SDE 的近似來引入隨機(jī)性，使訓(xùn)練流程更加簡(jiǎn)單穩(wěn)定。

對(duì)于工業(yè)界而言，這意味著企業(yè)可以在不顯著增加算力投入的情況下，對(duì)大規(guī)模擴(kuò)散模型進(jìn)行后訓(xùn)練優(yōu)化，從而以更低的計(jì)算資源消耗提升模型表現(xiàn)。

論文地址：https://arxiv.org/pdf/2601.02036

不僅得分更高，還能避免「獎(jiǎng)勵(lì)作弊」

不僅得分更高，還能避免「獎(jiǎng)勵(lì)作弊」

在實(shí)驗(yàn)結(jié)果方面，研究主要從模型任務(wù)表現(xiàn)、獎(jiǎng)勵(lì)作弊現(xiàn)象以及訓(xùn)練效率等多個(gè)方面進(jìn)行了分析。

整體結(jié)果表明，GDRO 不僅能夠提升擴(kuò)散模型在相關(guān)任務(wù)中的評(píng)分表現(xiàn)，還可以明顯減少獎(jiǎng)勵(lì)作弊問題，同時(shí)在訓(xùn)練效率和穩(wěn)定性方面也具有優(yōu)勢(shì)。研究人員主要通過兩個(gè)任務(wù)來評(píng)估模型能力，分別是 OCR 任務(wù)和 GenEval 任務(wù)。

OCR 任務(wù)用于測(cè)試圖像中生成文字的準(zhǔn)確性。具體流程是：首先向模型輸入一個(gè)提示詞，例如 “ 一個(gè)廣告牌，上面寫著 diamond sale ”或者“ 一張卡片寫著 we meet never ”；隨后擴(kuò)散模型根據(jù)提示詞生成圖片；接著 OCR 系統(tǒng)讀取圖片中的文字；如果 OCR 識(shí)別出的文字與提示詞中的內(nèi)容一致，則會(huì)獲得較高評(píng)分。

實(shí)驗(yàn)觀察發(fā)現(xiàn)，原始模型生成的文字經(jīng)常出現(xiàn)多種問題，例如拼寫錯(cuò)誤、字體模糊、字符缺失以及排列混亂。有些圖片中的文字還會(huì)出現(xiàn)明顯傾斜或不完整的情況，導(dǎo)致 OCR 識(shí)別系統(tǒng)無法正確識(shí)別。經(jīng)過 GDRO 訓(xùn)練之后，生成圖片中的文字更加清晰，文字排版更加規(guī)范，OCR 識(shí)別的準(zhǔn)確率也明顯提高。

除了 OCR 任務(wù)，研究還通過 GenEval 任務(wù)評(píng)估模型對(duì)文本描述的理解能力。GenEval 任務(wù)主要關(guān)注四個(gè)方面的能力：物體數(shù)量是否正確、物體屬性是否正確（例如顏色和類別）、物體之間的位置關(guān)系是否正確，以及圖像整體是否符合文本描述。

例如提示詞可能包括 “一張黃色餐桌和一只粉色狗” “一個(gè)筆記本電腦在球下面” “兩輛火車” “一個(gè)酒杯和一只熊” 等。評(píng)測(cè)系統(tǒng)會(huì)進(jìn)一步檢查生成圖像中是否確實(shí)包含指定對(duì)象、對(duì)象數(shù)量是否符合描述、對(duì)象之間的位置關(guān)系是否正確。實(shí)驗(yàn)結(jié)果顯示，在使用 GDRO 訓(xùn)練之后，圖像中的對(duì)象數(shù)量更加準(zhǔn)確，對(duì)象之間的位置關(guān)系更加符合提示描述，對(duì)象屬性匹配也更加穩(wěn)定。

在分析實(shí)驗(yàn)結(jié)果的過程中，研究人員還發(fā)現(xiàn)了一個(gè)非常重要的問題，即獎(jiǎng)勵(lì)作弊現(xiàn)象。所謂獎(jiǎng)勵(lì)作弊，是指模型為了獲得更高評(píng)分，并沒有真正提高生成圖像的質(zhì)量，而是通過某種投機(jī)方式去欺騙評(píng)分系統(tǒng)。

在 OCR 任務(wù)中，一些強(qiáng)化學(xué)習(xí)方法（例如 Flow - GRPO ）在訓(xùn)練過程中會(huì)采取某些極端策略來提高 OCR 評(píng)分，例如把目標(biāo)文字做得非常大，將文字放在圖像中央位置，同時(shí)減少圖像中的背景內(nèi)容。這樣 OCR 系統(tǒng)更容易識(shí)別文字，因此評(píng)分會(huì)很高。但這種策略會(huì)帶來明顯問題，包括圖像整體變得不自然、背景細(xì)節(jié)消失以及圖像結(jié)構(gòu)被破壞。例如原本應(yīng)該是一個(gè)復(fù)雜的地圖場(chǎng)景，但最終生成結(jié)果卻變成了一個(gè)巨大橫幅。圖像示例顯示，一些方法雖然獲得更高 OCR 評(píng)分，但圖像細(xì)節(jié)明顯減少。

在 GenEval 任務(wù)中也存在類似的獎(jiǎng)勵(lì)作弊現(xiàn)象。一些方法生成的圖像會(huì)變得非常簡(jiǎn)單，只保留最基本的對(duì)象，同時(shí)幾乎沒有任何細(xì)節(jié)。例如在提示詞為“一個(gè)綠色熱狗”的情況下，一些方法生成的圖像只有一個(gè)簡(jiǎn)單的圖形，背景幾乎為空。雖然對(duì)象類型正確，但整體圖像質(zhì)量明顯下降。相比之下，使用 GDRO 訓(xùn)練后的模型生成圖像通常仍然保持完整場(chǎng)景，同時(shí)能夠滿足評(píng)分系統(tǒng)的要求，從而減少了這種獎(jiǎng)勵(lì)作弊現(xiàn)象。

為了進(jìn)一步驗(yàn)證自動(dòng)評(píng)分系統(tǒng)的可靠性，研究團(tuán)隊(duì)還進(jìn)行了人工評(píng)估實(shí)驗(yàn)。實(shí)驗(yàn)邀請(qǐng)了 21 名參與者，對(duì)不同方法生成的圖片進(jìn)行比較評(píng)價(jià)。

評(píng)價(jià)主要從三個(gè)方面進(jìn)行，包括文字準(zhǔn)確性、圖像與提示詞之間的匹配程度以及圖像整體質(zhì)量。每組圖片中同時(shí)包含原始模型生成結(jié)果、GDRO 生成結(jié)果以及其他強(qiáng)化學(xué)習(xí)方法生成結(jié)果，參與者需要從這些圖片中選擇表現(xiàn)更好的結(jié)果。實(shí)驗(yàn)結(jié)果顯示，在文字準(zhǔn)確性方面，各種方法之間的差距并不明顯，但在圖像質(zhì)量以及語義匹配方面，GDRO 生成的圖像表現(xiàn)明顯更好。

此外，研究還比較了不同方法在訓(xùn)練效率方面的表現(xiàn)。傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在訓(xùn)練擴(kuò)散模型時(shí)，每一步訓(xùn)練通常都需要完成三個(gè)步驟，即生成新的圖片、計(jì)算獎(jiǎng)勵(lì)以及更新模型。由于擴(kuò)散模型生成圖片本身計(jì)算成本較高，這種訓(xùn)練方式往往需要大量時(shí)間和計(jì)算資源。

GDRO 則采用離線訓(xùn)練方式，在訓(xùn)練開始之前先生成數(shù)據(jù)，然后在訓(xùn)練過程中反復(fù)使用這些數(shù)據(jù)。實(shí)驗(yàn)結(jié)果顯示，在達(dá)到相似性能水平時(shí)，GDRO 所需的訓(xùn)練時(shí)間明顯更短，并且在某些任務(wù)中訓(xùn)練效率可以提升數(shù)倍。

從數(shù)據(jù)生成到模型訓(xùn)練

在實(shí)驗(yàn)設(shè)計(jì)方面，研究首先選擇 FLUX.1-dev 作為基礎(chǔ)模型。FLUX.1-dev 是一個(gè)已經(jīng)訓(xùn)練好的文本到圖像擴(kuò)散模型。研究人員并沒有重新訓(xùn)練整個(gè)模型，而是在這個(gè)模型的基礎(chǔ)上進(jìn)行后訓(xùn)練優(yōu)化。這樣做的主要目的是節(jié)省計(jì)算資源，同時(shí)能夠?qū)⒀芯恐攸c(diǎn)集中在獎(jiǎng)勵(lì)優(yōu)化方法本身，而不需要消耗大量資源去重新訓(xùn)練完整模型。

在數(shù)據(jù)集設(shè)置方面，實(shí)驗(yàn)使用了兩個(gè)數(shù)據(jù)集，分別對(duì)應(yīng) OCR 任務(wù)和 GenEval 任務(wù)。OCR 任務(wù)的數(shù)據(jù)集中，訓(xùn)練集包含約 2 萬條提示詞，測(cè)試集包含約 1000 條提示詞。這些提示詞通常用于描述某個(gè)具體場(chǎng)景，并且場(chǎng)景中包含指定文字。

例如其中一個(gè)提示詞是 “一個(gè)珠寶店櫥窗，上面寫著 diamond sale”。模型需要根據(jù)這些提示詞生成相應(yīng)圖像，并在圖像中正確呈現(xiàn)指定文字。另一部分實(shí)驗(yàn)使用 GenEval 數(shù)據(jù)集，其中訓(xùn)練集包含約 5 萬條提示詞，測(cè)試集包含約 2000 條提示詞。這些提示詞通常描述多個(gè)對(duì)象、對(duì)象屬性以及對(duì)象之間的空間關(guān)系，例如物體的數(shù)量、顏色以及位置關(guān)系等內(nèi)容。

由于 GDRO 采用離線訓(xùn)練方式，因此在正式訓(xùn)練之前需要先生成訓(xùn)練數(shù)據(jù)。具體流程是：對(duì)于每一個(gè)提示詞，首先使用基礎(chǔ)模型生成 16 張圖像；隨后對(duì)每一張圖像計(jì)算獎(jiǎng)勵(lì)評(píng)分，評(píng)分來源包括 OCR 識(shí)別準(zhǔn)確度以及 GenEval 評(píng)估結(jié)果；之后根據(jù)獎(jiǎng)勵(lì)大小對(duì)這些圖像進(jìn)行排序。經(jīng)過這一過程，每一個(gè)提示詞都會(huì)對(duì)應(yīng)一組帶有評(píng)分信息的圖像集合，這些圖像組隨后作為 GDRO 訓(xùn)練階段使用的數(shù)據(jù)。

在 GDRO 訓(xùn)練過程中，模型不會(huì)再生成新的圖像，而是反復(fù)利用已經(jīng)生成好的這些圖像組進(jìn)行訓(xùn)練。訓(xùn)練時(shí)首先從某一個(gè)提示詞對(duì)應(yīng)的圖像組中取出多張圖片，然后給這些圖片加入噪聲，以模擬擴(kuò)散過程中的中間狀態(tài)。接著將這些帶噪圖像輸入擴(kuò)散模型，由模型預(yù)測(cè)噪聲信息。最后根據(jù)模型預(yù)測(cè)結(jié)果以及原始圖像評(píng)分計(jì)算訓(xùn)練損失。隨著訓(xùn)練不斷進(jìn)行，模型逐漸學(xué)習(xí)到更傾向生成評(píng)分較高的圖像，同時(shí)減少生成評(píng)分較低圖像的概率。

在實(shí)驗(yàn)比較方面，研究人員將 GDRO 與多種方法進(jìn)行了對(duì)比，包括 Flow - GRPO、Dance GRPO 以及 DPO。這些方法代表不同類型的訓(xùn)練思想。其中 Flow - GRPO 是一種利用強(qiáng)化學(xué)習(xí)優(yōu)化擴(kuò)散模型的方法， Dance GRPO 是另一種強(qiáng)化學(xué)習(xí)改進(jìn)方法，而 DPO 則是一種基于偏好優(yōu)化思想的方法。通過在相同實(shí)驗(yàn)條件下比較這些方法的效果，可以更加清楚地驗(yàn)證 GDRO 在性能和穩(wěn)定性方面的優(yōu)勢(shì)。

此外，研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn)，用于分析不同參數(shù)設(shè)置對(duì)模型表現(xiàn)的影響。其中一個(gè)重要實(shí)驗(yàn)是改變圖像組大小。當(dāng)圖像組大小只有 2 時(shí)，訓(xùn)練過程會(huì)出現(xiàn)明顯的不穩(wěn)定現(xiàn)象，模型甚至容易發(fā)生崩潰。

當(dāng)圖像組大小增加到 4 或 6 時(shí)，訓(xùn)練穩(wěn)定性明顯提高。這是因?yàn)榻M級(jí)獎(jiǎng)勵(lì)能夠提供更加豐富的排序信息，使模型在訓(xùn)練過程中獲得更穩(wěn)定的優(yōu)化信號(hào)。研究人員還對(duì)其他關(guān)鍵參數(shù)進(jìn)行了測(cè)試，以進(jìn)一步分析這些因素對(duì)模型穩(wěn)定性和性能的影響。

擴(kuò)散模型訓(xùn)練的三個(gè)關(guān)鍵啟示

在實(shí)驗(yàn)意義方面，這項(xiàng)研究的結(jié)果主要體現(xiàn)了三個(gè)方面的重要結(jié)論。首先，實(shí)驗(yàn)表明擴(kuò)散模型同樣可以進(jìn)行獎(jiǎng)勵(lì)對(duì)齊。也就是說，擴(kuò)散模型可以像語言模型一樣，通過獎(jiǎng)勵(lì)優(yōu)化的方式實(shí)現(xiàn)模型對(duì)齊。不過，由于擴(kuò)散模型的結(jié)構(gòu)與語言模型存在差異，因此需要設(shè)計(jì)新的優(yōu)化方法。GDRO 正是針對(duì)擴(kuò)散模型特點(diǎn)所提出的一種優(yōu)化方法。

其次，實(shí)驗(yàn)結(jié)果表明離線訓(xùn)練能夠顯著降低訓(xùn)練成本。研究結(jié)果說明，如果能夠利用離線數(shù)據(jù)進(jìn)行訓(xùn)練，就可以避免在訓(xùn)練過程中頻繁生成新的圖像樣本。這一點(diǎn)對(duì)于擴(kuò)散模型訓(xùn)練尤為重要，因?yàn)閳D像生成過程本身計(jì)算成本較高，因此減少生成過程能夠明顯降低整體訓(xùn)練開銷。

最后，實(shí)驗(yàn)還揭示了評(píng)價(jià)指標(biāo)使用時(shí)需要保持謹(jǐn)慎。研究發(fā)現(xiàn)，高評(píng)分并不一定意味著生成結(jié)果質(zhì)量更高，因?yàn)槟Ｐ涂赡軙?huì)學(xué)會(huì)利用評(píng)分系統(tǒng)中的漏洞，從而獲得較高評(píng)分而不真正提升圖像質(zhì)量。因此，未來研究需要進(jìn)一步設(shè)計(jì)更加可靠的評(píng)價(jià)方法，以更準(zhǔn)確地反映模型生成結(jié)果的真實(shí)質(zhì)量。

構(gòu)建 GDRO 的人

論文一作汪逸陽，目前是香港大學(xué)計(jì)算機(jī)視覺方向的博士研究生，導(dǎo)師為趙恒爽教授。他于 2024 年開始攻讀博士學(xué)位，目前處于博士第二年。在進(jìn)入香港大學(xué)之前，他于 2024 年 7 月在北京大學(xué)完成計(jì)算機(jī)科學(xué)專業(yè)本科教育。他的研究方向主要集中在視覺生成模型和多模態(tài)模型領(lǐng)域。

具體來說，他關(guān)注三個(gè)方面的研究問題：第一，利用視覺生成模型解決真實(shí)場(chǎng)景中的視覺內(nèi)容創(chuàng)作需求，例如圖像生成和視覺內(nèi)容創(chuàng)作；第二，通過設(shè)計(jì)合理的優(yōu)化策略和評(píng)價(jià)標(biāo)準(zhǔn)來提升生成模型的性能，例如利用強(qiáng)化學(xué)習(xí)或人工反饋等方式改進(jìn)生成模型；第三，研究如何對(duì)生成模型進(jìn)行更加客觀和合理的評(píng)估，從而促進(jìn)生成模型生成更高質(zhì)量的內(nèi)容。

除了學(xué)術(shù)研究之外，他目前還在通義視覺智能實(shí)驗(yàn)室擔(dān)任研究實(shí)習(xí)生，參與視覺智能相關(guān)研究工作。

參考鏈接：https://chandlerwang14.github.io/

這篇論文的通訊作者趙恒爽，目前是香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院助理教授，從事計(jì)算機(jī)視覺與人工智能相關(guān)研究。他的研究領(lǐng)域主要包括計(jì)算機(jī)視覺、多模態(tài)人工智能、空間智能、生成式人工智能、具身智能以及物理智能等方向，研究目標(biāo)是構(gòu)建能夠感知、理解并與環(huán)境交互的智能視覺系統(tǒng)，從而推動(dòng)人工智能在多個(gè)領(lǐng)域的應(yīng)用。

在學(xué)術(shù)經(jīng)歷方面，趙恒爽曾在美國麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室從事博士后研究工作，并在英國牛津大學(xué)視覺幾何團(tuán)隊(duì)從事研究，由托拉爾巴教授和托爾教授指導(dǎo)。他在香港中文大學(xué)獲得博士學(xué)位，導(dǎo)師為賈佳亞教授，本科畢業(yè)于華中科技大學(xué)。

在博士階段以及之后的研究工作中，他曾在多家國際科技公司和研究機(jī)構(gòu)進(jìn)行科研合作與實(shí)習(xí)，包括美國 Adobe 公司、Uber 公司以及英特爾公司等，并與多位研究人員開展合作研究。

在研究?jī)?nèi)容方面，他的研究興趣涵蓋計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和人工智能等多個(gè)領(lǐng)域，重點(diǎn)關(guān)注三個(gè)方向。第一是視覺場(chǎng)景理解，包括視覺感知、三維重建、表示學(xué)習(xí)以及多模態(tài)學(xué)習(xí)等問題。第二是生成式模型與內(nèi)容生成，例如圖像、視頻和三維內(nèi)容的生成與編輯。第三是具身智能相關(guān)研究，包括自動(dòng)駕駛、機(jī)器人學(xué)習(xí)以及大語言模型在真實(shí)環(huán)境中的應(yīng)用。

趙恒爽在計(jì)算機(jī)視覺領(lǐng)域具有較高的學(xué)術(shù)影響力，多次獲得重要科研獎(jiǎng)勵(lì)。他獲得過國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目資助，并獲得世界人工智能大會(huì)亮點(diǎn)之星獎(jiǎng)以及青年優(yōu)秀論文獎(jiǎng)。他還多次入選人工智能領(lǐng)域具有影響力的學(xué)者榜單。

此外，他在多個(gè)國際頂級(jí)會(huì)議和學(xué)術(shù)活動(dòng)中擔(dān)任重要角色，擔(dān)任國際計(jì)算機(jī)視覺會(huì)議多模態(tài)學(xué)習(xí)分會(huì)場(chǎng)主席，并組織多個(gè)國際會(huì)議的專題研討會(huì)與教程。

參考鏈接：https://i.cs.hku.hk/~hszhao/

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.