![]()
GDRO:一種通過組級(jí)獎(jiǎng)勵(lì)排序優(yōu)化擴(kuò)散模型生成能力的后訓(xùn)練方法。
作者丨鄭佳美
編輯丨岑 峰
現(xiàn)如今,擴(kuò)散模型已經(jīng)成為當(dāng)前圖像生成領(lǐng)域的核心技術(shù)之一。從文本生成圖像到復(fù)雜視覺內(nèi)容合成,這類模型已經(jīng)能夠生成高度逼真的畫面。然而,在真實(shí)應(yīng)用場(chǎng)景中,人們對(duì)生成模型的要求并不僅僅是“生成逼真圖像”,而是希望模型能夠嚴(yán)格按照提示完成特定任務(wù)。
例如,在要求生成包含指定文字的圖像時(shí),模型可能 simply 將文字放大到占據(jù)畫面大部分區(qū)域,從而輕松獲得 OCR 系統(tǒng)的高分,而在需要生成多個(gè)對(duì)象的任務(wù)中,模型也可能通過極度簡(jiǎn)化場(chǎng)景結(jié)構(gòu)來滿足評(píng)分規(guī)則。這種現(xiàn)象通常被稱為“獎(jiǎng)勵(lì)作弊”,已經(jīng)成為當(dāng)前生成模型對(duì)齊研究中的一個(gè)重要挑戰(zhàn)。
為了解決這一問題,近年來一些研究開始嘗試?yán)脧?qiáng)化學(xué)習(xí)或獎(jiǎng)勵(lì)機(jī)制對(duì)擴(kuò)散模型進(jìn)行后訓(xùn)練,希望通過獎(jiǎng)勵(lì)信號(hào)引導(dǎo)模型生成更加符合任務(wù)要求的內(nèi)容。然而實(shí)踐中逐漸發(fā)現(xiàn),這種方法容易帶來一個(gè)新的問題:模型可能學(xué)會(huì)迎合評(píng)價(jià)指標(biāo),而不是理解任務(wù)本身。
在這樣的研究背景下,香港大學(xué)趙恒爽團(tuán)隊(duì)提出了一種新的擴(kuò)散模型后訓(xùn)練方法,并在論文《GDRO: Group-level Reward Post-training Suitable for Diffusion Models》中系統(tǒng)探討了這一問題。研究通過引入組級(jí)獎(jiǎng)勵(lì)優(yōu)化機(jī)制對(duì)擴(kuò)散模型進(jìn)行后訓(xùn)練,在提升模型任務(wù)表現(xiàn)的同時(shí)有效緩解獎(jiǎng)勵(lì)作弊問題,并且還可以顯著提高訓(xùn)練效率。
更重要的,這一方法在實(shí)際應(yīng)用中也具有明顯的工程價(jià)值。傳統(tǒng)的在線強(qiáng)化學(xué)習(xí)方法通常需要在每一次優(yōu)化步驟中重新執(zhí)行完整的擴(kuò)散采樣過程來生成圖像,這意味著模型需要不斷運(yùn)行完整的擴(kuò)散鏈進(jìn)行圖像生成,在線采樣往往成為訓(xùn)練過程中最主要的時(shí)間和計(jì)算開銷。
相比之下,GDRO 支持完全離線的訓(xùn)練方式,在訓(xùn)練開始之前先生成并保存帶有評(píng)分信息的圖像數(shù)據(jù),之后的優(yōu)化過程無需再依賴擴(kuò)散采樣,從而避免了重復(fù)執(zhí)行擴(kuò)散鏈帶來的巨大計(jì)算成本。同時(shí),這個(gè)方法也不依賴特定的擴(kuò)散采樣器,不需要通過 ODE 到 SDE 的近似來引入隨機(jī)性,使訓(xùn)練流程更加簡(jiǎn)單穩(wěn)定。
對(duì)于工業(yè)界而言,這意味著企業(yè)可以在不顯著增加算力投入的情況下,對(duì)大規(guī)模擴(kuò)散模型進(jìn)行后訓(xùn)練優(yōu)化,從而以更低的計(jì)算資源消耗提升模型表現(xiàn)。
![]()
論文地址:https://arxiv.org/pdf/2601.02036
01
不僅得分更高,還能避免「獎(jiǎng)勵(lì)作弊」
不僅得分更高,還能避免「獎(jiǎng)勵(lì)作弊」
在實(shí)驗(yàn)結(jié)果方面,研究主要從模型任務(wù)表現(xiàn)、獎(jiǎng)勵(lì)作弊現(xiàn)象以及訓(xùn)練效率等多個(gè)方面進(jìn)行了分析。
整體結(jié)果表明,GDRO 不僅能夠提升擴(kuò)散模型在相關(guān)任務(wù)中的評(píng)分表現(xiàn),還可以明顯減少獎(jiǎng)勵(lì)作弊問題,同時(shí)在訓(xùn)練效率和穩(wěn)定性方面也具有優(yōu)勢(shì)。研究人員主要通過兩個(gè)任務(wù)來評(píng)估模型能力,分別是 OCR 任務(wù)和 GenEval 任務(wù)。
OCR 任務(wù)用于測(cè)試圖像中生成文字的準(zhǔn)確性。具體流程是:首先向模型輸入一個(gè)提示詞,例如 “ 一個(gè)廣告牌,上面寫著 diamond sale ”或者“ 一張卡片寫著 we meet never ”;隨后擴(kuò)散模型根據(jù)提示詞生成圖片;接著 OCR 系統(tǒng)讀取圖片中的文字;如果 OCR 識(shí)別出的文字與提示詞中的內(nèi)容一致,則會(huì)獲得較高評(píng)分。
實(shí)驗(yàn)觀察發(fā)現(xiàn),原始模型生成的文字經(jīng)常出現(xiàn)多種問題,例如拼寫錯(cuò)誤、字體模糊、字符缺失以及排列混亂。有些圖片中的文字還會(huì)出現(xiàn)明顯傾斜或不完整的情況,導(dǎo)致 OCR 識(shí)別系統(tǒng)無法正確識(shí)別。經(jīng)過 GDRO 訓(xùn)練之后,生成圖片中的文字更加清晰,文字排版更加規(guī)范,OCR 識(shí)別的準(zhǔn)確率也明顯提高。
![]()
除了 OCR 任務(wù),研究還通過 GenEval 任務(wù)評(píng)估模型對(duì)文本描述的理解能力。GenEval 任務(wù)主要關(guān)注四個(gè)方面的能力:物體數(shù)量是否正確、物體屬性是否正確(例如顏色和類別)、物體之間的位置關(guān)系是否正確,以及圖像整體是否符合文本描述。
例如提示詞可能包括 “一張黃色餐桌和一只粉色狗” “一個(gè)筆記本電腦在球下面” “兩輛火車” “一個(gè)酒杯和一只熊” 等。評(píng)測(cè)系統(tǒng)會(huì)進(jìn)一步檢查生成圖像中是否確實(shí)包含指定對(duì)象、對(duì)象數(shù)量是否符合描述、對(duì)象之間的位置關(guān)系是否正確。實(shí)驗(yàn)結(jié)果顯示,在使用 GDRO 訓(xùn)練之后,圖像中的對(duì)象數(shù)量更加準(zhǔn)確,對(duì)象之間的位置關(guān)系更加符合提示描述,對(duì)象屬性匹配也更加穩(wěn)定。
在分析實(shí)驗(yàn)結(jié)果的過程中,研究人員還發(fā)現(xiàn)了一個(gè)非常重要的問題,即獎(jiǎng)勵(lì)作弊現(xiàn)象。所謂獎(jiǎng)勵(lì)作弊,是指模型為了獲得更高評(píng)分,并沒有真正提高生成圖像的質(zhì)量,而是通過某種投機(jī)方式去欺騙評(píng)分系統(tǒng)。
![]()
在 OCR 任務(wù)中,一些強(qiáng)化學(xué)習(xí)方法(例如 Flow - GRPO )在訓(xùn)練過程中會(huì)采取某些極端策略來提高 OCR 評(píng)分,例如把目標(biāo)文字做得非常大,將文字放在圖像中央位置,同時(shí)減少圖像中的背景內(nèi)容。這樣 OCR 系統(tǒng)更容易識(shí)別文字,因此評(píng)分會(huì)很高。但這種策略會(huì)帶來明顯問題,包括圖像整體變得不自然、背景細(xì)節(jié)消失以及圖像結(jié)構(gòu)被破壞。例如原本應(yīng)該是一個(gè)復(fù)雜的地圖場(chǎng)景,但最終生成結(jié)果卻變成了一個(gè)巨大橫幅。圖像示例顯示,一些方法雖然獲得更高 OCR 評(píng)分,但圖像細(xì)節(jié)明顯減少。
在 GenEval 任務(wù)中也存在類似的獎(jiǎng)勵(lì)作弊現(xiàn)象。一些方法生成的圖像會(huì)變得非常簡(jiǎn)單,只保留最基本的對(duì)象,同時(shí)幾乎沒有任何細(xì)節(jié)。例如在提示詞為“一個(gè)綠色熱狗”的情況下,一些方法生成的圖像只有一個(gè)簡(jiǎn)單的圖形,背景幾乎為空。雖然對(duì)象類型正確,但整體圖像質(zhì)量明顯下降。相比之下,使用 GDRO 訓(xùn)練后的模型生成圖像通常仍然保持完整場(chǎng)景,同時(shí)能夠滿足評(píng)分系統(tǒng)的要求,從而減少了這種獎(jiǎng)勵(lì)作弊現(xiàn)象。
![]()
為了進(jìn)一步驗(yàn)證自動(dòng)評(píng)分系統(tǒng)的可靠性,研究團(tuán)隊(duì)還進(jìn)行了人工評(píng)估實(shí)驗(yàn)。實(shí)驗(yàn)邀請(qǐng)了 21 名參與者,對(duì)不同方法生成的圖片進(jìn)行比較評(píng)價(jià)。
評(píng)價(jià)主要從三個(gè)方面進(jìn)行,包括文字準(zhǔn)確性、圖像與提示詞之間的匹配程度以及圖像整體質(zhì)量。每組圖片中同時(shí)包含原始模型生成結(jié)果、GDRO 生成結(jié)果以及其他強(qiáng)化學(xué)習(xí)方法生成結(jié)果,參與者需要從這些圖片中選擇表現(xiàn)更好的結(jié)果。實(shí)驗(yàn)結(jié)果顯示,在文字準(zhǔn)確性方面,各種方法之間的差距并不明顯,但在圖像質(zhì)量以及語義匹配方面,GDRO 生成的圖像表現(xiàn)明顯更好。
![]()
此外,研究還比較了不同方法在訓(xùn)練效率方面的表現(xiàn)。傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在訓(xùn)練擴(kuò)散模型時(shí),每一步訓(xùn)練通常都需要完成三個(gè)步驟,即生成新的圖片、計(jì)算獎(jiǎng)勵(lì)以及更新模型。由于擴(kuò)散模型生成圖片本身計(jì)算成本較高,這種訓(xùn)練方式往往需要大量時(shí)間和計(jì)算資源。
GDRO 則采用離線訓(xùn)練方式,在訓(xùn)練開始之前先生成數(shù)據(jù),然后在訓(xùn)練過程中反復(fù)使用這些數(shù)據(jù)。實(shí)驗(yàn)結(jié)果顯示,在達(dá)到相似性能水平時(shí),GDRO 所需的訓(xùn)練時(shí)間明顯更短,并且在某些任務(wù)中訓(xùn)練效率可以提升數(shù)倍。
![]()
02
從數(shù)據(jù)生成到模型訓(xùn)練
在實(shí)驗(yàn)設(shè)計(jì)方面,研究首先選擇 FLUX.1-dev 作為基礎(chǔ)模型。FLUX.1-dev 是一個(gè)已經(jīng)訓(xùn)練好的文本到圖像擴(kuò)散模型。研究人員并沒有重新訓(xùn)練整個(gè)模型,而是在這個(gè)模型的基礎(chǔ)上進(jìn)行后訓(xùn)練優(yōu)化。這樣做的主要目的是節(jié)省計(jì)算資源,同時(shí)能夠?qū)⒀芯恐攸c(diǎn)集中在獎(jiǎng)勵(lì)優(yōu)化方法本身,而不需要消耗大量資源去重新訓(xùn)練完整模型。
在數(shù)據(jù)集設(shè)置方面,實(shí)驗(yàn)使用了兩個(gè)數(shù)據(jù)集,分別對(duì)應(yīng) OCR 任務(wù)和 GenEval 任務(wù)。OCR 任務(wù)的數(shù)據(jù)集中,訓(xùn)練集包含約 2 萬條提示詞,測(cè)試集包含約 1000 條提示詞。這些提示詞通常用于描述某個(gè)具體場(chǎng)景,并且場(chǎng)景中包含指定文字。
例如其中一個(gè)提示詞是 “一個(gè)珠寶店櫥窗,上面寫著 diamond sale”。模型需要根據(jù)這些提示詞生成相應(yīng)圖像,并在圖像中正確呈現(xiàn)指定文字。另一部分實(shí)驗(yàn)使用 GenEval 數(shù)據(jù)集,其中訓(xùn)練集包含約 5 萬條提示詞,測(cè)試集包含約 2000 條提示詞。這些提示詞通常描述多個(gè)對(duì)象、對(duì)象屬性以及對(duì)象之間的空間關(guān)系,例如物體的數(shù)量、顏色以及位置關(guān)系等內(nèi)容。
![]()
由于 GDRO 采用離線訓(xùn)練方式,因此在正式訓(xùn)練之前需要先生成訓(xùn)練數(shù)據(jù)。具體流程是:對(duì)于每一個(gè)提示詞,首先使用基礎(chǔ)模型生成 16 張圖像;隨后對(duì)每一張圖像計(jì)算獎(jiǎng)勵(lì)評(píng)分,評(píng)分來源包括 OCR 識(shí)別準(zhǔn)確度以及 GenEval 評(píng)估結(jié)果;之后根據(jù)獎(jiǎng)勵(lì)大小對(duì)這些圖像進(jìn)行排序。經(jīng)過這一過程,每一個(gè)提示詞都會(huì)對(duì)應(yīng)一組帶有評(píng)分信息的圖像集合,這些圖像組隨后作為 GDRO 訓(xùn)練階段使用的數(shù)據(jù)。
在 GDRO 訓(xùn)練過程中,模型不會(huì)再生成新的圖像,而是反復(fù)利用已經(jīng)生成好的這些圖像組進(jìn)行訓(xùn)練。訓(xùn)練時(shí)首先從某一個(gè)提示詞對(duì)應(yīng)的圖像組中取出多張圖片,然后給這些圖片加入噪聲,以模擬擴(kuò)散過程中的中間狀態(tài)。接著將這些帶噪圖像輸入擴(kuò)散模型,由模型預(yù)測(cè)噪聲信息。最后根據(jù)模型預(yù)測(cè)結(jié)果以及原始圖像評(píng)分計(jì)算訓(xùn)練損失。隨著訓(xùn)練不斷進(jìn)行,模型逐漸學(xué)習(xí)到更傾向生成評(píng)分較高的圖像,同時(shí)減少生成評(píng)分較低圖像的概率。
在實(shí)驗(yàn)比較方面,研究人員將 GDRO 與多種方法進(jìn)行了對(duì)比,包括 Flow - GRPO、Dance GRPO 以及 DPO。這些方法代表不同類型的訓(xùn)練思想。其中 Flow - GRPO 是一種利用強(qiáng)化學(xué)習(xí)優(yōu)化擴(kuò)散模型的方法, Dance GRPO 是另一種強(qiáng)化學(xué)習(xí)改進(jìn)方法,而 DPO 則是一種基于偏好優(yōu)化思想的方法。通過在相同實(shí)驗(yàn)條件下比較這些方法的效果,可以更加清楚地驗(yàn)證 GDRO 在性能和穩(wěn)定性方面的優(yōu)勢(shì)。
![]()
此外,研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn),用于分析不同參數(shù)設(shè)置對(duì)模型表現(xiàn)的影響。其中一個(gè)重要實(shí)驗(yàn)是改變圖像組大小。當(dāng)圖像組大小只有 2 時(shí),訓(xùn)練過程會(huì)出現(xiàn)明顯的不穩(wěn)定現(xiàn)象,模型甚至容易發(fā)生崩潰。
當(dāng)圖像組大小增加到 4 或 6 時(shí),訓(xùn)練穩(wěn)定性明顯提高。這是因?yàn)榻M級(jí)獎(jiǎng)勵(lì)能夠提供更加豐富的排序信息,使模型在訓(xùn)練過程中獲得更穩(wěn)定的優(yōu)化信號(hào)。研究人員還對(duì)其他關(guān)鍵參數(shù)進(jìn)行了測(cè)試,以進(jìn)一步分析這些因素對(duì)模型穩(wěn)定性和性能的影響。
03
擴(kuò)散模型訓(xùn)練的三個(gè)關(guān)鍵啟示
在實(shí)驗(yàn)意義方面,這項(xiàng)研究的結(jié)果主要體現(xiàn)了三個(gè)方面的重要結(jié)論。首先,實(shí)驗(yàn)表明擴(kuò)散模型同樣可以進(jìn)行獎(jiǎng)勵(lì)對(duì)齊。也就是說,擴(kuò)散模型可以像語言模型一樣,通過獎(jiǎng)勵(lì)優(yōu)化的方式實(shí)現(xiàn)模型對(duì)齊。不過,由于擴(kuò)散模型的結(jié)構(gòu)與語言模型存在差異,因此需要設(shè)計(jì)新的優(yōu)化方法。GDRO 正是針對(duì)擴(kuò)散模型特點(diǎn)所提出的一種優(yōu)化方法。
其次,實(shí)驗(yàn)結(jié)果表明離線訓(xùn)練能夠顯著降低訓(xùn)練成本。研究結(jié)果說明,如果能夠利用離線數(shù)據(jù)進(jìn)行訓(xùn)練,就可以避免在訓(xùn)練過程中頻繁生成新的圖像樣本。這一點(diǎn)對(duì)于擴(kuò)散模型訓(xùn)練尤為重要,因?yàn)閳D像生成過程本身計(jì)算成本較高,因此減少生成過程能夠明顯降低整體訓(xùn)練開銷。
最后,實(shí)驗(yàn)還揭示了評(píng)價(jià)指標(biāo)使用時(shí)需要保持謹(jǐn)慎。研究發(fā)現(xiàn),高評(píng)分并不一定意味著生成結(jié)果質(zhì)量更高,因?yàn)槟P涂赡軙?huì)學(xué)會(huì)利用評(píng)分系統(tǒng)中的漏洞,從而獲得較高評(píng)分而不真正提升圖像質(zhì)量。因此,未來研究需要進(jìn)一步設(shè)計(jì)更加可靠的評(píng)價(jià)方法,以更準(zhǔn)確地反映模型生成結(jié)果的真實(shí)質(zhì)量。
04
構(gòu)建 GDRO 的人
論文一作汪逸陽,目前是香港大學(xué)計(jì)算機(jī)視覺方向的博士研究生,導(dǎo)師為趙恒爽教授。他于 2024 年開始攻讀博士學(xué)位,目前處于博士第二年。在進(jìn)入香港大學(xué)之前,他于 2024 年 7 月在北京大學(xué)完成計(jì)算機(jī)科學(xué)專業(yè)本科教育。他的研究方向主要集中在視覺生成模型和多模態(tài)模型領(lǐng)域。
具體來說,他關(guān)注三個(gè)方面的研究問題:第一,利用視覺生成模型解決真實(shí)場(chǎng)景中的視覺內(nèi)容創(chuàng)作需求,例如圖像生成和視覺內(nèi)容創(chuàng)作;第二,通過設(shè)計(jì)合理的優(yōu)化策略和評(píng)價(jià)標(biāo)準(zhǔn)來提升生成模型的性能,例如利用強(qiáng)化學(xué)習(xí)或人工反饋等方式改進(jìn)生成模型;第三,研究如何對(duì)生成模型進(jìn)行更加客觀和合理的評(píng)估,從而促進(jìn)生成模型生成更高質(zhì)量的內(nèi)容。
除了學(xué)術(shù)研究之外,他目前還在通義視覺智能實(shí)驗(yàn)室擔(dān)任研究實(shí)習(xí)生,參與視覺智能相關(guān)研究工作。
![]()
參考鏈接:https://chandlerwang14.github.io/
這篇論文的通訊作者趙恒爽,目前是香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院助理教授,從事計(jì)算機(jī)視覺與人工智能相關(guān)研究。他的研究領(lǐng)域主要包括計(jì)算機(jī)視覺、多模態(tài)人工智能、空間智能、生成式人工智能、具身智能以及物理智能等方向,研究目標(biāo)是構(gòu)建能夠感知、理解并與環(huán)境交互的智能視覺系統(tǒng),從而推動(dòng)人工智能在多個(gè)領(lǐng)域的應(yīng)用。
在學(xué)術(shù)經(jīng)歷方面,趙恒爽曾在美國麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室從事博士后研究工作,并在英國牛津大學(xué)視覺幾何團(tuán)隊(duì)從事研究,由托拉爾巴教授和托爾教授指導(dǎo)。他在香港中文大學(xué)獲得博士學(xué)位,導(dǎo)師為賈佳亞教授,本科畢業(yè)于華中科技大學(xué)。
在博士階段以及之后的研究工作中,他曾在多家國際科技公司和研究機(jī)構(gòu)進(jìn)行科研合作與實(shí)習(xí),包括美國 Adobe 公司、Uber 公司以及英特爾公司等,并與多位研究人員開展合作研究。
在研究?jī)?nèi)容方面,他的研究興趣涵蓋計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和人工智能等多個(gè)領(lǐng)域,重點(diǎn)關(guān)注三個(gè)方向。第一是視覺場(chǎng)景理解,包括視覺感知、三維重建、表示學(xué)習(xí)以及多模態(tài)學(xué)習(xí)等問題。第二是生成式模型與內(nèi)容生成,例如圖像、視頻和三維內(nèi)容的生成與編輯。第三是具身智能相關(guān)研究,包括自動(dòng)駕駛、機(jī)器人學(xué)習(xí)以及大語言模型在真實(shí)環(huán)境中的應(yīng)用。
趙恒爽在計(jì)算機(jī)視覺領(lǐng)域具有較高的學(xué)術(shù)影響力,多次獲得重要科研獎(jiǎng)勵(lì)。他獲得過國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目資助,并獲得世界人工智能大會(huì)亮點(diǎn)之星獎(jiǎng)以及青年優(yōu)秀論文獎(jiǎng)。他還多次入選人工智能領(lǐng)域具有影響力的學(xué)者榜單。
此外,他在多個(gè)國際頂級(jí)會(huì)議和學(xué)術(shù)活動(dòng)中擔(dān)任重要角色,擔(dān)任國際計(jì)算機(jī)視覺會(huì)議多模態(tài)學(xué)習(xí)分會(huì)場(chǎng)主席,并組織多個(gè)國際會(huì)議的專題研討會(huì)與教程。
![]()
參考鏈接:https://i.cs.hku.hk/~hszhao/
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.