![]()
PaCo-RL:基于成對獎勵與強化學習的圖像一致性生成方法。
作者丨鄭佳美
編輯丨岑 峰
很多人都有這樣的體驗:讓 AI 畫一個角色,第一張很好看,但第二張開始有點不一樣,第三張基本就像換了個人。你讓它做一套海報,單張都不錯,但放在一起風格卻完全不統一,再或者你讓它畫一個故事分鏡,人物形象會一會胖一會瘦,甚至連臉都對不上,你只是改一下衣服顏色,它卻順手把臉也改了。
這些看起來像小問題,但在真實應用中卻是致命的。在 IP 設計、品牌視覺、內容生產甚至工業和醫療場景中,要求的從來不是某一張圖好看,而是一整組都要一致。
問題的關鍵在于,當前圖像生成模型雖然已經從“能用”走向“高質量”,但能力仍停留在單次生成優化,也就是“單樣本最優”。它擅長把一張圖畫好,卻不知道哪些東西必須在多張圖之間保持不變。換句話說,模型缺少的不是生成能力,而是一種對跨圖關系的穩定建模能力,而這一能力,正是生成模型走向規模化應用的關鍵瓶頸。
在這一背景下,來自西安交通大學與新加坡 A*STAR 的研究團隊提出了論文《PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling 》,從建模范式層面對這一問題進行重構。
這項研究沒有沿用傳統的單圖打分或圖文對齊思路,而是將一致性問題轉化為“跨圖比較”的學習問題,通過構建成對比較的獎勵模型,使模型能夠學習人類在判斷一致性時所依賴的相對關系與多維標準,并進一步結合強化學習,將這種判斷能力反向作用于生成過程之中,從而實現從“會判斷”到“會生成”的能力閉環。
![]()
論文地址:https://arxiv.org/pdf/2512.04784
01
從「不會判斷」到「 穩定生成」
整體來看,實驗結果可以歸納為一條完整且有數據支撐的邏輯鏈。
首先,研究團隊通過對比實驗發現,現有模型并不具備真正的圖像一致性理解能力。在 ConsistencyRank 基準測試中,大模型 Qwen2.5-VL-7B 的準確率僅為 0.344,而傳統方法 CLIP-I 和 DreamSim 分別達到 0.394 和 0.403,反而表現更好,同時在排序相關性指標上也明顯領先。
這說明通用大模型雖然具備較強的圖文理解能力,但在需要跨圖比較并綜合身份、風格和邏輯等多維因素的一致性判斷任務中存在明顯不足,因此一致性屬于一種無法通過通用能力直接獲得的專門能力。
在此基礎上,研究團隊訓練了 PaCo-Reward 模型,并在同一基準上測試,結果顯示準確率提升至 0.449,相比原模型提升超過 10%,同時在 Spearman 相關系數上也達到 0.288,顯著優于所有對比方法,說明這一模型在排序能力上更接近人類判斷標準。
![]()
進一步地,在 EditReward-Bench 測試中,PaCo-Reward 在一致性指標上達到 0.709,在整體指標上達到 0.751,不僅超過所有開源方法,而且接近 GPT-5 的表現,說明模型具備良好的跨任務泛化能力,而不是簡單記憶訓練數據。在此基礎上,研究人員將這一獎勵模型引入強化學習訓練,在生成任務中進一步驗證性能提升。
![]()
在 Text-to-ImageSet 任務中,一致性指標整體提升約 10.3% 到 11.7%,在身份、風格和邏輯等多個維度均有明顯改善,同時在 GEdit-Bench 圖像編輯任務中,語義一致性和提示質量指標均持續提升,例如在 Qwen-Image-Edit 模型上,整體分數從 7.307 提升至 7.451,在多語言設置下也表現出一致的改進趨勢,這說明模型不僅能夠提升一致性,還能夠保持甚至提升生成質量。
![]()
在訓練效率方面,研究發現采用低分辨率訓練策略時,512 分辨率訓練大約 6 小時即可達到與 1024 分辨率約 12 小時訓練相當的效果,在約 50 個訓練輪次后性能基本收斂一致,顯著降低計算成本。
在訓練穩定性方面,傳統多獎勵加權方法會導致獎勵比例在訓練過程中迅速超過 2.5,從而出現單一獎勵主導優化的問題,而改進方法能夠將獎勵比例穩定控制在 1.8 以內,從而避免優化偏移并保持多目標平衡。
綜合以上實驗結果可以得出結論,研究不僅成功訓練出能夠準確建模人類一致性判斷的模型,而且能夠將這一能力有效用于生成模型優化,并在保證訓練效率和穩定性的前提下實現性能提升,從而形成一個完整且可行的技術閉環。
02
從可解釋判斷,到可控生成
整個實驗過程可以清晰地劃分為兩個階段。第一階段圍繞如何判斷圖像一致性展開。研究團隊首先發現缺乏可以直接用于訓練一致性判斷的數據,其根本原因在于一致性本身具有較強的主觀性,同時涉及身份、風格和邏輯等多維度因素,很難通過統一標準進行標注。
因此,研究人員設計了一套結合自動生成與人工標注的數據構建流程。具體而言,首先利用生成模型構建數據源,通過生成約 2000 條文本 prompt,并進一步篩選出 708 條具有代表性和多樣性的 prompt,然后基于這些 prompt 使用圖像生成模型生成具有內部一致性的圖像網格,每個 prompt 會生成多個圖像網格,每個網格包含多個子圖。
接下來進入關鍵步驟,即對子圖進行拆分與組合,也就是將每個圖像網格劃分為多個 sub-figure,并在不同網格之間進行組合,從而構造出大量具有不同一致性關系的圖像對。這一過程通過組合方式顯著擴大數據規模,在約 708 個 prompt 和 2832 張圖像的基礎上構造出 33984 個排序樣本。
![]()
隨后,研究人員構建排序任務,每個樣本包含 1 張參考圖和 4 張候選圖,標注任務是根據視覺一致性對候選圖進行排序。標注過程由 6 名標注人員完成,每人標注約 5664 個樣本,標注過程中不依賴嚴格規則,而是基于人類直覺對一致性進行判斷,同時保留部分數據作為評測基準。
為了便于模型訓練,研究團隊進一步將排序數據轉換為 pairwise 數據形式,即將排序關系轉化為兩兩比較的樣本,例如將多個候選之間的排序關系拆解為多個 A 與 B 的一致性判斷,從而得到超過 54624 個圖像對,其中包括 27599 個一致樣本和 27025 個不一致樣本,每個樣本不僅包含標簽,還配有對應的推理解釋,從而增強數據的可解釋性與泛化能力。
![]()
在完成數據構建之后,研究團隊進一步設計獎勵模型的訓練方式。傳統方法通常采用輸入圖像并輸出一個標量分數的方式來表示質量或一致性,但這種方式與視覺語言模型基于自回歸生成的機制不匹配,同時難以表達復雜判斷過程。
為了解決這一問題,研究人員提出將一致性判斷建模為生成任務,在 PaCo-Reward 模型中,輸入由兩張圖像和對應文本組成,模型輸出為 Yes 或 No,用于表示兩張圖像是否一致,同時還會生成一段推理過程來解釋判斷依據。這一設計使一致性判斷轉化為語言生成問題,從而能夠直接利用視覺語言模型的生成能力進行訓練,并提升模型穩定性與可解釋性。
模型在訓練過程中不僅學習最終的判斷結果,還學習推理過程,從而避免僅依賴表面特征進行判斷。完成訓練后,研究人員通過排序一致性任務和圖像編輯任務對模型進行驗證,結果表明這一獎勵模型在多個指標上均優于現有方法。
![]()
第二階段圍繞如何生成一致圖像展開。研究人員在這一階段引入強化學習框架,其基本流程包括模型根據輸入生成圖像集合,然后由獎勵模型對生成結果進行評分,再根據評分信號更新生成模型參數,這一過程類似人類通過反饋不斷優化行為的學習方式。
在具體實現中,研究團隊提出了兩個關鍵優化策略以提升訓練效率與穩定性。首先是分辨率解耦策略,即在訓練階段使用低分辨率圖像進行采樣與優化,而在推理階段仍然生成高分辨率圖像,這樣可以顯著降低計算開銷,因為圖像生成模型的計算復雜度與分辨率呈平方關系增長,而實驗表明低分辨率圖像已經能夠提供足夠的獎勵信號來指導優化方向。
其次是獎勵平衡策略,用于解決多目標優化中的沖突問題。在一致性生成任務中,模型通常需要同時優化一致性與文本對齊等多個目標,而不同獎勵之間可能存在尺度差異和波動差異,從而導致某一獎勵在訓練過程中占據主導地位。為了解決這一問題,研究人員對波動較大的獎勵進行壓縮處理,從而降低其影響范圍,使多個獎勵在優化過程中保持相對平衡,避免訓練偏移。
最終,研究團隊在多圖生成任務和圖像編輯任務上對方法進行驗證,結果顯示模型在身份一致性、風格一致性以及邏輯一致性等多個方面均得到明顯提升,同時在編輯任務中能夠實現局部修改與整體保持之間的良好平衡,從而驗證整個方法在實際生成任務中的有效性。
![]()
03
從單點生成到關系建模的范式變化
這項研究的意義不僅體現在技術層面,也正在改變普通人使用 AI 的體驗。首先在問題層面,研究團隊解決了多圖一致性這一長期存在的難題。過去人工智能模型雖然可以生成單張高質量圖像,但一旦需要連續生成角色、設計系列海報或制作故事分鏡,就會出現人物變化、風格不統一甚至邏輯混亂的問題。
這意味著普通用戶即使生成了好看的圖片,也很難真正用在創作、設計或內容生產中。而通過系統性的設計與訓練,這項研究讓模型能夠在多張圖像之間保持一致,使 AI 從“能用”走向“可用”,真正具備連續創作能力。
在方法層面,研究提出了一種更接近人類思維的學習方式,即通過比較來學習,而不是直接打分。對于普通用戶來說,這種變化意味著模型更“懂人”的審美和判斷標準,不再只是機械優化指標,而是能夠更自然地理解“像不像”“一致不一致”這樣的主觀概念,從而生成更符合人類預期的結果。
在訓練層面,研究進一步推動了強化學習在圖像生成中的實際應用。過去這類方法往往成本高、訓練不穩定,難以真正落地,而研究通過低分辨率訓練與獎勵平衡機制,在降低計算成本的同時提升穩定性。這不僅提升了模型性能,也意味著未來類似能力可以更快進入產品,普通用戶在工具中直接體驗到更穩定、更一致的生成效果。
更深層來看,這項研究構建了一種生成與評價相結合的閉環機制。傳統模型只負責“生成”,而在這一方法中,模型不僅能夠生成圖像,還能夠在生成過程中不斷“自我檢查”和優化結果。
對于普通人而言,這意味著未來的 AI 不再需要反復手動調整提示詞,而是可以自動修正偏差,逐步生成符合預期的內容,從而大幅降低使用門檻。
04
構建 PaCo-RL 的人
這篇論文的共同一作分別是平博文和賈成銪。其中,賈成銪目前是西安交通大學計算機科學專業博士研究生,處于博士階段后期,導師為羅敏楠教授,同時與常曉軍教授開展合作研究,并且未來將加入騰訊混元的青云計劃從事研究工作。在科研經歷方面,賈成銪曾在新加坡進行訪問研究,并在上海人工智能實驗室擔任研究實習生。
在學術成果方面,賈成銪已在多個國際頂級會議和期刊發表論文,包括 CVPR、AAAI、ACL、IEEE TIP 等,同時擔任 NeurIPS、ICML、CVPR、ECCV 等重要會議與期刊的審稿人,體現出較高的學術影響力與認可度。
在研究方向上,主要從事計算機視覺與多模態領域的研究,重點關注視覺生成與智能體相關問題。具體研究內容包括一致性圖像生成、視頻生成,以及獎勵模型與強化學習在視覺生成中的應用,整體目標是提升模型在生成任務中的一致性、可控性與智能性。
![]()
參考地址:https://chengyou-jia.github.io/
這篇論文的通訊作者錢航薇,目前在新加坡 A*STAR 前沿人工智能研究中心從事研究工作。
在研究方向方面,錢航薇主要從事人工智能與多模態學習相關研究,重點包括多模態大語言模型、面向科學研究的人工智能、生成式人工智能與智能體系統,以及基于大模型的科學發現方法,同時還關注可信與可解釋人工智能以及時間序列建模等方向 。
在科研成果方面,錢航薇在 AAAI、IJCAI、KDD 等國際會議以及人工智能領域重要期刊發表多篇論文,研究內容涵蓋對比學習、強化學習、時間序列建模以及可解釋性等方向,并參與多個科研項目,包括 A*STAR Career Development Fund 和相關研究基金項目 。
![]()
參考鏈接:https://hangwei12358.github.io/
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.