337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

西交大 x A*STAR 論文:讓 AI 學會「保持一致」,多圖生成迎來關鍵突破丨CVPR 2026

0
分享至


PaCo-RL:基于成對獎勵與強化學習的圖像一致性生成方法。

作者丨鄭佳美

編輯丨岑 峰

很多人都有這樣的體驗:讓 AI 畫一個角色,第一張很好看,但第二張開始有點不一樣,第三張基本就像換了個人。你讓它做一套海報,單張都不錯,但放在一起風格卻完全不統一,再或者你讓它畫一個故事分鏡,人物形象會一會胖一會瘦,甚至連臉都對不上,你只是改一下衣服顏色,它卻順手把臉也改了。

這些看起來像小問題,但在真實應用中卻是致命的。在 IP 設計、品牌視覺、內容生產甚至工業和醫療場景中,要求的從來不是某一張圖好看,而是一整組都要一致。

問題的關鍵在于,當前圖像生成模型雖然已經從“能用”走向“高質量”,但能力仍停留在單次生成優化,也就是“單樣本最優”。它擅長把一張圖畫好,卻不知道哪些東西必須在多張圖之間保持不變。換句話說,模型缺少的不是生成能力,而是一種對跨圖關系的穩定建模能力,而這一能力,正是生成模型走向規模化應用的關鍵瓶頸。

在這一背景下,來自西安交通大學與新加坡 A*STAR 的研究團隊提出了論文《PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling 》,從建模范式層面對這一問題進行重構。

這項研究沒有沿用傳統的單圖打分或圖文對齊思路,而是將一致性問題轉化為“跨圖比較”的學習問題,通過構建成對比較的獎勵模型,使模型能夠學習人類在判斷一致性時所依賴的相對關系與多維標準,并進一步結合強化學習,將這種判斷能力反向作用于生成過程之中,從而實現從“會判斷”到“會生成”的能力閉環。


論文地址:https://arxiv.org/pdf/2512.04784

01


從「不會判斷」到「 穩定生成」

整體來看,實驗結果可以歸納為一條完整且有數據支撐的邏輯鏈。

首先,研究團隊通過對比實驗發現,現有模型并不具備真正的圖像一致性理解能力。在 ConsistencyRank 基準測試中,大模型 Qwen2.5-VL-7B 的準確率僅為 0.344,而傳統方法 CLIP-I 和 DreamSim 分別達到 0.394 和 0.403,反而表現更好,同時在排序相關性指標上也明顯領先。

這說明通用大模型雖然具備較強的圖文理解能力,但在需要跨圖比較并綜合身份、風格和邏輯等多維因素的一致性判斷任務中存在明顯不足,因此一致性屬于一種無法通過通用能力直接獲得的專門能力。

在此基礎上,研究團隊訓練了 PaCo-Reward 模型,并在同一基準上測試,結果顯示準確率提升至 0.449,相比原模型提升超過 10%,同時在 Spearman 相關系數上也達到 0.288,顯著優于所有對比方法,說明這一模型在排序能力上更接近人類判斷標準。


進一步地,在 EditReward-Bench 測試中,PaCo-Reward 在一致性指標上達到 0.709,在整體指標上達到 0.751,不僅超過所有開源方法,而且接近 GPT-5 的表現,說明模型具備良好的跨任務泛化能力,而不是簡單記憶訓練數據。在此基礎上,研究人員將這一獎勵模型引入強化學習訓練,在生成任務中進一步驗證性能提升。


在 Text-to-ImageSet 任務中,一致性指標整體提升約 10.3% 到 11.7%,在身份、風格和邏輯等多個維度均有明顯改善,同時在 GEdit-Bench 圖像編輯任務中,語義一致性和提示質量指標均持續提升,例如在 Qwen-Image-Edit 模型上,整體分數從 7.307 提升至 7.451,在多語言設置下也表現出一致的改進趨勢,這說明模型不僅能夠提升一致性,還能夠保持甚至提升生成質量。


在訓練效率方面,研究發現采用低分辨率訓練策略時,512 分辨率訓練大約 6 小時即可達到與 1024 分辨率約 12 小時訓練相當的效果,在約 50 個訓練輪次后性能基本收斂一致,顯著降低計算成本。

在訓練穩定性方面,傳統多獎勵加權方法會導致獎勵比例在訓練過程中迅速超過 2.5,從而出現單一獎勵主導優化的問題,而改進方法能夠將獎勵比例穩定控制在 1.8 以內,從而避免優化偏移并保持多目標平衡。

綜合以上實驗結果可以得出結論,研究不僅成功訓練出能夠準確建模人類一致性判斷的模型,而且能夠將這一能力有效用于生成模型優化,并在保證訓練效率和穩定性的前提下實現性能提升,從而形成一個完整且可行的技術閉環。

02


從可解釋判斷,到可控生成

整個實驗過程可以清晰地劃分為兩個階段。第一階段圍繞如何判斷圖像一致性展開。研究團隊首先發現缺乏可以直接用于訓練一致性判斷的數據,其根本原因在于一致性本身具有較強的主觀性,同時涉及身份、風格和邏輯等多維度因素,很難通過統一標準進行標注。

因此,研究人員設計了一套結合自動生成與人工標注的數據構建流程。具體而言,首先利用生成模型構建數據源,通過生成約 2000 條文本 prompt,并進一步篩選出 708 條具有代表性和多樣性的 prompt,然后基于這些 prompt 使用圖像生成模型生成具有內部一致性的圖像網格,每個 prompt 會生成多個圖像網格,每個網格包含多個子圖。

接下來進入關鍵步驟,即對子圖進行拆分與組合,也就是將每個圖像網格劃分為多個 sub-figure,并在不同網格之間進行組合,從而構造出大量具有不同一致性關系的圖像對。這一過程通過組合方式顯著擴大數據規模,在約 708 個 prompt 和 2832 張圖像的基礎上構造出 33984 個排序樣本。


隨后,研究人員構建排序任務,每個樣本包含 1 張參考圖和 4 張候選圖,標注任務是根據視覺一致性對候選圖進行排序。標注過程由 6 名標注人員完成,每人標注約 5664 個樣本,標注過程中不依賴嚴格規則,而是基于人類直覺對一致性進行判斷,同時保留部分數據作為評測基準。

為了便于模型訓練,研究團隊進一步將排序數據轉換為 pairwise 數據形式,即將排序關系轉化為兩兩比較的樣本,例如將多個候選之間的排序關系拆解為多個 A 與 B 的一致性判斷,從而得到超過 54624 個圖像對,其中包括 27599 個一致樣本和 27025 個不一致樣本,每個樣本不僅包含標簽,還配有對應的推理解釋,從而增強數據的可解釋性與泛化能力。


在完成數據構建之后,研究團隊進一步設計獎勵模型的訓練方式。傳統方法通常采用輸入圖像并輸出一個標量分數的方式來表示質量或一致性,但這種方式與視覺語言模型基于自回歸生成的機制不匹配,同時難以表達復雜判斷過程。

為了解決這一問題,研究人員提出將一致性判斷建模為生成任務,在 PaCo-Reward 模型中,輸入由兩張圖像和對應文本組成,模型輸出為 Yes 或 No,用于表示兩張圖像是否一致,同時還會生成一段推理過程來解釋判斷依據。這一設計使一致性判斷轉化為語言生成問題,從而能夠直接利用視覺語言模型的生成能力進行訓練,并提升模型穩定性與可解釋性。

模型在訓練過程中不僅學習最終的判斷結果,還學習推理過程,從而避免僅依賴表面特征進行判斷。完成訓練后,研究人員通過排序一致性任務和圖像編輯任務對模型進行驗證,結果表明這一獎勵模型在多個指標上均優于現有方法。


第二階段圍繞如何生成一致圖像展開。研究人員在這一階段引入強化學習框架,其基本流程包括模型根據輸入生成圖像集合,然后由獎勵模型對生成結果進行評分,再根據評分信號更新生成模型參數,這一過程類似人類通過反饋不斷優化行為的學習方式。

在具體實現中,研究團隊提出了兩個關鍵優化策略以提升訓練效率與穩定性。首先是分辨率解耦策略,即在訓練階段使用低分辨率圖像進行采樣與優化,而在推理階段仍然生成高分辨率圖像,這樣可以顯著降低計算開銷,因為圖像生成模型的計算復雜度與分辨率呈平方關系增長,而實驗表明低分辨率圖像已經能夠提供足夠的獎勵信號來指導優化方向。

其次是獎勵平衡策略,用于解決多目標優化中的沖突問題。在一致性生成任務中,模型通常需要同時優化一致性與文本對齊等多個目標,而不同獎勵之間可能存在尺度差異和波動差異,從而導致某一獎勵在訓練過程中占據主導地位。為了解決這一問題,研究人員對波動較大的獎勵進行壓縮處理,從而降低其影響范圍,使多個獎勵在優化過程中保持相對平衡,避免訓練偏移。

最終,研究團隊在多圖生成任務和圖像編輯任務上對方法進行驗證,結果顯示模型在身份一致性、風格一致性以及邏輯一致性等多個方面均得到明顯提升,同時在編輯任務中能夠實現局部修改與整體保持之間的良好平衡,從而驗證整個方法在實際生成任務中的有效性。


03


從單點生成到關系建模的范式變化

這項研究的意義不僅體現在技術層面,也正在改變普通人使用 AI 的體驗。首先在問題層面,研究團隊解決了多圖一致性這一長期存在的難題。過去人工智能模型雖然可以生成單張高質量圖像,但一旦需要連續生成角色、設計系列海報或制作故事分鏡,就會出現人物變化、風格不統一甚至邏輯混亂的問題。

這意味著普通用戶即使生成了好看的圖片,也很難真正用在創作、設計或內容生產中。而通過系統性的設計與訓練,這項研究讓模型能夠在多張圖像之間保持一致,使 AI 從“能用”走向“可用”,真正具備連續創作能力。

在方法層面,研究提出了一種更接近人類思維的學習方式,即通過比較來學習,而不是直接打分。對于普通用戶來說,這種變化意味著模型更“懂人”的審美和判斷標準,不再只是機械優化指標,而是能夠更自然地理解“像不像”“一致不一致”這樣的主觀概念,從而生成更符合人類預期的結果。

在訓練層面,研究進一步推動了強化學習在圖像生成中的實際應用。過去這類方法往往成本高、訓練不穩定,難以真正落地,而研究通過低分辨率訓練與獎勵平衡機制,在降低計算成本的同時提升穩定性。這不僅提升了模型性能,也意味著未來類似能力可以更快進入產品,普通用戶在工具中直接體驗到更穩定、更一致的生成效果。

更深層來看,這項研究構建了一種生成與評價相結合的閉環機制。傳統模型只負責“生成”,而在這一方法中,模型不僅能夠生成圖像,還能夠在生成過程中不斷“自我檢查”和優化結果。

對于普通人而言,這意味著未來的 AI 不再需要反復手動調整提示詞,而是可以自動修正偏差,逐步生成符合預期的內容,從而大幅降低使用門檻。

04


構建 PaCo-RL 的人

這篇論文的共同一作分別是平博文賈成銪。其中,賈成銪目前是西安交通大學計算機科學專業博士研究生,處于博士階段后期,導師為羅敏楠教授,同時與常曉軍教授開展合作研究,并且未來將加入騰訊混元的青云計劃從事研究工作。在科研經歷方面,賈成銪曾在新加坡進行訪問研究,并在上海人工智能實驗室擔任研究實習生。

在學術成果方面,賈成銪已在多個國際頂級會議和期刊發表論文,包括 CVPR、AAAI、ACL、IEEE TIP 等,同時擔任 NeurIPS、ICML、CVPR、ECCV 等重要會議與期刊的審稿人,體現出較高的學術影響力與認可度。

在研究方向上,主要從事計算機視覺與多模態領域的研究,重點關注視覺生成與智能體相關問題。具體研究內容包括一致性圖像生成、視頻生成,以及獎勵模型與強化學習在視覺生成中的應用,整體目標是提升模型在生成任務中的一致性、可控性與智能性。


參考地址:https://chengyou-jia.github.io/

這篇論文的通訊作者錢航薇,目前在新加坡 A*STAR 前沿人工智能研究中心從事研究工作。

在研究方向方面,錢航薇主要從事人工智能與多模態學習相關研究,重點包括多模態大語言模型、面向科學研究的人工智能、生成式人工智能與智能體系統,以及基于大模型的科學發現方法,同時還關注可信與可解釋人工智能以及時間序列建模等方向 。

在科研成果方面,錢航薇在 AAAI、IJCAI、KDD 等國際會議以及人工智能領域重要期刊發表多篇論文,研究內容涵蓋對比學習、強化學習、時間序列建模以及可解釋性等方向,并參與多個科研項目,包括 A*STAR Career Development Fund 和相關研究基金項目 。


參考鏈接:https://hangwei12358.github.io/

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大事不好!剛剛力哥被俄軍抓到前線去了!

大事不好!剛剛力哥被俄軍抓到前線去了!

力哥說
2026-03-21 14:24:14
楊瀚森砍14+11+3+3,正負值全場第1!率隊22分逆轉,開拓者很欣慰

楊瀚森砍14+11+3+3,正負值全場第1!率隊22分逆轉,開拓者很欣慰

球場沒跑道
2026-03-22 08:43:12
我33歲到非洲打工,非洲朋友給我介紹個18歲姑娘,彩禮只要一頭牛

我33歲到非洲打工,非洲朋友給我介紹個18歲姑娘,彩禮只要一頭牛

千秋文化
2026-01-27 20:16:44
中國穩定發展為動蕩的世界注入寶貴的確定性(外媒看中國)

中國穩定發展為動蕩的世界注入寶貴的確定性(外媒看中國)

人民網
2026-03-22 09:19:43
電動公交之后,又一個行業被電車教育,燃油車的優勢被重新認可

電動公交之后,又一個行業被電車教育,燃油車的優勢被重新認可

柏銘銳談
2026-03-19 18:47:00
古代中國人都是大高個,力大如牛是有原因的,后來才慢慢變得矮小

古代中國人都是大高個,力大如牛是有原因的,后來才慢慢變得矮小

鍋鍋愛歷史
2026-03-21 23:20:44
阿司匹林走下神壇:一個長達40年的錯誤,FDA改變了態度;柳葉刀都說了,你的阿司匹林得按胖瘦來吃

阿司匹林走下神壇:一個長達40年的錯誤,FDA改變了態度;柳葉刀都說了,你的阿司匹林得按胖瘦來吃

醫脈圈
2026-03-20 20:37:21
普京:俄羅斯是伊朗艱難時刻的忠實伙伴

普京:俄羅斯是伊朗艱難時刻的忠實伙伴

新華社
2026-03-21 17:42:04
美媒:中國軍艦在仙賓礁用火控雷達照射了菲律賓最新型護衛艦

美媒:中國軍艦在仙賓礁用火控雷達照射了菲律賓最新型護衛艦

愛吃醋的貓咪
2026-03-21 22:11:00
停工10年、耗資百億、12項世界紀錄!天津117大廈滿血復活,北方第二城亮劍

停工10年、耗資百億、12項世界紀錄!天津117大廈滿血復活,北方第二城亮劍

寶哥精彩賽事
2026-03-22 06:36:00
太過分?曝非洲足聯要求33歲馬內歸還非洲杯MVP 老實人憤怒拒絕了

太過分?曝非洲足聯要求33歲馬內歸還非洲杯MVP 老實人憤怒拒絕了

風過鄉
2026-03-22 07:29:20
為啥化完妝,感覺自己更丑了?(不是技術問題

為啥化完妝,感覺自己更丑了?(不是技術問題

言安堂
2026-03-21 08:36:05
終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

夜深愛雜談
2026-03-13 22:02:43
不止石油!拆解伊朗手里的“三張底牌”

不止石油!拆解伊朗手里的“三張底牌”

看看新聞Knews
2026-03-20 19:25:03
陪玩僅僅是開胃菜,繼關曉彤事件后,岳云鵬再次揭露內娛的陰暗面

陪玩僅僅是開胃菜,繼關曉彤事件后,岳云鵬再次揭露內娛的陰暗面

素衣讀史
2026-03-19 17:09:10
聚餐砸家后續:妻子已請律師,男子依舊不死心,兒子曝更多黑料

聚餐砸家后續:妻子已請律師,男子依舊不死心,兒子曝更多黑料

奇思妙想草葉君
2026-03-19 21:37:58
第二個惡魔醫生被抓,鄭大一附院王福建為94名患者植入不需要器械

第二個惡魔醫生被抓,鄭大一附院王福建為94名患者植入不需要器械

大魚簡科
2026-02-18 22:03:00
劇情大逆轉,東契奇表態不忍了,面臨巨額賠償金...

劇情大逆轉,東契奇表態不忍了,面臨巨額賠償金...

體育新角度
2026-03-21 22:10:35
我國最危險的10年,若沒有這兩小國“幫忙”,恐怕中美早已開戰

我國最危險的10年,若沒有這兩小國“幫忙”,恐怕中美早已開戰

午夜搭車a
2026-03-18 07:07:37
46條航線全砍!高市早苗一句話,日本旅游業損失或超70億美元

46條航線全砍!高市早苗一句話,日本旅游業損失或超70億美元

簡簡單單的說
2026-03-22 07:07:52
2026-03-22 09:59:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7134文章數 20742關注度
往期回顧 全部

科技要聞

庫克在華這四天,一場既定的市場秀

頭條要聞

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區回應

頭條要聞

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區回應

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

睡夢中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

時尚
旅游
家居
游戲
軍事航空

這些才是適合普通人借鑒的穿搭!衣服疊穿、多穿襯衫,好耐看

旅游要聞

推出四條核心特色線路產品,嶗山風景區2026旅行商大會舉辦

家居要聞

時空交織 空間綺夢

拒絕做大做強!《幻獸帕魯》開發商不想打造媒體帝國

軍事要聞

伊導彈擊中以核設施附近 爆炸視頻公布

無障礙瀏覽 進入關懷版