![]()
他們用一套"質(zhì)檢+改題"雙系統(tǒng),造出了AI圖像編輯領(lǐng)域的第一套標(biāo)準(zhǔn)化教材。
不知你有沒有發(fā)現(xiàn),用ChatGPT里的圖像編輯挺順,但換幾個(gè)開源工具就頻頻翻車?這不是錯(cuò)覺——頂尖閉源模型(如GPT-Image-1)和開源模型之間的差距,正在被越拉越大。 根源在于:開源陣營(yíng)手里沒有兩樣?xùn)|西——足夠多且足夠好的訓(xùn)練素材,以及一套能全面體檢模型能力的'診斷系統(tǒng)'。
更麻煩的是,做數(shù)據(jù)就像走鋼絲:純手工打造的精品數(shù)據(jù)集,質(zhì)量過(guò)硬但根本攢不夠量;全自動(dòng)流水線倒是能批量生產(chǎn),但環(huán)節(jié)一多,前面的小錯(cuò)會(huì)一路放大成災(zāi)難——比如第一步識(shí)別錯(cuò)了物體,后面所有編輯都跟著跑偏。
具體來(lái)說(shuō),現(xiàn)在的數(shù)據(jù)生產(chǎn)有三個(gè)漏銅:
? '傳話游戲'式誤差:一個(gè)編輯任務(wù)要過(guò)N個(gè)工具(識(shí)別→分割→生成→融合),前面一步歪一點(diǎn),后面步步歪;
? '安檢'走過(guò)場(chǎng):要么只查'有沒有出圖'而不管文本指令對(duì)不對(duì),要么花大價(jià)錢調(diào)API改文字描述,卻不管圖本身質(zhì)量;
? '考試范圍'太窄:現(xiàn)有測(cè)試只考'換顏色'、'加物體'這種基礎(chǔ)題,不考'從空中俯瞰這個(gè)建筑'這種空間理解題,也不考'將咖啡壺變?yōu)橹蠓袪顟B(tài)'這種需要常識(shí)推理的題。而且評(píng)分標(biāo)準(zhǔn)還有bug——背景被偷偷改了看不出來(lái),風(fēng)格一變就扣冤枉分。
![]()
圖1: UnicEdit-10M 涵蓋了跨越基礎(chǔ)與復(fù)雜編輯的 22 種編輯任務(wù)。該數(shù)據(jù)集采用統(tǒng)一的后置驗(yàn)證階段,通過(guò)過(guò)濾失敗樣本并精煉指令,從而產(chǎn)出高質(zhì)量的三元組數(shù)據(jù)。此外,我們還推出了配套的 UnicBench,利用細(xì)粒度指標(biāo)進(jìn)行全面評(píng)估。
針對(duì)這個(gè)痛點(diǎn),浙江大學(xué)和騰訊聯(lián)合搞了個(gè)大動(dòng)作:他們不僅造出了1000萬(wàn)組高質(zhì)量的"圖像編輯練習(xí)題"(UnicEdit-10M),還配了一套22類難度遞進(jìn)的"全真模擬考卷"(UnicBench)。簡(jiǎn)單來(lái)說(shuō),就是給AI圖像編輯領(lǐng)域提供了標(biāo)準(zhǔn)化的教材+考試系統(tǒng)。除此之外,他們還配置了一名"嚴(yán)格判官"(Qwen-Verify),對(duì)生成的圖像編輯數(shù)據(jù)進(jìn)行嚴(yán)格的篩選和優(yōu)化,保證最終得到的"練習(xí)題"的答案都是正確且高質(zhì)量的。
![]()
論文標(biāo)題:UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
論文地址:https://arxiv.org/pdf/2512.02790
代碼倉(cāng)庫(kù):https://github.com/WeChatCV/UnicBench
項(xiàng)目主頁(yè):https://hongsexiaotanhua.github.io/UnicEdit-10M/
數(shù)據(jù)集:https://huggingface.co/datasets/xiaotanhua/UnicEdit-10M
Benchmark:https://huggingface.co/datasets/xiaotanhua/UnicBench
01
核心亮點(diǎn)
1. 大規(guī)模高質(zhì)量數(shù)據(jù)集 UnicEdit-10M:構(gòu)建了包含 10M 樣本的高質(zhì)量圖像編輯數(shù)據(jù)集,覆蓋 22 種編輯任務(wù),不僅包含基礎(chǔ)的屬性和對(duì)象編輯,還涵蓋幾何空間變化和基于推理知識(shí)的編輯任務(wù),同時(shí),該數(shù)據(jù)集的圖像美學(xué)得分也超越其他數(shù)據(jù)集。
2. Qwen-Verify 后校驗(yàn)專家模型:訓(xùn)練了一個(gè) 7B 規(guī)模的雙任務(wù)專家模型,能夠同時(shí)進(jìn)行細(xì)粒度的失敗檢測(cè)和指令重寫,在計(jì)算成本和經(jīng)濟(jì)成本遠(yuǎn)低于 Qwen2.5-VL-72B 的情況下,實(shí)現(xiàn)了更優(yōu)的性能。
3. UnicBench 綜合評(píng)估基準(zhǔn):提出了覆蓋基礎(chǔ)編輯、幾何空間變化以及基于推理知識(shí)編輯任務(wù)的綜合基準(zhǔn),引入了非編輯一致性和推理準(zhǔn)確性等新穎評(píng)估指標(biāo),能夠全面診斷模型的編輯能力,為未來(lái)研究提供了清晰的方向。
![]()
圖2: UnicEdit-10M 中所有子任務(wù)的代表性編輯樣例。
02
UnicEdit-10M數(shù)據(jù)集構(gòu)建
UnicEdit-10M 的構(gòu)建采用了三階段的高效自動(dòng)化流水線:
1. 指令生成階段:使用 Qwen2.5-VL-72B 模型,基于預(yù)定義的編輯分類體系,為每張圖像生成 3-7 個(gè)不同的、符合內(nèi)容的編輯指令,確保任務(wù)分布均衡,無(wú)需人工標(biāo)注。
2. 圖像編輯階段:使用 FLUX.1-Kontext 和 Qwen-Image-Edit 兩款領(lǐng)先的開源編輯模型,對(duì)每一對(duì)〈原始圖像,指令〉進(jìn)行處理,生成編輯后的圖像,形成初始的三元組。同時(shí)對(duì)源圖像進(jìn)行中心裁剪和縮放預(yù)處理,并進(jìn)行質(zhì)量檢查,丟棄需要超過(guò) 20% 裁剪的圖像,避免內(nèi)容丟失。
3. 后校驗(yàn)階段:所有合成的三元組都經(jīng)過(guò)統(tǒng)一的后校驗(yàn)環(huán)節(jié),不僅過(guò)濾掉失敗的樣本,還會(huì)優(yōu)化對(duì)應(yīng)的指令,增強(qiáng)其與視覺編輯的語(yǔ)義對(duì)齊。
最終生成的 UnicEdit-10M 數(shù)據(jù)集包含約 10M 個(gè)三元組,分為 4 大編輯類型:場(chǎng)景編輯(3.063M 樣本)、屬性編輯(3.529M 樣本)、對(duì)象編輯(3.242M 樣本)和推理編輯(1.746M 樣本),其中 50% 的圖像為 1024×1024 的高分辨率圖像。
![]()
圖3: 包含三個(gè)階段的數(shù)據(jù)構(gòu)建流水線:(1) 數(shù)據(jù)準(zhǔn)備;(2) 圖像編輯;(3) 后校驗(yàn),用于過(guò)濾失敗的編輯樣本并進(jìn)行指令重寫(Recaption)。
03
后校驗(yàn)專家模型
在后校驗(yàn)階段,為了實(shí)現(xiàn)更為準(zhǔn)確和高效的質(zhì)量控制,作者訓(xùn)練了7B的雙任務(wù)后校驗(yàn)專家模型Qwen-Verify,通過(guò)使用人類標(biāo)注的偏好數(shù)據(jù)進(jìn)行偏好對(duì)齊,實(shí)現(xiàn)更為準(zhǔn)確的數(shù)據(jù)篩選。該專家模型能夠同時(shí)執(zhí)行如下兩個(gè)關(guān)鍵任務(wù)::
1. 編輯失敗檢測(cè):能夠細(xì)粒度地識(shí)別出編輯失敗的樣本,包括無(wú)編輯、幻覺等情況,相比傳統(tǒng)的 SSIM 等像素級(jí)指標(biāo),Qwen-Verify 具備語(yǔ)義理解能力,能夠準(zhǔn)確識(shí)別出語(yǔ)義上有變化但視覺上細(xì)微的編輯,同時(shí)忽略生成過(guò)程中微小的像素級(jí)噪聲。
2. 編輯指令重寫:能夠?qū)εc編輯結(jié)果語(yǔ)義對(duì)齊不足的指令進(jìn)行重寫,確保指令與實(shí)際的視覺變換精確匹配。
對(duì)比實(shí)驗(yàn)顯示,Qwen-Verify 在正常編輯、無(wú)編輯和幻覺檢測(cè)的準(zhǔn)確率上均顯著優(yōu)于 Qwen2.5-VL-7B、Qwen2.5-VL-72B 等基線模型,在人臉一致性等關(guān)鍵指標(biāo)上,UnicEdit-10M 的一致性得分達(dá)到 0.89,遠(yuǎn)優(yōu)于 GPT-Image-Edit-1.5M 的 0.3025,展現(xiàn)出在保持關(guān)鍵主體細(xì)節(jié)上的卓越能力。
![]()
圖4: 專家模型后校驗(yàn)樣例。其中:Base 表示 Qwen2.5-VL-7B 模型;SFT 表示經(jīng)過(guò)第一階段指令微調(diào)后的基礎(chǔ)模型;Ours 表示我們提出的雙任務(wù)專家模型 Qwen-Verify。
04
UnicBench:綜合編輯能力評(píng)測(cè)
UnicBench 是一個(gè)覆蓋基礎(chǔ)編輯、幾何空間變化以及基于推理知識(shí)編輯任務(wù)的綜合基準(zhǔn),其構(gòu)建過(guò)程采用了 VLM 與人工結(jié)合的工作流:首先由 Qwen2.5-VL 生成候選指令,再由人類專家進(jìn)行審核,移除模糊或語(yǔ)義不一致的提示,并進(jìn)行重寫以匹配特定的編輯任務(wù)類別,每個(gè)類別包含 50 個(gè)測(cè)試用例。
為了實(shí)現(xiàn)更精準(zhǔn)的評(píng)估,UnicBench 引入了四個(gè)專門的評(píng)估指標(biāo):
1. 指令遵循度(IF):通過(guò)基于 VLM 的跨模態(tài)對(duì)齊分?jǐn)?shù),衡量編輯圖像滿足指令的程度。
2. 非編輯一致性(NC):評(píng)估非目標(biāo)區(qū)域的保留情況,對(duì)編輯區(qū)域外的意外變化進(jìn)行懲罰。
3. 視覺質(zhì)量(VQ):基于指令的自然度、連貫性和視覺風(fēng)格一致性的評(píng)估。
4. 推理準(zhǔn)確性(RA):針對(duì)基于推理知識(shí)的編輯任務(wù),VLM會(huì)利用所提供的reasoning points 列表,針對(duì)實(shí)際編輯變化進(jìn)行對(duì)比打分,該列表均經(jīng)過(guò)人工進(jìn)行核驗(yàn)優(yōu)化。
對(duì)主流模型的評(píng)估結(jié)果顯示,閉源模型在整體能力上顯著優(yōu)于開源模型,GPT-Image-1 在英文和中文任務(wù)上均取得了最高的綜合得分,展現(xiàn)出最優(yōu)的通用編輯能力。開源模型中,Qwen-Image-Edit 表現(xiàn)最佳,開始縮小與閉源模型的差距。但所有模型在推理準(zhǔn)確性(RA)指標(biāo)上均出現(xiàn)了顯著的性能下降,這表明當(dāng)前模型在執(zhí)行需要復(fù)雜邏輯推理或世界知識(shí)的編輯任務(wù)時(shí)存在普遍的局限性,為未來(lái)的研究指明了方向。
![]()
圖5: 各模型在 UnicBench 子任務(wù)上的綜合評(píng)分,左側(cè)為英文(EN)指令結(jié)果,右側(cè)為中文(CN)指令結(jié)果。所有結(jié)果均由 GPT-4o 進(jìn)行評(píng)估。
![]()
表1: 不同模型在 UnicBench 上的綜合性能表現(xiàn)。開源模型與閉源模型的結(jié)果分別標(biāo)注,其中最優(yōu)性能以加粗表示,次優(yōu)性能以下劃線表示。
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.