337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

浙大&騰訊打破圖像編輯「規(guī)模-質(zhì)量」魔咒:1000萬(wàn)數(shù)據(jù)+統(tǒng)一驗(yàn)證框架,讓開源模型追上閉源SOTA | CVPR 2026

0
分享至


他們用一套"質(zhì)檢+改題"雙系統(tǒng),造出了AI圖像編輯領(lǐng)域的第一套標(biāo)準(zhǔn)化教材。

不知你有沒有發(fā)現(xiàn),用ChatGPT里的圖像編輯挺順,但換幾個(gè)開源工具就頻頻翻車?這不是錯(cuò)覺——頂尖閉源模型(如GPT-Image-1)和開源模型之間的差距,正在被越拉越大。 根源在于:開源陣營(yíng)手里沒有兩樣?xùn)|西——足夠多且足夠好的訓(xùn)練素材,以及一套能全面體檢模型能力的'診斷系統(tǒng)'。

更麻煩的是,做數(shù)據(jù)就像走鋼絲:純手工打造的精品數(shù)據(jù)集,質(zhì)量過(guò)硬但根本攢不夠量;全自動(dòng)流水線倒是能批量生產(chǎn),但環(huán)節(jié)一多,前面的小錯(cuò)會(huì)一路放大成災(zāi)難——比如第一步識(shí)別錯(cuò)了物體,后面所有編輯都跟著跑偏。

具體來(lái)說(shuō),現(xiàn)在的數(shù)據(jù)生產(chǎn)有三個(gè)漏銅:

? '傳話游戲'式誤差:一個(gè)編輯任務(wù)要過(guò)N個(gè)工具(識(shí)別→分割→生成→融合),前面一步歪一點(diǎn),后面步步歪;

? '安檢'走過(guò)場(chǎng):要么只查'有沒有出圖'而不管文本指令對(duì)不對(duì),要么花大價(jià)錢調(diào)API改文字描述,卻不管圖本身質(zhì)量;

? '考試范圍'太窄:現(xiàn)有測(cè)試只考'換顏色'、'加物體'這種基礎(chǔ)題,不考'從空中俯瞰這個(gè)建筑'這種空間理解題,也不考'將咖啡壺變?yōu)橹蠓袪顟B(tài)'這種需要常識(shí)推理的題。而且評(píng)分標(biāo)準(zhǔn)還有bug——背景被偷偷改了看不出來(lái),風(fēng)格一變就扣冤枉分。


圖1: UnicEdit-10M 涵蓋了跨越基礎(chǔ)與復(fù)雜編輯的 22 種編輯任務(wù)。該數(shù)據(jù)集采用統(tǒng)一的后置驗(yàn)證階段,通過(guò)過(guò)濾失敗樣本并精煉指令,從而產(chǎn)出高質(zhì)量的三元組數(shù)據(jù)。此外,我們還推出了配套的 UnicBench,利用細(xì)粒度指標(biāo)進(jìn)行全面評(píng)估。

針對(duì)這個(gè)痛點(diǎn),浙江大學(xué)和騰訊聯(lián)合搞了個(gè)大動(dòng)作:他們不僅造出了1000萬(wàn)組高質(zhì)量的"圖像編輯練習(xí)題"(UnicEdit-10M),還配了一套22類難度遞進(jìn)的"全真模擬考卷"(UnicBench)。簡(jiǎn)單來(lái)說(shuō),就是給AI圖像編輯領(lǐng)域提供了標(biāo)準(zhǔn)化的教材+考試系統(tǒng)。除此之外,他們還配置了一名"嚴(yán)格判官"(Qwen-Verify),對(duì)生成的圖像編輯數(shù)據(jù)進(jìn)行嚴(yán)格的篩選和優(yōu)化,保證最終得到的"練習(xí)題"的答案都是正確且高質(zhì)量的。


論文標(biāo)題:UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

論文地址:https://arxiv.org/pdf/2512.02790

代碼倉(cāng)庫(kù):https://github.com/WeChatCV/UnicBench

項(xiàng)目主頁(yè):https://hongsexiaotanhua.github.io/UnicEdit-10M/

數(shù)據(jù)集:https://huggingface.co/datasets/xiaotanhua/UnicEdit-10M

Benchmark:https://huggingface.co/datasets/xiaotanhua/UnicBench

01


核心亮點(diǎn)

1. 大規(guī)模高質(zhì)量數(shù)據(jù)集 UnicEdit-10M:構(gòu)建了包含 10M 樣本的高質(zhì)量圖像編輯數(shù)據(jù)集,覆蓋 22 種編輯任務(wù),不僅包含基礎(chǔ)的屬性和對(duì)象編輯,還涵蓋幾何空間變化和基于推理知識(shí)的編輯任務(wù),同時(shí),該數(shù)據(jù)集的圖像美學(xué)得分也超越其他數(shù)據(jù)集。

2. Qwen-Verify 后校驗(yàn)專家模型:訓(xùn)練了一個(gè) 7B 規(guī)模的雙任務(wù)專家模型,能夠同時(shí)進(jìn)行細(xì)粒度的失敗檢測(cè)和指令重寫,在計(jì)算成本和經(jīng)濟(jì)成本遠(yuǎn)低于 Qwen2.5-VL-72B 的情況下,實(shí)現(xiàn)了更優(yōu)的性能。

3. UnicBench 綜合評(píng)估基準(zhǔn):提出了覆蓋基礎(chǔ)編輯、幾何空間變化以及基于推理知識(shí)編輯任務(wù)的綜合基準(zhǔn),引入了非編輯一致性和推理準(zhǔn)確性等新穎評(píng)估指標(biāo),能夠全面診斷模型的編輯能力,為未來(lái)研究提供了清晰的方向。


圖2: UnicEdit-10M 中所有子任務(wù)的代表性編輯樣例。

02


UnicEdit-10M數(shù)據(jù)集構(gòu)建

UnicEdit-10M 的構(gòu)建采用了三階段的高效自動(dòng)化流水線:

1. 指令生成階段:使用 Qwen2.5-VL-72B 模型,基于預(yù)定義的編輯分類體系,為每張圖像生成 3-7 個(gè)不同的、符合內(nèi)容的編輯指令,確保任務(wù)分布均衡,無(wú)需人工標(biāo)注。

2. 圖像編輯階段:使用 FLUX.1-Kontext 和 Qwen-Image-Edit 兩款領(lǐng)先的開源編輯模型,對(duì)每一對(duì)〈原始圖像,指令〉進(jìn)行處理,生成編輯后的圖像,形成初始的三元組。同時(shí)對(duì)源圖像進(jìn)行中心裁剪和縮放預(yù)處理,并進(jìn)行質(zhì)量檢查,丟棄需要超過(guò) 20% 裁剪的圖像,避免內(nèi)容丟失。

3. 后校驗(yàn)階段:所有合成的三元組都經(jīng)過(guò)統(tǒng)一的后校驗(yàn)環(huán)節(jié),不僅過(guò)濾掉失敗的樣本,還會(huì)優(yōu)化對(duì)應(yīng)的指令,增強(qiáng)其與視覺編輯的語(yǔ)義對(duì)齊。

最終生成的 UnicEdit-10M 數(shù)據(jù)集包含約 10M 個(gè)三元組,分為 4 大編輯類型:場(chǎng)景編輯(3.063M 樣本)、屬性編輯(3.529M 樣本)、對(duì)象編輯(3.242M 樣本)和推理編輯(1.746M 樣本),其中 50% 的圖像為 1024×1024 的高分辨率圖像。


圖3: 包含三個(gè)階段的數(shù)據(jù)構(gòu)建流水線:(1) 數(shù)據(jù)準(zhǔn)備;(2) 圖像編輯;(3) 后校驗(yàn),用于過(guò)濾失敗的編輯樣本并進(jìn)行指令重寫(Recaption)。

03


后校驗(yàn)專家模型

在后校驗(yàn)階段,為了實(shí)現(xiàn)更為準(zhǔn)確和高效的質(zhì)量控制,作者訓(xùn)練了7B的雙任務(wù)后校驗(yàn)專家模型Qwen-Verify,通過(guò)使用人類標(biāo)注的偏好數(shù)據(jù)進(jìn)行偏好對(duì)齊,實(shí)現(xiàn)更為準(zhǔn)確的數(shù)據(jù)篩選。該專家模型能夠同時(shí)執(zhí)行如下兩個(gè)關(guān)鍵任務(wù)::

1. 編輯失敗檢測(cè):能夠細(xì)粒度地識(shí)別出編輯失敗的樣本,包括無(wú)編輯、幻覺等情況,相比傳統(tǒng)的 SSIM 等像素級(jí)指標(biāo),Qwen-Verify 具備語(yǔ)義理解能力,能夠準(zhǔn)確識(shí)別出語(yǔ)義上有變化但視覺上細(xì)微的編輯,同時(shí)忽略生成過(guò)程中微小的像素級(jí)噪聲。

2. 編輯指令重寫:能夠?qū)εc編輯結(jié)果語(yǔ)義對(duì)齊不足的指令進(jìn)行重寫,確保指令與實(shí)際的視覺變換精確匹配。

對(duì)比實(shí)驗(yàn)顯示,Qwen-Verify 在正常編輯、無(wú)編輯和幻覺檢測(cè)的準(zhǔn)確率上均顯著優(yōu)于 Qwen2.5-VL-7B、Qwen2.5-VL-72B 等基線模型,在人臉一致性等關(guān)鍵指標(biāo)上,UnicEdit-10M 的一致性得分達(dá)到 0.89,遠(yuǎn)優(yōu)于 GPT-Image-Edit-1.5M 的 0.3025,展現(xiàn)出在保持關(guān)鍵主體細(xì)節(jié)上的卓越能力。


圖4: 專家模型后校驗(yàn)樣例。其中:Base 表示 Qwen2.5-VL-7B 模型;SFT 表示經(jīng)過(guò)第一階段指令微調(diào)后的基礎(chǔ)模型;Ours 表示我們提出的雙任務(wù)專家模型 Qwen-Verify。

04


UnicBench:綜合編輯能力評(píng)測(cè)

UnicBench 是一個(gè)覆蓋基礎(chǔ)編輯、幾何空間變化以及基于推理知識(shí)編輯任務(wù)的綜合基準(zhǔn),其構(gòu)建過(guò)程采用了 VLM 與人工結(jié)合的工作流:首先由 Qwen2.5-VL 生成候選指令,再由人類專家進(jìn)行審核,移除模糊或語(yǔ)義不一致的提示,并進(jìn)行重寫以匹配特定的編輯任務(wù)類別,每個(gè)類別包含 50 個(gè)測(cè)試用例。

為了實(shí)現(xiàn)更精準(zhǔn)的評(píng)估,UnicBench 引入了四個(gè)專門的評(píng)估指標(biāo):

1. 指令遵循度(IF):通過(guò)基于 VLM 的跨模態(tài)對(duì)齊分?jǐn)?shù),衡量編輯圖像滿足指令的程度。

2. 非編輯一致性(NC):評(píng)估非目標(biāo)區(qū)域的保留情況,對(duì)編輯區(qū)域外的意外變化進(jìn)行懲罰。

3. 視覺質(zhì)量(VQ):基于指令的自然度、連貫性和視覺風(fēng)格一致性的評(píng)估。

4. 推理準(zhǔn)確性(RA):針對(duì)基于推理知識(shí)的編輯任務(wù),VLM會(huì)利用所提供的reasoning points 列表,針對(duì)實(shí)際編輯變化進(jìn)行對(duì)比打分,該列表均經(jīng)過(guò)人工進(jìn)行核驗(yàn)優(yōu)化。

對(duì)主流模型的評(píng)估結(jié)果顯示,閉源模型在整體能力上顯著優(yōu)于開源模型,GPT-Image-1 在英文和中文任務(wù)上均取得了最高的綜合得分,展現(xiàn)出最優(yōu)的通用編輯能力。開源模型中,Qwen-Image-Edit 表現(xiàn)最佳,開始縮小與閉源模型的差距。但所有模型在推理準(zhǔn)確性(RA)指標(biāo)上均出現(xiàn)了顯著的性能下降,這表明當(dāng)前模型在執(zhí)行需要復(fù)雜邏輯推理或世界知識(shí)的編輯任務(wù)時(shí)存在普遍的局限性,為未來(lái)的研究指明了方向。


圖5: 各模型在 UnicBench 子任務(wù)上的綜合評(píng)分,左側(cè)為英文(EN)指令結(jié)果,右側(cè)為中文(CN)指令結(jié)果。所有結(jié)果均由 GPT-4o 進(jìn)行評(píng)估。


表1: 不同模型在 UnicBench 上的綜合性能表現(xiàn)。開源模型與閉源模型的結(jié)果分別標(biāo)注,其中最優(yōu)性能以加粗表示,次優(yōu)性能以下劃線表示。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
玄學(xué)提醒:如果一個(gè)人還在穿著10年前的衣服,只說(shuō)明3個(gè)問題

玄學(xué)提醒:如果一個(gè)人還在穿著10年前的衣服,只說(shuō)明3個(gè)問題

洞讀君
2026-03-04 14:30:12
7歲撿破爛,744分考上清華:如今成了撕開西方封鎖的國(guó)之棟梁

7歲撿破爛,744分考上清華:如今成了撕開西方封鎖的國(guó)之棟梁

跳跳歷史
2026-03-19 23:06:29
2-0!譽(yù)為“史上最強(qiáng)U17國(guó)足”又贏了,4連勝轟14球,劍指世界杯

2-0!譽(yù)為“史上最強(qiáng)U17國(guó)足”又贏了,4連勝轟14球,劍指世界杯

侃球熊弟
2026-03-21 22:52:28
重慶銅梁龍3-3成都蓉城原因,劉建業(yè)賽后點(diǎn)評(píng)一針見血

重慶銅梁龍3-3成都蓉城原因,劉建業(yè)賽后點(diǎn)評(píng)一針見血

曉隯就是我
2026-03-22 02:24:52
澤連斯基坐不住了,急著重啟談判?俄方潑冷水:只要是你就不可能

澤連斯基坐不住了,急著重啟談判?俄方潑冷水:只要是你就不可能

補(bǔ)懂事的孩紙
2026-03-22 03:45:12
不管你“泡”多大年紀(jì)的女人,對(duì)方身體有這4個(gè)特征,99%會(huì)成功

不管你“泡”多大年紀(jì)的女人,對(duì)方身體有這4個(gè)特征,99%會(huì)成功

小影的娛樂
2026-03-21 11:26:41
中俄聯(lián)手都鎮(zhèn)不住高市早苗,知名學(xué)者判斷:中日一個(gè)月內(nèi)或有空戰(zhàn)

中俄聯(lián)手都鎮(zhèn)不住高市早苗,知名學(xué)者判斷:中日一個(gè)月內(nèi)或有空戰(zhàn)

安安說(shuō)
2026-03-02 13:42:53
兩會(huì)結(jié)束僅半月,演藝圈變天,不少人面臨失業(yè),真叫馮遠(yuǎn)征說(shuō)對(duì)了

兩會(huì)結(jié)束僅半月,演藝圈變天,不少人面臨失業(yè),真叫馮遠(yuǎn)征說(shuō)對(duì)了

潘殤旅行浪子
2026-03-21 19:19:32
梅姨落網(wǎng),天下無(wú)拐

梅姨落網(wǎng),天下無(wú)拐

畫生筆記
2026-03-21 20:04:00
劉燁的基因太強(qiáng)大了,兒子太像他了,諾一是中法混血兒,很帥

劉燁的基因太強(qiáng)大了,兒子太像他了,諾一是中法混血兒,很帥

喜歡歷史的阿繁
2026-03-21 14:29:01
陪玩僅僅是開胃菜,繼關(guān)曉彤事件后,岳云鵬再次揭露內(nèi)娛的陰暗面

陪玩僅僅是開胃菜,繼關(guān)曉彤事件后,岳云鵬再次揭露內(nèi)娛的陰暗面

素衣讀史
2026-03-19 17:09:10
赤身被吊在房梁上,下體被插上銅棒通電,遺照卻一直被日寇供奉著

赤身被吊在房梁上,下體被插上銅棒通電,遺照卻一直被日寇供奉著

芳芳?xì)v史燴
2026-03-17 22:06:40
總有一天你會(huì)明白:所有的相遇,都是一場(chǎng)“因果”

總有一天你會(huì)明白:所有的相遇,都是一場(chǎng)“因果”

舒山有鹿
2026-03-08 13:01:04
別再說(shuō)哈登老了!加盟騎士16場(chǎng)比賽,數(shù)據(jù)告訴你他到底有多強(qiáng)?

別再說(shuō)哈登老了!加盟騎士16場(chǎng)比賽,數(shù)據(jù)告訴你他到底有多強(qiáng)?

田先生籃球
2026-03-21 11:21:32
翁玉林教授逝世,頂尖大學(xué)哀悼

翁玉林教授逝世,頂尖大學(xué)哀悼

雙一流高校
2026-03-21 00:12:38
女足亞洲杯落幕!日本4屆奪3冠,只輸給中國(guó),水慶霞的含金量上升

女足亞洲杯落幕!日本4屆奪3冠,只輸給中國(guó),水慶霞的含金量上升

球場(chǎng)沒跑道
2026-03-21 19:18:53
南航一客機(jī)起飛后遭鳥擊返航上海,機(jī)頭雷達(dá)罩疑受損嚴(yán)重

南航一客機(jī)起飛后遭鳥擊返航上海,機(jī)頭雷達(dá)罩疑受損嚴(yán)重

新京報(bào)
2026-03-21 17:53:16
廣東一顧客買的“冷鮮豬肉”,掃碼顯示屠宰日期為130天前?山姆最新回應(yīng)

廣東一顧客買的“冷鮮豬肉”,掃碼顯示屠宰日期為130天前?山姆最新回應(yīng)

FM96.2廣州新聞電臺(tái)
2026-03-21 15:19:23
“伊朗沖突后,中國(guó)電動(dòng)汽車在亞太賣爆”

“伊朗沖突后,中國(guó)電動(dòng)汽車在亞太賣爆”

觀察者網(wǎng)
2026-03-20 12:29:03
潘展樂談100自摘銅:大場(chǎng)面有點(diǎn)緊張!太心急檢驗(yàn)冬訓(xùn)成果影響發(fā)揮

潘展樂談100自摘銅:大場(chǎng)面有點(diǎn)緊張!太心急檢驗(yàn)冬訓(xùn)成果影響發(fā)揮

818體育
2026-03-21 21:25:13
2026-03-22 04:48:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7134文章數(shù) 20742關(guān)注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機(jī)器人出貨量第一!

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

體育要聞

誰(shuí)在決定字母哥未來(lái)?

娛樂要聞

田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

財(cái)經(jīng)要聞

通脹警報(bào)拉響,加息潮要來(lái)了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年?duì)I收767億

態(tài)度原創(chuàng)

親子
健康
房產(chǎn)
公開課
軍事航空

親子要聞

什么牌子駝奶粉好?2026中國(guó)駝奶品牌評(píng)測(cè),原生營(yíng)養(yǎng)無(wú)可挑剔

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計(jì)劃】,即刻啟動(dòng)!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:正考慮逐步降級(jí)對(duì)伊朗的軍事行動(dòng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版