337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「Thinking with Images」推理速度太慢?「Zooming without Zooming」 讓AI不調(diào)用工具也能「明察秋毫」!

0
分享至


ZwZ 通過"區(qū)域到圖像蒸餾"將推理時(shí)的 Zooming 操作轉(zhuǎn)化為訓(xùn)練目標(biāo),讓多模態(tài)大模型不需要調(diào)用工具、僅在單次前向傳播中實(shí)現(xiàn)細(xì)粒度感知,同時(shí)達(dá)到開源SOTA性能。


上海交通大學(xué)與螞蟻集團(tuán)聯(lián)合研究團(tuán)隊(duì)發(fā)布最新多模態(tài)大模型成果“Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception”。這項(xiàng)研究讓多模態(tài)大模型在單次前向傳播中就能實(shí)現(xiàn)原本需要反復(fù)"放大-觀察"才能完成的細(xì)粒度感知任務(wù),真正做到"既快又準(zhǔn)"。團(tuán)隊(duì)開源的 ZwZ(4/7/8B)模型家族在多模態(tài)細(xì)粒度感知任務(wù)中達(dá)到開源模型 SOTA 性能,超越 Kimi-K2.5、Qwen3-VL-235B 等眾多行業(yè)標(biāo)桿模型。


論文信息

標(biāo)題: Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

論文: https://arxiv.org/pdf/2602.11858

作者: 魏來、何梁博、蘭鈞、董凌眾、蔡雨彤、李思遠(yuǎn)、祝慧佳、王維強(qiáng)、孔令和、汪躍、張倬勝、黃維然

單位: 上海交通大學(xué)、螞蟻集團(tuán)、北京中關(guān)村學(xué)院、上海創(chuàng)智學(xué)院

代碼: https://github.com/inclusionAI/Zooming-without-Zooming

模型/數(shù)據(jù): https://huggingface.co/collections/inclusionAI/zooming-without-zooming

01


痛點(diǎn):AI看圖的"近視困境"

當(dāng)前多模態(tài)大語言模型(MLLMs)雖然已具備不錯(cuò)的圖像理解能力,但在細(xì)粒度感知任務(wù)上卻仍然容易變成"近視眼":面對(duì)圖片中的微小文字與符號(hào)常常視而不見,難以辨別細(xì)膩的顏色差異和材質(zhì)紋理,在密集小物體的計(jì)數(shù)任務(wù)上也頻繁出錯(cuò)。這類任務(wù)的共同特點(diǎn)是:關(guān)鍵證據(jù)往往只占圖像的很小區(qū)域,極易被全局上下文淹沒,模型必須從成千上萬的視覺 tokens 中精準(zhǔn)檢索這些"滄海遺珠",難度可想而知。

為破解這一困局,當(dāng)前主流方案是“Thinking-with-Images”范式,即讓AI像人一樣反復(fù)縮放、裁剪、觀察感興趣區(qū)域。這種交互式方法確實(shí)能緩解感知壓力,一旦微小區(qū)塊被單獨(dú)提取出來,模型便能專注于細(xì)節(jié)識(shí)別,將"大海撈針"轉(zhuǎn)化為直接辨認(rèn)。然而,代價(jià)同樣明顯:多次工具調(diào)用與反復(fù)視覺編碼帶來嚴(yán)重的延遲開銷,讓實(shí)時(shí)應(yīng)用成為奢望。

核心問題:能否既享受"放大觀察"的準(zhǔn)確性,又保持"一眼掃過"的速度?

02


破局:把"縮放"從推理工具轉(zhuǎn)成訓(xùn)練目標(biāo)


為此,研究團(tuán)隊(duì)提出了Region-to-Image Distillation(R2I,區(qū)域到圖像蒸餾)方法,核心思路簡潔而巧妙:先通過Zoom in讓模型聚焦“小圖”合成高質(zhì)量數(shù)據(jù);隨后再Zoom out將這些合成的數(shù)據(jù)映射回全圖視角,并基于這些數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),使模型逐步學(xué)會(huì)直接“從全圖看”。最終,模型在推理階段無需再執(zhí)行 Zoom in and out 操作,相當(dāng)于將模型在局部區(qū)域(Region)上的高精度能力蒸餾到全圖(Image)視角中。

具體而言,R2I 包含以下幾個(gè)關(guān)鍵步驟:

1、首先利用目標(biāo)檢測系統(tǒng)定位圖像中的微小區(qū)塊(面積小于原圖的10%),確保這些區(qū)域包含關(guān)鍵視覺證據(jù);

2、接著讓 Qwen3-VL-235B、GLM-4.5V 等強(qiáng)模型在裁剪后的清晰小圖上生成感知相關(guān)問題;

3、通過多模型投票達(dá)成共識(shí)答案,只保留高置信度的標(biāo)注以最大限度抑制幻覺;

4、為避免指代歧義,將邊界框疊加到原圖上,并在問題中加入空間約束(如"只看紅框內(nèi)的物體");

5、隨后用拒絕采樣過濾掉太簡單的樣本確保訓(xùn)練效率;

6、最后基于視覺錨定后的全圖、合成的問題與答案,通過純強(qiáng)化學(xué)習(xí)訓(xùn)練,讓模型學(xué)會(huì)直接從全圖中定位并看清關(guān)鍵證據(jù),無需任何工具調(diào)用

總結(jié)來說:我們?cè)诤铣蓴?shù)據(jù)時(shí)為多模態(tài)大模型"戴上放大鏡",利用"Zooming"確保合成數(shù)據(jù)的高質(zhì)量;訓(xùn)練時(shí)基于原圖訓(xùn)練,讓模型只看原圖就能回答正確,實(shí)現(xiàn)"裸眼看清"!

03


ZoomBench:細(xì)粒度感知的新基準(zhǔn)


為嚴(yán)格評(píng)估這種"不縮放也能看清"的能力,研究團(tuán)隊(duì)專門構(gòu)建了ZoomBench基準(zhǔn)測試。該 benchmark 包含 845 個(gè)高質(zhì)量樣本,涵蓋大量高分辨率圖片,采用 AI 合成與人工驗(yàn)證相結(jié)合的高效混合構(gòu)建方式——每個(gè)問答對(duì)先由 AI 合成,再經(jīng) 3 位作者獨(dú)立審核,確保問題有效、答案準(zhǔn)確。與現(xiàn)有基準(zhǔn)相比,ZoomBench 實(shí)現(xiàn)了六大感知維度的全覆蓋,包括細(xì)粒度計(jì)數(shù)(24%)、OCR(15%)、顏色屬性(29%)、結(jié)構(gòu)屬性(18%)、材質(zhì)屬性(7%)和物體識(shí)別(7%),同時(shí)支持多選題與開放題兩種格式。


ZoomBench 的核心創(chuàng)新在于雙視角評(píng)估模式(Dual-View)。每個(gè)樣本都提供完整原圖和對(duì)應(yīng)的關(guān)鍵區(qū)域裁剪圖,分別對(duì)應(yīng)"全局視角"和"局部視角"兩種測試條件。局部視角準(zhǔn)確率可視為理論上限(證據(jù)明確可見時(shí)模型能否答對(duì)),全局視角準(zhǔn)確率則反映真實(shí)場景下的感知能力(能否從完整圖片中定位關(guān)鍵證據(jù))。兩者之差即為"縮放差距"(Zooming Gap),這一指標(biāo)直接量化了模型"找不到關(guān)鍵證據(jù)"的瓶頸,為診斷細(xì)粒度感知能力提供了精確標(biāo)尺。此外,ZoomBench 還配備自動(dòng)標(biāo)注的關(guān)鍵區(qū)域邊界框,支持基于注意力可視化的可解釋性分析。

04


效果:ZwZ 打敗超大規(guī)模模型

研究團(tuán)隊(duì)基于 Qwen-VL 用 Region-to-Image Distillation 合成的數(shù)據(jù)進(jìn)行強(qiáng)化微調(diào),得到的ZwZ 系列模型(4B/7B/8B 參數(shù))在多項(xiàng)基準(zhǔn)測試上表現(xiàn)亮眼。值得注意的是,8B 參數(shù)的 ZwZ-8B 在綜合感知任務(wù)平均性能上超過了 235B 參數(shù)的 Qwen3-VL-235B,108B 參數(shù)的 GLM-4.5V,以及最新發(fā)布的 1T 參數(shù)的 Kimi-K2.5,并且逼近最頂尖的閉源模型 Gemini-3-Flash。


同時(shí),ZwZ-8B 僅通過測試時(shí)單次推理,性能即可超越 Qwen3-VL-8B 結(jié)合官方工具的多輪交互效果,以及其他 Thinking with Images Agentic 模型(比如 Deepeyes,Thyme),速度提升約 10 倍。


此外,ZwZ 在 AIGC 檢測、GUI Agent 等真實(shí)任務(wù)上也展現(xiàn)出強(qiáng)勁的泛化能力。


ZoomBench 的獨(dú)特設(shè)計(jì)也讓我們能精確診斷模型的"視力問題"。在雙視角評(píng)估模式中,基線模型(Qwen3-VL-8B)呈現(xiàn)出明顯的"放大看得懂,不放大找不著"現(xiàn)象:局部視角準(zhǔn)確率 63% versus 全局視角 38%,差距高達(dá) 25%。而 ZwZ 將這一"縮放差距"顯著縮小至 15%,證明模型真正學(xué)會(huì)了從全局中定位微證據(jù)。注意力可視化結(jié)果進(jìn)一步佐證:ZwZ-8B 在關(guān)鍵邊界框內(nèi)的注意力覆蓋率從 17.39% 提升至 21.64%,提升了 4.25 個(gè)百分點(diǎn)。


05


深入洞察:什么時(shí)候該用工具,什么時(shí)候不需要?

論文深入探討了 “Thinking with Images” 范式的邊界,提出信息增益判別準(zhǔn)則,將工具動(dòng)作分為兩類:


信息增益型如網(wǎng)頁搜索、檢索外部知識(shí),這類操作引入當(dāng)前視圖不可預(yù)測的新信息,必須使用工具無信息增益型如縮放、旋轉(zhuǎn)、翻轉(zhuǎn)、2D/3D 定位、去噪等,僅是對(duì)已有信息的重新格式化或突出顯示,其結(jié)果完全可以基于當(dāng)前視圖預(yù)測,可通過訓(xùn)練內(nèi)化到模型中


核心洞察:如果工具調(diào)用只是"重新格式化"已有信息(讓關(guān)鍵細(xì)節(jié)更容易看),而非獲取新信息,那么它的收益完全可以用 Algorithm 1 所示的方法,通過訓(xùn)練內(nèi)化到模型權(quán)重中,無需在推理時(shí)犧牲速度。

Zooming 正是典型的無信息增益型操作——裁剪后的內(nèi)容本就存在于原圖中,只是被全局上下文"淹沒"。R2I 通過訓(xùn)練讓模型學(xué)會(huì)"腦內(nèi)縮放",將工具收益壓縮進(jìn)單次前向傳播。展望未來,研究團(tuán)隊(duì)認(rèn)為下一代 “Thinking with Images” 范式應(yīng)當(dāng)盡可能內(nèi)化無信息增益的工具調(diào)用,同時(shí)學(xué)會(huì)動(dòng)態(tài)靈活地調(diào)用能帶來信息增益的工具,在速度與能力之間取得最佳平衡。

06


總結(jié)

這項(xiàng)研究不僅提出了一種高效的數(shù)據(jù)合成方法,更重新定義了"工具使用"與"模型能力"的邊界——通過 Region-to-Image Distillation 將"縮放"從推理時(shí)工具轉(zhuǎn)化為訓(xùn)練時(shí)目標(biāo),讓多模態(tài)大模型在保持單遍推理速度的同時(shí),獲得媲美工具調(diào)用的細(xì)粒度感知能力,為實(shí)際部署提供了"既快又準(zhǔn)"的新范式。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
死敵也會(huì)伸出援手!梅西主動(dòng)幫貝爾康復(fù),足球最破防的一幕

死敵也會(huì)伸出援手!梅西主動(dòng)幫貝爾康復(fù),足球最破防的一幕

體育閑話說
2026-03-21 13:11:09
玄學(xué)提醒:如果一個(gè)人還在穿著10年前的衣服,只說明3個(gè)問題

玄學(xué)提醒:如果一個(gè)人還在穿著10年前的衣服,只說明3個(gè)問題

洞讀君
2026-03-04 14:30:12
00后潮汕女孩逆襲成頂流,這“黑裙殺性感身材”真實(shí)?

00后潮汕女孩逆襲成頂流,這“黑裙殺性感身材”真實(shí)?

娛樂領(lǐng)航家
2026-03-12 19:00:07
仲裁擺爛!巴拿馬不想賠20億違約金,公開撒謊,反咬長和一口

仲裁擺爛!巴拿馬不想賠20億違約金,公開撒謊,反咬長和一口

凡知
2026-03-21 19:48:28
向中國緊急求援,菲律賓主動(dòng)找上門,菲官員:中方已保證不會(huì)限制

向中國緊急求援,菲律賓主動(dòng)找上門,菲官員:中方已保證不會(huì)限制

肖茲探秘說
2026-03-20 19:26:42
他接受紀(jì)律審查和監(jiān)察調(diào)查

他接受紀(jì)律審查和監(jiān)察調(diào)查

錫望
2026-03-21 22:23:21
迪馬塔:向全中國展示了我們是強(qiáng)大的球隊(duì),是自己主場的冠軍

迪馬塔:向全中國展示了我們是強(qiáng)大的球隊(duì),是自己主場的冠軍

懂球帝
2026-03-21 21:57:43
男子蹭飯260頓后續(xù):拒拿2000賠償,正臉曝光,被同學(xué)認(rèn)出已社死

男子蹭飯260頓后續(xù):拒拿2000賠償,正臉曝光,被同學(xué)認(rèn)出已社死

潮鹿逐夢
2026-03-20 11:23:13
快訊:南航一大型客機(jī)雷達(dá)罩脫落!

快訊:南航一大型客機(jī)雷達(dá)罩脫落!

Thurman在昆明
2026-03-21 18:08:13
現(xiàn)在買還是再等等?記者實(shí)探手機(jī)“漲價(jià)潮”:部分機(jī)型已漲500元

現(xiàn)在買還是再等等?記者實(shí)探手機(jī)“漲價(jià)潮”:部分機(jī)型已漲500元

國際金融報(bào)
2026-03-20 17:12:14
別以為巡視是形式!在重慶這一仗,打得徹底、改得堅(jiān)決

別以為巡視是形式!在重慶這一仗,打得徹底、改得堅(jiān)決

天氣觀察站
2026-03-21 19:28:04
程瀟不愧是“奶瀟”

程瀟不愧是“奶瀟”

情感大頭說說
2026-03-16 00:19:50
中國排協(xié)官宣!15人集訓(xùn)名單公布,袁志接棒趙勇,江蘇女排大贏家

中國排協(xié)官宣!15人集訓(xùn)名單公布,袁志接棒趙勇,江蘇女排大贏家

跑者排球視角
2026-03-21 11:00:25
30.88萬起!雷克薩斯ES實(shí)車太帥了

30.88萬起!雷克薩斯ES實(shí)車太帥了

壹點(diǎn)兒
2026-03-20 21:52:10
復(fù)盤重慶3-3成都:比賽精彩跌宕起伏,“川渝德比”打出頂級(jí)水準(zhǔn)

復(fù)盤重慶3-3成都:比賽精彩跌宕起伏,“川渝德比”打出頂級(jí)水準(zhǔn)

里芃芃體育
2026-03-22 00:10:04
34分鐘1.5萬臺(tái)!小米新車又爆火,但雷軍卻變了

34分鐘1.5萬臺(tái)!小米新車又爆火,但雷軍卻變了

象視汽車
2026-03-21 07:00:05
盤點(diǎn)島國十位女老師作品數(shù)量驚人,榜首竟超 4000 部!

盤點(diǎn)島國十位女老師作品數(shù)量驚人,榜首竟超 4000 部!

碧波萬覽
2026-03-21 23:37:28
大力發(fā)展但要守規(guī)矩!國家航天局已規(guī)定:商業(yè)航天必須“歸零”!

大力發(fā)展但要守規(guī)矩!國家航天局已規(guī)定:商業(yè)航天必須“歸零”!

Thurman在昆明
2026-03-21 18:10:15
資治通鑒的啟示:真正聰明的人,不爭對(duì)錯(cuò),但必爭這4樣?xùn)|西

資治通鑒的啟示:真正聰明的人,不爭對(duì)錯(cuò),但必爭這4樣?xùn)|西

金沛的國學(xué)筆記
2026-03-19 15:51:52
1-0!意甲爭冠又有懸念:那不勒斯4連勝+差榜首6分,國米有對(duì)手了

1-0!意甲爭冠又有懸念:那不勒斯4連勝+差榜首6分,國米有對(duì)手了

體育知多少
2026-03-21 07:23:49
2026-03-22 00:48:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7134文章數(shù) 20742關(guān)注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機(jī)器人出貨量第一!

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

財(cái)經(jīng)要聞

通脹警報(bào)拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年?duì)I收767億

態(tài)度原創(chuàng)

教育
數(shù)碼
房產(chǎn)
家居
公開課

教育要聞

高考地理中的湖岸沉積

數(shù)碼要聞

炸鍋!國產(chǎn)存儲(chǔ)芯片再突破!手機(jī)固態(tài)價(jià)格大跳水,內(nèi)存自由要來了

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計(jì)劃】,即刻啟動(dòng)!

家居要聞

時(shí)空交織 空間綺夢

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版