網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

「Thinking with Images」推理速度太慢？「Zooming without Zooming」讓AI不調(diào)用工具也能「明察秋毫」！

2026-02-14 21:10:27　來源: AI科技評(píng)論

廣東舉報(bào)

分享至

ZwZ 通過"區(qū)域到圖像蒸餾"將推理時(shí)的 Zooming 操作轉(zhuǎn)化為訓(xùn)練目標(biāo)，讓多模態(tài)大模型不需要調(diào)用工具、僅在單次前向傳播中實(shí)現(xiàn)細(xì)粒度感知，同時(shí)達(dá)到開源SOTA性能。

上海交通大學(xué)與螞蟻集團(tuán)聯(lián)合研究團(tuán)隊(duì)發(fā)布最新多模態(tài)大模型成果“Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception”。這項(xiàng)研究讓多模態(tài)大模型在單次前向傳播中就能實(shí)現(xiàn)原本需要反復(fù)"放大-觀察"才能完成的細(xì)粒度感知任務(wù)，真正做到"既快又準(zhǔn)"。團(tuán)隊(duì)開源的 ZwZ（4/7/8B）模型家族在多模態(tài)細(xì)粒度感知任務(wù)中達(dá)到開源模型 SOTA 性能，超越 Kimi-K2.5、Qwen3-VL-235B 等眾多行業(yè)標(biāo)桿模型。

論文信息

標(biāo)題: Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

論文: https://arxiv.org/pdf/2602.11858

作者: 魏來、何梁博、蘭鈞、董凌眾、蔡雨彤、李思遠(yuǎn)、祝慧佳、王維強(qiáng)、孔令和、汪躍、張倬勝、黃維然

單位: 上海交通大學(xué)、螞蟻集團(tuán)、北京中關(guān)村學(xué)院、上海創(chuàng)智學(xué)院

代碼: https://github.com/inclusionAI/Zooming-without-Zooming

模型/數(shù)據(jù): https://huggingface.co/collections/inclusionAI/zooming-without-zooming

痛點(diǎn)：AI看圖的"近視困境"

當(dāng)前多模態(tài)大語言模型（MLLMs）雖然已具備不錯(cuò)的圖像理解能力，但在細(xì)粒度感知任務(wù)上卻仍然容易變成"近視眼"：面對(duì)圖片中的微小文字與符號(hào)常常視而不見，難以辨別細(xì)膩的顏色差異和材質(zhì)紋理，在密集小物體的計(jì)數(shù)任務(wù)上也頻繁出錯(cuò)。這類任務(wù)的共同特點(diǎn)是：關(guān)鍵證據(jù)往往只占圖像的很小區(qū)域，極易被全局上下文淹沒，模型必須從成千上萬的視覺 tokens 中精準(zhǔn)檢索這些"滄海遺珠"，難度可想而知。

為破解這一困局，當(dāng)前主流方案是“Thinking-with-Images”范式，即讓AI像人一樣反復(fù)縮放、裁剪、觀察感興趣區(qū)域。這種交互式方法確實(shí)能緩解感知壓力，一旦微小區(qū)塊被單獨(dú)提取出來，模型便能專注于細(xì)節(jié)識(shí)別，將"大海撈針"轉(zhuǎn)化為直接辨認(rèn)。然而，代價(jià)同樣明顯：多次工具調(diào)用與反復(fù)視覺編碼帶來嚴(yán)重的延遲開銷，讓實(shí)時(shí)應(yīng)用成為奢望。

核心問題：能否既享受"放大觀察"的準(zhǔn)確性，又保持"一眼掃過"的速度？

破局：把"縮放"從推理工具轉(zhuǎn)成訓(xùn)練目標(biāo)

為此，研究團(tuán)隊(duì)提出了Region-to-Image Distillation（R2I，區(qū)域到圖像蒸餾）方法，核心思路簡潔而巧妙：先通過Zoom in讓模型聚焦“小圖”合成高質(zhì)量數(shù)據(jù)；隨后再Zoom out將這些合成的數(shù)據(jù)映射回全圖視角，并基于這些數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)，使模型逐步學(xué)會(huì)直接“從全圖看”。最終，模型在推理階段無需再執(zhí)行 Zoom in and out 操作，相當(dāng)于將模型在局部區(qū)域（Region）上的高精度能力蒸餾到全圖（Image）視角中。

具體而言，R2I 包含以下幾個(gè)關(guān)鍵步驟：

1、首先利用目標(biāo)檢測系統(tǒng)定位圖像中的微小區(qū)塊（面積小于原圖的10%），確保這些區(qū)域包含關(guān)鍵視覺證據(jù)；

2、接著讓 Qwen3-VL-235B、GLM-4.5V 等強(qiáng)模型在裁剪后的清晰小圖上生成感知相關(guān)問題；

3、通過多模型投票達(dá)成共識(shí)答案，只保留高置信度的標(biāo)注以最大限度抑制幻覺；

4、為避免指代歧義，將邊界框疊加到原圖上，并在問題中加入空間約束（如"只看紅框內(nèi)的物體"）；

5、隨后用拒絕采樣過濾掉太簡單的樣本確保訓(xùn)練效率；

6、最后基于視覺錨定后的全圖、合成的問題與答案，通過純強(qiáng)化學(xué)習(xí)訓(xùn)練，讓模型學(xué)會(huì)直接從全圖中定位并看清關(guān)鍵證據(jù)，無需任何工具調(diào)用。

總結(jié)來說：我們?cè)诤铣蓴?shù)據(jù)時(shí)為多模態(tài)大模型"戴上放大鏡"，利用"Zooming"確保合成數(shù)據(jù)的高質(zhì)量；訓(xùn)練時(shí)基于原圖訓(xùn)練，讓模型只看原圖就能回答正確，實(shí)現(xiàn)"裸眼看清"！

ZoomBench：細(xì)粒度感知的新基準(zhǔn)

為嚴(yán)格評(píng)估這種"不縮放也能看清"的能力，研究團(tuán)隊(duì)專門構(gòu)建了ZoomBench基準(zhǔn)測試。該 benchmark 包含 845 個(gè)高質(zhì)量樣本，涵蓋大量高分辨率圖片，采用 AI 合成與人工驗(yàn)證相結(jié)合的高效混合構(gòu)建方式——每個(gè)問答對(duì)先由 AI 合成，再經(jīng) 3 位作者獨(dú)立審核，確保問題有效、答案準(zhǔn)確。與現(xiàn)有基準(zhǔn)相比，ZoomBench 實(shí)現(xiàn)了六大感知維度的全覆蓋，包括細(xì)粒度計(jì)數(shù)（24%）、OCR（15%）、顏色屬性（29%）、結(jié)構(gòu)屬性（18%）、材質(zhì)屬性（7%）和物體識(shí)別（7%），同時(shí)支持多選題與開放題兩種格式。

ZoomBench 的核心創(chuàng)新在于雙視角評(píng)估模式（Dual-View）。每個(gè)樣本都提供完整原圖和對(duì)應(yīng)的關(guān)鍵區(qū)域裁剪圖，分別對(duì)應(yīng)"全局視角"和"局部視角"兩種測試條件。局部視角準(zhǔn)確率可視為理論上限（證據(jù)明確可見時(shí)模型能否答對(duì)），全局視角準(zhǔn)確率則反映真實(shí)場景下的感知能力（能否從完整圖片中定位關(guān)鍵證據(jù)）。兩者之差即為"縮放差距"（Zooming Gap），這一指標(biāo)直接量化了模型"找不到關(guān)鍵證據(jù)"的瓶頸，為診斷細(xì)粒度感知能力提供了精確標(biāo)尺。此外，ZoomBench 還配備自動(dòng)標(biāo)注的關(guān)鍵區(qū)域邊界框，支持基于注意力可視化的可解釋性分析。

效果：ZwZ 打敗超大規(guī)模模型

研究團(tuán)隊(duì)基于 Qwen-VL 用 Region-to-Image Distillation 合成的數(shù)據(jù)進(jìn)行強(qiáng)化微調(diào)，得到的ZwZ 系列模型（4B/7B/8B 參數(shù)）在多項(xiàng)基準(zhǔn)測試上表現(xiàn)亮眼。值得注意的是，8B 參數(shù)的 ZwZ-8B 在綜合感知任務(wù)平均性能上超過了 235B 參數(shù)的 Qwen3-VL-235B，108B 參數(shù)的 GLM-4.5V，以及最新發(fā)布的 1T 參數(shù)的 Kimi-K2.5，并且逼近最頂尖的閉源模型 Gemini-3-Flash。

同時(shí)，ZwZ-8B 僅通過測試時(shí)單次推理，性能即可超越 Qwen3-VL-8B 結(jié)合官方工具的多輪交互效果，以及其他 Thinking with Images Agentic 模型（比如 Deepeyes，Thyme），速度提升約 10 倍。

此外，ZwZ 在 AIGC 檢測、GUI Agent 等真實(shí)任務(wù)上也展現(xiàn)出強(qiáng)勁的泛化能力。

ZoomBench 的獨(dú)特設(shè)計(jì)也讓我們能精確診斷模型的"視力問題"。在雙視角評(píng)估模式中，基線模型（Qwen3-VL-8B）呈現(xiàn)出明顯的"放大看得懂，不放大找不著"現(xiàn)象：局部視角準(zhǔn)確率 63% versus 全局視角 38%，差距高達(dá) 25%。而 ZwZ 將這一"縮放差距"顯著縮小至 15%，證明模型真正學(xué)會(huì)了從全局中定位微證據(jù)。注意力可視化結(jié)果進(jìn)一步佐證：ZwZ-8B 在關(guān)鍵邊界框內(nèi)的注意力覆蓋率從 17.39% 提升至 21.64%，提升了 4.25 個(gè)百分點(diǎn)。

深入洞察：什么時(shí)候該用工具，什么時(shí)候不需要？

論文深入探討了 “Thinking with Images” 范式的邊界，提出信息增益判別準(zhǔn)則，將工具動(dòng)作分為兩類：

信息增益型如網(wǎng)頁搜索、檢索外部知識(shí)，這類操作引入當(dāng)前視圖不可預(yù)測的新信息，必須使用工具；無信息增益型如縮放、旋轉(zhuǎn)、翻轉(zhuǎn)、2D/3D 定位、去噪等，僅是對(duì)已有信息的重新格式化或突出顯示，其結(jié)果完全可以基于當(dāng)前視圖預(yù)測，可通過訓(xùn)練內(nèi)化到模型中。

核心洞察：如果工具調(diào)用只是"重新格式化"已有信息（讓關(guān)鍵細(xì)節(jié)更容易看），而非獲取新信息，那么它的收益完全可以用 Algorithm 1 所示的方法，通過訓(xùn)練內(nèi)化到模型權(quán)重中，無需在推理時(shí)犧牲速度。

Zooming 正是典型的無信息增益型操作——裁剪后的內(nèi)容本就存在于原圖中，只是被全局上下文"淹沒"。R2I 通過訓(xùn)練讓模型學(xué)會(huì)"腦內(nèi)縮放"，將工具收益壓縮進(jìn)單次前向傳播。展望未來，研究團(tuán)隊(duì)認(rèn)為下一代 “Thinking with Images” 范式應(yīng)當(dāng)盡可能內(nèi)化無信息增益的工具調(diào)用，同時(shí)學(xué)會(huì)動(dòng)態(tài)靈活地調(diào)用能帶來信息增益的工具，在速度與能力之間取得最佳平衡。

總結(jié)

這項(xiàng)研究不僅提出了一種高效的數(shù)據(jù)合成方法，更重新定義了"工具使用"與"模型能力"的邊界——通過 Region-to-Image Distillation 將"縮放"從推理時(shí)工具轉(zhuǎn)化為訓(xùn)練時(shí)目標(biāo)，讓多模態(tài)大模型在保持單遍推理速度的同時(shí)，獲得媲美工具調(diào)用的細(xì)粒度感知能力，為實(shí)際部署提供了"既快又準(zhǔn)"的新范式。

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.