337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VisionThink提出視覺令牌壓縮新范式,驅(qū)動VLM效率革命

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

視覺語言模型(VLM)的性能會隨視覺令牌數(shù)量增加而顯著提升,但多數(shù)實際場景無需這么多視覺令牌。研究發(fā)現(xiàn),通用視覺問答任務(wù)中,即便圖像分辨率降至原有的四分之一,模型性能也僅出現(xiàn)輕微下滑;而在涉及細(xì)粒度文字識別的任務(wù)中,性能下降則十分明顯。

針對這一問題,CUHK、HKU和HKUST等機構(gòu)提出一種全新視覺令牌壓縮范式 VisionThink。該范式先對低分辨率圖像進行處理,再智能判斷這類圖像是否足以完成當(dāng)前任務(wù)。若判斷結(jié)果為不足,模型則會輸出特殊的令牌,以此請求高分辨率圖像。

相較于傳統(tǒng)固定壓縮比例的方法,VisionThink 能依據(jù)樣本內(nèi)容動態(tài)決定是否壓縮令牌,既在文字識別任務(wù)中維持了出色性能,又在簡單任務(wù)中大幅降低了計算量。采用強化學(xué)習(xí)方法,設(shè)計 “大型語言模型作為評判者” 的策略,有效優(yōu)化了模型在通用視覺問答任務(wù)中的表現(xiàn)。同時,借助精心構(gòu)建的獎勵函數(shù)與懲罰機制,VisionThink 成功實現(xiàn)了穩(wěn)定且合理的圖像調(diào)整大小調(diào)用比例,廣泛的實驗表明了本方法的優(yōu)越性、效率和有效性。模型已更新上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/Senqiao/VisionThink-General

01.

瓶頸分析

強化學(xué)習(xí)是提升大型語言模型推理能力的有效方法,本研究采用組相對策略優(yōu)化(GRPO)方法,通過組評分估計基線降低計算成本并提高訓(xùn)練穩(wěn)定性,訓(xùn)練中模型將依據(jù)問題構(gòu)建一組輸出,在以 KL 散度約束避免偏離參考模型的同時優(yōu)化策略以最大化獎勵。

而視覺語言模型的計算復(fù)雜度主要來自自注意力機制和前饋神經(jīng)網(wǎng)絡(luò),總計算量與 Transformer 層數(shù)、序列長度、隱藏層維度及前饋網(wǎng)絡(luò)中間層大小相關(guān),序列長度由系統(tǒng)提示、圖像令牌和問題令牌組成且圖像令牌占比最大,因此控制圖像令牌數(shù)量是提升模型效率的關(guān)鍵,兩者形成 “痛點定位 - 技術(shù)落地” 的呼應(yīng),共同服務(wù)于提升視覺語言模型性能與效率的目標(biāo)。

02.

核心技術(shù)框架

VisionThink 旨在開發(fā)一種智能高效的視覺語言模型,能夠自主判斷低分辨率圖像是否足以回答問題,其流程為首先處理低分辨率圖像,若信息不足則輸出特殊令牌請求高分辨率圖像,進而降低計算成本并保持性能。


而實現(xiàn)這一目標(biāo)需解決兩個挑戰(zhàn),一是將強化學(xué)習(xí)有效應(yīng)用于通用視覺問答,二是讓模型準(zhǔn)確判斷何時需要高分辨率圖像;通用視覺問答任務(wù)的多樣性和復(fù)雜性使得傳統(tǒng)基于規(guī)則的強化學(xué)習(xí)難以適用,為此提出“大型語言模型作為評判者” 策略,利用大型語言模型的語義理解能力評估模型輸出的正確性,評估僅基于文本比較預(yù)測答案與真實答案以避免視覺內(nèi)容干擾,并采用離散評分(0 或 1)減少誤判,實驗表明該策略顯著提升了模型在通用視覺問答任務(wù)中的表現(xiàn),且無需預(yù)訓(xùn)練階段即可直接使用 130,000 個樣本進行訓(xùn)練。

VisionThink 通過多輪交互實現(xiàn)動態(tài)分辨率處理,首先輸入低分辨率圖像和問題,若信息不足則模型輸出特殊令牌請求高分辨率圖像并生成新答案,擴展了 GRPO 算法以支持多輪交互,優(yōu)化僅基于模型生成的輸出令牌,同時采用 Qwen2.5-VL 推薦的代理提示,實驗證明其在零樣本場景下表現(xiàn)最佳,避免了訓(xùn)練初期因梯度缺失導(dǎo)致的優(yōu)化失敗。

獎勵函數(shù)包括準(zhǔn)確性獎勵、格式獎勵和懲罰機制,準(zhǔn)確性獎勵由 “大型語言模型作為評判者” 提供,正確答案得 1 分、錯誤得 0 分,格式獎勵要求模型輸出包含推理過程(標(biāo)簽)、最終答案(標(biāo)簽)及正確格式的工具調(diào)用(JSON 格式),滿分 0.5 分,懲罰機制則防止模型總是請求高分辨率圖像或總是直接回答,若低分辨率圖像正確回答的概率低則對直接回答施加 0.1 分懲罰,若概率高則對高分辨率請求施加 0.1 分懲罰。


實驗表明適當(dāng)?shù)膽土P閾值(如 0.2)能有效平衡兩種行為;為訓(xùn)練模型判斷何時需要高分辨率圖像,我們收集了 20,000 個樣本,包括 10,000 個需要高分辨率圖像的樣本和 10,000 個可用低分辨率圖像回答的樣本,使用基線模型 Qwen2.5VL-Instruct 進行多次推理,基于正確率分類樣本,確保訓(xùn)練數(shù)據(jù)覆蓋兩種場景。

03.

實驗結(jié)果

我們基于 Qwen2.5-VL-7B-Instruct 模型進行實驗,采用 veRL 框架訓(xùn)練,設(shè)置批次大小為 512、學(xué)習(xí)率為 1e-6、生成 16 個候選響應(yīng),推理階段使用 vLLM 框架且溫度設(shè)為 0,評估覆蓋 ChartQA、OCRBench、DocVQA、MME、MMVet、RealWorldQA、POPE、MMMU 和 MathVista 等多個通用視覺問答基準(zhǔn),其中 ChartQA 和 OCRBench 等涉及細(xì)粒度文字識別。

VisionThink 在這些基準(zhǔn)上表現(xiàn)優(yōu)異,與基線模型 Qwen2.5-VL-7B-Instruct 相比,其在 MathVerse 和 MMVet 上的得分分別提升 3.7% 和 8.9%,達(dá)到 48.0 和 67.1,在 MME 上得分 2400、超越所有閉源模型,在 MathVista 上得分 71.2、優(yōu)于所有開源模型和部分閉源模型,而使用 130,000 個樣本的 “大型語言模型作為評判者” 策略進一步驗證了其在通用視覺問答任務(wù)中的有效性。


在效率方面,與使用全分辨率圖像的 QwenRL 和四分之一分辨率的 QwenRL 1/4 相比,VisionThink 的推理時間接近 QwenRL 1/4、顯著優(yōu)于 QwenRL,在 DocVQA 上其推理速度是 QwenRL 的兩倍以上,在 MME 和 POPE 上推理時間減少約三分之一,僅在需要文字識別的 ChartQA 上因請求高分辨率圖像而耗時略多,但此類任務(wù)占比較少,整體效率仍保持較高水平。


與 FastV、SparseVLM 和 VisionZip 等傳統(tǒng)高效視覺語言模型相比,VisionThink 的平均性能更優(yōu),尤其在 ChartQA 和 OCRBench 上分別提升 9.0% 和 8.3%,這得益于傳統(tǒng)方法依賴固定壓縮比例,而 VisionThink 能根據(jù)樣本內(nèi)容動態(tài)調(diào)整分辨率;同時,VisionThink 具備智能決策能力,可自主判斷是否需要高分辨率圖像,在 ChartQA 和 OCRBench 等需細(xì)粒度視覺理解的任務(wù)中,高分辨率圖像請求比例分別達(dá) 79.1% 和 62.3%,而在 MME 和 DocVQA 等任務(wù)中,70% 以上樣本可直接使用低分辨率圖像回答,這種自適應(yīng)策略符合直覺,日常問題通常無需高分辨率圖像,而文字識別任務(wù)則依賴細(xì)節(jié)支撐。


04.

結(jié)論

本文介紹了VisionThink,一種用于通用視覺問答(General VQA)的新型范式,旨在提升效率和性能。通過首先處理下采樣圖像,并在需要時使用強化學(xué)習(xí)選擇性地將其上采樣到更高分辨率,VisionThink優(yōu)化了計算資源,同時保持了準(zhǔn)確性。

借助“將大語言模型作為裁判”的策略和定制的 Reward 函數(shù),VisionThink在多種視覺問答基準(zhǔn)測試中超越了現(xiàn)有的最先進模型,特別是在需要細(xì)粒度細(xì)節(jié)的任務(wù)(如OCR)中表現(xiàn)尤為突出。作者相信VisionThink展示了強化學(xué)習(xí)在視覺語言模型中的潛力,并鼓勵開發(fā)更有效率和更高效的AI系統(tǒng)。

在本工作中,作者專注于2倍分辨率提升和最多兩次對話的設(shè)置,并取得了令人滿意的結(jié)果。然而,這一方法尚未擴展到靈活分辨率提升的設(shè)置。此外,結(jié)合更多視覺工具(如裁剪)將進一步提升效率和性能。再者,多輪(例如,超過5輪)圖像工具調(diào)用在解決復(fù)雜視覺問題方面將獲得更多收益。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

魔都姐姐雜談
2026-03-28 04:04:21
美國務(wù)卿:絕不允許伊朗永久控制霍爾木茲海峽

美國務(wù)卿:絕不允許伊朗永久控制霍爾木茲海峽

界面新聞
2026-03-30 21:27:52
中國為何不同情伊朗?錯過四次機會終走成死局

中國為何不同情伊朗?錯過四次機會終走成死局

民間胡扯老哥
2026-03-29 05:50:57
遼寧男籃止住連敗,保住前12名,趙繼偉14+11復(fù)蘇,雙塔合砍42+19

遼寧男籃止住連敗,保住前12名,趙繼偉14+11復(fù)蘇,雙塔合砍42+19

替補席看球
2026-03-30 21:37:10
LV,賣不動了?

LV,賣不動了?

中國新聞周刊
2026-03-30 18:15:39
爆傳男籃擬歸化伯里斯!他是誰?歸化可能性到底有多大?

爆傳男籃擬歸化伯里斯!他是誰?歸化可能性到底有多大?

你看球呢
2026-03-30 14:30:25
接陌生電話不要先出聲

接陌生電話不要先出聲

大象新聞
2026-03-29 07:29:10
張雪峰室內(nèi)跑步有多夸張!配速是馬拉松冠軍基普喬格的水平

張雪峰室內(nèi)跑步有多夸張!配速是馬拉松冠軍基普喬格的水平

金牌娛樂
2026-03-30 09:54:01
好友曝張雪峰遺容狀態(tài)!化了妝像歐巴,黑眼圈遮不住,薛之謙發(fā)文

好友曝張雪峰遺容狀態(tài)!化了妝像歐巴,黑眼圈遮不住,薛之謙發(fā)文

阿纂看事
2026-03-28 18:44:03
恐無緣世界杯!利物浦9000萬神鋒3次吐餅 單刀不傳讓拜仁巨星暴怒

恐無緣世界杯!利物浦9000萬神鋒3次吐餅 單刀不傳讓拜仁巨星暴怒

我愛英超
2026-03-30 06:59:54
張雪峰女兒發(fā)聲悼念惹淚目,員工回應(yīng)其二婚爆料,靈堂遺照已曝光

張雪峰女兒發(fā)聲悼念惹淚目,員工回應(yīng)其二婚爆料,靈堂遺照已曝光

小徐講八卦
2026-03-28 06:21:26
核武器殉爆?以色列政府發(fā)布危險物質(zhì)泄露,伊朗這回中大樂透了!

核武器殉爆?以色列政府發(fā)布危險物質(zhì)泄露,伊朗這回中大樂透了!

掉了顆大白兔糖
2026-03-30 18:24:01
賈躍亭宣布法拉第未來月底將超額完成機器人首月20臺交付目標(biāo)

賈躍亭宣布法拉第未來月底將超額完成機器人首月20臺交付目標(biāo)

IT之家
2026-03-30 17:30:27
外交部:古屋圭司不準(zhǔn)入境

外交部:古屋圭司不準(zhǔn)入境

閃電新聞
2026-03-30 13:22:32
張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

眼光很亮
2026-03-27 16:04:09
請客吃飯對方帶外人來蹭吃,你遭遇過嗎?網(wǎng)友:我抬腳就會走掉

請客吃飯對方帶外人來蹭吃,你遭遇過嗎?網(wǎng)友:我抬腳就會走掉

解讀熱點事件
2026-03-24 00:05:06
國家機密,洲際導(dǎo)彈的制造方法

國家機密,洲際導(dǎo)彈的制造方法

遠(yuǎn)方青木
2026-03-25 23:55:16
人老了,再憋的慌也不要去這幾個地方:1、原來的單位;2、不遠(yuǎn)不近的親戚;3、可有可無的聚會

人老了,再憋的慌也不要去這幾個地方:1、原來的單位;2、不遠(yuǎn)不近的親戚;3、可有可無的聚會

四行書
2026-03-30 12:35:12
女子被送養(yǎng)37年,親生父母來相認(rèn),哭到最后要借錢,女子磕頭斷親

女子被送養(yǎng)37年,親生父母來相認(rèn),哭到最后要借錢,女子磕頭斷親

阿纂看事
2026-03-30 19:09:00
癱瘓28年桑蘭近況:45歲仍白皙漂亮,嫁資產(chǎn)千萬老公,兒子已12歲

癱瘓28年桑蘭近況:45歲仍白皙漂亮,嫁資產(chǎn)千萬老公,兒子已12歲

拳擊時空
2026-03-30 06:17:40
2026-03-30 21:51:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

開發(fā)商承諾有學(xué)校3年后交房沒建 業(yè)主起訴被當(dāng)?shù)伛g回

頭條要聞

開發(fā)商承諾有學(xué)校3年后交房沒建 業(yè)主起訴被當(dāng)?shù)伛g回

體育要聞

想進世界杯,意大利還要過他這一關(guān)

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

親子
藝術(shù)
時尚
房產(chǎn)
本地

親子要聞

孩子眼睛出現(xiàn)這些現(xiàn)象,一定要警惕!

藝術(shù)要聞

600 年前的「產(chǎn)亡孤魂」,藏著中國女性最痛的記憶

這件衣服絕美!今年流行的風(fēng)格而都離不開它

房產(chǎn)要聞

重磅!番禺20宗涉宅地亮相,萬博CBD宅地將上新!

本地新聞

用Color Walk的方式解鎖城市春日

無障礙瀏覽 進入關(guān)懷版