網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

模型自己找視覺(jué)線索，小紅書(shū)Video-Thinker破解視頻推理困局

2026-01-04 14:13:49　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

隨著多模態(tài)大語(yǔ)言模型（MLLM）的飛速發(fā)展，“Thinking with Images” 范式已在圖像理解和推理任務(wù)上取得了革命性突破 —— 模型不再是被動(dòng)接收視覺(jué)信息，而是學(xué)會(huì)了主動(dòng)定位與思考。

然而，當(dāng)面對(duì)包含復(fù)雜時(shí)序依賴與動(dòng)態(tài)敘事的視頻推理任務(wù)時(shí)，這一能力尚未得到有效延伸。現(xiàn)有的視頻推理方法往往受限于對(duì)外部工具的依賴或預(yù)設(shè)的提示詞策略，難以讓模型內(nèi)生出對(duì)時(shí)間序列的自主導(dǎo)航與深度理解能力，導(dǎo)致模型在處理長(zhǎng)視頻或復(fù)雜邏輯時(shí)顯得捉襟見(jiàn)肘。

為攻克這一難題，來(lái)自小紅書(shū)的研究團(tuán)隊(duì)提出了 Video-Thinker：一種全新的 “Thinking with Videos” 范式，旨在通過(guò)強(qiáng)化學(xué)習(xí)激發(fā) MLLM 在視頻推理中的內(nèi)生智能。

與傳統(tǒng)方法不同，Video-Thinker 不依賴構(gòu)建和調(diào)用外部工具，而是將 “時(shí)序定位（Grounding）” 與 “視覺(jué)描述（Captioning）” 這兩種核心能力內(nèi)化在模型的思維鏈（CoT）中，使其能在推理過(guò)程中自主尋找關(guān)鍵幀并提取視覺(jué)線索。

團(tuán)隊(duì)精心構(gòu)建了包含 10K 高質(zhì)量樣本的 Video-Thinker-10K 數(shù)據(jù)集，并采用 “監(jiān)督微調(diào) + 強(qiáng)化學(xué)習(xí)” 的兩階段訓(xùn)練策略。這一方法成功讓模型在無(wú)外部輔助的情況下，實(shí)現(xiàn)了對(duì)視頻內(nèi)容的自主探索與自我修正。

實(shí)驗(yàn)結(jié)果顯示，Video-Thinker-7B 憑借極高的數(shù)據(jù)效率，在 Video-Holmes 等多個(gè)高難度視頻推理榜單上顯著超越了現(xiàn)有基線，確立了 7B 量級(jí) MLLM 的 SOTA（State-of-the-Art）性能，為視頻大模型的動(dòng)態(tài)推理開(kāi)辟了新路徑。

論文地址：https://www.arxiv.org/abs/2510.23473
模型地址：https://huggingface.co/ShijianW01/Video-Thinker-7B
代碼地址：https://github.com/DeepExperience/Video-Thinker

一、背景：視頻推理的 “工具依賴?yán)Ь帧?與破局需求

在多模態(tài)大語(yǔ)言模型（MLLM）進(jìn)化的浪潮中，“Thinking with Images” 范式已經(jīng)讓模型在靜態(tài)圖像的理解與推理上取得了令人矚目的突破。當(dāng)模型學(xué)會(huì)了在像素間主動(dòng)定位與思考，靜態(tài)畫(huà)面不再是信息的黑盒。

然而，當(dāng)我們?cè)噲D將這種范式延伸至視頻領(lǐng)域時(shí)，情況卻變得復(fù)雜得多。視頻不僅僅是圖像的簡(jiǎn)單堆疊，更包含了復(fù)雜的時(shí)序依賴、動(dòng)態(tài)的敘事邏輯以及稍縱即逝的視覺(jué)細(xì)節(jié)。面對(duì)這種高維度的信息流，現(xiàn)有的視頻推理方法正面臨著難以突破的瓶頸。

當(dāng)前主流的視頻大模型在處理復(fù)雜推理任務(wù)時(shí)，往往陷入了一種對(duì) “外部輔助” 的過(guò)度依賴。為了彌補(bǔ)模型對(duì)長(zhǎng)視頻處理能力的不足，研究者們通常采用掛載外部視覺(jué)工具（如檢測(cè)器、追蹤器）或設(shè)計(jì)繁復(fù)的預(yù)設(shè)提示詞策略來(lái)輔助模型。這種做法雖然在一定程度上緩解了信息獲取的難題，卻在本質(zhì)上造成了推理過(guò)程的 “割裂”：模型并非真正 “看見(jiàn)” 并 “理解” 了視頻的時(shí)間脈絡(luò)，而是被動(dòng)地接收外部工具提取的碎片化特征，或是機(jī)械地遵循預(yù)設(shè)步驟進(jìn)行填空。

這種缺乏內(nèi)生主動(dòng)性的架構(gòu)，導(dǎo)致模型在面對(duì)長(zhǎng)視頻或需要深度邏輯推演的任務(wù)時(shí)顯得捉襟見(jiàn)肘。由于缺乏對(duì)時(shí)間序列的自主導(dǎo)航能力，模型無(wú)法像人類一樣根據(jù)當(dāng)前的思考線索去主動(dòng) “快進(jìn)”、“倒帶” 或聚焦于某個(gè)關(guān)鍵幀。它無(wú)法自主決定何時(shí)通過(guò) “Grounding（時(shí)序定位）” 來(lái)鎖定證據(jù)，也無(wú)法靈活地利用 “Captioning（視覺(jué)描述）” 來(lái)提煉線索。這種感知與推理的脫節(jié)，使得模型難以在動(dòng)態(tài)變化的視頻內(nèi)容中構(gòu)建起連貫的思維鏈，最終限制了視頻大模型向更高階智能的躍升。

如何讓模型擺脫對(duì)外掛拐杖的依賴，內(nèi)生出在時(shí)間流中自由探索與自我修正的能力，成為了視頻推理領(lǐng)域亟待攻克的難題。

二、方法：內(nèi)生能力導(dǎo)向的 “數(shù)據(jù) - 訓(xùn)練” 全鏈路設(shè)計(jì)

Video-Thinker 的核心愿景在于實(shí)現(xiàn) “能力內(nèi)化”：打破傳統(tǒng)視頻大模型對(duì)外部視覺(jué)工具的依賴，將 “時(shí)序定位（Grounding）” 與 “視覺(jué)描述（Captioning）” 這兩大核心能力直接植入模型的思維鏈（CoT）中。為達(dá)成這一目標(biāo)，團(tuán)隊(duì)設(shè)計(jì)了一套精密的 “數(shù)據(jù) - 訓(xùn)練” 協(xié)同機(jī)制：首先構(gòu)建 Video-Thinker-10K 高質(zhì)量結(jié)構(gòu)化數(shù)據(jù)，隨后通過(guò) “監(jiān)督微調(diào)（SFT）+ 組相對(duì)策略優(yōu)化（GRPO）” 的兩階段訓(xùn)練范式，成功讓模型學(xué)會(huì)了在動(dòng)態(tài)視頻流中自主導(dǎo)航、主動(dòng)思考。

數(shù)據(jù)煉金：Hindsight-Curation 驅(qū)動(dòng)的思維鏈構(gòu)建

要讓模型真正掌握視頻場(chǎng)景下的復(fù)雜推理能力，構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù)是必經(jīng)之路。然而，現(xiàn)有的開(kāi)源視頻數(shù)據(jù)集普遍存在 “二元割裂” 的結(jié)構(gòu)性缺陷：一類是以 ActivityNet、YouCook2 為代表的描述型數(shù)據(jù)，雖然擁有精確的時(shí)間段標(biāo)注和畫(huà)面描述，但缺乏需要深度思考的邏輯問(wèn)答；另一類是以 STAR、LVBench 為代表的問(wèn)答型數(shù)據(jù)，雖然問(wèn)題極具挑戰(zhàn)性，卻往往缺失了支撐答案的關(guān)鍵幀定位與視覺(jué)細(xì)節(jié)。為了彌補(bǔ)這一鴻溝，團(tuán)隊(duì)整合了六大主流數(shù)據(jù)集，構(gòu)建了 Video-Thinker-10K。該數(shù)據(jù)集并未止步于簡(jiǎn)單的拼接，而是引入了一套 “后見(jiàn)之明（Hindsight-Curation）” 的自動(dòng)化流水線，通過(guò) “補(bǔ)全 - 合成 - 驗(yàn)證” 的嚴(yán)密閉環(huán)，生產(chǎn)出兼具精準(zhǔn)時(shí)序定位（Grounding）與詳盡視覺(jué)描述（Captioning）的結(jié)構(gòu)化推理數(shù)據(jù)，確保模型在學(xué)習(xí)過(guò)程中能夠建立起從視覺(jué)證據(jù)到邏輯結(jié)論的完整映射。

Step 1: 雙向信息補(bǔ)全

面對(duì)不同源數(shù)據(jù)特性的差異，團(tuán)隊(duì)將 ActivityNet、TutorialVQA,、YouCook2、STAR、ScaleLong 和 LVBench 六大主流數(shù)據(jù)集劃分為互補(bǔ)的兩類，并實(shí)施了 “缺什么補(bǔ)什么” 的數(shù)據(jù)增強(qiáng)策略：

針對(duì) “有描述無(wú)推理” 的數(shù)據(jù)（如 ActivityNet、TutorialVQA、YouCook2）：這類數(shù)據(jù)具備精確的時(shí)間段標(biāo)注和詳盡的動(dòng)作描述，但缺乏深度的邏輯問(wèn)答。團(tuán)隊(duì)利用 DeepSeek-R1 強(qiáng)大的邏輯推理能力，以原有的細(xì)粒度片段描述為上下文，合成出需要跨越多個(gè)時(shí)間片段進(jìn)行綜合分析的復(fù)雜多跳問(wèn)題，將單純的感知任務(wù)升級(jí)為邏輯推理任務(wù)。
針對(duì) “有問(wèn)答無(wú)細(xì)節(jié)” 的數(shù)據(jù)（如 STAR、ScaleLong、LVBench）：這類數(shù)據(jù)雖然包含極具挑戰(zhàn)性的推理問(wèn)答，卻往往缺失了支撐答案的具體視覺(jué)描述。團(tuán)隊(duì)借助 Gemini-2.5-Flash-Lite 的長(zhǎng)窗口視覺(jué)理解能力，以標(biāo)準(zhǔn)答案為錨點(diǎn)進(jìn)行反向推導(dǎo)，為關(guān)鍵時(shí)間窗口生成了與答案強(qiáng)相關(guān)的精細(xì)化視覺(jué)描述（Answer-Conditioned Captions），填補(bǔ)了推理過(guò)程中視覺(jué)證據(jù)的空白。

Step 2: 結(jié)構(gòu)化思維鏈合成

在完成了基礎(chǔ)信息的雙向補(bǔ)全后，系統(tǒng)調(diào)用 DeepSeek-V3 執(zhí)行 “反向推理合成（Reverse-Curation Generation）”。模型接收標(biāo)準(zhǔn)答案、時(shí)序標(biāo)注以及生成的視覺(jué)描述作為輸入，被要求倒推并生成一條邏輯嚴(yán)密、逐步展開(kāi)的推理軌跡。這條軌跡并非自由發(fā)散，而是必須嚴(yán)格遵循預(yù)定義的結(jié)構(gòu)化格式，顯式地將推理過(guò)程拆解為三個(gè)關(guān)鍵動(dòng)作：

：執(zhí)行時(shí)序定位任務(wù)，精確劃定包含關(guān)鍵信息的視頻時(shí)間窗口，明確模型 “關(guān)注哪里”；
：執(zhí)行視覺(jué)證據(jù)提取任務(wù)，對(duì)該時(shí)間窗口內(nèi)的核心視覺(jué)線索進(jìn)行總結(jié)與描述，闡述模型 “看到了什么”；
：執(zhí)行深度分析任務(wù)，基于提取的時(shí)空線索進(jìn)行邏輯推演與綜合判斷，連接視覺(jué)證據(jù)與最終答案，解釋 “意味著什么”。

Step 3: 后見(jiàn)之明驗(yàn)證機(jī)制（Hindsight Curation）

這是保障數(shù)據(jù)質(zhì)量的關(guān)鍵防線。為了確保合成的推理軌跡真實(shí)有效而非 “自說(shuō)自話”，團(tuán)隊(duì)引入了創(chuàng)新的 “后見(jiàn)之明” 驗(yàn)證流程，替代了昂貴的人工抽檢。具體而言，系統(tǒng)使用 Qwen2.5-VL-7B-Instruct 充當(dāng) “獨(dú)立驗(yàn)證官”，在屏蔽原始視頻輸入的情況下，僅將上一步生成的時(shí)序標(biāo)簽和視覺(jué)描述作為上下文輸入給模型。系統(tǒng)隨后檢測(cè)驗(yàn)證官能否僅憑這些提取出的線索推導(dǎo)出正確的標(biāo)準(zhǔn)答案。如果驗(yàn)證失敗，意味著生成的視覺(jué)線索不足以支撐推理結(jié)論，系統(tǒng)將自動(dòng)觸發(fā)再生流程，進(jìn)行最多三次的迭代修正。

這種 “以結(jié)果驗(yàn)證過(guò)程” 的閉環(huán)機(jī)制，有效剔除了無(wú)效或低質(zhì)量的樣本，確保了最終保留在 Video-Thinker-10K 中的每一條數(shù)據(jù)，其視覺(jué)證據(jù)與邏輯結(jié)論之間都具備嚴(yán)密且可復(fù)現(xiàn)的因果關(guān)系。

監(jiān)督微調(diào)建立結(jié)構(gòu)化思維范式

監(jiān)督微調(diào)（SFT）階段旨在完成模型的 “冷啟動(dòng)” 初始化。由于預(yù)訓(xùn)練的多模態(tài)大模型本身并不具備輸出特定標(biāo)簽（如或）的習(xí)慣，SFT 階段的主要任務(wù)是通過(guò)強(qiáng)制教學(xué)，讓模型習(xí)得 Video-Thinker 獨(dú)有的結(jié)構(gòu)化思考范式。

對(duì)于每一個(gè)樣本 (V, Q, T, Y)，其中 V 是視頻，Q 是問(wèn)題， T 是包含，和

的思維鏈， Y 是最終答案。SFT 的優(yōu)化目標(biāo)是最小化思維鏈與答案的負(fù)對(duì)數(shù)似然：

通過(guò)這一階段的訓(xùn)練，模型不再將視頻視為一個(gè)模糊的整體進(jìn)行黑盒猜測(cè)，而是建立起了一套嚴(yán)謹(jǐn)?shù)?“定位 - 感知 - 推理” 標(biāo)準(zhǔn)動(dòng)作序列：即先通過(guò) 標(biāo)簽主動(dòng)定位關(guān)鍵片段，再利用標(biāo)簽提取視覺(jué)細(xì)節(jié)，最后通過(guò)

標(biāo)簽進(jìn)行邏輯整合。這種顯式的思維約束，不僅教會(huì)了模型如何使用內(nèi)部工具，更有效抑制了其在缺乏證據(jù)時(shí)直接生成答案的幻覺(jué)傾向，為后續(xù)的強(qiáng)化學(xué)習(xí)奠定了堅(jiān)實(shí)的策略基礎(chǔ)。

強(qiáng)化學(xué)習(xí)激發(fā)內(nèi)生智能與 “頓悟” 時(shí)刻

雖然 SFT 賦予了模型結(jié)構(gòu)化的表達(dá)形式，但僅憑監(jiān)督微調(diào)，模型往往只能 “模仿” 訓(xùn)練數(shù)據(jù)的表面模式，難以應(yīng)對(duì)分布外的復(fù)雜場(chǎng)景。真正的智能源于在探索中自我優(yōu)化，因此訓(xùn)練進(jìn)入第二階段：采用組相對(duì)策略優(yōu)化（Group Relative Policy Optimization, GRPO）激發(fā)模型的內(nèi)生潛能。

不同于傳統(tǒng) PPO 算法依賴龐大的價(jià)值網(wǎng)絡(luò)來(lái)評(píng)估狀態(tài)價(jià)值，GRPO 采用了一種更為高效的策略：它通過(guò)對(duì)同一輸入并行采樣多組不同的推理軌跡，利用組內(nèi)輸出的相對(duì)優(yōu)勢(shì)來(lái)指導(dǎo)梯度更新。這種 “摒棄 Critic 模型” 的設(shè)計(jì)不僅大幅降低了顯存占用和計(jì)算成本，更關(guān)鍵的是，它允許模型在反復(fù)的試錯(cuò)與自我博弈中，自主探索出如何更高效地調(diào)用和錨點(diǎn)來(lái)解決新問(wèn)題，從而將機(jī)械的格式遵循升華為靈活的視頻思維能力，真正實(shí)現(xiàn)對(duì)視頻內(nèi)容的自主導(dǎo)航。

采樣與雙重獎(jiǎng)勵(lì)設(shè)計(jì)

策略優(yōu)化目標(biāo)

涌現(xiàn)的 “Aha Moment”

經(jīng)過(guò) GRPO 的強(qiáng)化訓(xùn)練后，Video-Thinker 開(kāi)始涌現(xiàn)出類似人類的高階認(rèn)知行為 —— 我們稱之為 “頓悟時(shí)刻（Aha Moment）”。與傳統(tǒng)模型線性的、單向的生成過(guò)程不同，Video-Thinker 在面對(duì)復(fù)雜推理時(shí)，不再是一條路走到黑。我們觀察到，模型開(kāi)始在思維鏈中自發(fā)展現(xiàn)出元認(rèn)知（Metacognition）特征：它會(huì)對(duì)其初步生成的時(shí)序定位或視覺(jué)描述進(jìn)行 “回頭看”，主動(dòng)發(fā)起自我質(zhì)疑與修正。

這種動(dòng)態(tài)的內(nèi)部反饋機(jī)制，使得模型不再是被動(dòng)的信息接收者，而是主動(dòng)的探尋者。正是這種內(nèi)生的反思能力，讓 Video-Thinker 能夠在僅有 7B 參數(shù)量且僅使用 10K 訓(xùn)練數(shù)據(jù)的情況下，打破了參數(shù)規(guī)模的限制，在 Video-Holmes 等高難度視頻推理基準(zhǔn)上，大幅超越了依賴海量數(shù)據(jù)訓(xùn)練的現(xiàn)有基線模型。

三、評(píng)測(cè)：全面驗(yàn)證，7B 模型刷新視頻推理 SOTA

實(shí)驗(yàn)設(shè)置

為了全方位驗(yàn)證 Video-Thinker 的視頻推理能力，研究團(tuán)隊(duì)構(gòu)建了包含域內(nèi)（In-Domain）與域外（Out-of-Domain）的雙重評(píng)估體系。

訓(xùn)練配置：研究選用 Qwen2.5-VL-7B-Instruct 作為基礎(chǔ)模型。訓(xùn)練過(guò)程嚴(yán)格遵循 “兩階段” 范式：首先在 Video-Thinker-10K 數(shù)據(jù)集上進(jìn)行 1 個(gè) epoch 的監(jiān)督微調(diào)（SFT），讓模型習(xí)得結(jié)構(gòu)化的思考格式；隨后引入 GRPO 算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，以激發(fā)模型自主視頻推理的潛能。
評(píng)測(cè)數(shù)據(jù)集：
域內(nèi)評(píng)測(cè)：基于 ActivityNet、Star、ScaleLong、YouCook2、LVBench 等五個(gè)訓(xùn)練數(shù)據(jù)集構(gòu)建了測(cè)試集（Held-out test sets），用于評(píng)估模型在熟悉領(lǐng)域內(nèi)的表現(xiàn)。
域外評(píng)測(cè)：精選了 Video-Holmes、CG-Bench-Reasoning、VRBench、SciVideoBench、VideoTT、VideoMME 等六個(gè)具有挑戰(zhàn)性的高難度復(fù)雜視頻推理基準(zhǔn)，重點(diǎn)考察模型在未知場(chǎng)景下的泛化能力。
基線模型：對(duì)比陣容強(qiáng)大，涵蓋了 InternVL、Qwen2.5-VL 等 5 個(gè)主流開(kāi)源多模態(tài)基礎(chǔ)模型，以及 Video-R1、VideoChat-R1、Temporal-R1 等 12 個(gè)開(kāi)源視頻推理模型，確保了比較的公平性與廣泛性。

總體性能對(duì)比

實(shí)驗(yàn)結(jié)果表明，Video-Thinker-7B 在各項(xiàng)視頻推理基準(zhǔn)上均展現(xiàn)出顯著優(yōu)勢(shì)，成功確立了 7B 參數(shù)量級(jí)模型的新 SOTA（State-of-the-Art）。

核心發(fā)現(xiàn)與數(shù)據(jù)解讀：
域外泛化能力的質(zhì)變： Video-Thinker 在處理未見(jiàn)過(guò)的復(fù)雜任務(wù)時(shí)表現(xiàn)尤為驚艷。在偵探推理類的 Video-Holmes 榜單上，模型取得了 43.22% 的準(zhǔn)確率，超越了次優(yōu)基線模型 4.68 個(gè)百分點(diǎn)；在綜合性基準(zhǔn) VRBench 上，準(zhǔn)確率高達(dá) 80.69%，大幅領(lǐng)先最佳基線 11.44%。這充分證明了 Video-Thinker 并非僅僅 “記住” 了訓(xùn)練數(shù)據(jù)，而是真正習(xí)得了通過(guò) “定位” 和 “描述” 來(lái)解決通用視頻問(wèn)題的能力。
SFT 與 RL 的協(xié)同效應(yīng)：消融實(shí)驗(yàn)揭示了一個(gè)關(guān)鍵結(jié)論：僅靠 SFT 無(wú)法實(shí)現(xiàn)強(qiáng)泛化。Video-Thinker-SFT-7B 版本在多個(gè)基準(zhǔn)上的表現(xiàn)甚至低于基礎(chǔ)模型，這說(shuō)明 SFT 的主要作用在于 “規(guī)范格式”。而隨后的GRPO 強(qiáng)化學(xué)習(xí)階段才是性能飛躍的關(guān)鍵，它使模型在 Video-Holmes 上的性能提升了 11.70%，在 VRBench 上提升了 18.29%。這種 “先通過(guò) SFT 立規(guī)矩，再通過(guò) GRPO 練內(nèi)功” 的組合，被證明是提升大模型復(fù)雜推理能力的必由之路。

推理幀數(shù)魯棒性分析：更高效的時(shí)序信息整合

視頻理解往往受限于輸入幀數(shù)。為了探究 Video-Thinker 是否依賴高幀率輸入，團(tuán)隊(duì)對(duì)比了模型在 16 幀、32 幀和 64 幀設(shè)置下的表現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)表明：

正向的 Scaling Law：隨著輸入幀數(shù)從 16 增加到 64，絕大多數(shù)模型的性能均呈上升趨勢(shì)，說(shuō)明更豐富的時(shí)序信息確實(shí)有助于推理。
全方位的性能壓制：值得注意的是，Video-Thinker-7B 在所有幀數(shù)檔位上均持續(xù)優(yōu)于對(duì)比基線（Qwen2.5-VL 和 Video-R1）。即使在僅輸入 16 幀的受限條件下，Video-Thinker 依然能保持高水準(zhǔn)的推理精度。這意味著該模型具備更高效的時(shí)序信息整合機(jī)制，無(wú)論是在計(jì)算資源受限的低幀率場(chǎng)景，還是信息豐富的高幀率場(chǎng)景，都能穩(wěn)定發(fā)揮。

深度歸因分析：定位與描述能力的顯著增強(qiáng)

Video-Thinker 的核心假設(shè)是：強(qiáng)大的視頻推理源于對(duì)視頻內(nèi)容的精準(zhǔn) “定位（Grounding）” 和細(xì)致 “描述（Captioning）”。為了驗(yàn)證這一假設(shè)，研究團(tuán)隊(duì)不僅評(píng)測(cè)最終答案的準(zhǔn)確率，還專門針對(duì)這兩項(xiàng)中間過(guò)程能力進(jìn)行了定量評(píng)測(cè)。評(píng)測(cè)結(jié)果表明：

時(shí)序定位（Grounding）：在要求模型輸出關(guān)鍵時(shí)間片段的任務(wù)中，Video-Thinker-7B 的平均交并比（mIoU）達(dá)到了 48.22%，相比基礎(chǔ)模型（27.47%）提升了 75.5%。在 Recall@0.3 指標(biāo)上，Video-Thinker 更是達(dá)到了 79.29%，幾乎是基礎(chǔ)模型的兩倍。這表明模型在回答問(wèn)題前，確實(shí)精準(zhǔn)鎖定了視頻中的關(guān)鍵線索，而非盲目猜測(cè)。
內(nèi)容描述（Captioning）：在視頻片段描述任務(wù)中，Video-Thinker 在 BLEU、METEOR 和 ROUGE-L 三大指標(biāo)上全面領(lǐng)先。與基礎(chǔ)模型相比，其整體描述質(zhì)量提升了 31.2%；與 Video-R1 相比，提升幅度更是達(dá)到了 61.0%。生成更準(zhǔn)確、更相關(guān)的中間描述，為模型進(jìn)行后續(xù)的邏輯推理提供了堅(jiān)實(shí)的信息基礎(chǔ)。

消融實(shí)驗(yàn)：內(nèi)生能力 vs 外部工具

既然 “定位” 和 “描述” 如此重要，是否可以直接給基礎(chǔ)模型外掛現(xiàn)成的專用工具（如專門的 Grounding 模型或 Captioning 模型）來(lái)達(dá)到同樣的效果？研究團(tuán)隊(duì)進(jìn)行了一組反直覺(jué)但極具價(jià)值的對(duì)比實(shí)驗(yàn)。

1. 簡(jiǎn)單外掛工具的 “負(fù)優(yōu)化” 陷阱：實(shí)驗(yàn)結(jié)果首先打破了 “工具越強(qiáng)效果越好” 的迷思。當(dāng)團(tuán)隊(duì)嘗試 “基礎(chǔ)模型 + 即插即用工具（Plug-and-play Tools）” 的組合時(shí)，模型性能不升反降。例如，使用 Temporal-R1-7B 配合 SkyCaptioner-V1-8B 時(shí)，準(zhǔn)確率跌至 30.58%；即便調(diào)用參數(shù)量大十倍的 Qwen2.5-VL-72B-Instruct 作為專家工具，其 33.96% 的得分依然未能超過(guò)僅使用 7B 基礎(chǔ)模型的效果。這表明簡(jiǎn)單的工具堆疊會(huì)造成信息割裂，導(dǎo)致推理鏈路效率降低。

2. 現(xiàn)有工具調(diào)用方法的局限：為了進(jìn)一步驗(yàn)證，團(tuán)隊(duì)對(duì)比了現(xiàn)有的代表性工具使用方法 —— VideoMind-7B。雖然 VideoMind-7B 通過(guò)更復(fù)雜的工具調(diào)用策略，將 Video-Holmes 的得分提升到了 38.98%，成功超越了基礎(chǔ)模型和簡(jiǎn)單的外掛方案，但相比于 Video-Thinker 它依然存在明顯差距（落后約 4.2%）。這說(shuō)明即便是成熟的外部工具調(diào)用方式，在信息傳遞的連貫性和推理深度上仍存在天花板。

3. Video-Thinker 內(nèi)生思維鏈的壓倒性優(yōu)勢(shì)：最終，通過(guò)訓(xùn)練獲得內(nèi)生能力的 Video-Thinker-7B 展現(xiàn)了統(tǒng)治級(jí)的表現(xiàn)。它在 Video-Holmes 上取得了 43.22% 的全場(chǎng)最高分（紅色加粗），不僅遠(yuǎn)超外掛工具方案，也顯著優(yōu)于 VideoMind-7B；同時(shí)在 VRBench 上更是達(dá)到了 80.69% 的高分。實(shí)驗(yàn)有力地證明，在視頻推理任務(wù)中，將 “感知 - 定位 - 描述 - 推理” 無(wú)縫融合的內(nèi)生思維鏈（Endogenous CoT），比簡(jiǎn)單的工具堆疊甚至 VideoMind 這種外部調(diào)用方法都更為高效可靠。

四、結(jié)語(yǔ)：內(nèi)生智能引領(lǐng)視頻推理新方向

Video-Thinker 的核心價(jià)值，在于打破了 “視頻推理必須依賴外部工具” 的固有認(rèn)知，通過(guò) “高質(zhì)量數(shù)據(jù)合成 + 精準(zhǔn)強(qiáng)化訓(xùn)練” 的全鏈路設(shè)計(jì)，讓 MLLM 真正實(shí)現(xiàn)內(nèi)生 “時(shí)序定位” 與 “片段描述” 能力，實(shí)現(xiàn)了端到端的自主視頻思考。其 7B 參數(shù)模型在多領(lǐng)域基準(zhǔn)上刷新 SOTA 的表現(xiàn)，證明了視頻推理能力并非依賴 “大參數(shù) + 大數(shù)據(jù)” 的堆砌，而是在于對(duì)核心內(nèi)生能力的精準(zhǔn)培養(yǎng)。未來(lái)，隨著技術(shù)迭代，Video-Thinker 有望進(jìn)一步集成音頻、字幕等多模態(tài)信息，拓展至小時(shí)級(jí)長(zhǎng)視頻推理場(chǎng)景，讓 “用視頻思考” 成為 MLLM 的基礎(chǔ)能力。這種內(nèi)生智能驅(qū)動(dòng)的技術(shù)路徑，不僅為視頻推理領(lǐng)域提供了新范式，更將加速 AI 在安防監(jiān)控、智能教育、工業(yè)運(yùn)維等領(lǐng)域的落地應(yīng)用，真正賦能千行百業(yè)的智能化升級(jí)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.