網易首頁 > 網易號 > 正文申請入駐

伊利諾伊大學等高校聯合：讓AI視頻助手學會在對的時間開口說話

2026-04-01 22:51:25　來源: 科技行者

北京舉報

分享至

在我們與AI視頻助手互動的時候，是否曾經遇到過這樣的尷尬場面：你正在看一段烹飪視頻，廚師剛開始準備食材，AI就迫不及待地告訴你"這道菜已經完成了"；或者當你想了解某個動作的細節時，AI卻遲遲不響應，錯過了最佳的解說時機。這種"不合時宜"的互動體驗，正是當前視頻理解AI面臨的一個重要挑戰。

這項由伊利諾伊大學厄巴納-香檳分校、韓國科學技術院以及谷歌DeepMind聯合開展的研究，發表于2026年的計算機視覺國際會議，論文編號為arXiv:2603.27593v1。研究團隊針對流媒體視頻理解中的"何時響應"問題，提出了一個名為STRIDE的創新框架，讓AI視頻助手能夠像經驗豐富的解說員一樣，在最合適的時機主動開口。

當前的視頻AI助手就像一個只會被動回答問題的機器人，只有在用戶明確詢問時才會響應。然而在真實的應用場景中，比如自動駕駛汽車的視覺系統、智能眼鏡助手或者直播解說系統，AI需要具備主動判斷何時應該發聲的能力。這種能力看似簡單，實際上包含了對視頻內容的深度理解、時機把控的精準判斷，以及對用戶需求的準確預測。

STRIDE的核心創新在于將"何時說話"這個問題重新定義為一個結構化的序列建模問題。就像一個優秀的體育解說員不是隨機地在比賽中插話，而是能夠識別出比賽的關鍵時刻——進球前的緊張氛圍、精彩撲救的瞬間、或者戰術調整的關鍵節點，然后在最恰當的時機提供解說。研究團隊觀察到，在流媒體視頻中，激活信號往往形成連續的時間段，而不是孤立的時間點，這種特性為他們的方法奠定了基礎。

STRIDE采用了一種被稱為"結構化時間細化與迭代去噪"的技術。這個過程可以想象成一個經驗豐富的編輯在處理直播節目時的工作方式：他們會在一個時間窗口內觀察視頻內容的發展，識別出可能需要解說的片段，然后逐步完善和調整這些判斷，確保在最合適的時刻觸發解說。

在技術實現上，研究團隊設計了一個輕量級的激活模型，它能夠持續監控傳入的視頻流，并在一個滑動的時間窗口內維護激活區域。當新的視頻幀到達時，系統會保留之前高置信度的決策，同時對不確定的位置進行重新評估和漸進式細化。這種機制確保了激活決策在時間上的連貫性，避免了傳統方法中常見的"閃爍"現象——即激活狀態在相鄰時間點之間頻繁跳躍的問題。

研究團隊在訓練階段采用了三種互補的掩碼策略。邊界錨定掩碼專門處理激活區域的開始和結束邊界，迫使模型從更廣泛的時間上下文中判斷活躍區域的準確位置。跨度揭示掩碼從完全掩碼的序列開始，逐步揭示連續的塊，模擬推理時高置信度標記在同質區域中連續被揭示的模式。全掩碼則處理冷啟動情況，訓練模型僅從視覺上下文估計全局激活布局。

在推理過程中，STRIDE維護一個滑動激活窗口，并隨著新幀的到達執行漸進細化。系統通過置信度閾值進行選擇性重掩碼：如果先前決策的置信度超過閾值，則保留該位置的決策；否則將其重新掩碼，使不確定位置與新添加的位置一起重新進入去噪過程。通過K步漸進去噪，系統優先揭示高置信度位置，逐步穩定剩余的模糊邊界區域。

為了驗證STRIDE的有效性，研究團隊在多個具有代表性的基準數據集上進行了全面評估。在OVO-Bench基準測試中，STRIDE在前瞻性主動響應任務上取得了顯著提升，這個任務直接評估模型的主動時機控制能力。在StreamingBench上，STRIDE在所有三個評估維度上都表現出色，特別是在需要模型確定響應時機而不接收明確時機提示的主動輸出子任務中。

更重要的是，研究團隊還通過ET-Bench對激活模型進行了獨立評估，專門測試事件邊界檢測的質量。結果顯示，STRIDE相比傳統的逐幀二分類方法在時間視頻定位任務上提升了27.1個點，平均提升8.3個點。這表明結構化序列去噪相比傳統的逐幀監督，能夠提供顯著更清晰的邊界分辨率。

在實際部署方面，STRIDE展現出了優秀的效率特性。系統在需要后續響應時，增加的113毫秒延遲僅占基礎模型1511毫秒處理時間的7%。當不需要觸發時，STRIDE節省了大約91%的總處理時間。在內存使用方面，STRIDE維持了5.2GB的輕量級占用，執行去噪過程需要額外的10MB，每個新幀增加30MB的增量內存使用。

研究團隊還深入分析了STRIDE在事件邊界附近的行為穩定性。通過測量相對于事件邊界的激活轉換頻率，他們發現傳統方法在所有區域都表現出更高的轉換頻率，特別是在事件邊界附近轉換頻率急劇增加，表明難以解析精確的事件開始和結束。相比之下，STRIDE產生顯著更平滑的激活模式，轉換次數更少，表明將激活建模為結構化序列去噪鼓勵時間連貫的預測，使模型能夠維持一致的激活跨度并更可靠地捕獲事件邊界。

通過對去噪步數的分析，研究團隊發現性能在K=8步左右就能達到近似最優的平均F1分數。這種快速收斂可能源于激活序列的輸出空間較小，每個位置只取二進制狀態，使得去噪過程相對于大詞匯空間更容易收斂。在K=8時，推理延遲約為100毫秒，足以支持下游模型流媒體幀率的實時操作。

值得注意的是，STRIDE采用了模塊化的兩階段架構設計。輕量級激活模型持續監控傳入流并確定是否應觸發主動響應，一旦在時間步T觸發響應，自最近查詢時間以來累積的視覺上下文將被轉發給下游視頻大語言模型生成響應。生成的響應被附加到交互上下文中，實現對先前響應的感知并維持多個激活事件間的對話連貫性。

這種設計的優勢在于保持了下游視頻大語言模型的原有能力，同時通過輕量級前端實現了精確的時機控制。即使采用掩碼擴散模塊，觸發建模也只引入了最小的延遲和內存開銷，維持了高效的流媒體推理。

研究團隊還發現了STRIDE在不同規模激活骨干網絡上的良好擴展性。使用4B參數的激活骨干網絡相比2B版本在所有下游骨干網絡上都實現了更高的整體分數，證明激活骨干網絡受益于增加的模型容量，且改進效果能夠傳遞到下游視頻大語言模型，支持了提議的插件設計的擴展性。

然而，STRIDE也存在一些實際部署的限制。首先，激活模型在稀疏采樣幀（1FPS）上操作，依賴于通常以相對較低幀率處理視覺標記的下游視頻大語言模型的流媒體接口。因此，極短暫的事件或快速視覺轉換可能無法被激活窗口完全捕獲，因為視覺證據可能在積累足夠的時間上下文之前就消失了。

其次，當查詢涉及寬泛或松散定義的事件而非單一明確定位的時刻時，會出現另一個挑戰場景。在這種情況下，多個候選片段可能部分滿足查詢語義，導致分散或多跨度激活。這些觀察表明，主動激活仍然對時間采樣粒度和查詢特異性敏感，突出了流媒體感知和查詢定位未來改進的方向。

說到底，STRIDE為流媒體視頻理解領域帶來了一個重要的技術突破。它不僅解決了傳統方法中激活信號不穩定的問題，更重要的是為AI助手在實際應用中的主動交互能力提供了堅實的技術基礎。這項技術的成熟將推動智能眼鏡、自動駕駛系統、智能監控等領域的發展，讓AI助手真正具備"察言觀色"的能力，在最合適的時機為用戶提供幫助。

對于普通用戶而言，這意味著未來的AI視頻助手將變得更加智能和貼心。無論是觀看教學視頻時的適時提醒，還是瀏覽社交媒體時的個性化解說，AI都能夠準確把握時機，提供恰到好處的互動體驗。隨著這項技術的進一步發展和應用，我們有理由期待一個更加智能、更具人性化的視頻AI交互時代的到來。有興趣深入了解技術細節的讀者可以通過論文編號arXiv:2603.27593v1查詢完整研究內容。

Q&A

Q1：STRIDE框架如何解決AI視頻助手響應時機不當的問題？

A：STRIDE通過將"何時說話"重新定義為結構化序列建模問題來解決這個問題。它采用滑動時間窗口維護激活區域，使用掩碼擴散技術逐步細化激活信號，確保AI能在連續的時間段內保持穩定判斷，避免了傳統方法中激活狀態頻繁跳躍的"閃爍"現象，讓AI助手能夠像經驗豐富的解說員一樣在最合適的時機開口。

Q2：STRIDE的兩階段架構是如何工作的？

A：STRIDE采用模塊化的兩階段設計：第一階段是輕量級激活模型，持續監控視頻流并判斷是否需要響應；第二階段是下游視頻大語言模型，在被激活時生成具體響應內容。這種設計既保持了原有模型能力，又通過輕量級前端實現精確時機控制，僅增加約7%的處理延遲，同時在不需要響應時能節省91%的處理時間。

Q3：STRIDE在實際應用中有什么局限性？

A：STRIDE主要有兩個局限：一是由于在1FPS低幀率下工作，可能無法捕獲極短暫的事件或快速視覺變化；二是當查詢內容過于寬泛或模糊時，可能出現多個候選片段同時滿足條件的情況，導致激活信號分散。這表明該技術仍然對時間采樣精度和查詢明確性有一定依賴，未來需要在流媒體感知和查詢定位方面進一步改進。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.