網易首頁 > 網易號 > 正文申請入駐

MeViSv2數據集升級亮相，解決視頻理解睜眼瞎問題

2025-12-30 00:31:52　來源: 看看七七

四川舉報

分享至

哈嘍，大家好，我是小方，今天，我們主要來看看最近AI學術圈里一個炸鍋的消息——視頻理解領域的“高考卷”剛剛迎來了史詩級更新。

MeViS的第一代就硬核地糾正了這一點，它立下三條鐵律：第一，語言描述必須圍繞“運動”，比如“飛走的鳥”、“滾過來的球”，禁止用容易識別的靜態特征作弊；第二，場景必須復雜，一群外觀相似的物體擠在一起；第三，視頻要足夠長，平均13秒，目標持續近11秒，考驗模型的“長時記憶力”，這樣一來，模型被迫必須認真“看視頻”，分析動態，才能找到目標，正是這種高難度，讓MeViSv1吸引了全球近千支隊伍挑戰，成為了領域內的標桿。

如果說MeViSv1是出了道難題，那MeViSv2簡直就是構建了一個貼近真實的“復雜世界”，它的升級主要體現在三個方面，個個直指當前AI的軟肋。

第二，任務拓展：一個數據集覆蓋四大核心戰場。MeViSv2一次性支持四大任務：指向性視頻分割（RVOS）、音頻引導分割（AVOS）、指向性多目標跟蹤（RMOT）和運動描述生成（RMEG）。

第三，規模與機制升維：專治AI“幻覺”和“邏輯短路”。除了數量增長，MeViSv2新增了兩類“殺手級”語句。一類是“運動推理語句”，另一類是“無目標語句”，描述一個視頻中根本不存在的動作，專門用來整治那些不懂裝懂、強行輸出一個目標的AI“幻覺”問題，這要求AI必須具備邏輯判斷和說“不”的能力。

面對如此高難度的數據集，原來的模型明顯不夠用了。研究團隊也同步提出了一個新的基線模型LMPM++，這個模型的思路很巧妙，它不再讓AI一幀幀硬看視頻，而是先把視頻里可能的物體都找出來，變成一組簡潔的“對象快照”，然后喂給大語言模型（LLM）去分析，LLM擅長邏輯推理，可以跨時間線把動作的前因后果串起來。

此外，它的發布正與國內多模態大模型的研發熱潮形成共振，越來越多的科技公司意識到，下一階段AI的競爭，不僅是“看圖說話”，更是“看動態視頻并深度理解”。

MeViSv2提供的海量、高質量、強邏輯標注的數據，將成為訓練和檢驗這些大模型視頻理解能力的核心資源，它從學術界拋出的一塊“試金石”，很可能在未來一兩年內，催生出真正能理解復雜動態視覺世界的新一代AI應用。

MeViSv2的發布，無疑為多模態視頻理解領域樹立了一座新的燈塔，它告訴我們，真正的視頻智能，必須能看懂動態、理解因果、抵抗干擾。

前路雖難，但每一次基準的刷新，都是向著讓AI更懂我們所在世界邁出的堅實一步，這場關于“動態視界”的競賽，剛剛進入最精彩的章節。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.