337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

SenseTime 讓 AI 學會聰明看視頻:像偵探一樣從線索中找答案

0
分享至


這項由 SenseTime Research(商湯科技研究院)開發的研究成果發表于 2026 年 3 月,論文編號為 arXiv:2603.22918v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

當我們看一部電影時,我們不會呆呆地盯著每一幀畫面。相反,我們的大腦會根據劇情發展,有選擇性地關注重要情節,忽略無關緊要的片段。比如在看偵探片時,我們會特別留意可疑的細節,而在浪漫場景中則專注于角色的表情和互動。但現在的人工智能在理解視頻時,卻像一個死板的機器人,必須把整個視頻從頭到尾逐幀掃描一遍,不管內容是否重要。

這種笨拙的方式不僅浪費大量計算資源,更重要的是效果還很差。就像讓一個人在茫茫人海中尋找特定的一個人,如果只是盲目地一個個看過去,既耗時又容易遺漏關鍵信息。現在,商湯科技的研究團隊提出了一個革命性的解決方案——他們開發了一個名為 EVA(高效強化學習端到端視頻智能體)的系統,讓人工智能學會了像偵探一樣思考和觀察。

EVA 的核心思想是"先思考再觀察"。傳統的 AI 就像一個被動的攝像頭,只能接受別人塞給它的畫面;而 EVA 更像一個主動的偵探,它會先分析案件(用戶的問題),制定調查計劃,然后有針對性地尋找線索(選擇觀看視頻的特定片段),最后綜合所有證據得出結論。

這種工作方式的好處顯而易見。以一個長達兩小時的視頻為例,傳統 AI 需要處理超過 70 萬個視覺片段,就像要求一個人把一本厚厚的字典從頭到尾背一遍。而 EVA 只需要關注其中的幾千個關鍵片段,就能準確回答問題,效率提升了上百倍。

研究團隊為了訓練這個聰明的"視頻偵探",設計了一套三階段的教學方法。第一階段是基礎訓練,就像教小孩子識字一樣,讓 EVA 學會如何使用各種"偵探工具"——比如如何選擇觀看視頻的哪個時間段,用什么清晰度觀看,看多少幀畫面等。這個階段使用了精心制作的 1 萬個高質量訓練樣本。

第二階段采用了一種叫做"卡納曼-特沃斯基優化"的方法。這個名字聽起來很復雜,但實際上就是讓 AI 從錯誤中學習。研究團隊收集了 1.1 萬個案例,其中包括成功的偵探過程和失敗的案例。通過對比這些成功與失敗的例子,EVA 學會了避免常見的錯誤,比如不要在沒有足夠證據的情況下就匆忙下結論,也不要在同一個地方反復尋找已經找過的線索。

第三階段是最關鍵的強化學習訓練。這就像讓一個偵探在真實案件中積累經驗。EVA 需要處理 9600 個開放式問題和 1100 個選擇題,每次回答后都會得到反饋:答對了會得到獎勵,答錯了會被扣分。通過無數次的試錯,EVA 逐漸掌握了高效觀看視頻的技巧。

研究團隊還創新性地引入了"數據增強型強化學習"。傳統的訓練方法就像讓學生只做固定的練習題,而這種新方法會根據學生的薄弱環節動態生成新的練習題。當系統發現 EVA 在某類問題上表現不佳時,會自動生成更多類似的訓練樣本,確保全面提升能力。

為了驗證 EVA 的實際效果,研究團隊在六個不同的視頻理解基準測試上進行了評估。結果令人振奮:EVA 比傳統的視頻理解模型提升了 6-12%,比之前的智能體方法也提升了 1-3%。更重要的是,EVA 在處理超長視頻時表現尤為出色。

在一個名為"采樣困境基準"的測試中,EVA 的表現格外亮眼。這個測試的設計思路是:給 AI 看一個很長的視頻,但只能選擇看其中的一部分畫面,看如何在有限的"觀看預算"內獲得最多的信息。谷歌的 Gemini-2.0-Flash 模型雖然準確率最高(56.2%),但需要觀看近 70 萬個視覺片段;而 EVA 只需要看 1 萬個片段就達到了 51.8% 的準確率,效率比 Gemini 高出幾十倍。

EVA 的工作流程就像一個經驗豐富的偵探辦案。當接到一個新案子時,偵探不會盲目地到處搜集證據,而是先分析案情,推測可能的線索方向,然后制定調查計劃。EVA 也是如此:收到用戶問題后,它首先分析問題的性質,判斷需要什么樣的視覺信息,然后決定觀看視頻的哪個時間段、用什么清晰度、看多少幀畫面。如果第一輪觀察沒有找到足夠的證據,它會調整策略,進行下一輪更有針對性的觀察。

這種靈活的策略帶來了顯著的效率提升。對于不同類型的問題,EVA 會采用不同的觀看策略。如果問題只涉及視頻開頭或結尾的內容,EVA 就會直接跳到相關時間段;如果問題需要了解整個視頻的概況,EVA 會先用低清晰度快速瀏覽全片,再針對關鍵片段進行高清觀看。

研究團隊通過大量實驗驗證了這種"計劃-觀察-行動-反思"循環的有效性。實驗發現,經過三階段訓練的 EVA 不僅在準確率上有顯著提升,在視覺資源的利用效率上也有了質的飛躍。傳統方法往往會浪費大量時間觀看無關內容,而 EVA 能夠精準定位到關鍵信息,避免了無效處理。

EVA 的技術突破還體現在其靈活的工具使用能力上。系統配備了一個強大的幀選擇工具,可以控制四個關鍵參數:開始時間、結束時間、幀數量和分辨率。這就像給偵探配備了可調節焦距的望遠鏡、可變速播放的錄像設備和高清攝像頭。EVA 可以根據需要自由調節這些參數,實現最優的信息獲取策略。

在處理復雜的長視頻任務時,EVA 展現出了令人印象深刻的適應能力。比如在 Video-Holmes 推理基準測試中,盡管是在零樣本設置下(即沒有針對該測試進行專門訓練),EVA 依然取得了與其他開源模型相當的成績。這說明 EVA 學到的不是死記硬背的技巧,而是真正的視頻理解和推理能力。

研究團隊還專門分析了 EVA 的工作模式。他們發現,EVA 在不同輪次的觀察中會采用截然不同的策略。第一輪通常是大范圍、低分辨率的"偵察",用于獲得視頻的整體概況;后續輪次則會聚焦于特定時間段,使用更高分辨率進行"精細搜索"。這種從粗到細的策略正是人類觀看視頻時的自然習慣。

EVA 系統的另一個重要創新是其強大的反思能力。在每輪觀察后,系統都會評估當前獲得的信息是否足夠回答問題。如果信息不足,它會分析缺少什么類型的證據,然后調整下一輪的觀察策略。這種自我監控能力確保了系統不會過早下結論,也不會陷入無意義的重復搜索。

從技術實現角度來看,EVA 基于 Qwen2.5-VL-7B-Instruct 模型構建,這是一個支持多種分辨率輸入的先進多模態模型。研究團隊之所以選擇這個基礎模型,是因為它在處理不同分辨率圖像時能夠節省計算資源,這與 EVA 的高效理念完美契合。

訓練過程中,研究團隊遇到了一個有趣的挑戰:如何防止 AI 在沒有足夠證據時就隨意猜測答案。為了解決這個問題,他們設計了一個巧妙的獎勵機制。如果 EVA 使用了工具但答案錯誤,系統會給予少量的格式獎勵(0.05分),這個獎勵遠低于隨機猜測的期望得分(0.20-0.25分)。這樣設計的目的是鼓勵 EVA 進行有根據的推理,而不是無腦猜測。

在實際應用中,EVA 展現出了驚人的多樣性。面對不同類型的問題,它會自動生成不同的工作流程。有些問題只需要一輪高密度采樣就能解決,類似于傳統方法;有些問題則需要多輪迭代,先概覽再細看;還有些問題需要在多個時間段之間跳躍觀察。這種靈活性正是 EVA 相對于固化工作流程的傳統方法的最大優勢。

研究團隊在論文中展示了幾個典型案例。在一個關于游戲中"GOAAAAAL!!"動畫觸發機制的問題中,EVA 首先用低分辨率快速瀏覽了整個 397 秒的視頻,找到了可能相關的時間段,然后在該時間段內用高分辨率進行細致觀察,最終準確識別出動畫是在球進入球門時觸發的。整個過程就像一個經驗豐富的體育解說員快速定位精彩瞬間一樣自然流暢。

另一個案例涉及一個長達 1218 秒的縫紉機設置視頻。EVA 只用了兩輪觀察就準確回答了關于操作流程的問題。第一輪快速瀏覽全片,第二輪重點觀察關鍵操作步驟,效率遠超傳統的逐幀分析方法。

EVA 的成功不僅在于技術指標的提升,更在于它代表了視頻理解 AI 的一個重要轉向:從被動接受到主動探索,從機械處理到智能推理。這種轉變對于未來的人工智能發展具有深遠意義。

研究團隊也坦誠地指出了 EVA 目前的局限性。系統仍然依賴于預定義的工具接口,在處理全新類型的查詢時可能會遇到困難。此外,推理循環的設計相對固化,缺乏自我演化的能力。未來的研究方向包括開發更靈活的工具生態系統、自演化推理策略和跨模態記憶機制等。

盡管存在這些挑戰,EVA 已經為視頻理解 AI 的發展開辟了新的道路。它證明了通過合理的訓練策略和系統設計,人工智能確實可以學會像人類一樣高效地處理視頻信息。隨著技術的進一步成熟,我們有理由期待看到更多具備類似智能的 AI 系統出現。

這項研究的意義不僅限于學術界。在實際應用中,EVA 的高效特性使其在視頻監控、內容審核、教育培訓等領域具有廣闊的應用前景。特別是在需要處理大量長視頻的場景中,EVA 的效率優勢將轉化為顯著的成本節約和性能提升。

說到底,EVA 代表了人工智能發展的一個重要方向:讓機器不僅能夠理解信息,更能夠智能地選擇和處理信息。正如一個優秀的偵探不會被無關的細節所迷惑,而是能夠敏銳地抓住關鍵線索一樣,EVA 學會了在海量視頻信息中精準定位所需內容。這種能力的提升,不僅意味著技術性能的優化,更預示著人工智能正在向更高層次的認知智能邁進。

Q&A

Q1:EVA是什么?

A:EVA是商湯科技開發的一個視頻理解AI系統,它的核心能力是像偵探一樣智能地觀看視頻。不同于傳統AI需要逐幀掃描整個視頻,EVA會先分析問題,制定觀看計劃,然后有選擇性地觀看關鍵片段,效率比傳統方法高出幾十倍。

Q2:EVA的訓練過程是怎樣的?

A:EVA采用三階段訓練方法。第一階段是基礎技能學習,使用1萬個樣本學會工具使用;第二階段通過1.1萬個成功和失敗案例學會避免錯誤;第三階段是強化學習,通過處理9600個開放式問題和1100個選擇題來積累實戰經驗。

Q3:EVA相比傳統視頻AI有什么優勢?

A:EVA最大的優勢是效率。傳統AI需要處理70萬個視覺片段才能理解長視頻,而EVA只需要1萬個片段就能達到相近的準確率。它還具備靈活的觀看策略,能根據不同問題類型自動調整觀看方式,避免無效的重復處理。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
謝暉現狀:重返上海申花,俄羅斯妻子風韻猶存,兒女雙全財富自由

謝暉現狀:重返上海申花,俄羅斯妻子風韻猶存,兒女雙全財富自由

林輕吟
2026-04-05 14:30:44
兩年開房410次,臨時工狂睡上副處,18億資金隨便花

兩年開房410次,臨時工狂睡上副處,18億資金隨便花

小鹿姐姐情感說
2026-04-06 06:33:59
軍事 | 拯救大兵,美軍炸了還是沒炸?誰在說謊?

軍事 | 拯救大兵,美軍炸了還是沒炸?誰在說謊?

新民周刊
2026-04-06 09:09:19
28億元救一個上校,美國為何不惜一切代價非救不可?

28億元救一個上校,美國為何不惜一切代價非救不可?

碼頭青年
2026-04-06 07:37:05
教育已死:你們把教師群體打趴下之后,自己正在成為受害者

教育已死:你們把教師群體打趴下之后,自己正在成為受害者

雙旗鎮客棧
2026-04-05 20:45:53
被打服?世界第1盛贊趙心童:能拿上百個冠軍!高興中國選手崛起

被打服?世界第1盛贊趙心童:能拿上百個冠軍!高興中國選手崛起

我愛英超
2026-04-06 07:51:33
安徽懷遠一男子騎電動自行車載妻子去接娃,鋰電池突然爆燃致妻子全身70%面積深度燒傷,男子悔恨:兩塊電池7000元,醫療費花費20余萬元

安徽懷遠一男子騎電動自行車載妻子去接娃,鋰電池突然爆燃致妻子全身70%面積深度燒傷,男子悔恨:兩塊電池7000元,醫療費花費20余萬元

極目新聞
2026-04-05 23:06:03
太可怕了!郭麒麟被聚會朋友偷拍發上網,網友:誰還敢交朋友?

太可怕了!郭麒麟被聚會朋友偷拍發上網,網友:誰還敢交朋友?

子芫伴你成長
2026-04-05 22:43:24
沒了東里湖人全亂了!防守針對+呼應一塌糊涂,關鍵球沒人能打!

沒了東里湖人全亂了!防守針對+呼應一塌糊涂,關鍵球沒人能打!

籃球資訊達人
2026-04-06 10:35:02
美國明明是全球第一產油國,為何還要死磕中東高硫原油?

美國明明是全球第一產油國,為何還要死磕中東高硫原油?

知識圈
2026-04-05 10:42:35
悲催!高二女生因抑郁被迫休學,3年心理咨詢50次,加補課超40萬

悲催!高二女生因抑郁被迫休學,3年心理咨詢50次,加補課超40萬

火山詩話
2026-04-06 05:54:34
趙心童:我很期待世錦賽的到來,會竭盡全力衛冕

趙心童:我很期待世錦賽的到來,會竭盡全力衛冕

懂球帝
2026-04-06 08:28:10
曹操墓前擺滿布洛芬,高陵遺址博物館:清明游客眾多,每天有新的人來送,會擺放整齊不會隨意清理

曹操墓前擺滿布洛芬,高陵遺址博物館:清明游客眾多,每天有新的人來送,會擺放整齊不會隨意清理

極目新聞
2026-04-05 18:09:27
伊朗最高領袖:將繼續利用封鎖霍爾木茲海峽這一戰略杠桿

伊朗最高領袖:將繼續利用封鎖霍爾木茲海峽這一戰略杠桿

國際在線
2026-04-06 06:53:08
李亞鵬含沙射影,官媒下場無縫銜接配合,陳光標遮羞布被撕得粉碎

李亞鵬含沙射影,官媒下場無縫銜接配合,陳光標遮羞布被撕得粉碎

潮鹿逐夢
2026-04-05 16:56:45
CBA球星郭艾倫疑遭詐騙 涉案金額近千萬元

CBA球星郭艾倫疑遭詐騙 涉案金額近千萬元

新快報新聞
2026-04-05 23:42:04
廣東男子家族上百人,掃墓只有3人,網友:清明節基本廢了

廣東男子家族上百人,掃墓只有3人,網友:清明節基本廢了

輝哥說動漫
2026-04-06 05:49:22
“失溫缺氧,有人裹垃圾袋保暖”,大量游客被困山頂!云南知名景區回應

“失溫缺氧,有人裹垃圾袋保暖”,大量游客被困山頂!云南知名景區回應

上觀新聞
2026-04-05 22:08:18
趙心童10-3橫掃小特!7次決賽全奪冠,最新世界排名:丁俊暉第16

趙心童10-3橫掃小特!7次決賽全奪冠,最新世界排名:丁俊暉第16

球場沒跑道
2026-04-06 04:49:22
女子孕35周狂吃炸雞漢堡,一周胖10斤,抽出“草莓牛奶”血,急送ICU;浙江醫院:情況緊急,必須立即終止妊娠

女子孕35周狂吃炸雞漢堡,一周胖10斤,抽出“草莓牛奶”血,急送ICU;浙江醫院:情況緊急,必須立即終止妊娠

環球網資訊
2026-04-06 08:38:11
2026-04-06 10:51:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
7875文章數 558關注度
往期回顧 全部

科技要聞

前同事被蒸餾成Token,AI能否偷走職場經驗

頭條要聞

牛彈琴:特朗普兩個舉動很反常 美國上下都很震驚

頭條要聞

牛彈琴:特朗普兩個舉動很反常 美國上下都很震驚

體育要聞

CBA最老球員,身價7500萬美元

娛樂要聞

王燦兮否認婆媳不和 曬與杜淳媽合影

財經要聞

118噸!這家央行,大幅拋售黃金!

汽車要聞

家用SUV沒駕駛樂趣?極氪8X第一個不同意

態度原創

家居
本地
旅游
房產
公開課

家居要聞

溫馨多元 愛的具象化

本地新聞

跟著歌聲游安徽,聽古村回響

旅游要聞

全民“追花地圖”!原來有這么多“花樣”玩法

房產要聞

小陽春全面啟動!現房,才是這波行情里最穩的上車票

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版