![]()
來(lái)自阿里巴巴集團(tuán)AMAP部門(mén)的研究團(tuán)隊(duì)最近發(fā)表了一項(xiàng)關(guān)于視頻事件預(yù)測(cè)的突破性研究,這項(xiàng)研究發(fā)表于2026年3月16日的計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議論文集(論文編號(hào)arXiv:2603.14935v1),有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。
想象一下,你正在看一段視頻,突然暫停在某個(gè)畫(huà)面,然后有人問(wèn)你:"接下來(lái)會(huì)發(fā)生什么?"這聽(tīng)起來(lái)是個(gè)很自然的問(wèn)題,但對(duì)于人工智能來(lái)說(shuō),這卻是一個(gè)相當(dāng)棘手的挑戰(zhàn)。不同于簡(jiǎn)單地識(shí)別視頻中正在發(fā)生的事情,預(yù)測(cè)未來(lái)事件需要AI理解時(shí)間的邏輯關(guān)系,并基于已觀(guān)察到的內(nèi)容進(jìn)行合理推斷。
這就是視頻事件預(yù)測(cè)(Video Event Prediction,簡(jiǎn)稱(chēng)VEP)要解決的核心問(wèn)題。就像一個(gè)經(jīng)驗(yàn)豐富的偵探能通過(guò)現(xiàn)場(chǎng)線(xiàn)索推斷出犯罪過(guò)程一樣,研究團(tuán)隊(duì)希望讓AI通過(guò)觀(guān)看視頻片段,就能預(yù)測(cè)接下來(lái)可能發(fā)生的事件。這種能力在現(xiàn)實(shí)世界中有著廣泛的應(yīng)用價(jià)值,比如危機(jī)預(yù)警系統(tǒng)可以提前發(fā)現(xiàn)潛在危險(xiǎn),交通管理系統(tǒng)可以預(yù)判擁堵情況,甚至視頻內(nèi)容創(chuàng)作也能從中受益。
然而,當(dāng)研究團(tuán)隊(duì)對(duì)當(dāng)前最先進(jìn)的多模態(tài)大語(yǔ)言模型(MLLMs)進(jìn)行測(cè)試時(shí),卻發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:這些在其他視覺(jué)任務(wù)上表現(xiàn)出色的AI系統(tǒng),在視頻事件預(yù)測(cè)任務(wù)上的表現(xiàn)卻差強(qiáng)人意。即使是表現(xiàn)最好的模型,準(zhǔn)確率也僅有66.9%,遠(yuǎn)低于它們?cè)谄渌曈X(jué)理解任務(wù)上的水平。
為了找出問(wèn)題的根源,研究團(tuán)隊(duì)進(jìn)行了深入的分析,發(fā)現(xiàn)了兩個(gè)關(guān)鍵問(wèn)題。首先,這些AI模型往往過(guò)度依賴(lài)文本選項(xiàng)中的線(xiàn)索,而不是真正基于視頻內(nèi)容進(jìn)行推理。就像一個(gè)學(xué)生在考試時(shí)不看題干,只根據(jù)選項(xiàng)內(nèi)容來(lái)猜答案一樣,AI模型表現(xiàn)出了明顯的"投機(jī)取巧"行為。其次,通過(guò)分析模型的注意力分布,研究團(tuán)隊(duì)發(fā)現(xiàn)AI在處理視頻事件預(yù)測(cè)任務(wù)時(shí),對(duì)視覺(jué)信息的利用明顯不足,更多地依賴(lài)于文本信息,這顯然不利于準(zhǔn)確理解視頻內(nèi)容的時(shí)間演變過(guò)程。
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了一個(gè)名為"事件鏈條"(Chain of Events,簡(jiǎn)稱(chēng)CoE)的全新解決方案。這個(gè)方法的核心思想非常直觀(guān):與其讓AI一次性處理整個(gè)視頻并直接預(yù)測(cè)未來(lái),不如先讓它學(xué)會(huì)將視頻分解成一系列有序的事件,形成一條清晰的時(shí)間鏈條,然后基于這個(gè)鏈條進(jìn)行邏輯推理。
一、事件鏈條:像串珠子一樣理解視頻
傳統(tǒng)的視頻處理方式就像讓人一口氣讀完一本厚厚的小說(shuō)然后立即回答關(guān)于結(jié)局的問(wèn)題。而事件鏈條方法則更像是先讓人理清故事的脈絡(luò),標(biāo)記出關(guān)鍵情節(jié)點(diǎn),然后基于這些情節(jié)點(diǎn)來(lái)推斷后續(xù)發(fā)展。
在事件鏈條框架中,每個(gè)事件都包含兩個(gè)關(guān)鍵要素:時(shí)間戳和描述。時(shí)間戳告訴我們事件發(fā)生的具體時(shí)間段,就像為每個(gè)情節(jié)標(biāo)注"第幾分鐘到第幾分鐘";描述則用文字概括了這個(gè)時(shí)間段內(nèi)發(fā)生的具體內(nèi)容,相當(dāng)于為每個(gè)片段寫(xiě)下簡(jiǎn)潔的"情節(jié)摘要"。
比如說(shuō),在一段關(guān)于沖浪的視頻中,事件鏈條可能是這樣的:第0到11秒顯示沖浪比賽的標(biāo)題畫(huà)面,第11到24秒展現(xiàn)沖浪者在海灘上準(zhǔn)備,第24到30秒顯示沖浪者下水開(kāi)始沖浪。通過(guò)這種方式,原本連續(xù)流動(dòng)的視頻被分解成了一個(gè)個(gè)清晰的事件節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都有明確的時(shí)間定位和內(nèi)容描述。
這種分解方式帶來(lái)了兩個(gè)重要優(yōu)勢(shì)。首先,它強(qiáng)制AI模型更細(xì)致地觀(guān)察視頻內(nèi)容,而不是匆匆瀏覽后就開(kāi)始猜測(cè)。其次,它建立了事件之間的邏輯聯(lián)系,讓AI能夠理解"因?yàn)榘l(fā)生了A,所以可能會(huì)發(fā)生B"這樣的時(shí)間因果關(guān)系。
二、兩階段訓(xùn)練:從推理學(xué)習(xí)到精細(xì)建模
為了讓AI掌握事件鏈條方法,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩階段的訓(xùn)練策略,就像培養(yǎng)一個(gè)優(yōu)秀的偵探需要先學(xué)會(huì)邏輯推理,再掌握細(xì)致觀(guān)察一樣。
第一階段被稱(chēng)為"CoE-SFT"(事件鏈條監(jiān)督微調(diào)),主要目標(biāo)是教會(huì)AI進(jìn)行邏輯推理。在這個(gè)階段,研究團(tuán)隊(duì)使用了一個(gè)有趣的"師父帶徒弟"策略。他們讓一個(gè)更強(qiáng)大的AI模型(Qwen2.5-VL-72B)充當(dāng)"師父",給它觀(guān)看視頻和正確答案,然后要求它解釋"為什么這個(gè)答案是對(duì)的",但不允許它分析錯(cuò)誤選項(xiàng)。這就像讓一個(gè)經(jīng)驗(yàn)豐富的老偵探專(zhuān)注于解釋正確的推理過(guò)程,而不是列舉各種錯(cuò)誤可能性。
通過(guò)這種方式生成的訓(xùn)練數(shù)據(jù)質(zhì)量很高,通過(guò)率超過(guò)90%。更重要的是,這些數(shù)據(jù)教會(huì)了AI如何建立視頻內(nèi)容與未來(lái)事件之間的邏輯聯(lián)系,而不是簡(jiǎn)單地在選項(xiàng)中尋找線(xiàn)索。
第二階段被稱(chēng)為"CoE-GRPO"(事件鏈條組策略?xún)?yōu)化),重點(diǎn)是提升AI的精細(xì)觀(guān)察能力。在這個(gè)階段,研究團(tuán)隊(duì)引入了強(qiáng)化學(xué)習(xí)方法,通過(guò)設(shè)計(jì)巧妙的獎(jiǎng)勵(lì)機(jī)制來(lái)指導(dǎo)AI學(xué)習(xí)如何構(gòu)建高質(zhì)量的事件鏈條。
這個(gè)獎(jiǎng)勵(lì)機(jī)制包含三個(gè)組成部分,就像評(píng)價(jià)一個(gè)學(xué)生作文需要從三個(gè)角度打分一樣。第一個(gè)是"結(jié)構(gòu)獎(jiǎng)勵(lì)",評(píng)估AI是否按照正確的格式構(gòu)建了事件鏈條,并控制鏈條的長(zhǎng)度既不太短也不太長(zhǎng)。第二個(gè)是"內(nèi)容獎(jiǎng)勵(lì)",通過(guò)計(jì)算事件描述與對(duì)應(yīng)視頻片段的相似度來(lái)確保描述的準(zhǔn)確性。第三個(gè)是"準(zhǔn)確性獎(jiǎng)勵(lì)",直接評(píng)估最終預(yù)測(cè)結(jié)果的正確性。
三、實(shí)驗(yàn)驗(yàn)證:數(shù)據(jù)說(shuō)話(huà)的成果展示
為了驗(yàn)證事件鏈條方法的有效性,研究團(tuán)隊(duì)在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面測(cè)試:FutureBench和AVEP。測(cè)試結(jié)果令人鼓舞,充分證明了這種方法的優(yōu)勢(shì)。
在FutureBench數(shù)據(jù)集上,使用事件鏈條方法的模型達(dá)到了75.00%的平均準(zhǔn)確率,顯著超過(guò)了之前的最好成績(jī)。更有趣的是,這個(gè)數(shù)據(jù)集將預(yù)測(cè)任務(wù)分為不同難度級(jí)別:1步預(yù)測(cè)(預(yù)測(cè)緊接著的一個(gè)事件)、2步預(yù)測(cè)(預(yù)測(cè)接下來(lái)的兩個(gè)事件)、3步預(yù)測(cè)(預(yù)測(cè)三個(gè)連續(xù)事件)和插值預(yù)測(cè)(預(yù)測(cè)非連續(xù)的多個(gè)事件)。事件鏈條方法在所有這些任務(wù)上都取得了顯著改進(jìn),特別是在最困難的3步預(yù)測(cè)任務(wù)上,準(zhǔn)確率從之前的63.7%提升到了71.6%。
在AVEP數(shù)據(jù)集上,這個(gè)方法的優(yōu)勢(shì)更加明顯。AVEP專(zhuān)門(mén)評(píng)估AI對(duì)事件組成要素的理解,包括動(dòng)作動(dòng)詞和參與者角色的預(yù)測(cè)。使用事件鏈條方法的模型在動(dòng)詞預(yù)測(cè)準(zhǔn)確率上達(dá)到了18.75%,幾乎是之前最好結(jié)果的兩倍。在更復(fù)雜的動(dòng)作預(yù)測(cè)任務(wù)上,F(xiàn)1分?jǐn)?shù)達(dá)到了9.88,相比之前的最好成績(jī)有了顯著提升。
更重要的是,通過(guò)對(duì)AI注意力分布的分析,研究團(tuán)隊(duì)證實(shí)了事件鏈條方法確實(shí)解決了之前發(fā)現(xiàn)的問(wèn)題。使用這種方法訓(xùn)練的模型對(duì)視覺(jué)信息的關(guān)注度顯著提升,注意力改善率達(dá)到了15.11%,遠(yuǎn)超傳統(tǒng)方法的1.47%。這意味著AI真正學(xué)會(huì)了"用眼睛看"而不是"用嘴猜"。
四、深度分析:方法細(xì)節(jié)的巧妙設(shè)計(jì)
事件鏈條方法的成功并非偶然,而是源于研究團(tuán)隊(duì)在設(shè)計(jì)細(xì)節(jié)上的精心考慮。就像制作一道美味佳肴需要掌握火候、調(diào)料和時(shí)機(jī)一樣,這個(gè)方法的每個(gè)組成部分都經(jīng)過(guò)了仔細(xì)優(yōu)化。
在事件鏈條的構(gòu)建過(guò)程中,研究團(tuán)隊(duì)采用了特殊的標(biāo)記格式。每個(gè)事件都被包裝在專(zhuān)門(mén)的標(biāo)簽中,明確標(biāo)注開(kāi)始時(shí)間、結(jié)束時(shí)間和描述內(nèi)容。這就像給每個(gè)故事情節(jié)貼上標(biāo)簽,讓AI能夠清晰地識(shí)別和處理每個(gè)時(shí)間片段。
獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)也體現(xiàn)了深思熟慮。長(zhǎng)度控制確保AI既不會(huì)過(guò)度簡(jiǎn)化(生成太少事件),也不會(huì)過(guò)度復(fù)雜化(生成太多冗余事件)。相似度計(jì)算使用了先進(jìn)的視頻-文本匹配模型,確保事件描述與視頻內(nèi)容高度一致。通過(guò)這種多維度的獎(jiǎng)勵(lì)設(shè)計(jì),AI學(xué)會(huì)了在準(zhǔn)確性、完整性和簡(jiǎn)潔性之間找到最佳平衡點(diǎn)。
研究團(tuán)隊(duì)還發(fā)現(xiàn),不同的相似度計(jì)算模型會(huì)影響最終效果。他們測(cè)試了VideoCLIP-XL、ViCLIP和CLIP等不同模型,發(fā)現(xiàn)VideoCLIP-XL效果最佳。這個(gè)發(fā)現(xiàn)提醒我們,即使是看似次要的技術(shù)選擇,也可能對(duì)整體性能產(chǎn)生顯著影響。
五、開(kāi)放評(píng)估:更貼近真實(shí)應(yīng)用的測(cè)試方式
除了標(biāo)準(zhǔn)的多選題測(cè)試,研究團(tuán)隊(duì)還設(shè)計(jì)了一種更接近真實(shí)應(yīng)用場(chǎng)景的開(kāi)放式評(píng)估方法。在這種測(cè)試中,AI不再?gòu)念A(yù)設(shè)選項(xiàng)中選擇答案,而是需要直接描述它認(rèn)為會(huì)發(fā)生的未來(lái)事件。然后,由另一個(gè)AI充當(dāng)"裁判",對(duì)不同模型的回答進(jìn)行評(píng)估和比較。
這種評(píng)估方式更能體現(xiàn)AI的真實(shí)理解能力。在開(kāi)放式評(píng)估中,使用事件鏈條監(jiān)督微調(diào)的模型獲得了38.13%的勝率,顯著超過(guò)了其他方法。有趣的是,在這種評(píng)估中,事件鏈條監(jiān)督微調(diào)的表現(xiàn)甚至略?xún)?yōu)于加上強(qiáng)化學(xué)習(xí)的完整版本,這可能是因?yàn)椴门蠥I更熟悉監(jiān)督學(xué)習(xí)風(fēng)格的推理過(guò)程。
六、技術(shù)細(xì)節(jié):工程實(shí)現(xiàn)的考量
從工程實(shí)現(xiàn)的角度來(lái)看,事件鏈條方法展現(xiàn)出了良好的實(shí)用性。整個(gè)訓(xùn)練過(guò)程使用了最多16塊NVIDIA H20 GPU,訓(xùn)練時(shí)間控制在合理范圍內(nèi)。為了平衡效果和效率,研究團(tuán)隊(duì)將視頻幀數(shù)限制在32幀,分辨率設(shè)置為128×28×28像素。
訓(xùn)練參數(shù)的設(shè)置也經(jīng)過(guò)了細(xì)致調(diào)優(yōu)。強(qiáng)化學(xué)習(xí)的組大小設(shè)置為4,這意味著每次同時(shí)生成4個(gè)回答進(jìn)行比較;KL散度系數(shù)設(shè)置為0.04,用來(lái)平衡性能提升和模型穩(wěn)定性;學(xué)習(xí)率設(shè)置為1e-6,確保訓(xùn)練過(guò)程穩(wěn)定收斂。整個(gè)訓(xùn)練過(guò)程僅需150步,展現(xiàn)出了良好的訓(xùn)練效率。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了每個(gè)組件的重要性。他們發(fā)現(xiàn),當(dāng)移除相似度獎(jiǎng)勵(lì)時(shí),所有指標(biāo)都會(huì)明顯下降,證明了這個(gè)組件的必要性。事件鏈條長(zhǎng)度的選擇也很關(guān)鍵:太短的鏈條無(wú)法捕捉足夠的細(xì)節(jié),太長(zhǎng)的鏈條又會(huì)引入冗余信息。經(jīng)過(guò)實(shí)驗(yàn),他們發(fā)現(xiàn)3個(gè)事件的長(zhǎng)度是最佳選擇。
七、局限性與未來(lái)展望:誠(chéng)實(shí)面對(duì)挑戰(zhàn)
研究團(tuán)隊(duì)也誠(chéng)實(shí)地承認(rèn)了當(dāng)前方法的一些局限性。首先,事件鏈條方法對(duì)AI的時(shí)間定位能力有一定要求。雖然目前大多數(shù)多模態(tài)大語(yǔ)言模型都具備不錯(cuò)的時(shí)間定位能力,但這個(gè)能力仍有改進(jìn)空間,更精確的時(shí)間定位可能會(huì)帶來(lái)更好的事件預(yù)測(cè)效果。
其次,目前的事件表示相對(duì)簡(jiǎn)單,主要采用線(xiàn)性的鏈條結(jié)構(gòu)。在復(fù)雜的視頻場(chǎng)景中,事件之間可能存在更復(fù)雜的關(guān)系,比如并行發(fā)生的多個(gè)事件線(xiàn)索,或者具有分支結(jié)構(gòu)的事件發(fā)展。未來(lái)的研究可能需要探索更復(fù)雜的事件表示方法,比如事件圖或事件網(wǎng)絡(luò)。
由于資源限制,研究團(tuán)隊(duì)主要在Qwen2.5-VL模型上驗(yàn)證了方法的有效性。雖然這個(gè)方法在理論上應(yīng)該適用于所有多模態(tài)大語(yǔ)言模型,但在其他模型上的效果還需要進(jìn)一步驗(yàn)證。同時(shí),這種方法在其他視頻相關(guān)任務(wù)上的適用性也值得探索。
八、實(shí)際意義:從研究到應(yīng)用的思考
這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)范圍,它為AI理解和預(yù)測(cè)視頻內(nèi)容開(kāi)辟了新的路徑。在實(shí)際應(yīng)用中,這種能力可能會(huì)帶來(lái)深遠(yuǎn)的影響。
在安全監(jiān)控領(lǐng)域,能夠預(yù)測(cè)事件發(fā)展的AI系統(tǒng)可以提前發(fā)現(xiàn)異常行為,及時(shí)發(fā)出預(yù)警。在交通管理中,系統(tǒng)可以預(yù)判交通流量變化,優(yōu)化信號(hào)燈控制和路徑規(guī)劃。在內(nèi)容創(chuàng)作領(lǐng)域,AI可以協(xié)助視頻剪輯,自動(dòng)預(yù)測(cè)和補(bǔ)充缺失的鏡頭。甚至在教育場(chǎng)景中,這種技術(shù)可以幫助分析學(xué)習(xí)過(guò)程,預(yù)測(cè)學(xué)習(xí)效果并提供個(gè)性化建議。
更重要的是,這項(xiàng)研究展示了一種系統(tǒng)性的問(wèn)題解決思路。當(dāng)面對(duì)復(fù)雜的AI任務(wù)時(shí),不是簡(jiǎn)單地增加模型規(guī)模或數(shù)據(jù)量,而是深入分析問(wèn)題本質(zhì),設(shè)計(jì)針對(duì)性的解決方案。這種思路對(duì)整個(gè)AI領(lǐng)域都有借鑒價(jià)值。
說(shuō)到底,這項(xiàng)來(lái)自阿里巴巴AMAP團(tuán)隊(duì)的研究為我們展示了一個(gè)重要道理:讓AI真正理解視頻內(nèi)容,不能只依靠"看得多",更要學(xué)會(huì)"想得深"。事件鏈條方法通過(guò)將復(fù)雜的視頻理解任務(wù)分解為結(jié)構(gòu)化的事件序列,不僅提升了預(yù)測(cè)準(zhǔn)確性,也為我們理解時(shí)間推理提供了新的視角。雖然當(dāng)前方法還有改進(jìn)空間,但它已經(jīng)為視頻事件預(yù)測(cè)這個(gè)重要領(lǐng)域奠定了堅(jiān)實(shí)的基礎(chǔ)。隨著技術(shù)的進(jìn)一步發(fā)展,我們有理由期待AI在理解和預(yù)測(cè)復(fù)雜動(dòng)態(tài)場(chǎng)景方面取得更大突破。
Q&A
Q1:什么是事件鏈條(CoE)方法?
A:事件鏈條是阿里巴巴AMAP團(tuán)隊(duì)提出的視頻事件預(yù)測(cè)方法,它將連續(xù)的視頻分解成一系列有時(shí)間順序的事件,每個(gè)事件包含具體的時(shí)間戳和文字描述。就像把一個(gè)完整故事拆分成多個(gè)情節(jié)點(diǎn),讓AI先理解每個(gè)片段發(fā)生了什么,再基于這些片段的邏輯關(guān)系預(yù)測(cè)接下來(lái)可能發(fā)生的事件。
Q2:為什么現(xiàn)有的AI模型在視頻事件預(yù)測(cè)上表現(xiàn)不好?
A:研究團(tuán)隊(duì)發(fā)現(xiàn)了兩個(gè)主要問(wèn)題:一是AI模型過(guò)度依賴(lài)文本選項(xiàng)中的線(xiàn)索而不是真正理解視頻內(nèi)容,就像學(xué)生不看題干只根據(jù)選項(xiàng)猜答案;二是AI對(duì)視覺(jué)信息的利用不足,更多依賴(lài)文本信息,注意力分配不合理,導(dǎo)致無(wú)法準(zhǔn)確理解視頻的時(shí)間演變過(guò)程。
Q3:CoE方法的訓(xùn)練效果如何?
A:實(shí)驗(yàn)結(jié)果顯示CoE方法顯著提升了視頻事件預(yù)測(cè)的準(zhǔn)確率,在FutureBench數(shù)據(jù)集上達(dá)到75.00%的平均準(zhǔn)確率,在AVEP數(shù)據(jù)集上動(dòng)詞預(yù)測(cè)準(zhǔn)確率達(dá)到18.75%,幾乎是之前最好結(jié)果的兩倍。更重要的是,AI對(duì)視覺(jué)信息的關(guān)注度提升了15.11%,真正學(xué)會(huì)了基于視頻內(nèi)容進(jìn)行推理。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.