網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里AMAP突破：事件鏈條實(shí)現(xiàn)AI視頻未來(lái)預(yù)測(cè)能力提升

2026-03-27 17:01:54　來(lái)源: 科技行者

北京舉報(bào)

分享至

來(lái)自阿里巴巴集團(tuán)AMAP部門(mén)的研究團(tuán)隊(duì)最近發(fā)表了一項(xiàng)關(guān)于視頻事件預(yù)測(cè)的突破性研究，這項(xiàng)研究發(fā)表于2026年3月16日的計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議論文集（論文編號(hào)arXiv:2603.14935v1），有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。

想象一下，你正在看一段視頻，突然暫停在某個(gè)畫(huà)面，然后有人問(wèn)你："接下來(lái)會(huì)發(fā)生什么？"這聽(tīng)起來(lái)是個(gè)很自然的問(wèn)題，但對(duì)于人工智能來(lái)說(shuō)，這卻是一個(gè)相當(dāng)棘手的挑戰(zhàn)。不同于簡(jiǎn)單地識(shí)別視頻中正在發(fā)生的事情，預(yù)測(cè)未來(lái)事件需要AI理解時(shí)間的邏輯關(guān)系，并基于已觀(guān)察到的內(nèi)容進(jìn)行合理推斷。

這就是視頻事件預(yù)測(cè)（Video Event Prediction，簡(jiǎn)稱(chēng)VEP）要解決的核心問(wèn)題。就像一個(gè)經(jīng)驗(yàn)豐富的偵探能通過(guò)現(xiàn)場(chǎng)線(xiàn)索推斷出犯罪過(guò)程一樣，研究團(tuán)隊(duì)希望讓AI通過(guò)觀(guān)看視頻片段，就能預(yù)測(cè)接下來(lái)可能發(fā)生的事件。這種能力在現(xiàn)實(shí)世界中有著廣泛的應(yīng)用價(jià)值，比如危機(jī)預(yù)警系統(tǒng)可以提前發(fā)現(xiàn)潛在危險(xiǎn)，交通管理系統(tǒng)可以預(yù)判擁堵情況，甚至視頻內(nèi)容創(chuàng)作也能從中受益。

然而，當(dāng)研究團(tuán)隊(duì)對(duì)當(dāng)前最先進(jìn)的多模態(tài)大語(yǔ)言模型（MLLMs）進(jìn)行測(cè)試時(shí)，卻發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象：這些在其他視覺(jué)任務(wù)上表現(xiàn)出色的AI系統(tǒng)，在視頻事件預(yù)測(cè)任務(wù)上的表現(xiàn)卻差強(qiáng)人意。即使是表現(xiàn)最好的模型，準(zhǔn)確率也僅有66.9%，遠(yuǎn)低于它們?cè)谄渌曈X(jué)理解任務(wù)上的水平。

為了找出問(wèn)題的根源，研究團(tuán)隊(duì)進(jìn)行了深入的分析，發(fā)現(xiàn)了兩個(gè)關(guān)鍵問(wèn)題。首先，這些AI模型往往過(guò)度依賴(lài)文本選項(xiàng)中的線(xiàn)索，而不是真正基于視頻內(nèi)容進(jìn)行推理。就像一個(gè)學(xué)生在考試時(shí)不看題干，只根據(jù)選項(xiàng)內(nèi)容來(lái)猜答案一樣，AI模型表現(xiàn)出了明顯的"投機(jī)取巧"行為。其次，通過(guò)分析模型的注意力分布，研究團(tuán)隊(duì)發(fā)現(xiàn)AI在處理視頻事件預(yù)測(cè)任務(wù)時(shí)，對(duì)視覺(jué)信息的利用明顯不足，更多地依賴(lài)于文本信息，這顯然不利于準(zhǔn)確理解視頻內(nèi)容的時(shí)間演變過(guò)程。

面對(duì)這些挑戰(zhàn)，研究團(tuán)隊(duì)提出了一個(gè)名為"事件鏈條"（Chain of Events，簡(jiǎn)稱(chēng)CoE）的全新解決方案。這個(gè)方法的核心思想非常直觀(guān)：與其讓AI一次性處理整個(gè)視頻并直接預(yù)測(cè)未來(lái)，不如先讓它學(xué)會(huì)將視頻分解成一系列有序的事件，形成一條清晰的時(shí)間鏈條，然后基于這個(gè)鏈條進(jìn)行邏輯推理。

一、事件鏈條：像串珠子一樣理解視頻

傳統(tǒng)的視頻處理方式就像讓人一口氣讀完一本厚厚的小說(shuō)然后立即回答關(guān)于結(jié)局的問(wèn)題。而事件鏈條方法則更像是先讓人理清故事的脈絡(luò)，標(biāo)記出關(guān)鍵情節(jié)點(diǎn)，然后基于這些情節(jié)點(diǎn)來(lái)推斷后續(xù)發(fā)展。

在事件鏈條框架中，每個(gè)事件都包含兩個(gè)關(guān)鍵要素：時(shí)間戳和描述。時(shí)間戳告訴我們事件發(fā)生的具體時(shí)間段，就像為每個(gè)情節(jié)標(biāo)注"第幾分鐘到第幾分鐘"；描述則用文字概括了這個(gè)時(shí)間段內(nèi)發(fā)生的具體內(nèi)容，相當(dāng)于為每個(gè)片段寫(xiě)下簡(jiǎn)潔的"情節(jié)摘要"。

比如說(shuō)，在一段關(guān)于沖浪的視頻中，事件鏈條可能是這樣的：第0到11秒顯示沖浪比賽的標(biāo)題畫(huà)面，第11到24秒展現(xiàn)沖浪者在海灘上準(zhǔn)備，第24到30秒顯示沖浪者下水開(kāi)始沖浪。通過(guò)這種方式，原本連續(xù)流動(dòng)的視頻被分解成了一個(gè)個(gè)清晰的事件節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)都有明確的時(shí)間定位和內(nèi)容描述。

這種分解方式帶來(lái)了兩個(gè)重要優(yōu)勢(shì)。首先，它強(qiáng)制AI模型更細(xì)致地觀(guān)察視頻內(nèi)容，而不是匆匆瀏覽后就開(kāi)始猜測(cè)。其次，它建立了事件之間的邏輯聯(lián)系，讓AI能夠理解"因?yàn)榘l(fā)生了A，所以可能會(huì)發(fā)生B"這樣的時(shí)間因果關(guān)系。

二、兩階段訓(xùn)練：從推理學(xué)習(xí)到精細(xì)建模

為了讓AI掌握事件鏈條方法，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩階段的訓(xùn)練策略，就像培養(yǎng)一個(gè)優(yōu)秀的偵探需要先學(xué)會(huì)邏輯推理，再掌握細(xì)致觀(guān)察一樣。

第一階段被稱(chēng)為"CoE-SFT"（事件鏈條監(jiān)督微調(diào)），主要目標(biāo)是教會(huì)AI進(jìn)行邏輯推理。在這個(gè)階段，研究團(tuán)隊(duì)使用了一個(gè)有趣的"師父帶徒弟"策略。他們讓一個(gè)更強(qiáng)大的AI模型（Qwen2.5-VL-72B）充當(dāng)"師父"，給它觀(guān)看視頻和正確答案，然后要求它解釋"為什么這個(gè)答案是對(duì)的"，但不允許它分析錯(cuò)誤選項(xiàng)。這就像讓一個(gè)經(jīng)驗(yàn)豐富的老偵探專(zhuān)注于解釋正確的推理過(guò)程，而不是列舉各種錯(cuò)誤可能性。

通過(guò)這種方式生成的訓(xùn)練數(shù)據(jù)質(zhì)量很高，通過(guò)率超過(guò)90%。更重要的是，這些數(shù)據(jù)教會(huì)了AI如何建立視頻內(nèi)容與未來(lái)事件之間的邏輯聯(lián)系，而不是簡(jiǎn)單地在選項(xiàng)中尋找線(xiàn)索。

第二階段被稱(chēng)為"CoE-GRPO"（事件鏈條組策略?xún)?yōu)化），重點(diǎn)是提升AI的精細(xì)觀(guān)察能力。在這個(gè)階段，研究團(tuán)隊(duì)引入了強(qiáng)化學(xué)習(xí)方法，通過(guò)設(shè)計(jì)巧妙的獎(jiǎng)勵(lì)機(jī)制來(lái)指導(dǎo)AI學(xué)習(xí)如何構(gòu)建高質(zhì)量的事件鏈條。

這個(gè)獎(jiǎng)勵(lì)機(jī)制包含三個(gè)組成部分，就像評(píng)價(jià)一個(gè)學(xué)生作文需要從三個(gè)角度打分一樣。第一個(gè)是"結(jié)構(gòu)獎(jiǎng)勵(lì)"，評(píng)估AI是否按照正確的格式構(gòu)建了事件鏈條，并控制鏈條的長(zhǎng)度既不太短也不太長(zhǎng)。第二個(gè)是"內(nèi)容獎(jiǎng)勵(lì)"，通過(guò)計(jì)算事件描述與對(duì)應(yīng)視頻片段的相似度來(lái)確保描述的準(zhǔn)確性。第三個(gè)是"準(zhǔn)確性獎(jiǎng)勵(lì)"，直接評(píng)估最終預(yù)測(cè)結(jié)果的正確性。

三、實(shí)驗(yàn)驗(yàn)證：數(shù)據(jù)說(shuō)話(huà)的成果展示

為了驗(yàn)證事件鏈條方法的有效性，研究團(tuán)隊(duì)在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面測(cè)試：FutureBench和AVEP。測(cè)試結(jié)果令人鼓舞，充分證明了這種方法的優(yōu)勢(shì)。

在FutureBench數(shù)據(jù)集上，使用事件鏈條方法的模型達(dá)到了75.00%的平均準(zhǔn)確率，顯著超過(guò)了之前的最好成績(jī)。更有趣的是，這個(gè)數(shù)據(jù)集將預(yù)測(cè)任務(wù)分為不同難度級(jí)別：1步預(yù)測(cè)（預(yù)測(cè)緊接著的一個(gè)事件）、2步預(yù)測(cè)（預(yù)測(cè)接下來(lái)的兩個(gè)事件）、3步預(yù)測(cè)（預(yù)測(cè)三個(gè)連續(xù)事件）和插值預(yù)測(cè)（預(yù)測(cè)非連續(xù)的多個(gè)事件）。事件鏈條方法在所有這些任務(wù)上都取得了顯著改進(jìn)，特別是在最困難的3步預(yù)測(cè)任務(wù)上，準(zhǔn)確率從之前的63.7%提升到了71.6%。

在AVEP數(shù)據(jù)集上，這個(gè)方法的優(yōu)勢(shì)更加明顯。AVEP專(zhuān)門(mén)評(píng)估AI對(duì)事件組成要素的理解，包括動(dòng)作動(dòng)詞和參與者角色的預(yù)測(cè)。使用事件鏈條方法的模型在動(dòng)詞預(yù)測(cè)準(zhǔn)確率上達(dá)到了18.75%，幾乎是之前最好結(jié)果的兩倍。在更復(fù)雜的動(dòng)作預(yù)測(cè)任務(wù)上，F(xiàn)1分?jǐn)?shù)達(dá)到了9.88，相比之前的最好成績(jī)有了顯著提升。

更重要的是，通過(guò)對(duì)AI注意力分布的分析，研究團(tuán)隊(duì)證實(shí)了事件鏈條方法確實(shí)解決了之前發(fā)現(xiàn)的問(wèn)題。使用這種方法訓(xùn)練的模型對(duì)視覺(jué)信息的關(guān)注度顯著提升，注意力改善率達(dá)到了15.11%，遠(yuǎn)超傳統(tǒng)方法的1.47%。這意味著AI真正學(xué)會(huì)了"用眼睛看"而不是"用嘴猜"。

四、深度分析：方法細(xì)節(jié)的巧妙設(shè)計(jì)

事件鏈條方法的成功并非偶然，而是源于研究團(tuán)隊(duì)在設(shè)計(jì)細(xì)節(jié)上的精心考慮。就像制作一道美味佳肴需要掌握火候、調(diào)料和時(shí)機(jī)一樣，這個(gè)方法的每個(gè)組成部分都經(jīng)過(guò)了仔細(xì)優(yōu)化。

在事件鏈條的構(gòu)建過(guò)程中，研究團(tuán)隊(duì)采用了特殊的標(biāo)記格式。每個(gè)事件都被包裝在專(zhuān)門(mén)的標(biāo)簽中，明確標(biāo)注開(kāi)始時(shí)間、結(jié)束時(shí)間和描述內(nèi)容。這就像給每個(gè)故事情節(jié)貼上標(biāo)簽，讓AI能夠清晰地識(shí)別和處理每個(gè)時(shí)間片段。

獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)也體現(xiàn)了深思熟慮。長(zhǎng)度控制確保AI既不會(huì)過(guò)度簡(jiǎn)化（生成太少事件），也不會(huì)過(guò)度復(fù)雜化（生成太多冗余事件）。相似度計(jì)算使用了先進(jìn)的視頻-文本匹配模型，確保事件描述與視頻內(nèi)容高度一致。通過(guò)這種多維度的獎(jiǎng)勵(lì)設(shè)計(jì)，AI學(xué)會(huì)了在準(zhǔn)確性、完整性和簡(jiǎn)潔性之間找到最佳平衡點(diǎn)。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，不同的相似度計(jì)算模型會(huì)影響最終效果。他們測(cè)試了VideoCLIP-XL、ViCLIP和CLIP等不同模型，發(fā)現(xiàn)VideoCLIP-XL效果最佳。這個(gè)發(fā)現(xiàn)提醒我們，即使是看似次要的技術(shù)選擇，也可能對(duì)整體性能產(chǎn)生顯著影響。

五、開(kāi)放評(píng)估：更貼近真實(shí)應(yīng)用的測(cè)試方式

除了標(biāo)準(zhǔn)的多選題測(cè)試，研究團(tuán)隊(duì)還設(shè)計(jì)了一種更接近真實(shí)應(yīng)用場(chǎng)景的開(kāi)放式評(píng)估方法。在這種測(cè)試中，AI不再?gòu)念A(yù)設(shè)選項(xiàng)中選擇答案，而是需要直接描述它認(rèn)為會(huì)發(fā)生的未來(lái)事件。然后，由另一個(gè)AI充當(dāng)"裁判"，對(duì)不同模型的回答進(jìn)行評(píng)估和比較。

這種評(píng)估方式更能體現(xiàn)AI的真實(shí)理解能力。在開(kāi)放式評(píng)估中，使用事件鏈條監(jiān)督微調(diào)的模型獲得了38.13%的勝率，顯著超過(guò)了其他方法。有趣的是，在這種評(píng)估中，事件鏈條監(jiān)督微調(diào)的表現(xiàn)甚至略?xún)?yōu)于加上強(qiáng)化學(xué)習(xí)的完整版本，這可能是因?yàn)椴门蠥I更熟悉監(jiān)督學(xué)習(xí)風(fēng)格的推理過(guò)程。

六、技術(shù)細(xì)節(jié)：工程實(shí)現(xiàn)的考量

從工程實(shí)現(xiàn)的角度來(lái)看，事件鏈條方法展現(xiàn)出了良好的實(shí)用性。整個(gè)訓(xùn)練過(guò)程使用了最多16塊NVIDIA H20 GPU，訓(xùn)練時(shí)間控制在合理范圍內(nèi)。為了平衡效果和效率，研究團(tuán)隊(duì)將視頻幀數(shù)限制在32幀，分辨率設(shè)置為128×28×28像素。

訓(xùn)練參數(shù)的設(shè)置也經(jīng)過(guò)了細(xì)致調(diào)優(yōu)。強(qiáng)化學(xué)習(xí)的組大小設(shè)置為4，這意味著每次同時(shí)生成4個(gè)回答進(jìn)行比較；KL散度系數(shù)設(shè)置為0.04，用來(lái)平衡性能提升和模型穩(wěn)定性；學(xué)習(xí)率設(shè)置為1e-6，確保訓(xùn)練過(guò)程穩(wěn)定收斂。整個(gè)訓(xùn)練過(guò)程僅需150步，展現(xiàn)出了良好的訓(xùn)練效率。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)，驗(yàn)證了每個(gè)組件的重要性。他們發(fā)現(xiàn)，當(dāng)移除相似度獎(jiǎng)勵(lì)時(shí)，所有指標(biāo)都會(huì)明顯下降，證明了這個(gè)組件的必要性。事件鏈條長(zhǎng)度的選擇也很關(guān)鍵：太短的鏈條無(wú)法捕捉足夠的細(xì)節(jié)，太長(zhǎng)的鏈條又會(huì)引入冗余信息。經(jīng)過(guò)實(shí)驗(yàn)，他們發(fā)現(xiàn)3個(gè)事件的長(zhǎng)度是最佳選擇。

七、局限性與未來(lái)展望：誠(chéng)實(shí)面對(duì)挑戰(zhàn)

研究團(tuán)隊(duì)也誠(chéng)實(shí)地承認(rèn)了當(dāng)前方法的一些局限性。首先，事件鏈條方法對(duì)AI的時(shí)間定位能力有一定要求。雖然目前大多數(shù)多模態(tài)大語(yǔ)言模型都具備不錯(cuò)的時(shí)間定位能力，但這個(gè)能力仍有改進(jìn)空間，更精確的時(shí)間定位可能會(huì)帶來(lái)更好的事件預(yù)測(cè)效果。

其次，目前的事件表示相對(duì)簡(jiǎn)單，主要采用線(xiàn)性的鏈條結(jié)構(gòu)。在復(fù)雜的視頻場(chǎng)景中，事件之間可能存在更復(fù)雜的關(guān)系，比如并行發(fā)生的多個(gè)事件線(xiàn)索，或者具有分支結(jié)構(gòu)的事件發(fā)展。未來(lái)的研究可能需要探索更復(fù)雜的事件表示方法，比如事件圖或事件網(wǎng)絡(luò)。

由于資源限制，研究團(tuán)隊(duì)主要在Qwen2.5-VL模型上驗(yàn)證了方法的有效性。雖然這個(gè)方法在理論上應(yīng)該適用于所有多模態(tài)大語(yǔ)言模型，但在其他模型上的效果還需要進(jìn)一步驗(yàn)證。同時(shí)，這種方法在其他視頻相關(guān)任務(wù)上的適用性也值得探索。

八、實(shí)際意義：從研究到應(yīng)用的思考

這項(xiàng)研究的意義遠(yuǎn)超學(xué)術(shù)范圍，它為AI理解和預(yù)測(cè)視頻內(nèi)容開(kāi)辟了新的路徑。在實(shí)際應(yīng)用中，這種能力可能會(huì)帶來(lái)深遠(yuǎn)的影響。

在安全監(jiān)控領(lǐng)域，能夠預(yù)測(cè)事件發(fā)展的AI系統(tǒng)可以提前發(fā)現(xiàn)異常行為，及時(shí)發(fā)出預(yù)警。在交通管理中，系統(tǒng)可以預(yù)判交通流量變化，優(yōu)化信號(hào)燈控制和路徑規(guī)劃。在內(nèi)容創(chuàng)作領(lǐng)域，AI可以協(xié)助視頻剪輯，自動(dòng)預(yù)測(cè)和補(bǔ)充缺失的鏡頭。甚至在教育場(chǎng)景中，這種技術(shù)可以幫助分析學(xué)習(xí)過(guò)程，預(yù)測(cè)學(xué)習(xí)效果并提供個(gè)性化建議。

更重要的是，這項(xiàng)研究展示了一種系統(tǒng)性的問(wèn)題解決思路。當(dāng)面對(duì)復(fù)雜的AI任務(wù)時(shí)，不是簡(jiǎn)單地增加模型規(guī)模或數(shù)據(jù)量，而是深入分析問(wèn)題本質(zhì)，設(shè)計(jì)針對(duì)性的解決方案。這種思路對(duì)整個(gè)AI領(lǐng)域都有借鑒價(jià)值。

說(shuō)到底，這項(xiàng)來(lái)自阿里巴巴AMAP團(tuán)隊(duì)的研究為我們展示了一個(gè)重要道理：讓AI真正理解視頻內(nèi)容，不能只依靠"看得多"，更要學(xué)會(huì)"想得深"。事件鏈條方法通過(guò)將復(fù)雜的視頻理解任務(wù)分解為結(jié)構(gòu)化的事件序列，不僅提升了預(yù)測(cè)準(zhǔn)確性，也為我們理解時(shí)間推理提供了新的視角。雖然當(dāng)前方法還有改進(jìn)空間，但它已經(jīng)為視頻事件預(yù)測(cè)這個(gè)重要領(lǐng)域奠定了堅(jiān)實(shí)的基礎(chǔ)。隨著技術(shù)的進(jìn)一步發(fā)展，我們有理由期待AI在理解和預(yù)測(cè)復(fù)雜動(dòng)態(tài)場(chǎng)景方面取得更大突破。

Q&A

Q1：什么是事件鏈條（CoE）方法？

A：事件鏈條是阿里巴巴AMAP團(tuán)隊(duì)提出的視頻事件預(yù)測(cè)方法，它將連續(xù)的視頻分解成一系列有時(shí)間順序的事件，每個(gè)事件包含具體的時(shí)間戳和文字描述。就像把一個(gè)完整故事拆分成多個(gè)情節(jié)點(diǎn)，讓AI先理解每個(gè)片段發(fā)生了什么，再基于這些片段的邏輯關(guān)系預(yù)測(cè)接下來(lái)可能發(fā)生的事件。

Q2：為什么現(xiàn)有的AI模型在視頻事件預(yù)測(cè)上表現(xiàn)不好？

A：研究團(tuán)隊(duì)發(fā)現(xiàn)了兩個(gè)主要問(wèn)題：一是AI模型過(guò)度依賴(lài)文本選項(xiàng)中的線(xiàn)索而不是真正理解視頻內(nèi)容，就像學(xué)生不看題干只根據(jù)選項(xiàng)猜答案；二是AI對(duì)視覺(jué)信息的利用不足，更多依賴(lài)文本信息，注意力分配不合理，導(dǎo)致無(wú)法準(zhǔn)確理解視頻的時(shí)間演變過(guò)程。

Q3：CoE方法的訓(xùn)練效果如何？

A：實(shí)驗(yàn)結(jié)果顯示CoE方法顯著提升了視頻事件預(yù)測(cè)的準(zhǔn)確率，在FutureBench數(shù)據(jù)集上達(dá)到75.00%的平均準(zhǔn)確率，在AVEP數(shù)據(jù)集上動(dòng)詞預(yù)測(cè)準(zhǔn)確率達(dá)到18.75%，幾乎是之前最好結(jié)果的兩倍。更重要的是，AI對(duì)視覺(jué)信息的關(guān)注度提升了15.11%，真正學(xué)會(huì)了基于視頻內(nèi)容進(jìn)行推理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.