網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

別被「更像真的視頻」騙了，AI視頻生成，還遠(yuǎn)未真正學(xué)會(huì)物理世界

2026-04-03 16:07:15　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

這兩年，視頻生成模型進(jìn)步很快。清晰度更高了，鏡頭更穩(wěn)了，人物和場(chǎng)景看上去也越來(lái)越自然。很多時(shí)候，我們判斷一個(gè)模型強(qiáng)不強(qiáng)，看的就是它 “像不像真的”。但這其實(shí)只回答了一半的問題：它看起來(lái)像真的，不代表它真的符合現(xiàn)實(shí)世界的物理規(guī)律。這件事放在短視頻生成里，也許只是 “偶爾有點(diǎn)怪”；但如果視頻模型真的要往 world model、仿真系統(tǒng)、具身智能這些方向走，問題就不一樣了。一個(gè)模型如果連物體怎么接觸、狀態(tài)怎么變化、事件怎么按因果順序發(fā)生都搞不清楚，那它再像，也只是像。

現(xiàn)在的視頻評(píng)測(cè)，更像是在比 “好不好看”

目前，視頻生成領(lǐng)域常見的評(píng)測(cè)方式，要么看自動(dòng)指標(biāo)，要么讓人直接選 “哪個(gè)視頻更好”。這種方式當(dāng)然有意義，它能比較清晰度、流暢度、觀感這些東西，但它很難告訴你：視頻里到底有沒有違反基本物理常識(shí)

比如，一個(gè)物體是不是無(wú)緣無(wú)故消失了；兩個(gè)東西是不是明明沒接觸卻發(fā)生了交互；一個(gè)動(dòng)作的結(jié)果是不是和前面的過程根本對(duì)不上。這些問題，才真正關(guān)系到模型是在 “生成一個(gè)像真的畫面”，還是在 “模擬一個(gè)可信的世界”。

Physion-Eval：從 “視覺真實(shí)” 走向 “物理真實(shí)” 的新 benchmark

這篇工作提出了Physion-Eval。它不是再做一個(gè) “誰(shuí)的視頻更好看” 的排行榜，而是想認(rèn)真回答一個(gè)更關(guān)鍵的問題：AI 生成的視頻，在物理層面到底有多真實(shí)

論文標(biāo)題： Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning
作者: Qin Zhang, Peiyu Jing, Hong-Xing Yu, Fangqiang Ding, Fan Nie, Weimin Wang, Yilun Du, James Zou, Jiajun Wu, and Bing Shuai
作者單位：Physion Labs，斯坦福大學(xué)，MIT，哈佛大學(xué)，Character AI
論文鏈接： https://arxiv.org/abs/2603.19607
數(shù)據(jù)集鏈接： https://huggingface.co/datasets/PhysionLabs/Physion-Eval
視頻鏈接：https://www.youtube.com/watch?v=Vbn_W3WNUHw

這個(gè) benchmark 同時(shí)覆蓋第一人稱和第三人稱場(chǎng)景，包含10,990 條專家推理軌跡，覆蓋22 類細(xì)粒度物理現(xiàn)象。和常見評(píng)測(cè)不太一樣的地方在于，這里的每條樣本不只是簡(jiǎn)單打個(gè)分，而是會(huì)標(biāo)出錯(cuò)誤發(fā)生在什么時(shí)候、屬于哪一類問題，以及為什么不對(duì)

數(shù)據(jù)上，第三人稱部分來(lái)自WISA-80K，第一人稱部分基于EPIC-KITCHENS構(gòu)建。為了保證標(biāo)注質(zhì)量，論文組織了90 位具有 STEM 背景并接受過本科物理訓(xùn)練的專家標(biāo)注者，采用雙人標(biāo)注和資深專家裁決的流程，最后得到的是帶時(shí)間戳、錯(cuò)誤類別和文字解釋的高質(zhì)量標(biāo)注。

在這一過程中，人類智能所展現(xiàn)出的優(yōu)勢(shì)尤為明顯：人類不僅能夠識(shí)別視覺上的異常，更能夠基于物理直覺與因果理解，對(duì)復(fù)雜的動(dòng)態(tài)過程進(jìn)行推理和解釋。相比之下，即使是當(dāng)前最先進(jìn)的多模態(tài)模型，在時(shí)序一致性、交互合理性以及隱含物理規(guī)律的判斷上，仍存在明顯不足。

最直接的結(jié)論：現(xiàn)在的模型，還遠(yuǎn)談不上 “物理一致”

這篇工作的主結(jié)論其實(shí)很簡(jiǎn)單，也很扎眼：在物理過程敏感的場(chǎng)景里，83.3% 的第三人稱生成視頻和 93.5% 的第一人稱生成視頻，都至少包含一個(gè)人類可以明確識(shí)別的物理錯(cuò)誤。這說(shuō)明什么？說(shuō)明今天的視頻模型確實(shí)越來(lái)越會(huì)制造 “真實(shí)感” 了，但離 “真正符合物理規(guī)律” 還有很遠(yuǎn)。

而且這些錯(cuò)誤不是零零散散的小毛病，而是系統(tǒng)性的。論文里總結(jié)的典型問題包括：接觸或交互失敗、對(duì)象突然出現(xiàn)或消失、時(shí)間連貫性崩塌、因果順序錯(cuò)亂、材料或狀態(tài)變化異常、幾何碰撞不合理等等。換句話說(shuō)，問題不只是 “畫面有點(diǎn)假”，而是模型對(duì)物體、接觸、運(yùn)動(dòng)和結(jié)果之間最基本的關(guān)系，還經(jīng)常搞錯(cuò)。

很多錯(cuò)誤不是粗糙，而是 “看著像，但其實(shí)完全不對(duì)”

Physion-Eval 里最有意思的地方，其實(shí)是那些具體例子。它們不是那種一眼就看出來(lái)的低級(jí) bug，而是第一眼好像還行，仔細(xì)一想?yún)s明顯不符合常識(shí)。

比如，桌面上突然多出一把本來(lái)不存在的刀；瓶口朝下，液體卻不往下流；水直接穿過鍋底；又或者一個(gè)鍋被兩根手指以幾乎不可能的方式拎起來(lái)。它們的問題不在于 “渲染不精細(xì)”，而在于直接違背了物體守恒、重力、不可穿透性和穩(wěn)定接觸這些最基本的物理規(guī)律。

這也是為什么我們覺得，這項(xiàng)工作不只是 “又多了一個(gè) benchmark”。它更像是在提醒大家：今天很多模型也許已經(jīng)很會(huì)生成 “像真的視頻”，但還遠(yuǎn)沒有學(xué)會(huì) “世界為什么會(huì)這樣動(dòng)”。

更麻煩的是，連最強(qiáng)的多模態(tài)模型也不太會(huì)看這些錯(cuò)誤

論文還問了另一個(gè)很現(xiàn)實(shí)的問題：那能不能讓現(xiàn)在的大模型來(lái)當(dāng) “自動(dòng)評(píng)委”，替人判斷一個(gè)視頻有沒有物理問題？

答案是，暫時(shí)還不行。

文章評(píng)估了10 個(gè)開源和閉源的 MLLM critic，結(jié)果顯示，它們和人類判斷之間還有明顯差距。以Gemini 3.0 Pro為例，它會(huì)漏掉超過74.4% 的第三人稱錯(cuò)誤視頻和 90.1% 的第一人稱錯(cuò)誤視頻。而且它們不只是漏檢，還會(huì)把錯(cuò)誤發(fā)生的時(shí)間說(shuō)錯(cuò)，甚至編出根本不存在的原因。

這點(diǎn)其實(shí)很關(guān)鍵。因?yàn)槿绻院蟠蠹艺嫦肟孔詣?dòng) critic 去評(píng)估 world model 或視頻生成系統(tǒng)，那 critic 本身至少得先真的看懂視頻里的物理過程。就目前來(lái)看，人類判斷依然是最可靠的標(biāo)準(zhǔn)。

越是高動(dòng)態(tài)的物理過程，越容易暴露當(dāng)前模型的短板

論文進(jìn)一步從physical intensitydynamics兩個(gè)維度分析了生成模型與市面上已有的 MLLM critic 的表現(xiàn)。結(jié)果表明，相比強(qiáng)度大小，過程本身的動(dòng)態(tài)性和復(fù)雜性更容易暴露視頻生成模型的物理建模缺陷。對(duì) MLLM critic 來(lái)說(shuō)也是如此：只有當(dāng)錯(cuò)誤足夠明顯時(shí)，它們才會(huì)表現(xiàn)出有限的判斷能力，但整體仍明顯落后于人類。

總結(jié)

Physion-Eval 想指出的，不只是 “現(xiàn)在的視頻生成模型還不夠強(qiáng)”，而是一個(gè)更根本的問題：當(dāng)行業(yè)越來(lái)越關(guān)注視頻 “看起來(lái)有多真” 的時(shí)候，我們可能忽略了它 “實(shí)際上對(duì)不對(duì)”

對(duì)于真正想做 world model、機(jī)器人、具身智能和仿真的人來(lái)說(shuō)，這個(gè)問題繞不過去。畫面更清晰、動(dòng)作更順滑，當(dāng)然重要；但如果物體會(huì)無(wú)故出現(xiàn)，液體不會(huì)往下流，動(dòng)作結(jié)果和前因?qū)Σ簧希悄Ｐ途瓦€沒有真正學(xué)會(huì)世界的運(yùn)行方式。

視頻生成下一階段，也許不該只繼續(xù)卷觀感，而應(yīng)該更認(rèn)真地去解決物體持續(xù)性、接觸關(guān)系、狀態(tài)變化、時(shí)序一致性和因果結(jié)構(gòu)這些更本質(zhì)的問題。“看起來(lái)對(duì)”，從來(lái)不等于 “實(shí)際上對(duì)”

作者介紹

本文由來(lái)自美國(guó)頂級(jí)科技公司與世界一流高校的豪華作者陣容共同完成，集結(jié) Physion Labs、斯坦福大學(xué)、MIT、哈佛大學(xué)及 Character AI 的核心研究者。其中，Physion Labs 團(tuán)隊(duì)（Qin Zhang、Peiyu Jing、Bing Shuai）長(zhǎng)期專注于生成式視頻與世界模型中的物理一致性問題，構(gòu)建了面向行業(yè)的評(píng)估基礎(chǔ)設(shè)施與數(shù)據(jù)閉環(huán)，致力于成為下一代生成模型的 “物理可信層”。其余作者包括斯坦福大學(xué)的 Hong-Xing Yu、Fan Nie、James Zou、Jiajun Wu，麻省理工學(xué)院的 Fangqiang Ding，哈佛大學(xué)的 Yilun Du，以及 Character AI 的 Weimin Wang 等業(yè)內(nèi)頂尖學(xué)者。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.