「視頻世界模型」新突破：AI連續(xù)生成5分鐘，畫面也不崩

2025-12-31 17:54:21　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

當(dāng) Sora 讓世界看到了 AI 生成視頻的驚艷效果，一個(gè)更深層的問題浮出水面：如何讓生成的視頻不只是「看起來像」，而是真正理解并遵循物理世界的規(guī)律？這正是「視頻世界模型」（Video World Model）要解決的核心挑戰(zhàn)。當(dāng)生成時(shí)長從幾秒擴(kuò)展到幾分鐘，模型不僅要畫面逼真，更要在長時(shí)間尺度上保持結(jié)構(gòu)、行為與物理規(guī)律的一致性。然而，誤差累積與語義漂移往往導(dǎo)致長視頻出現(xiàn)畫面退化與邏輯崩壞 —— 這已成為衡量世界模型能力的關(guān)鍵瓶頸。

圍繞這一挑戰(zhàn)，上海人工智能實(shí)驗(yàn)室聯(lián)合復(fù)旦大學(xué)、南京大學(xué)、南洋理工大學(xué) S-Lab 等單位提出了LongVie 2—— 一個(gè)能夠生成長達(dá)5 分鐘高保真、可控視頻的世界模型框架

LongVie 2 可自回歸生成 3-5 分鐘的超長可控視頻

論文：https://arxiv.org/pdf/2512.13604
項(xiàng)目主頁：https://vchitect.github.io/LongVie2-project/
GitHub：https://github.com/Vchitect/LongVie
視頻演示：https://www.youtube.com/watch?v=ln1kMNYj50Y

https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

什么是理想的視頻世界模型？

一個(gè)理想的視頻世界模型，不應(yīng)只是「生成得更久」，而應(yīng)同時(shí)具備以下三項(xiàng)核心能力：

全面可控性（Comprehensive Controllability）：能夠在長時(shí)間生成過程中穩(wěn)定響應(yīng)多種控制信號，保持場景結(jié)構(gòu)與運(yùn)動意圖不漂移；
長期視覺保真（Long-term Fidelity）：隨著時(shí)間推進(jìn)，畫面質(zhì)量不發(fā)生明顯退化，不出現(xiàn)紋理崩塌或細(xì)節(jié)丟失；
長程上下文一致性（Long-context Consistency）：跨片段、跨時(shí)間保持語義、身份與物理規(guī)律的一致，避免「換世界式」斷裂。

現(xiàn)有世界模型的瓶頸在哪里？

本文系統(tǒng)調(diào)研了當(dāng)前主流的視頻世界模型，發(fā)現(xiàn)一個(gè)共同問題：隨著生成時(shí)長的增加，模型的可控性、視覺保真度與時(shí)間一致性會同步下降。

現(xiàn)有模型在長時(shí)間生成時(shí)的退化問題

LongVie 2：三階段遞進(jìn)式訓(xùn)練

為系統(tǒng)性解決上述挑戰(zhàn)，LongVie 2 設(shè)計(jì)了一套逐層遞進(jìn)的三階段訓(xùn)練策略，從控制、穩(wěn)定性到時(shí)間一致性層層強(qiáng)化：

LongVie 2 三階段訓(xùn)練流程

階段一：Dense & Sparse 多模態(tài)控制

通過引入稠密信號（如深度圖）與稀疏信號（如關(guān)鍵點(diǎn)軌跡），為模型提供穩(wěn)定且可解釋的世界約束。這使生成過程不再完全依賴隱式記憶，從源頭提升長程可控性。

階段二：退化感知訓(xùn)練（Degradation-aware Training）

長視頻生成中，質(zhì)量衰減幾乎不可避免。LongVie 2 的核心創(chuàng)新在于：在訓(xùn)練階段主動「制造困難」——

退化感知訓(xùn)練示意圖

利用 VAE 的多次 encode-decode 模擬重建誤差；
通過加噪 + Diffusion 去噪構(gòu)造退化圖像。

以此作為訓(xùn)練信號，使模型學(xué)會在不完美輸入下保持穩(wěn)定生成，顯著增強(qiáng)長期視覺保真度。

階段三：歷史上下文建模

在生成過程中顯式引入歷史片段信息，并通過針對性 loss 約束相鄰片段的銜接，使跨片段過渡更加自然順暢，有效緩解長視頻中的語義斷裂與邏輯跳變問題。

三階段訓(xùn)練效果對比

一圖看懂 LongVie 2 框架

通過多模態(tài)控制、退化感知訓(xùn)練與歷史上下文建模的協(xié)同設(shè)計(jì)，LongVie 2 將長視頻生成從「片段拼接」提升為持續(xù)演化的世界建模過程：

LongVie 2 整體框架

從左至右，LongVie 2 首先將跨片段的稠密（深度）與稀疏（關(guān)鍵點(diǎn)）控制視頻做全局歸一化，并為所有片段采用統(tǒng)一的噪聲初始化。隨后在每一片段生成時(shí)，將全局歸一化后的控制信號、上一片段的末幀與文本提示送入模型，逐步生成完整的長視頻。

LongVie 2 能力展示

該研究將LongVie 2與 Go-With-The-Flow 和 Diffusion As Shader 進(jìn)行了對比。結(jié)果顯示，LongVie 2 在可控性方面表現(xiàn)顯著優(yōu)于現(xiàn)有方法：

與現(xiàn)有方法的可控性對比

https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

消融實(shí)驗(yàn)也充分驗(yàn)證了三階段訓(xùn)練的有效性：

消融實(shí)驗(yàn)結(jié)果

LongVGenBench

首個(gè)可控超長視頻評測基準(zhǔn)

當(dāng)前缺乏面向可控長視頻生成的標(biāo)準(zhǔn)化評測。為此，本文提出LongVGenBench—— 首個(gè)專為超長視頻生成設(shè)計(jì)的基準(zhǔn)數(shù)據(jù)集，包含100 個(gè)時(shí)長超過 1 分鐘的高分辨率視頻，覆蓋真實(shí)世界與合成環(huán)境的多樣場景，旨在推動該方向的系統(tǒng)研究與公平評測。

定量評估與用戶主觀測評結(jié)果顯示，LongVie 2 在多項(xiàng)指標(biāo)上達(dá)到SOTA 水平，并獲得最高用戶偏好度：

定量評測結(jié)果與用戶研究

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.