![]()
本文是北京大學彭宇新教授團隊在文本生成視頻領域的最新研究成果,相關論文已被 CVPR 2026 接收
![]()
- 論文標題:NS-Diff: Fluid Navier–Stokes Guided Video Diffusion via Reinforcement Learning
- 論文鏈接:http://39.108.48.32/mipl/download_paper.php?fileId=202601
- 開源代碼:https://github.com/PKU-ICST-MIPL/NS-Diff_CVPR2026
- 實驗室網址:https://www.wict.pku.edu.cn/mipl
背景與動機
想象一下,當你讓 AI 生成一段「牛奶倒入咖啡產生絲滑旋渦」的視頻時,卻發現 AI 根本無法生成出你想要的「絲滑旋渦」。雖然如今的 Sora、Wan 等視頻生成模型已經能做出如電影般華麗的畫面,但它們往往只是「畫皮難畫骨」—— 因為 AI 并不真正懂得現實世界的物理定律,導致生成的視頻經常出現違背常識的「穿幫」鏡頭。
在物理世界中,液體的流動遵循著復雜的納維 - 斯托克斯(Navier-Stokes)方程,而剛體的運動則有著嚴謹的軌跡規律。實現視頻生成從「視覺真實」向「物理真實」的跨越,是當前 AIGC 領域的重大挑戰。
針對這一難題,北京大學彭宇新教授團隊提出了給擴散模型裝上「物理引擎」的新方案 ——NS-Diff。該研究將物理約束與強化學習相結合,通過物理動力學檢測器和物理條件注入模塊,讓 AI 像人類一樣在生成畫面的同時,腦子里還緊繃著一根「物理定律」的弦。
實驗表明,NS-Diff 將視頻中的運動急動度(jerk)誤差降低了 43%,流體發散度降低了 33%,使 AI 生成的每一幀畫面不僅好看,而且遵循物理規律。這一成果表明將經典物理約束融入視頻生成大模型,是解決視頻生成中物理失真問題的有效途徑。
技術方案
![]()
圖 1. 物理引導的視頻生成強化學習框架 NS-Diff
本文提出了一種物理引導的視頻生成強化學習框架 NS-Diff,將物理約束融入視頻擴散過程中,以提升生成視頻的物理真實感。其主要貢獻包括:(1)噪聲魯棒的物理動力學檢測器:設計了可在含噪潛在幀中精準分析運動信息的檢測器,實現對剛體與流體區域的有效區分。(2)物理條件潛在注入模塊:將速度場、形變梯度等關鍵物理信息編碼,并通過交叉注意力機制注入 DiT 去噪器,從而實現對生成過程的物理引導。(3)強化學習優化模塊:引入強化學習,通過策略梯度對流體施加簡化的納維 - 斯托克斯約束,對剛體施加最小化急動度(Jerk)原則,確保了視頻生成中動態過程的物理合理性。具體如下:
1. 噪聲魯棒的物理動力學檢測器
實現物理引導去噪的關鍵在于高噪聲環境下對運動和材料屬性的精準估計。由于去噪過程在隱空間(latent space)中運行,直接在 RGB 幀上使用 ARFlow 是不可行的。為此,本文設計了一種結合隱空間解碼的運動估計方案,具體流程如下:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
2. 物理條件潛在注入
![]()
![]()
![]()
![]()
3. 物理引導的強化學習優化
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4. 物理引導的自適應激活
![]()
![]()
![]()
實驗結果
1. 實驗設置
本文在 PhysVideoBench 以及 UCF-101(包含 13,320 個真實世界人類動作視頻)和 WebVid-10M(包含 1000 萬個帶有文本描述的互聯網視頻)。本文從物理合理性和視覺質量兩個角度對本文方法進行評估。
(1)物理指標:
![]()
2)視覺指標:
- VBench:綜合視頻質量指標。本文遵循 VideoJam 的方法計算視頻外觀和運動質量。
- Fréchet Video Distance(FVD):衡量真實視頻與生成視頻之間的分布距離。
- Frame Consistency:相鄰幀的 CLIP 圖像嵌入之間的平均余弦相似度,反映了時間上的連貫性。
2. 對比實驗結果
![]()
表 1. PhysVideoBench 數據集結果
在 PhysVideoBench 上,NS-Diff 在所有指標上均實現了最佳性能。通過潛空間注入(Latent Injection)以及 Jerk / 散度損失(Jerk/divergence losses)引入物理先驗,提升了運動的真實性,尤其是在剛體和流體區域。相比于在給定用戶外力情況下模擬剛體動力學的 PhysGen,NS-Diff 在不需要預定義外力或模擬的情況下實現了更好的泛化能力,同時保持了更高的保真度和更低的散度誤差。實驗表明,本文的方法將 Jerk 誤差降低了 43%,流體散度降低了 33%,并使 FVD 提升了 22.7%,實現了更高的物理合理性和視覺質量。
![]()
表 2. UCF-101 數據集結果
在 UCF-101 基準測試中,本文的 NS-Diff 模型表現出色。具體而言,NS-Diff DiT 1B 版本的 FVD 為 106,幀一致性(Frame Consistency)達到 0.94;而 NS-Diff DiT 11B 版本則進一步將 FVD 降低至 85,幀一致性提升至 0.95。這表明本文的方法不僅提升了運動的物理準確度,還顯著增強了生成視頻的時間連貫性。
![]()
表 3. WebVid-10M 數據集結果
為了評估物理引導學習框架在受限基準測試之外的開放世界場景中的泛化能力,本文在 WebVid-10M 數據集上進行了文本生成視頻(Text-to-Video)合成測試。實驗旨在測試物理約束(剛體 / 流體動力學)在面對包含新穎物體交互和環境的未知文本描述時,是否仍能保持合理性。本方法在運動質量(FVD)和文圖對齊(CLIPSIM)兩個指標上均優于 VideoFactory。
![]()
圖 2. 可視化對比結果
圖 2 展示了 NS-Diff 與 ModelScope、PhysGen、Wan2.1 以及 OpenSora2 的視覺效果對比。結果分析表明,本文方法生成的視頻在剛體和流體運動方面表現得更加真實,顯著減少了諸如物體無故出現或消失、以及非自然的拆分或合并等不符合物理規律的偽影。此外,本文方法還大幅提升了幀間一致性,在處理籃球投籃、火山熔巖流、玻璃破碎等物理密集型場景時,能夠比對比模型展現出更高的時間連貫性和運動可信度。
結論
本文提出了一種基于強化學習的物理引導視頻擴散框架 NS-Diff。該框架通過抗噪物理動力學檢測器,實現了對視頻潛空間中剛體與流體區域的精準識別。利用物理條件潛空間注入技術,速度場、變形梯度及材料掩碼被有效整合至去噪流程中。此外,本文方法通過強化學習優化機制,將納維 - 斯托克斯方程與最小急動度(Minimum-Jerk)原則轉化為訓練約束,強制模型遵循物理運動規律。實驗結果表明,NS-Diff 在 PhysVideoBench、UCF-101 等多個基準數據集上超過現有方法,在顯著降低物理運動誤差的同時,確保了視覺生成質量。研究表明,將經典物理約束深度融合于生成模型,是解決視頻生成中物理失真問題的有效途徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.