CVPR 2026｜1分鐘單圖變4D視頻！AI看圖直接腦補(bǔ)物理規(guī)律

2026-04-08 12:04:29　來源: 機(jī)器之心Pro

河北舉報

分享至

讓靜態(tài)的圖片變成三維物體并動起來已經(jīng)不算新鮮，但如果讓圖片不僅動起來，還能完美遵循現(xiàn)實(shí)世界的物理規(guī)律（比如蛋糕的Q彈、沙堆的散落、石雕的堅(jiān)硬）呢？

以往，為了讓模型懂“物理”，研究者們往往需要耗費(fèi)數(shù)小時進(jìn)行緩慢的逐場景優(yōu)化。而現(xiàn)在，來自北京理工大學(xué)和理想汽車等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新框架PhysGM，只需輸入單張圖片，1分鐘內(nèi)即可生成高保真、高物理真實(shí)性的4D動態(tài)視頻！

徹底告別耗時的SDS（分?jǐn)?shù)蒸餾采樣），PhysGM 巧妙地將大語言模型中廣泛使用的DPO（直接偏好優(yōu)化）引入基于物理仿真的重建生成領(lǐng)域，實(shí)現(xiàn)了端到端的快速前饋推理。

目前，該工作已被計(jì)算機(jī)視覺頂會CVPR 2026接收，相關(guān)代碼已開源：

論文鏈接：https://arxiv.org/abs/2508.13911
項(xiàng)目主頁：https://github.com/Hihixiaolv/PhysGM
代碼開源：https://hihixiaolv.github.io/PhysGM.github.io/

效果驚艷：

蛋糕、石頭、沙堆，萬物皆可“物理模擬”

廢話不多說，先看效果。

給模型喂一張蛋糕的靜態(tài)圖片，PhysGM 不僅在幾秒內(nèi)重建了它的3D高斯表示，還能立刻推斷出它的物理材料、楊氏模量和泊松比。經(jīng)過極短時間的MPM（物質(zhì)點(diǎn)法）物理引擎仿真，一個栩栩如生、掉落在地Q彈十足的蛋糕就誕生了：

換成石頭、沙子、陶瓷或橡膠等各種不同材料，PhysGM 同樣能精準(zhǔn)拿捏不同材質(zhì)的物理特性。石頭砸下的堅(jiān)硬、沙堆落地的崩散和橡膠落地的形變，全都在1分鐘內(nèi)一氣呵成：

同時PhysGM還支持多物體，帶背景的照片和不同受力場景的仿真生成：

相比于目前主流的優(yōu)化型基線模型（如 OmniPhysGS, DreamPhysics），PhysGM除了在速度上全面碾壓，在各個評價指標(biāo)上也都實(shí)現(xiàn)了超越。

痛點(diǎn)與破局：

為什么我們要拋棄“逐場景優(yōu)化”？

近年來，基于 3D Gaussian Splatting (3DGS) 的靜態(tài)場景生成取得了巨大進(jìn)展。但到了4D（動態(tài)）特別是包含復(fù)雜物理交互的生成時，目前的范式遇到了巨大的瓶頸：太慢了！

現(xiàn)有的方法通常嚴(yán)重依賴預(yù)先重建的3DGS，然后利用視頻生成模型的先驗(yàn)知識，通過 SDS梯度回傳到可微物理引擎中，對材質(zhì)屬性進(jìn)行數(shù)百上千次的迭代優(yōu)化。這導(dǎo)致生成一個物理場景往往需要數(shù)十分鐘甚至十幾個小時！此外，簡單地將3DGS與物理模塊拼接，往往會忽略圖像本身包含的豐富物理線索。

為了打破這個計(jì)算瓶頸，北理工與理想汽車的團(tuán)隊(duì)提出了一個靈魂拷問：我們能不能像人眼一樣，看一眼圖片，就直接“前饋”出它的3DGS表示和物理屬性？PhysGM應(yīng)運(yùn)而生：

PhysGM 的核心架構(gòu)是一個基于 Transformer 的強(qiáng)大網(wǎng)絡(luò)，它巧妙地設(shè)計(jì)了兩個并行的 Decoder：

DPT Head：負(fù)責(zé)預(yù)測初始的 3D Gaussian 場景參數(shù)（幾何與外觀）。

Physics Head：負(fù)責(zé)預(yù)測物體物理屬性（物體、材料楊氏模量、泊松比）的概率分布。

在獲得這些參數(shù)后，只需不到3秒，系統(tǒng)就會將它們輸入到 MPM（物質(zhì)點(diǎn)法）模擬器中，直接渲染出最終的動態(tài)視頻。

核心創(chuàng)新：

物理生成界的“RLHF”，引入DPO對齊物理直覺

為了讓模型不僅“懂物理”，而且生成的動態(tài)效果符合人類的視覺直覺，研究團(tuán)隊(duì)提出了一個新穎的兩階段訓(xùn)練范式。

第一階段（大規(guī)模監(jiān)督預(yù)訓(xùn)練）：模型在海量數(shù)據(jù)上聯(lián)合預(yù)測 3DGS 和物理參數(shù)，建立起強(qiáng)大的生成先驗(yàn)，徹底擺脫了對多視角圖像預(yù)重建的依賴。

第二階段（基于 DPO 的偏好微調(diào)）：這是整個工作最亮眼的設(shè)計(jì)之一。在缺乏可微物理引擎支持的情況下，如何進(jìn)一步提升視頻質(zhì)量？團(tuán)隊(duì)使用了強(qiáng)化學(xué)習(xí)的方法——直接偏好優(yōu)化 (DPO)。

系統(tǒng)會從模型預(yù)測的概率分布中采樣出不同的物理參數(shù)，并在MPM中進(jìn)行模擬渲染。然后，利用 SAM-2 和 CoTracker-3 提取軌跡并與真實(shí)物理視頻計(jì)算感知距離。距離小的被標(biāo)記為“Winner”，距離大的標(biāo)記為“Loser”。通過這種不需要物理引擎可微的偏好驅(qū)動訓(xùn)練，PhysGM 被引導(dǎo)向生成更加具有物理合理性和時間連貫性的視頻序列。

基礎(chǔ)設(shè)施：

構(gòu)建5萬規(guī)模的 PhysAssets 數(shù)據(jù)集

巧婦難為無米之炊。為了支撐前饋模型的訓(xùn)練，當(dāng)前社區(qū)極度缺乏同時包含“3D資產(chǎn) + 物理屬性標(biāo)注”的大規(guī)模數(shù)據(jù)集。

為此，研究團(tuán)隊(duì)還制作了相應(yīng)的PhysAssets數(shù)據(jù)集。

他們整合了 Objaverse, OmniObject3D, HSSD等數(shù)據(jù)集，利用多模態(tài)大模型 Qwen3-VL 進(jìn)行精準(zhǔn)的材質(zhì)分類，并通過預(yù)定義的物理描述（楊氏模量/泊松比）匹配參數(shù)。最終，使用基于物理的仿真框架生成了超過50,000個高質(zhì)量的“物體-物理參數(shù)”對，并有一部分含有對應(yīng)參考視頻的子集，為該領(lǐng)域的未來研究提供了寶貴的“燃料”。

壓倒性的性能優(yōu)勢：

從12小時到不到1分鐘

在定性和定量的對比中，PhysGM 展現(xiàn)出了驚人的優(yōu)勢。

在面對5種不同材質(zhì)的測試中，無論是在CLIPsim（視覺與文本物理描述語義一致性）還是UPR（用戶偏好率）指標(biāo)上，PhysGM 均大幅領(lǐng)先現(xiàn)有的 SDS-based 方法。

更夸張的是在做到泛化性和效果驚艷的同時還有計(jì)算成本的降低。對比此前的 SOTA 方法：

OmniPhysGS：生成時間 >12 小時
DreamPhysics：生成時間 >0.5 小時
PhysGM：生成時間 < 1 分鐘！

這種質(zhì)的飛躍，真正讓物理驅(qū)動的 4D 生成具備了走向大規(guī)模實(shí)際應(yīng)用（如具身智能體、自動駕駛仿真、交互式VR）的可能。

總結(jié)

PhysGM 是首個能夠在極短時間（單次前饋+模擬）內(nèi)從稀疏輸入中生成帶物理規(guī)律4D動態(tài)場景的框架。它不僅解決了物理生成的效率瓶頸，更開拓了一條利用大規(guī)模數(shù)據(jù)集和 DPO 對齊技術(shù)進(jìn)行 3D/4D 物理學(xué)習(xí)的新路徑。

隨著模型在端到端生成和物理保真度上的不斷突破，我們有理由相信，未來的虛擬世界將不再只是看起來真實(shí)，而是“動”起來和真實(shí)世界一模一樣”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.