![]()
讓靜態(tài)的圖片變成三維物體并動起來已經(jīng)不算新鮮,但如果讓圖片不僅動起來,還能完美遵循現(xiàn)實(shí)世界的物理規(guī)律(比如蛋糕的Q彈、沙堆的散落、石雕的堅(jiān)硬)呢?
以往,為了讓模型懂“物理”,研究者們往往需要耗費(fèi)數(shù)小時進(jìn)行緩慢的逐場景優(yōu)化。而現(xiàn)在,來自北京理工大學(xué)和理想汽車等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新框架PhysGM,只需輸入單張圖片,1分鐘內(nèi)即可生成高保真、高物理真實(shí)性的4D動態(tài)視頻!
徹底告別耗時的SDS(分?jǐn)?shù)蒸餾采樣),PhysGM 巧妙地將大語言模型中廣泛使用的DPO(直接偏好優(yōu)化)引入基于物理仿真的重建生成領(lǐng)域,實(shí)現(xiàn)了端到端的快速前饋推理。
![]()
目前,該工作已被計(jì)算機(jī)視覺頂會CVPR 2026接收,相關(guān)代碼已開源:
- 論文鏈接:https://arxiv.org/abs/2508.13911
- 項(xiàng)目主頁:https://github.com/Hihixiaolv/PhysGM
- 代碼開源:https://hihixiaolv.github.io/PhysGM.github.io/
效果驚艷:
蛋糕、石頭、沙堆,萬物皆可“物理模擬”
廢話不多說,先看效果。
給模型喂一張蛋糕的靜態(tài)圖片,PhysGM 不僅在幾秒內(nèi)重建了它的3D高斯表示,還能立刻推斷出它的物理材料、楊氏模量和泊松比。經(jīng)過極短時間的MPM(物質(zhì)點(diǎn)法)物理引擎仿真,一個栩栩如生、掉落在地Q彈十足的蛋糕就誕生了:
![]()
換成石頭、沙子、陶瓷或橡膠等各種不同材料,PhysGM 同樣能精準(zhǔn)拿捏不同材質(zhì)的物理特性。石頭砸下的堅(jiān)硬、沙堆落地的崩散和橡膠落地的形變,全都在1分鐘內(nèi)一氣呵成:
![]()
同時PhysGM還支持多物體,帶背景的照片和不同受力場景的仿真生成:
![]()
相比于目前主流的優(yōu)化型基線模型(如 OmniPhysGS, DreamPhysics),PhysGM除了在速度上全面碾壓,在各個評價指標(biāo)上也都實(shí)現(xiàn)了超越。
![]()
痛點(diǎn)與破局:
為什么我們要拋棄“逐場景優(yōu)化”?
近年來,基于 3D Gaussian Splatting (3DGS) 的靜態(tài)場景生成取得了巨大進(jìn)展。但到了4D(動態(tài))特別是包含復(fù)雜物理交互的生成時,目前的范式遇到了巨大的瓶頸:太慢了!
現(xiàn)有的方法通常嚴(yán)重依賴預(yù)先重建的3DGS,然后利用視頻生成模型的先驗(yàn)知識,通過 SDS梯度回傳到可微物理引擎中,對材質(zhì)屬性進(jìn)行數(shù)百上千次的迭代優(yōu)化。這導(dǎo)致生成一個物理場景往往需要數(shù)十分鐘甚至十幾個小時!此外,簡單地將3DGS與物理模塊拼接,往往會忽略圖像本身包含的豐富物理線索。
為了打破這個計(jì)算瓶頸,北理工與理想汽車的團(tuán)隊(duì)提出了一個靈魂拷問:我們能不能像人眼一樣,看一眼圖片,就直接“前饋”出它的3DGS表示和物理屬性?PhysGM應(yīng)運(yùn)而生:
![]()
PhysGM 的核心架構(gòu)是一個基于 Transformer 的強(qiáng)大網(wǎng)絡(luò),它巧妙地設(shè)計(jì)了兩個并行的 Decoder:
DPT Head:負(fù)責(zé)預(yù)測初始的 3D Gaussian 場景參數(shù)(幾何與外觀)。
Physics Head:負(fù)責(zé)預(yù)測物體物理屬性(物體、材料楊氏模量、泊松比)的概率分布。
在獲得這些參數(shù)后,只需不到3秒,系統(tǒng)就會將它們輸入到 MPM(物質(zhì)點(diǎn)法)模擬器中,直接渲染出最終的動態(tài)視頻。
核心創(chuàng)新:
物理生成界的“RLHF”,引入DPO對齊物理直覺
為了讓模型不僅“懂物理”,而且生成的動態(tài)效果符合人類的視覺直覺,研究團(tuán)隊(duì)提出了一個新穎的兩階段訓(xùn)練范式。
第一階段(大規(guī)模監(jiān)督預(yù)訓(xùn)練):模型在海量數(shù)據(jù)上聯(lián)合預(yù)測 3DGS 和物理參數(shù),建立起強(qiáng)大的生成先驗(yàn),徹底擺脫了對多視角圖像預(yù)重建的依賴。
第二階段(基于 DPO 的偏好微調(diào)):這是整個工作最亮眼的設(shè)計(jì)之一。在缺乏可微物理引擎支持的情況下,如何進(jìn)一步提升視頻質(zhì)量?團(tuán)隊(duì)使用了強(qiáng)化學(xué)習(xí)的方法——直接偏好優(yōu)化 (DPO)。
系統(tǒng)會從模型預(yù)測的概率分布中采樣出不同的物理參數(shù),并在MPM中進(jìn)行模擬渲染。然后,利用 SAM-2 和 CoTracker-3 提取軌跡并與真實(shí)物理視頻計(jì)算感知距離。距離小的被標(biāo)記為“Winner”,距離大的標(biāo)記為“Loser”。通過這種不需要物理引擎可微的偏好驅(qū)動訓(xùn)練,PhysGM 被引導(dǎo)向生成更加具有物理合理性和時間連貫性的視頻序列。
![]()
基礎(chǔ)設(shè)施:
構(gòu)建5萬規(guī)模的 PhysAssets 數(shù)據(jù)集
巧婦難為無米之炊。為了支撐前饋模型的訓(xùn)練,當(dāng)前社區(qū)極度缺乏同時包含“3D資產(chǎn) + 物理屬性標(biāo)注”的大規(guī)模數(shù)據(jù)集。
為此,研究團(tuán)隊(duì)還制作了相應(yīng)的PhysAssets數(shù)據(jù)集。
他們整合了 Objaverse, OmniObject3D, HSSD等數(shù)據(jù)集,利用多模態(tài)大模型 Qwen3-VL 進(jìn)行精準(zhǔn)的材質(zhì)分類,并通過預(yù)定義的物理描述(楊氏模量/泊松比)匹配參數(shù)。最終,使用基于物理的仿真框架生成了超過50,000個高質(zhì)量的“物體-物理參數(shù)”對,并有一部分含有對應(yīng)參考視頻的子集,為該領(lǐng)域的未來研究提供了寶貴的“燃料”。
壓倒性的性能優(yōu)勢:
從12小時到不到1分鐘
在定性和定量的對比中,PhysGM 展現(xiàn)出了驚人的優(yōu)勢。
在面對5種不同材質(zhì)的測試中,無論是在CLIPsim(視覺與文本物理描述語義一致性)還是UPR(用戶偏好率)指標(biāo)上,PhysGM 均大幅領(lǐng)先現(xiàn)有的 SDS-based 方法。
更夸張的是在做到泛化性和效果驚艷的同時還有計(jì)算成本的降低。對比此前的 SOTA 方法:
- OmniPhysGS:生成時間 >12 小時
- DreamPhysics:生成時間 >0.5 小時
- PhysGM:生成時間 < 1 分鐘!
這種質(zhì)的飛躍,真正讓物理驅(qū)動的 4D 生成具備了走向大規(guī)模實(shí)際應(yīng)用(如具身智能體、自動駕駛仿真、交互式VR)的可能。
總結(jié)
PhysGM 是首個能夠在極短時間(單次前饋+模擬)內(nèi)從稀疏輸入中生成帶物理規(guī)律4D動態(tài)場景的框架。它不僅解決了物理生成的效率瓶頸,更開拓了一條利用大規(guī)模數(shù)據(jù)集和 DPO 對齊技術(shù)進(jìn)行 3D/4D 物理學(xué)習(xí)的新路徑。
隨著模型在端到端生成和物理保真度上的不斷突破,我們有理由相信,未來的虛擬世界將不再只是看起來真實(shí),而是“動”起來和真實(shí)世界一模一樣”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.