![]()
作者:王嘉翌 博士研究生 | 中國科學院大學 培養單位:中國科學院物理研究所 審核:楊海濤 研究員 | 中國科學院物理研究所
AI懂物理嗎?
讓我們設想這個場景:小孩搭積木,塔剛晃一下,他急著伸手去扶:“太高了,站不穩!”這一瞬間的動作,是刻在人類基因里的“物理直覺”——無需列方程、做計算,這是我們從小摔玩具、打翻杯子、被門夾手“交學費”換來的本能。
反觀AI:它能以每秒百萬次的速度算出每塊積木的重心、摩擦力和力矩,卻在看到一段“積木憑空懸浮”的視頻時,認真點頭:“這很合理。”
這正是問題的關鍵:會算,不等于懂。
最近,AI在各類奧賽中屢創佳績,甚至展現出超越人類頂尖選手的解題統治力。但我們不禁要問:它是真的理解了真實物理世界,還是只是背下了海量題庫,練就了一身“應試功夫”?
要回答這個問題,科學家們為AI設計了一種新型考試——benchmark(基準測試)。說白了,這是給AI設計的題庫,專門檢驗它是不是真有“物理直覺”。這些測試五花八門:有的讓它玩彈球游戲,有的看動畫挑錯,有的直接扔進虛擬廚房動手炒菜。
為了系統評估AI的“物理直覺”到底強在哪、弱在哪,科學家們通常從兩個關鍵維度來組織這些 benchmark:
一是任務類型——AI是在預測、控制,還是在做因果推理?
二是輸入模態——AI是靠讀文字、看圖像,還是得親手“摸”世界?
接下來,我們就從這兩個角度,看看科學家如何給AI的“物理直覺”打分。
一、按任務類型劃分:AI是在“算”,還是在“理解”?
![]()
DeepPHY [3]: AI也會玩游戲,憤怒的小鳥、切繩子、打臺球……
最經典的一類任務是前向問題。這類任務要求模型根據已知的物理規律、初始條件和邊界條件,預測系統未來的狀態。比如,給定t時刻水流的速度和壓力,令AI判斷水流在t+1時刻是會拐彎、起渦,還是撞水槽反彈? PDEBench [1]就專注于測評這類問題,考察AI能不能用數學方法,逼近真實世界的演化過程,本質上更接近“AI會不會計算”。
![]()
PAI-Bench [8]:AI根據輸入文本生成爆炸發光視頻
更高階的任務,叫控制或設計問題。它不只是要求模型預測結果,而且要求它反過來尋找一個最優輸入或控制策略,使系統達到預期目標。即讓AI想:“我該怎么做,才能讓系統變成我想要的樣子?”。
比如:怎么控制機械臂,在不碰倒杯子的情況下抓起一個雞蛋?
或者:如何設計一種材料結構,讓它又輕又能扛住沖擊?
這就是“控制與設計類問題”。代表選手是 RoboBPP [2],它模擬的是真實機器人面臨的挑戰:在線裝箱、動態抓取、避開障礙……每一步都要考慮重力、摩擦、碰撞。
這就逼著AI從“解題思維”轉向“工程思維”——不僅要懂規律,還得會規劃、能權衡、敢調整,考驗模型在復雜物理系統中的決策能力和規劃能力。
![]()
PlasticineLab [9]:AI按照要求捏料橡皮泥柔性材料
![]()
ThreeDWorld Transport Challenge [10]:AI于三維世界完成搬東西操作
最高階的考場,直指人類最引以為傲的能力:因果推理。它要求AI不只算出結果,更要理解“為什么”:現象背后是什么機制?改變一個條件會引發什么連鎖反應?
舉個例子:讓它生成一段“金屬鈉扔進水里”的視頻——不是隨便放個煙花特效,而是準確呈現劇烈反應、氫氣釋放、甚至可能的爆炸發光。這需要它真正明白“鈉+水→放熱→產氣→點燃”這一連串因果鏈。
一個有趣的benchmark—— DeepPHY [3],它把AI丟進一個充滿物理規則的虛擬游戲廳:彈球軌道、臺球桌、“憤怒的小鳥”、切繩子……讓它邊玩邊試錯。
考的是什么?
多步推理、空間判斷、時序規劃,還有最關鍵的一點——從失敗中修正策略:“剛才那樣不行,得換種方式。”
這類評測顯然和我們印象中“AI做題家”截然不同,而是令AI在和物理世界對話。
二、按模態劃分:AI是通過什么“看見”物理的?
![]()
PhysBench [11]:AI視覺理解真實物理世界,哪個球彈得更高?車會先撞到哪個方塊?
如果說“任務類型”是考AI“會干什么”,那“模態”就是看它“怎么感知這個世界”。就像人類靠眼睛看、耳朵聽、手去摸來認識物理世界,AI也需要通過不同的“感官”輸入來學習規律。
最基礎的是純文本benchmark。這類任務主要圍繞文字、公式、符號和邏輯推導展開,重點考察模型的數學推演和抽象推理能力,比如SuperGPQA [4]。
接下來,AI 被要求“睜眼看世界”,視覺benchmark應運而生。這類任務以圖像或視頻作為輸入,要求模型理解其中的物理動態。例如, IntPhys [5]的靈感來自嬰兒直覺物理研究:連八個月大的孩子都知道——物體不會憑空消失,也不會穿過墻壁。在這個benchmark中,科學家給AI看一系列由引擎生成的視頻,有些是物理上可能發生的事件,比如球從斜坡滾下,自然落地;有些則不可能,比如球飛到半空突然懸停,或者穿墻而過。AI模型需要判斷哪些現象“在物理上說得通”,考的是AI的“物理常識感”。
目前最火熱的方向,是多模態benchmark。在真實物理研究中,問題不可能只來來自文字圖表,而是實驗操作、儀器讀數、乃至噪音的集成體。PhysUniBench [6] 就還原了這種場景:每個問題都配有一張復雜的物理圖表。AI 必須能“看懂”坐標系,識別出波的干涉條紋,或是追蹤粒子的運動軌跡,才能解出題。 SeePhys [7]則直接設計了"視覺必需型"難題:比如問:“這個波形對應哪種振動模式?” 沒圖?AI根本無從下手。這意味著,AI 不能再靠“背題庫”蒙混過關,它必須真正具備解讀科學圖像的能力,像個真正的研究員一樣工作。
最高階的感知方式,是親身參與。近年來興起一類具身/交互式 benchmark,它干脆把AI放進一個虛擬物理世界里,讓AI通過自主探索和交互來完成任務。比如 PAI-Bench [8],就設置了各種“生活挑戰”:在廚房里做菜,控制火候、翻炒食材;模擬水滴落入湖中,生成漣漪擴散的全過程;生成鞭炮在廠房外爆炸和發光的視頻。
此時,模型所需要的就不只是預測能力,更包括行動能力和決策能力,從“會做題”走向“會做事”。
![]()
PAIBench [8]:具身AI廚房做飯視頻
從枯燥的文本題海,到能看、能聽、能動手的多模態交互——物理 Benchmark 的進化史,其實就是 AI 努力長出“五官”和“雙手”的過程。這過程的價值遠超分數本身:它們是一面鏡子,映照出 AI 的短板,也折射出人類的獨特。
參考文獻:
[1] M. Takamoto, T. Praditia, R. Leiteritz, D. MacKinlay, F. Alesiani, D. Pflueger, and M. Niepert, PDEBENCH: An extensive benchmark for scientific machine learning, arXiv:2210.07182 (2022).
[2] Z. Wang, H. Zhao, J. Xu, S. Zhang, Z. Xiong, R. Hu, C. Zhu, Z. Zeng, and K. Xu, RoboBPP: Benchmarking robotic online bin packing with physics-based simulation, arXiv:2512.04415 (2025).
[3] X. Xu, P. Bu, Y. Wang, B. F. Karlsson, Z. Wang, T. Song, Q. Zhu, J. Song, Z. Ding, and B. Zheng, DeepPHY: Benchmarking agentic VLMs on physical reasoning, arXiv:2508.05405 (2025).
[4] X. Du, Y. Yao, K. Ma, B. Wang, T. Zheng, K. Zhu, M. Liu, Y. Liang, X. Jin, Z. Wei, et al., SuperGPQA: Scaling LLM evaluation across 285 graduate disciplines, arXiv:2502.14739 (2025).
[5] R. Riochet, M. Y. Castro, M. Bernard, A. Lerer, R. Fergus, V. Izard, and E. Dupoux, IntPhys 2019: A benchmark for visual intuitive physics understanding, IEEE Trans. Pattern Anal. Mach. Intell. 44, 5016 (2022).
[6] L. Wang, E. Su, J. Liu, P. Li, P. Xia, J. Xiao, W. Zhang, X. Dai, X. Chen, Y. Meng, M. Ding, L. Bai, W. Ouyang, S. Tang, A. Wang, and X. Ma, PhysUniBench: A multi-modal physics reasoning benchmark at undergraduate level, arXiv:2506.17667 (2025).
[7] H. Shen, T. Wu, Q. Han, Y. Hsieh, J. Wang, Y. Zhang, Y. Cheng, Z. Hao, Y. Ni, X. Wang, et al., SeePhys: Does seeing help thinking? Benchmarking vision-based physics reasoning, arXiv:2505.19099 (2025).
[8] F. Zhou, J. Huang, J. Li, D. Ramanan, and H. Shi, PAI-Bench: A comprehensive benchmark for physical AI, arXiv:2512.01989 (2025).
[9] Z. Huang, Y. Hu, T. Du, S. Zhou, H. Su, J. B. Tenenbaum, and C. Gan, PlasticineLab: A soft-body manipulation benchmark with differentiable physics, in Proc. Int. Conf. Learn. Represent, arXiv:2104.03311 (2021).
[10] C. Gan, S. Zhou, J. Schwartz, S. Alter, A. Bhandwaldar, D. Gutfreund, D. L. K. Yamins, J. J. DiCarlo, J. McDermott, A. Torralba, and J. B. Tenenbaum, The ThreeDWorld Transport Challenge: A visually guided task-and-motion planning benchmark for physically realistic embodied AI, in Proc. Conf. Neural Inf. Process. Syst., Paper No. 1678 (2021).
[11] W. Chow, J. Mao, B. Li, D. Seita, V. Guizilini, and Y. Wang, PhysBench: Benchmarking and enhancing vision-language models for physical world understanding, in Proc. Int. Conf. Learn. Represent. (2025).
編輯:夜凌Ryelin
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.