網易首頁 > 網易號 > 正文申請入駐

誰來定義AI“懂物理”？| 科到了

2026-03-12 16:30:29　來源: 中科院物理所

北京舉報

分享至

作者：王嘉翌博士研究生 | 中國科學院大學培養單位：中國科學院物理研究所審核：楊海濤研究員 | 中國科學院物理研究所

AI懂物理嗎？

讓我們設想這個場景：小孩搭積木，塔剛晃一下，他急著伸手去扶：“太高了，站不穩！”這一瞬間的動作，是刻在人類基因里的“物理直覺”——無需列方程、做計算，這是我們從小摔玩具、打翻杯子、被門夾手“交學費”換來的本能。

反觀AI：它能以每秒百萬次的速度算出每塊積木的重心、摩擦力和力矩，卻在看到一段“積木憑空懸浮”的視頻時，認真點頭：“這很合理。”

這正是問題的關鍵：會算，不等于懂。

最近，AI在各類奧賽中屢創佳績，甚至展現出超越人類頂尖選手的解題統治力。但我們不禁要問：它是真的理解了真實物理世界，還是只是背下了海量題庫，練就了一身“應試功夫”？

要回答這個問題，科學家們為AI設計了一種新型考試——benchmark（基準測試）。說白了，這是給AI設計的題庫，專門檢驗它是不是真有“物理直覺”。這些測試五花八門：有的讓它玩彈球游戲，有的看動畫挑錯，有的直接扔進虛擬廚房動手炒菜。

為了系統評估AI的“物理直覺”到底強在哪、弱在哪，科學家們通常從兩個關鍵維度來組織這些 benchmark：

一是任務類型——AI是在預測、控制，還是在做因果推理？

二是輸入模態——AI是靠讀文字、看圖像，還是得親手“摸”世界？

接下來，我們就從這兩個角度，看看科學家如何給AI的“物理直覺”打分。

一、按任務類型劃分：AI是在“算”，還是在“理解”？

DeepPHY [3]： AI也會玩游戲，憤怒的小鳥、切繩子、打臺球……

最經典的一類任務是前向問題。這類任務要求模型根據已知的物理規律、初始條件和邊界條件，預測系統未來的狀態。比如，給定t時刻水流的速度和壓力，令AI判斷水流在t+1時刻是會拐彎、起渦，還是撞水槽反彈？ PDEBench [1]就專注于測評這類問題，考察AI能不能用數學方法，逼近真實世界的演化過程，本質上更接近“AI會不會計算”。

PAI-Bench [8]：AI根據輸入文本生成爆炸發光視頻

更高階的任務，叫控制或設計問題。它不只是要求模型預測結果，而且要求它反過來尋找一個最優輸入或控制策略，使系統達到預期目標。即讓AI想：“我該怎么做，才能讓系統變成我想要的樣子？”。

比如：怎么控制機械臂，在不碰倒杯子的情況下抓起一個雞蛋？

或者：如何設計一種材料結構，讓它又輕又能扛住沖擊？

這就是“控制與設計類問題”。代表選手是 RoboBPP [2]，它模擬的是真實機器人面臨的挑戰：在線裝箱、動態抓取、避開障礙……每一步都要考慮重力、摩擦、碰撞。

這就逼著AI從“解題思維”轉向“工程思維”——不僅要懂規律，還得會規劃、能權衡、敢調整，考驗模型在復雜物理系統中的決策能力和規劃能力。

PlasticineLab [9]：AI按照要求捏料橡皮泥柔性材料

ThreeDWorld Transport Challenge [10]：AI于三維世界完成搬東西操作

最高階的考場，直指人類最引以為傲的能力：因果推理。它要求AI不只算出結果，更要理解“為什么”：現象背后是什么機制？改變一個條件會引發什么連鎖反應？

舉個例子：讓它生成一段“金屬鈉扔進水里”的視頻——不是隨便放個煙花特效，而是準確呈現劇烈反應、氫氣釋放、甚至可能的爆炸發光。這需要它真正明白“鈉+水→放熱→產氣→點燃”這一連串因果鏈。

一個有趣的benchmark—— DeepPHY [3]，它把AI丟進一個充滿物理規則的虛擬游戲廳：彈球軌道、臺球桌、“憤怒的小鳥”、切繩子……讓它邊玩邊試錯。

考的是什么？

多步推理、空間判斷、時序規劃，還有最關鍵的一點——從失敗中修正策略：“剛才那樣不行，得換種方式。”

這類評測顯然和我們印象中“AI做題家”截然不同，而是令AI在和物理世界對話。

二、按模態劃分：AI是通過什么“看見”物理的？

PhysBench [11]：AI視覺理解真實物理世界，哪個球彈得更高？車會先撞到哪個方塊？

如果說“任務類型”是考AI“會干什么”，那“模態”就是看它“怎么感知這個世界”。就像人類靠眼睛看、耳朵聽、手去摸來認識物理世界，AI也需要通過不同的“感官”輸入來學習規律。

最基礎的是純文本benchmark。這類任務主要圍繞文字、公式、符號和邏輯推導展開，重點考察模型的數學推演和抽象推理能力，比如SuperGPQA [4]。

接下來，AI 被要求“睜眼看世界”，視覺benchmark應運而生。這類任務以圖像或視頻作為輸入，要求模型理解其中的物理動態。例如， IntPhys [5]的靈感來自嬰兒直覺物理研究：連八個月大的孩子都知道——物體不會憑空消失，也不會穿過墻壁。在這個benchmark中，科學家給AI看一系列由引擎生成的視頻，有些是物理上可能發生的事件，比如球從斜坡滾下，自然落地；有些則不可能，比如球飛到半空突然懸停，或者穿墻而過。AI模型需要判斷哪些現象“在物理上說得通”，考的是AI的“物理常識感”。

目前最火熱的方向，是多模態benchmark。在真實物理研究中，問題不可能只來來自文字圖表，而是實驗操作、儀器讀數、乃至噪音的集成體。PhysUniBench [6] 就還原了這種場景：每個問題都配有一張復雜的物理圖表。AI 必須能“看懂”坐標系，識別出波的干涉條紋，或是追蹤粒子的運動軌跡，才能解出題。 SeePhys [7]則直接設計了"視覺必需型"難題：比如問：“這個波形對應哪種振動模式？” 沒圖？AI根本無從下手。這意味著，AI 不能再靠“背題庫”蒙混過關，它必須真正具備解讀科學圖像的能力，像個真正的研究員一樣工作。

最高階的感知方式，是親身參與。近年來興起一類具身/交互式 benchmark，它干脆把AI放進一個虛擬物理世界里，讓AI通過自主探索和交互來完成任務。比如 PAI-Bench [8]，就設置了各種“生活挑戰”：在廚房里做菜，控制火候、翻炒食材；模擬水滴落入湖中，生成漣漪擴散的全過程；生成鞭炮在廠房外爆炸和發光的視頻。

此時，模型所需要的就不只是預測能力，更包括行動能力和決策能力，從“會做題”走向“會做事”。

PAIBench [8]：具身AI廚房做飯視頻

從枯燥的文本題海，到能看、能聽、能動手的多模態交互——物理 Benchmark 的進化史，其實就是 AI 努力長出“五官”和“雙手”的過程。這過程的價值遠超分數本身：它們是一面鏡子，映照出 AI 的短板，也折射出人類的獨特。

參考文獻：

[1] M. Takamoto, T. Praditia, R. Leiteritz, D. MacKinlay, F. Alesiani, D. Pflueger, and M. Niepert, PDEBENCH: An extensive benchmark for scientific machine learning, arXiv:2210.07182 (2022).

[2] Z. Wang, H. Zhao, J. Xu, S. Zhang, Z. Xiong, R. Hu, C. Zhu, Z. Zeng, and K. Xu, RoboBPP: Benchmarking robotic online bin packing with physics-based simulation, arXiv:2512.04415 (2025).

[3] X. Xu, P. Bu, Y. Wang, B. F. Karlsson, Z. Wang, T. Song, Q. Zhu, J. Song, Z. Ding, and B. Zheng, DeepPHY: Benchmarking agentic VLMs on physical reasoning, arXiv:2508.05405 (2025).

[4] X. Du, Y. Yao, K. Ma, B. Wang, T. Zheng, K. Zhu, M. Liu, Y. Liang, X. Jin, Z. Wei, et al., SuperGPQA: Scaling LLM evaluation across 285 graduate disciplines, arXiv:2502.14739 (2025).

[5] R. Riochet, M. Y. Castro, M. Bernard, A. Lerer, R. Fergus, V. Izard, and E. Dupoux, IntPhys 2019: A benchmark for visual intuitive physics understanding, IEEE Trans. Pattern Anal. Mach. Intell. 44, 5016 (2022).

[6] L. Wang, E. Su, J. Liu, P. Li, P. Xia, J. Xiao, W. Zhang, X. Dai, X. Chen, Y. Meng, M. Ding, L. Bai, W. Ouyang, S. Tang, A. Wang, and X. Ma, PhysUniBench: A multi-modal physics reasoning benchmark at undergraduate level, arXiv:2506.17667 (2025).

[7] H. Shen, T. Wu, Q. Han, Y. Hsieh, J. Wang, Y. Zhang, Y. Cheng, Z. Hao, Y. Ni, X. Wang, et al., SeePhys: Does seeing help thinking? Benchmarking vision-based physics reasoning, arXiv:2505.19099 (2025).

[8] F. Zhou, J. Huang, J. Li, D. Ramanan, and H. Shi, PAI-Bench: A comprehensive benchmark for physical AI, arXiv:2512.01989 (2025).

[9] Z. Huang, Y. Hu, T. Du, S. Zhou, H. Su, J. B. Tenenbaum, and C. Gan, PlasticineLab: A soft-body manipulation benchmark with differentiable physics, in Proc. Int. Conf. Learn. Represent, arXiv:2104.03311 (2021).

[10] C. Gan, S. Zhou, J. Schwartz, S. Alter, A. Bhandwaldar, D. Gutfreund, D. L. K. Yamins, J. J. DiCarlo, J. McDermott, A. Torralba, and J. B. Tenenbaum, The ThreeDWorld Transport Challenge: A visually guided task-and-motion planning benchmark for physically realistic embodied AI, in Proc. Conf. Neural Inf. Process. Syst., Paper No. 1678 (2021).

[11] W. Chow, J. Mao, B. Li, D. Seita, V. Guizilini, and Y. Wang, PhysBench: Benchmarking and enhancing vision-language models for physical world understanding, in Proc. Int. Conf. Learn. Represent. (2025).

編輯：夜凌Ryelin

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.