337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

誰來定義AI“懂物理”?| 科到了

0
分享至


作者:王嘉翌 博士研究生 | 中國科學院大學 培養單位:中國科學院物理研究所 審核:楊海濤 研究員 | 中國科學院物理研究所

AI懂物理嗎?

讓我們設想這個場景:小孩搭積木,塔剛晃一下,他急著伸手去扶:“太高了,站不穩!”這一瞬間的動作,是刻在人類基因里的“物理直覺”——無需列方程、做計算,這是我們從小摔玩具、打翻杯子、被門夾手“交學費”換來的本能。

反觀AI:它能以每秒百萬次的速度算出每塊積木的重心、摩擦力和力矩,卻在看到一段“積木憑空懸浮”的視頻時,認真點頭:“這很合理。”

這正是問題的關鍵:會算,不等于懂

最近,AI在各類奧賽中屢創佳績,甚至展現出超越人類頂尖選手的解題統治力。但我們不禁要問:它是真的理解了真實物理世界,還是只是背下了海量題庫,練就了一身“應試功夫”?

要回答這個問題,科學家們為AI設計了一種新型考試——benchmark(基準測試)。說白了,這是給AI設計的題庫,專門檢驗它是不是真有“物理直覺”。這些測試五花八門:有的讓它玩彈球游戲,有的看動畫挑錯,有的直接扔進虛擬廚房動手炒菜。

為了系統評估AI的“物理直覺”到底強在哪、弱在哪,科學家們通常從兩個關鍵維度來組織這些 benchmark:

一是任務類型——AI是在預測、控制,還是在做因果推理?

二是輸入模態——AI是靠讀文字、看圖像,還是得親手“摸”世界?

接下來,我們就從這兩個角度,看看科學家如何給AI的“物理直覺”打分。

一、按任務類型劃分:AI是在“算”,還是在“理解”?


DeepPHY [3]: AI也會玩游戲,憤怒的小鳥、切繩子、打臺球……

最經典的一類任務是前向問題。這類任務要求模型根據已知的物理規律、初始條件和邊界條件,預測系統未來的狀態。比如,給定t時刻水流的速度和壓力,令AI判斷水流在t+1時刻是會拐彎、起渦,還是撞水槽反彈? PDEBench [1]就專注于測評這類問題,考察AI能不能用數學方法,逼近真實世界的演化過程,本質上更接近“AI會不會計算”。


PAI-Bench [8]:AI根據輸入文本生成爆炸發光視頻

更高階的任務,叫控制或設計問題。它不只是要求模型預測結果,而且要求它反過來尋找一個最優輸入或控制策略,使系統達到預期目標。即讓AI想:“我該怎么做,才能讓系統變成我想要的樣子?”。

比如:怎么控制機械臂,在不碰倒杯子的情況下抓起一個雞蛋?

或者:如何設計一種材料結構,讓它又輕又能扛住沖擊?

這就是“控制與設計類問題”。代表選手是 RoboBPP [2],它模擬的是真實機器人面臨的挑戰:在線裝箱、動態抓取、避開障礙……每一步都要考慮重力、摩擦、碰撞。

這就逼著AI從“解題思維”轉向“工程思維”——不僅要懂規律,還得會規劃、能權衡、敢調整,考驗模型在復雜物理系統中的決策能力和規劃能力。


PlasticineLab [9]:AI按照要求捏料橡皮泥柔性材料


ThreeDWorld Transport Challenge [10]:AI于三維世界完成搬東西操作

最高階的考場,直指人類最引以為傲的能力:因果推理。它要求AI不只算出結果,更要理解“為什么”:現象背后是什么機制?改變一個條件會引發什么連鎖反應?

舉個例子:讓它生成一段“金屬鈉扔進水里”的視頻——不是隨便放個煙花特效,而是準確呈現劇烈反應、氫氣釋放、甚至可能的爆炸發光。這需要它真正明白“鈉+水→放熱→產氣→點燃”這一連串因果鏈。

一個有趣的benchmark—— DeepPHY [3],它把AI丟進一個充滿物理規則的虛擬游戲廳:彈球軌道、臺球桌、“憤怒的小鳥”、切繩子……讓它邊玩邊試錯。

考的是什么?

多步推理、空間判斷、時序規劃,還有最關鍵的一點——從失敗中修正策略:“剛才那樣不行,得換種方式。”

這類評測顯然和我們印象中“AI做題家”截然不同,而是令AI在和物理世界對話。

二、按模態劃分:AI是通過什么“看見”物理的?


PhysBench [11]:AI視覺理解真實物理世界,哪個球彈得更高?車會先撞到哪個方塊?

如果說“任務類型”是考AI“會干什么”,那“模態”就是看它“怎么感知這個世界”。就像人類靠眼睛看、耳朵聽、手去摸來認識物理世界,AI也需要通過不同的“感官”輸入來學習規律。

最基礎的是純文本benchmark。這類任務主要圍繞文字、公式、符號和邏輯推導展開,重點考察模型的數學推演和抽象推理能力,比如SuperGPQA [4]。

接下來,AI 被要求“睜眼看世界”,視覺benchmark應運而生。這類任務以圖像或視頻作為輸入,要求模型理解其中的物理動態。例如, IntPhys [5]的靈感來自嬰兒直覺物理研究:連八個月大的孩子都知道——物體不會憑空消失,也不會穿過墻壁。在這個benchmark中,科學家給AI看一系列由引擎生成的視頻,有些是物理上可能發生的事件,比如球從斜坡滾下,自然落地;有些則不可能,比如球飛到半空突然懸停,或者穿墻而過。AI模型需要判斷哪些現象“在物理上說得通”,考的是AI的“物理常識感”

目前最火熱的方向,是多模態benchmark。在真實物理研究中,問題不可能只來來自文字圖表,而是實驗操作、儀器讀數、乃至噪音的集成體。PhysUniBench [6] 就還原了這種場景:每個問題都配有一張復雜的物理圖表。AI 必須能“看懂”坐標系,識別出波的干涉條紋,或是追蹤粒子的運動軌跡,才能解出題。 SeePhys [7]則直接設計了"視覺必需型"難題:比如問:“這個波形對應哪種振動模式?” 沒圖?AI根本無從下手。這意味著,AI 不能再靠“背題庫”蒙混過關,它必須真正具備解讀科學圖像的能力,像個真正的研究員一樣工作。

最高階的感知方式,是親身參與。近年來興起一類具身/交互式 benchmark,它干脆把AI放進一個虛擬物理世界里,讓AI通過自主探索和交互來完成任務。比如 PAI-Bench [8],就設置了各種“生活挑戰”:在廚房里做菜,控制火候、翻炒食材;模擬水滴落入湖中,生成漣漪擴散的全過程;生成鞭炮在廠房外爆炸和發光的視頻。

此時,模型所需要的就不只是預測能力,更包括行動能力和決策能力,從“會做題”走向“會做事”。


PAIBench [8]:具身AI廚房做飯視頻

從枯燥的文本題海,到能看、能聽、能動手的多模態交互——物理 Benchmark 的進化史,其實就是 AI 努力長出“五官”和“雙手”的過程。這過程的價值遠超分數本身:它們是一面鏡子,映照出 AI 的短板,也折射出人類的獨特。

參考文獻:

[1] M. Takamoto, T. Praditia, R. Leiteritz, D. MacKinlay, F. Alesiani, D. Pflueger, and M. Niepert, PDEBENCH: An extensive benchmark for scientific machine learning, arXiv:2210.07182 (2022).

[2] Z. Wang, H. Zhao, J. Xu, S. Zhang, Z. Xiong, R. Hu, C. Zhu, Z. Zeng, and K. Xu, RoboBPP: Benchmarking robotic online bin packing with physics-based simulation, arXiv:2512.04415 (2025).

[3] X. Xu, P. Bu, Y. Wang, B. F. Karlsson, Z. Wang, T. Song, Q. Zhu, J. Song, Z. Ding, and B. Zheng, DeepPHY: Benchmarking agentic VLMs on physical reasoning, arXiv:2508.05405 (2025).

[4] X. Du, Y. Yao, K. Ma, B. Wang, T. Zheng, K. Zhu, M. Liu, Y. Liang, X. Jin, Z. Wei, et al., SuperGPQA: Scaling LLM evaluation across 285 graduate disciplines, arXiv:2502.14739 (2025).

[5] R. Riochet, M. Y. Castro, M. Bernard, A. Lerer, R. Fergus, V. Izard, and E. Dupoux, IntPhys 2019: A benchmark for visual intuitive physics understanding, IEEE Trans. Pattern Anal. Mach. Intell. 44, 5016 (2022).

[6] L. Wang, E. Su, J. Liu, P. Li, P. Xia, J. Xiao, W. Zhang, X. Dai, X. Chen, Y. Meng, M. Ding, L. Bai, W. Ouyang, S. Tang, A. Wang, and X. Ma, PhysUniBench: A multi-modal physics reasoning benchmark at undergraduate level, arXiv:2506.17667 (2025).

[7] H. Shen, T. Wu, Q. Han, Y. Hsieh, J. Wang, Y. Zhang, Y. Cheng, Z. Hao, Y. Ni, X. Wang, et al., SeePhys: Does seeing help thinking? Benchmarking vision-based physics reasoning, arXiv:2505.19099 (2025).

[8] F. Zhou, J. Huang, J. Li, D. Ramanan, and H. Shi, PAI-Bench: A comprehensive benchmark for physical AI, arXiv:2512.01989 (2025).

[9] Z. Huang, Y. Hu, T. Du, S. Zhou, H. Su, J. B. Tenenbaum, and C. Gan, PlasticineLab: A soft-body manipulation benchmark with differentiable physics, in Proc. Int. Conf. Learn. Represent, arXiv:2104.03311 (2021).

[10] C. Gan, S. Zhou, J. Schwartz, S. Alter, A. Bhandwaldar, D. Gutfreund, D. L. K. Yamins, J. J. DiCarlo, J. McDermott, A. Torralba, and J. B. Tenenbaum, The ThreeDWorld Transport Challenge: A visually guided task-and-motion planning benchmark for physically realistic embodied AI, in Proc. Conf. Neural Inf. Process. Syst., Paper No. 1678 (2021).

[11] W. Chow, J. Mao, B. Li, D. Seita, V. Guizilini, and Y. Wang, PhysBench: Benchmarking and enhancing vision-language models for physical world understanding, in Proc. Int. Conf. Learn. Represent. (2025).

編輯:夜凌Ryelin

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
唯一流失用戶的頭部大廠,拼多多怎么了

唯一流失用戶的頭部大廠,拼多多怎么了

三易生活
2026-03-20 19:44:44
打破對外維持“導彈射程不超2000公里”姿態,伊朗攻擊美軍全球最穩固戰略“安全屋”

打破對外維持“導彈射程不超2000公里”姿態,伊朗攻擊美軍全球最穩固戰略“安全屋”

紅星新聞
2026-03-21 15:41:19
機車網紅“黃油膩”去世,年僅35歲,品牌方承諾養大他的孩子

機車網紅“黃油膩”去世,年僅35歲,品牌方承諾養大他的孩子

九方魚論
2026-03-22 05:55:42
歷史性突破!2:07:35!毛金虎無錫馬拉松首秀創中國最佳

歷史性突破!2:07:35!毛金虎無錫馬拉松首秀創中國最佳

慧跑
2026-03-22 09:24:53
裁判談最后4.7秒將球權判給湖人:沒有明確證據推翻原有判罰

裁判談最后4.7秒將球權判給湖人:沒有明確證據推翻原有判罰

懂球帝
2026-03-22 13:09:07
一滴水放大400萬倍后,99.99%都是空的

一滴水放大400萬倍后,99.99%都是空的

物理系老郭
2026-03-21 20:00:06
匈牙利再否決對烏援助,馮德萊恩開始反擊,將在3周內推翻歐爾班

匈牙利再否決對烏援助,馮德萊恩開始反擊,將在3周內推翻歐爾班

琴音繚繞回
2026-03-22 10:27:09
重慶談判期間,戴季陶出言譏諷毛主席,毛主席的回復引起一片掌聲

重慶談判期間,戴季陶出言譏諷毛主席,毛主席的回復引起一片掌聲

冰語歷史
2026-03-08 12:45:26
重慶大學1死3傷后續:死者為研究生,內情遠比想象復雜

重慶大學1死3傷后續:死者為研究生,內情遠比想象復雜

音樂時光的娛樂
2026-03-22 13:26:58
伊朗總統呼吁伊朗攜手并肩度過風暴

伊朗總統呼吁伊朗攜手并肩度過風暴

極目新聞
2026-03-21 23:26:15
38萬老車主看完新SU7配置單,沉默了……

38萬老車主看完新SU7配置單,沉默了……

道哥說車
2026-03-20 10:17:01
我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這三件事

我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這三件事

東林夕亭
2026-03-19 09:04:30
領導想廢掉一個人的6大“陽謀”:1、給你干不完的活;2、不安排重要工作;3、……

領導想廢掉一個人的6大“陽謀”:1、給你干不完的活;2、不安排重要工作;3、……

互聯網早讀課
2026-03-22 08:09:25
1950年毛主席下令收回東交民巷 西方列強拒不搬離,結果7天后……

1950年毛主席下令收回東交民巷 西方列強拒不搬離,結果7天后……

棠棣分享
2026-03-21 23:40:47
女人們終于說實話了:穿內衣是為了我自己爽,不是給你看!

女人們終于說實話了:穿內衣是為了我自己爽,不是給你看!

落雪聽梅a
2026-03-21 11:06:12
一邊扶蔣介石坐高位,一邊為毛主席鋪好前路,譚延闿究竟有多厲害

一邊扶蔣介石坐高位,一邊為毛主席鋪好前路,譚延闿究竟有多厲害

磊子講史
2026-03-19 17:50:35
辭職后首次奪冠!昔日最快女護士張水華,一場比賽進賬4萬元

辭職后首次奪冠!昔日最快女護士張水華,一場比賽進賬4萬元

全景體育V
2026-03-22 15:10:51
主人坐馬路邊和狗分一個饅頭,被善良路人誤會是乞丐,喜提一袋吐司面包...養狗是真不會餓肚子啊!

主人坐馬路邊和狗分一個饅頭,被善良路人誤會是乞丐,喜提一袋吐司面包...養狗是真不會餓肚子啊!

愛寵物
2026-03-20 22:46:12
中國車市投訴榜單第一名!

中國車市投訴榜單第一名!

詩與星空
2026-03-20 08:00:06
晚年杜聿明感嘆:我們哪里是敗給共產黨,是敗給了毛澤東一個人

晚年杜聿明感嘆:我們哪里是敗給共產黨,是敗給了毛澤東一個人

歷史的煙火
2026-03-17 21:21:34
2026-03-22 16:11:00
中科院物理所 incentive-icons
中科院物理所
愛上物理,改變世界。
9986文章數 136503關注度
往期回顧 全部

科技要聞

嫌臺積電太慢 馬斯克要把芯片產能飆升50倍

頭條要聞

伊朗:不接受臨時停火 而是要求全面結束戰爭

頭條要聞

伊朗:不接受臨時停火 而是要求全面結束戰爭

體育要聞

鄭欽文連續迎戰大滿貫冠軍 “雙教練”團隊正式亮相

娛樂要聞

今晚首播!央視年代劇《冬去春來》來了

財經要聞

睡夢中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

14.28萬元起 吉利銀河星耀8遠航家開啟預售

態度原創

旅游
房產
親子
健康
公開課

旅游要聞

瞰中國丨四川蘆山:夜游油菜花田

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

親子要聞

7歲男孩查出尿毒癥,家長崩潰大哭,醫生怒斥:這幾物怎可常吃!

轉頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版