337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

李飛飛李曼玲團隊發布空間理論:AI的空間智能還在三歲小孩階段

0
分享至

1983 年,心理學家設計了一個簡單實驗:Sally 把彈珠放進籃子然后離開,Anne 趁她不注意把彈珠挪到盒子里。問題是,Sally 回來后,會去哪里找彈珠?

四歲孩子能答對:去籃子,因為 Sally 不知道彈珠被移走了。三歲以下的孩子會答錯,他們分不清“自己知道”和“別人知道”的區別。這就是發展心理學里著名的 Sally-Anne 測試,它標定了人類認知發展的一道重要分水嶺。這種能力被稱為“心智理論”(Theory of Mind)。


(動圖來源:受訪者)

四十多年后,美國斯坦福大學李飛飛教授和美國西北大學李曼玲教授團隊把這個實驗搬到了 AI 面前,只不過這次考察的是物理世界。他們設計了一套叫“空間理論”(Theory of Space)的評估框架,目的是想弄清楚一件事:當大模型必須自己去探索、去發現、去拼湊信息時,它的空間智能究竟進化到了哪一級?


圖 | 從左到右:李飛飛、李曼玲(來源:資料圖)

從被動答題到主動探索,AI 掉了好幾個臺階

傳統測試 AI 空間能力的方式,有點像開卷考試。給一張圖,問里面物體的位置關系,模型答對了就算過關。前沿模型在這種測試里得分都不錯,讓人以為它們已經挺懂空間了。

但李飛飛和李曼玲團隊覺得這還不夠。真實世界不是開卷考,沒有人會把所有信息一次性擺在你面前。你推開一扇門只看到客廳一角,走過走廊瞥見臥室一角,要理解整個房子的布局,你得把這些碎片拼起來,還得知道自己還有什么沒看到,下一步該往哪看。

研究中,他們設計了一套測試環境,有文本版和視覺版兩種,讓模型在多個房間里主動探索,收集信息,構建腦海中的認知地圖。過去評估只看最終答對答錯,這篇工作第一次能給 AI 大腦拍 X 光,他們讓模型顯式探測這張認知地圖,在每個時間步輸出自己認為物體都在什么位置。


(動圖來源:受訪者)

結果發現,模型在被動模式下表現尚可,一旦切換到主動探索模式,性能應聲而落。以視覺世界為例,GPT-5.2 從 57.1% 掉到 46.0%,Gemini-3 Pro 從 60.5% 掉到 57.3%,而這就是他們所說的主動被動差距。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

差距從哪來?他們用一套精細的診斷工具來逐層拆解模型的認知過程。

第一個問題是效率低。規則代理平均 9 步就能覆蓋整個環境,基礎模型往往需要 14 步以上,而且覆蓋率更低。GPT-5.2 有個毛病,一看到門就沖過去,經常忘了把當前房間看完。Gemini-3 Pro 好一些,會先原地旋轉觀察再移動,但也沒有規則代理高效。

第二個問題更致命。他們設計了一個錯誤信念測試,在模型完成初次探索后,悄悄移動或旋轉幾個物體。當模型再次經過并直接觀察到新布局時,一個令人不安的現象出現了:GPT-5.2 在視覺世界中的朝向慣性高達 68.9%,即近七成的情況下仍然堅持報告物體的舊朝向。同一模型在文本世界中慣性只有 5.5%。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

其實這就是信念慣性,模型親眼看到變化,但內部表征缺乏足夠的可塑性來完成舊信念到新信念的覆寫,也就是它無法更新自己的認知。這和 Sally-Anne 測試里三歲幼兒的失敗何其相似,只不過幼兒失敗是因為認知能力尚未發育,模型失敗是因為內部機制存在缺陷。

認知地圖會漂移,視覺世界更高難

他們還發現一個叫信念漂移的現象。那就是模型在初次觀察物體時的感知誤差雖然存在,不過還沒嚴重到影響整體判斷。真正的問題是,這份初始保真度無法在后續步驟中維持。隨著探索推進、信息增多,那些早先正確的記憶開始悄然退化,被后續步驟的錯誤更新覆蓋,或者在拼接不同房間的信息時產生內部矛盾。


(動圖來源:受訪者)

最終認知地圖的低準確率,在很大程度上來自拼不住。模型缺乏穩定維護長程空間信息的機制,新的觀察不僅沒有鞏固已有認知,反而在不斷侵蝕它。這個特點可能人類也存在,比如筆者曾去參觀故宮,一個宮殿接一個地觀看,而這些宮殿又很相似,那么就很有可能看了下一個、忘記了上一個。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

但是,這些問題在視覺世界中會被放大。人類被試在視覺世界中的準確率高達 96.4%(使用簡單工具后達 99.0%),在文本世界中是 86.7%。模型卻正好相反,文本表現遠好于視覺。視覺信息對人類而言是天然、直覺的空間認知通道,而當前多模態模型尚未學會從像素中高效提取空間結構。

尤其是物體朝向識別,模型幾乎接近隨機猜測。這解釋了為什么它們在視角推理任務(如 Perspective Taking)上得分慘淡,大約只有 36% 的準確率。

而這套評估框架的價值,在于它把空間智能從會不會答這道題的二元判定,變成了一個可以逐級診斷的連續過程。它告訴我們的不只是模型還差多遠,更是它具體在哪一級開始失靈。

如果模型連“記住剛才看到的沙發在哪”都做不到,那指望它在一個真實環境里主動導航,比如在災區搜救中定位幸存者,還有很長的路要走。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

目前,相關論文已被機器學習頂級會議 ICLR 2026 接收。論文、代碼和數據集都已開源。該研究由西北大學、斯坦福大學、華盛頓大學與康奈爾大學聯合完成。研究團隊里集齊了多位《麻省理工科技評論》“35 歲以下科技創新 35 人”的入選者,李曼玲教授是 2025 年全球入選者,美國斯坦福大學的吳佳俊教授和美國華盛頓大學的 Ranjay Krishna 教授分別入選了 2024 與 2025 年度亞太區名單。

參考資料:

相關論文 https://theory-of-space.github.io/paper/Theory_of_Space.pdf

https://limanling.github.io/

https://profiles.stanford.edu/fei-fei-li

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國永遠的校長,死于1962年

中國永遠的校長,死于1962年

最愛歷史
2024-05-20 13:30:17
秦始皇死亡之謎被揭開?郭沫若:被人用條3寸長的鐵釘活活釘死的

秦始皇死亡之謎被揭開?郭沫若:被人用條3寸長的鐵釘活活釘死的

健康快樂丁
2025-04-13 18:09:33
劉邦到死都沒想到,他最嫌棄的兒子,靠裝傻成了千古一帝

劉邦到死都沒想到,他最嫌棄的兒子,靠裝傻成了千古一帝

千秋文化
2026-03-13 20:40:51
在上海生活的毛劍卿,銀行負責人妻子很漂亮,如今已是助理教練

在上海生活的毛劍卿,銀行負責人妻子很漂亮,如今已是助理教練

米果說識
2026-04-13 14:33:48
特朗普第一任期的白宮律師突然爆猛料:特朗普已經撐不下去了

特朗普第一任期的白宮律師突然爆猛料:特朗普已經撐不下去了

西樓知趣雜談
2026-04-19 21:25:23
二百多名軍官被槍斃、撤職、處分,長津湖戰役中失職的志愿軍88師

二百多名軍官被槍斃、撤職、處分,長津湖戰役中失職的志愿軍88師

丞丞故事匯
2025-12-28 00:13:54
視覺核彈級身材!三國混血神顏,169cm沙漏身材堪稱視覺核彈!

視覺核彈級身材!三國混血神顏,169cm沙漏身材堪稱視覺核彈!

生如稗草
2026-04-19 11:27:16
05年廠花未婚先孕被辭,我給她5千塊,她拉住我問敢不敢當孩子爹

05年廠花未婚先孕被辭,我給她5千塊,她拉住我問敢不敢當孩子爹

千秋文化
2026-04-13 19:50:23
賴昌星前妻近狀曝光:拒絕政府安置,獨居3000平老宅,只做一件事

賴昌星前妻近狀曝光:拒絕政府安置,獨居3000平老宅,只做一件事

芳芳歷史燴
2026-03-23 03:53:23
廣西規模較大的十家三甲醫院,核心數據一文全解析

廣西規模較大的十家三甲醫院,核心數據一文全解析

王曉愛體彩
2026-04-19 21:47:59
瘋狂“淘晶熱”!廣州暹崗大山遭人私挖水晶破壞,林業部門:涉嫌違法

瘋狂“淘晶熱”!廣州暹崗大山遭人私挖水晶破壞,林業部門:涉嫌違法

上游新聞
2026-04-19 16:10:09
澤連斯基:我不在乎歷史書怎么寫我,只希望烏克蘭的孩子能在街上無需躲藏

澤連斯基:我不在乎歷史書怎么寫我,只希望烏克蘭的孩子能在街上無需躲藏

我在等風也等你
2025-10-25 18:39:24
你怕了?日艦闖臺海48小時后,中國軍艦開到家門口!日本網友崩了

你怕了?日艦闖臺海48小時后,中國軍艦開到家門口!日本網友崩了

音樂時光的娛樂
2026-04-20 03:25:57
日本壟斷全球90%!一旦斷供,別國造不出,中國咋辦?

日本壟斷全球90%!一旦斷供,別國造不出,中國咋辦?

今墨緣
2026-04-14 09:57:22
27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
終于降了!4月21日24時油價將調整 加一箱油預計少花21元

終于降了!4月21日24時油價將調整 加一箱油預計少花21元

快科技
2026-04-17 20:15:35
岸田文雄露頭!當著30國的面,對國民發出呼吁:日本不能重演悲劇

岸田文雄露頭!當著30國的面,對國民發出呼吁:日本不能重演悲劇

靚仔情感
2026-04-20 00:00:24
只剩2天,解放軍準時下通牒,賴清德將登機離臺,鄭麗文判斷準確

只剩2天,解放軍準時下通牒,賴清德將登機離臺,鄭麗文判斷準確

涼羽亭
2026-04-20 01:51:21
確認了,再見杜蘭特!火箭當家球星因傷退賽,系列賽或已失去懸念

確認了,再見杜蘭特!火箭當家球星因傷退賽,系列賽或已失去懸念

寒律
2026-04-20 03:07:38
鄭麗文剛換上中山裝,不到72小時,洪秀柱直奔北京,兩岸共謀統一

鄭麗文剛換上中山裝,不到72小時,洪秀柱直奔北京,兩岸共謀統一

健身狂人
2026-04-20 00:43:59
2026-04-20 04:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16598文章數 514891關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態度原創

旅游
數碼
家居
手機
房產

旅游要聞

北京投入2.2億元建成和田“三館一院”

數碼要聞

華為新機發布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

家居要聞

法式線條 時光靜淌

手機要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

房產要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

無障礙瀏覽 進入關懷版