337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司

<small id="uuuuu"></small>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

全球頂尖大模型一夜慘遭血洗！最難測試人類拿滿分，AI第一名得0.2%分

2026-03-26 18:14:12　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：Aeneas 好困

【新智元導讀】今夜，整個AI圈震動了。全球最難AGI測試ARC-AGI-3一上線，就把全球頂尖AI打到集體失聲，人類滿分通關，最強模型Opus 4.6得分僅0.2%，還不到1%。AI這是一夜被打回「原始人」了。

就在今天，這條消息把整個AI圈給震了。

眾望所歸的，全球唯一尚未飽和的智能體基準測試ARC-AGI-3出爐了，直接血洗了全球頂尖大模型。

在這個測試中，人類得分100%，AI的得分普遍低于1%。

這個差距，比珠穆朗瑪峰還高。

最慘烈的是，在上一代測試中還能拿下69.2%高分的「模范生」Opus 4.6，在ARC-AGI-3面前直接現了原形，得分僅為0.2%。

這位曾經橫掃各大榜單的「學霸」，連蒙帶猜都拿不到1分。

這面鏡子，照出了當前AI能力中最深的裂縫。

在最近的采訪中，老黃認為我們已經實現了AGI。但是ARC-AGI-3顯示，或許如今的AI連1%的AGI都沒有實現。

ARC-AGI-3，到底有多變態

它的前身ARC-AGI-1和ARC-AGI-2，已經是AI圈出了名的「魔鬼測試」。

那些測試里，AI需要觀察幾個示例，然后推斷出網格變換的規律，完成新任務。

聽起來不難？但就是這些看起來像幼兒園連線題的東西，曾經讓無數大模型鎩羽而歸。

而到了ARC-AGI-3，難度直接換了個維度：從「靜態題」變成了「互動游戲」。

150多個手工設計的交互式游戲環境，包含1000多個關卡。

每個游戲都有自己的內在邏輯、隱藏規則和通關條件。但沒有任何說明文檔，沒有自然語言提示，沒有人告訴你「左邊的按鈕會開門」或者「收集三個紅色方塊就能過關」。

AI智能體被丟進去，只能看到當前畫面，選擇一個動作，觀察結果，再決定下一步。

它只能像盲人摸象一樣，一步一步試探，然后在大腦里拼湊出一個「這個世界可能是這樣運作的」的模型。

這正是ARC Prize基金會想測的四件事。

探索：能不能通過主動與環境互動來獲取關鍵信息？
建模：能不能把零散的觀察凝聚成一個可以預測未來狀態的世界模型？
目標獲取：沒有人下達指令，能不能自己判斷出「我應該以什么為目標」？
規劃與執行：能不能規劃出行動路徑，并根據環境反饋隨時修正？

「幾何級數」的羞辱：0.2%是怎么來的？

評分標準同樣殘忍。

ARC-AGI-3的評分不看「有沒有通關」，而是看「效率」，而且是和人類比效率。

這在AI基準測試的歷史上，還是頭一回。

受Chollet那篇《論智能的衡量》的啟發，ARC Prize團隊把「智能」操作化為一個轉換率：

你從環境中獲取信息的效率有多高？你把這些信息轉化為正確行動的速度有多快？

假設人類解決這個游戲需要10步，而AI用了100步，那AI的得分是多少？

不是10%，而是1%。

公式是：(人類步數/AI步數)2。人類10步，AI 100步，那就是(10/100)2=0.01=1%。

如果AI用了200步，這一數字就是0.25%；500步就是0.04%。

這一下，把AI所有的「蠻力」路都堵死了。

以前AI可以靠窮舉，把所有可能的操作試一遍，總能試出正確路徑。

但在這種評分體系下，你多試一步，分數就斷崖式下跌。

現在，你就知道了Opus 4.6得分只有0.2%的意味——

假設人類解決某個游戲用了10步，0.2%=0.002，開平方≈0.0447，10÷0.0447≈224步。

這已經不是「笨」了，這是在迷宮里原地轉圈到天荒地老。

當這種差距被如此強烈地展示出來，很多以為AGI近在眼前的人，都震驚了。

350步 vs 兩三下：成績單全景

在正式發布之前，ARC-AGI-3跑了一輪為期30天的開發者預覽。

三款公開游戲從地圖導航到圖案匹配再到水位調節，題目類型各異，但有一個共同點：人類覺得簡單，AI覺得要命。

1200多名人類玩家參與了測試，完成了3900多場游戲。

大部分人不僅輕松過關，還玩得很開心，有些執著的玩家甚至一路「速通」挑戰到了理論最優步數。

人類基線：100%。AI這邊，前沿大模型得分全部低于1%。

預覽期的冠軍叫StochasticGoose，來自Tufa Labs。

它不是大模型，而是一個基于卷積神經網絡的動作學習型智能體，用簡單的強化學習來預測哪些操作會導致畫面變化。最終得分12.58%，已經是所有參賽系統里最高的了。

但即便是這個冠軍，在一款調水位的游戲里，開局也花了將近350步做無效的點擊操作。

350步。人類大概只需要點兩三下就能搞明白的事。

更反直覺的是，排行榜的前三名全是非LLM方案——CNN、基于規則的狀態圖探索、無需訓練的幀圖搜索。

一個基于CNN的方案，比GPT-5.x系列高出12個百分點以上。而那些接入了前沿大模型的智能體，成績反而經常墊底，有的甚至頻繁崩潰。

AI把自己坑了

ARC團隊還發現一個特別有意思的現象。

AI的主要失敗模式之一是：「以為自己在玩另一個游戲」。

比如，你被蒙上眼睛，扔進一個房間。

你摸到了一個圓形的物體，于是你斷定：「這是個籃球場，我應該投籃?！沟聦嵣希隳玫目赡苁且粋€西瓜，而房間其實是一個廚房。

AI犯的就是這樣的錯。

它在一個全新的環境里，看到一些初始的視覺信息，然后迅速給自己「腦補」了一個游戲框架，接著就沿著這個錯誤的假設瘋狂執行計劃，越走越偏，越偏越遠。

它不會停下來想：等等，我怎么好像一直沒得到正反饋？是不是我的假設錯了？

因為當前的AI，缺乏一種「元認知」能力。也就是說，它不知道自己不知道。

這解釋了為什么大模型反而墊底。

參數量越大、預訓練知識越豐富的模型，越容易把陌生環境「腦補」成自己見過的東西，然后死磕到底。

而那些輕量級的CNN智能體和圖搜索系統，反倒因為沒有「先入為主」的包袱，能老老實實地從環境反饋中學習。

為什么人類能輕松通關？

ARC團隊在文檔里寫了一句話：「人類不會蠻力行事。他們會構建思維模型，檢驗想法，并迅速改進?！?/p>

首先第一步，人類會構建思維模型。

一個人類玩家面對一個全新游戲時，第一件事不是「瞎點」，而是觀察。幾分鐘之內，一個粗糙但可用的「世界模型」就建成了。

第二步，人類會檢驗想法。

如果結果和預期一致，模型得到強化。如果不一致，模型立即修正。

第三步，人類會迅速改進。錯了就改，改了再試。

這種「探索-建模-驗證-修正」的循環，在人類身上幾乎是本能的。

而AI呢？只是一個「記住了很多答案」的應試高手，它的「學習」和人類的「學習」根本不是一個物種。

人類的學習是在線、交互、假設驅動的；AI的學習是離線、數據驅動、模式匹配的。

ARC-AGI-3沒有任何「題海戰術」可以覆蓋，它考的是「怎么學習」。這恰恰是目前AI最弱的一環。

目前，這場挑戰賽的獎金池高達85萬美元，其中70萬美元是給「滿分通關者」的終極大獎。

參賽者必須完全開源代碼，并且在無網環境下接受評估。這意味著你不能偷偷調用云端大模型，不能偷偷聯網查資料。

和人類這個珠穆朗瑪峰的差距，有AI能克服嗎？

讓我們靜待結果。

參考資料：

https://x.com/Hesamation/status/2036861818321146306

https://arcprize.org/arc-agi/3

https://docs.arcprize.org/

https://x.com/fchollet/status/2036881543973790004

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

在線等：如何優雅地分走鵝廠這600+萬？

量子位 2026-03-26 16:24:03
0 跟貼 0
谷歌用一堆不賺錢的AI小玩意，給科技圈上了一課

機器之心Pro 2026-01-26 14:47:02
38 跟貼 38

黃仁勛暴論核彈：AGI已經實現，Ilya錯了，程序員有10億

量子位 2026-03-24 16:55:11
17 跟貼 17

黃仁勛震撼發言：AGI時代已經到來

財聯社 2026-03-25 10:34:05
150 跟貼 150
黃仁勛聲稱“AGI已經實現”，前提是重新定義了AGI

DeepTech深科技 2026-03-24 18:17:04
1 跟貼 1

VL-LN Bench：模擬「邊走邊問找具體目標」的真實導航場景

機器之心Pro 2026-02-02 17:10:55
0 跟貼 0

讓生物學家擺脫數據分析之苦，斯坦福團隊發布首個開源自進化生物分析AI智能體，實現自動化基因組學發現

生物世界 2026-03-26 16:36:06
0 跟貼 0
MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
除了AGI已來和死亡，我們為黃仁勛重磅訪談總結了50條AI最前沿判斷

新智元 2026-03-25 19:38:54
15 跟貼 15
30位大佬閉門爭論2小時：工業AI如何落地

虎嗅APP 2026-03-26 17:43:08
1 跟貼 1
浙大博士造出「機器人界的F1」：不卷腦子卷身體，要比博爾特跑得快

36氪 2026-03-26 22:37:08
4 跟貼 4
2026，AI硬件找到了爆款方法論

36氪 2026-03-26 10:28:01
0 跟貼 0
英偉達23人夢之隊，讓AI用7天干翻了自己的GPU專家

鈦媒體APP 2026-03-26 17:44:44
1 跟貼 1
巔峰對話AI時代經濟增長：諾獎經濟學家彼得·豪伊特拋出增長七要素，中關村學者激辯人機共生新規則

每日經濟新聞 2026-03-27 00:36:03
0 跟貼 0
黃仁勛：AGI時代已經到來，“龍蝦開公司”不是夢！

財聯社 2026-03-26 23:15:59
0 跟貼 0
驚心動魄的游戲才會更加刺激

小白影視君 2026-03-22 18:56:55
1 跟貼 1
游戲工作室日常，這就是俗稱撈偏門吧，不在三教九流內！

凌霄淺談生活 2026-03-25 16:39:20
0 跟貼 0
爸爸忽悠閨女玩游戲，結果萬萬沒想到，網友：你不喊停讓他一直轉

星沙時報 2026-03-24 16:00:45
1 跟貼 1
夫妻倆玩游戲，老公以為自己很聰明，不料妻子更高一籌！

蒼狗愛搞笑 2026-03-26 16:18:23
1 跟貼 1
只有公司虧錢，小伙才能賺錢，結果隨便開發的破游戲都火了

影中見影 2026-03-22 11:05:17
1 跟貼 1
男人只想虧錢，結果幾個游戲賺的盆滿缽滿，員工都是大聰明

影中見影 2026-03-22 11:03:29
1 跟貼 1
小伙在游戲中靠智慧贏了總裁，走上人生巔峰

影中見影 2026-03-26 11:10:41
1 跟貼 1
時光服P3階段必玩職業大盤點！

一起玩魔獸硬核哥 2026-03-24 10:01:28
1 跟貼 1
老師帶孩子玩游戲，看誰反應快，提高孩子們的反應能力！

生活全全樂 2026-03-25 17:22:00
1 跟貼 1
看似簡單的游戲，實則是一個“物理陷阱”！

小魚小雨 2026-03-26 16:45:34
1 跟貼 1
據說該游戲是鬼谷子留下的，無人能解

大叔探世界 2026-03-25 16:41:08
16 跟貼 16
老公試圖用游戲PUA媳婦，結果萬萬沒想到啊

理想之聲 2026-03-24 14:33:16
16 跟貼 16
“龍蝦”等新型AI智能體出現哪些職業或軟技能是必須具備的？

鳳凰衛視 2026-03-25 15:59:19
0 跟貼 0
紫光股份：公司具備支撐超大規模智算中心建設與大模型產業化落地的綜合能力

每日經濟新聞 2026-03-26 17:49:49
0 跟貼 0
媽媽吐槽自己兒子快30歲還沒工作，整日沉迷游戲晝夜顛倒

觀象視頻 2026-03-24 12:55:04
33 跟貼 33
卡帕西自曝“token焦慮癥”：額度剩著就難受

量子位 2026-03-25 20:15:21
0 跟貼 0
夫妻倆跟丈母娘玩游戲，受傷的總是丈母娘，網友一個鐵頭功一個金剛腿

奇觀趣聞 2026-03-24 11:51:08
0 跟貼 0
陪伴游戲與陪伴睡眠僅是冰山一角，繼關曉彤事件后

夏末的晨溪 2026-03-23 00:07:27
0 跟貼 0
閑來無事玩兩套連招，挑戰高難度不失誤

游手好閑咻咻 2026-03-22 14:09:02
7 跟貼 7
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0
智己LS8開啟預售！25.98萬起，把百萬級線控底盤+千問大模型焊在車上

車市漫談 2026-03-26 22:28:23
0 跟貼 0
廣州：到2030年新一代智能終端、智能體等應用普及率超90%

界面新聞 2026-03-26 18:09:03
0 跟貼 0

CarPlay 史詩級加強，痛點終于解決！

CarPlay 史詩級加強，痛點終于解決！

黑貓科技迷

2026-03-26 23:53:32

官方：CCTV5、央視頻等平臺將轉播國足vs庫拉索

官方：CCTV5、央視頻等平臺將轉播國足vs庫拉索

懂球帝

2026-03-26 17:12:06

江蘇臥床35年女子誕下健康寶寶：患有脊髓性肌萎縮癥，從8個月起便常年臥床；分娩風險高，在孩子足月的情況下進行剖宮產

江蘇臥床35年女子誕下健康寶寶：患有脊髓性肌萎縮癥，從8個月起便常年臥床；分娩風險高，在孩子足月的情況下進行剖宮產

瀟湘晨報

2026-03-26 11:49:57

熱觀察 | 增兵難打通海峽，沖突持續時間或看導彈庫存

熱觀察 | 增兵難打通海峽，沖突持續時間或看導彈庫存

上觀新聞

2026-03-27 03:26:05

和老伴在四川成都住了半年，實話實說：跟網上評價的完全不一樣

和老伴在四川成都住了半年，實話實說：跟網上評價的完全不一樣

楓塵余往逝

2026-03-27 01:46:08

第24日中東戰況：特朗普推遲5日“最后通牒”，伊朗接不接招？

第24日中東戰況：特朗普推遲5日“最后通牒”，伊朗接不接招？

裝甲鏟史官

2026-03-24 10:27:05

唯一不含草酸的蔬菜！比薺菜、韭菜還鮮嫩，鮮嫩營養正當時，好吃

唯一不含草酸的蔬菜！比薺菜、韭菜還鮮嫩，鮮嫩營養正當時，好吃

阿龍美食記

2026-03-24 09:50:48

《冬去春來》直到陶亮亮成新星、徐勝利當編劇，才知沈冉冉最卑微

《冬去春來》直到陶亮亮成新星、徐勝利當編劇，才知沈冉冉最卑微

喜歡歷史的阿繁

2026-03-27 02:15:11

中國最有名的9條家訓，讀懂一條旺家三代，建議收藏反復背誦

中國最有名的9條家訓，讀懂一條旺家三代，建議收藏反復背誦

長風文史

2026-03-25 17:58:23

到東北喝了頓酒，才知道為啥東北白酒走不出東三省，不是價格問題

到東北喝了頓酒，才知道為啥東北白酒走不出東三省，不是價格問題

濤哥美食匯

2026-03-10 09:16:10

身邊的兩個猶太人，把特朗普架上了以色列的賊船

身邊的兩個猶太人，把特朗普架上了以色列的賊船

超級學爸蛋總

2026-03-26 22:10:26

德媒點名對我們進行批評！

南權先生

2026-03-25 15:19:22

玄學提醒：如果一個人還在穿著10年前的衣服，只說明3個問題

玄學提醒：如果一個人還在穿著10年前的衣服，只說明3個問題

洞讀君

2026-03-04 14:30:12

陳賡兒子晚年首次透露：父親這輩子最怕鄧小平，跟周總理卻是過命的交情

陳賡兒子晚年首次透露：父親這輩子最怕鄧小平，跟周總理卻是過命的交情

史海孤雁

2026-03-25 18:42:27

美國標普500股指期貨、納斯達克100股指期貨均下跌0.4%

美國標普500股指期貨、納斯達克100股指期貨均下跌0.4%

每日經濟新聞

2026-03-26 16:14:04

斯特林在費耶諾德表現糟糕，前荷蘭國腳：他不如直接退役吧

斯特林在費耶諾德表現糟糕，前荷蘭國腳：他不如直接退役吧

懂球帝

2026-03-27 00:49:18

緊急通知！明天跑高速的注意！嚴查開始，這些錯一犯就扣分罰款

緊急通知！明天跑高速的注意！嚴查開始，這些錯一犯就扣分罰款

椰青美食分享

2026-03-27 00:46:04

上半年，熬過至暗時刻，否極泰來開始走運的三個星座

上半年，熬過至暗時刻，否極泰來開始走運的三個星座

小晴星座說

2026-03-26 21:57:24

南京男子回家迫不及待抱住妻子，結果家中鸚鵡一開口，讓他崩潰！

南京男子回家迫不及待抱住妻子，結果家中鸚鵡一開口，讓他崩潰！

白云故事

2025-03-14 19:05:07

連烏度卡都對他放棄了！火箭鋒線新援的表現看起來真是太糟糕了？

連烏度卡都對他放棄了！火箭鋒線新援的表現看起來真是太糟糕了？

稻谷與小麥

2026-03-27 00:15:06

AI產業主平臺領航智能+時代

14821文章數 66720關注度

往期回顧全部

科技要聞

美團發布外賣大戰后成績單：虧損超200億

頭條要聞

特朗普：伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普：伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了，然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲！稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普？一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

手機

旅游

健康

教育

家居要聞

傍海而居靜觀蝴蝶海

輕奢堇天府小資情調
智慧生活奢享家居
時空交織空間綺夢

手機要聞

1499 iQOO Z11系列發布丨9020mAh電池 165Hz高刷

旅游要聞

河南開封萬歲山武俠城，游客買300元門票：給妻子拍照被保安阻攔

轉頭就暈的耳石癥，能開車上班嗎？

教育要聞

精準研判，提質增效丨我校召開2026屆畢業生就業工作研判會

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<tfoot id="u84uu"><noscript id="u84uu"></noscript></tfoot><small id="u84uu"></small>

<nav id="u84uu"></nav><noscript id="u84uu"><dd id="u84uu"></dd></noscript>

<nav id="u84uu"><sup id="u84uu"></sup></nav>

<nav id="u84uu"><sup id="u84uu"></sup></nav>

<tr id="u84uu"></tr>

<tr id="u84uu"></tr>

<nav id="u84uu"><sup id="u84uu"></sup></nav>

<tfoot id="u84uu"><noscript id="u84uu"></noscript></tfoot>