337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

全球頂尖大模型一夜慘遭血洗!最難測試人類拿滿分,AI第一名得0.2%分

0
分享至


新智元報道

編輯:Aeneas 好困

【新智元導讀】今夜,整個AI圈震動了。全球最難AGI測試ARC-AGI-3一上線,就把全球頂尖AI打到集體失聲,人類滿分通關,最強模型Opus 4.6得分僅0.2%,還不到1%。AI這是一夜被打回「原始人」了。

就在今天,這條消息把整個AI圈給震了。

眾望所歸的,全球唯一尚未飽和的智能體基準測試ARC-AGI-3出爐了,直接血洗了全球頂尖大模型。

在這個測試中,人類得分100%,AI的得分普遍低于1%。


這個差距,比珠穆朗瑪峰還高。

最慘烈的是,在上一代測試中還能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接現了原形,得分僅為0.2%。


這位曾經橫掃各大榜單的「學霸」,連蒙帶猜都拿不到1分。

這面鏡子,照出了當前AI能力中最深的裂縫。


在最近的采訪中,老黃認為我們已經實現了AGI。但是ARC-AGI-3顯示,或許如今的AI連1%的AGI都沒有實現。


ARC-AGI-3,到底有多變態

它的前身ARC-AGI-1和ARC-AGI-2,已經是AI圈出了名的「魔鬼測試」。


那些測試里,AI需要觀察幾個示例,然后推斷出網格變換的規律,完成新任務。

聽起來不難?但就是這些看起來像幼兒園連線題的東西,曾經讓無數大模型鎩羽而歸。

而到了ARC-AGI-3,難度直接換了個維度:從「靜態題」變成了「互動游戲」。


150多個手工設計的交互式游戲環境,包含1000多個關卡。

每個游戲都有自己的內在邏輯、隱藏規則和通關條件。但沒有任何說明文檔,沒有自然語言提示,沒有人告訴你「左邊的按鈕會開門」或者「收集三個紅色方塊就能過關」。


AI智能體被丟進去,只能看到當前畫面,選擇一個動作,觀察結果,再決定下一步。

它只能像盲人摸象一樣,一步一步試探,然后在大腦里拼湊出一個「這個世界可能是這樣運作的」的模型。


這正是ARC Prize基金會想測的四件事。

  • 探索:能不能通過主動與環境互動來獲取關鍵信息?

  • 建模:能不能把零散的觀察凝聚成一個可以預測未來狀態的世界模型?

  • 目標獲取:沒有人下達指令,能不能自己判斷出「我應該以什么為目標」?

  • 規劃與執行:能不能規劃出行動路徑,并根據環境反饋隨時修正?


「幾何級數」的羞辱:0.2%是怎么來的?

評分標準同樣殘忍。

ARC-AGI-3的評分不看「有沒有通關」,而是看「效率」,而且是和人類比效率。

這在AI基準測試的歷史上,還是頭一回。


受Chollet那篇《論智能的衡量》的啟發,ARC Prize團隊把「智能」操作化為一個轉換率:

你從環境中獲取信息的效率有多高?你把這些信息轉化為正確行動的速度有多快?

假設人類解決這個游戲需要10步,而AI用了100步,那AI的得分是多少?

不是10%,而是1%。

公式是:(人類步數/AI步數)2。人類10步,AI 100步,那就是(10/100)2=0.01=1%。

如果AI用了200步,這一數字就是0.25%;500步就是0.04%。


這一下,把AI所有的「蠻力」路都堵死了。

以前AI可以靠窮舉,把所有可能的操作試一遍,總能試出正確路徑。

但在這種評分體系下,你多試一步,分數就斷崖式下跌。

現在,你就知道了Opus 4.6得分只有0.2%的意味——

假設人類解決某個游戲用了10步,0.2%=0.002,開平方≈0.0447,10÷0.0447≈224步。

這已經不是「笨」了,這是在迷宮里原地轉圈到天荒地老。

當這種差距被如此強烈地展示出來,很多以為AGI近在眼前的人,都震驚了。


350步 vs 兩三下:成績單全景

在正式發布之前,ARC-AGI-3跑了一輪為期30天的開發者預覽。

三款公開游戲從地圖導航到圖案匹配再到水位調節,題目類型各異,但有一個共同點:人類覺得簡單,AI覺得要命。



1200多名人類玩家參與了測試,完成了3900多場游戲。

大部分人不僅輕松過關,還玩得很開心,有些執著的玩家甚至一路「速通」挑戰到了理論最優步數。

人類基線:100%。AI這邊,前沿大模型得分全部低于1%。


預覽期的冠軍叫StochasticGoose,來自Tufa Labs。

它不是大模型,而是一個基于卷積神經網絡的動作學習型智能體,用簡單的強化學習來預測哪些操作會導致畫面變化。最終得分12.58%,已經是所有參賽系統里最高的了。

但即便是這個冠軍,在一款調水位的游戲里,開局也花了將近350步做無效的點擊操作。

350步。人類大概只需要點兩三下就能搞明白的事。

更反直覺的是,排行榜的前三名全是非LLM方案——CNN、基于規則的狀態圖探索、無需訓練的幀圖搜索。

一個基于CNN的方案,比GPT-5.x系列高出12個百分點以上。而那些接入了前沿大模型的智能體,成績反而經常墊底,有的甚至頻繁崩潰。


AI把自己坑了

ARC團隊還發現一個特別有意思的現象。

AI的主要失敗模式之一是:「以為自己在玩另一個游戲」。

比如,你被蒙上眼睛,扔進一個房間。

你摸到了一個圓形的物體,于是你斷定:「這是個籃球場,我應該投籃?!沟聦嵣希隳玫目赡苁且粋€西瓜,而房間其實是一個廚房。

AI犯的就是這樣的錯。

它在一個全新的環境里,看到一些初始的視覺信息,然后迅速給自己「腦補」了一個游戲框架,接著就沿著這個錯誤的假設瘋狂執行計劃,越走越偏,越偏越遠。


它不會停下來想:等等,我怎么好像一直沒得到正反饋?是不是我的假設錯了?

因為當前的AI,缺乏一種「元認知」能力。也就是說,它不知道自己不知道。

這解釋了為什么大模型反而墊底。

參數量越大、預訓練知識越豐富的模型,越容易把陌生環境「腦補」成自己見過的東西,然后死磕到底。

而那些輕量級的CNN智能體和圖搜索系統,反倒因為沒有「先入為主」的包袱,能老老實實地從環境反饋中學習。


為什么人類能輕松通關?

ARC團隊在文檔里寫了一句話:「人類不會蠻力行事。他們會構建思維模型,檢驗想法,并迅速改進?!?/p>

首先第一步,人類會構建思維模型。

一個人類玩家面對一個全新游戲時,第一件事不是「瞎點」,而是觀察。幾分鐘之內,一個粗糙但可用的「世界模型」就建成了。

第二步,人類會檢驗想法。

如果結果和預期一致,模型得到強化。如果不一致,模型立即修正。

第三步,人類會迅速改進。錯了就改,改了再試。

這種「探索-建模-驗證-修正」的循環,在人類身上幾乎是本能的。

而AI呢?只是一個「記住了很多答案」的應試高手,它的「學習」和人類的「學習」根本不是一個物種。

人類的學習是在線、交互、假設驅動的;AI的學習是離線、數據驅動、模式匹配的。

ARC-AGI-3沒有任何「題海戰術」可以覆蓋,它考的是「怎么學習」。這恰恰是目前AI最弱的一環。


目前,這場挑戰賽的獎金池高達85萬美元,其中70萬美元是給「滿分通關者」的終極大獎。

參賽者必須完全開源代碼,并且在無網環境下接受評估。這意味著你不能偷偷調用云端大模型,不能偷偷聯網查資料。


和人類這個珠穆朗瑪峰的差距,有AI能克服嗎?

讓我們靜待結果。

參考資料:

https://x.com/Hesamation/status/2036861818321146306

https://arcprize.org/arc-agi/3

https://docs.arcprize.org/

https://x.com/fchollet/status/2036881543973790004

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
CarPlay 史詩級加強,痛點終于解決!

CarPlay 史詩級加強,痛點終于解決!

黑貓科技迷
2026-03-26 23:53:32
官方:CCTV5、央視頻等平臺將轉播國足vs庫拉索

官方:CCTV5、央視頻等平臺將轉播國足vs庫拉索

懂球帝
2026-03-26 17:12:06
江蘇臥床35年女子誕下健康寶寶:患有脊髓性肌萎縮癥,從8個月起便常年臥床;分娩風險高,在孩子足月的情況下進行剖宮產

江蘇臥床35年女子誕下健康寶寶:患有脊髓性肌萎縮癥,從8個月起便常年臥床;分娩風險高,在孩子足月的情況下進行剖宮產

瀟湘晨報
2026-03-26 11:49:57
熱觀察 | 增兵難打通海峽,沖突持續時間或看導彈庫存

熱觀察 | 增兵難打通海峽,沖突持續時間或看導彈庫存

上觀新聞
2026-03-27 03:26:05
和老伴在四川成都住了半年,實話實說:跟網上評價的完全不一樣

和老伴在四川成都住了半年,實話實說:跟網上評價的完全不一樣

楓塵余往逝
2026-03-27 01:46:08
第24日中東戰況:特朗普推遲5日“最后通牒”,伊朗接不接招?

第24日中東戰況:特朗普推遲5日“最后通牒”,伊朗接不接招?

裝甲鏟史官
2026-03-24 10:27:05
唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營養正當時,好吃

唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營養正當時,好吃

阿龍美食記
2026-03-24 09:50:48
《冬去春來》直到陶亮亮成新星、徐勝利當編劇,才知沈冉冉最卑微

《冬去春來》直到陶亮亮成新星、徐勝利當編劇,才知沈冉冉最卑微

喜歡歷史的阿繁
2026-03-27 02:15:11
中國最有名的9條家訓,讀懂一條旺家三代,建議收藏反復背誦

中國最有名的9條家訓,讀懂一條旺家三代,建議收藏反復背誦

長風文史
2026-03-25 17:58:23
到東北喝了頓酒,才知道為啥東北白酒走不出東三省,不是價格問題

到東北喝了頓酒,才知道為啥東北白酒走不出東三省,不是價格問題

濤哥美食匯
2026-03-10 09:16:10
身邊的兩個猶太人,把特朗普架上了以色列的賊船

身邊的兩個猶太人,把特朗普架上了以色列的賊船

超級學爸蛋總
2026-03-26 22:10:26
德媒點名對我們進行批評!

德媒點名對我們進行批評!

南權先生
2026-03-25 15:19:22
玄學提醒:如果一個人還在穿著10年前的衣服,只說明3個問題

玄學提醒:如果一個人還在穿著10年前的衣服,只說明3個問題

洞讀君
2026-03-04 14:30:12
陳賡兒子晚年首次透露:父親這輩子最怕鄧小平,跟周總理卻是過命的交情

陳賡兒子晚年首次透露:父親這輩子最怕鄧小平,跟周總理卻是過命的交情

史海孤雁
2026-03-25 18:42:27
美國標普500股指期貨、納斯達克100股指期貨均下跌0.4%

美國標普500股指期貨、納斯達克100股指期貨均下跌0.4%

每日經濟新聞
2026-03-26 16:14:04
斯特林在費耶諾德表現糟糕,前荷蘭國腳:他不如直接退役吧

斯特林在費耶諾德表現糟糕,前荷蘭國腳:他不如直接退役吧

懂球帝
2026-03-27 00:49:18
緊急通知! 明天跑高速的注意!嚴查開始,這些錯一犯就扣分罰款

緊急通知! 明天跑高速的注意!嚴查開始,這些錯一犯就扣分罰款

椰青美食分享
2026-03-27 00:46:04
上半年,熬過至暗時刻,否極泰來開始走運的三個星座

上半年,熬過至暗時刻,否極泰來開始走運的三個星座

小晴星座說
2026-03-26 21:57:24
南京男子回家迫不及待抱住妻子,結果家中鸚鵡一開口,讓他崩潰!

南京男子回家迫不及待抱住妻子,結果家中鸚鵡一開口,讓他崩潰!

白云故事
2025-03-14 19:05:07
連烏度卡都對他放棄了!火箭鋒線新援的表現看起來真是太糟糕了?

連烏度卡都對他放棄了!火箭鋒線新援的表現看起來真是太糟糕了?

稻谷與小麥
2026-03-27 00:15:06
2026-03-27 04:00:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14821文章數 66720關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

家居
手機
旅游
健康
教育

家居要聞

傍海而居 靜觀蝴蝶海

手機要聞

1499 iQOO Z11系列發布丨9020mAh電池 165Hz高刷

旅游要聞

河南開封萬歲山武俠城,游客買300元門票:給妻子拍照被保安阻攔

轉頭就暈的耳石癥,能開車上班嗎?

教育要聞

精準研判,提質增效丨我校召開2026屆畢業生就業工作研判會

無障礙瀏覽 進入關懷版