337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全球頂尖大模型一夜慘遭血洗!最難測試人類拿滿分,AI第一名得0.2%分

0
分享至


新智元報道

編輯:Aeneas 好困

【新智元導(dǎo)讀】今夜,整個AI圈震動了。全球最難AGI測試ARC-AGI-3一上線,就把全球頂尖AI打到集體失聲,人類滿分通關(guān),最強模型Opus 4.6得分僅0.2%,還不到1%。AI這是一夜被打回「原始人」了。

就在今天,這條消息把整個AI圈給震了。

眾望所歸的,全球唯一尚未飽和的智能體基準(zhǔn)測試ARC-AGI-3出爐了,直接血洗了全球頂尖大模型。

在這個測試中,人類得分100%,AI的得分普遍低于1%。


這個差距,比珠穆朗瑪峰還高。

最慘烈的是,在上一代測試中還能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接現(xiàn)了原形,得分僅為0.2%。


這位曾經(jīng)橫掃各大榜單的「學(xué)霸」,連蒙帶猜都拿不到1分。

這面鏡子,照出了當(dāng)前AI能力中最深的裂縫。


在最近的采訪中,老黃認(rèn)為我們已經(jīng)實現(xiàn)了AGI。但是ARC-AGI-3顯示,或許如今的AI連1%的AGI都沒有實現(xiàn)。


ARC-AGI-3,到底有多變態(tài)

它的前身ARC-AGI-1和ARC-AGI-2,已經(jīng)是AI圈出了名的「魔鬼測試」。


那些測試?yán)铮珹I需要觀察幾個示例,然后推斷出網(wǎng)格變換的規(guī)律,完成新任務(wù)。

聽起來不難?但就是這些看起來像幼兒園連線題的東西,曾經(jīng)讓無數(shù)大模型鎩羽而歸。

而到了ARC-AGI-3,難度直接換了個維度:從「靜態(tài)題」變成了「互動游戲」。


150多個手工設(shè)計的交互式游戲環(huán)境,包含1000多個關(guān)卡。

每個游戲都有自己的內(nèi)在邏輯、隱藏規(guī)則和通關(guān)條件。但沒有任何說明文檔,沒有自然語言提示,沒有人告訴你「左邊的按鈕會開門」或者「收集三個紅色方塊就能過關(guān)」。


AI智能體被丟進去,只能看到當(dāng)前畫面,選擇一個動作,觀察結(jié)果,再決定下一步。

它只能像盲人摸象一樣,一步一步試探,然后在大腦里拼湊出一個「這個世界可能是這樣運作的」的模型。


這正是ARC Prize基金會想測的四件事。

  • 探索:能不能通過主動與環(huán)境互動來獲取關(guān)鍵信息?

  • 建模:能不能把零散的觀察凝聚成一個可以預(yù)測未來狀態(tài)的世界模型?

  • 目標(biāo)獲取:沒有人下達(dá)指令,能不能自己判斷出「我應(yīng)該以什么為目標(biāo)」?

  • 規(guī)劃與執(zhí)行:能不能規(guī)劃出行動路徑,并根據(jù)環(huán)境反饋隨時修正?


「幾何級數(shù)」的羞辱:0.2%是怎么來的?

評分標(biāo)準(zhǔn)同樣殘忍。

ARC-AGI-3的評分不看「有沒有通關(guān)」,而是看「效率」,而且是和人類比效率。

這在AI基準(zhǔn)測試的歷史上,還是頭一回。


受Chollet那篇《論智能的衡量》的啟發(fā),ARC Prize團隊把「智能」操作化為一個轉(zhuǎn)換率:

你從環(huán)境中獲取信息的效率有多高?你把這些信息轉(zhuǎn)化為正確行動的速度有多快?

假設(shè)人類解決這個游戲需要10步,而AI用了100步,那AI的得分是多少?

不是10%,而是1%。

公式是:(人類步數(shù)/AI步數(shù))2。人類10步,AI 100步,那就是(10/100)2=0.01=1%。

如果AI用了200步,這一數(shù)字就是0.25%;500步就是0.04%。


這一下,把AI所有的「蠻力」路都堵死了。

以前AI可以靠窮舉,把所有可能的操作試一遍,總能試出正確路徑。

但在這種評分體系下,你多試一步,分?jǐn)?shù)就斷崖式下跌。

現(xiàn)在,你就知道了Opus 4.6得分只有0.2%的意味——

假設(shè)人類解決某個游戲用了10步,0.2%=0.002,開平方≈0.0447,10÷0.0447≈224步。

這已經(jīng)不是「笨」了,這是在迷宮里原地轉(zhuǎn)圈到天荒地老。

當(dāng)這種差距被如此強烈地展示出來,很多以為AGI近在眼前的人,都震驚了。


350步 vs 兩三下:成績單全景

在正式發(fā)布之前,ARC-AGI-3跑了一輪為期30天的開發(fā)者預(yù)覽。

三款公開游戲從地圖導(dǎo)航到圖案匹配再到水位調(diào)節(jié),題目類型各異,但有一個共同點:人類覺得簡單,AI覺得要命。



1200多名人類玩家參與了測試,完成了3900多場游戲。

大部分人不僅輕松過關(guān),還玩得很開心,有些執(zhí)著的玩家甚至一路「速通」挑戰(zhàn)到了理論最優(yōu)步數(shù)。

人類基線:100%。AI這邊,前沿大模型得分全部低于1%。


預(yù)覽期的冠軍叫StochasticGoose,來自Tufa Labs。

它不是大模型,而是一個基于卷積神經(jīng)網(wǎng)絡(luò)的動作學(xué)習(xí)型智能體,用簡單的強化學(xué)習(xí)來預(yù)測哪些操作會導(dǎo)致畫面變化。最終得分12.58%,已經(jīng)是所有參賽系統(tǒng)里最高的了。

但即便是這個冠軍,在一款調(diào)水位的游戲里,開局也花了將近350步做無效的點擊操作。

350步。人類大概只需要點兩三下就能搞明白的事。

更反直覺的是,排行榜的前三名全是非LLM方案——CNN、基于規(guī)則的狀態(tài)圖探索、無需訓(xùn)練的幀圖搜索。

一個基于CNN的方案,比GPT-5.x系列高出12個百分點以上。而那些接入了前沿大模型的智能體,成績反而經(jīng)常墊底,有的甚至頻繁崩潰。


AI把自己坑了

ARC團隊還發(fā)現(xiàn)一個特別有意思的現(xiàn)象。

AI的主要失敗模式之一是:「以為自己在玩另一個游戲」。

比如,你被蒙上眼睛,扔進一個房間。

你摸到了一個圓形的物體,于是你斷定:「這是個籃球場,我應(yīng)該投籃。」但事實上,你拿的可能是一個西瓜,而房間其實是一個廚房。

AI犯的就是這樣的錯。

它在一個全新的環(huán)境里,看到一些初始的視覺信息,然后迅速給自己「腦補」了一個游戲框架,接著就沿著這個錯誤的假設(shè)瘋狂執(zhí)行計劃,越走越偏,越偏越遠(yuǎn)。


它不會停下來想:等等,我怎么好像一直沒得到正反饋?是不是我的假設(shè)錯了?

因為當(dāng)前的AI,缺乏一種「元認(rèn)知」能力。也就是說,它不知道自己不知道。

這解釋了為什么大模型反而墊底。

參數(shù)量越大、預(yù)訓(xùn)練知識越豐富的模型,越容易把陌生環(huán)境「腦補」成自己見過的東西,然后死磕到底。

而那些輕量級的CNN智能體和圖搜索系統(tǒng),反倒因為沒有「先入為主」的包袱,能老老實實地從環(huán)境反饋中學(xué)習(xí)。


為什么人類能輕松通關(guān)?

ARC團隊在文檔里寫了一句話:「人類不會蠻力行事。他們會構(gòu)建思維模型,檢驗想法,并迅速改進。」

首先第一步,人類會構(gòu)建思維模型。

一個人類玩家面對一個全新游戲時,第一件事不是「瞎點」,而是觀察。幾分鐘之內(nèi),一個粗糙但可用的「世界模型」就建成了。

第二步,人類會檢驗想法。

如果結(jié)果和預(yù)期一致,模型得到強化。如果不一致,模型立即修正。

第三步,人類會迅速改進。錯了就改,改了再試。

這種「探索-建模-驗證-修正」的循環(huán),在人類身上幾乎是本能的。

而AI呢?只是一個「記住了很多答案」的應(yīng)試高手,它的「學(xué)習(xí)」和人類的「學(xué)習(xí)」根本不是一個物種。

人類的學(xué)習(xí)是在線、交互、假設(shè)驅(qū)動的;AI的學(xué)習(xí)是離線、數(shù)據(jù)驅(qū)動、模式匹配的。

ARC-AGI-3沒有任何「題海戰(zhàn)術(shù)」可以覆蓋,它考的是「怎么學(xué)習(xí)」。這恰恰是目前AI最弱的一環(huán)。


目前,這場挑戰(zhàn)賽的獎金池高達(dá)85萬美元,其中70萬美元是給「滿分通關(guān)者」的終極大獎。

參賽者必須完全開源代碼,并且在無網(wǎng)環(huán)境下接受評估。這意味著你不能偷偷調(diào)用云端大模型,不能偷偷聯(lián)網(wǎng)查資料。


和人類這個珠穆朗瑪峰的差距,有AI能克服嗎?

讓我們靜待結(jié)果。

參考資料:

https://x.com/Hesamation/status/2036861818321146306

https://arcprize.org/arc-agi/3

https://docs.arcprize.org/

https://x.com/fchollet/status/2036881543973790004

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
0-0!C羅缺陣,葡萄牙爆冷,全隊無人進球,世界杯爭冠難了

0-0!C羅缺陣,葡萄牙爆冷,全隊無人進球,世界杯爭冠難了

體育知多少
2026-03-29 11:12:26
中國以“豐滿”而出名的3位女星,這身材真的是美的“犯規(guī)”

中國以“豐滿”而出名的3位女星,這身材真的是美的“犯規(guī)”

洞鑒地理
2026-03-29 17:00:58
同學(xué)聚會,班長讓我給遲到的鎮(zhèn)長讓座,下一秒,縣長向我道歉

同學(xué)聚會,班長讓我給遲到的鎮(zhèn)長讓座,下一秒,縣長向我道歉

農(nóng)村情感故事
2026-03-23 07:31:39
善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

有范又有料
2025-12-17 14:54:06
辛納2-0奪冠,ATP積分更新:逼近阿卡,萊赫奇卡升至第15

辛納2-0奪冠,ATP積分更新:逼近阿卡,萊赫奇卡升至第15

老骾體育解說
2026-03-30 07:59:25
我國原創(chuàng)!全球首張?zhí)幏剑涞?>
    </a>
        <h3>
      <a href=環(huán)球網(wǎng)資訊
2026-03-28 16:42:09
八國聯(lián)軍中,有七國主動退還賠款,唯獨一國分文不退,是哪個?

八國聯(lián)軍中,有七國主動退還賠款,唯獨一國分文不退,是哪個?

千秋文化
2025-03-28 10:37:53
我在西班牙呆了8年,說句可能不太好聽的大實話,不要急著反駁我

我在西班牙呆了8年,說句可能不太好聽的大實話,不要急著反駁我

世界圈
2026-03-19 13:02:46
萬萬沒有想到,賴清德的父親賴永都,非但不是日本鬼子他是中國人

萬萬沒有想到,賴清德的父親賴永都,非但不是日本鬼子他是中國人

顧史
2026-03-29 21:31:50
兒子拒絕送飯后續(xù):母親餓到崩潰,孩子撒謊享樂,反被說小題大做

兒子拒絕送飯后續(xù):母親餓到崩潰,孩子撒謊享樂,反被說小題大做

離離言幾許
2026-03-17 17:31:31
遺憾!3次活命機會都沒抓住!張雪峰去世前,倒地30分鐘才被發(fā)現(xiàn)

遺憾!3次活命機會都沒抓住!張雪峰去世前,倒地30分鐘才被發(fā)現(xiàn)

奇思妙想草葉君
2026-03-26 02:36:58
我追公司女同事3年無果后回老家相親,她大哭一場:我的飯票沒了

我追公司女同事3年無果后回老家相親,她大哭一場:我的飯票沒了

千秋文化
2026-03-25 21:46:57
蔡正元進牢,柯文哲判17年,大陸軍方當(dāng)天開口了。

蔡正元進牢,柯文哲判17年,大陸軍方當(dāng)天開口了。

娛樂圈的筆娛君
2026-03-30 00:20:14
一周竟然7次,41歲男子心源性猝死,妻子:勸了很多次,就是不聽

一周竟然7次,41歲男子心源性猝死,妻子:勸了很多次,就是不聽

健康之光
2026-03-28 13:35:08
南航把C919塞進70萬航班里,國產(chǎn)大飛機終于不"打醬油"了

南航把C919塞進70萬航班里,國產(chǎn)大飛機終于不"打醬油"了

硅嶼手記
2026-03-29 12:25:44
馮鞏在人民日報發(fā)文,撕開喜劇圈臟亂內(nèi)幕,點破岳云鵬尷尬處境

馮鞏在人民日報發(fā)文,撕開喜劇圈臟亂內(nèi)幕,點破岳云鵬尷尬處境

林雁飛
2026-03-27 14:42:10
伊朗軍方警告:波斯灣的鯊魚正等待美國軍人,特朗普錯誤決策將導(dǎo)致美軍陷死亡泥潭

伊朗軍方警告:波斯灣的鯊魚正等待美國軍人,特朗普錯誤決策將導(dǎo)致美軍陷死亡泥潭

界面新聞
2026-03-29 22:59:05
CBA一夜3場慘案!上海4殺山西,黑馬7連勝,最新積分:北京跌第6

CBA一夜3場慘案!上海4殺山西,黑馬7連勝,最新積分:北京跌第6

小火箭愛體育
2026-03-29 21:43:03
伊朗首次勸返兩艘中國商船 霍爾木茲規(guī)則正在改變

伊朗首次勸返兩艘中國商船 霍爾木茲規(guī)則正在改變

桂系007
2026-03-27 22:41:10
96歲外婆每天桃酥配糖水,子女急得網(wǎng)上求助,結(jié)果全“翻車”了!

96歲外婆每天桃酥配糖水,子女急得網(wǎng)上求助,結(jié)果全“翻車”了!

叮當(dāng)當(dāng)科技
2026-03-29 15:04:51
2026-03-30 08:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14845文章數(shù) 66723關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

伊朗外交部發(fā)言人:美國提出的建議非常極端且不合理

頭條要聞

伊朗外交部發(fā)言人:美國提出的建議非常極端且不合理

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現(xiàn)!李榮浩喊話單依純侵權(quán)

財經(jīng)要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

親子
數(shù)碼
時尚
本地
旅游

親子要聞

罕見五胞胎全保住,20多名醫(yī)護深夜齊上陣

數(shù)碼要聞

內(nèi)存條價格被曝出現(xiàn)斷崖式下跌,一天跌去百元

來到1980的周也,好毛利蘭

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

旅游要聞

馬達(dá)加斯加姑娘為一朵牡丹“打飛的”,上海把賞花經(jīng)濟做成“城市名片”

無障礙瀏覽 進入關(guān)懷版