337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

所有AI全軍覆沒!學者出2500道題,GPT-5得分25.3%,GPT-4o 2.7%

0
分享至

近日,由全球近 1,000 名頂尖學者打造的 AI 新基準“人類最后一次考試”(HLE,Humanity's Last Exam)的相關論文發在Nature。這套新試卷覆蓋數學、物理、化學、歷史、語言、醫學,每一道題都來自專家自己的研究領域,每一道題都有唯一正確的答案,每一道題也都經過 AI 的經驗,如果哪個 AI 能夠答對,這道題就會作廢。


圖 | 相關論文(來源:Nature)

結果呢?GPT-4o 只拿了 2.7%,Claude 3.5 Sonnet 4.1%,OpenAI 最先進的 o1 模型,8%。發布之后,更強的 Gemini 2.5 Pro 和 GPT-5 也來挑戰,一個 21.6%,一個 25.3%??芍^是全軍覆沒,沒有一個能及格。


圖 | 各個模型的得分(來源:Nature)

之所以出這套新卷子,是因為當前最聰明的大模型在那些曾難倒無數學生的考試里,已經能夠考到 90 分以上。MMLU這樣一個包含 57 個學科、14,000 道題目的超難測試,AI 早就拿到了接近滿分的成績。


圖 | “人類最后一次考試”的數據集創建流程(來源:Nature)

因此,“人類最后一次考試”的推出正是為了跟上和適應 AI 的發展。那么,這套題到底有多難?

有一道題是一張古羅馬墓碑的照片,上面刻著帕爾米拉文字,要求 AI把它翻譯出來。帕爾米拉是古代敘利亞的一個城市,有自己的語言和文字,但是現在已經沒人說了。翻譯這種文字,需要懂古閃米特語、懂考古學、懂歷史學。

另一道題問:蜂鳥身上有一塊特殊的籽骨,位于某塊肌肉的腱膜里,這塊骨頭支撐著幾根肌腱?答案是數字。這就需要 AI 知道蜂鳥的解剖結構,知道那塊骨頭長在哪兒,知道它連著幾根肌腱,差一點都不行。

還有一道題是數學,關于自然變換和余端,里面充滿了Σ、∞、Hom 這些符號。題目本身已經復雜到讓大多數數學系學生直接跳過,但答案要求卻是精確數字。

這套題的設計邏輯很殘酷。每一道題提交之前,都要讓 AI 先做一遍。如果 AI 做對了,這道題就不要。如果 AI 做錯了,才會進入人工審核環節。審核要過兩關,第一關是幾個研究生水平的審稿人提意見,第二關是專家拍板。整個過程下來,1,000 個專家花費幾個月,從幾萬道題里篩選出了這 2,500 道題。

如前所述,MMLU 已經無法滿足當前 AI 的發展。2020 年,MMLU 剛出來的時候,AI 只能考三四十分。到了 2023 年,GPT-4 直接飆到 86 分?,F在,隨便一個開源模型都能考到 90 分以上。當考試分數都溢出來了,如何測量 AI 的聰明程度呢?因此,得換一套更難的新卷子。

“人類最后一次考試”這套基準測試名字聽著嚇人,但并不是字面意思,而是說這是 AI 最后一次可能考過的考試。等到 AI 哪天也在這套題上拿到 90% 的成績,說明它已經具備了專家級的學術能力。

那么,AI 現在可以考多少分?前面提到,最厲害的 AI 也就考試 25% 左右,距離 90% 還有很大的差距。而且更有意思的是,AI 不知道自己不會。研究團隊在讓 AI 回答的同時給出信心分數,結果大多數 AI 明明答錯了,卻給出 80%、90% 的信心。這種過度自信非常危險,如果 AI 用在醫療和法律這些領域,而它不知道自己不知道,就會出現大問題。

還有一點值得注意。研究團隊發現,推理模型在回答這套題的時候,思考時間越長,正確率越高。但當思考時間超過一定長度,正確率反而下降了。這說明不是想得越久就越好,當思考時間超過某個臨界點,可能就是 AI 在瞎繞。這也給 AI 開發提了個醒,以后不能光拼推理時間,還得拼推理效率。

這套題現在已經在網上公開了一部分,網址是 lastexam.ai。任何人都可以去看看這些題目長什么樣,也可以看看自己能不能答對幾道。當然,大部分人可能不太能答對,因為題目本來就是給專家出的。


圖 | 長長的論文作者名字,截圖僅為部分論文作者(來源:Nature)

那么,這道題對于 AI 開發有什么用?

它就好比一面鏡子,可以照出來 AI 到底有幾斤幾兩。以后誰再宣稱自己的 AI 多厲害,先拿這套題目考一下??疾贿^ 25%,就談不上超越人類。透過這套題也可以看清楚 AI 擅長什么和不擅長什么。比如,從目前的得分來看,AI 在數學和計算機上的表現稍好,但是在歷史和語言上表現得慘不忍睹。

這說明 AI 的智能和我們想象得還不一樣。論文里有一句話寫得很克制,AI 在這些專家級問題上表現很差,說明真正的智能還需要深度、需要上下文、需要專業知識。那些覺得 AI 馬上就要統治世界的人,通過嘗試一下這套題目,可能就不再會那么悲觀。


(來源:Nature)

美國德克薩斯 A&M 大學的助理教授阮東(Tung Nguyen,音譯)參與了出題,他寫了 73 道,是貢獻第二多的作者。他告訴媒體,這套題是一種理解 AI 的方法。它就好比是 AI 的入學考試,通過設置這套門檻,我們可以知道 AI 強在哪里、弱在哪里,才能造出更安全、更可靠的技術。同時,也說明了人類的專業知識依然重要。

參考資料:

相關論文https://www.nature.com/articles/s41586-025-09962-4

https://techxplore.com/news/2026-02-dont-panic-humanity-exam-begun.html#google_vignette

排版:胡巍巍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
下飯文化殺死了多少中國胃,一碗米飯的陰謀

下飯文化殺死了多少中國胃,一碗米飯的陰謀

富貴說
2026-03-05 15:56:38
辦事大廳收材料的人,半年都能收1600多萬 省委書記怒了:“吃拿卡要、損害企業利益的,遲早都會被查處”

辦事大廳收材料的人,半年都能收1600多萬 省委書記怒了:“吃拿卡要、損害企業利益的,遲早都會被查處”

大風新聞
2026-03-06 16:46:09
裝了OpenClaw不知道干啥?這30個真實案例,讓你的AI立刻值回票價

裝了OpenClaw不知道干啥?這30個真實案例,讓你的AI立刻值回票價

侃故事的阿慶
2026-03-04 15:01:06
中國女籃拒14分逆轉雙殺巴西獲4連勝 劉禹彤17+7張子宇11分

中國女籃拒14分逆轉雙殺巴西獲4連勝 劉禹彤17+7張子宇11分

醉臥浮生
2026-03-06 21:13:26
火爆!中超揭幕戰爆發大規模沖突:前隊友當場指鼻子互罵!

火爆!中超揭幕戰爆發大規模沖突:前隊友當場指鼻子互罵!

邱澤云
2026-03-06 22:23:35
連民生用水都不能吐槽了嗎?到底是誰在害怕?不去解決問題,解決提問題的?

連民生用水都不能吐槽了嗎?到底是誰在害怕?不去解決問題,解決提問題的?

鹽城市民網
2026-03-06 11:25:34
伊朗封鎖霍爾木茲海峽,五星紅旗成為了“通行證”,美西方國家急了

伊朗封鎖霍爾木茲海峽,五星紅旗成為了“通行證”,美西方國家急了

麓谷隱士
2026-03-06 11:13:24
特朗普威脅:委內瑞拉局勢“已穩”,對古巴采取行動只是時間問題

特朗普威脅:委內瑞拉局勢“已穩”,對古巴采取行動只是時間問題

紅星新聞
2026-03-06 15:06:39
新款阿維塔12官宣 3 月 20 日預售,首發華為乾崑 896 線激光雷達

新款阿維塔12官宣 3 月 20 日預售,首發華為乾崑 896 線激光雷達

大肥皂玩數碼
2026-03-04 22:31:37
1.5億驚天攤牌!克洛普硬剛皇馬,曼聯截胡藏驚天棋局

1.5億驚天攤牌!克洛普硬剛皇馬,曼聯截胡藏驚天棋局

卿子書
2026-03-06 09:18:28
第二個閆學晶?39歲何潔哭訴:辭掉保姆司機,獨自養4娃累到脫相

第二個閆學晶?39歲何潔哭訴:辭掉保姆司機,獨自養4娃累到脫相

離離言幾許
2026-03-05 15:27:36
伊朗生死一線

伊朗生死一線

哲空空
2026-03-06 14:01:53
特殊時點,金正恩再上“最大的船”

特殊時點,金正恩再上“最大的船”

中國新聞周刊
2026-03-06 18:14:11
伊朗啟動“真實承諾4”第23輪軍事行動

伊朗啟動“真實承諾4”第23輪軍事行動

財聯社
2026-03-07 01:59:05
貴州44歲女子返崗途中突發心梗離世,老板派人千里吊唁,逝者丈夫:想當面向老板表示感謝,對方說都是兄弟姐妹不用太聲張

貴州44歲女子返崗途中突發心梗離世,老板派人千里吊唁,逝者丈夫:想當面向老板表示感謝,對方說都是兄弟姐妹不用太聲張

極目新聞
2026-03-05 16:19:29
國家發改委主任:新建、改擴建1000所普通高中,增加學位200萬個以上,支持雙一流高校本科擴招10萬人以上

國家發改委主任:新建、改擴建1000所普通高中,增加學位200萬個以上,支持雙一流高校本科擴招10萬人以上

極目新聞
2026-03-06 18:28:25
虎跳峽落水失蹤男子遺體找到 救援人員:打撈工作正在進行

虎跳峽落水失蹤男子遺體找到 救援人員:打撈工作正在進行

紅星新聞
2026-03-06 18:25:17
事關巴拿馬港口!李嘉誠旗下長和再采取行動,拒絕巴拿馬政府沒收港口公司文件和材料

事關巴拿馬港口!李嘉誠旗下長和再采取行動,拒絕巴拿馬政府沒收港口公司文件和材料

每日經濟新聞
2026-03-06 17:32:16
外媒:澤連斯基向歐爾班發出直接威脅,歐爾班、歐盟回應

外媒:澤連斯基向歐爾班發出直接威脅,歐爾班、歐盟回應

環球網資訊
2026-03-06 22:22:31
伊朗死亡超3000人,庫爾德武裝攻陷西部4城鎮,波斯開啟瘋狂模式

伊朗死亡超3000人,庫爾德武裝攻陷西部4城鎮,波斯開啟瘋狂模式

史政先鋒
2026-03-06 08:49:03
2026-03-07 02:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16370文章數 514718關注度
往期回顧 全部

科技要聞

獨家|除夕加班、毫無黑料!林俊旸無奈離場

頭條要聞

伊朗:決不投降 要伊朗屈服于他們絕對不可能

頭條要聞

伊朗:決不投降 要伊朗屈服于他們絕對不可能

體育要聞

跑了24年,他終于成為英超“最長的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩定

財經要聞

關于經濟、股市等,五部門都說了啥?

汽車要聞

逃離ICU,上汽通用“止血”企穩

態度原創

家居
親子
教育
時尚
軍事航空

家居要聞

暖棕撞色 輕法奶油風

親子要聞

寶寶在海底撈看到別人過生日扭得比服務員小姐姐還起勁

教育要聞

素質教育應該面向每一位學生,既要允許一部分學生跳級

這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

軍事要聞

伊朗:使用無人機擊中美軍"林肯"號航母

無障礙瀏覽 進入關懷版