337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全球AI智商最新排名公布!還好,沒誰超過愛因斯坦

0
分享至

  

  如果有一天,AI也需要像人類一樣,坐下來參加一場標(biāo)準(zhǔn)的智商測試,結(jié)果會是怎樣?這聽起來像是一個(gè)科幻小說的情節(jié),但一個(gè)名為“Trackingai.org”的趣味項(xiàng)目已經(jīng)將它變成了現(xiàn)實(shí)。

  這個(gè)項(xiàng)目沒有采用那些讓普通人眼花繚亂的技術(shù)術(shù)語和性能跑分,而是設(shè)計(jì)了一套參考人類智商測驗(yàn)的考卷,讓當(dāng)前全球最頂尖的那些大型語言模型,進(jìn)行了一場直接又純粹的“智商”對決。

  這場對決的核心看點(diǎn),早已超越了單純的技術(shù)性能比較。它更像是一場AI界的“最強(qiáng)大腦”挑戰(zhàn)賽,試圖用一種我們最熟悉的方式,來衡量這些數(shù)字大腦到底有多“聰明”。

  

  測試的方法有兩種。第一種是世界認(rèn)可度最高的門薩智商測試,即智商超過130即可加入由全球精英組成的門薩俱樂部。第二種是專門用來對模型性能做測試的智力問答測試集。

  在這場挑戰(zhàn)中,最新發(fā)布的的GPT-5 Pro,谷歌公司潛心研發(fā)的Gemini 2.5 Pro,以及由埃隆·馬斯克主導(dǎo)、以個(gè)性著稱的Grok 4,共同上演了一場精彩的智力大比拼。與此同時(shí),一些曾經(jīng)的王者和意想不到的“黑馬”也在這份榜單上留下了自己的印記,它們的表現(xiàn)同樣充滿了故事性和啟發(fā)性。這不僅僅是關(guān)于數(shù)字和排名的游戲,更是我們觀察AI認(rèn)知能力進(jìn)化,理解它們與人類思維異同的一個(gè)獨(dú)特窗口。

  01

  “御三家”的智商秀

  在這場備受矚目的AI智商測試中,有三位“考生”無疑是全場的焦點(diǎn)。它們分別是OpenAI的GPT-5 Pro、谷歌的Gemini 2.5 Pro,以及xAI公司的Grok 4。這三個(gè)模型代表了當(dāng)今世界閉源商業(yè)大模型的最高水平,它們的每一次更新和發(fā)布都牽動著整個(gè)科技界的神經(jīng)。因此,當(dāng)它們在同一個(gè)智商測試的舞臺上相遇時(shí),所有人都想知道,誰才是那個(gè)最聰明的“大腦”。

  

  讓我們先看看門薩組,排名最高的是谷歌的Gemini 2.5 pro,他的智商達(dá)到了137。

  前文也提到了,在人類的智商評定體系中,130分以上就被認(rèn)為是“極超常”,也就是我們通常所說的天才。而140分以上,更是被視為天才中的佼佼者。愛因斯坦的智商,后世估算大約在160分左右。

  這個(gè)分?jǐn)?shù)表明,Gemini 2.5 Pro在處理復(fù)雜的邏輯推理、抽象思維和模式識別等任務(wù)時(shí),其能力已經(jīng)可以與人類社會中最頂尖的那一小部分人相媲美。它不再是一個(gè)僅僅會模仿和重復(fù)的程序,而是展現(xiàn)出了某種程度的、接近人類高階智慧的解決問題的能力。

  緊接著是OpenAI的o3,但令人匪夷所思的是,o3的性能低于o3 Pro,但是o3的智商卻比o3 Pro還高。作為GPT系列的最新成員,Chat GPT-5,它的智商只有121。

  最后一位主角是埃隆·馬斯克麾下的Grok 4。Grok從一發(fā)布就以其獨(dú)特風(fēng)格和不受限制的回答方式而聞名,被認(rèn)為是一個(gè)極具個(gè)性的AI。它的智商表現(xiàn)自然也備受關(guān)注。測試結(jié)果顯示,Grok 4的智商分?jǐn)?shù)為125分。這個(gè)分?jǐn)?shù)雖然不及前面兩位選手那樣耀眼,但也已經(jīng)超過了人類的平均水平,進(jìn)入了“超常”的范疇。

  在常識中,我們通常認(rèn)為最新的大模型智商應(yīng)該最高。但是Gemini 2.5 Pro是這里面誕生時(shí)間最長的模型,其次是Grok 4,最后是Chat GPT-5。之所以會產(chǎn)生這樣的結(jié)果,很可能是他們的開發(fā)者,在回答這類問題上作出了取舍,我們可以一起來看看他們是如何回答問題的,以便觀察他們的智力水平為何會違反常識。

  

  以此題為例,門薩智商測試是由數(shù)道圖形推理題組成,在第18道測試題中,題目給出了一個(gè)3x3的九宮格,其中八個(gè)格子已經(jīng)填上了由不同線條組成的圖案,要求AI找出規(guī)律,并從六個(gè)選項(xiàng)中選擇一個(gè)正確的圖案填入第九個(gè)空格。根據(jù)規(guī)律,右下角的位置應(yīng)該填C。

  GPT-5 Pro的回答,系統(tǒng)地觀察了九宮格中每一行和每一列的圖案變化,并指出了其中存在的邏輯遞進(jìn)關(guān)系。通過分析已有圖案的模式演變,它推斷出空格處需要一個(gè)什么樣的圖案才能同時(shí)滿足橫向和縱向的規(guī)律。基于這種對整體格局的把握和對細(xì)節(jié)演變的推斷,它最終準(zhǔn)確地找到了那個(gè)能夠補(bǔ)全整個(gè)邏輯拼圖的正確選項(xiàng)。

  

  Gemini 2.5 Pro的回答也同樣正確,但它找到了一條完全不同的解題路徑。它敏銳地識別出了一個(gè)清晰的“旋轉(zhuǎn)對稱”規(guī)律,指出整個(gè)九宮格的第三行,其實(shí)是第一行順時(shí)針旋轉(zhuǎn)90度得到的結(jié)果。基于這個(gè)簡潔而優(yōu)雅的規(guī)則,它輕松地推導(dǎo)出了第三列空格處的圖案,也應(yīng)該是第一列對應(yīng)圖案旋轉(zhuǎn)90度的樣子,從而得出了正確的答案。這展現(xiàn)了其強(qiáng)大的模式識別能力,說明它能夠從不同的維度發(fā)現(xiàn)問題的內(nèi)在邏輯,找到同樣有效但思路迥異的解決方案。

  

  Grok 4的解題過程則顯得更具探索性。它首先全面分析了行和列的各種可能性,試圖從線條的主題(橫線、豎線、交叉線)和數(shù)量等多個(gè)維度尋找規(guī)律。在經(jīng)過一番分析和排除后,它也同樣鎖定了問題的核心——整個(gè)圖形存在一個(gè)90度的旋轉(zhuǎn)對稱關(guān)系。它明確指出第三行是第一行旋轉(zhuǎn)90度的結(jié)果,并以此為依據(jù),將第一行第三列的圖案進(jìn)行旋轉(zhuǎn),最終也準(zhǔn)確地推導(dǎo)出了正確答案C。雖然它的思考路徑看起來更曲折,但這種多角度的嘗試最終也導(dǎo)向了正確的結(jié)果,展現(xiàn)了一種雖然不那么直接、但同樣有效的邏輯推理能力。

  

  通過這個(gè)簡單的例子,我們可以看到,智商分?jǐn)?shù)不僅僅是一個(gè)冰冷的數(shù)字。它背后揭示的是不同AI在“思考”和解決問題時(shí),所采用的路徑、邏輯的嚴(yán)密程度以及最終效果的差異。GPT-5 Pro展現(xiàn)了強(qiáng)大的抽象和系統(tǒng)化思維,Gemini 2.5 Pro表現(xiàn)出高效的模式識別能力,而Grok 4則通過一種更為探索性的分析路徑,最終也成功解決了問題。這場“御三家”的智商秀,清晰地勾勒出了當(dāng)前頂級AI智能水平的梯度。

  而來到數(shù)據(jù)集組,結(jié)果就又變了。這回的排名很符合常識,GPT-5 Pro排名第一,Gemini 2.5 pro排名第二,o3 Pro排名第三,Grok 4排名第四。數(shù)據(jù)集組相對門薩測試來說,難度要高一些,而且測試題的數(shù)量非常多。

  

  02

  “意難平”與“小驚喜”

  在這份AI智商排行榜上,除了最頂端那幾位耀眼的明星,其他一些模型的身影和它們所處的位置,同樣引人深思。它們的故事,或許更能揭示當(dāng)前人工智能發(fā)展的一些深層趨勢和挑戰(zhàn)。其中,最令人感到“意難平”的,莫過于Meta公司的Llama系列。

  Llama系列,尤其是它的后續(xù)版本,曾經(jīng)是開源大模型領(lǐng)域的一面旗幟。當(dāng)OpenAI和谷歌等巨頭在閉源模型的道路上高歌猛進(jìn)時(shí),Meta選擇將自己的強(qiáng)大模型開放給全世界的研究者和開發(fā)者,極大地推動了整個(gè)AI生態(tài)的繁榮。Llama一度被視為開源力量的希望,是能夠與頂級閉源模型一較高下的存在。然而,在這次的智商測試榜單中,Llama 4 Maverick的得分僅為98分。

  

  98分,這個(gè)數(shù)字本身并不算低,它非常接近人類智商的平均值100分。這意味著Llama 4 Maverick已經(jīng)具備了與普通人相當(dāng)?shù)慕鉀Q問題的能力。但問題在于,它的競爭對手們,得分是121、1125,甚至是137。在這樣一個(gè)頂尖選手的賽場上,僅僅達(dá)到“平均水平”是遠(yuǎn)遠(yuǎn)不夠的。昔日的開源王者,如今在純粹的智力較量中,與閉源頂尖模型之間出現(xiàn)了肉眼可見的巨大差距。

  Meta已經(jīng)開始采取行動。近期有大量報(bào)道指出,Meta正在不惜代價(jià),通過提供極具吸引力的薪酬和資源,從谷歌、OpenAI等競爭對手那里積極招攬頂尖的AI研究員和工程師。這場“挖角”大戰(zhàn),正是Meta試圖彌補(bǔ)差距、重振旗鼓的關(guān)鍵一步。Llama的未來表現(xiàn),將在很大程度上取決于這場人才爭奪戰(zhàn)的結(jié)果。

  然而,榜單也并非只有失意者,同樣存在著不容小覷的“小驚喜”。Deepseek R1的測試數(shù)據(jù)停留在5月底,這意味著它所使用的是相對較舊的版本。但在這種情況下,它的智商分?jǐn)?shù)達(dá)到了102分。

  

  102分這個(gè)數(shù)字,本身只是略高于平均水平,但它的意義需要結(jié)合背景來看。它超過了風(fēng)頭正勁的Llama 4 Maverick。更重要的是,作為一個(gè)數(shù)據(jù)更新不算及時(shí)的模型,它所展現(xiàn)出的智力水平,已經(jīng)開始接近那些剛剛發(fā)布、匯集了最新技術(shù)成果的頂尖模型。這匹“黑馬”的存在,傳遞出了一個(gè)非常積極的信號。

  DeepSeek R1的堅(jiān)守和它所取得的成績,有力地說明了一個(gè)道理:在提升AI的“智商”方面,一味地追求最新的數(shù)據(jù)和更大的模型規(guī)模,并非是唯一的路徑。模型的架構(gòu)設(shè)計(jì)、訓(xùn)練方法和算法的優(yōu)化,同樣扮演著至關(guān)重要的角色。一個(gè)設(shè)計(jì)精良、訓(xùn)練高效的模型架構(gòu),即便沒有“吃”進(jìn)最新的知識,也可能在底層的邏輯推理和問題解決能力上,表現(xiàn)得更為出色。

  這就好比一個(gè)學(xué)生,聰明與否不僅取決于他讀了多少本書,更取決于他是否掌握了高效的學(xué)習(xí)方法和清晰的思維框架。DeepSeek R1的表現(xiàn),讓我們看到了另一種可能性,即通過更聰明的算法和架構(gòu),實(shí)現(xiàn)更高的“智商性價(jià)比”。這對于資源相對有限的研究團(tuán)隊(duì)和開源社區(qū)來說,無疑是一個(gè)巨大的鼓舞。它提醒著整個(gè)行業(yè),在追逐規(guī)模和數(shù)據(jù)的同時(shí),不應(yīng)忽視那些來自模型設(shè)計(jì)和訓(xùn)練方法本身的、更為根本的創(chuàng)新。

  03

  這個(gè)測試結(jié)果不用太在意

  這種模擬人類智商測試的方式,其最大的意義在于它建立了一座溝通的橋橋梁。長期以來,評估AI模型性能的指標(biāo),如MMLU、HellaSwag、ARC等,雖然在學(xué)術(shù)界和工業(yè)界非常重要,但對于普通公眾來說,這些縮寫詞匯和它們背后的技術(shù)細(xì)節(jié),就像一堵高墻,讓人難以理解一個(gè)AI到底“聰明”在哪里。而智商這個(gè)概念,早已深入人心。

  當(dāng)我們可以說“這個(gè)AI的智商是137”時(shí),它的智能水平立刻就變得具體、可感、可以比較了。這種通俗化的度量衡,極大地降低了公眾理解AI能力的門檻,讓我們可以用一種更直觀的方式,來討論和思考人工智能的發(fā)展。它告訴我們,AI的“聰明”不再僅僅是程序員代碼跑分的結(jié)果,而是實(shí)實(shí)在在地體現(xiàn)在了解決那些需要我們動腦筋的謎題和問題的能力上。

  

  大模型的智商能超過130,這不僅僅意味著AI在處理標(biāo)準(zhǔn)化測試題上的能力越來越強(qiáng),更深層次地,它標(biāo)志著AI的認(rèn)知能力正在發(fā)生質(zhì)的飛躍。它們正在從單純的信息檢索和模式匹配,進(jìn)化到能夠進(jìn)行復(fù)雜的邏輯推理、抽象思維和多步驟問題解決。它們在模仿人類智慧的道路上,已經(jīng)走得非常遠(yuǎn),甚至在某些方面,開始展現(xiàn)出超越普通人類的能力。

  Trackingai.org也在官網(wǎng)表示,對大模型做智商測試更多是出于娛樂,因?yàn)榇竽P偷闹巧蹋⒉荒芡耆韧谌祟惖闹巧獭?/strong>

  因?yàn)橹巧虦y試主要衡量的是其中“聚合性思維”的部分,即在給定規(guī)則和信息下,通過邏輯演繹找到唯一正確答案的能力。這恰好是當(dāng)前大型語言模型所擅長的領(lǐng)域——它們通過對海量數(shù)據(jù)的學(xué)習(xí),精通于模式識別和邏輯關(guān)聯(lián)。

  然而,人類智能還包含與之相對的“發(fā)散性思維”,即創(chuàng)造力、想象力和直覺,以及更為復(fù)雜的社會情感智能和具身認(rèn)知(通過與物理世界互動獲得的智能)。這些是當(dāng)前AI架構(gòu)難以觸及的。因此,AI的高智商,更準(zhǔn)確地說,是其作為“邏輯分析引擎”性能卓越的體現(xiàn),而非其擁有了與人類相似的完整心智。

  無論如何,這場測試的結(jié)果都清晰地揭示了一個(gè)趨勢:AI正成為人類有史以來最強(qiáng)大的認(rèn)知工具。當(dāng)一個(gè)系統(tǒng)的邏輯處理能力已經(jīng)達(dá)到甚至超越人類天才的水平時(shí),我們必須重新思考人機(jī)協(xié)作的范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗公布對執(zhí)行營救美軍機(jī)開火畫面

伊朗公布對執(zhí)行營救美軍機(jī)開火畫面

環(huán)球網(wǎng)資訊
2026-04-07 14:32:39
孩子厭學(xué)喊累:最好的辦法不是物質(zhì)獎勵、不是去補(bǔ)習(xí)班,而是……

孩子厭學(xué)喊累:最好的辦法不是物質(zhì)獎勵、不是去補(bǔ)習(xí)班,而是……

新東方家庭教育
2026-04-07 15:30:33
曝小玥兒日本歸來第一次來月事,S家人不教她,網(wǎng)友直呼無底線!

曝小玥兒日本歸來第一次來月事,S家人不教她,網(wǎng)友直呼無底線!

古希臘掌管松餅的神
2026-04-06 21:35:36
王寶強(qiáng)和女友開京牌大G到青島,馮清人高馬大,襯得寶強(qiáng)像小嬌夫

王寶強(qiáng)和女友開京牌大G到青島,馮清人高馬大,襯得寶強(qiáng)像小嬌夫

八怪娛
2026-04-07 15:02:12
600130,申請撤銷退市風(fēng)險(xiǎn)警示!

600130,申請撤銷退市風(fēng)險(xiǎn)警示!

證券時(shí)報(bào)e公司
2026-04-07 19:31:25
每吃一次,猝死就快一步?醫(yī)生:這4物是心源性猝死的“催化劑”

每吃一次,猝死就快一步?醫(yī)生:這4物是心源性猝死的“催化劑”

健康科普365
2026-04-03 22:00:07
特朗普再次推遲對伊朗的最后通牒

特朗普再次推遲對伊朗的最后通牒

參考消息
2026-04-06 10:27:04
現(xiàn)役球員進(jìn)NBA名人堂的概率!4人100%,哈登99%,利拉德出乎意料

現(xiàn)役球員進(jìn)NBA名人堂的概率!4人100%,哈登99%,利拉德出乎意料

麥子的籃球故事
2026-04-07 17:44:51
陳光標(biāo)變現(xiàn)大勞捐千萬后續(xù)!曝嫣然已退款,原因炸裂,果然有貓膩

陳光標(biāo)變現(xiàn)大勞捐千萬后續(xù)!曝嫣然已退款,原因炸裂,果然有貓膩

億通電子游戲
2026-04-07 17:54:26
打虎!王文靈被查

打虎!王文靈被查

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-07 17:50:58
1920年,一位俄羅斯醫(yī)生突發(fā)奇想,把猴子的睪丸,植入到老頭體內(nèi)

1920年,一位俄羅斯醫(yī)生突發(fā)奇想,把猴子的睪丸,植入到老頭體內(nèi)

歲月有情1314
2026-04-07 07:26:46
民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨(dú)大政黨

李橑在北漂
2026-04-02 10:22:26
賀子珍多年后才知毛岸英犧牲真相,當(dāng)場哭喊:那是我親生兒子啊

賀子珍多年后才知毛岸英犧牲真相,當(dāng)場哭喊:那是我親生兒子啊

老杉說歷史
2026-03-21 17:38:19
美飛行員36小時(shí)極限逃生: 藏身海拔2000米巖縫發(fā)求救信號 伊朗:發(fā)現(xiàn)一美兵遺體

美飛行員36小時(shí)極限逃生: 藏身海拔2000米巖縫發(fā)求救信號 伊朗:發(fā)現(xiàn)一美兵遺體

紅星新聞
2026-04-06 13:44:12
最具影響力的漫畫家,尾田僅排第四,鳥山明第二,第一永遠(yuǎn)的神

最具影響力的漫畫家,尾田僅排第四,鳥山明第二,第一永遠(yuǎn)的神

動漫小天堂
2026-04-06 11:10:36
看來美帝是真的準(zhǔn)備打地面戰(zhàn)爭了

看來美帝是真的準(zhǔn)備打地面戰(zhàn)爭了

仰望星空的一粒沙子
2026-04-04 19:18:21
2名飛行員和5億美元哪個(gè)更重要?

2名飛行員和5億美元哪個(gè)更重要?

山河路口
2026-04-06 12:12:25
楊振寧去世5個(gè)月后,49歲翁帆現(xiàn)狀:剪了頭發(fā)染了色,仍獨(dú)居國內(nèi)

楊振寧去世5個(gè)月后,49歲翁帆現(xiàn)狀:剪了頭發(fā)染了色,仍獨(dú)居國內(nèi)

照見古今
2026-03-26 19:06:28
搜救變“送寶”!美軍C130殘骸里,竟挖出AH6“小鳥”核心機(jī)密

搜救變“送寶”!美軍C130殘骸里,竟挖出AH6“小鳥”核心機(jī)密

安安說
2026-04-06 14:55:17
分手29年后,肖戰(zhàn)成國乒副總教練,而她嫁給富商,已是大學(xué)教授

分手29年后,肖戰(zhàn)成國乒副總教練,而她嫁給富商,已是大學(xué)教授

做一個(gè)合格的吃瓜群眾
2026-04-06 10:16:48
2026-04-07 20:47:00
直面派 incentive-icons
直面派
講述值得講述的真實(shí)故事
258文章數(shù) 237關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

美軍拯救飛行員差一點(diǎn)失敗 從40英里外用攝像頭對準(zhǔn)他

頭條要聞

美軍拯救飛行員差一點(diǎn)失敗 從40英里外用攝像頭對準(zhǔn)他

體育要聞

官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財(cái)經(jīng)要聞

10萬億財(cái)政轉(zhuǎn)移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

家居
藝術(shù)
手機(jī)
數(shù)碼
房產(chǎn)

家居要聞

雅致愜意 感知生活之美

藝術(shù)要聞

美麗風(fēng)光看不盡

手機(jī)要聞

傳聞蘋果闊折疊命名iPhone Ultra,曝國內(nèi)同品類新機(jī)也考慮跟進(jìn)

數(shù)碼要聞

1999元就能買Mini LED電視 海信Vidda小鋼炮S Mini開售

房產(chǎn)要聞

重磅!三亞擬出安居房新政!

無障礙瀏覽 進(jìn)入關(guān)懷版