337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

能否為人工智能設計出更好的智商測試?

0
分享至




人工智能(AI)領域的時髦術語往往相當有技術含量:感知機、卷積、變換器。這些詞匯指的都是特定的計算方法。近來,有一個術語聽起來很普通,卻蘊含著革命性的意義,那就是“時間線”。如果向AI領域的某人詢問他們的“時間線”,他們會告訴你預計何時能實現AGI,即通用人工智能,其定義有時可解讀為一種能在大多數任務中媲美人類能力的AI技術。隨著計算機速度的提升、算法的優化以及數據的積累,AI的成熟度日益提高,實現的時間線也在縮短。近期,包括OpenAI、Anthropic和谷歌DeepMind在內的大型AI實驗室的負責人都表示,預計將在幾年內實現AGI。 能像人類一樣思考的計算機系統將實現緊密的人機協作。雖然實現AGI的近期和長期影響尚不明確,但可以預見的是,

它將在經濟、科學發現和地緣政治領域引發變革。如果AGI進一步發展為超級智能,它甚至可能動搖人類在食物鏈頂端的地位。因此,我們必須追蹤這項技術的發展進程,為即將到來的劇變做好準備。衡量AI的能力能讓我們據此制定法律法規、確立工程目標、建立社會規范、調整商業模式,并從更廣泛的層面去理解“智能”。

衡量任何智力能力都絕非易事,衡量AGI則面臨著特殊的挑戰,部分原因是人們對AGI的定義存在嚴重分歧。有些人通過它在基準測試中的表現來定義它,有些人則依據其內部工作原理、經濟影響,甚至是基于一種“感覺”來定義。因此,衡量AI智能的第一步是就這個總體概念達成共識。

另一個問題是,AI系統相較于人類的優勢和劣勢不同。因此,即使將AGI定義為“在大多數任務中能媲美人類的AI”,我們依然可能會爭論哪些任務真正重要,以及應以哪部分人類表現作為標準。直接比較非常困難。“我們正在構建的是‘異形’智能體。”多倫多大學榮休教授、因在AI領域的杰出貢獻而獲得諾貝爾獎的杰弗里·辛頓(Geoffrey Hinton)說。

盡管如此,研究人員并不氣餒,而是積極設計和提出各種測試,以期能對我們的未來提供一些洞見。但有個問題依然存在:這些測試能否清楚地說明我們是否已經實現了長期追求的AGI目標?

智能的種類是無限的,即使人類的智能也是如此。智商測試包含了一系列涉及記憶、邏輯、空間處理、數學和詞匯等內容的半關聯性任務,可提供一種概括性的統計。從不同維度來看,個體在每項任務中的表現都依賴于流體智力(即實時推理能力)和晶體智力(即應用所學知識或技能的能力)的混合。

對于高收入國家的人群而言,智商測試往往能預測學業成就、事業成功等關鍵結果。但我們不能在AI上套用對人類的這種假設,因為AI的能力組合方式與人類截然不同。讓機器完成為人類設計的智商測試,其結論可能與測試結果對人類的意義大相徑庭。

此外,還有許多智力類型往往不在智商測試評估范圍內,甚至當前大多數AI基準測試也很難對其進行衡量。這類智力包括社會智力(例如進行心理推斷的能力)與肢體智力(例如理解物體與作用力之間因果關系的能力,或協調身體適應環境的能力)。這兩類能力對人類應對復雜情境至關重要。

對人、動物或機器進行智力測試很困難。我們必須警惕假正例與假負例。受試者有可能僅憑投機取巧等手段顯得很聰明,著名的“聰明漢斯”就是典型案例:這匹馬表面上“會算數”,實際上依靠的是對非語言線索做出的反應;反之,測試對象也可能因不熟悉測試流程或存在認知障礙而顯得愚鈍。


智力概念的界定之所以困難,還因為它會隨地域和時代變化而變遷。佐治亞理工學院心理學助理教授安娜·伊萬諾娃(Anna Ivanova)指出:“社會對智力的含義及其價值維度的認知正在發生深刻轉變。”例如:在百科全書和互聯網出現之前,“大腦中儲備大量知識被視為智慧的重要標志”;而今,我們越來越重視流體智力,而非晶體智力。

多年來,人們曾多次針對機器設立大規模挑戰,號稱需要擁有媲美人類的智慧才可完成這些挑戰。1958年,三位頂尖AI研究者寫道:“國際象棋是智力游戲的巔峰......如果能制造出成功的國際象棋機器,便意味著觸及了人類智能的核心。”他們承認,理論上有這樣的可能,即這種機器“或許能發現某種如同車輪之于人腿的東西,其運作方式與人類迥異,但本身卻極其有效且可能非常簡單”。但他們仍堅持認為“目前此類突破未見端倪”。然而1997年,IBM“深藍”計算機實現了這種突破,它擊敗了當時的國際象棋世界冠軍加里·卡斯帕羅夫(Garry Kasparov),但它卻連玩跳棋這種通用智能都不具備。


1950年,艾倫·圖靈提出了“模仿游戲”,其中一種游戲要求機器在文字對話中以假亂真地模仿人類。“這種問答方式似乎適合展現我們想要囊括的任何人類智慧領域。”他寫道。隨后數十年里,通過圖靈測試曾被視為近乎不可能的任務,這也是衡量AGI的重要指標。

然而2025年,研究人員報告稱,在分別與真人和OpenAI的GPT-4.5進行5分鐘對話,然后判斷哪個是人類時,人們選擇AI的情況高達73%。但與此同時,頂級語言模型卻常犯人類幾乎不會犯的錯誤,比如數不清“strawberry”中字母“r”出現了幾次。這些系統更像是車輪,而非擁有通用能力的“人腿”。因此,科學家仍在尋找無法被技術取巧的真正類人智能的衡量標準。

當前有一項備受矚目的AGI基準測試盡管并不完美,但已成為衡量大多數前沿模型的重要試金石。2019年,時任谷歌軟件工程師、現為AI創業公司Ndea創始人的弗朗索瓦·肖萊(Fran?ois Chollet)發表了題為《論智能的衡量》(On the Measure of Intelligence)的論文。多數人認為智能等同于能力,通用智能等同于一系列廣泛的能力。但肖萊對智能的定義更具體,認為智能只有一個至關重要的特定能力,即輕松獲得新能力的能力。支撐ChatGPT等工具的大語言模型之所以能在眾多基準測試中表現出色,完全依賴于使用數萬億書面詞語對其進行的訓練。遇到與訓練數據差異很大的情況時,這些模型往往難以適應且表現失常。依照肖萊的標準,它們仍缺乏智能。

為配合論文發布,肖萊創建了一個新的AGI基準測試,名為“抽象與推理語料庫”(ARC)。其中包含數百道視覺謎題,每道題都配有若干示例和一道測試題。示例包含輸入網格和輸出網格,其中填滿了彩色方塊;測試題則只有一個輸入網格。要求是從示例中學習規律,并根據此規律完成測試題,生成新的輸出網格。


ARC側重流體智力。“解決任何問題都需要一定的知識儲備,然后實時重組這些知識。”肖萊向我解釋道。要確保該測試不考察記憶性知識而考察知識重組能力,訓練謎題應提供所需的全部“核心先驗知識”,包括對象連貫、對稱性、計數等幼童已具備的常識。接受過這類訓練和少量示例后,你能否精準調用相關知識來解決全新謎題?人類能輕松完成大部分題目,但AI系統舉步維艱,至少在初期如此。最終,OpenAI開發的o3推理模型的某個版本超越了人類受試者的平均水平,正確率達到88%,但每道題的計算成本預估高達2萬美元(OpenAI從未公開發布該模型,故未將其計入排行榜)。

2025年3月,肖萊推出了難度升級的新版本,名為“ARC-AGI-2”,由其新設立的非營利組織ARC Prize基金會監管。該機構表示:“我們的使命是通過持久性基準測試,成為實現AGI的北極星。”ARC Prize設立了百萬美元獎金,主要獎勵那些訓練出符合以下條件的AI的團隊:在12小時內使用4個圖形處理器,解答120道新謎題的準確率達到85%。新謎題比2019年版本更復雜,有時需要應用多種規則、進行多步推理或解讀符號含義。目前人類平均正確率為60%,而截至本文撰稿時,最佳AI的正確率僅約16%。


AI專家們肯定了ARC的價值,但也指出了它的局限。伊利諾伊大學厄巴納-香檳分校計算機科學家尤佳軒認為,ARC是一種“非常好的理論基準測試”,能揭示算法的運作機制,但“未充分考慮AI應用中的現實復雜性,比如社會推理任務”。

圣塔菲研究所的計算機科學家梅拉尼·米切爾(Melanie Mitchell)指出,該測試“捕捉到了人類某些有趣的能力”,例如,從少量示例中提取新規律的能力。但鑒于其任務形式不夠多樣化,她表示:“我不認為這能涵蓋人們所說的通用智能。”

盡管存在這些局限,ARC-AGI-2或許仍是當前先進AI與普通人類表現差距最大的基準測試,使其成為了衡量AGI進步的重要標尺。更重要的是,ARC仍在持續發展。肖萊表示AI可能在一兩年內就能在當前測試中達到人類水平,他已經在開發ARC-AGI-3。每個任務都將如同微型電子游戲,參與者需要理解相關概念、探索可行操作并最終達成目標。


研究人員也在不斷推出新的基準來探究通用智能的不同維度,每個新基準同時也揭示了我們認知版圖中尚未填補的空白。

最近,一篇論文介紹了一種名為“General-Bench”的基準測試,它使用了文本、圖像、視頻、音頻和3D模型5種輸入模態,可通過數百項任務檢驗AI系統的識別、推理、創造、倫理判斷能力,以及其他理解和生成資料的能力。理想的AGI應當展現協同效應,在各項任務中融會貫通多種能力,從而超越最頂尖的AI專家。但目前還沒有任何AI能同時駕馭5種模態。

其他基準測試還涉及虛擬世界。2025年4月,《自然》雜志上的一篇論文介紹了谷歌DeepMind開發的通用算法“Dreamer”,該算法已學會執行超過150項任務,包括玩街機游戲、操控虛擬機器人、在《我的世界》游戲中獲取鉆石等。這些任務要求具備感知、探索、長期規劃和交互能力,但尚不清楚Dreamer處理現實世界復雜問題的能力如何。該論文的第一作者丹尼亞爾·哈夫納(Danijar Hafner)指出,操控電子游戲角色比操控真實機器人簡單,“游戲角色永遠不會摔得臉著地”。這些任務還缺乏與人類的深度互動,以及結合手勢和環境的語言理解能力。他說:“理想情況下,你對家務機器人說‘把碗碟放進那個櫥柜,不是那邊’,同時用手指向(某個櫥柜),它就能理解。”哈夫納表示其團隊正在努力提升模擬和任務的真實度。

除現有基準測試外,專家們對于理想示范形態的爭論由來已久。早在1970年,AI先驅馬文·明斯基就對《生活》(Life)雜志預言:“未來3到8年,我們將制造出具備普通人類水平的通用智能機器。我指的是一臺能閱讀莎士比亞、能給汽車上潤滑油、玩得轉辦公室政治、會說笑話、會吵架的機器。”如果能對“辦公室政治”進行可操作化定義,這套任務組合倒不失為不錯的起點。

2024年《工程》(Engineering)雜志上發表的一篇論文提出了“通”測試。該測試將為虛擬人物隨機分配任務,不僅檢驗其理解能力,更評估其價值判斷。例如,AI可能突然遇到掉在地上的錢或正在哭的嬰兒,研究人員則可借此機會觀察AI如何應對。該論文的作者認為,基準測試應評估AI自主探索和設定目標的能力、與人類價值觀的相符情況、因果理解能力、虛擬/實體軀體操控能力。此外,基準測試還應能生成無限多個涉及動態實物和社會交互的任務。

明斯基等其他學者則提議,需要進行不同程度的現實世界交互測試,例如在陌生廚房泡咖啡、將10萬美元增值至百萬美元、在大學校園就讀并獲取學位等。遺憾的是,此類測試中有一些既難以實施又存在現實風險。例如,AI可能通過詐騙手段來賺取百萬資金。

筆者曾問過諾貝爾獎得主辛頓,AI最難掌握哪些技能。“我過去認為,理解他人心思這類能力會是其瓶頸。”他說,“但它已經具備了一些這種能力,甚至已經能進行欺騙。”(最近一項多所大學的聯合研究顯示,在誘導受試者選擇錯誤答案方面,大語言模型已超越人類。)他繼續說:“所以,我現在的答案是管道維修。修老房子的管道需要探入狹窄的縫隙,還要以特定方式擰緊零件。我認為至少未來10年內AI無法完成這項任務。”


AI是否需要能執行涉及實物的任務才算是AGI,學界對此始終存在爭論。谷歌DeepMind一篇關于衡量AGI級別的論文持否定立場,并主張這類智能只需通過軟件展現。他們認為,實物操作能力是AGI的附加能力而非必要能力。

圣塔菲研究所的米切爾提出,我們應當測試AI承擔整個工作崗位任務所需的能力。她指出,AI雖然能完成人類放射科醫生的許多任務,但無法完全取代人類醫生,因為這份工作包含大量連醫師本人都未意識到的隱性工作,比如決定要做什么以及應對突發狀況等。“現實世界中有可能發生的意外情況實在太多了。”她說。某些掃地機器人因未接受過識別狗糞便的訓練,會將狗糞便抹滿地毯。“在構建智能系統時,有太多此類無法預見的突發狀況。”

部分科學家表示,我們不僅要觀察系統表現,更需探查其內部運作機制。加拿大不列顛哥倫比亞大學計算機科學家杰夫·克倫(Jeff Clune)聯合發表的論文指出,深度學習常導致AI系統形成“割裂的糾纏表征”(fractured entangled representations),基本上就是大量臨時拼湊的捷徑機制。而人類則善于尋找普適且合理的通用規律。某個AI系統或許能在特定測試中表現得很智能,但如果不了解其內部機制,它在新場景下應用錯誤的規則可能引發意外后果。

作家劉易斯·卡羅爾(Lewis Car-roll)曾描寫過這樣一個角色:他使用“一英里代表一英里”比例尺的全國地圖,最終索性將整個國家本身當作地圖。在智力測試領域,要精準地體現個體在特定情境中的表現,最佳方式就是將其置于這個情境中進行檢驗。按照這一邏輯,對AGI的有佳測試或許是讓機器人完整度過人類的一生,例如將孩子撫養成年。

“最終,檢驗AI能力的真實標準是它們在現實世界中的作為。”克倫告訴我,“因此相較于基準測試,我更關注(AI)有了哪些科學發現、自動完成了哪些工作。如果人類雇用AI而非人類來完成工作,并且堅持執行這一決定,這本身就是對AI能力的強烈認可。”但有些時候,在使用AI替代人類之前,我們希望預先了解其表現水平。

我們或許永遠無法就AGI或“像人一樣”的AI的定義達成共識,也無法確定怎樣證實它就是AGI。隨著AI技術的進步,機器仍會犯錯,人們也總會借此宣稱AI并非真正的智能。最期,在一個專題討論會上,主持人問到了佐治亞理工學院心理學家伊萬諾娃關于AGI時間線的問題。“有位學者認為它永遠不可能實現,”她告訴我,“而另一位則表示它已然出現。”因此,“AGI”這個術語或許只是表達目標或擔憂的一個便捷符號,其實際價值可能有限。在大多數情況下,在提及這個詞時,我們都該為其加上星號注釋,標明具體的基準測試。

文章來源于 悅智網 ,作者 Matthew Hutson


邀約|AMD 技術日 :Physical AI - 機器人前沿(4.2,北京)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
曝張雪峰猝逝,知情人曝其在跑步機上心梗,更多細節曝光!

曝張雪峰猝逝,知情人曝其在跑步機上心梗,更多細節曝光!

古希臘掌管松餅的神
2026-03-24 19:16:17
美軍空襲伊拉克

美軍空襲伊拉克

第一財經資訊
2026-03-24 16:49:10
疑似張雪峰送醫照曝光!躺擔架仍穿著跑步鞋,上午還進行了直播

疑似張雪峰送醫照曝光!躺擔架仍穿著跑步鞋,上午還進行了直播

萌神木木
2026-03-24 20:44:21
史詩級反轉!以色列空襲釀大禍,阿拉伯世界突然聯手封死退路

史詩級反轉!以色列空襲釀大禍,阿拉伯世界突然聯手封死退路

安安說
2026-03-24 11:43:09
伊朗公布戰爭結束條件,慫了!賠償都不要了!

伊朗公布戰爭結束條件,慫了!賠償都不要了!

廖保平
2026-03-24 15:03:15
央行:2026年3月25日,中國人民銀行將以固定數量、利率招標、多重價位中標方式開展5000億元MLF操作,期限為1年期

央行:2026年3月25日,中國人民銀行將以固定數量、利率招標、多重價位中標方式開展5000億元MLF操作,期限為1年期

每日經濟新聞
2026-03-24 17:05:05
特朗普宣布停止攻擊五分鐘前,已有人15億美元做多美股

特朗普宣布停止攻擊五分鐘前,已有人15億美元做多美股

21世紀經濟報道
2026-03-24 17:47:05
315曝光10個最毒食黑名單!第8個你幾乎天天在吃,看完脊背發涼

315曝光10個最毒食黑名單!第8個你幾乎天天在吃,看完脊背發涼

現代小青青慕慕
2026-03-24 08:13:54
心梗去世的人越來越多?專家提醒:沒事寧可做家務,也別做這8事

心梗去世的人越來越多?專家提醒:沒事寧可做家務,也別做這8事

敘說醫療健康
2026-03-12 22:00:05
外交部:日方應以實際行動維護中日關系政治基礎

外交部:日方應以實際行動維護中日關系政治基礎

界面新聞
2026-03-24 15:57:25
破防!小縣城殯儀館大屏流出,中年人扎堆離世,網友:還爭什么?

破防!小縣城殯儀館大屏流出,中年人扎堆離世,網友:還爭什么?

川渝視覺
2026-03-23 19:26:44
卡塔爾正式宣布暫停跟中國合同,就是說卡塔爾不給中國提供天然氣

卡塔爾正式宣布暫停跟中國合同,就是說卡塔爾不給中國提供天然氣

福建平子
2026-03-24 16:53:02
王毅同伊朗外長阿拉格齊通電話

王毅同伊朗外長阿拉格齊通電話

界面新聞
2026-03-24 22:10:59
18歲男大學生患“桃花癲”,一周揮霍5萬元,半夜頻繁打電話騷擾同學,幻想神秘力量助自己進行偉大發明,經電休克 “重啟” 大腦治療后好轉

18歲男大學生患“桃花癲”,一周揮霍5萬元,半夜頻繁打電話騷擾同學,幻想神秘力量助自己進行偉大發明,經電休克 “重啟” 大腦治療后好轉

觀威海
2026-03-24 10:43:03
多名網友被美團刪除手機里幾百張照片,美團道歉稱承擔全部費用和損失

多名網友被美團刪除手機里幾百張照片,美團道歉稱承擔全部費用和損失

Vista氫商業
2026-03-24 18:09:03
國際油價23日大跌逾10%

國際油價23日大跌逾10%

證券時報
2026-03-24 07:22:02
愛上中國!中超最大牌外援妻子:中國人是我見過最有素質和教養的

愛上中國!中超最大牌外援妻子:中國人是我見過最有素質和教養的

邱澤云
2026-03-24 21:28:50
伊朗最高領袖顧問重申結束戰爭條件

伊朗最高領袖顧問重申結束戰爭條件

界面新聞
2026-03-24 15:44:17
張雪峰生前談及死亡!希望去世了能上熱搜,留給女兒上億存款

張雪峰生前談及死亡!希望去世了能上熱搜,留給女兒上億存款

萌神木木
2026-03-24 22:04:00
上海一男子每天3包煙,持續幾十年!醫生:全身沒一根血管是好的

上海一男子每天3包煙,持續幾十年!醫生:全身沒一根血管是好的

上觀新聞
2026-03-24 13:32:07
2026-03-24 23:03:00
EETOP半導體社區 incentive-icons
EETOP半導體社區
國內著名的電子工程師社區
7399文章數 15637關注度
往期回顧 全部

科技要聞

年僅41歲,教育名師張雪峰猝然離世

頭條要聞

外媒披露特朗普"急轉彎"原因:盟友和海灣國家發出警告

頭條要聞

外媒披露特朗普"急轉彎"原因:盟友和海灣國家發出警告

體育要聞

NBA最強左手射手,是個右撇子

娛樂要聞

張雪峰經搶救無效不幸去世 年僅41歲

財經要聞

特朗普再TACO 可以押注伊朗局勢降級?

汽車要聞

尚界Z7雙車預售22.98萬起 問界M6預售26.98萬起

態度原創

數碼
親子
教育
藝術
公開課

數碼要聞

阿里發布旗艦CPU玄鐵C950 倪光南:RISC-V正從“備選”走向“主流”

親子要聞

百年老園也關停,佛山2年40所幼兒園悄悄告別...

教育要聞

數學思維!手撕任意數立方根 #數學思維 #數學學習

藝術要聞

揭秘!伊麗莎白泰勒如何復制埃及艷后的魅惑魅力?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版