網易首頁 > 網易號 > 正文申請入駐

能否為人工智能設計出更好的智商測試？

2026-03-15 10:29:20　來源: EETOP半導體社區

北京舉報

分享至

人工智能(AI)領域的時髦術語往往相當有技術含量：感知機、卷積、變換器。這些詞匯指的都是特定的計算方法。近來，有一個術語聽起來很普通，卻蘊含著革命性的意義，那就是“時間線”。如果向AI領域的某人詢問他們的“時間線”，他們會告訴你預計何時能實現AGI，即通用人工智能，其定義有時可解讀為一種能在大多數任務中媲美人類能力的AI技術。隨著計算機速度的提升、算法的優化以及數據的積累，AI的成熟度日益提高，實現的時間線也在縮短。近期，包括OpenAI、Anthropic和谷歌DeepMind在內的大型AI實驗室的負責人都表示，預計將在幾年內實現AGI。能像人類一樣思考的計算機系統將實現緊密的人機協作。雖然實現AGI的近期和長期影響尚不明確，但可以預見的是，

它將在經濟、科學發現和地緣政治領域引發變革。如果AGI進一步發展為超級智能，它甚至可能動搖人類在食物鏈頂端的地位。因此，我們必須追蹤這項技術的發展進程，為即將到來的劇變做好準備。衡量AI的能力能讓我們據此制定法律法規、確立工程目標、建立社會規范、調整商業模式，并從更廣泛的層面去理解“智能”。

衡量任何智力能力都絕非易事，衡量AGI則面臨著特殊的挑戰，部分原因是人們對AGI的定義存在嚴重分歧。有些人通過它在基準測試中的表現來定義它，有些人則依據其內部工作原理、經濟影響，甚至是基于一種“感覺”來定義。因此，衡量AI智能的第一步是就這個總體概念達成共識。

另一個問題是，AI系統相較于人類的優勢和劣勢不同。因此，即使將AGI定義為“在大多數任務中能媲美人類的AI”，我們依然可能會爭論哪些任務真正重要，以及應以哪部分人類表現作為標準。直接比較非常困難。“我們正在構建的是‘異形’智能體。”多倫多大學榮休教授、因在AI領域的杰出貢獻而獲得諾貝爾獎的杰弗里·辛頓（Geoffrey Hinton）說。

盡管如此，研究人員并不氣餒，而是積極設計和提出各種測試，以期能對我們的未來提供一些洞見。但有個問題依然存在：這些測試能否清楚地說明我們是否已經實現了長期追求的AGI目標？

智能的種類是無限的，即使人類的智能也是如此。智商測試包含了一系列涉及記憶、邏輯、空間處理、數學和詞匯等內容的半關聯性任務，可提供一種概括性的統計。從不同維度來看，個體在每項任務中的表現都依賴于流體智力（即實時推理能力）和晶體智力（即應用所學知識或技能的能力）的混合。

對于高收入國家的人群而言，智商測試往往能預測學業成就、事業成功等關鍵結果。但我們不能在AI上套用對人類的這種假設，因為AI的能力組合方式與人類截然不同。讓機器完成為人類設計的智商測試，其結論可能與測試結果對人類的意義大相徑庭。

此外，還有許多智力類型往往不在智商測試評估范圍內，甚至當前大多數AI基準測試也很難對其進行衡量。這類智力包括社會智力（例如進行心理推斷的能力）與肢體智力（例如理解物體與作用力之間因果關系的能力，或協調身體適應環境的能力）。這兩類能力對人類應對復雜情境至關重要。

對人、動物或機器進行智力測試很困難。我們必須警惕假正例與假負例。受試者有可能僅憑投機取巧等手段顯得很聰明，著名的“聰明漢斯”就是典型案例：這匹馬表面上“會算數”，實際上依靠的是對非語言線索做出的反應；反之，測試對象也可能因不熟悉測試流程或存在認知障礙而顯得愚鈍。

智力概念的界定之所以困難，還因為它會隨地域和時代變化而變遷。佐治亞理工學院心理學助理教授安娜·伊萬諾娃（Anna Ivanova）指出：“社會對智力的含義及其價值維度的認知正在發生深刻轉變。”例如：在百科全書和互聯網出現之前，“大腦中儲備大量知識被視為智慧的重要標志”；而今，我們越來越重視流體智力，而非晶體智力。

多年來，人們曾多次針對機器設立大規模挑戰，號稱需要擁有媲美人類的智慧才可完成這些挑戰。1958年，三位頂尖AI研究者寫道：“國際象棋是智力游戲的巔峰......如果能制造出成功的國際象棋機器，便意味著觸及了人類智能的核心。”他們承認，理論上有這樣的可能，即這種機器“或許能發現某種如同車輪之于人腿的東西，其運作方式與人類迥異，但本身卻極其有效且可能非常簡單”。但他們仍堅持認為“目前此類突破未見端倪”。然而1997年，IBM“深藍”計算機實現了這種突破，它擊敗了當時的國際象棋世界冠軍加里·卡斯帕羅夫（Garry Kasparov），但它卻連玩跳棋這種通用智能都不具備。

1950年，艾倫·圖靈提出了“模仿游戲”，其中一種游戲要求機器在文字對話中以假亂真地模仿人類。“這種問答方式似乎適合展現我們想要囊括的任何人類智慧領域。”他寫道。隨后數十年里，通過圖靈測試曾被視為近乎不可能的任務，這也是衡量AGI的重要指標。

然而2025年，研究人員報告稱，在分別與真人和OpenAI的GPT-4.5進行5分鐘對話，然后判斷哪個是人類時，人們選擇AI的情況高達73%。但與此同時，頂級語言模型卻常犯人類幾乎不會犯的錯誤，比如數不清“strawberry”中字母“r”出現了幾次。這些系統更像是車輪，而非擁有通用能力的“人腿”。因此，科學家仍在尋找無法被技術取巧的真正類人智能的衡量標準。

當前有一項備受矚目的AGI基準測試盡管并不完美，但已成為衡量大多數前沿模型的重要試金石。2019年，時任谷歌軟件工程師、現為AI創業公司Ndea創始人的弗朗索瓦·肖萊（Fran?ois Chollet）發表了題為《論智能的衡量》（On the Measure of Intelligence）的論文。多數人認為智能等同于能力，通用智能等同于一系列廣泛的能力。但肖萊對智能的定義更具體，認為智能只有一個至關重要的特定能力，即輕松獲得新能力的能力。支撐ChatGPT等工具的大語言模型之所以能在眾多基準測試中表現出色，完全依賴于使用數萬億書面詞語對其進行的訓練。遇到與訓練數據差異很大的情況時，這些模型往往難以適應且表現失常。依照肖萊的標準，它們仍缺乏智能。

為配合論文發布，肖萊創建了一個新的AGI基準測試，名為“抽象與推理語料庫”（ARC）。其中包含數百道視覺謎題，每道題都配有若干示例和一道測試題。示例包含輸入網格和輸出網格，其中填滿了彩色方塊；測試題則只有一個輸入網格。要求是從示例中學習規律，并根據此規律完成測試題，生成新的輸出網格。

ARC側重流體智力。“解決任何問題都需要一定的知識儲備，然后實時重組這些知識。”肖萊向我解釋道。要確保該測試不考察記憶性知識而考察知識重組能力，訓練謎題應提供所需的全部“核心先驗知識”，包括對象連貫、對稱性、計數等幼童已具備的常識。接受過這類訓練和少量示例后，你能否精準調用相關知識來解決全新謎題？人類能輕松完成大部分題目，但AI系統舉步維艱，至少在初期如此。最終，OpenAI開發的o3推理模型的某個版本超越了人類受試者的平均水平，正確率達到88%，但每道題的計算成本預估高達2萬美元（OpenAI從未公開發布該模型，故未將其計入排行榜）。

2025年3月，肖萊推出了難度升級的新版本，名為“ARC-AGI-2”，由其新設立的非營利組織ARC Prize基金會監管。該機構表示：“我們的使命是通過持久性基準測試，成為實現AGI的北極星。”ARC Prize設立了百萬美元獎金，主要獎勵那些訓練出符合以下條件的AI的團隊：在12小時內使用4個圖形處理器，解答120道新謎題的準確率達到85%。新謎題比2019年版本更復雜，有時需要應用多種規則、進行多步推理或解讀符號含義。目前人類平均正確率為60%，而截至本文撰稿時，最佳AI的正確率僅約16%。

AI專家們肯定了ARC的價值，但也指出了它的局限。伊利諾伊大學厄巴納-香檳分校計算機科學家尤佳軒認為，ARC是一種“非常好的理論基準測試”，能揭示算法的運作機制，但“未充分考慮AI應用中的現實復雜性，比如社會推理任務”。

圣塔菲研究所的計算機科學家梅拉尼·米切爾（Melanie Mitchell）指出，該測試“捕捉到了人類某些有趣的能力”，例如，從少量示例中提取新規律的能力。但鑒于其任務形式不夠多樣化，她表示：“我不認為這能涵蓋人們所說的通用智能。”

盡管存在這些局限，ARC-AGI-2或許仍是當前先進AI與普通人類表現差距最大的基準測試，使其成為了衡量AGI進步的重要標尺。更重要的是，ARC仍在持續發展。肖萊表示AI可能在一兩年內就能在當前測試中達到人類水平，他已經在開發ARC-AGI-3。每個任務都將如同微型電子游戲，參與者需要理解相關概念、探索可行操作并最終達成目標。

研究人員也在不斷推出新的基準來探究通用智能的不同維度，每個新基準同時也揭示了我們認知版圖中尚未填補的空白。

最近，一篇論文介紹了一種名為“General-Bench”的基準測試，它使用了文本、圖像、視頻、音頻和3D模型5種輸入模態，可通過數百項任務檢驗AI系統的識別、推理、創造、倫理判斷能力，以及其他理解和生成資料的能力。理想的AGI應當展現協同效應，在各項任務中融會貫通多種能力，從而超越最頂尖的AI專家。但目前還沒有任何AI能同時駕馭5種模態。

其他基準測試還涉及虛擬世界。2025年4月，《自然》雜志上的一篇論文介紹了谷歌DeepMind開發的通用算法“Dreamer”，該算法已學會執行超過150項任務，包括玩街機游戲、操控虛擬機器人、在《我的世界》游戲中獲取鉆石等。這些任務要求具備感知、探索、長期規劃和交互能力，但尚不清楚Dreamer處理現實世界復雜問題的能力如何。該論文的第一作者丹尼亞爾·哈夫納（Danijar Hafner）指出，操控電子游戲角色比操控真實機器人簡單，“游戲角色永遠不會摔得臉著地”。這些任務還缺乏與人類的深度互動，以及結合手勢和環境的語言理解能力。他說：“理想情況下，你對家務機器人說‘把碗碟放進那個櫥柜，不是那邊’，同時用手指向（某個櫥柜），它就能理解。”哈夫納表示其團隊正在努力提升模擬和任務的真實度。

除現有基準測試外，專家們對于理想示范形態的爭論由來已久。早在1970年，AI先驅馬文·明斯基就對《生活》（Life）雜志預言：“未來3到8年，我們將制造出具備普通人類水平的通用智能機器。我指的是一臺能閱讀莎士比亞、能給汽車上潤滑油、玩得轉辦公室政治、會說笑話、會吵架的機器。”如果能對“辦公室政治”進行可操作化定義，這套任務組合倒不失為不錯的起點。

2024年《工程》（Engineering）雜志上發表的一篇論文提出了“通”測試。該測試將為虛擬人物隨機分配任務，不僅檢驗其理解能力，更評估其價值判斷。例如，AI可能突然遇到掉在地上的錢或正在哭的嬰兒，研究人員則可借此機會觀察AI如何應對。該論文的作者認為，基準測試應評估AI自主探索和設定目標的能力、與人類價值觀的相符情況、因果理解能力、虛擬/實體軀體操控能力。此外，基準測試還應能生成無限多個涉及動態實物和社會交互的任務。

明斯基等其他學者則提議，需要進行不同程度的現實世界交互測試，例如在陌生廚房泡咖啡、將10萬美元增值至百萬美元、在大學校園就讀并獲取學位等。遺憾的是，此類測試中有一些既難以實施又存在現實風險。例如，AI可能通過詐騙手段來賺取百萬資金。

筆者曾問過諾貝爾獎得主辛頓，AI最難掌握哪些技能。“我過去認為，理解他人心思這類能力會是其瓶頸。”他說，“但它已經具備了一些這種能力，甚至已經能進行欺騙。”（最近一項多所大學的聯合研究顯示，在誘導受試者選擇錯誤答案方面，大語言模型已超越人類。）他繼續說：“所以，我現在的答案是管道維修。修老房子的管道需要探入狹窄的縫隙，還要以特定方式擰緊零件。我認為至少未來10年內AI無法完成這項任務。”

AI是否需要能執行涉及實物的任務才算是AGI，學界對此始終存在爭論。谷歌DeepMind一篇關于衡量AGI級別的論文持否定立場，并主張這類智能只需通過軟件展現。他們認為，實物操作能力是AGI的附加能力而非必要能力。

圣塔菲研究所的米切爾提出，我們應當測試AI承擔整個工作崗位任務所需的能力。她指出，AI雖然能完成人類放射科醫生的許多任務，但無法完全取代人類醫生，因為這份工作包含大量連醫師本人都未意識到的隱性工作，比如決定要做什么以及應對突發狀況等。“現實世界中有可能發生的意外情況實在太多了。”她說。某些掃地機器人因未接受過識別狗糞便的訓練，會將狗糞便抹滿地毯。“在構建智能系統時，有太多此類無法預見的突發狀況。”

部分科學家表示，我們不僅要觀察系統表現，更需探查其內部運作機制。加拿大不列顛哥倫比亞大學計算機科學家杰夫·克倫（Jeff Clune）聯合發表的論文指出，深度學習常導致AI系統形成“割裂的糾纏表征”（fractured entangled representations），基本上就是大量臨時拼湊的捷徑機制。而人類則善于尋找普適且合理的通用規律。某個AI系統或許能在特定測試中表現得很智能，但如果不了解其內部機制，它在新場景下應用錯誤的規則可能引發意外后果。

作家劉易斯·卡羅爾（Lewis Car-roll）曾描寫過這樣一個角色：他使用“一英里代表一英里”比例尺的全國地圖，最終索性將整個國家本身當作地圖。在智力測試領域，要精準地體現個體在特定情境中的表現，最佳方式就是將其置于這個情境中進行檢驗。按照這一邏輯，對AGI的有佳測試或許是讓機器人完整度過人類的一生，例如將孩子撫養成年。

“最終，檢驗AI能力的真實標準是它們在現實世界中的作為。”克倫告訴我，“因此相較于基準測試，我更關注（AI）有了哪些科學發現、自動完成了哪些工作。如果人類雇用AI而非人類來完成工作，并且堅持執行這一決定，這本身就是對AI能力的強烈認可。”但有些時候，在使用AI替代人類之前，我們希望預先了解其表現水平。

我們或許永遠無法就AGI或“像人一樣”的AI的定義達成共識，也無法確定怎樣證實它就是AGI。隨著AI技術的進步，機器仍會犯錯，人們也總會借此宣稱AI并非真正的智能。最期，在一個專題討論會上，主持人問到了佐治亞理工學院心理學家伊萬諾娃關于AGI時間線的問題。“有位學者認為它永遠不可能實現，”她告訴我，“而另一位則表示它已然出現。”因此，“AGI”這個術語或許只是表達目標或擔憂的一個便捷符號，其實際價值可能有限。在大多數情況下，在提及這個詞時，我們都該為其加上星號注釋，標明具體的基準測試。

文章來源于悅智網，作者 Matthew Hutson

邀約｜AMD 技術日：Physical AI - 機器人前沿（4.2,北京）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.