![]()
![]()
![]()
人工智能(AI)領域的時髦術語往往相當有技術含量:感知機、卷積、變換器。這些詞匯指的都是特定的計算方法。近來,有一個術語聽起來很普通,卻蘊含著革命性的意義,那就是“時間線”。如果向AI領域的某人詢問他們的“時間線”,他們會告訴你預計何時能實現AGI,即通用人工智能,其定義有時可解讀為一種能在大多數任務中媲美人類能力的AI技術。隨著計算機速度的提升、算法的優化以及數據的積累,AI的成熟度日益提高,實現的時間線也在縮短。近期,包括OpenAI、Anthropic和谷歌DeepMind在內的大型AI實驗室的負責人都表示,預計將在幾年內實現AGI。 能像人類一樣思考的計算機系統將實現緊密的人機協作。雖然實現AGI的近期和長期影響尚不明確,但可以預見的是,
它將在經濟、科學發現和地緣政治領域引發變革。如果AGI進一步發展為超級智能,它甚至可能動搖人類在食物鏈頂端的地位。因此,我們必須追蹤這項技術的發展進程,為即將到來的劇變做好準備。衡量AI的能力能讓我們據此制定法律法規、確立工程目標、建立社會規范、調整商業模式,并從更廣泛的層面去理解“智能”。
衡量任何智力能力都絕非易事,衡量AGI則面臨著特殊的挑戰,部分原因是人們對AGI的定義存在嚴重分歧。有些人通過它在基準測試中的表現來定義它,有些人則依據其內部工作原理、經濟影響,甚至是基于一種“感覺”來定義。因此,衡量AI智能的第一步是就這個總體概念達成共識。
另一個問題是,AI系統相較于人類的優勢和劣勢不同。因此,即使將AGI定義為“在大多數任務中能媲美人類的AI”,我們依然可能會爭論哪些任務真正重要,以及應以哪部分人類表現作為標準。直接比較非常困難。“我們正在構建的是‘異形’智能體。”多倫多大學榮休教授、因在AI領域的杰出貢獻而獲得諾貝爾獎的杰弗里·辛頓(Geoffrey Hinton)說。
盡管如此,研究人員并不氣餒,而是積極設計和提出各種測試,以期能對我們的未來提供一些洞見。但有個問題依然存在:這些測試能否清楚地說明我們是否已經實現了長期追求的AGI目標?
智能的種類是無限的,即使人類的智能也是如此。智商測試包含了一系列涉及記憶、邏輯、空間處理、數學和詞匯等內容的半關聯性任務,可提供一種概括性的統計。從不同維度來看,個體在每項任務中的表現都依賴于流體智力(即實時推理能力)和晶體智力(即應用所學知識或技能的能力)的混合。
對于高收入國家的人群而言,智商測試往往能預測學業成就、事業成功等關鍵結果。但我們不能在AI上套用對人類的這種假設,因為AI的能力組合方式與人類截然不同。讓機器完成為人類設計的智商測試,其結論可能與測試結果對人類的意義大相徑庭。
此外,還有許多智力類型往往不在智商測試評估范圍內,甚至當前大多數AI基準測試也很難對其進行衡量。這類智力包括社會智力(例如進行心理推斷的能力)與肢體智力(例如理解物體與作用力之間因果關系的能力,或協調身體適應環境的能力)。這兩類能力對人類應對復雜情境至關重要。
對人、動物或機器進行智力測試很困難。我們必須警惕假正例與假負例。受試者有可能僅憑投機取巧等手段顯得很聰明,著名的“聰明漢斯”就是典型案例:這匹馬表面上“會算數”,實際上依靠的是對非語言線索做出的反應;反之,測試對象也可能因不熟悉測試流程或存在認知障礙而顯得愚鈍。
![]()
智力概念的界定之所以困難,還因為它會隨地域和時代變化而變遷。佐治亞理工學院心理學助理教授安娜·伊萬諾娃(Anna Ivanova)指出:“社會對智力的含義及其價值維度的認知正在發生深刻轉變。”例如:在百科全書和互聯網出現之前,“大腦中儲備大量知識被視為智慧的重要標志”;而今,我們越來越重視流體智力,而非晶體智力。
多年來,人們曾多次針對機器設立大規模挑戰,號稱需要擁有媲美人類的智慧才可完成這些挑戰。1958年,三位頂尖AI研究者寫道:“國際象棋是智力游戲的巔峰......如果能制造出成功的國際象棋機器,便意味著觸及了人類智能的核心。”他們承認,理論上有這樣的可能,即這種機器“或許能發現某種如同車輪之于人腿的東西,其運作方式與人類迥異,但本身卻極其有效且可能非常簡單”。但他們仍堅持認為“目前此類突破未見端倪”。然而1997年,IBM“深藍”計算機實現了這種突破,它擊敗了當時的國際象棋世界冠軍加里·卡斯帕羅夫(Garry Kasparov),但它卻連玩跳棋這種通用智能都不具備。
![]()
1950年,艾倫·圖靈提出了“模仿游戲”,其中一種游戲要求機器在文字對話中以假亂真地模仿人類。“這種問答方式似乎適合展現我們想要囊括的任何人類智慧領域。”他寫道。隨后數十年里,通過圖靈測試曾被視為近乎不可能的任務,這也是衡量AGI的重要指標。
然而2025年,研究人員報告稱,在分別與真人和OpenAI的GPT-4.5進行5分鐘對話,然后判斷哪個是人類時,人們選擇AI的情況高達73%。但與此同時,頂級語言模型卻常犯人類幾乎不會犯的錯誤,比如數不清“strawberry”中字母“r”出現了幾次。這些系統更像是車輪,而非擁有通用能力的“人腿”。因此,科學家仍在尋找無法被技術取巧的真正類人智能的衡量標準。
當前有一項備受矚目的AGI基準測試盡管并不完美,但已成為衡量大多數前沿模型的重要試金石。2019年,時任谷歌軟件工程師、現為AI創業公司Ndea創始人的弗朗索瓦·肖萊(Fran?ois Chollet)發表了題為《論智能的衡量》(On the Measure of Intelligence)的論文。多數人認為智能等同于能力,通用智能等同于一系列廣泛的能力。但肖萊對智能的定義更具體,認為智能只有一個至關重要的特定能力,即輕松獲得新能力的能力。支撐ChatGPT等工具的大語言模型之所以能在眾多基準測試中表現出色,完全依賴于使用數萬億書面詞語對其進行的訓練。遇到與訓練數據差異很大的情況時,這些模型往往難以適應且表現失常。依照肖萊的標準,它們仍缺乏智能。
為配合論文發布,肖萊創建了一個新的AGI基準測試,名為“抽象與推理語料庫”(ARC)。其中包含數百道視覺謎題,每道題都配有若干示例和一道測試題。示例包含輸入網格和輸出網格,其中填滿了彩色方塊;測試題則只有一個輸入網格。要求是從示例中學習規律,并根據此規律完成測試題,生成新的輸出網格。
![]()
ARC側重流體智力。“解決任何問題都需要一定的知識儲備,然后實時重組這些知識。”肖萊向我解釋道。要確保該測試不考察記憶性知識而考察知識重組能力,訓練謎題應提供所需的全部“核心先驗知識”,包括對象連貫、對稱性、計數等幼童已具備的常識。接受過這類訓練和少量示例后,你能否精準調用相關知識來解決全新謎題?人類能輕松完成大部分題目,但AI系統舉步維艱,至少在初期如此。最終,OpenAI開發的o3推理模型的某個版本超越了人類受試者的平均水平,正確率達到88%,但每道題的計算成本預估高達2萬美元(OpenAI從未公開發布該模型,故未將其計入排行榜)。
2025年3月,肖萊推出了難度升級的新版本,名為“ARC-AGI-2”,由其新設立的非營利組織ARC Prize基金會監管。該機構表示:“我們的使命是通過持久性基準測試,成為實現AGI的北極星。”ARC Prize設立了百萬美元獎金,主要獎勵那些訓練出符合以下條件的AI的團隊:在12小時內使用4個圖形處理器,解答120道新謎題的準確率達到85%。新謎題比2019年版本更復雜,有時需要應用多種規則、進行多步推理或解讀符號含義。目前人類平均正確率為60%,而截至本文撰稿時,最佳AI的正確率僅約16%。
![]()
AI專家們肯定了ARC的價值,但也指出了它的局限。伊利諾伊大學厄巴納-香檳分校計算機科學家尤佳軒認為,ARC是一種“非常好的理論基準測試”,能揭示算法的運作機制,但“未充分考慮AI應用中的現實復雜性,比如社會推理任務”。
圣塔菲研究所的計算機科學家梅拉尼·米切爾(Melanie Mitchell)指出,該測試“捕捉到了人類某些有趣的能力”,例如,從少量示例中提取新規律的能力。但鑒于其任務形式不夠多樣化,她表示:“我不認為這能涵蓋人們所說的通用智能。”
盡管存在這些局限,ARC-AGI-2或許仍是當前先進AI與普通人類表現差距最大的基準測試,使其成為了衡量AGI進步的重要標尺。更重要的是,ARC仍在持續發展。肖萊表示AI可能在一兩年內就能在當前測試中達到人類水平,他已經在開發ARC-AGI-3。每個任務都將如同微型電子游戲,參與者需要理解相關概念、探索可行操作并最終達成目標。
![]()
研究人員也在不斷推出新的基準來探究通用智能的不同維度,每個新基準同時也揭示了我們認知版圖中尚未填補的空白。
最近,一篇論文介紹了一種名為“General-Bench”的基準測試,它使用了文本、圖像、視頻、音頻和3D模型5種輸入模態,可通過數百項任務檢驗AI系統的識別、推理、創造、倫理判斷能力,以及其他理解和生成資料的能力。理想的AGI應當展現協同效應,在各項任務中融會貫通多種能力,從而超越最頂尖的AI專家。但目前還沒有任何AI能同時駕馭5種模態。
其他基準測試還涉及虛擬世界。2025年4月,《自然》雜志上的一篇論文介紹了谷歌DeepMind開發的通用算法“Dreamer”,該算法已學會執行超過150項任務,包括玩街機游戲、操控虛擬機器人、在《我的世界》游戲中獲取鉆石等。這些任務要求具備感知、探索、長期規劃和交互能力,但尚不清楚Dreamer處理現實世界復雜問題的能力如何。該論文的第一作者丹尼亞爾·哈夫納(Danijar Hafner)指出,操控電子游戲角色比操控真實機器人簡單,“游戲角色永遠不會摔得臉著地”。這些任務還缺乏與人類的深度互動,以及結合手勢和環境的語言理解能力。他說:“理想情況下,你對家務機器人說‘把碗碟放進那個櫥柜,不是那邊’,同時用手指向(某個櫥柜),它就能理解。”哈夫納表示其團隊正在努力提升模擬和任務的真實度。
除現有基準測試外,專家們對于理想示范形態的爭論由來已久。早在1970年,AI先驅馬文·明斯基就對《生活》(Life)雜志預言:“未來3到8年,我們將制造出具備普通人類水平的通用智能機器。我指的是一臺能閱讀莎士比亞、能給汽車上潤滑油、玩得轉辦公室政治、會說笑話、會吵架的機器。”如果能對“辦公室政治”進行可操作化定義,這套任務組合倒不失為不錯的起點。
2024年《工程》(Engineering)雜志上發表的一篇論文提出了“通”測試。該測試將為虛擬人物隨機分配任務,不僅檢驗其理解能力,更評估其價值判斷。例如,AI可能突然遇到掉在地上的錢或正在哭的嬰兒,研究人員則可借此機會觀察AI如何應對。該論文的作者認為,基準測試應評估AI自主探索和設定目標的能力、與人類價值觀的相符情況、因果理解能力、虛擬/實體軀體操控能力。此外,基準測試還應能生成無限多個涉及動態實物和社會交互的任務。
明斯基等其他學者則提議,需要進行不同程度的現實世界交互測試,例如在陌生廚房泡咖啡、將10萬美元增值至百萬美元、在大學校園就讀并獲取學位等。遺憾的是,此類測試中有一些既難以實施又存在現實風險。例如,AI可能通過詐騙手段來賺取百萬資金。
筆者曾問過諾貝爾獎得主辛頓,AI最難掌握哪些技能。“我過去認為,理解他人心思這類能力會是其瓶頸。”他說,“但它已經具備了一些這種能力,甚至已經能進行欺騙。”(最近一項多所大學的聯合研究顯示,在誘導受試者選擇錯誤答案方面,大語言模型已超越人類。)他繼續說:“所以,我現在的答案是管道維修。修老房子的管道需要探入狹窄的縫隙,還要以特定方式擰緊零件。我認為至少未來10年內AI無法完成這項任務。”
![]()
AI是否需要能執行涉及實物的任務才算是AGI,學界對此始終存在爭論。谷歌DeepMind一篇關于衡量AGI級別的論文持否定立場,并主張這類智能只需通過軟件展現。他們認為,實物操作能力是AGI的附加能力而非必要能力。
圣塔菲研究所的米切爾提出,我們應當測試AI承擔整個工作崗位任務所需的能力。她指出,AI雖然能完成人類放射科醫生的許多任務,但無法完全取代人類醫生,因為這份工作包含大量連醫師本人都未意識到的隱性工作,比如決定要做什么以及應對突發狀況等。“現實世界中有可能發生的意外情況實在太多了。”她說。某些掃地機器人因未接受過識別狗糞便的訓練,會將狗糞便抹滿地毯。“在構建智能系統時,有太多此類無法預見的突發狀況。”
部分科學家表示,我們不僅要觀察系統表現,更需探查其內部運作機制。加拿大不列顛哥倫比亞大學計算機科學家杰夫·克倫(Jeff Clune)聯合發表的論文指出,深度學習常導致AI系統形成“割裂的糾纏表征”(fractured entangled representations),基本上就是大量臨時拼湊的捷徑機制。而人類則善于尋找普適且合理的通用規律。某個AI系統或許能在特定測試中表現得很智能,但如果不了解其內部機制,它在新場景下應用錯誤的規則可能引發意外后果。
作家劉易斯·卡羅爾(Lewis Car-roll)曾描寫過這樣一個角色:他使用“一英里代表一英里”比例尺的全國地圖,最終索性將整個國家本身當作地圖。在智力測試領域,要精準地體現個體在特定情境中的表現,最佳方式就是將其置于這個情境中進行檢驗。按照這一邏輯,對AGI的有佳測試或許是讓機器人完整度過人類的一生,例如將孩子撫養成年。
“最終,檢驗AI能力的真實標準是它們在現實世界中的作為。”克倫告訴我,“因此相較于基準測試,我更關注(AI)有了哪些科學發現、自動完成了哪些工作。如果人類雇用AI而非人類來完成工作,并且堅持執行這一決定,這本身就是對AI能力的強烈認可。”但有些時候,在使用AI替代人類之前,我們希望預先了解其表現水平。
我們或許永遠無法就AGI或“像人一樣”的AI的定義達成共識,也無法確定怎樣證實它就是AGI。隨著AI技術的進步,機器仍會犯錯,人們也總會借此宣稱AI并非真正的智能。最期,在一個專題討論會上,主持人問到了佐治亞理工學院心理學家伊萬諾娃關于AGI時間線的問題。“有位學者認為它永遠不可能實現,”她告訴我,“而另一位則表示它已然出現。”因此,“AGI”這個術語或許只是表達目標或擔憂的一個便捷符號,其實際價值可能有限。在大多數情況下,在提及這個詞時,我們都該為其加上星號注釋,標明具體的基準測試。
文章來源于 悅智網 ,作者 Matthew Hutson
邀約|AMD 技術日 :Physical AI - 機器人前沿(4.2,北京)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.