網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI“破壁人”李國豪｜甲子光年

2026-03-08 22:04:20　來源: 甲子光年

北京舉報

分享至

“我們想探索人和AI共存的社會是什么樣的。”

作者｜王藝

編輯｜王博

北京時間1月13日凌晨四點，Anthropic發(fā)布AI智能協(xié)作工具Claude Cowork，AI辦公自動化領(lǐng)域從此迎來全新時代。

Claude Cowork定位為辦公領(lǐng)域的“Claude Code”，圖片來源：Claude官網(wǎng)

6個小時后，X上的一條推文像一記“破壁彈”打破了AI圈子的情緒閾值：“Anthropic Claude Cowork 剛剛殺死了我們初創(chuàng)公司的產(chǎn)品——所以我們做了最理性的決定：將它開源。”

Claude Cowork發(fā)布六小時后一篇火爆X平臺的推文圖片來源：X

很快，它收獲了8000+點贊、180萬+瀏覽，討論的矛頭也從Cowork轉(zhuǎn)向了另一個名字：Eigent AI。

Eigent AI是一個開源多智能體（Multi-Agent）協(xié)作平臺，用戶可以用它在電腦上創(chuàng)建由多個AI Agent組成的虛擬團(tuán)隊。與單一的AI聊天助手不同，Eigent能夠協(xié)調(diào)多個專注于不同領(lǐng)域的Agent（如搜索員、程序員、文檔編寫員）并行協(xié)作，解決復(fù)雜的長周期任務(wù)。

Eigent AI（下文簡稱Eigent）的背后，是CAMEL-AI開源社區(qū)，以及它的創(chuàng)始人李國豪。李國豪擁有阿卜杜拉國王科技大學(xué)（KAUST）計算機(jī)博士學(xué)位，曾任牛津大學(xué)Philip Torr教授課題組的博士后研究員，曾在多個頂級國際會議與期刊（如ICCV、CVPR、ICML、NeurIPS、RSS、3DV和TPAMI）上發(fā)表論文。

CAMEL AI部分成員合照，右一為李國豪。圖片來源：受訪者提供

在當(dāng)下的AI戰(zhàn)局中，他扮演著一個特殊的角色——“破壁人”。

在《三體》中，破壁人看穿了面壁者深藏不露的戰(zhàn)略意圖，將那些試圖以絕對封閉來掌控全局的計劃公之于眾，徹底擊碎了思維的堡壘。而在今天的AI世界里，當(dāng)OpenAI、Anthropic等頂尖團(tuán)隊正試圖用閉源模型和斥資數(shù)億美元買斷的“訓(xùn)練環(huán)境”筑起高墻時，李國豪選擇用“開源”來打破這堵墻。

他不僅用開源把巨頭的圍墻撬開一條縫，爭取“智力的自由”；還在探索用多智能體把“單體智能”的天花板推到“組織級智能”。在他眼里，真正值得規(guī)模化的，不是一個能干活的智能體，而是一套能不斷擴(kuò)展成員、擴(kuò)展環(huán)境、擴(kuò)展協(xié)作邊界的“智能體社會”。

“沒有心智社會就沒有智能。智慧從愚笨中來。”這是人工智能之父馬文·明斯基在其著作《心智社會（The Society of Mind）》中的一句話，這本書也是李國豪最喜歡的書之一，深刻影響了他對AI未來的構(gòu)想——李國豪堅信“Local-first（本地優(yōu)先）”，認(rèn)為AI是人類智力的外延，不應(yīng)被少數(shù)巨頭壟斷，而應(yīng)像PC時代的個人電腦一樣，完全屬于用戶自己，并在多樣性的“心智社會”中協(xié)作與進(jìn)化。

近日，「甲子光年」與李國豪進(jìn)行了一場長達(dá)兩個半小時的深度對話。我們聊了聊他被巨頭“逼到墻角”后的開源反擊，探討了他打破大廠“環(huán)境”壟斷的破壁行動，也走進(jìn)了這位曾經(jīng)“沉迷游戲、差點退學(xué)”的非典型學(xué)霸的AGI狂想世界。

以下為對話實錄，經(jīng)「甲子光年」編輯整理。

1.直面巨頭

甲子光年：1月13日，在Anthropic發(fā)布Claude Cowork之后，你第一時間發(fā)推特宣布Eigent開源，并說“Cowork殺死了我們的產(chǎn)品”。Eigent是怎么誕生的？產(chǎn)品被巨頭逼到墻角，你的第一反應(yīng)為什么是“開源”而不是“保密”？

李國豪：關(guān)于Eigent，最早可以追溯到我們在2023年3月份做的一個開源項目，叫CAMEL。當(dāng)時 OpenAI 剛開放 API 沒幾天，我們在推特上發(fā)布了這個項目。那是非常早期的階段，我們應(yīng)該是世界上第一個用ChatGPT（OpenAI 的 API）來做 Multi-Agent（多智能體）系統(tǒng)的工作。

當(dāng)時這個項目在推特上挺火的，比同期一些后來非常火的項目（比如 AutoGPT、BabyAGI，包括斯坦福小鎮(zhèn)）可能還要早一到兩個星期。項目火了之后，大概一個星期就收獲了4000多個Star，后來這篇論文也被AI頂會NeurIPS 2023接收了。

慢慢地，這個項目發(fā)展成了一個開源社區(qū)，我們在社區(qū)基礎(chǔ)上做了很多不同類型的工作。最后，我們從社區(qū)里招募了一些同學(xué)，大家聚在一起，在英國成立了現(xiàn)在的這家創(chuàng)業(yè)公司。這就是大概的來龍去脈。

CAMEL-AI簡介圖片來源：Github

面對巨頭的產(chǎn)品，我們之所以選擇開源，是因為我們未來的愿景本來就是想做一個完全本地化的、甚至是可以自我進(jìn)化的Agent。這需要有開源的模型、開源的框架、開源的產(chǎn)品，以及開源的Agent環(huán)境。

跟Cowork相比，我們最大的區(qū)別就是“完全開源、本地化”。Cowork更多是給C端用戶使用的，而我們的設(shè)計理念是注重用戶數(shù)據(jù)隱私，你的數(shù)據(jù)不會發(fā)送到我們的服務(wù)器。你可以完全在企業(yè)內(nèi)部部署，支持任意模型的切換，不綁定任何供應(yīng)商。只有所有東西都私有化部署，你才能擁有完全自主的AI。

甲子光年：你最近在X上發(fā)帖說“個人AI的未來就在本地，就在你的桌面上”。你為什么如此強(qiáng)調(diào)“Local-first（本地優(yōu)先）”？

李國豪：我覺得我可能是一個自由主義者吧（笑）。

我認(rèn)為，現(xiàn)在的LLM或者AI更像是你智力外延的一部分。它包含了你很多的知識、記憶和上下文。既然它是你智力的一部分，它就不應(yīng)該存在于云端，不應(yīng)該被某家模型公司所擁有。它應(yīng)該完全屬于你，你有完全的自主權(quán)去定制它、改變它，甚至隨時銷毀它。

從市場角度看，我們想要構(gòu)建一個“AI的PC時代”。你的Intelligence應(yīng)該像你的電腦一樣能夠隨身攜帶。你不需要聯(lián)網(wǎng)，充上電就能用，也不需要付token的錢。未來所有的模型和Agent都可以被本地化，你只需要下載、安裝、使用。

甲子光年：你覺得這個“AI的PC時代”什么時候會到來？

李國豪：它的到來比我想象的要快。我們?nèi)ツ?月發(fā)布產(chǎn)品時，大家對“為什么要用一個桌面端的本地Agent”還沒有那么強(qiáng)烈的感受。但今年1月Cowork火了之后，大家突然意識到我們需要一個桌面端Agent，這大大加速了市場的認(rèn)知。

同時，從模型和技術(shù)層面看，開源社區(qū)的模型越來越好，離最好的閉源模型可能只有幾個月的差距，而且這個差距不會被拉大，可能會慢慢追平。加上各種模型推理技術(shù)（比如vLLM等）的成熟，現(xiàn)在我們在MacBook Pro上部署模型和Agent，就已經(jīng)能完成很多簡單的自動化任務(wù)了。

甲子光年：目前Eigent的商業(yè)化閉環(huán)實現(xiàn)了嗎？

李國豪：在今年之前，我們的商業(yè)化進(jìn)展是非常慢的。但在今年1月份，我們已經(jīng)實現(xiàn)了盈利。目前我們的客戶主要來源于兩個群體：一是模型公司，我們在給他們做一些環(huán)境構(gòu)建；二是企業(yè)客戶，我們幫IT、銷售等部門解決自動化的問題，幫他們操控瀏覽器、完成任務(wù)。

這是一個比較標(biāo)準(zhǔn)化的產(chǎn)品，客單價一般在10萬美元上下，主要包含產(chǎn)品License的費(fèi)用和一部分系統(tǒng)集成的定制化費(fèi)用。

甲子光年：作為兩個成功開源項目的負(fù)責(zé)人，你覺得自己是AI開源領(lǐng)域的“破壁人”嗎？

李國豪：我覺得還談不上成功，然后“破壁人”可能不太合適，我不是要反對閉源路線，只是希望一個完全開源的 Agent生態(tài)應(yīng)該存在。其實開源研究創(chuàng)業(yè)挺苦，比起去比在Frontier Labs（前沿實驗室）里做研究，可能是Hard Mode（困難模式），如果硬要找一個詞來形容，我覺得自己只是開源生態(tài)里的一個普通添磚人吧。

2.探索Agent的Scaling Law

甲子光年：2023年3月你們發(fā)表了CAMEL論文，提出了基于角色扮演（Role-playing）的多智能體框架。當(dāng)時的靈感來自哪里？

李國豪：最早的動機(jī)來源于對AGI的思考。ChatGPT出來后驗證了Model Scaling Law是work的，但我當(dāng)時在想，僅僅靠模型能力的提升，能否到達(dá)AGI？在模型的ScalingLaw之后，是否存在Agent層面的ScalingLaw？

所以我們想探索人和AI共存的社會是什么樣的。我們在論文里提出了“AI Society（AI社會）”的概念，就是多個Agent能夠形成一個社會組織，小到兩三個Agent協(xié)作，大到形成一個公司甚至社交網(wǎng)絡(luò)。

李國豪團(tuán)隊在《CAMEL：Communicative Agents for “Mind” Exploration of Large Language Model Society》論文中提出了“AI Society”的概念

在這個過程中，我們讓Agent相互協(xié)作、角色扮演（比如一個扮演開發(fā)者，一個扮演游戲玩家），生成了大量的數(shù)據(jù)。我們用GPT-4生成數(shù)據(jù)，再去微調(diào)像LLaMA這樣的小模型，實現(xiàn)了很好的效果提升。

甲子光年：你提出“Scaling Laws of Agents”時，最在意的衡量指標(biāo)是什么？你最不看好哪些指標(biāo)？

李國豪：這是一個非常好的問題。Model Scaling有一個很好的指標(biāo)，就是看損失函數(shù)（Loss）或者在Benchmark上的性能。但Agent Scaling Law很難找單一的指標(biāo)。

我不太看好的指標(biāo)是那些簡單的學(xué)科類評測集（比如MMLU），用這種任務(wù)來衡量Multi-Agent系統(tǒng)是比較錯誤的方向。因為很多任務(wù)用一個Agent就能完成得很好了，沒必要用多智能體。

我最在意的指標(biāo)是：它是否解鎖了新的應(yīng)用場景？是否能模擬組織（Organization）甚至社會（Society）做的事情？

比如，我們能否用大規(guī)模的Agent系統(tǒng)去模擬X（原Twitter）或Reddit這樣的社交網(wǎng)絡(luò)？能否模擬出人類社會的規(guī)律，比如信息傳播、從眾效應(yīng)、觀點極化？如果在發(fā)布一個真實產(chǎn)品前，我們能用幾十萬個Agent去模擬市場的反饋和推演，那么這種“模擬多大規(guī)模復(fù)雜系統(tǒng)”的能力，才是我最在意的指標(biāo)。

甲子光年：現(xiàn)在也有觀點認(rèn)為“單智能體+技能庫（Skill Library）”在token和延遲上更劃算。你怎么看？多智能體不可替代的部分是什么？

李國豪：多智能體在企業(yè)落地時有一個很現(xiàn)實的好處：權(quán)限管理和模塊化。不同部門需要不同的Agent和權(quán)限。

但在技術(shù)層面，多智能體不可替代的是“大規(guī)模任務(wù)的并行”。我們支持三個維度的并行：任務(wù)拆分后的子任務(wù)并行、Worker層面的復(fù)刻并行、以及工具層面的并行。比如我們能在幾分鐘內(nèi)并行200個任務(wù)去開發(fā)200個小游戲，這是單智能體很難做到的。

CAMEL-AI和AWS、Qwen、魔搭、SGLang、Zilliz、FishAudio等團(tuán)隊在上海舉辦的多智能體黑客松活動圖片來源：CAMEL-AI

甲子光年：你剛才提到想要探索人和AI共生的社會是什么樣的，那你怎么看待斯坦福小鎮(zhèn)和現(xiàn)在爆火的Moltbook？

李國豪：非常有意思。斯坦福小鎮(zhèn)模擬的是社交行為，而CAMEL模擬的是Agent協(xié)作完成任務(wù)。我們當(dāng)時其實在思考同一個事情：在非常大規(guī)模的Agent社會里，會誕生什么有意思的現(xiàn)象。

斯坦福小鎮(zhèn)實驗論文《Generative Agents: Interactive Simulacra of Human Behavior》

Moltbook出現(xiàn)的時間點是Agent能力變得更強(qiáng)了，它真的能操控你的電腦了。但我覺得它目前更多是輸出了情緒價值，還沒有產(chǎn)生很多Economic（經(jīng)濟(jì)）的影響。

Moltbook是一個專為人工智能代理設(shè)計的互聯(lián)網(wǎng)論壇。它由企業(yè)家Matt Schlicht于2026年1月推出圖片來源：Fortune

我們?nèi)祟惿鐣怯行湃蜗到y(tǒng)的，比如你有簡歷、學(xué)歷、信用卡，外界才能了解你，社會才能運(yùn)作。但現(xiàn)在的Agent模擬沙盒還沒有這樣的信任系統(tǒng)和經(jīng)濟(jì)系統(tǒng)。未來這個事情需要存在，比如我想看病，我就能通過信任系統(tǒng)知道該找哪些Agent去做。

甲子光年：在Agent的規(guī)劃（Planning）和記憶（Memory）方面，有哪些值得期待的研究方向？你更相信長上下文還是外部記憶系統(tǒng)？

李國豪：這兩者會同時存在。長上下文是訓(xùn)練階段解鎖的基礎(chǔ)能力，每個人都需要長上下文的Model。但它是一個通用的能力。

而模型外掛的Memory里，能夠?qū)崿F(xiàn)更多Personalized（個性化）的信息。未來的方向是如何在Continuous Learning（持續(xù)學(xué)習(xí)）階段做好Agent。比如自動學(xué)到你的獎勵函數(shù)（Reward Function），根據(jù)你的Feedback學(xué)到你的價值是什么，在持續(xù)使用的過程中實現(xiàn)Planning和Memory能力的個性化提升。

3.得環(huán)境者得天下

甲子光年：你們最近開源了400多個Terminal Agent的訓(xùn)練環(huán)境SETA。請問你們發(fā)布的目的是什么？能否詳細(xì)介紹一下SETA這個項目？

李國豪：SETA是我們正在做的一個項目，目的是讓Agent學(xué)會去使用Terminal（命令行終端）。目前在這個領(lǐng)域，有一個名為Terminal Bench的基準(zhǔn)測試（Benchmark），被OpenAI等頭部模型公司用來評估Agent使用Terminal的能力。但這個Benchmark的數(shù)據(jù)量很少，大概只有不到100條。

目前開源領(lǐng)域非常缺乏用于訓(xùn)練Agent使用Terminal的數(shù)據(jù)環(huán)境。所以我們做的事情，就是研究如何去擴(kuò)大（Scale up）這種環(huán)境的構(gòu)建規(guī)模。我們提出了一種自動化的Pipeline，能夠根據(jù)一些種子數(shù)據(jù)（比如論壇里的QA問答），自動構(gòu)建出Docker環(huán)境。在這個環(huán)境里，Agent可以使用命令行來解決實際任務(wù)。

上次發(fā)布時我們開源了400多條環(huán)境，2月初我們又發(fā)布了1000條，所以現(xiàn)在總計有將近1400條訓(xùn)練環(huán)境。

甲子光年：我可以把“環(huán)境”直接理解為“訓(xùn)練數(shù)據(jù)”嗎？

李國豪：可以這么理解，環(huán)境就是Agent的訓(xùn)練數(shù)據(jù)。

傳統(tǒng)語言模型的訓(xùn)練數(shù)據(jù)通常是純文本（輸入輸出都是文本）。但Agent的訓(xùn)練數(shù)據(jù)不同，Agent需要與數(shù)字世界或物理世界進(jìn)行交互。比如操控一個網(wǎng)頁、操控一部手機(jī)、操控一臺電腦，這些都是“環(huán)境”。它包含了很多非自然語言的部分。

Agent在強(qiáng)化學(xué)習(xí)階段，環(huán)境可以給它提供獎勵（Reward）來優(yōu)化策略（Policy）；或者環(huán)境能夠產(chǎn)生大量的交互軌跡（Trajectories），這些軌跡可以被用于語言模型的預(yù)訓(xùn)練（Pre-training）或中繼訓(xùn)練（Mid-training）階段。

甲子光年：你之前發(fā)帖說“Frontier labs spend millions purchasing RL environments（前沿實驗室花費(fèi)數(shù)百萬美元購買強(qiáng)化學(xué)習(xí)環(huán)境）”。為什么“環(huán)境”在你心里比“模型/代碼”更值得Scale？

李國豪：語言模型的訓(xùn)練數(shù)據(jù)主要是文本，天然存在于互聯(lián)網(wǎng)上。但Agent的訓(xùn)練數(shù)據(jù)是“環(huán)境”。Agent需要跟數(shù)字世界或物理世界交互，比如操控網(wǎng)頁、手機(jī)、電腦，這些軌跡在互聯(lián)網(wǎng)上是不存在的。

你要訓(xùn)練Agent，就必須構(gòu)建環(huán)境、設(shè)定任務(wù)、并配備驗證器（Verifier）來判斷Agent做得對不對。這就導(dǎo)致構(gòu)建環(huán)境非常難，且極其昂貴。據(jù)我所知，很多大廠買一個高質(zhì)量環(huán)境的預(yù)算都在幾萬到百萬美元級別。

為什么CodingAgent（如Devin、Cursor）能做得這么好？因為代碼環(huán)境最容易構(gòu)建，GitHub上有天然的Issue、PullRequest和單元測試（天然的Verifier）。但如果Agent要泛化到其他企業(yè)服務(wù)或日常場景，環(huán)境構(gòu)建的成本是極高的，價格范圍大概在幾萬美元到上百萬美元之間。它的成本和價格主要取決于以下幾個構(gòu)成部分：

第一，沙盒的逼真程度與數(shù)據(jù)量。比如你要克隆一個Airbnb的網(wǎng)頁，里面掛載1萬條民宿數(shù)據(jù)和掛載100萬條數(shù)據(jù)，價格是完全不一樣的。

第二，任務(wù)的構(gòu)建難度。有了沙盒和數(shù)據(jù)后，什么樣的任務(wù)對提升Agent能力真正有用？比如設(shè)定一個任務(wù)：“在紐約預(yù)訂一個200刀左右、適合開學(xué)術(shù)會議的房間”，設(shè)計這種高質(zhì)量任務(wù)本身就需要成本。

第三，驗證器（Verifier）的開發(fā)。這是最難的地方——如何通過代碼去自動驗證Agent是否真的找到了符合條件的好房間？通常任務(wù)和配套的Verifier是打包在一起售賣的。

所以，環(huán)境的價格是由沙盒的逼真度、底層數(shù)據(jù)量、任務(wù)的難度以及驗證器的復(fù)雜性共同決定的。

甲子光年：既然環(huán)境這么貴，是核心護(hù)城河，你們?yōu)槭裁催€要開源？

李國豪：主要有以下幾個角度的原因：

第一，反哺產(chǎn)品。我們的產(chǎn)品中一個很重要的部分，就是讓Agent使用Terminal來寫腳本、完成代碼任務(wù)（如數(shù)據(jù)分析、電腦操控等）。為了讓我們的產(chǎn)品變得更好，我們需要構(gòu)建更多這樣的訓(xùn)練數(shù)據(jù)。

第二，繁榮開源生態(tài)。我們希望開源領(lǐng)域能有更多這類數(shù)據(jù)出現(xiàn)，從而讓開源模型變得更強(qiáng)。實際上，我們這批數(shù)據(jù)已經(jīng)被用于一些開源模型的訓(xùn)練了，比如階躍星辰的朋友就和我們交流過，他們正在使用我們的數(shù)據(jù)訓(xùn)練模型。

第三，商業(yè)化展示。我們同時也在做這方面的商業(yè)化，為大模型公司構(gòu)建訓(xùn)練環(huán)境。開源這些環(huán)境，也是向大家展示我們在環(huán)境構(gòu)建方面的能力，建立信任。

第四，建設(shè)社區(qū)。擴(kuò)大（Scaleup）環(huán)境規(guī)模是一件極其困難且昂貴的事情，單靠我們一家小公司和社區(qū)是做不完的。我們希望通過開源，吸引更多有相同愿景的愛好者加入我們，或者啟發(fā)其他團(tuán)隊跟進(jìn)。只有這樣，開源模型才會更好，我們產(chǎn)品能用到的底層模型才會更強(qiáng)，最終才有可能實現(xiàn)我們所想象的——完全個性化、本地化的Agent的存在。

甲子光年：所以你認(rèn)為“環(huán)境規(guī)模”是Terminal Agents的關(guān)鍵瓶頸。同理類比大語言模型，訓(xùn)練數(shù)據(jù)越多，Scaling效應(yīng)越明顯，這又回歸到了你之前提到的Agent Scaling Law？

李國豪：對的。我們定義的Agent場景分為三個維度：一是Agent的數(shù)量與規(guī)模，二是環(huán)境的構(gòu)建與復(fù)雜性，三是自我演進(jìn)。環(huán)境是Agent Scaling Law里非常重要的一部分。

但它和傳統(tǒng)模型數(shù)據(jù)最大的區(qū)別在于：適合Agent使用的環(huán)境，在互聯(lián)網(wǎng)上并不是天然存在的。

比如，如何操控瀏覽器或手機(jī)來完成一個任務(wù)，這種交互軌跡在互聯(lián)網(wǎng)上是沒有現(xiàn)成答案的（不像數(shù)學(xué)推理題在教科書里有答案）。這就導(dǎo)致構(gòu)建它非常困難。為了實現(xiàn)Scaling，我們必須去主動構(gòu)建這些環(huán)境，包括設(shè)定任務(wù)、搭建沙盒，以及開發(fā)能夠驗證Agent做得對不對的驗證器（Verifier）。

甲子光年：這里可能有個誤區(qū)，比如我們要訓(xùn)練Agent去操控網(wǎng)頁訂酒店，Booking這樣的真實網(wǎng)站不是天然存在于互聯(lián)網(wǎng)上嗎？為什么不能直接用？

李國豪：真實網(wǎng)站確實存在，但它非常不適合用來做Agent訓(xùn)練。

首先是現(xiàn)實因素，真實網(wǎng)站通常會把你的Agent當(dāng)作機(jī)器人攔截（Block）掉。

其次，真實網(wǎng)站無法進(jìn)行狀態(tài)的回溯（Rollback）或分支（Branching），而且充滿隨機(jī)性。這極大地局限了Agent的訓(xùn)練。

所以在構(gòu)建Agent環(huán)境時，我們通常會去完全復(fù)刻一個網(wǎng)頁，讓研究人員擁有完全的控制權(quán)（包括控制前后端和數(shù)據(jù)庫），能夠自由地做分支和回溯。只有具備這種靈活度，才能高效地訓(xùn)練Agent。

甲子光年：你提到的Agent訓(xùn)練方法很類似強(qiáng)化學(xué)習(xí)，你是一個強(qiáng)化學(xué)習(xí)方法的信仰者嗎？怎么避免RL訓(xùn)練在開源社區(qū)里走向“刷榜/拼算力”的局面？

李國豪：我開始做AI的時候，確實是因為看到了強(qiáng)化學(xué)習(xí)在打游戲、下圍棋上的厲害之處，但我并不是任意一種方法的狂熱信仰者。我更多是從解決問題的角度出發(fā)。

現(xiàn)在環(huán)境最大的用途確實是被用來做強(qiáng)化學(xué)習(xí)，但也許到了2026年我們會發(fā)現(xiàn)，環(huán)境最大的用途并不是強(qiáng)化學(xué)習(xí)。這些環(huán)境同時也能被用在Agent的Pre-training（預(yù)訓(xùn)練）或Mid-training（中繼訓(xùn)練）階段。我們可以根據(jù)環(huán)境大規(guī)模并行，構(gòu)建大規(guī)模的Agent軌跡，這些軌跡甚至可以是非常rough（粗糙）的，不一定要在強(qiáng)化學(xué)習(xí)階段去使用。

4.非典型學(xué)霸的AGI狂想

甲子光年：聊聊你個人吧。看你的履歷，本科是哈爾濱工業(yè)大學(xué)電子信息工程專業(yè)，后來去了沙特阿卜杜拉國王科技大學(xué)（KAUST）讀博。為什么會有這樣的路徑選擇？

李國豪：其實我從小到大一直是個好奇心很重的人，但在做AI研究之前，我一直沒有找到具體的目標(biāo)。我本科的時候天天沉迷網(wǎng)絡(luò)游戲，逃課、掛科，績點非常低，3.0都不到，差點被退學(xué)。

后來讀研接觸到AI，發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)可以用來打游戲，甚至能造出一個比我打得還好的AI，我突然覺得這事太有意思了。再后來我覺得，實現(xiàn)AGI可能比打游戲還有意思。這是我人生中第一次找到想要堅持努力的方向。

決定讀博時已經(jīng)很晚了，因為績點太低，很多學(xué)校申請不了。機(jī)緣巧合下我去了沙特KAUST訪問，遇到了非常好的導(dǎo)師。而且KAUST的資源極其豐富，獎學(xué)金高、住別墅，最關(guān)鍵的是算力充足——我當(dāng)時一個人就能用幾十張甚至上百張A100卡，這在其他地方是不可能實現(xiàn)的。

甲子光年：你的研究興趣從強(qiáng)化學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)，一路演進(jìn)到大語言模型和Agent。為什么會發(fā)生這樣的轉(zhuǎn)變？

李國豪：最開始做AI的時候，我研究的是強(qiáng)化學(xué)習(xí)（RL），主要落地在無人駕駛和無人機(jī)領(lǐng)域。但我發(fā)現(xiàn)一個問題：強(qiáng)化學(xué)習(xí)Agent往往只能在單一領(lǐng)域訓(xùn)練和使用，極難泛化。比如訓(xùn)練一個賽車Agent，它甚至需要同一張地圖才能表現(xiàn)好，更不可能讓它去泛化到操控?zé)o人機(jī)。

那是2017、2018年左右，我認(rèn)為當(dāng)時的瓶頸不在于強(qiáng)化學(xué)習(xí)算法本身，而在于基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)架構(gòu)和表征學(xué)習(xí)沒做好。因此，我的研究方向發(fā)生了第一次轉(zhuǎn)變——去探索什么樣的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)能更好地泛化、解決跨領(lǐng)域問題。我當(dāng)時認(rèn)為圖神經(jīng)網(wǎng)絡(luò)（GNN）可能是通向AGI的一個重要方向，因為它可以對各種領(lǐng)域的問題進(jìn)行建模，比如分子藥物結(jié)構(gòu)、蛋白質(zhì)結(jié)構(gòu)、人類社交網(wǎng)絡(luò)等。同時，我也在做NAS（網(wǎng)絡(luò)架構(gòu)搜索）和AutoML相關(guān)的自動網(wǎng)絡(luò)架構(gòu)設(shè)計研究。

轉(zhuǎn)向大語言模型和Agent是因為中間有個插曲。我在ETH（蘇黎世聯(lián)邦理工學(xué)院）做過一個關(guān)于Robot Learning（機(jī)器人學(xué)習(xí)）的項目，研究如何讓Agent在未知空間里做目標(biāo)導(dǎo)航（Object Navigation）。在2020年左右，我發(fā)現(xiàn)可以用語言模型來很好地預(yù)測物理空間中物體的存在性和距離，從而指導(dǎo)機(jī)器人導(dǎo)航。這在我腦海里埋下了一顆種子：語言模型在解決泛化性問題上有巨大的潛力。

后來，模型架構(gòu)迎來了“大一統(tǒng)”，無論是視覺、圖神經(jīng)網(wǎng)絡(luò)還是語言模型領(lǐng)域，大家都在用Transformer。在ChatGPT問世的那一瞬間，我突然意識到，Transformer這種大一統(tǒng)的架構(gòu)，讓我們重新看到了實現(xiàn)通用Agent的可能性。它一定程度上解決了我最初想探索的“什么樣的神經(jīng)網(wǎng)絡(luò)架構(gòu)和表征學(xué)習(xí)能讓模型具備理解世界的能力”這個問題。有了理解世界的能力，才能解決Agent如何行動的問題。

所以，我的路線大概是：一開始讀博相信強(qiáng)化學(xué)習(xí)能通向AGI——發(fā)現(xiàn)表征學(xué)習(xí)是瓶頸，轉(zhuǎn)向圖神經(jīng)網(wǎng)絡(luò)模型架構(gòu)——大一統(tǒng)和ChatGPT出現(xiàn)后，發(fā)現(xiàn)語言模型的泛化能力解決了基礎(chǔ)問題——再次切換方向，回歸到做基于大語言模型的Agent。

甲子光年：你現(xiàn)在怎么看大語言模型的Transformer架構(gòu)？它會是一統(tǒng)天下的終極解嗎？

李國豪：Transformer最大的問題還是效率，它在神經(jīng)網(wǎng)絡(luò)里沒有記憶，導(dǎo)致推理時上下文不斷增加，成本極高。

我覺得如果未來真的存在范式級的變化，那它必須是“超越神經(jīng)網(wǎng)絡(luò)范疇”的。

舉個例子，我想象中的一種新架構(gòu)是：在預(yù)訓(xùn)練階段，Agent不僅有神經(jīng)網(wǎng)絡(luò)的大腦，還有非神經(jīng)網(wǎng)絡(luò)的“身體”（比如它能操控的CPU、Memory、操作系統(tǒng)）。在訓(xùn)練過程中，Agent能否構(gòu)建出自己的系統(tǒng)內(nèi)核？基于這個內(nèi)核，它自己寫編譯器、寫軟件、自己接入互聯(lián)網(wǎng)。

這種“神經(jīng)網(wǎng)絡(luò)+符號系統(tǒng)/計算系統(tǒng)”的、可以自我學(xué)習(xí)和演進(jìn)的系統(tǒng)，才可能帶來真正的范式變化。僅僅魔改神經(jīng)網(wǎng)絡(luò)架構(gòu)，是遠(yuǎn)遠(yuǎn)不夠的。

甲子光年：最后一個問題，你最喜歡的一本書是什么？

李國豪：對我做CAMEL啟發(fā)最大的是馬文·明斯基的《The Society of Mind》（心智社會）。

這本書非常深入地剖析了人類智能是怎么來的。它里面有一個核心觀點：人類的智能來源于多樣性（Diversity）。

未來的Agent社會其實也一樣。我們?nèi)绾巫孉gent進(jìn)化？如何跟人類協(xié)作？如何擁有個性化的Agent？這都需要多樣性。這本書里關(guān)于記憶系統(tǒng)、長思維鏈（Long-CoT）、Agent通訊、甚至世界模型的討論，在今天看來都極具預(yù)見性。我非常推薦所有做AI Agent的人去讀一讀。

（封面圖來源：受訪者）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.