網易首頁 > 網易號 > 正文申請入駐

楊立昆等聯合發文：為何AI還不能自學習？如何實現？

2026-03-21 16:09:11　來源: 人工智能學家

北京舉報

分享至

當前，人工智能（AI）在自主學習方面存在一個根本性缺陷：缺乏像人一樣學習的能力。

兒童從出生起就在學習和行動，他們能靈活選擇關注什么、學習什么、何時行動、何時觀察，并在不同學習模式間自由切換。

相比之下，AI 模型一旦部署，它的學習模式就固定了，每一次適配，都需要一支人類工程師團隊重新介入，負責準備數據、構建訓練?案并根據性能指標進?調整。換句話說，AI 的自主學習能力被“外包”給了人類。

最近，來自 Meta、紐約大學和加州大學伯克利分校的Emmanuel Dupoux、楊立昆（Yann LeCun）、Jitendra Malik三位研究者，對當前 AI 范式提出了系統性批判，并給出了一套受人類和動物認知啟發的學習架構。

該框架整合了基于觀察的學習（System A）和基于主動行為的學習（System B），并能夠根據內部生成的元控制信號在這些學習模式之間靈活切換。

此外，他們也借鑒生物體在進化與發育時間尺度上適應現實世界動態環境的方式，探討了該框架的構建方法。

論文鏈接：https://arxiv.org/pdf/2603.15381

為什么AI還無法自主學習？

那么，當前的 AI 難以實現自學習，問題究竟出在哪里？研究團隊在論文中點出了4 個結構性困境：

高質量文本數據的供給已接近天花板；
由于缺乏與環境的真實交互，模型無法學習超越人類現有知識的新內容；
過度依賴語言，而忽視了空間感知、具身認知以及對物理世界的扎根推理物理世界中的空間、具身和接地（grounded）推理；
模型在部署之后便停止自我改進，無法實現終身學習。

在論文中，研究團隊詳細探討了限制自主學習發展的三方面技術障礙，并提出了可能的解決方案。

1.學習范式的碎片化

現有學習方法分散于各個子領域，彼此之間缺乏交互，難以整合到統一框架之中。研究團隊認為，整合的起點是認識到兩種基本學習模式：通過觀察學習（System A）與通過行動學習（System B），系統梳理兩者之間可能的交互方式。

2.學習能力的外部化

當前 AI 的學習實際上是由人類完成的。數據篩選、訓練方案設計、性能監控，全部依賴人類 MLOps 流水線。為此，他們提出了元控制架構（System M），這是一個協調各學習組件間信息流的中央調度器，能夠自動重現通常需要人工完成的學習與數據過濾流程。

3.缺乏規模化構建方法

研究團隊表示，目前還沒有一種有效手段在大規模架構上實現上述組件的聯合訓練。他們提出了一種受進化機制啟發的雙層優化方法，聯合學習元控制模型與 System A、System B 的初始狀態，以實現魯棒的真實世界性能。

圖｜標準機器學習（左）：機器本?并不能學習，它需要?條由研究?程師和數據科學家組成的流?線，負責收集、整理和處理各種類型的數據，每?種數據都?于依次訓練模型的不同組件，每個組件都使?專?設計的損失函數和獎勵函數。這樣一來，機器就無法從自身經驗中學習。自主機器學習（右）：Agent 直接通過與世界的交互進行學習；數據源由 Agent 自身通過不同的學習模式（通過觀察、行動學習，以及可擴展為更高階的模式，例如通過語言互動或自我博弈進行學習）生成。團隊提出的架構包含一個元控制器，使 Agent 能夠在真實世界中運行的同時進行學習。(圖片來自 ChatGPT）。

讓機器像人一樣學習

具體而言，研究團隊的核心思路，是將學習拆解為兩種基本模式，再由元控制系統動態調度兩者之間的協作。前兩者是學習模式，后者是調度兩者的元控制器。

System A：觀察學習

System A 對應機器學習中的自監督學習（SSL）。嬰兒 6 個月時能同時辨別人類與猴子面孔，至 9 個月則專精于人類面孔；新生兒能區分多種語言的音素，至 6 至 12 個月逐漸專精于母語語音，正是這一機制的典型體現。

System A 的優勢在于可擴展性強，能有效擴展處理大規模數據集，能夠提取具有層次感的抽象特征，并在各類下游任務中表現出強大的遷移能力。局限在于依賴人工設計的數據分布與任務生成器，缺乏主動決定獲取哪些數據的內置機制，表征與 Agent 的行動能力脫節，導致學習成果難以與現實行為場景有效對接，在區分相關性與因果關系時存在顯著困難。

System B：行動學習

System B 對應強化學習（RL）與控制理論。System B 算法類包含通過交互運作的學習機制。行動是指通過一系列動作干預環境以達成特定目標，即在時間范圍 T 內優化獎勵 r。例如，兒童學習走路并非模仿他人步態，而是經由翻滾、爬行等非雙足階段，在反復試錯中逐步發展出成熟步態。

System B 的優勢在于天然適用于實時自適應行為，能夠直接從稀疏或延遲結果中學習；但缺點是樣本效率極低，即使學習簡單任務也常需大量交互；在高維或開放式動作空間中表現欠佳；且高度依賴具有明確定義的獎勵函數和可解釋的動作，而這些在自然環境中往往難以實現。

兩個System的雙向支撐

從直觀層面來看，當可能的動作數量有限、世界狀態易于追蹤時，通過行動學習相對容易。但在現實中，動作空間隨自由度的增加呈指數級擴張，世界狀態也幾乎無窮無盡。這正是 System A 能夠發揮作用的地方，通過為狀態與動作提供壓縮表征、構建預測世界模型，以及生成內在獎勵信號，使 System B 的學習與規劃變得更加可處理。

System A 為 System B 提供三類關鍵支撐：第一，通過自監督學習方法，將原始感知數據（像素或聲波）壓縮為更抽象、更緊湊的狀態與動作表征，降低強化學習的搜索空間維度；第二，構建預測世界模型，捕捉環境動態，當模型以自身動作為條件時，可將 System B 從無模型強化學習轉變為基于模型的規劃，以規劃代替盲目試錯；第三，提供預測誤差的內在獎勵信號，引導 Agent 高效探索，并在獲得足夠置信后轉向利用。

System B 同樣反過來支撐 System A。System A 的局限在于依賴被動或靜態數據，沒有引導或數據篩選，它無法從無信息量、嘈雜或無關的數據流中學到有用的表征。System B 通過主動行為，可以從兩個方向支持 System A 的學習：通過主動自監督學習顯式優化 System A 的表征能力。例如選擇不確定性高或預測誤差大的數據片段，或通過干預行動揭示被動觀察無法觸及的因果關系；通過目標導向的自監督學習優化自身任務獎勵，將數據作為副產品提供給 System A，為其表征提供現實世界的行為錨點。

圖｜System A 和 System B 之間的交互模式概述：System A 根據過去狀態和動作向 System B 提供未來狀態的預測，并提供可能動作的層級抽象，以及可?于探索/好奇的 SSL 損失函數。System B 通過其動作為 System A 提供豐富且與任務相關的輸?，供其學習。

然而，兩個 System 之間的協作并非是自然發生的。研究團隊基于兒童“模仿學習”的例子，指出這一能力依賴于 System A 與 System B 的緊密集成與協同運作，直觀呈現了兩個 System 協作的復雜性。

圖 | 模仿學習中的學習模式交互。（a）自我博弈（Self Play）。System B 向 System A 提供動作和狀態軌跡，System A 據此學習世界模型，并向 System B 提供基于預測的內在獎勵信號。（b）社會觀察。System B 將注意力引導到為 System A 提供復雜軌跡（用于推斷潛在動作）的對等節點。（c）重定向模仿。System A 學會將外在行為和狀態映射到以自我為中心的行為和狀態，幫助 System B 實現目標導向的行為。（圖?來? ChatGPT）

System M：元控制

System M 作為中央調度器，并不直接處理原始感知輸入或運動指令，而是監控三類低維內部元狀態：預測誤差、不確定性、新奇度等認知信號。并據此動態連接或斷開 System A、System B 與情節記憶之間的數據通路，即時組裝和拆解學習與推理流水線。

System M 的就位還讓兩種高階學習模式成為可能。通過交流學習，識別社會性觸發信號并根據信源可信度動態調節學習權重；通過想象學習，以記憶替代感官輸入、以內部模擬替代真實動作，對應生物中的記憶回放與睡眠鞏固機制。

圖 | 認知架構藍圖，其中 System M 作為?主協調器。System M 作為中央控制平臺，可?動執?數據路由和訓練?案。

如何從零構建？

A、B、M 三系統的藍圖已然成型，但隨之而來的是一個冷啟動難題：System A 依賴 System B 產生的數據，System B 依賴 System A 提供的感知結構，System M 又依賴兩者產生的誤差信號。三者相互依賴，學習如何開始？

研究團隊借鑒生物學中進化與發育尺度的區分，提出雙層優化框架來破解這一困境。內層對應發育尺度：智能體在環境中交互，System A 與 B 在固定的 System M 調控下持續更新參數。外層對應進化尺度：通過評估智能體整個生命周期的適應度，優化系統的初始元參數，類比于遺傳信息對神經系統初始狀態的規定。

整個系統中唯一需要人工設計的，只有適應度函數與訓練環境。參數初始化、數據過濾、學習課程，全部由 System M 自動提供。

圖 | Evo/Devo 框架用于構建自主學習 Agent。學習過程分為兩個層級：在發展層級中，學習者架構（A、B和M）通過元參數 ? 進行初始化。A 和 B 通過與由固定控制器M控制的環境交互來更新參數；在進化層級中，phi 參數會持續更新以優化系統生命周期內的適應度函數 L。（圖片來自ChatGPT）

為什么依然很難？

研究團隊表示，自 AI 誕生以來，打造一臺像兒童一樣學習的機器始終是這一領域的核心愿景，但實現路上仍橫亙著多重現實障礙：

模擬環境。訓練緊耦合的 A、B、M 三系統，需要同時滿足兩個要求：足夠真實又足夠快速。在大規模情況下，引入社會性 Agent 或實現師生交互尤其具有挑戰性。

評估體系。當 Agent 趨于通用，任務特定基準便逐漸失去診斷價值。論文建議轉向以人類兒童學習速度為參照的評估體系。

雙層優化的可擴展性。在復雜環境中優化終身學習過程，既需要大量計算資源，又對課程設計高度敏感。

倫理問題。自主學習在靈活性、安全性與社會監管之間引入了全新的權衡。

自主性越強，系統與預期目標的對齊就越難保證，這可能需要明確的審計機制與對 System M 的干預能力。
依賴內部代理信號驅動的系統，可能像生物一樣因信號與環境錯位而產生目標偏移乃至類似成癮或自我傷害的行為。
隨著 Agent 行為愈發類人，用戶越容易產生情感依附與錯位信任，應對這一風險需要對系統能力與局限性保持充分透明。
一旦軀體信號被以類似疼痛或恐懼的方式處理，此類 Agent 的道德地位問題將真正無可回避。

這些問題遠超當前 AI 技術所面臨的倫理挑戰，自主學習在靈活性、安全性與社會監管之間引入了全新的權衡，沒有一項可以被輕易忽視。

未來與展望

A 與 B 的深度整合已在受限領域取得成功，在 MuZero、Dreamer 等系統將學習到的潛在動力學與動作規劃結合，實現了超人類水平的游戲性能；視覺-語言-動作（VLA）模型也正將大規模被動預訓練表征直接用于引導機器人運動執行。然而，這些系統的學習方案與運行邏輯依然由人類工程師固定設定，遠不及生物體中自主、流動的協作方式。

研究團隊認為，距離完全自主、廣域學習系統的實現，可能還有數十年時間。自主學習不是 AI 的加分項，而是其在真實世界可靠運行的必要前提。

研究團隊同時強調，構建這類系統的過程本身就具有獨立的科學價值，這將為我們理解生物有機體如何在真實環境中學習與適應提供不可替代的定量模型，并推動 AI 與認知科學的雙向深度融合。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.