網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

<span class="js_title_inner">探索最先進(jìn)的強(qiáng)化學(xué)習(xí)算法

2026-01-30 16:47:17　來(lái)源: CreateAMind

上海舉報(bào)

分享至

Discovering state-of-the-art reinforcement learning algorithms

探索最先進(jìn)的強(qiáng)化學(xué)習(xí)算法

https://www.nature.com/articles/s41586-025-09761-x

人類和其他動(dòng)物使用強(qiáng)大的強(qiáng)化學(xué)習(xí)（RL）機(jī)制，這些機(jī)制是通過(guò)進(jìn)化在許多代的試錯(cuò)過(guò)程中發(fā)現(xiàn)的。相比之下，人工智能體通常使用手工設(shè)計(jì)的學(xué)習(xí)規(guī)則進(jìn)行學(xué)習(xí)。盡管數(shù)十年來(lái)人們對(duì)此抱有濃厚興趣，但自主發(fā)現(xiàn)強(qiáng)大RL算法的目標(biāo)一直難以實(shí)現(xiàn)1??。本文表明，機(jī)器有可能發(fā)現(xiàn)一種最先進(jìn)的RL規(guī)則，其性能優(yōu)于手工設(shè)計(jì)的規(guī)則。這一成果是通過(guò)對(duì)大量復(fù)雜環(huán)境中智能體群體的累積經(jīng)驗(yàn)進(jìn)行元學(xué)習(xí)而實(shí)現(xiàn)的。具體而言，我們的方法發(fā)現(xiàn)了用于更新智能體策略和預(yù)測(cè)的RL規(guī)則。在我們的大規(guī)模實(shí)驗(yàn)中，所發(fā)現(xiàn)的規(guī)則在公認(rèn)的Atari基準(zhǔn)測(cè)試上超越了所有現(xiàn)有規(guī)則，并且在發(fā)現(xiàn)過(guò)程中未曾見(jiàn)過(guò)的具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上，其表現(xiàn)也優(yōu)于多種最先進(jìn)的RL算法。我們的研究結(jié)果表明，先進(jìn)人工智能所需的RL算法可能很快將能夠從智能體的經(jīng)驗(yàn)中自動(dòng)發(fā)現(xiàn)，而非依賴于手工設(shè)計(jì)。

人工智能的主要目標(biāo)是設(shè)計(jì)出能夠像人類一樣在復(fù)雜環(huán)境中進(jìn)行預(yù)測(cè)并采取行動(dòng)以實(shí)現(xiàn)目標(biāo)的智能體。許多最成功的智能體基于強(qiáng)化學(xué)習(xí)（RL），即智能體通過(guò)與環(huán)境交互進(jìn)行學(xué)習(xí)。數(shù)十年的研究產(chǎn)生了日益高效的RL算法，從而在人工智能領(lǐng)域取得眾多里程碑式成果，包括掌握圍棋?、國(guó)際象棋?、《星際爭(zhēng)霸》?和《我的世界》1?等復(fù)雜競(jìng)技游戲、發(fā)明新的數(shù)學(xué)工具11，以及控制復(fù)雜的物理系統(tǒng)12。

與人類不同——人類的學(xué)習(xí)機(jī)制是通過(guò)生物進(jìn)化自然發(fā)現(xiàn)的——RL算法通常由人工手動(dòng)設(shè)計(jì)。這一過(guò)程通常緩慢而費(fèi)力，并受限于對(duì)人類知識(shí)與直覺(jué)的依賴。盡管已有若干嘗試致力于自動(dòng)發(fā)現(xiàn)學(xué)習(xí)算法1??，但尚無(wú)方法被證明具備足夠的效率與通用性以取代手工設(shè)計(jì)的RL系統(tǒng)。

在本研究中，我們提出了一種自主發(fā)現(xiàn)RL規(guī)則的方法，該方法僅通過(guò)多代智能體與各類環(huán)境交互所積累的經(jīng)驗(yàn)實(shí)現(xiàn)（圖1a）。所發(fā)現(xiàn)的RL規(guī)則在多種具有挑戰(zhàn)性的RL基準(zhǔn)測(cè)試上達(dá)到了最先進(jìn)性能。我們的方法相較于先前工作在兩個(gè)維度上形成對(duì)比：第一，先前方法通常在狹窄的RL規(guī)則空間中進(jìn)行搜索（例如超參數(shù)13,1?或策略損失1,?），而我們的方法允許智能體探索表達(dá)能力更強(qiáng)的潛在RL規(guī)則空間；第二，先前工作聚焦于在簡(jiǎn)單環(huán)境（例如網(wǎng)格世界3,1?）中進(jìn)行元學(xué)習(xí)，而我們的方法則在更復(fù)雜多樣且規(guī)模更大的環(huán)境中進(jìn)行元學(xué)習(xí)。

為選擇一個(gè)通用的發(fā)現(xiàn)空間，我們觀察到標(biāo)準(zhǔn)RL算法的核心組成部分是一條更新規(guī)則，該規(guī)則將一個(gè)或多個(gè)預(yù)測(cè)以及策略本身朝著某些目標(biāo)進(jìn)行更新，而這些目標(biāo)是未來(lái)獎(jiǎng)勵(lì)與未來(lái)預(yù)測(cè)等量的函數(shù)。基于不同目標(biāo)的RL規(guī)則示例包括時(shí)序差分學(xué)習(xí)1?、Q學(xué)習(xí)1?、近端策略優(yōu)化（PPO）1?、輔助任務(wù)1?、后繼特征2?以及分布強(qiáng)化學(xué)習(xí)21。在每種情況下，目標(biāo)的選擇決定了預(yù)測(cè)的本質(zhì)，例如它們是否成為價(jià)值函數(shù)、模型或后繼特征。

在我們的框架中，一條RL規(guī)則由一個(gè)元網(wǎng)絡(luò)（meta-network）表示，該網(wǎng)絡(luò)決定智能體應(yīng)將其預(yù)測(cè)與策略朝向哪些目標(biāo)進(jìn)行更新（圖1c）。這使得系統(tǒng)能夠在沒(méi)有預(yù)定義語(yǔ)義的情況下發(fā)現(xiàn)有用的預(yù)測(cè)，以及這些預(yù)測(cè)的使用方式。原則上，該系統(tǒng)可能重新發(fā)現(xiàn)以往的RL規(guī)則，但其靈活的函數(shù)形式也允許智能體發(fā)明可能專門適應(yīng)特定興趣環(huán)境的新RL規(guī)則。

在發(fā)現(xiàn)過(guò)程中，我們實(shí)例化一個(gè)智能體群體，其中每個(gè)智能體與其自身所處的環(huán)境實(shí)例進(jìn)行交互，這些環(huán)境取自一組多樣化的挑戰(zhàn)性任務(wù)。每個(gè)智能體的參數(shù)根據(jù)當(dāng)前的RL規(guī)則進(jìn)行更新。隨后我們采用元梯度方法13逐步改進(jìn)該RL規(guī)則，使其能夠引導(dǎo)產(chǎn)生性能更優(yōu)的智能體。

我們的大規(guī)模實(shí)證結(jié)果表明，我們所發(fā)現(xiàn)的RL規(guī)則（我們稱之為DiscoRL）在元學(xué)習(xí)所用的環(huán)境中超越了所有現(xiàn)有RL規(guī)則。值得注意的是，這包括Atari游戲22——這或許是RL領(lǐng)域最成熟且信息量最豐富的基準(zhǔn)測(cè)試。此外，DiscoRL在發(fā)現(xiàn)過(guò)程中從未接觸過(guò)的其他若干挑戰(zhàn)性基準(zhǔn)測(cè)試（例如ProcGen23）上也達(dá)到了最先進(jìn)性能。我們還證明，隨著發(fā)現(xiàn)過(guò)程中使用更多樣化和更復(fù)雜的環(huán)境，DiscoRL的性能與通用性會(huì)進(jìn)一步提升。最后，我們的分析表明，DiscoRL發(fā)現(xiàn)了獨(dú)特的預(yù)測(cè)語(yǔ)義，這些語(yǔ)義不同于價(jià)值函數(shù)等現(xiàn)有RL概念。據(jù)我們所知，這是首次提供實(shí)證證據(jù)表明：在通用性與效率兩方面超越手工設(shè)計(jì)的RL算法的目標(biāo)終于觸手可及。

發(fā)現(xiàn)方法

我們的發(fā)現(xiàn)方法涉及兩種類型的優(yōu)化：智能體優(yōu)化（agent optimization）與元優(yōu)化（meta-optimization）。智能體參數(shù)通過(guò)將其策略與預(yù)測(cè)朝向RL規(guī)則所產(chǎn)生的目標(biāo)進(jìn)行更新而得到優(yōu)化；與此同時(shí)，RL規(guī)則的元參數(shù)則通過(guò)更新其目標(biāo)以最大化智能體的累積獎(jiǎng)勵(lì)而得到優(yōu)化。

智能體網(wǎng)絡(luò)

大量強(qiáng)化學(xué)習(xí)研究關(guān)注智能體應(yīng)當(dāng)做出何種預(yù)測(cè)（例如價(jià)值），以及應(yīng)使用何種損失函數(shù)來(lái)學(xué)習(xí)這些預(yù)測(cè)（例如時(shí)序差分（TD）學(xué)習(xí)）并改進(jìn)策略（例如策略梯度）。我們并未手工設(shè)計(jì)這些要素，而是定義了一個(gè)無(wú)預(yù)定義語(yǔ)義的、表達(dá)能力豐富的預(yù)測(cè)空間，并通過(guò)元網(wǎng)絡(luò)（meta-network）來(lái)表示并元學(xué)習(xí)智能體所需優(yōu)化的內(nèi)容。理想情況下，該設(shè)計(jì)應(yīng)既能保留表達(dá)現(xiàn)有RL算法核心思想的能力，又能支持大量新穎算法可能性的探索。

為此，我們令由參數(shù) θ 參數(shù)化的智能體在輸出策略（π）之外，還輸出兩類預(yù)測(cè)：一個(gè)以觀測(cè)為條件的向量預(yù)測(cè) y(s) ∈ ??（維度 n 任意）和一個(gè)以動(dòng)作為條件的向量預(yù)測(cè) z(s, a) ∈ ??（維度 m 任意），其中 s 與 a 分別表示觀測(cè)與動(dòng)作（圖1b）。這些預(yù)測(cè)的形式源于預(yù)測(cè)與控制之間的根本性區(qū)分1?。例如，價(jià)值函數(shù)通常被劃分為用于預(yù)測(cè)的狀態(tài)價(jià)值函數(shù) v(s) 與用于控制的動(dòng)作價(jià)值函數(shù) q(s, a)；RL中的許多其他概念，如獎(jiǎng)勵(lì)與后繼特征，同樣具有以觀測(cè)為條件的版本與以動(dòng)作為條件的版本。因此，預(yù)測(cè) (y, z) 的函數(shù)形式具有足夠的通用性，能夠表示（但不限于此）RL中眾多既有的基本概念。

除待發(fā)現(xiàn)的預(yù)測(cè)外，在我們的大多數(shù)實(shí)驗(yàn)中，智能體還會(huì)生成具有預(yù)定義語(yǔ)義的預(yù)測(cè)。具體而言，智能體會(huì)輸出一個(gè)動(dòng)作價(jià)值函數(shù) q(s,?a) 以及一個(gè)以動(dòng)作為條件的輔助策略預(yù)測(cè) p(s,?a)?。這一設(shè)計(jì)促使發(fā)現(xiàn)過(guò)程聚焦于通過(guò) y 與 z 發(fā)掘新的概念。

元網(wǎng)絡(luò)

現(xiàn)代強(qiáng)化學(xué)習(xí)規(guī)則中有很大一部分采用強(qiáng)化學(xué)習(xí)的前向視角（forward view）1?。在此視角下，RL規(guī)則接收從時(shí)間步 t 到 t?+?n 的軌跡，并利用該信息更新智能體的預(yù)測(cè)或策略。它們通常將預(yù)測(cè)或策略朝向自舉（bootstrapped）目標(biāo)進(jìn)行更新，即朝向未來(lái)的預(yù)測(cè)進(jìn)行更新。

相應(yīng)地，我們的RL規(guī)則采用一個(gè)元網(wǎng)絡(luò)（圖1c）作為函數(shù)，用以確定智能體應(yīng)將其預(yù)測(cè)與策略朝向哪些目標(biāo)進(jìn)行更新。為在時(shí)間步 t 生成目標(biāo)，元網(wǎng)絡(luò)接收從時(shí)間步 t 到 t?+?n 的智能體預(yù)測(cè)與策略軌跡，以及獎(jiǎng)勵(lì)和回合終止信號(hào)作為輸入。元網(wǎng)絡(luò)使用標(biāo)準(zhǔn)的長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）2?處理這些輸入，盡管也可采用其他架構(gòu)（擴(kuò)展數(shù)據(jù)圖3）。

元網(wǎng)絡(luò)的輸入與輸出設(shè)計(jì)保留了手工設(shè)計(jì)RL規(guī)則的若干理想特性。第一，元網(wǎng)絡(luò)能夠處理任意觀測(cè)以及任意規(guī)模的離散動(dòng)作空間。這之所以可能，是因?yàn)樵W(wǎng)絡(luò)并不直接接收觀測(cè)作為輸入，而僅通過(guò)預(yù)測(cè)間接接收；此外，它通過(guò)對(duì)動(dòng)作維度共享權(quán)重來(lái)處理與動(dòng)作相關(guān)的輸入與輸出，從而能夠泛化至截然不同的環(huán)境。第二，元網(wǎng)絡(luò)對(duì)智能體網(wǎng)絡(luò)的設(shè)計(jì)保持中立，因?yàn)樗鼉H“看到”智能體網(wǎng)絡(luò)的輸出。只要智能體網(wǎng)絡(luò)產(chǎn)生所需形式的輸出（π, y, z），所發(fā)現(xiàn)的RL規(guī)則即可泛化至任意的智能體架構(gòu)或規(guī)模。第三，元網(wǎng)絡(luò)所定義的搜索空間包含了自舉（bootstrapping）這一重要的算法思想。第四，由于元網(wǎng)絡(luò)同時(shí)處理策略與預(yù)測(cè)，它不僅能夠元學(xué)習(xí)輔助任務(wù)2?，還能直接利用預(yù)測(cè)來(lái)更新策略（例如，為方差縮減提供基線）。最后，輸出目標(biāo)在表達(dá)能力上嚴(yán)格強(qiáng)于輸出標(biāo)量損失函數(shù)，因?yàn)樵撛O(shè)計(jì)將Q學(xué)習(xí)等半梯度方法也納入了搜索空間。

在繼承標(biāo)準(zhǔn)RL算法這些特性的基礎(chǔ)上，豐富的參數(shù)化神經(jīng)網(wǎng)絡(luò)使所發(fā)現(xiàn)的規(guī)則能夠?qū)崿F(xiàn)潛在效率更高、上下文適應(yīng)性更強(qiáng)的算法。

智能體優(yōu)化

智能體的參數(shù)（θ）通過(guò)最小化其預(yù)測(cè)與策略同元網(wǎng)絡(luò)所生成目標(biāo)之間的距離來(lái)進(jìn)行更新。智能體的損失函數(shù)可表示為：

元優(yōu)化

實(shí)證結(jié)果

我們?cè)谝唤M復(fù)雜環(huán)境中，利用大規(guī)模智能體群體實(shí)現(xiàn)了所提出的發(fā)現(xiàn)方法。我們將所發(fā)現(xiàn)的RL規(guī)則命名為DiscoRL。在評(píng)估中，對(duì)于包含多個(gè)任務(wù)的基準(zhǔn)測(cè)試，我們采用歸一化得分的四分位均值（interquartile mean, IQM）來(lái)衡量綜合性能，該指標(biāo)已被證明具有統(tǒng)計(jì)可靠性2?。

Atari

Atari基準(zhǔn)測(cè)試22是強(qiáng)化學(xué)習(xí)歷史上研究最為廣泛的基準(zhǔn)之一，包含57款A(yù)tari 2600游戲。這些游戲要求復(fù)雜的策略、規(guī)劃能力以及長(zhǎng)期信用分配，對(duì)人工智能體而言掌握它們并非易事。過(guò)去十年間，已有數(shù)百種RL算法在該基準(zhǔn)上接受評(píng)估，其中包括MuZero?與Dreamer1?。

為探究直接從該基準(zhǔn)中發(fā)現(xiàn)的規(guī)則所能達(dá)到的性能強(qiáng)度，我們對(duì)一條RL規(guī)則Disco57進(jìn)行了元訓(xùn)練，并在同一組57款游戲上對(duì)其進(jìn)行評(píng)估（圖2a）。在此評(píng)估中，我們采用的網(wǎng)絡(luò)架構(gòu)參數(shù)量與MuZero所用規(guī)模相當(dāng)，大于發(fā)現(xiàn)過(guò)程中所使用的網(wǎng)絡(luò)；因此，所發(fā)現(xiàn)的RL規(guī)則必須能夠泛化至該設(shè)置。Disco57取得了13.86的IQM得分，在Atari基準(zhǔn)上超越了所有現(xiàn)有RL規(guī)則?,1?,1?,3?，且相較于最先進(jìn)的MuZero具有顯著更高的實(shí)際運(yùn)行效率（擴(kuò)展數(shù)據(jù)圖4）。

這一結(jié)果表明，我們的方法能夠從如此具有挑戰(zhàn)性的環(huán)境中自動(dòng)發(fā)現(xiàn)出強(qiáng)大的RL規(guī)則。

泛化能力

我們進(jìn)一步通過(guò)在多種保留基準(zhǔn)測(cè)試（held-out benchmarks）上評(píng)估Disco57，來(lái)探究其泛化能力。這些基準(zhǔn)測(cè)試包含智能體在發(fā)現(xiàn)過(guò)程中從未接觸過(guò)的觀測(cè)與動(dòng)作空間、多樣的環(huán)境動(dòng)態(tài)、各異的獎(jiǎng)勵(lì)結(jié)構(gòu)以及未曾見(jiàn)過(guò)的智能體網(wǎng)絡(luò)架構(gòu)。元訓(xùn)練的超參數(shù)僅在訓(xùn)練環(huán)境（即Atari）上進(jìn)行調(diào)優(yōu)，以防止該規(guī)則被隱式地針對(duì)保留基準(zhǔn)測(cè)試進(jìn)行優(yōu)化。

在ProcGen23基準(zhǔn)測(cè)試上的結(jié)果（圖2b及擴(kuò)展數(shù)據(jù)表2）表明，盡管Disco57在發(fā)現(xiàn)過(guò)程中從未與ProcGen環(huán)境交互，其性能仍優(yōu)于所有已發(fā)表的現(xiàn)有方法，包括MuZero?與PPO1?。該基準(zhǔn)測(cè)試包含16款程序生成的二維游戲。此外，Disco57在Crafter31任務(wù)上取得了具有競(jìng)爭(zhēng)力的性能（圖2d及擴(kuò)展數(shù)據(jù)表5），在該任務(wù)中智能體需要學(xué)習(xí)廣泛的能力以求生存。在NetHack NeurIPS 2021挑戰(zhàn)賽32中（超過(guò)40支隊(duì)伍參賽），Disco57位列排行榜第三名（圖2e及擴(kuò)展數(shù)據(jù)表4）。與競(jìng)賽中提交的頂尖智能體33不同，Disco57未使用任何領(lǐng)域特定知識(shí)來(lái)定義子任務(wù)或進(jìn)行獎(jiǎng)勵(lì)塑形。為進(jìn)行公平比較，我們使用與Disco57相同的設(shè)置訓(xùn)練了一個(gè)基于重要性加權(quán)演員-學(xué)習(xí)者架構(gòu)（IMPALA）算法3?的智能體。IMPALA的性能明顯更弱，這表明Disco57發(fā)現(xiàn)了一種比標(biāo)準(zhǔn)方法更高效的RL規(guī)則。除環(huán)境外，Disco57對(duì)多種智能體特定設(shè)置（如網(wǎng)絡(luò)規(guī)模、回放比例及評(píng)估中的超參數(shù)）也表現(xiàn)出穩(wěn)健性（擴(kuò)展數(shù)據(jù)圖1）。

復(fù)雜且多樣的環(huán)境

為理解復(fù)雜多樣環(huán)境對(duì)發(fā)現(xiàn)過(guò)程的重要性，我們進(jìn)一步擴(kuò)展了元學(xué)習(xí)的規(guī)模，引入了更多環(huán)境。具體而言，我們利用包含Atari、ProcGen和DMLab-303?基準(zhǔn)測(cè)試在內(nèi)的103個(gè)更具多樣性的環(huán)境，發(fā)現(xiàn)了另一條規(guī)則Disco103。該規(guī)則在Atari基準(zhǔn)測(cè)試上表現(xiàn)與Disco57相當(dāng)，同時(shí)在圖2中所有其他已見(jiàn)與未見(jiàn)的基準(zhǔn)測(cè)試上均提升了得分。特別是，Disco103在Crafter上達(dá)到了人類水平性能，并在Sokoban3?上接近MuZero的最先進(jìn)性能。這些結(jié)果表明，用于發(fā)現(xiàn)的環(huán)境集合越復(fù)雜多樣，所發(fā)現(xiàn)的規(guī)則就越強(qiáng)大且泛化能力越強(qiáng)，即使在發(fā)現(xiàn)過(guò)程中未曾見(jiàn)過(guò)的保留環(huán)境中亦是如此。與發(fā)現(xiàn)Disco57相比，發(fā)現(xiàn)Disco103僅需更換環(huán)境集合，無(wú)需對(duì)發(fā)現(xiàn)方法本身進(jìn)行任何改動(dòng)。這表明發(fā)現(xiàn)過(guò)程本身具有穩(wěn)健性、可擴(kuò)展性與通用性。

為進(jìn)一歩驗(yàn)證使用復(fù)雜環(huán)境的重要性，我們?cè)?7個(gè)網(wǎng)格世界任務(wù)上運(yùn)行了我們的發(fā)現(xiàn)過(guò)程，這些任務(wù)是對(duì)先前工作3的擴(kuò)展，并采用與Disco57相同的元學(xué)習(xí)設(shè)置。新發(fā)現(xiàn)的規(guī)則在Atari基準(zhǔn)測(cè)試上表現(xiàn)顯著更差（圖3c）。這驗(yàn)證了我們關(guān)于直接從復(fù)雜且具挑戰(zhàn)性的環(huán)境中進(jìn)行元學(xué)習(xí)重要性的假設(shè)。盡管使用此類環(huán)境至關(guān)重要，但無(wú)需精心篩選“正確”的環(huán)境集合；我們僅使用了文獻(xiàn)中流行的基準(zhǔn)測(cè)試。

效率與可擴(kuò)展性

為深入理解我們方法的可擴(kuò)展性與效率，我們?cè)诎l(fā)現(xiàn)過(guò)程中不同階段評(píng)估了多個(gè)Disco57版本（圖3a）。最佳規(guī)則在每款A(yù)tari游戲約6億步交互內(nèi)即被發(fā)現(xiàn)，總計(jì)僅需在57款A(yù)tari游戲上進(jìn)行3次實(shí)驗(yàn)。這或許比手工發(fā)現(xiàn)RL規(guī)則更為高效，后者通常需要執(zhí)行更多實(shí)驗(yàn)，外加研究人員投入的時(shí)間成本。

此外，隨著用于發(fā)現(xiàn)的Atari游戲數(shù)量增加，DiscoRL在未見(jiàn)的ProcGen基準(zhǔn)測(cè)試上的表現(xiàn)也持續(xù)提升（圖3b），表明所發(fā)現(xiàn)的RL規(guī)則能夠隨用于發(fā)現(xiàn)的環(huán)境數(shù)量與多樣性良好擴(kuò)展。換言之，所發(fā)現(xiàn)規(guī)則的性能是數(shù)據(jù)（即環(huán)境）與計(jì)算資源的函數(shù)。

發(fā)現(xiàn)新預(yù)測(cè)的作用

為研究所發(fā)現(xiàn)預(yù)測(cè)語(yǔ)義（圖1b中的y, z）的影響，我們通過(guò)改變智能體的輸出類型（包含或不包含某些類型的預(yù)測(cè)）來(lái)比較不同規(guī)則。圖3c的結(jié)果表明，價(jià)值函數(shù)的使用顯著改善了發(fā)現(xiàn)過(guò)程，這凸顯了這一RL基礎(chǔ)概念的重要性。然而，圖3c的結(jié)果同時(shí)也表明，發(fā)現(xiàn)超越預(yù)定義預(yù)測(cè)的新預(yù)測(cè)語(yǔ)義（y與z）同樣至關(guān)重要。總體而言，相較于先前工作1??，擴(kuò)大發(fā)現(xiàn)范圍是取得成功的關(guān)鍵。在下一節(jié)中，我們將提供進(jìn)一步分析以揭示所發(fā)現(xiàn)的語(yǔ)義本質(zhì)。

分析

定性分析我們以Disco57為案例研究了所發(fā)現(xiàn)規(guī)則的特性（圖4）。從定性角度看，所發(fā)現(xiàn)的預(yù)測(cè)會(huì)在顯著事件（如獲得獎(jiǎng)勵(lì)或策略熵變化）發(fā)生前產(chǎn)生明顯峰值（圖4a）。我們還通過(guò)測(cè)量觀測(cè)各部分對(duì)應(yīng)的梯度范數(shù)，探究了哪些觀測(cè)特征會(huì)引發(fā)元學(xué)習(xí)預(yù)測(cè)的強(qiáng)烈響應(yīng)。圖4b的結(jié)果表明，元學(xué)習(xí)預(yù)測(cè)傾向于關(guān)注未來(lái)可能相關(guān)的物體，這與策略和價(jià)值函數(shù)的關(guān)注點(diǎn)存在差異。這些結(jié)果表明，DiscoRL已學(xué)會(huì)在適度時(shí)間范圍內(nèi)識(shí)別并預(yù)測(cè)顯著事件，從而對(duì)策略和價(jià)值函數(shù)等現(xiàn)有概念形成有效補(bǔ)充。

信息分析為驗(yàn)證定性發(fā)現(xiàn)，我們進(jìn)一步研究了預(yù)測(cè)中包含的信息內(nèi)容。首先，我們從DiscoRL智能體在10款A(yù)tari游戲中的數(shù)據(jù)中提取樣本，訓(xùn)練神經(jīng)網(wǎng)絡(luò)分別從所發(fā)現(xiàn)的預(yù)測(cè)、策略或價(jià)值函數(shù)中預(yù)測(cè)關(guān)鍵量。圖4c的結(jié)果顯示，相較于策略和價(jià)值函數(shù)，所發(fā)現(xiàn)的預(yù)測(cè)包含更多關(guān)于未來(lái)大額獎(jiǎng)勵(lì)和策略熵的信息。這表明所發(fā)現(xiàn)的預(yù)測(cè)可能捕獲了策略與價(jià)值函數(shù)未能有效表征的獨(dú)特任務(wù)相關(guān)信息。

自舉機(jī)制的涌現(xiàn)

先前工作

人工智能體中的元學(xué)習(xí)（meta-learning）或“學(xué)會(huì)學(xué)習(xí)”（learning to learn）思想可追溯至20世紀(jì)80年代3?，當(dāng)時(shí)已有利用梯度反向傳播訓(xùn)練元學(xué)習(xí)系統(tǒng)的提議3?。利用較慢的元學(xué)習(xí)過(guò)程對(duì)快速學(xué)習(xí)或適應(yīng)過(guò)程進(jìn)行元優(yōu)化這一核心思想3?,??已在多種應(yīng)用場(chǎng)景中得到廣泛研究，包括遷移學(xué)習(xí)?1、持續(xù)學(xué)習(xí)?2、多任務(wù)學(xué)習(xí)?3、超參數(shù)優(yōu)化??以及自動(dòng)化機(jī)器學(xué)習(xí)??。

早期將元學(xué)習(xí)應(yīng)用于強(qiáng)化學(xué)習(xí)智能體的嘗試主要集中于元學(xué)習(xí)信息搜尋行為??。后續(xù)許多工作聚焦于對(duì)現(xiàn)有RL算法的少量超參數(shù)進(jìn)行元學(xué)習(xí)13,1?。此類方法雖取得了一定成果，但無(wú)法顯著突破底層手工設(shè)計(jì)算法的框架。另一研究方向試圖摒棄歸納偏置，通過(guò)元學(xué)習(xí)完全黑盒的算法實(shí)現(xiàn)，例如以循環(huán)神經(jīng)網(wǎng)絡(luò)??或突觸學(xué)習(xí)規(guī)則??的形式。盡管在概念上頗具吸引力，但這些方法容易對(duì)元訓(xùn)練中見(jiàn)過(guò)的任務(wù)產(chǎn)生過(guò)擬合??。

利用更廣泛類別預(yù)測(cè)來(lái)表示知識(shí)的思想最早在時(shí)序差分網(wǎng)絡(luò)（temporal-difference networks）??中被提出，但未結(jié)合任何元學(xué)習(xí)機(jī)制。類似思想亦被用于元學(xué)習(xí)輔助任務(wù)2?。我們的工作將這一思想拓展至有效發(fā)現(xiàn)智能體所優(yōu)化的完整損失函數(shù)，覆蓋了范圍遠(yuǎn)為廣闊的潛在RL規(guī)則。此外，與先前工作不同，所發(fā)現(xiàn)的知識(shí)能夠泛化至未見(jiàn)過(guò)的環(huán)境。

近期，學(xué)界對(duì)發(fā)現(xiàn)通用RL規(guī)則的興趣日益增長(zhǎng)1,3??,1?。然而，大多數(shù)研究受限于小型智能體與簡(jiǎn)單任務(wù)，或發(fā)現(xiàn)范圍僅限于部分RL規(guī)則。因此，其規(guī)則未能在具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上與最先進(jìn)規(guī)則進(jìn)行充分比較。相比之下，我們?cè)诟蟮囊?guī)則空間中進(jìn)行搜索（包括全新的預(yù)測(cè)形式），并將發(fā)現(xiàn)過(guò)程擴(kuò)展至大量復(fù)雜環(huán)境。結(jié)果表明，發(fā)現(xiàn)一種在挑戰(zhàn)性基準(zhǔn)測(cè)試上超越多種最先進(jìn)規(guī)則的通用RL規(guī)則是可行的。

結(jié)論

使機(jī)器能夠自主發(fā)現(xiàn)學(xué)習(xí)算法，是人工智能領(lǐng)域最具前景的方向之一，因其具備開(kāi)放式自我改進(jìn)的潛力。本工作朝著機(jī)器設(shè)計(jì)的RL算法邁出了重要一步——此類算法不僅能在復(fù)雜環(huán)境中與頂尖手工設(shè)計(jì)算法競(jìng)爭(zhēng)，甚至在某些情況下實(shí)現(xiàn)超越。我們還證明，隨著所接觸環(huán)境的多樣性增加，所發(fā)現(xiàn)的規(guī)則將變得更強(qiáng)大且更具泛化能力。這表明，未來(lái)先進(jìn)人工智能所需的RL算法設(shè)計(jì)，或?qū)⒂赡軌螂S數(shù)據(jù)與算力有效擴(kuò)展的機(jī)器來(lái)主導(dǎo)。

原文鏈接：https://www.nature.com/articles/s41586-025-09761-x

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.