337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

<span class="js_title_inner">探索最先進(jìn)的強(qiáng)化學(xué)習(xí)算法

0
分享至

Discovering state-of-the-art reinforcement learning algorithms

探索最先進(jìn)的強(qiáng)化學(xué)習(xí)算法

https://www.nature.com/articles/s41586-025-09761-x


人類和其他動(dòng)物使用強(qiáng)大的強(qiáng)化學(xué)習(xí)(RL)機(jī)制,這些機(jī)制是通過(guò)進(jìn)化在許多代的試錯(cuò)過(guò)程中發(fā)現(xiàn)的。相比之下,人工智能體通常使用手工設(shè)計(jì)的學(xué)習(xí)規(guī)則進(jìn)行學(xué)習(xí)。盡管數(shù)十年來(lái)人們對(duì)此抱有濃厚興趣,但自主發(fā)現(xiàn)強(qiáng)大RL算法的目標(biāo)一直難以實(shí)現(xiàn)1??。本文表明,機(jī)器有可能發(fā)現(xiàn)一種最先進(jìn)的RL規(guī)則,其性能優(yōu)于手工設(shè)計(jì)的規(guī)則。這一成果是通過(guò)對(duì)大量復(fù)雜環(huán)境中智能體群體的累積經(jīng)驗(yàn)進(jìn)行元學(xué)習(xí)而實(shí)現(xiàn)的。具體而言,我們的方法發(fā)現(xiàn)了用于更新智能體策略和預(yù)測(cè)的RL規(guī)則。在我們的大規(guī)模實(shí)驗(yàn)中,所發(fā)現(xiàn)的規(guī)則在公認(rèn)的Atari基準(zhǔn)測(cè)試上超越了所有現(xiàn)有規(guī)則,并且在發(fā)現(xiàn)過(guò)程中未曾見(jiàn)過(guò)的具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上,其表現(xiàn)也優(yōu)于多種最先進(jìn)的RL算法。我們的研究結(jié)果表明,先進(jìn)人工智能所需的RL算法可能很快將能夠從智能體的經(jīng)驗(yàn)中自動(dòng)發(fā)現(xiàn),而非依賴于手工設(shè)計(jì)。

人工智能的主要目標(biāo)是設(shè)計(jì)出能夠像人類一樣在復(fù)雜環(huán)境中進(jìn)行預(yù)測(cè)并采取行動(dòng)以實(shí)現(xiàn)目標(biāo)的智能體。許多最成功的智能體基于強(qiáng)化學(xué)習(xí)(RL),即智能體通過(guò)與環(huán)境交互進(jìn)行學(xué)習(xí)。數(shù)十年的研究產(chǎn)生了日益高效的RL算法,從而在人工智能領(lǐng)域取得眾多里程碑式成果,包括掌握圍棋?、國(guó)際象棋?、《星際爭(zhēng)霸》?和《我的世界》1?等復(fù)雜競(jìng)技游戲、發(fā)明新的數(shù)學(xué)工具11,以及控制復(fù)雜的物理系統(tǒng)12。

與人類不同——人類的學(xué)習(xí)機(jī)制是通過(guò)生物進(jìn)化自然發(fā)現(xiàn)的——RL算法通常由人工手動(dòng)設(shè)計(jì)。這一過(guò)程通常緩慢而費(fèi)力,并受限于對(duì)人類知識(shí)與直覺(jué)的依賴。盡管已有若干嘗試致力于自動(dòng)發(fā)現(xiàn)學(xué)習(xí)算法1??,但尚無(wú)方法被證明具備足夠的效率與通用性以取代手工設(shè)計(jì)的RL系統(tǒng)。

在本研究中,我們提出了一種自主發(fā)現(xiàn)RL規(guī)則的方法,該方法僅通過(guò)多代智能體與各類環(huán)境交互所積累的經(jīng)驗(yàn)實(shí)現(xiàn)(圖1a)。所發(fā)現(xiàn)的RL規(guī)則在多種具有挑戰(zhàn)性的RL基準(zhǔn)測(cè)試上達(dá)到了最先進(jìn)性能。我們的方法相較于先前工作在兩個(gè)維度上形成對(duì)比:第一,先前方法通常在狹窄的RL規(guī)則空間中進(jìn)行搜索(例如超參數(shù)13,1?或策略損失1,?),而我們的方法允許智能體探索表達(dá)能力更強(qiáng)的潛在RL規(guī)則空間;第二,先前工作聚焦于在簡(jiǎn)單環(huán)境(例如網(wǎng)格世界3,1?)中進(jìn)行元學(xué)習(xí),而我們的方法則在更復(fù)雜多樣且規(guī)模更大的環(huán)境中進(jìn)行元學(xué)習(xí)。


為選擇一個(gè)通用的發(fā)現(xiàn)空間,我們觀察到標(biāo)準(zhǔn)RL算法的核心組成部分是一條更新規(guī)則,該規(guī)則將一個(gè)或多個(gè)預(yù)測(cè)以及策略本身朝著某些目標(biāo)進(jìn)行更新,而這些目標(biāo)是未來(lái)獎(jiǎng)勵(lì)與未來(lái)預(yù)測(cè)等量的函數(shù)。基于不同目標(biāo)的RL規(guī)則示例包括時(shí)序差分學(xué)習(xí)1?、Q學(xué)習(xí)1?、近端策略優(yōu)化(PPO)1?、輔助任務(wù)1?、后繼特征2?以及分布強(qiáng)化學(xué)習(xí)21。在每種情況下,目標(biāo)的選擇決定了預(yù)測(cè)的本質(zhì),例如它們是否成為價(jià)值函數(shù)、模型或后繼特征。

在我們的框架中,一條RL規(guī)則由一個(gè)元網(wǎng)絡(luò)(meta-network)表示,該網(wǎng)絡(luò)決定智能體應(yīng)將其預(yù)測(cè)與策略朝向哪些目標(biāo)進(jìn)行更新(圖1c)。這使得系統(tǒng)能夠在沒(méi)有預(yù)定義語(yǔ)義的情況下發(fā)現(xiàn)有用的預(yù)測(cè),以及這些預(yù)測(cè)的使用方式。原則上,該系統(tǒng)可能重新發(fā)現(xiàn)以往的RL規(guī)則,但其靈活的函數(shù)形式也允許智能體發(fā)明可能專門適應(yīng)特定興趣環(huán)境的新RL規(guī)則。

在發(fā)現(xiàn)過(guò)程中,我們實(shí)例化一個(gè)智能體群體,其中每個(gè)智能體與其自身所處的環(huán)境實(shí)例進(jìn)行交互,這些環(huán)境取自一組多樣化的挑戰(zhàn)性任務(wù)。每個(gè)智能體的參數(shù)根據(jù)當(dāng)前的RL規(guī)則進(jìn)行更新。隨后我們采用元梯度方法13逐步改進(jìn)該RL規(guī)則,使其能夠引導(dǎo)產(chǎn)生性能更優(yōu)的智能體。

我們的大規(guī)模實(shí)證結(jié)果表明,我們所發(fā)現(xiàn)的RL規(guī)則(我們稱之為DiscoRL)在元學(xué)習(xí)所用的環(huán)境中超越了所有現(xiàn)有RL規(guī)則。值得注意的是,這包括Atari游戲22——這或許是RL領(lǐng)域最成熟且信息量最豐富的基準(zhǔn)測(cè)試。此外,DiscoRL在發(fā)現(xiàn)過(guò)程中從未接觸過(guò)的其他若干挑戰(zhàn)性基準(zhǔn)測(cè)試(例如ProcGen23)上也達(dá)到了最先進(jìn)性能。我們還證明,隨著發(fā)現(xiàn)過(guò)程中使用更多樣化和更復(fù)雜的環(huán)境,DiscoRL的性能與通用性會(huì)進(jìn)一步提升。最后,我們的分析表明,DiscoRL發(fā)現(xiàn)了獨(dú)特的預(yù)測(cè)語(yǔ)義,這些語(yǔ)義不同于價(jià)值函數(shù)等現(xiàn)有RL概念。據(jù)我們所知,這是首次提供實(shí)證證據(jù)表明:在通用性與效率兩方面超越手工設(shè)計(jì)的RL算法的目標(biāo)終于觸手可及。

發(fā)現(xiàn)方法

我們的發(fā)現(xiàn)方法涉及兩種類型的優(yōu)化:智能體優(yōu)化(agent optimization)與元優(yōu)化(meta-optimization)。智能體參數(shù)通過(guò)將其策略與預(yù)測(cè)朝向RL規(guī)則所產(chǎn)生的目標(biāo)進(jìn)行更新而得到優(yōu)化;與此同時(shí),RL規(guī)則的元參數(shù)則通過(guò)更新其目標(biāo)以最大化智能體的累積獎(jiǎng)勵(lì)而得到優(yōu)化。

智能體網(wǎng)絡(luò)

大量強(qiáng)化學(xué)習(xí)研究關(guān)注智能體應(yīng)當(dāng)做出何種預(yù)測(cè)(例如價(jià)值),以及應(yīng)使用何種損失函數(shù)來(lái)學(xué)習(xí)這些預(yù)測(cè)(例如時(shí)序差分(TD)學(xué)習(xí))并改進(jìn)策略(例如策略梯度)。我們并未手工設(shè)計(jì)這些要素,而是定義了一個(gè)無(wú)預(yù)定義語(yǔ)義的、表達(dá)能力豐富的預(yù)測(cè)空間,并通過(guò)元網(wǎng)絡(luò)(meta-network)來(lái)表示并元學(xué)習(xí)智能體所需優(yōu)化的內(nèi)容。理想情況下,該設(shè)計(jì)應(yīng)既能保留表達(dá)現(xiàn)有RL算法核心思想的能力,又能支持大量新穎算法可能性的探索。

為此,我們令由參數(shù) θ 參數(shù)化的智能體在輸出策略(π)之外,還輸出兩類預(yù)測(cè):一個(gè)以觀測(cè)為條件的向量預(yù)測(cè) y(s) ∈ ??(維度 n 任意)和一個(gè)以動(dòng)作為條件的向量預(yù)測(cè) z(s, a) ∈ ??(維度 m 任意),其中 s 與 a 分別表示觀測(cè)與動(dòng)作(圖1b)。這些預(yù)測(cè)的形式源于預(yù)測(cè)與控制之間的根本性區(qū)分1?。例如,價(jià)值函數(shù)通常被劃分為用于預(yù)測(cè)的狀態(tài)價(jià)值函數(shù) v(s) 與用于控制的動(dòng)作價(jià)值函數(shù) q(s, a);RL中的許多其他概念,如獎(jiǎng)勵(lì)與后繼特征,同樣具有以觀測(cè)為條件的版本與以動(dòng)作為條件的版本。因此,預(yù)測(cè) (y, z) 的函數(shù)形式具有足夠的通用性,能夠表示(但不限于此)RL中眾多既有的基本概念。

除待發(fā)現(xiàn)的預(yù)測(cè)外,在我們的大多數(shù)實(shí)驗(yàn)中,智能體還會(huì)生成具有預(yù)定義語(yǔ)義的預(yù)測(cè)。具體而言,智能體會(huì)輸出一個(gè)動(dòng)作價(jià)值函數(shù) q(s,?a) 以及一個(gè)以動(dòng)作為條件的輔助策略預(yù)測(cè) p(s,?a)?。這一設(shè)計(jì)促使發(fā)現(xiàn)過(guò)程聚焦于通過(guò) y 與 z 發(fā)掘新的概念。

元網(wǎng)絡(luò)

現(xiàn)代強(qiáng)化學(xué)習(xí)規(guī)則中有很大一部分采用強(qiáng)化學(xué)習(xí)的前向視角(forward view)1?。在此視角下,RL規(guī)則接收從時(shí)間步 t 到 t?+?n 的軌跡,并利用該信息更新智能體的預(yù)測(cè)或策略。它們通常將預(yù)測(cè)或策略朝向自舉(bootstrapped)目標(biāo)進(jìn)行更新,即朝向未來(lái)的預(yù)測(cè)進(jìn)行更新。

相應(yīng)地,我們的RL規(guī)則采用一個(gè)元網(wǎng)絡(luò)(圖1c)作為函數(shù),用以確定智能體應(yīng)將其預(yù)測(cè)與策略朝向哪些目標(biāo)進(jìn)行更新。為在時(shí)間步 t 生成目標(biāo),元網(wǎng)絡(luò)接收從時(shí)間步 t 到 t?+?n 的智能體預(yù)測(cè)與策略軌跡,以及獎(jiǎng)勵(lì)和回合終止信號(hào)作為輸入。元網(wǎng)絡(luò)使用標(biāo)準(zhǔn)的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)2?處理這些輸入,盡管也可采用其他架構(gòu)(擴(kuò)展數(shù)據(jù)圖3)。

元網(wǎng)絡(luò)的輸入與輸出設(shè)計(jì)保留了手工設(shè)計(jì)RL規(guī)則的若干理想特性。第一,元網(wǎng)絡(luò)能夠處理任意觀測(cè)以及任意規(guī)模的離散動(dòng)作空間。這之所以可能,是因?yàn)樵W(wǎng)絡(luò)并不直接接收觀測(cè)作為輸入,而僅通過(guò)預(yù)測(cè)間接接收;此外,它通過(guò)對(duì)動(dòng)作維度共享權(quán)重來(lái)處理與動(dòng)作相關(guān)的輸入與輸出,從而能夠泛化至截然不同的環(huán)境。第二,元網(wǎng)絡(luò)對(duì)智能體網(wǎng)絡(luò)的設(shè)計(jì)保持中立,因?yàn)樗鼉H“看到”智能體網(wǎng)絡(luò)的輸出。只要智能體網(wǎng)絡(luò)產(chǎn)生所需形式的輸出(π, y, z),所發(fā)現(xiàn)的RL規(guī)則即可泛化至任意的智能體架構(gòu)或規(guī)模。第三,元網(wǎng)絡(luò)所定義的搜索空間包含了自舉(bootstrapping)這一重要的算法思想。第四,由于元網(wǎng)絡(luò)同時(shí)處理策略與預(yù)測(cè),它不僅能夠元學(xué)習(xí)輔助任務(wù)2?,還能直接利用預(yù)測(cè)來(lái)更新策略(例如,為方差縮減提供基線)。最后,輸出目標(biāo)在表達(dá)能力上嚴(yán)格強(qiáng)于輸出標(biāo)量損失函數(shù),因?yàn)樵撛O(shè)計(jì)將Q學(xué)習(xí)等半梯度方法也納入了搜索空間。

在繼承標(biāo)準(zhǔn)RL算法這些特性的基礎(chǔ)上,豐富的參數(shù)化神經(jīng)網(wǎng)絡(luò)使所發(fā)現(xiàn)的規(guī)則能夠?qū)崿F(xiàn)潛在效率更高、上下文適應(yīng)性更強(qiáng)的算法。

智能體優(yōu)化

智能體的參數(shù)(θ)通過(guò)最小化其預(yù)測(cè)與策略同元網(wǎng)絡(luò)所生成目標(biāo)之間的距離來(lái)進(jìn)行更新。智能體的損失函數(shù)可表示為:



元優(yōu)化



實(shí)證結(jié)果

我們?cè)谝唤M復(fù)雜環(huán)境中,利用大規(guī)模智能體群體實(shí)現(xiàn)了所提出的發(fā)現(xiàn)方法。我們將所發(fā)現(xiàn)的RL規(guī)則命名為DiscoRL。在評(píng)估中,對(duì)于包含多個(gè)任務(wù)的基準(zhǔn)測(cè)試,我們采用歸一化得分的四分位均值(interquartile mean, IQM)來(lái)衡量綜合性能,該指標(biāo)已被證明具有統(tǒng)計(jì)可靠性2?。

Atari

Atari基準(zhǔn)測(cè)試22是強(qiáng)化學(xué)習(xí)歷史上研究最為廣泛的基準(zhǔn)之一,包含57款A(yù)tari 2600游戲。這些游戲要求復(fù)雜的策略、規(guī)劃能力以及長(zhǎng)期信用分配,對(duì)人工智能體而言掌握它們并非易事。過(guò)去十年間,已有數(shù)百種RL算法在該基準(zhǔn)上接受評(píng)估,其中包括MuZero?與Dreamer1?。

為探究直接從該基準(zhǔn)中發(fā)現(xiàn)的規(guī)則所能達(dá)到的性能強(qiáng)度,我們對(duì)一條RL規(guī)則Disco57進(jìn)行了元訓(xùn)練,并在同一組57款游戲上對(duì)其進(jìn)行評(píng)估(圖2a)。在此評(píng)估中,我們采用的網(wǎng)絡(luò)架構(gòu)參數(shù)量與MuZero所用規(guī)模相當(dāng),大于發(fā)現(xiàn)過(guò)程中所使用的網(wǎng)絡(luò);因此,所發(fā)現(xiàn)的RL規(guī)則必須能夠泛化至該設(shè)置。Disco57取得了13.86的IQM得分,在Atari基準(zhǔn)上超越了所有現(xiàn)有RL規(guī)則?,1?,1?,3?,且相較于最先進(jìn)的MuZero具有顯著更高的實(shí)際運(yùn)行效率(擴(kuò)展數(shù)據(jù)圖4)。


這一結(jié)果表明,我們的方法能夠從如此具有挑戰(zhàn)性的環(huán)境中自動(dòng)發(fā)現(xiàn)出強(qiáng)大的RL規(guī)則。

泛化能力

我們進(jìn)一步通過(guò)在多種保留基準(zhǔn)測(cè)試(held-out benchmarks)上評(píng)估Disco57,來(lái)探究其泛化能力。這些基準(zhǔn)測(cè)試包含智能體在發(fā)現(xiàn)過(guò)程中從未接觸過(guò)的觀測(cè)與動(dòng)作空間、多樣的環(huán)境動(dòng)態(tài)、各異的獎(jiǎng)勵(lì)結(jié)構(gòu)以及未曾見(jiàn)過(guò)的智能體網(wǎng)絡(luò)架構(gòu)。元訓(xùn)練的超參數(shù)僅在訓(xùn)練環(huán)境(即Atari)上進(jìn)行調(diào)優(yōu),以防止該規(guī)則被隱式地針對(duì)保留基準(zhǔn)測(cè)試進(jìn)行優(yōu)化。

在ProcGen23基準(zhǔn)測(cè)試上的結(jié)果(圖2b及擴(kuò)展數(shù)據(jù)表2)表明,盡管Disco57在發(fā)現(xiàn)過(guò)程中從未與ProcGen環(huán)境交互,其性能仍優(yōu)于所有已發(fā)表的現(xiàn)有方法,包括MuZero?與PPO1?。該基準(zhǔn)測(cè)試包含16款程序生成的二維游戲。此外,Disco57在Crafter31任務(wù)上取得了具有競(jìng)爭(zhēng)力的性能(圖2d及擴(kuò)展數(shù)據(jù)表5),在該任務(wù)中智能體需要學(xué)習(xí)廣泛的能力以求生存。在NetHack NeurIPS 2021挑戰(zhàn)賽32中(超過(guò)40支隊(duì)伍參賽),Disco57位列排行榜第三名(圖2e及擴(kuò)展數(shù)據(jù)表4)。與競(jìng)賽中提交的頂尖智能體33不同,Disco57未使用任何領(lǐng)域特定知識(shí)來(lái)定義子任務(wù)或進(jìn)行獎(jiǎng)勵(lì)塑形。為進(jìn)行公平比較,我們使用與Disco57相同的設(shè)置訓(xùn)練了一個(gè)基于重要性加權(quán)演員-學(xué)習(xí)者架構(gòu)(IMPALA)算法3?的智能體。IMPALA的性能明顯更弱,這表明Disco57發(fā)現(xiàn)了一種比標(biāo)準(zhǔn)方法更高效的RL規(guī)則。除環(huán)境外,Disco57對(duì)多種智能體特定設(shè)置(如網(wǎng)絡(luò)規(guī)模、回放比例及評(píng)估中的超參數(shù))也表現(xiàn)出穩(wěn)健性(擴(kuò)展數(shù)據(jù)圖1)。

復(fù)雜且多樣的環(huán)境

為理解復(fù)雜多樣環(huán)境對(duì)發(fā)現(xiàn)過(guò)程的重要性,我們進(jìn)一步擴(kuò)展了元學(xué)習(xí)的規(guī)模,引入了更多環(huán)境。具體而言,我們利用包含Atari、ProcGen和DMLab-303?基準(zhǔn)測(cè)試在內(nèi)的103個(gè)更具多樣性的環(huán)境,發(fā)現(xiàn)了另一條規(guī)則Disco103。該規(guī)則在Atari基準(zhǔn)測(cè)試上表現(xiàn)與Disco57相當(dāng),同時(shí)在圖2中所有其他已見(jiàn)與未見(jiàn)的基準(zhǔn)測(cè)試上均提升了得分。特別是,Disco103在Crafter上達(dá)到了人類水平性能,并在Sokoban3?上接近MuZero的最先進(jìn)性能。這些結(jié)果表明,用于發(fā)現(xiàn)的環(huán)境集合越復(fù)雜多樣,所發(fā)現(xiàn)的規(guī)則就越強(qiáng)大且泛化能力越強(qiáng),即使在發(fā)現(xiàn)過(guò)程中未曾見(jiàn)過(guò)的保留環(huán)境中亦是如此。與發(fā)現(xiàn)Disco57相比,發(fā)現(xiàn)Disco103僅需更換環(huán)境集合,無(wú)需對(duì)發(fā)現(xiàn)方法本身進(jìn)行任何改動(dòng)。這表明發(fā)現(xiàn)過(guò)程本身具有穩(wěn)健性、可擴(kuò)展性與通用性。

為進(jìn)一歩驗(yàn)證使用復(fù)雜環(huán)境的重要性,我們?cè)?7個(gè)網(wǎng)格世界任務(wù)上運(yùn)行了我們的發(fā)現(xiàn)過(guò)程,這些任務(wù)是對(duì)先前工作3的擴(kuò)展,并采用與Disco57相同的元學(xué)習(xí)設(shè)置。新發(fā)現(xiàn)的規(guī)則在Atari基準(zhǔn)測(cè)試上表現(xiàn)顯著更差(圖3c)。這驗(yàn)證了我們關(guān)于直接從復(fù)雜且具挑戰(zhàn)性的環(huán)境中進(jìn)行元學(xué)習(xí)重要性的假設(shè)。盡管使用此類環(huán)境至關(guān)重要,但無(wú)需精心篩選“正確”的環(huán)境集合;我們僅使用了文獻(xiàn)中流行的基準(zhǔn)測(cè)試。


效率與可擴(kuò)展性

為深入理解我們方法的可擴(kuò)展性與效率,我們?cè)诎l(fā)現(xiàn)過(guò)程中不同階段評(píng)估了多個(gè)Disco57版本(圖3a)。最佳規(guī)則在每款A(yù)tari游戲約6億步交互內(nèi)即被發(fā)現(xiàn),總計(jì)僅需在57款A(yù)tari游戲上進(jìn)行3次實(shí)驗(yàn)。這或許比手工發(fā)現(xiàn)RL規(guī)則更為高效,后者通常需要執(zhí)行更多實(shí)驗(yàn),外加研究人員投入的時(shí)間成本。

此外,隨著用于發(fā)現(xiàn)的Atari游戲數(shù)量增加,DiscoRL在未見(jiàn)的ProcGen基準(zhǔn)測(cè)試上的表現(xiàn)也持續(xù)提升(圖3b),表明所發(fā)現(xiàn)的RL規(guī)則能夠隨用于發(fā)現(xiàn)的環(huán)境數(shù)量與多樣性良好擴(kuò)展。換言之,所發(fā)現(xiàn)規(guī)則的性能是數(shù)據(jù)(即環(huán)境)與計(jì)算資源的函數(shù)。

發(fā)現(xiàn)新預(yù)測(cè)的作用

為研究所發(fā)現(xiàn)預(yù)測(cè)語(yǔ)義(圖1b中的y, z)的影響,我們通過(guò)改變智能體的輸出類型(包含或不包含某些類型的預(yù)測(cè))來(lái)比較不同規(guī)則。圖3c的結(jié)果表明,價(jià)值函數(shù)的使用顯著改善了發(fā)現(xiàn)過(guò)程,這凸顯了這一RL基礎(chǔ)概念的重要性。然而,圖3c的結(jié)果同時(shí)也表明,發(fā)現(xiàn)超越預(yù)定義預(yù)測(cè)的新預(yù)測(cè)語(yǔ)義(y與z)同樣至關(guān)重要。總體而言,相較于先前工作1??,擴(kuò)大發(fā)現(xiàn)范圍是取得成功的關(guān)鍵。在下一節(jié)中,我們將提供進(jìn)一步分析以揭示所發(fā)現(xiàn)的語(yǔ)義本質(zhì)。

分析

定性分析我們以Disco57為案例研究了所發(fā)現(xiàn)規(guī)則的特性(圖4)。從定性角度看,所發(fā)現(xiàn)的預(yù)測(cè)會(huì)在顯著事件(如獲得獎(jiǎng)勵(lì)或策略熵變化)發(fā)生前產(chǎn)生明顯峰值(圖4a)。我們還通過(guò)測(cè)量觀測(cè)各部分對(duì)應(yīng)的梯度范數(shù),探究了哪些觀測(cè)特征會(huì)引發(fā)元學(xué)習(xí)預(yù)測(cè)的強(qiáng)烈響應(yīng)。圖4b的結(jié)果表明,元學(xué)習(xí)預(yù)測(cè)傾向于關(guān)注未來(lái)可能相關(guān)的物體,這與策略和價(jià)值函數(shù)的關(guān)注點(diǎn)存在差異。這些結(jié)果表明,DiscoRL已學(xué)會(huì)在適度時(shí)間范圍內(nèi)識(shí)別并預(yù)測(cè)顯著事件,從而對(duì)策略和價(jià)值函數(shù)等現(xiàn)有概念形成有效補(bǔ)充。


信息分析為驗(yàn)證定性發(fā)現(xiàn),我們進(jìn)一步研究了預(yù)測(cè)中包含的信息內(nèi)容。首先,我們從DiscoRL智能體在10款A(yù)tari游戲中的數(shù)據(jù)中提取樣本,訓(xùn)練神經(jīng)網(wǎng)絡(luò)分別從所發(fā)現(xiàn)的預(yù)測(cè)、策略或價(jià)值函數(shù)中預(yù)測(cè)關(guān)鍵量。圖4c的結(jié)果顯示,相較于策略和價(jià)值函數(shù),所發(fā)現(xiàn)的預(yù)測(cè)包含更多關(guān)于未來(lái)大額獎(jiǎng)勵(lì)和策略熵的信息。這表明所發(fā)現(xiàn)的預(yù)測(cè)可能捕獲了策略與價(jià)值函數(shù)未能有效表征的獨(dú)特任務(wù)相關(guān)信息。

自舉機(jī)制的涌現(xiàn)


先前工作

人工智能體中的元學(xué)習(xí)(meta-learning)或“學(xué)會(huì)學(xué)習(xí)”(learning to learn)思想可追溯至20世紀(jì)80年代3?,當(dāng)時(shí)已有利用梯度反向傳播訓(xùn)練元學(xué)習(xí)系統(tǒng)的提議3?。利用較慢的元學(xué)習(xí)過(guò)程對(duì)快速學(xué)習(xí)或適應(yīng)過(guò)程進(jìn)行元優(yōu)化這一核心思想3?,??已在多種應(yīng)用場(chǎng)景中得到廣泛研究,包括遷移學(xué)習(xí)?1、持續(xù)學(xué)習(xí)?2、多任務(wù)學(xué)習(xí)?3、超參數(shù)優(yōu)化??以及自動(dòng)化機(jī)器學(xué)習(xí)??。

早期將元學(xué)習(xí)應(yīng)用于強(qiáng)化學(xué)習(xí)智能體的嘗試主要集中于元學(xué)習(xí)信息搜尋行為??。后續(xù)許多工作聚焦于對(duì)現(xiàn)有RL算法的少量超參數(shù)進(jìn)行元學(xué)習(xí)13,1?。此類方法雖取得了一定成果,但無(wú)法顯著突破底層手工設(shè)計(jì)算法的框架。另一研究方向試圖摒棄歸納偏置,通過(guò)元學(xué)習(xí)完全黑盒的算法實(shí)現(xiàn),例如以循環(huán)神經(jīng)網(wǎng)絡(luò)??或突觸學(xué)習(xí)規(guī)則??的形式。盡管在概念上頗具吸引力,但這些方法容易對(duì)元訓(xùn)練中見(jiàn)過(guò)的任務(wù)產(chǎn)生過(guò)擬合??。

利用更廣泛類別預(yù)測(cè)來(lái)表示知識(shí)的思想最早在時(shí)序差分網(wǎng)絡(luò)(temporal-difference networks)??中被提出,但未結(jié)合任何元學(xué)習(xí)機(jī)制。類似思想亦被用于元學(xué)習(xí)輔助任務(wù)2?。我們的工作將這一思想拓展至有效發(fā)現(xiàn)智能體所優(yōu)化的完整損失函數(shù),覆蓋了范圍遠(yuǎn)為廣闊的潛在RL規(guī)則。此外,與先前工作不同,所發(fā)現(xiàn)的知識(shí)能夠泛化至未見(jiàn)過(guò)的環(huán)境。

近期,學(xué)界對(duì)發(fā)現(xiàn)通用RL規(guī)則的興趣日益增長(zhǎng)1,3??,1?。然而,大多數(shù)研究受限于小型智能體與簡(jiǎn)單任務(wù),或發(fā)現(xiàn)范圍僅限于部分RL規(guī)則。因此,其規(guī)則未能在具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上與最先進(jìn)規(guī)則進(jìn)行充分比較。相比之下,我們?cè)诟蟮囊?guī)則空間中進(jìn)行搜索(包括全新的預(yù)測(cè)形式),并將發(fā)現(xiàn)過(guò)程擴(kuò)展至大量復(fù)雜環(huán)境。結(jié)果表明,發(fā)現(xiàn)一種在挑戰(zhàn)性基準(zhǔn)測(cè)試上超越多種最先進(jìn)規(guī)則的通用RL規(guī)則是可行的。

結(jié)論

使機(jī)器能夠自主發(fā)現(xiàn)學(xué)習(xí)算法,是人工智能領(lǐng)域最具前景的方向之一,因其具備開(kāi)放式自我改進(jìn)的潛力。本工作朝著機(jī)器設(shè)計(jì)的RL算法邁出了重要一步——此類算法不僅能在復(fù)雜環(huán)境中與頂尖手工設(shè)計(jì)算法競(jìng)爭(zhēng),甚至在某些情況下實(shí)現(xiàn)超越。我們還證明,隨著所接觸環(huán)境的多樣性增加,所發(fā)現(xiàn)的規(guī)則將變得更強(qiáng)大且更具泛化能力。這表明,未來(lái)先進(jìn)人工智能所需的RL算法設(shè)計(jì),或?qū)⒂赡軌螂S數(shù)據(jù)與算力有效擴(kuò)展的機(jī)器來(lái)主導(dǎo)。

原文鏈接:https://www.nature.com/articles/s41586-025-09761-x

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴基斯坦總理:已準(zhǔn)備好主持美伊?xí)?>
    </a>
        <h3>
      <a href=新華社
2026-03-24 21:32:07
日本警方披露強(qiáng)闖中國(guó)駐日使館者身份信息

日本警方披露強(qiáng)闖中國(guó)駐日使館者身份信息

新京報(bào)
2026-03-25 09:55:11
張雪峰去世!他的5句大實(shí)話,點(diǎn)醒無(wú)數(shù)普通家庭

張雪峰去世!他的5句大實(shí)話,點(diǎn)醒無(wú)數(shù)普通家庭

京城教育圈
2026-03-24 22:26:23
剛剛確認(rèn):已抵達(dá)湖北!請(qǐng)?zhí)崆皽?zhǔn)備

剛剛確認(rèn):已抵達(dá)湖北!請(qǐng)?zhí)崆皽?zhǔn)備

新浪財(cái)經(jīng)
2026-03-25 09:04:29
周杰倫新專輯銷量屠榜,口碑兩極分化引全網(wǎng)熱議

周杰倫新專輯銷量屠榜,口碑兩極分化引全網(wǎng)熱議

精彩背后
2026-03-25 07:16:40
廣東省最出名的十名醫(yī)生

廣東省最出名的十名醫(yī)生

健身狂人
2026-03-24 09:42:26
臺(tái)軍收到噩耗,軍火已被扣!大陸更改賴清德稱呼,鄭麗文即將離臺(tái)

臺(tái)軍收到噩耗,軍火已被扣!大陸更改賴清德稱呼,鄭麗文即將離臺(tái)

安安說(shuō)
2026-03-21 10:47:34
56歲魯豫成都街頭瘦脫相,手骨如枯枝令人揪心

56歲魯豫成都街頭瘦脫相,手骨如枯枝令人揪心

黃色的泥土
2026-03-25 04:44:02
快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

FM93浙江交通之聲
2025-10-28 00:01:43
烏克蘭摧毀波羅的海最大的俄方港口!圣彼得堡機(jī)場(chǎng)被迫關(guān)閉

烏克蘭摧毀波羅的海最大的俄方港口!圣彼得堡機(jī)場(chǎng)被迫關(guān)閉

項(xiàng)鵬飛
2026-03-23 20:18:18
深夜利好,半導(dǎo)體龍頭利潤(rùn)增3213%,8股高增5股暴雷,別踩雷

深夜利好,半導(dǎo)體龍頭利潤(rùn)增3213%,8股高增5股暴雷,別踩雷

風(fēng)風(fēng)順
2026-03-25 00:00:07
女籃顏值擔(dān)當(dāng),30歲仍單身,從來(lái)不是“沒(méi)人要”,而是“不將就”

女籃顏值擔(dān)當(dāng),30歲仍單身,從來(lái)不是“沒(méi)人要”,而是“不將就”

萌蘭聊個(gè)球
2026-03-24 14:31:13
馬英九接受《聯(lián)合報(bào)》專訪,談蕭旭岑違規(guī),稱: 決不私了!

馬英九接受《聯(lián)合報(bào)》專訪,談蕭旭岑違規(guī),稱: 決不私了!

時(shí)尚的弄潮
2026-03-25 03:38:04
深圳47歲失業(yè)女征婚,有貸無(wú)車卻要找優(yōu)質(zhì)男,網(wǎng)友:這是在許愿?

深圳47歲失業(yè)女征婚,有貸無(wú)車卻要找優(yōu)質(zhì)男,網(wǎng)友:這是在許愿?

川渝視覺(jué)
2026-03-24 13:43:48
汪峰在節(jié)目后臺(tái)接受專訪時(shí),說(shuō)自己和章子怡的八年婚姻

汪峰在節(jié)目后臺(tái)接受專訪時(shí),說(shuō)自己和章子怡的八年婚姻

果媽聊娛樂(lè)
2026-03-24 20:15:20
私生子只是冰山一角,釋永信“開(kāi)光”內(nèi)幕曝光,4位女星無(wú)妄之災(zāi)

私生子只是冰山一角,釋永信“開(kāi)光”內(nèi)幕曝光,4位女星無(wú)妄之災(zāi)

八斗小先生
2026-03-24 15:52:15
老了才懂男人最好的“春藥”,從來(lái)不是枸杞鹿茸,而是這三樣?xùn)|西

老了才懂男人最好的“春藥”,從來(lái)不是枸杞鹿茸,而是這三樣?xùn)|西

今日養(yǎng)生之道
2026-03-24 15:42:28
迪拜房地產(chǎn)崩盤,資本大逃亡,3000億涌入香港,新加坡有點(diǎn)失落!

迪拜房地產(chǎn)崩盤,資本大逃亡,3000億涌入香港,新加坡有點(diǎn)失落!

玖宇維
2026-03-24 15:06:14
默多克過(guò)95歲生日,只邀請(qǐng)了3個(gè)孩子,鄧文迪陪兩個(gè)女兒盛裝出席

默多克過(guò)95歲生日,只邀請(qǐng)了3個(gè)孩子,鄧文迪陪兩個(gè)女兒盛裝出席

小書(shū)生吃瓜
2026-03-22 16:43:35
江青作品驚艷!字寫得靈動(dòng),秘訣竟在用筆!

江青作品驚艷!字寫得靈動(dòng),秘訣竟在用筆!

書(shū)畫相約
2026-03-19 09:15:49
2026-03-25 10:40:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1300文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)觯琒ora宣布正式關(guān)停

頭條要聞

浙江海島被指打響"取消中考第一槍" 有學(xué)生心態(tài)松懈

頭條要聞

浙江海島被指打響"取消中考第一槍" 有學(xué)生心態(tài)松懈

體育要聞

NBA最強(qiáng)左手射手,是個(gè)右撇子

娛樂(lè)要聞

張雪峰經(jīng)搶救無(wú)效不幸去世 年僅41歲

財(cái)經(jīng)要聞

張雪峰的多面人生:從寒門導(dǎo)師到教育商人

汽車要聞

智己LS8放大招 30萬(wàn)內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

教育
親子
家居
時(shí)尚
軍事航空

教育要聞

今年考研復(fù)試線暴漲,部分專業(yè)漲幅超150分,湘雅醫(yī)學(xué)院為何下降

親子要聞

身材矮小,營(yíng)養(yǎng)一定要注意,同時(shí)調(diào)理脾胃

家居要聞

輕奢堇天府 小資情調(diào)

當(dāng)年輕女性,闖入電競(jìng)?cè)?/h3>

軍事要聞

以色列媒體:美國(guó)計(jì)劃于4月9日結(jié)束對(duì)伊朗戰(zhàn)爭(zhēng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版