圖模式作為遷移學習、推理與規劃的抽象表示
Graph schemas as abstractions for transfer learning, inference, and planning
arXiv preprint arXiv:2302.07350
![]()
摘要
將潛在結構從一個環境或問題遷移到另一個環境或問題,是人類和動物用極少數據實現泛化的一種機制。受認知和神經生物學洞見的啟發,我們提出 圖模式 作為遷移學習的一種抽象機制。圖模式始于 潛在圖學習 ,其中感知混淆的觀察通過上下文信息在潛在空間中被消歧。潛在圖學習也正作為一種新的海馬體計算模型涌現,用于解釋地圖學習和傳遞推理。我們的洞見是,潛在圖可以被視為一種靈活的模板——即 模式(schema) ——它建模概念和行為,具有將潛在節點組綁定到特定觀察或具體實例的槽位。通過將學習到的潛在圖(模式)視為先驗知識,新環境可以被快速學習為模式的組合及其新學到的綁定。我們在兩個先前發表的具有挑戰性的任務上評估了圖模式: 記憶與規劃游戲 和 單次StreetLearn ,這些任務旨在測試在新環境中的快速任務解決能力。圖模式可以用比先前基線少得多的回合數進行學習,并且能夠在這些任務的變體中用少數幾步進行建模和規劃。我們還展示了在具有廣泛感知混淆和尺度變化的更具挑戰性的2D和3D環境中學習、匹配和重用圖模式,并展示了不同模式如何被組合以建模更大更復雜的環境。總之,我們的主要貢獻是一個統一的系統,受認知科學啟發并扎根于認知科學,該系統通過 地圖歸納 和 組合 使用模式促進新環境的快速遷移學習,并處理感知混淆問題。
1. 引言
在新情境中發現并使用恰當的抽象,能夠實現高效的遷移學習以及快速的推理和規劃。人類擅長這種能力,這被認為是智能背后的關鍵因素,也是當前人工智能系統的一個根本性局限(Shanahan和Mitchell, 2022)。模式(schemas)——即可重用的概念或行為的結構化表征——已被提出作為一種編碼抽象的強大方式(Mitchell, 2021; Tenenbaum等, 2011)。擁有一個能夠發現并重用先前學習到的模式以在新情境中行為和規劃的計算模型,對人工智能而言將是至關重要的。
實驗證據表明,多種動物具備這種能力(Farzanfar等, 2023)。大鼠和小鼠如果能夠重用過去的模式,往往能夠更快地學習新環境(Tse等, 2007; Zhou等, 2021),并且獼猴海馬體細胞編碼空間模式(Baraduc等, 2019)。海馬體和前額葉皮層(PFC)中的神經回路涉及模式學習、識別、更新和維持,這些過程被認為是記憶鞏固的基礎(Gilboa和Marlatte, 2017; Preston和Eichenbaum, 2013; Samborska等, 2022)。如果新經驗符合現有模式,則可以在單次試驗中被學習。基于這些證據,Kumaran等(2016)提出了一個更新的互補學習系統理論,但據我們所知,迄今為止還沒有關于利用模式重用實現這種快速學習的明確演示。
結構化關系表征已被提出作為海馬體中的一種共同機制,它將空間和非空間任務及記憶整合到原始認知地圖觀點中(Eichenbaum和Cohen, 2014; Stachenfeld等, 2017)。最近的幾項研究將認知地圖建模為高階潛在圖結構,并展示了對海馬體所涉及的多種功能的泛化(George等, 2021; Raju等, 2022; Sharma等, 2021; Whittington等, 2020, 2021)。我們采用其中一種認知地圖模型,即克隆結構認知圖(CSCG)(George等, 2021),并將其擴展以使用圖模式提供抽象的具體計算模型。我們模型的期望是一個統一系統,該系統通過使用模式促進新環境的學習,處理感知混淆(Whitehead和Ballard, 1991),并通過地圖歸納(Sharma等, 2021)和模式組合實現泛化。
我們的設定是一個在環境中導航的智能體,該環境被建模為有向圖。智能體觀察其當前節點的發射(輸出),并通過帶標簽動作沿邊遍歷到新節點。多個節點可能發射相同的觀察(即它們是混淆的(Lajoie等, 2019; Whitehead和Ballard, 1991)),因此智能體無法直接觀察狀態。這可以被視為離散時間部分可觀察馬爾可夫決策過程(POMDP)。當智能體在新環境中導航時,我們的目標是學習底層的潛在圖(即地圖歸納,Sharma等(2021)),并通過重用先前學到的圖拓撲或圖模式來快速實現這一目標。我們選擇CSCG模型來構建圖模式,因為它已被證明能夠在高度混淆的環境中使用圖學習問題的平滑概率參數化來學習高階圖(George等, 2021)。我們擴展該模型以描述學到的圖如何作為模式被重用于遷移學習、快速推理和規劃,從而在新情境中通過快速學習觀察綁定并在線發現最佳模式來實現行為。
2. 相關工作
關于在新環境中快速遷移到新任務的研究關注了不同方面,從探索到建模和規劃。最近的一些工作主要在強化學習(RL)框架下完成,不同的RL方法關注這些方面中的一個或多個。
元強化學習(Meta-RL) 無模型元強化學習方法關注將探索策略泛化到新任務和環境變化,而不進行顯式的模型學習。有些研究顯示了對已知環境中新任務的泛化,但無法泛化到新環境,也不處理混淆問題(Rakelly等, 2019; Wang等, 2016)。循環無模型RL已顯示出對某些環境變化和POMDP設置的泛化能力(Ni等, 2021)。這些變化是生成環境的參數,目標是能夠學習一個泛化到這些參數變化的探索策略。這些方法不重用過去環境的顯式知識來建模新環境,也不處理已知環境的組合(Packer等, 2018)。更近的研究添加了具有注意力頭的情景記憶,以選擇性關注和重用存儲的記憶,從而在少樣本設置中快速適應新環境中的任務(例如情景規劃網絡)(Lampinen等, 2021; Ritter等, 2020)。這些模型僅在訓練數十億步后才能匹配最優規劃。此外,這些方法都不處理混淆問題,也不顯式構建環境模型并在其上進行規劃。Gupta等(2017)表明,在空間環境中使用顯式模型構建(建圖)和通過規劃進行導航可以處理部分可觀察性,并優于不具備此能力的方法,但這項研究沒有重用這些模型來快速學習新環境。
基于模型的強化學習(Model based RL) 基于模型的RL工作學習環境的顯式模型(Gregor等, 2019),有些甚至在POMDP設置下(Igl等, 2018),可以遷移到同一環境中的新任務,但無法遷移到新環境。一些研究使用子目標或路標發現與重用的版本來泛化到新任務(Eysenbach等, 2019; Kipf等, 2019; Zhang等, 2021)。然而,這些方法不解決部分可觀察性問題,更重要的是,其泛化僅限于相同環境。半參數拓撲記憶是一種將基于路標的導航擴展到泛化到新環境的方法(Savinov等, 2018)。該方法訓練網絡估計不同位置觀察之間的連通性,并使用此在新環境中構建觀察圖。該方法確實能泛化到新環境,但其性能隨混淆增加而顯著下降。此外,構建圖時使用了人工生成的探索路徑。
我們在模式匹配和重用方面的工作與在不同情境中尋找圖之間的對應關系相關。Crouse等(2021)提出了結構映射的第一個神經網絡方法。但這種方法僅限于匹配問題,沒有機制來解決或學習新結構,或使用部分匹配的模式進行規劃。另一系列相關工作專注于解決受瑞文漸進矩陣啟發的簡化關系任務(Kerg等, 2022; Webb等, 2021)。主要思想是在訓練期間將抽象關系與感官觀察分離,學習觀察映射以解決具有相同關系但新映射的新任務,但這在確定性和簡化設置中進行。
本文的主要貢獻是一個統一系統,該系統(i)通過地圖歸納和組合使用模式促進新環境的快速遷移學習,(ii)處理感知混淆,(iii)直接從動作和觀察構建環境的顯式潛在圖模型,(iv)支持規劃和推理,以及(v)受認知和神經科學啟發并扎根于認知和神經科學。我們的模型是第一個在單一系統中結合所有這些方面的模型。
3. 方法 3.1. 問題設定
考慮一個在有向圖 G 中導航的智能體。當智能體訪問圖中的節點時,該節點會發出一個觀測值。然而,多個節點可能發出相同的觀測值(即它們是混淆的),因此僅憑觀測值不足以區分智能體在圖中的具體位置。此外,動作的結果并非確定性的——在同一節點執行相同的動作可能導致智能體導航到不同的節點。從一個節點出發的出邊標有通過該邊所需的動作,以及在該動作下通過該邊的概率。從一個節點出發、具有相同動作標簽的所有出邊的概率之和為 1。我們使用圖 G 來建模智能體的環境。
![]()
3.2. 模型
克隆結構認知圖(CSCGs)由 Dedieu 等人 (2019);George 等人 (2021) 提出,旨在從動作-觀測對序列中恢復(近似)圖 G 。為此,他們使用分類隱變量 來建模智能體在每個時間步所處的圖節點。這使得我們可以為給定動作條件下的觀測序列構建一個圖模型。在此,我們采用他們模型的條件版本,并將其擴展至連續觀測值:
![]()
![]()
![]()
3.3. 遷移學習的圖式
![]()
![]()
例如,在房間導航設置中,一個圖式模擬了智能體在房間內的位置和朝向、動作如何移動智能體,以及地板或門在房間內多個位置可能看起來相同的知識。通過使用 EM,我們展示了圖式如何通過快速綁定,在新的、具有匹配拓撲和發射結構的環境中實現快速模型學習(圖 1F)。可以使用匹配的圖式進行推理,以主動規劃和追求目標。我們還可以通過比較觀測在不同圖式下的似然,來檢測到另一個已知圖式的轉換,或進入未知區域。
圖式也可以作為構建塊,用于快速學習由匹配拓撲組成的新環境。這包括學習轉移和發射,但在合適的地方復用已知的圖式(參見補充材料 §B.5 和補充算法 2)。
4. 結果
我們展示了兩組實驗的結果:(i)用于評估快速適應的標準基準測試,這些環境不存在感知混淆;(ii)更具挑戰性的設置,即存在大量感知混淆的環境。
4.1. 在新環境中的快速適應與任務解決
我們首先在 Ritter 等人 (2020) 提出的兩個基準測試上評估我們的模型,這兩個基準測試用于評估新環境中的快速適應和任務解決能力:記憶與規劃游戲(MPG)和單次學習的 StreetLearn。
4.1.1. 記憶與規劃游戲
在 MPG 中,智能體可以在一個 4×4 的網格上導航,觀察符號,其任務是在該網格中指定的目標位置收集獎勵(圖 2A)。所有網格位置都有唯一的符號,并且符號與位置的映射關系在每個回合(持續 100 步)結束后會重新隨機排列。詳見補充材料 §B.1。這個設置使我們能夠評估我們的模型在真實圖結構恢復和圖式復用方面的表現,因為圖結構在各個回合中是保持不變的。智能體需要通過探索來收集觀測值,并將它們快速綁定到圖式上,從而通過最優導航最大化獎勵。
![]()
![]()
4.1.2. 單次學習的 StreetLearn
單次學習的 StreetLearn 是 StreetLearn 任務(Mirowski et al., 2019)的一個具有挑戰性的變體,它在各個回合之間改變連接結構,以評估快速任務解決能力(圖 2D)。在每個回合中,智能體被放置在城市的一個新街區,任務是通過導航到達由目標街景圖像指定的目標位置并收集獎勵。收集一個獎勵后,智能體會在新位置重新生成,并指定一個新的目標。與 MPG 不同,這里的轉移圖在每個回合都會改變。我們評估了我們的模型在單個回合內快速學習、并最優地導航到目標以最大化獎勵的能力。需要注意的是,在此設置中沒有圖式復用:我們為每個回合學習一個新模型。這展示了在沒有任何預先訓練的情況下,在少量步驟內快速學習,并利用學習到的模型進行有效規劃的能力。
CSCG 在單次學習的 StreetLearn 中匹配最優規劃。對于 CSCG 智能體,我們采用了一種帶有硬編碼探索策略的“探索與利用”策略。在探索期間,智能體在遇到目標并收集獎勵的同時,會對其遇到的每個觀測執行每個動作進行導航,并利用這些經驗來學習一個 CSCG。這是一種引導式探索,旨在覆蓋轉移圖中的每一條可能的邊。探索之后,智能體利用 CSCG 進行規劃并收集獎勵(詳見補充材料 §B.2)。在 100 個回合中,平均獎勵 ± 標準誤為 21.7 ± 3.7,低于 EPN(28.7),因為我們的探索策略并非最優(圖 2E)。由于本工作未考慮最優探索問題,我們比較了探索之后在學習到的模型上的規劃性能。探索后,我們的智能體到達目標平均需要 4.8 ± 0.03 步,這與最優值(Ritter et al., 2020)相匹配(圖 2F)。需要注意的是,由于每個回合的圖都會改變,在此設置中我們沒有跨回合遷移任何學習。在具有可復用圖結構的城市中,例如曼哈頓的網格布局,CSCG 圖式可以從復用中受益。我們將在接下來的實驗中,在具有大量混淆觀測的房間導航這一更困難的設置中,詳細評估這種圖式復用。
4.2. 高度混淆環境中的圖式匹配與遷移學習
在下一組實驗中,我們評估了在觀測值不同、有時大小也與訓練環境不同的新環境中進行圖式匹配和遷移學習的效果。在這些實驗中,我們使用了比上述基準測試更具挑戰性的設置,包括更大的2D和3D模擬環境以及大量的混淆(Beattie et al., 2016)。請注意,盡管我們使用空間導航作為實驗平臺,但我們并未利用任何關于空間(歐幾里得或其他)的假設,而是將其建模為一個圖導航問題。對于2D和3D環境,我們都使用了不依賴3D感知的簡單智能體觀測模型,因此我們的結果與具體的3D空間設置無關。
我們從一組具有不同形狀和拓撲結構、且存在大量混淆的環境開始。類似于一個大的空曠場地,這些環境內部的觀測在感知上是混淆的(Lajoie et al., 2019; Whitehead and Ballard, 1991),見圖1D。在2D情況下,混淆是由構造產生的;在3D情況下,混淆則是聚類的結果。我們首先按照第3.3節的描述,在訓練房間中學習圖式(圖1D)。我們在具有相似布局但觀測值全新且大小變化的測試房間上評估圖式匹配。在一個新的測試房間中,智能體進行隨機游走,并根據在所執行的動作下、不同已學習圖式下的觀測序列的似然進行評估(圖1E)。需要注意的是,這首先需要從隨機游走期間收集的數據中學習新的發射矩陣,并為每個圖式計算其似然。具有最佳似然的圖式被認為是匹配的圖式。我們在隨機游走期間的多個時間點評估不同圖式的似然。詳細信息和以下實驗使用的參數請參見補充材料 §B.3。
CSCG 圖式在新環境中快速學習匹配的綁定。為了證明這一點,我們使用了具有6種不同布局的3D環境(Beattie et al., 2016)。智能體可以使用3個離散的以自我為中心的動作(向前移動、向左轉、向右轉)進行導航,觀測值是對應于智能體視角的RGB圖像(圖1A, B)。此設置中的觀測空間龐大且復雜,這證明了模型對此類用例的適用性。我們遵循§3.2和補充材料 §A.3中描述的連續觀測流程,來學習訓練環境的模型(使用隨機游走訓練后學習到的圖見圖S1)。我們評估了在具有相同布局但墻壁、地板顏色和環境光照不同(這對應于全新的RGB觀測)的測試環境中的快速學習能力,智能體在這些房間中導航時使用補充材料 §A.4中描述的流程。圖3A顯示了通過負對數似然評估的,在測試房間中成功快速匹配正確圖式的結果(完整結果見補充材料圖S2)。在所有六個測試環境中,正確的圖式都被識別出來,通常是在環境中的1,000步以內,所有情況均在2,000步以內識別出來,相比之下,沒有圖式復用的情況下學習需要大約50,000步。
![]()
為了測試對大小變化的遷移能力,我們使用了五種不同布局(圓柱形、矩形、帶孔正方形、環面和U形)的2D房間,每種布局有三種不同的大小(小、中、大)(圖S3)。我們使用50,000步的隨機游走為這些房間的中等版本學習圖式。在具有新觀測映射的測試房間中,智能體進行隨機游走,同時我們每5步學習新的發射并評估這些觀測在所有圖式下的似然。詳見附錄B.3.2。圖S3顯示了所有測試房間在所有圖式下的負對數似然。通過復用克隆結構,我們能夠在所有情況下在95步內正確匹配圖式,展示了在大小和觀測值變化的新環境中快速匹配和適應的能力(附錄圖S4顯示了不使用克隆結構的結果)。我們使用二值化MNIST數據集的十個數字樣本作為房間布局,重現了這些結果,因為它們提供了非我們設計的、各種有趣的形狀和拓撲結構(結果見補充材料 §B.3.3)。
圖式匹配在由多個圖式組合而成的環境中同樣有效。我們在由成對的MNIST數字房間組成的新測試環境中證明了這一點,并展示了單個數字的在線圖式匹配。詳細信息和結果請參見補充材料 §B.5。
4.3. 利用圖式圖組合性的新環境快速學習
圖式也可用于有效學習和導航由已知圖式組成的更大環境。我們通過匹配圖式并學習它們之間的轉移結構來實現這一點。圖3B展示了一個由四個較小的3D房間組成的示例性3D模擬環境。智能體在此環境中行走,并在遠少于不使用圖式學習所需的步數內,學習到組合模型(包括聯合轉移和發射)。圖3B還顯示了具有所有潛在連接的先驗模型,以及在兩種不同行走長度后學習到的模型。模型質量通過在10,000步測試行走上的負對數似然來衡量,這些模型分別是在不同長度的行走后,使用和不使用圖式進行訓練得到的。使用圖式,我們能夠在不到10,000步內學習到一個完美的環境模型,而從頭開始學習即使在30,000步后效果也明顯更差。學習算法和實驗細節見補充材料 §B.5。這種通過組合和復用先前學習到的圖式進行學習的能力,使得能夠快速適應新環境,并且隨著經驗的積累,這種適應能力只會變得更強。
4.4. 新環境中的快速規劃與導航
快速的圖式匹配與綁定使得在經驗有限的新環境中進行規劃成為可能。我們首先在圖4A中引入的四房間3D環境的一個新變體中展示這種能力。在這個演示中,智能體首先在測試環境中行走,然后被要求找到返回其起始位置的最短路徑。我們使用手動指定的初始行走,以便在最少的步數內覆蓋環境的較大部分。在這種情況下,圖式——即先前為四房間組合學習到的組合圖式(圖3)——是預先已知的。智能體利用初始行走中的觀測值來學習新的發射綁定,并解碼其在模型中的當前位置和目標位置。然后,智能體使用此模型規劃到目標的最短路徑(圖4B)。請注意,規劃的路線穿過了環境中尚未訪問的部分。
![]()
在執行計劃時,如果智能體在考慮了新的觀測后估計尚未到達目標,則可能存在圖式不匹配或估計的發射矩陣不準確的情況。當這種情況發生時,智能體可以利用執行計劃過程中獲得的新經驗更新模型后,重新進行規劃。這個過程不斷迭代,直到智能體在解碼了初始隨機游走和所有后續重新規劃步驟的觀測后,確信自己已達到目標。在一個旨在測試這種能力的實驗中,我們根據距離目標位置的曼哈頓距離以及所需的重新規劃次數,系統評估了在2D環境中對圖式不匹配的這種魯棒性。圖4B顯示了一個示例圖式的結果。即使存在大小和結構變化,我們也能成功導航,并且隨著圖式與測試房間之間差異的增加,性能會逐漸下降。到達目標所需的規劃嘗試次數也平滑增加。添加自轉移概率的對角平滑項(見補充材料 §B.6)對于泛化到大小變化至關重要。如圖4B所示,沒有這種平滑,在測試房間的較大尺寸變體中,智能體永遠無法到達目標(另一個房間布局的結果見補充材料 §B.6)。
5. 討論與未來工作
學習能夠快速綁定到共享相同底層結構的環境觀測的抽象表征,是假設中人類和動物進行遷移學習的機制 (Kumaran et al., 2016; Tse et al., 2007; Zhou et al., 2021)。我們提出了一個具體的抽象表征和快速綁定的計算模型,該模型使用圖式圖從混淆的觀測序列中學習高階結構,并利用一個槽綁定機制來遷移這些圖式,從而快速學習新環境的模型。CSCG 圖式學習圖結構所需的回合數遠少于深度強化學習智能體,并在 MPG 和單次學習的 StreetLearn 任務中匹配了最優規劃。在高度混淆的環境中,CSCG 圖式在不同大小的新房間中找到了匹配的圖式綁定。在組合房間中,當智能體穿過對應于不同圖式的房間時,我們能夠匹配正確的圖式。我們展示了在形狀和大小與匹配圖式有所不同的房間中,通過走向目標的過程中重新規劃和更新模型,成功實現了目標導向的規劃。更重要的是,已知的圖式可以被組合起來,以快速學習新穎的環境和新的、更大的圖式。這種能力具有自我引導的特性,并且只會隨著經驗的積累而變得更強。在我們當前工作的基礎上,有許多清晰的潛在未來工作方向,我們在下文列出其中一些。
從經驗中學習圖式。在這項工作中,我們獨立且明確地學習了圖式。但在現實世界中,可能無法獲取屬于不同圖式的區分化經驗。從連續的經驗流中學習可重用的圖式 (Farzanfar et al., 2023) 可能是一個有趣的未來工作方向。
圖式與記憶。我們丟棄了先前從過去經驗中學到的發射,并學習新的綁定。然而,在某些情況下,先前學到的發射是直接適用的,因此,如果保留這些發射,當存在匹配時,可能能夠實現更快的零樣本適應。這可以看作是保留特定記憶與使用抽象圖式之間的區別。
圖式維護。我們在這項工作中的圖式是固定的。然而,用新的經驗來更新圖式是可能的。事實上,兒童最初傾向于感知和記憶符合他們現有圖式的經驗,之后才發展出靈活性 (Piaget and Cook, 1952)。類似地,我們可以根據新的經驗更新圖式,甚至讓圖式本身變得靈活,以封裝相關的抽象概念,但仍然受到規則的約束,以允許一致的推理。
主動探索。我們使用了隨機或已知的最優探索策略來學習和綁定圖式。但圖式提供了關于未來觀測的、以動作條件為轉移的信念。通過選擇能夠最優地區分不同圖式并尋求學習它們之間連接的動作,我們有可能做得比隨機探索好得多。類似地,為了學習新環境和圖式,我們可以通過組合已知圖式來引導探索策略 (Sharma et al., 2021),甚至在探索過程中主動學習它們。
原文鏈接:https://arxiv.org/pdf/2302.07350
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.