網易首頁 > 網易號 > 正文申請入駐

反事實推理：模型規劃的主動學習

2026-03-06 19:01:41　來源: CreateAMind

上海舉報

分享至

SophisticatedLearning: A novel algorithm for active learning duringmodel-based planning

精妙學習：面向基于模型規劃的主動學習新算法

https://arxiv.org/pdf/2308.08029

https://github.com/sgrimbly/Sophisticated-Learning

摘要

我們引入了復雜學習（SL），這是一種“規劃以學習”算法，它將主動參數學習嵌入到主動推理的復雜推理（SI）樹搜索框架內部。與優化關于隱藏狀態信念的 SI 不同，SL 還在每個模擬分支內更新關于模型參數的信念，從而能夠進行反事實推理，即關于未來觀測將如何改善后續規劃的推理。我們將 SL 與貝葉斯自適應強化學習（BARL）智能體以及其父算法 SI 進行了比較。利用一個生物啟發的季節性覓食任務（其中資源在 10×10 網格上概率性地發生轉移），我們設計了實驗，迫使智能體在概率性獎勵獲取與信息收集之間取得平衡。在快速學習至關重要的早期試驗中，SL 智能體的平均生存時間比 SI 長 8.2%，比貝葉斯自適應強化學習長 35%。雖然 SL 和 SI 表現出相當的收斂性能，但 SL 達到收斂的速度比 SI 快 40%。此外，在改變的環境配置中，SL 表現出優于其他算法的穩健性能。我們的結果表明，將主動學習納入多步規劃實質性地改善了根本不確定性下的決策，并加強了主動推理在建模生物相關行為方面更廣泛的效用。

引言
在生物和人工系統中，決策都涉及一個基本的權衡：是利用當前的行為策略，還是探索更好策略的可能性。這一困境通過動物覓食范式得以說明，其中利用當前食物來源與探索潛在更豐富替代品之間的選擇，關鍵性地基于環境線索和過往經驗（Charnov, 1976, Stephens and Krebs, 1986, Webb et al., 2025）。在此背景下，尋求信息以優化行為策略是適應性智能的重要組成部分，使生物體和人工智能代理都能夠減少關于其環境的不確定性。對這種尋求信息驅動力的系統研究可追溯到早期關于好奇心的心理學研究。例如，Berlyne (1966) 引入了不同形式好奇心之間的區別，并將這一更廣泛的概念確立為知識獲取的基本動機。他的工作表明，生物體表現出解決不確定性和收集信息的先天驅動力，在某些情況下獨立于初級獎勵。

現在關于這一普遍主題有許多研究線索。例如，新興的一系列工作已開始揭示與探索行為相關的神經機制，展示了大腦如何賦予信息價值并據此指導動作選擇（Gottlieb et al., 2013, Zajkowski et al., 2017, Chakroun et al., 2020, Tomov et al., 2020, Chou et al., 2024）。當前關于強化學習（RL）算法的工作也調查了幾種鼓勵信息尋求的方法，從簡單的啟發式方法（例如，將未訪問狀態初始化為高值）到基于置信上限（UCB）、Thompson 采樣和其他貝葉斯原理的更復雜方法（Jaksch et al., 2010, Houthooft et al., 2016, Bellemare et al., 2016, Pathak et al., 2017, Russo et al., 2018）。在此基礎上，內在動機系統已被證明能成功指導人工和生物代理的探索和學習，特別是在發育期間（Oudeyer and Smith, 2009）。其他主動學習方法已在別處被綜述（Settles, 2009），每種方法都表明代理最優地應被驅動去推斷和采樣自那些能最有效解決不確定性的數據源。這與關于最優實驗設計的工作密切相關（MacKay, 1992），后者借鑒信息論原理以獲得信息量最大的觀測。

主動推理（ActInf）是一個最近提出的用于建模不確定性下決策的框架。該框架的一個區分特征是，解決不確定性的驅動力作為其價值函數的內在特征出現，而這又是從一組生物啟發的第一原理推導出來的。 ActInf 與其他著名框架（如 RL）共享許多關鍵特征，但在重要方面也有所不同。首先，它在馬爾可夫決策過程中內在假設部分可觀測性，并通過變分自由能最小化采用變分推斷方法來近似狀態推斷中的貝葉斯最優性。其次，其目標函數，期望自由能（EFE；在數學形式體系中表示為 G），本身源自變分原理，并自然導致尋求獎勵的行為和定向探索（例如，偏好具有最大結果不確定性的選擇）。概念上，EFE 量化了與未來狀態和觀測相關的預期“驚喜”或不確定性，條件是偏好和特定的行動過程。因此，最小化 EFE 驅動代理選擇預期能減少關于世界的不確定性（即產生信息）的動作，同時也將代理移動到與其偏好一致的狀態（在 2.1 節中更正式地定義）。如前所述，這一公式的一個關鍵優勢是，探索自然地從底層的推斷過程中出現，而不是需要對價值函數進行進一步添加。這使得 ActInf 代理能夠通過優先處理既最大化未來目標達成（與偏好一致）又最小化關于狀態和模型參數不確定性的動作，從而有效地導航不確定環境。

近年來，ActInf 已在基準機器學習環境中與傳統決策模型進行了比較（Friston, 2009, Sajid et al., 2021, Fountas et al., 2020a, Tschantz et al., 2020, Millidge, 2021）。盡管其在這些環境中的表現依賴于上下文，但總體上與其他算法大致相當。這種重疊部分產生是因為 ActInf 背后的核心動機——最大化獎勵和最小化不確定性——在概念上與其他基于代理的機器學習框架中發現的動機相似。換句話說，雖然實現方式不同，特別是在如何在單一目標函數內統一認知和工具性指令方面，但底層的驅動力并非獨一無二。與此一致，Sajid 等人（2021）表明，當移除探索驅動力時，ActInf 與貝葉斯 RL 一致。更一般地說，當置于受益于認知驅動力和基于模型的規劃相結合的部分可觀測環境中時，RL 和其他基于代理的方法傾向于收斂到相似的解決方案。沿著這些思路，Chou 等人（2025）最近表明，復雜度匹配的 RL 和 ActInf 模型以相似的準確性解釋了 3 臂老虎機任務上的實證選擇行為。然而，貝葉斯模型選擇一致地偏愛 ActInf 作為行為提供最多證據的模型。

雖然很有前景，但當前 ActInf 實現中的某些局限性激發了努力提高其性能和可擴展性的工作。特別是，與其當前變分推斷（即消息傳遞）和策略選擇方法相關的計算成本在大多數現實世界應用中將是難以承受的。這導致了將 ActInf 與其他方法整合的努力，包括深度學習架構（?atal et al., 2020）、蒙特卡洛樹搜索（MCTS）（Fountas et al., 2020a）和策略梯度方法（Millidge, 2021）。

另一個局限性是標準 ActInf 對于大于一的策略深度無法實現貝爾曼最優性（Da Costa et al., 2023）2。為了解決這個問題，最近開發了一種“復雜推理”（SI）算法。該算法是貝爾曼最優的，并通過遞歸樹搜索解決多步規劃任務（Da Costa et al., 2023）2。然而，SI 尚未與其他算法進行嚴格比較，并且有明確的進一步發展方向，特別是關于作為更廣泛框架核心的主動學習驅動力。

在本文中，我們基于先前工作以實現兩個主要目標。首先，我們將 SI 與其他旨在解決類似問題的領先算法進行比較，包括貝葉斯自適應 RL（BARL）和代表性的置信上限（UCB）啟發式方法（Agrawal, 1995）。其次，我們引入并評估了 SI 的一個擴展，該擴展結合了主動學習，我們稱之為復雜學習（SL）。

為了展示 SL 提供的獨特規劃過程和優勢，我們在一個新穎的、生物啟發的環境中將其性能與上述算法進行比較，該環境旨在支持多種定向探索策略。結果通過突出每種算法的優勢和弱點提供了新穎的見解。如第 4 節所示，SL 顯著優于所有其他測試算法，并且無論是否添加 UCB，SL 和 SI 都比 BARL 取得更好的結果。

背景
在本節中，我們將更徹底地將我們的方法置于先前工作的更廣闊背景中。我們首先考察主動推理（ActInf）模型的理論基礎，重點關注它們與既定決策框架的關系。隨后，我們探討復雜推理（SI）作為標準 ActInf 的關鍵擴展，并討論其與主動學習和貝葉斯自適應強化學習（BARL）的關系。這為我們提出的新算法（SL）奠定了基礎，該算法結合了上述每種先前方法的見解。

2.1. 形式體系與符號

我們首先建立 ActInf 和 BARL 共同的基礎形式體系。每個框架都在部分可觀測馬爾可夫決策過程（POMDPs）內運作，其中智能體必須推斷隱藏狀態，更新其信念，并選擇動作以優化其目標。雖然這些方法在幾個方面有所不同，但它們都依賴于代表環境動態的生成模型。

POMDP 與生成模型結構。在強化學習（RL）中，POMDP 為不確定性下的決策提供了一個形式框架，其中智能體必須通過觀測來推斷和推理隱藏狀態。該框架傳統上被定義為一個元組：

該生成模型的結構導出了以下的聯合概率：

其中模型參數和初始狀態的先驗被顯式表示，且智能體關于動作的先驗被編碼為 p(E)。

信念更新與參數學習。鑒于此結構，智能體維護一個關于狀態的信念分布，該分布隨著新觀測的接收而遞歸更新。直觀上講，此更新結合了當前觀測的似然與基于前一狀態估計的預測。在貝葉斯框架下，此信念更新遵循：

這種關于狀態的近似后驗分布 q(st) 代表了智能體基于其過往經驗對隱藏狀態的最佳估計。在平均場近似下，這些關于狀態的后驗信念遵循一種計算上更易處理的形式：

其中 σ 表示 softmax 函數。

除了狀態推斷之外，智能體可能還需要學習轉移模型 B 和/或觀測模型 A，它們通常被視為潛在變量。為此，智能體維持并更新兩種類型的信念：關于隱藏狀態的信念和關于模型參數的信念。關于狀態的信念使用形式為 q(st) = Cat(st) 的分類分布來表示，而關于觀測和轉移模型參數的信念則使用狄利克雷分布來表示，

上述形式體系確立了智能體如何維持和更新關于其環境的結構化信念。該框架中的貝葉斯更新既是 ActInf 也是 BARL 的基礎。然而，這兩個框架在如何利用這些信念來指導行為方面存在分歧。

ActInf 將決策構建為自由能最小化，即選擇能夠最小化期望自由能（EFE）的動作。這一目標內在地平衡了目標導向行為與信息尋求，在單一的變分原理內統一了探索與利用。

相比之下，BARL 將規劃構建為信念 MDP（belief-MDP）中的推斷，其中智能體對環境的不確定性被視為增強狀態空間的一部分。探索通常通過顯式機制（例如 UCB 方法）來實現，以平衡探索與利用之間的權衡。

在接下來的章節中，我們將詳細考察這些方法。我們首先探討 ActInf 如何擴展變分推斷以納入未來觀測和策略選擇。隨后，我們將討論 BARL 如何構建和求解信念空間 MDP，以處理環境動態中的認知不確定性。

2.2. 主動推理與期望自由能

主動推理（ActInf），在文獻中有時被稱為標準或普通主動推理，提出具有概率狀態 - 觀測映射環境中的智能體通過最小化兩個相關量來完成感知、學習和動作選擇：變分自由能（F）和期望自由能（G）（Friston et al., 2011, 2012）。變分自由能（VFE）等價于變分推斷中的負證據下界（ELBO）：

直觀上講，這一公式平衡了兩個關鍵因素：(i) 減少關于狀態的不確定性（認知價值）和 (ii) 尋求偏好的觀測（實用價值，以關于觀測的固定先驗形式編碼；見下文）。需要注意的是，存在替代公式，例如預期未來的自由能（Free Energy of the Expected Future）（Millidge et al., 2021），其在信息尋求行為的具體含義上有所不同。這強調了 EFE 并非一個唯一定義的目標，而是一族具有不同解釋和計算性質的泛函。最近的工作也表明，這些公式不一定等價（Champion et al., 2024）。我們將回顧重點放在 EFE 的標準公式上。

重要的是要注意，公式 10 的第一行幾乎等同于公式 9 中的 F。區別在于觀測已被包含在期望之內。因此，G 計算的是預期未來觀測的變分自由能。在 POMDP 中，這些預期觀測依賴于未來狀態，而狀態之間的轉移依賴于所選策略。因此，智能體選擇那些預期能將環境轉移到會產生最小化 G 的觀測的狀態的動作。

公式 10 中的分解明確了 EFE 如何驅動動作選擇。為了便于闡述，我們將首先解析公式 10 第二行中的第二項，該項通常被稱為實用項（Smith et al., 2022）。如上所述，該項驅動智能體去尋找它偏好的或發現最有獎勵的觀測。這源于 ActInf 內一種獨特的目標導向選擇方法，其中先驗 ln p(o) 被用來編碼相對偏好（即，具有更高“概率”的觀測被視為更有獎勵）。為了使這一點更明確，它有時被顯示為 ln p(o|C)，其中 C 對這一固定偏好集進行參數化，并且明顯區別于策略下的預期觀測 p(o|π)。在其他條件相同的情況下，智能體因此可以被認為是在尋找一個策略，該策略預期能最小化其目標（靶標）分布與給定其策略的狀態 - 觀測對預測之間的差異。這可以被視為智能體在考慮：“這個策略會帶我進入最有可能產生我想接收的觀測的狀態嗎？”

公式 10 第二行中的第一項，即認知價值，反而量化了智能體在給定策略下預期能關于狀態學習多少。更高的認知價值對應于預期會導致更大不確定性減少的策略，自然導致探索。ActInf 的一個有趣特征是，該項自然地從自由能公式中推導出來。雖然這類似于 RL 中的定向探索項（Mann and Choe, 2013），但它不需要作為標準價值函數之外的單獨添加項。還要注意，這更具體地說是一種狀態探索形式（Schwartenbeck et al., 2019）。換句話說，它驅動智能體減少關于狀態的不確定性。這與主動學習不同，后者反而驅動智能體更新關于模型參數的信念（有時稱為參數探索；下文將進一步討論）。后一種探索形式更類似于標準 RL 中使用的形式（例如，采取動作來學習獎勵概率），主要是因為 RL 更常用于完全可觀測的環境（即 MDP 而不是 POMDP）。

為了支持主動學習和參數探索（當生成模型參數未知時），EFE 也可以擴展為考慮關于參數的信念。例如，當應用于定義似然函數的參數 θ 時，這將產生：

在此，出現了一個新項，通常被稱為新穎性（novelty），它衡量了在策略下由預期觀測導致的關于模型參數信念的變化。高新穎性表明，預期觀測將顯著修正智能體關于其環境中隱藏狀態如何生成觀測的信念，從而驅動參數探索。在實踐中，這鼓勵智能體從環境中未被充分探索的部分進行采樣，使其在功能上類似于強化學習（RL）中鼓勵多樣化經驗采樣的內在動機機制。

如上所述，離散設置中關于參數的信念通常由狄利克雷分布（Dirichlet distributions）表示，允許智能體通過濃度參數計數 α 來編碼不確定性。該分布由下式給出：

總之，EFE 泛函通過偏好那些預期能同時最大化獎勵（偏好觀測）并增加對狀態和模型參數置信度的策略，來驅動適應性行為。這些驅動力中的每一個都由預期獎勵的大小以及關于當前狀態和環境統計量的相對不確定性自然且動態地加權。在實踐中，這些分量也可以通過單獨的常數獨立加權，以提供行為上的額外靈活性，或更好地解釋人類或其他動物研究中個體差異的來源（Chou et al., 2025）。

雖然 ActInf 為適應性行為提供了一個原則性框架，但實際實現面臨顯著的計算挑戰。如上所述，一個關鍵問題是需要提前評估整個預定義的動作序列（策略），隨著規劃視界的增加和可能決策序列的增長，由于可能策略的組合爆炸，這變得不可行。在復雜環境中更新狀態信念時，變分消息傳遞的高計算成本，以及對手工構建的生成模型的依賴（這對現實世界任務來說可能很難指定），進一步加劇了這一問題。這些可擴展性問題激發了對 ActInf 的各種擴展，包括基于深度學習的近似（Catal et al., 2020）、蒙特卡洛方法（Fountas et al., 2020b）和策略梯度技術（Millidge, 2019）。一個特別相關的擴展是上述的 SI 算法（Friston et al., 2021），它使用遞歸樹搜索重新構建了 EFE 目標，以消除對窮舉策略枚舉的需求。SI 通過將未來信息反向傳播通過分層規劃結構來動態優化策略，使其成為在實時決策中擴展 ActInf 的一種有前途的方法。我們現在更深入地探討 SI。

2.3. 復雜推理

SI 算法擴展了 ActInf，通過將預定義的可能策略集替換為遞歸信念傳播，來解決規劃中的關鍵可擴展性挑戰。換句話說，與預先評估所有可能動作序列的標準 ActInf 不同，SI 通過樹搜索過程動態構建策略，該過程增量地傳播和評估關于未來狀態和觀測的信念。這種遞歸方法將 EFE 最小化問題重新構建為類貝爾曼方程（Bellman, 1958），明確地將狀態推斷以動作和觀測為條件，而不是整個策略。給定時間步 t 的動作 u t
（為清晰起見省略模型參數推斷），EFE 的遞歸公式則為：

這種分解揭示了 SI 的兩個關鍵方面。前三項捕捉了動作的局部認知價值和實用價值，量化了當前時間步的預期信息增益和預期獎勵。相比之下，第四項遞歸地在隨后的時間步傳播未來的 EFE，使智能體能夠評估其動作的長期后果。由于 SI 通過擴展高概率信念軌跡來迭代構建搜索樹，這可以與特定的剪枝機制相結合，在保持標準 ActInf 中的主要目標函數的同時，使深度規劃在計算上變得可行。

為了管理計算復雜性，SI 應用了兩個關鍵的剪枝機制。首先，如果轉移到未來信念狀態的先驗概率低于預定義的閾值（例如，原始公式中 p = 0.16
），則對該分支進行剪枝，確保低概率軌跡不消耗資源。其次，那些 EFE 高于替代方案（即相對價值較低）超過預定義閾值的分支會在搜索過程的早期被丟棄，減少了完全評估次優路徑的需求。通過以這種方式迭代剪枝無信息或次優的動作序列，SI 避免了窮舉的策略枚舉，同時仍然捕捉長程依賴性。這允許智能體選擇性地探索那些可能產生高認知或實用價值的策略。這些剪枝機制并非 SI 獨有，已被作為解決方案應用于標準 ActInf 和其他算法中。然而，與遞歸樹搜索方法相結合，它們提供了優于原始 ActInf 公式的有用優勢。目前，這種方法在很大程度上尚未針對其他類似算法進行測試。

從心理學角度解讀，SI 使智能體能夠參與關于未來信念和觀測的分層反事實推理。智能體隱式地考慮以下序列：

這種迭代的信念更新過程似乎捕捉到了心理模擬和前瞻性規劃的現象學，其中決策是基于未來不同時間點的想象后果進行評估的。

圖 1 說明了這一過程：每個分支對應一個候選動作序列，而信念傳播則完善了智能體關于未來狀態和觀測的預期。

2.4. 其他擴展

值得注意的是，最近的研究也探索了對標準 ActInf 和 SI 的各種擴展。例如，Paul 等人（2023）提出將動態規劃技術應用于 EFE 泛函，以提高計算效率。他們還研究了智能體如何通過對稀疏目標分布應用 Z-learning（Todorov, 2006）來學習關于狀態的密集偏好——代表合意性。這種方法使智能體能夠開發超出預定義獎勵結構的適應性目標表示。它還允許智能體采用分層規劃視角，其中狀態偏好動態出現，而不是被明確分配。概念上，這與直觀的啟發式方法一致，例如： “這個狀態將使我更接近我的目標；因此，我通常偏好這個狀態勝過前一個狀態。” 然而，學習偏好（相對于基于動作的價值函數）仍然是 ActInf 中一個未被充分探索的領域，為適應性和高效決策提供了新的可能性。

2.5. 貝葉斯自適應強化學習

雖然 ActInf 通過 EFE 最小化的視角構建決策，但在 RL 內已經描述了一種處理 POMDP 中不確定性的替代貝葉斯方法。具體而言，貝葉斯自適應強化學習（BARL）框架通過結合關于模型不確定性的顯式貝葉斯推理，直接擴展了經典的 RL 方法，將智能體關于環境動態的信念視為增強狀態空間的一部分。基于第 2.1 節建立的形式體系，BARL 還通過維持和更新關于模型參數的信念，提供了一種原則性的探索方法。與從 EFE 最小化推導信息尋求行為的 ActInf 不同，BARL 在信念空間構建了一個擴展的 MDP，允許標準優化技術自然地平衡探索和利用。這種方法已被證明在智能體必須在最大化預期獎勵的同時學習環境動態的場景中特別有效（Ross et al., 2007）。

理論基礎。BARL 方法位于更廣泛的貝葉斯機器學習領域內。迄今為止，該領域已開展了大量工作，產生了多種在執行未知變量推斷時結合先驗信息的有效方法（Ghavamzadeh et al., 2015）。這些方法通常應用于涉及不確定性的問題，其中新信息與先驗信念相結合，以形成關于一個或多個未知因素的后驗信念。與此特別相關的是，這些方法在導航與 ActInf 假設的相同形式的 POMDP 方面已被證明是有效的（Poupart and Vlassis, 2008）。

BARL 要么針對解空間的不確定性（無模型），要么針對參數空間的不確定性（基于模型）來構建 POMDP。在貝葉斯框架內構建此類問題的一個顯著優勢是，它有效地規避了探索與利用之間的權衡問題。這是由于貝葉斯方法具有將關于狀態/參數/解的不確定性表示為信念狀態的能力，而這些信念狀態隨后可用于識別最優解（Ghavamzadeh et al., 2015）。然而，這種方法的一個缺點是其對初始先驗的敏感性，這些先驗完全決定了任務開始時的信念狀態（Guez et al., 2012）。因此，BARL 的一個integral（不可或缺的）且通常困難的方面是有效先驗信息的設計和整合。

在此，已經求取了關于信念 b 的 θ 的期望（即，對其進行了邊緣化），因此 θ 不會出現在結果概率密度中。因此，相對于信念 b ，模型實際上是已知的，并且不需要對 θ 進行探索。信念本身在接收到數據（在本例中，是關于轉移的數據）時進行更新：

隨著模型隨后被構建為已知的（關于 b ），該問題可以被公式化為一個馬爾可夫決策過程（MDP），并且可以使用貝爾曼方程來確定每個狀態 - 信念對的最優價值函數。

值得注意的是，雖然這在數學上精確地表示了 POMDP 內的信念狀態，但收斂性僅相對于智能體的初始先驗得到保證（Katt et al., 2018）。然而，盡管存在這一局限性，該框架在實踐中已顯示出良好的收斂特性（Ross et al., 2007, Vargo and Cogill, 2015, Katt et al., 2018）。

實現考量。雖然存在多種選擇，但我們在下文模擬中考慮的特定 BARL 算法使用了在線更新，這與 Paquet 等人（2005）的方法一致。具體而言，該版本的算法按順序處理數據，隨著新信息的出現增量地更新其信念并調整其策略，而不是要求一次性提供整個數據集。規劃結構（搜索算法）與 SI 算法中使用的完全相同，區別僅在于獎勵函數的構建方式。一般來說，對于這些遞歸算法，搜索完全等同于對從初始信念狀態可達的狀態子集進行的定向價值迭代方法。

在算法上，此處考慮的 BARL 方法也模擬了對上述超狀態的搜索，這些超狀態隱式地包含了智能體關于模型參數的不確定性。這意味著濃度參數更新是在前向樹搜索（規劃器）的每個遞歸步驟執行的，而不是僅在每個真實時間步之后執行。有關更詳細的偽代碼，請參閱附錄中的算法 3。重要的是，前向樹搜索期間的濃度參數更新不會延續到下一個真實時間步——它們僅存在于遞歸規劃的上下文中。與 SI 一樣，貝葉斯自適應方法也對狀態和動作實施剪枝。

探索動機的可比性。如上所述，BARL 中的信息尋求隱式地源于最大化獎勵的驅動力。雖然這種效應也存在于 SI 中，但 ActInf 內的 EFE 目標還包含新穎性項，這提供了一個獨立于預期獎勵的進一步探索驅動力（即一種內在好奇心）。為了與 SI 具有更大的可比性，BARL 也可以補充一個顯式的定向探索項。為此，我們在下文展示的一些模擬中，向 BARL 添加了一個常用的定向探索項——置信上限（UCB）。在此，UCB 采取一種算法啟發式的形式，該啟發式編碼了智能體直到當前時間點已經轉移到的狀態的計數。這可以通過添加到獎勵函數中的一個表達式來表示，如下所示：

方法
3.1. 復雜學習
我們現在詳細說明 SL 算法的構建，該算法將 SI 與來自主動學習和貝葉斯自適應 RL 的見解相結合。回想一下，SI 在其遞歸樹搜索中包含了第 2.3 節所示 EFE 分解中的前兩項（即，分別驅動狀態探索和獎勵尋求），但它沒有包含第三項（新穎性）項，該項用于激勵參數探索。 SL 算法是專門構建的，旨在通過結合這一額外功能建立在 SI 之上，允許智能體參與潛在參數更新的模擬。這具體允許智能體前瞻性地推理不同的未來動作預期將如何完善其模型參數——從而提高其在動態環境中學習的能力。

SL 統一了 SI 和貝葉斯自適應方法，利用了它們各自的優勢。如下所示（第 4 節），SI 和 BARL 在需要復雜適應性學習的場景中都表現出相對較差的性能。雖然 SI 尚未在此類環境中得到廣泛測試（Friston et al., 2021），但有充分文獻記載，針對 POMDP 的 BARL 方法高度依賴于明確指定的先驗信念以促進有效學習（Ross et al., 2007, Katt et al., 2018）。這一局限性通常限制了它們在高度不確定、非平穩設置中的適用性，這與此處呈現的結果一致。

通過在遞歸樹搜索本身內傳播參數更新，類似于貝葉斯自適應方法，SL 使智能體能夠預測其信念將如何隨時間演變，而不是將它們視為靜態的。這允許智能體選擇動作不僅是為了即時目標優化，也是為了最大化其未來學習潛力。實際上，SL 賦予智能體對其自身認知進步進行反事實推理的能力，從而做出主動自我改進的決策，加速模型收斂和適應性。

更詳細地說，SL 算法在每個模擬時間步后更新濃度參數計數，方式與 BARL 中相同。這些更新后的濃度參數隨后被向前傳播，并用于構建（通過歸一化）轉移和/或似然函數，這些函數用于遞歸搜索的后續步驟。因此，SL 算法可以考慮如果采取一個動作序列而不是另一個動作序列，模型參數將如何沿著其前向樹搜索發生變化。這很重要，因為它更充分地代表了一種模擬，即如果智能體采取一組特定的動作，并在這樣做之后在每個真實時間步更新其模型參數，實際實時軌跡將如何展開。請注意，以這種方式模擬狀態和模型參數如何變化必然基于智能體關于狀態和模型參數的先驗信念，這可能導致關于環境的錯誤和有偏假設。然而，盡管如此，此類技術已顯示出良好的收斂特性（Ross et al., 2007）。

除了這種反事實搜索方法外，SL 還實現了一個“后向平滑”功能——這一特征之前在 SI 的原始展示中（在更有限的范圍內）曾被提出（Friston et al., 2021）。該后向平滑功能從當前評估的時間步回溯，以調整其在先前時間步上關于狀態的后驗信念。這在學習情況下特別有用，因為它允許將觀測回顧性地分配給狀態的后驗，從而可能導致對相關狄利克雷濃度參數計數的更準確更新。重要的是，該后向平滑功能在智能體規劃視界內的每個評估的未來時間步以及每個真實時間步均被實施。

總之，SL 與原始 SI 方案之間有兩個關鍵區別。第一個是通過前瞻性模擬傳播參數學習的加入。第二個是在此前向搜索的每一步對參數學習進行的模擬后向平滑。從心理學角度來看，因此可以將 SL 智能體的推理視為如下：

如果我采取一個動作，接收一個觀測，并轉移到一個新狀態，那么我將如何更新我關于此時間步及先前時間步的狀態的后驗信念？基于這些后驗更新，那么我將如何改變我當前的模型？

這種多層次反事實思維的方法被證明特別有益，尤其是在智能體需要學習似然函數而狀態轉移函數已知的情況下，如下文我們的主要算法比較中所描述（第 3.3.2 節）。

雖然通過向后平滑來細化過去狀態后驗的原則存在于其他推斷方案中，但 SL 的獨特優勢在于其在前向規劃內對此過程的主動整合。具體而言，SL 內的搜索機制評估和優先選擇動作不僅基于即時結果，還基于將通過后續后向平滑實現的關于參數的預期信息增益。因此，它更高度重視那些導向特定狀態的軌跡，從這些狀態進行的向后推斷將對過去信念產生更精確且信息量更大的更新，進而更新模型參數本身。如下文我們將展示的，這種通過對后向平滑實現的未來認知細化的戰略強調，有助于更準確地修正歷史信念，進而支持穩健的未來決策并加速不確定環境中的學習。

3.2. 覓食網格世界環境

為了評估 SL、SI 和 BARL 的相對性能，我們設計了一個具有挑戰性的網格世界環境，以測試多步規劃，其中戰略探索對于最大化長期獎勵至關重要。雖然其他環境也曾被用于比較 ActInf 與不同的機器學習算法（Sajid et al., 2021, Millidge, 2021），但它們通常將探索或模型學習等特定行為孤立開來。我們的環境整合了這些需求，要求智能體在預測世界的概率性變化的同時，動態地平衡探索、參數學習和獎勵優化。這一設計的動機源于常見的生物學挑戰：管理不同且不斷增長的需求（例如，饑餓、口渴），避免關鍵的生存閾值，以及定位那些可用性隨時間變化的資源，這需要認知性覓食。

3.2.1. 環境細節與智能體模型

該環境是一個 10×10 的網格，包含三種非消耗性資源，名義上標記為食物、水和睡眠（見圖 3）。在每個時間步，智能體可以向上、向下、向左、向右移動，或留在原地。位置轉移是確定性的，且為智能體所知。

這個環境帶來的核心挑戰在于其部分可觀測的性質。資源的位置依賴于隱藏的背景狀態，這些狀態隨時間概率性地變化。出于概念目的，我們將這些背景狀態標記為季節（即春、夏、秋、冬）。智能體無法直接觀測季節狀態。然而，它可以通過訪問一個特定的線索位置（我們稱之為 Hill 狀態）來暫時揭示當前季節（即，仿佛提供了環境的概覽）。然而，訪問 Hill 狀態本身并不揭示資源位置。因此，智能體仍然需要通過探索來學習季節與資源位置之間的映射。這種設置創造了一個明確的探索 - 利用困境，其中智能體需要在以下之間進行選擇：1) 探索新位置以尋找資源，2) 訪問 Hill 以減少關于當前季節的不確定性，或 3) 利用當前信念并移向之前觀測到資源的位置。智能體的狀態空間被正式定義為：

在此，
是內部狀態，用于追蹤自上次獲取每種資源以來經過的時間步。這些充當了隨時間增長的穩態需求，其中每種資源水平都被智能體確切地知曉 3 3。形式上，智能體擁有兩種觀測模態。第一種涉及網格狀態內的資源，有四種可能的結果：空（Empty）、食物（Food）、水（Water）或睡眠（Sleep）。第二種模態提供關于背景（context）的信息。也就是說，如果在 Hill 狀態，智能體觀測到當前的背景（例如，Winter），而所有其他網格位置則提供無信息的“無背景”（No Context）觀測。

3.2.2. 動態多目標偏好

如上所述，該環境中的偏好不是靜態的；它們由一個動態的、多目標的獎勵函數決定，該函數反映了智能體當前的內部資源需求（算法 1）。對給定資源的偏好隨著自上次獲取以來時間的增長而增加。如果任何資源計時器超過了預定義的限制，智能體將遭受巨大的懲罰，且該回合（trial）結束。在某種程度上，這一結果可以被視為智能體的“死亡”（盡管，如下所述，為了評估目的，學習被允許在回合之間延續）。這種受穩態調節啟發的結構，迫使智能體平衡多個相互競爭的目標以確保生存，這一設計遵循了強化學習中的經典方法（Sutton and Barto, 2018）。

智能體的動態偏好結構是本任務的一個關鍵特征。與具有靜態或僅時間依賴偏好的典型 ActInf 實現不同（Tschantz et al., 2020, Sajid et al., 2021, Friston et al., 2021, Smith et al., 2022），在此處，智能體的偏好是其自身策略的函數。即，智能體采取的動作決定了其未來的內部狀態，而這些狀態反過來定義了其未來的偏好。這產生了一種循環依賴，其中智能體需要識別出一個策略，該策略能最好地滿足由該策略本身所引發的偏好。

3.2.3. 說明性任務示例

該環境的設計使得減少不確定性的策略具有細微差別且非平凡。雖然現有關于認知行為的大部分工作都集中在老虎機任務上（Averbeck, 2015, Markovi? et al., 2021），但我們的環境反而允許長期序列規劃。例如，智能體可以通過兩種不同的方式推斷當前背景：直接方式，即訪問 Hill；或間接方式，即訪問一個在特定背景下已知存在資源的位置。觀測到該資源證實了背景，而其缺失則暗示背景已經改變。舉例說明，考慮圖 5 中的場景。在此示例中，季節之間的轉移概率是已知的，但每個季節中網格位置與資源之間的映射（即似然函數）需要被學習。在 t = 0 時，此模擬假設智能體位于 Hill 狀態并觀測到背景是 Winter。它還假設智能體此前已通過經驗學習到 Food 在 Winter 時很可能位于網格位置 2。

因此，智能體移動兩個時間步以到達位置 2。如果每個時間步季節保持為 Winter 的概率是 0.95，那么到達時它仍然是 Winter 的概率將是 0.95 × 0.95 = 0.9025 。因此，智能體相當確信季節保持穩定。然而，當智能體到達位置 2 時，它發現食物缺席。這使得智能體能夠確信地推斷季節已經改變。由于智能體知道季節之間的轉移概率，它在更新信念時也可以推理最可能的背景轉移（例如，單次轉移到 Spring 與雙重轉移到 Summer）。此示例強調了最優行為如何要求智能體依賴其世界模型來指導信念更新，并引導動作選擇朝向探索或尋求獎勵的選擇。

3.3. 實驗設置與細節

對于我們下面的主要模擬，Hill 狀態被設置在位置 55（網格中心），以確保從網格中的所有點來看，它通常都在智能體的規劃視界（搜索深度）內。資源位置也是啟發式選擇的，在每個季節內固定，以確保興趣點大多在彼此合理的搜索深度內，并能有效地促進學習。具體而言，取決于季節，食物、水和睡眠分別被放置在以下位置：春 = 71, 73, 64；夏 = 43, 33, 44；秋 = 57, 48, 49；冬 = 78, 67, 59。季節背景轉移保持穩定的概率為 0.95，或以 0.05 的概率轉移到相鄰背景。初始背景在每次試驗開始時被均勻采樣，智能體在第一個時間步對背景具有均勻信念。需要注意的是，雖然我們專注于此處描述的具體配置以進行詳細說明，但每種算法也在其他幾種配置（即資源位置的選擇）上進行了測試，以確保我們結果的泛化性。這些進一步驗證性分析的結果提供在附錄第 6.3 節。

每次試驗開始時，智能體位于固定的初始位置（狀態 51）。食物、水和睡眠的生存閾值分別設置為 22、20 和 25 個時間步，低于此值智能體將死亡（結束試驗）。這些時間步限制是啟發式選擇的，以允許智能體有足夠的時間學習模型，同時也模仿了不同資源在真實生物體中以不同速率消耗的事實。這些限制也防止了選擇那些雖然智能但對我們旨在回答的問題有問題的行為（例如，如果時間太長，智能體將簡單地在一個位置等待整個時間，直到季節返回到已知資源存在的地方）。偏好結構根據這些資源計時器為觀測分配值，將空狀態評分為 -1，并根據經過的消耗時間對資源狀態進行正面評分。一旦超過任何資源閾值，所有觀測的偏好統一轉變為巨大的負懲罰（-500）。

我們將一次試驗定義為智能體在環境中的一次單次“運行”。每次試驗要么在資源耗盡（智能體死亡）時終止，要么在指定的最大時間步數（在我們的實驗中為 100）時終止。多次試驗依次進行，其中給定試驗中的任何學習都被延續到下一次試驗的開始。我們將這些試驗序列中的每一個稱為一次評估。與通常在每次完整試驗后更新參數值的實現不同（Friston et al., 2021），我們的實現在每個時間步后執行這些更新。這對于智能體解決此環境提出的問題來說是必要的。因此，此處所有算法都以動態的、“在線”方式運行。

3.3.1. 搜索啟發式與視界深度分析

作為性能的基線表征，我們首先在一個環境所有元素均已知的設置中分析了 SI 和 BARL——即，模型具備關于季節之間轉移概率、資源位置以及每個季節中每個資源位置的完整知識。需要注意的是，由于在此設置中模型參數是固定的且不需要學習，SL 退化為 SI，如果在此設置中測試將不會提供額外的見解。 BARL 也退化為標準貝葉斯 RL。為了獲得進一步的見解，在已知環境內的模擬也在不同的規劃視界（從 1 到 9 步）下以及使用三種不同的樹搜索啟發式方法進行。這使我們能夠在不需要模型學習時識別理論上最優的深度和搜索策略。具體而言，我們在以下條件下評估了 SI：(i) 帶有記憶化的深度限制遞歸搜索，(ii) 蒙特卡洛 rollout（帶有隨機動作選擇），以及 (iii) 一種混合方案，該方案對前 h 步應用帶有記憶化的遞歸樹搜索，對剩余 m 步應用蒙特卡洛 rollout（其中 h + m = 6）。雖然記憶化通過緩存先前訪問過的狀態配置的估計值來加速推斷，但它有時也可能引入不準確的緩存值。蒙特卡洛方法通過從每個葉節點抽取獨立的 rollout（在這些評估中為 100 次）來幫助避免這種偏差，但代價是更大的計算成本。混合方法通過權衡這些屬性，在搜索早期重用精確的子樹，同時在視界深處依賴無偏的 rollout。需要注意的是，這種混合方法類似于部分可觀測蒙特卡洛規劃方法（Silver and Veness, 2010）。

3.3.2. 主要算法比較

在完成上述基線性能表征后，我們的主要分析將 SL 與 SI 和 BARL（包括有和沒有 UCB 的情況）進行了比較。在此，我們專注于似然（即每個背景內的資源位置）需要被學習且季節之間的轉移概率已知的情況。智能體在每次試驗中生存的時間步數，以及這在每次評估中的試驗之間如何變化，被作為我們的主要性能指標。性能比較最初是在每次評估 200 次連續試驗下進行的。選擇這個長度是作為一個計算上合理的上限，允許足夠的探索。這些模擬是使用固定的 9 步視界和帶有記憶化的全深度樹搜索進行的。這一選擇部分基于前一節描述的分析的初步結果（結果見 4.1），結果表明性能直到這個視界都在持續改善。我們也主要感興趣于在搜索策略選擇的限制最小化的情況下算法之間的比較。

為了提供性能的可泛化表征，我們對這些試驗序列進行了 500 次評估（帶有 500 個隨機種子）。跟隨收斂分析之后，這表明平均性能結果通常在 100 次試驗左右穩定，評估被減少到 120 次試驗。選擇這個較短的試驗數量是因為它仍然捕捉到了收斂后的核心學習動態，同時顯著減少了模擬的計算需求。這允許將這些更廣泛分析的種子增加到 2000 個，以確保更大的統計置信度并對每種算法顯示的行為模式進行徹底探索。

為了更好地量化算法性能，我們擬合了線性混合效應模型（LMEs），使用試驗、算法及其交互作用作為生存時間的預測因子： Survival ～ T rial + Algorithm + T rial × Algorithm + (1|Id) 為了評估早期學習動態，我們分別為兩個關鍵試驗區間運行了這些 LME：一個爬坡階段（試驗 1–20）和一個主動學習階段（試驗 21–60）。這些模型允許我們估計學習率（斜率）和性能水平（基于估計邊際均值 [EMMs]）。作為一個輔助特征，為了更好地理解學習如何在實驗期間被塑造，我們通過 KL 散度分析測量了 SL 的模型偏離或符合真實環境的程度。

隨后在不同網格配置上進行了額外的實驗（附錄第 6.3 節），以更徹底地比較四種算法中的每一種（SL, SI, 以及有和沒有 UCB 的 BARL）。這些評估每次都在 200 次試驗上進行，以保持與我們主要模擬中初始較長運行的一致性，并為評估不同算法方法的性能提供可比較的基礎。對于這些多算法比較，每種條件使用了 200 個種子，被選為計算資源與在不同配置（即按季節變化的資源位置）之間需要可靠比較數據之間的實際平衡。

結果
下文我們將展示兩個主要實驗的結果，以及對主要行為模式和底層機制的分析。

4.1. 搜索啟發式與視界深度分析

圖 6 展示了在似然和轉移概率均已知的情況下（即，作為對每種算法最大性能水平的評估），不同規劃視界和搜索啟發式方法下的模擬結果。研究結果表明，在視界為 5 及以上時，非記憶化方法優于記憶化方法，因為它避免了使用可能不準確的緩存值，盡管其計算成本顯著更高（在視界為 5 時，大約是記憶化條件的 28 倍）。混合搜索方法在較短視域下表現出更好的性能。然而，其相對低效的樣本使用使其在計算上可行性較低。

一個有趣的觀察是，BARL 表現出比 SI 更好的性能，最顯著的差異出現在早期試驗中。這最可能是由 SI 在 EFE 內使用認知價值項驅動的，該項鼓勵更頻繁地移動到 Hill。雖然這在學習期間可能是有益的，但當環境完全已知時（如在這些模擬中），它可能會削弱獎勵最大化行為。

4.2. 模型不確定性下的相對性能

圖 7 展示了在我們需要學習似然模型的主要模擬中，120 次試驗的平均生存曲線。這些結果突顯了算法之間學習軌跡的明顯差異。最值得注意的是，SL 的性能提升速度比其他每種算法都快，并在后期試驗中保持了輕微但一致的優勢。

4.3. 其他行為模式

對兩種 ActInf 算法（SI 和 SL）的單次試驗模擬也揭示了有趣的行為模式以及對偏好精度選擇的依賴性。由于這種精度有效地降低了 EFE 中的探索驅動力，我們發現它控制了智能體在 Hill 狀態花費的總時間步數（即，解決不確定性）。對于這些單次試驗模擬，我們還檢查了資源位置已知但季節轉移未知的情況，因為我們發現它們提供了關于參數依賴性的額外見解。例如，圖 13 (C) 展示了一個偏好精度較高 ( c = 1 )、似然函數已知但轉移函數未知的情況。在這種情況下，SI 和 SL 智能體盡管缺乏關于當前背景的信息，最初都忽略了 Hill，并試圖通過訪問它們知道與特定背景相關聯的資源位置來推斷當前季節（因為擁有精確的似然模型）。這是因為與智能體的偏好相比，認知項具有比例上較低的影響。因此，這些智能體的行為是由滿足其多目標偏好的驅動力驅動的，而不是以對其關于隱藏狀態的信念進行大幅后驗更新的形式尋求信息。這與 ActInf 文獻中先前描述的經典風險尋求行為一致（Smith et al., 2022）。對于 SI 算法，無論偏好精度如何，當省略認知項時，都觀察到了類似的行為。

回想一下，當環境的完整知識（轉移和似然函數）可用時，所有算法都表現出更大的性能相似性。在單次試驗水平上分析時，每個算法通常最初會移動到 Hill，然后再前往資源位置（如前所述，SL 這樣做更頻繁，因為它有額外的認知驅動力）。這突顯了 ActInf 和 BARL 之間的核心相似性。也就是說，這兩種方法相對于其先驗信念都是貝葉斯最優的，這意味著，給定一個初始信念狀態和一種計算額外信念狀態子集價值的機制（例如，在這些實現中，從初始信念狀態可達直到某個視界的所有信念狀態），每個智能體都將最優地計算這些信念狀態中每一個的價值。給定一個確定性的和貪婪的策略構建過程，隨后將選擇一個最大化期望值的最優策略。主要的區別隨后出現在需要主動學習來解決環境內偶然事件的不確定性時。

另一個重要的考慮因素是，每種算法計算信念狀態價值的準確性完全取決于初始信念狀態。因此，如果初始信念狀態不準確，后續信念狀態的計算和評估也將不準確。因此，在轉移模型已知但初始背景未知的模擬中，智能體知道轉移是相對靜態的（95% 的機會保持在同一背景，5% 的機會轉移到下一個背景），因此通常將訪問 Hill 視為最優——因為它是能最精確地更新其關于當前季節信念的狀態。由于這些智能體實施的反事實軌跡規劃的性質，它們搜索直到設定的規劃視界的所有可能信念軌跡，從而提前計算出對于 Hill 狀態提供的任何觀測的最優后續動作集。規劃軌跡隨后計算出 Hill 將提供精確的背景信息，并且對于 Hill 可能提供的每個觀測，計算出從該時間點開始的最優軌跡。因此，與那些不包含 Hill 的信念軌跡相比，這些信念軌跡具有高精度。

如上簡要所述，一些初步的探索性分析也顯示了行為模式受到達每種資源的時間限制影響的有趣方式。例如，如果與上述主要模擬相比增加這些時間限制（即，30 個時間步未到達資源），所有智能體最初都會忽略 Hill 并簡單地猜測背景。這是因為智能體不相信它會遭受達到時間限制的懲罰。因此，通過猜測背景，它損失很小，即使其猜測是錯誤的。在這些場景中，智能體通常最初會根據對背景的猜測向資源移動，只有當它認為后續猜測會有更高幾率導致死亡時，才會移動到 Hill。在數學上，這是由于智能體精確地遵循它認為將在期望中產生最大回報的動作，正如所有貝葉斯最優算法的情況一樣。

綜合來看，上述分析突顯了固定參數（即偏好精度、初始信念狀態、預期資源時間限制、規劃視界）以特定方式影響決策的方式。這開啟了在未來研究中使用此類模型來捕捉（并從機制上解釋）人類認知和行為中的個體差異，以及潛在其生物學基礎的可能性。因此，這代表了未來一個重要的研究方向。

4.4. 總結

本節中展示的實驗結果清晰地揭示了 SL、SI 和 BARL 在不同程度環境不確定性下的比較性能和適應性。在我們新穎的測試環境中，SL 在各種條件下始終優于 SI 和 BARL，特別是在那些需要長期規劃并考慮信息價值的版本中。在 BARL 中加入 UCB 風格的探索獎勵提高了其適應性，但仍不如 SL 所展示的內在認知和新穎性驅動的探索有效。也就是說，雖然 UCB 項實現了更定向的似然學習，但它并未完全復制基于 ActInf 的方法中固有的結構化、分層搜索機制和狀態探索驅動力。樹搜索深度和記憶化顯著影響了性能權衡，尤其是對于 SI。雖然更深的樹搜索改善了長期規劃，但計算成本呈非線性增加。記憶化似乎通過緩存中間搜索結果提供了一個實用的解決方案，但其高內存需求在大規模應用中需要仔細管理。

本研究旨在 (1) 比較復雜推理（SI）與貝葉斯自適應強化學習方法（BARL）的性能，以及 (2) 引入并評估復雜學習（SL），這是 SI 的一個擴展，將主動學習整合到遞歸規劃中。我們的模擬在一個新穎的、生物啟發的網格世界任務中進行，提供了關于這些算法的行為和比較優勢及弱點的關鍵見解。

5.1. 主要發現與總體貢獻

在所有需要模型學習的模擬中，SL 均優于 SI 和 BARL（無論是否有促進定向探索的置信上限 [UCB] 啟發式方法）。在此，性能通過每次試驗生存的時間步數來衡量，這內在依賴于智能體學習準確模型的能力。由于任務固有的難度，觀察到了試驗間的方差，但平均而言，SL 表現出卓越的性能。這反映了它基于預期未來觀測戰略性地重新訪問狀態的新穎能力，在多個未來時間步上平衡探索和利用。

與專注于最大化預期累積獎勵的 BARL 算法不同，SL 利用預期信息增益來指導行為。特別是，SL 智能體使用前瞻性策略，模擬未來觀測將如何更新其關于早期狀態和狀態 - 結果映射的信念。出現了一個顯著的模式：一旦發現資源，SL 智能體經常重新訪問一個能消除當前背景歧義的狀態（Hill）。這種行為體現了 SL 跨時間鏈接觀測以改善其背景理解的能力，這是其他算法所不具備的特征。

從心理學角度解讀這一機制，采用此算法的智能體可能會參與以下思維過程：我現在發現了一個存有食物資源的狀態。我不確定此時我處于什么季節，但如果我從這里移動并訪問 Hill 狀態，它會告訴我我處于什么季節。然后，鑒于我的轉移模型，我將能夠逆向推導并回顧性地推斷出當我在食物位置時我最可能處于什么季節。雖然不是最精確的，但訪問 Hill 將允許我比移動到某些其他狀態更精確地做到這一點，那些狀態不會改善我關于我處于什么背景的知識。這反過來將允許我為該特定的食物位置分配一個背景，我可以在未來利用它。

這突顯了 SL 預測未來觀測將如何更新關于過去的后驗信念的能力，從而優化朝向改善背景理解的狀態的探索。通過這種方式，SL 提供了一種更戰略性、更細致的定向探索形式，不僅關注訪問新狀態，還關注那些預期能改善關于過去獎勵的當前信念的狀態。

5.2. 探索策略：SI 與 SL 與 RL

與上述描述一致，SL 相對于 SI 的優勢因此似乎歸因于其向后反事實推理的能力——預測未來觀測在細化過去信念方面的益處。雖然 SI 通過更經典形式的定向探索（例如，尋求未訪問狀態）表現出強大的性能，但它缺乏利用關于未來觀測如何能被戰略性地用于更新先前觀測的背景理解的信念的能力。

盡管 SL 和 SI 之間的性能差異相對較小，但它們探索策略的共同要素導致其相對于 BARL 具有更大的性能優勢。向 BARL 添加基于 UCB 的定向探索也并未改善其相對性能。相反，這導致了對具有低認知可供性（epistemic affordances）的狀態的過度探索。這最終降低了效率，因為 Hill 狀態在其認知評估中并未被賦予與任何其他未訪問狀態不同的權重。這些發現突顯了 UCB 中關于狀態 - 結果映射的內在好奇心、SI 中關于當前背景狀態的進一步好奇心，以及 SL 所展示的戰略性、目標導向的探索之間的差異。

5.3. 次優性能的機制

盡管相對于比較智能體，SL 表現出高性能，但它仍然經常無法收斂到最優策略，導致試驗序列間的性能方差很高。理解這些失敗突顯了在不確定性下學習的核心挑戰，但也闡明了可能不那么具有普遍性且取決于所考慮的具體環境和實現的問題。在我們的一些補充分析中（14），我們觀察到一個常見的失敗模式源于 SL 中的早期認知承諾。特別是，雖然 SL 智能體使用遞歸規劃來向前投射信念更新，但這種機制的可靠性僅取決于所接收的證據。在學習早期，背景與資源位置之間的錯誤關聯（例如，來自低概率觀測）可能會根深蒂固，因為狄利克雷計數會累積以支持錯誤的似然。一旦錯誤的模型得到強力強化，智能體傾向于堅持糟糕的策略——例如，移向一個預期存在但實際上缺席的資源。因為在這種情況下智能體自身的模型可能具有誤導性，且生存窗口有限，這些軌跡通常排除了學習更準確模型的機會。這種自我確認偏差的形式在稀疏獎勵或高懲罰環境中尤為成問題，如此處測試的環境。

這種效應在附錄圖 14 中可見，其中第 3 季節的信念分布隨時間推移偏離了真實的 Sleep 資源位置。模型非但沒有改善，反而由于不準確推斷與適應不良行為之間的強化循環而退化。值得注意的是，這個問題并非由于規劃深度不足，而是由于未得到糾正的錯誤參數學習。這一點的另一個有趣方面源于 SL 中使用的后向平滑機制（見第 3.1 節和附錄 6.1.3）。該機制旨在根據新觀測修正來自早期時間步的狀態后驗信念。原則上，這應該允許智能體遺忘和/或糾正過去的推斷并改善參數學習，即使在接收到延遲證據之后。然而，圖 14 中顯示的 divergence 模式表明，這些機制并不總是足夠的。一旦建立了強烈但錯誤的信念，即使是遞歸平滑也可能無法將其消除，特別是在反饋模棱兩可的情況下。然而，應該注意的是，這種失敗模式并非 SL 特有的內在問題，而是反映了先驗、環境結構和所選超參數（例如，學習率、規劃深度、初始狄利克雷計數）之間的交互，這種交互可能存在于任何貝葉斯智能體中。智能體的初始不確定性、信念更新的速率以及跨背景的風險不對稱性都塑造了學習軌跡。 SL 像任何貝葉斯學習者一樣，對其初始條件很敏感。因此，這些觀察到的失敗——雖然具有啟發性——不應被過度解讀為 SL 算法本身的重大局限性。

事實上，當為智能體提供正確的生成模型時（第 4.1 節），性能顯著改善，證實了準確的信念是適應性行為的主要瓶頸。此外，圖 14 中顯示的每個背景下學習的 KL 散度測量表明，某些資源或季節更難學習，這很可能是由于它們的統計特性或位置不可達性。未來的工作可以探索元推斷（meta-inference）機制——使智能體能夠表示和修正其對自己信念的置信度——或者探索使用其他遺忘策略，例如在預測觀測與實際觀測之間持續不匹配時進行“信念重置”。

5.4. 局限性與未來方向

雖然 SL 在這個特定環境中表現出明顯的優勢，但應考慮幾個注意事項。首先，選擇網格世界環境是為了測試 SL 的預期優勢；因此，需要未來的研究來確定 SL 的優勢在多大程度上泛化到其他環境。在這里，我們預計 SL 將在需要深度規劃和戰略探索的任務中表現出色，但其在各種更傳統的 RL 風格基準測試中的相對性能仍然不確定。

另一個考慮因素涉及參數值的優化。例如，SL 中偏好精度的最優值可能因任務而異。對于不同問題，可能需要一些調整來平衡 EFE 中的認知項和新穎性項。這種對參數化的敏感性將是在不同環境中應用 SL 時的一個重要實際因素。

進一步的局限性涉及計算效率。像其他 ActInf 算法一樣，SL 依賴于遞歸樹搜索，這在現實世界環境中可能會變得計算昂貴。將 SL 擴展到此類領域可能需要整合其他啟發式方法、更高效的剪枝技術或其他機器學習近似。因此，未來的研究應專注于開發在保持 SL 戰略優勢的同時增強其可擴展性的方法。

結論在本研究中，我們使用了一個具有挑戰性的、動態的環境，該環境需要復雜的規劃和戰略性的信息尋求，以比較主動推理和貝葉斯強化學習算法。我們首先表明，主動推理框架內最近的一種“復雜推理”算法在此環境中優于貝葉斯強化學習（無論是否添加了常見的定向探索項）。其次，我們提出并測試了一種新穎的“復雜學習”算法——結合了來自復雜推理和貝葉斯強化學習的見解——并展示了它可能提供的進一步優勢。該算法表現出比任何其他測試算法更高的性能。它還表現出性質上不同的、戰略性的行為模式，其中它收集信息以改善其對過去觀測的理解。復雜學習所采用的相關向后推理策略代表了模擬智能代理行為的一個新穎進展。

這些有希望的結果表明，復雜學習可能為機器學習和認知科學提供新的見解。未來的工作應評估從該算法中出現的策略在其他機器學習背景下的泛化性，并調查它是否可能捕捉到在動物和人類行為中觀察到的獨特模式，從而為認知和計算神經科學的持續研究做出貢獻。

https://github.com/sgrimbly/Sophisticated-Learning

原文鏈接：https://arxiv.org/pdf/2308.08029

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.