網易首頁 > 網易號 > 正文申請入駐

論主動推理中的預測性規劃與反事實學習

2026-03-10 14:58:57　來源: CreateAMind

上海舉報

分享至

On Predictive Planning and Counterfactual Learning in Active Inference

論主動推理中的預測性規劃與反事實學習

https://www.mdpi.com/1099-4300/26/6/484

摘要：

鑒于人工智能的快速發展，理解智能行為的基礎正變得日益重要。主動推理，被視為一種通用行為理論，提供了一種原則性的方法來探究規劃和決策中復雜性的基礎。本文考察了主動推理中基于“規劃”和“從經驗中學習”的兩種決策方案。此外，我們還引入了一種混合模型，該模型駕馭了這些策略之間的數據復雜性權衡，利用兩者的優勢來促進平衡的決策。我們在一個具有挑戰性的網格世界場景中評估了我們提出的模型，該場景需要智能體具備適應性。此外，我們的模型提供了分析各種參數演變的機會，提供了有價值的見解，并有助于形成一個用于智能決策的可解釋框架。

關鍵詞： 主動推理；決策；數據復雜性權衡；混合模型

1. 引言

定義并從而將智能“智能體”與其具身的“環境”分離開來，隨后環境向智能體提供反饋，這對于建模智能行為至關重要。流行的方法，如強化學習（RL），大量采用這種包含智能體 - 環境循環的模型，這將問題歸結為智能體試圖在給定的不確定環境中最大化獎勵 [1]。主動推理作為神經科學中一種生物學上合理的框架出現 [2]，與其他當代方法如 RL 相比，它采用了一種不同的方法來建模智能行為。在主動推理框架中，智能體在其生命周期內積累并最大化模型證據，以進行感知、學習和決策 [3–5]。然而，當智能體遇到與其生成（世界）模型有關的高度“熵”觀測（即意外觀測）時，最大化模型證據變得具有挑戰性 [3–5]。這個看似棘手的最小化遇到觀測的熵（或最大化模型證據）的目標，可以通過最小化觀測熵的一個上界來實現，稱為變分自由能 [3,4]。鑒于這一通用基礎，主動推理 [6] 在為給定問題定義生成模型結構方面提供了極好的靈活性，并且它在各個領域吸引了許多關注 [7,8]。在這項工作中，我們通過結合“規劃”和“從經驗中學習”，開發了一種基于主動推理的高效決策方案。在下一節對生成世界模型進行一般性介紹之后，我們將更仔細地查看主動推理的決策方面。然后，我們總結了主動推理文獻中的兩種主導方法：第一種基于規劃（第 2.3.1 節），第二種基于反事實學習（參見第 2.3.2 節）。我們比較了這兩種現有主動推理方案的計算復雜性和數據效率（參見第 3.2 節），并提出了一種平衡這兩種互補方案的混合模型（第 3.3 節）。我們提出的混合模型不僅在需要適應性的環境中表現良好（在第 3.5 節），而且還提供了關于使用模型參數進行決策可解釋性的見解（在第 3.6 節）。

2. 方法

2.1. 主動推理中的智能體 - 環境循環

生成模型是在主動推理模型中建立智能體 - 環境循環的核心。假設智能體擁有一個外部世界的縮小模型，使智能體能夠預測外部動態和未來觀測。然后智能體可以使用其可用動作來追求未來結果，確保生存。在本文中，我們堅持使用基于部分觀測馬爾可夫決策過程（POMDP）的生成模型 [9]。POMDP 是馬爾可夫決策過程（MDP）[10] 的一般情況，它是可控馬爾可夫鏈，適于建模離散狀態空間中的隨機系統 [11]。在下一節中，我們提供基于 POMDP 的生成模型的具體細節。

2.2. 基于 POMDP 的生成模型

在主動推理中，智能體通過最小化變分自由能來教導生成模型了解外部狀態并優化其決策。POMDP（部分可觀測馬爾可夫決策過程）是一個用于建模離散狀態空間環境的通用框架，其中似然和狀態轉移被表示為易處理的分類分布 [12]。因此，我們采用 POMDP 作為我們要研究的智能體的生成模型。基于 POMDP 的生成模型在形式上被定義為一個有限集的元組 ( S , O , T , U , B , A , D , E )
，使得：

F 的變分提供了關于狀態和參數的恰當后驗期望。一些可選參數，取決于所使用的具體決策方案，包括：

這些參數用于對動作 u 的分布進行參數化，并且動作是通過變分自由能最小化來優化的。更多細節將在后續章節中解釋。

2.3. 主動推理中的決策方案

主動推理下的決策被表述為最小化未來時間步的（期望）變分自由能 [15–17]。這使得智能體能夠部署一種基于規劃的決策方案，其中智能體預測可能的結果并做出決策，以達到最小化期望自由能（EFE）的狀態和觀測。傳統上，主動推理優化策略——即時間上的動作序列——而不是像強化學習（RL）中的 Q-Learning [1] 等方法中的狀態 - 動作映射，以選擇最小化 EFE 的策略 [4]。然而，這樣的表述限制智能體只能解決具有低維狀態空間的環境 [4,13]。

隨后對該框架進行了幾項改進，包括最近的精密推理方案 [18]，它使用自由能的遞歸形式來減輕策略搜索的計算復雜性。精密推理方法使用時間上的前向樹搜索來評估 EFE；然而，由于計算復雜性，它限制了智能體的規劃深度 [18]。更創新的算法如動態規劃可用于使規劃線性化 [3,19]。提出的線性化規劃方法在 [19] 中被稱為期望自由能動態規劃（DPEFE）。該 DPEFE 算法在類似于網格世界任務的環境 [13] 中，表現與基準強化學習方法如 Dyna-Q [20] 相當（參見第 2.3.1 節了解 DPEFE 方法的技術細節）。DPEFE 算法的一個泛化最近被提出為“歸納推理”，以模擬智能體中的“意向行為”[21]。

另一項最近的工作偏離了這種預測規劃的經典方法，并采用“從經驗中學習”來確定最優決策 [14]。該方案在數學上等價于一類特定的神經網絡，伴隨著一些突觸可塑性的神經調節 [14,22]。它使用反事實學習（本文中的 CL 方法）來基于環境反饋隨時間積累一種“風險”度量。隨后使用體外神經網絡實驗驗證該方案的工作最近也出現了 [23]。

以下總結了兩種方案的關鍵算法細節：第 2.3.1 節中的 DPEFE 和第 2.3.2 節中的 CL 方案。兩種方案都是基于常規 POMDP 提出的。

2.3.1. DPEFE 方案與動作精度

本文中的 DPEFE 方案基于 [13] 中的工作。該方案在論文 [19] 中被泛化到 POMDP 設置。使用的模型參數如第 2.2 節所示。DPEFE 方案中的動作 - 感知循環包括感知（即識別導致觀測的狀態）、規劃、動作選擇和學習模型參數。在本文中，所有環境都是完全可觀測的，因為我們的重點是決策而不是感知，因此 O = S。

DPEFE 方案中的動作選擇實現如下：在使用動態規劃評估未來觀測的期望自由能（EFE, G）后（參見 [19]），智能體評估選擇動作 u 的概率分布為

這里， σ 是經典的 softmax 函數，使得具有較小 EFE 的動作以較大的概率被選中。動作精度參數 ( α ) 可以調整以增加/減少智能體的動作選擇置信度。關于 EFE ( G ) 的評估和 DPEFE 算法的詳細描述，我們參考文獻 [19]（第 5 節）。

2.3.2. CL 方法與風險參數

不同于嘗試直接最小化 EFE，在反事實學習（CL）方法中，智能體學習一個狀態 - 動作映射 CL。這個狀態 - 動作映射是通過一個更新方程學習的，該方程由如 [14] 中定義的“風險”項介導：

這里，是智能體接收到正的環境獎勵的時刻。因此，智能體越快到達期望狀態， Γ t
（即風險）收斂到零的速度就越快（關于生成模型和自由能的確切形式，我們參考文獻 [22]）。

論文中定義的所有更新規則都可以從智能體嘗試相對于生成模型最小化（變分）自由能（公式 (3)）這一公設推導出來 [14,19]。在本文的其余部分，我們調查了兩種方案——即 DPEFE 和 CL 方法——的性能，并考慮了一種結合它們的方案。下一節探討了這兩種方案在給定環境中的表現。

3. 結果

我們現在在基準環境中測試兩種決策方案（DPEFE 和 CL）的性能，例如來自 OpenAIGym [24] 的 Cart Pole-v1（圖 1）。所有模擬都使用不同的隨機種子進行 100 次或更多次試驗，以確保結果的可復現性。

3.1. Cart Pole—v1（OpenAI Gym 任務）

在 Cart Pole—v1 環境 [25] 中，智能體通過側向移動小車來保持桿子直立（在可接受范圍內），從而獲得獎勵（圖 1A）。當桿子或小車超出可接受范圍時（桿子為 ±12 度，小車為 ±2.4 個單位幀大小；圖 1B），回合終止。這個問題本質上是自發性的，不需要控制器進行規劃，智能體必須對小車和桿子的當前狀況做出反應。

然后，我們在一個突變設置中測試主動推理，其中環境突變為一個更具挑戰性的版本，桿子和小車位置的可接受范圍均減半（桿子為 ±6 度，小車為 ±1.2 個單位幀大小）。具有不同規劃能力的主動推理智能體的性能總結在圖 2A 中。

正如預期的那樣，CL 方法智能體優于其他主動推理方案（因為該問題需要自發控制，傾向于狀態 - 動作映射而非規劃）。智能體迅速學習了必要的狀態 - 動作映射，并且比其他基于規劃的方案更有效地平衡了桿子。我們在第 100 回合環境發生突變后也觀察到了這一點。CL 方法智能體在突變后的性能提升值得進一步調查；然而，這可以歸因于突變后失敗率增加導致的反饋頻率增加。需要注意的是，我們在本文中并未聲稱相對于不同的強化學習智能體具有更好的性能。我們使用 Dyna-Q 智能體與突變任務中重點關注的主動推理智能體進行定性比較。

在圖 2B 中，我們看到了風險項（Γ）的演變。隨著智能體對環境了解更多，風險 Γ 穩定到小于 0.5 的值。有趣的是，如圖 2B 所示，當面對環境突變時，正如預期的那樣，Γ 出現了增加。在圖 2B 中，我們觀察到 CL 方法中的風險項（Γ）減少直到第 100 回合。值得注意的是，CL 方法智能體在圖 2A 中的性能提升與風險的減少方式相同。在第 100 回合，我們在環境中引入突變，導致所有智能體的性能崩潰。我們觀察到性能隨時間恢復，CL 方法智能體中的風險項也是如此（圖 2B）。我們還觀察到風險項在下半段達到了甚至更低的范圍，這與性能提升相關。這些觀察結果突顯了 CL 方法智能體中參數的可解釋性。

接下來，我們在一個根本不同的環境中測試智能體——迷宮任務——這需要為未來進行規劃。

3.2. 復雜迷宮任務與數據復雜性權衡

為了比較兩個智能體在戰略任務中的性能，我們在標準網格世界任務 [26] 中模擬性能，如圖 3A 所示。該網格問題的最優解如圖 3B 所示。這是一個復雜的網格世界，與過去文獻中用于解決的網格世界任務 [4] 相比并非易事，因為如果采取隨機動作而非長度為 47 的最優路線，智能體需要大約九千步才能到達目標狀態。

性能評估是根據智能體多快能夠完成一個回合（即到達目標狀態的回合長度（越低越好））來進行的。顯示 DPEFE 和 CL 智能體性能的模擬結果繪制在圖 4A 中。這些結果表明，基于預測規劃的 DPEFE 智能體可以快速學習（即在十個回合內）來導航這個網格。從圖 4A 來看，DPEFE 智能體的性能似乎在回合長度為一千左右飽和，并且它從未學會最優路線。然而，在模擬中，DPEFE 智能體使用的動作精度是代入公式 (4) 的 α = 1
。對于更高的動作精度 ( σ )，智能體傾向于在更低的時間步長內導航，始終堅持最優動作。此外，我們觀察到 CL 方法智能體需要更長的時間來學習最優路徑。這個結果（圖 4A）表明，CL 智能體需要在環境中有更多的經驗（即更多的數據）來解決它。

在圖 4B 中，我們比較了與決策規劃相關的主要主動推理算法的計算復雜性。與其他流行的主動推理方案 [4,18] 相比，DPEFE 算法在計算上更為高效。請注意，該圖還強調了 CL 方法沒有與規劃相關的計算復雜性。因此，很明顯 CL 方法智能體比 DPEFE 智能體在計算上更便宜，因為沒有規劃組件。如圖 4B 所示，DPEFE 智能體的計算復雜性與規劃深度（規劃的時間視界，T）相關。需要注意的是，圖 4B 中的 y 軸是對數刻度。DPEFE 的計算復雜性僅與規劃時間視界線性相關，而 CL 智能體沒有規劃復雜性，這兩者在計算上都比其他主動推理算法更高效。此外，上述觀察結果表明 DPEFE 和 CL 方案之間存在數據復雜性權衡。

這一認識促使我們轉向一種混合模型，在此我們提議開發一種智能體，它能夠根據智能體可用的資源來平衡這兩種方案。從神經生物學的角度來看，這非常有意義，因為生物智能體不斷地試圖平衡用于學習和規劃未來的資源與它們已經擁有的經驗。這一想法也與強化學習中經典的探索-利用困境（exploration–exploitation dilemma）有關 [27]。

3.3. 整合兩種決策方法

為了使智能體能夠平衡其預測未來結果和利用先前經驗的能力，我們在模型中引入了一個隨經驗演變的狀態依賴偏差參數 ( β ( s , t ) ∈ [ 0 , 1 ]
)。這一增加的動機基于這樣一個假設：智能體保持一種偏差感，用于量化其在過去那個特定狀態下做決策經驗的置信度。

當暴露于一個新環境時，智能體對 DPEFE（預測性規劃，原文誤作 DEEFE）和 CL 方案起始具有相等的偏差，由先驗偏差參數 β prior = 0.5
表示。

給定這些分布，智能體現在可以使用它們的香農熵 ( H ( X )
) 來評估它們有多“有用”。這一度量是有益的，因為它代表了特定分布對于在那些狀態下做出決策有多“確定”。也就是說，如果智能體對某個特定動作有信心，動作分布傾向于是一個有利于該自信動作的獨熱向量（one-hot vector）；因此，與具有最大熵的均勻分布（不偏向任何動作）相比，該分布的熵趨于零。因此，比較這一數量使得能夠從不同方案的集合中選擇最自信的策略。

基于這一觀察，隨著時間的推移，智能體可以使用這一熵度量來更新 β ( s , t ) 的值，如下所示：

描述所提出的基于 POMDP 的混合模型的“智能體-環境”循環的流程圖如圖 5 所示（關于混合模型中各種參數的詳細描述，請參閱第 2.2、2.3.1 和 2.3.2 節）。

3.4. 從變分自由能推導混合模型的更新方程

公式 (8) 和 (9) 可以從 POMDP 生成模型下的變分自由能最小化推導出來。混合模型的變分自由能定義為

因此，混合模型的更新規則（公式 (8) 和 (9)）可以從變分自由能最小化中形式化推導出來。

3.5. 混合模型在突變迷宮環境中的性能

我們使用一個突變網格環境來測試基于混合模型的智能體的性能。這個突變網格方案如圖 6 所示。智能體始于一個更易通行的網格版本，其最優路徑為四步（圖 6A）。在 300 個回合之后，環境突變為上一節所示的復雜網格版本（參見圖 6B）。這種設置還使我們能夠研究智能體對新的環境變化具有多大的適應性。

性能總結如圖 7 所示。我們觀察到，所有三個混合模型智能體（具有不同水平的規劃能力）都在前十個回合內學會了導航簡單網格（圖 7A）。然而，當環境在第 300 回合突變為復雜網格時，智能體的學習表現類似于我們在單獨導航該網格時觀察到的情況（見圖 7B，即具有 900 個狀態的復雜網格）。直接比較圖 4A 和圖 7B 有助于我們觀察到，混合模型智能體的速度既不像 DPEFE 智能體那樣快，也不像 CL 智能體那樣慢。混合模型智能體成功地平衡了這種數據復雜性權衡。

我們還觀察到，與其他兩個智能體相比，具有更高規劃能力的智能體學習導航網格的速度更快且更自信。由于混合模型智能體也結合了 CL 方法，更高的規劃視界并不總是能帶來性能提升。事實上，在較低的規劃視界下仍能保持相當的性能，這是所提出的混合模型的一個額外優勢，這在并不總是需要進行大量規劃的情況下非常有用。這一結果表明，所提出的混合模型使智能體能夠在主動推理框架中平衡這兩種決策方法。

3.6. 主動推理模型的可解釋性

所提出的混合模型（以及基于 POMDP 的生成模型）的一個額外優勢在于，我們可以探究模型參數，通過主動推理的視角 [28–30] 來理解智能體所展現出的智能行為的基礎。那些依賴人工神經網絡（ANNs）來擴展模型規模的模型 [31] 在解釋智能體如何做出決策方面能力有限，尤其是在面對不確定性時。

在圖 8A 中，我們可以探究并觀察模型中風險（ Γ t
）的演變（這與 [14] 中定義的 CL 方法相關）。我們可以觀察到，當呈現并解決簡單網格時，模型的風險迅速趨于零；然而，當面對環境突變時，風險會急劇上升。

4. 討論

本文徹底比較和對比了主動推理框架內兩種不同的決策方案。通過評估每種方法的優缺點，我們在需要自發決策的任務（以 Cart Pole 任務為例）和戰略決策任務（以導航迷宮任務為例）上測試了它們的有效性。這使我們能夠評估一種整合了兩種決策方案要素的混合方法。據假設，生物有機體的大腦利用類似的機制，根據上下文在多種策略之間切換 [32]。我們的模型在揭示大腦中高效決策的潛在機制、識別其神經元基礎以及開發計算高效的仿生智能體方面具有重大前景。從這項工作中獲得的見解有望增強用于控制任務的算法，尤其是在機器人技術和人工智能領域利用主動推理方案的興趣日益增長的背景下 [33]。

未來的工作自然將涉及對行為表現如何依賴于模型內各種參數以及魯棒性 [34,35] 的詳細分析。擴展模型以在要求更高、更復雜的環境中有效運行將是關鍵的下一步。與結合人工神經網絡的模型進行系統比較，正如 [31,36] 的研究結果所強調的那樣，代表了進一步研究的一個有前景的途徑。此類比較將有助于闡明不同建模方法的相對優勢和劣勢，并可能促使開發更穩健、更多樣化的決策系統。

原文鏈接：https://www.mdpi.com/1099-4300/26/6/484

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.