經(jīng)驗(yàn)快速遷移與額葉抽象編碼

2026-03-03 20:14:42　來源: CreateAMind

上海舉報

分享至

Schema-based active inference supports rapid generalization ofexperience and frontal cortical coding of abstract structure

圖式主動推理：經(jīng)驗(yàn)快速遷移與額葉抽象編碼

https://arxiv.org/pdf/2601.18946

https://github.com/toonvdm/grounding-schemas

摘要

圖式——捕捉經(jīng)驗(yàn)間共性的抽象關(guān)系結(jié)構(gòu)——被認(rèn)為是人類和動物能夠快速泛化知識、將新經(jīng)驗(yàn)重新綁定到現(xiàn)有結(jié)構(gòu)以及在不同情境下靈活適應(yīng)行為的基礎(chǔ)。盡管它們在認(rèn)知中處于核心地位，但支持圖式形成和使用的計(jì)算原理和神經(jīng)機(jī)制仍然難以捉摸。在此，我們介紹了基于圖式的層級主動推理（S-HAI），這是一個將預(yù)測處理和主動推理與基于圖式的機(jī)制相結(jié)合的新型計(jì)算框架。在 S-HAI 中，高層生成模型編碼抽象任務(wù)結(jié)構(gòu)，而低層模型編碼空間導(dǎo)航，兩個層級通過一個將抽象目標(biāo)映射到物理位置的接地似然相連接。通過一系列模擬，我們表明 S-HAI 復(fù)現(xiàn)了空間導(dǎo)航任務(wù)中快速基于圖式泛化的關(guān)鍵行為特征，包括將抽象圖式靈活重映射到新情境的能力、解決目標(biāo)歧義以及平衡新穎映射的復(fù)用與順應(yīng)。關(guān)鍵的是，S-HAI 還復(fù)現(xiàn)了在依賴圖式的導(dǎo)航和決策任務(wù)期間嚙齒動物內(nèi)側(cè)前額葉皮層中報道的顯著神經(jīng)編碼，包括任務(wù)不變的目標(biāo)進(jìn)展細(xì)胞、目標(biāo)身份細(xì)胞和目標(biāo)與空間聯(lián)合細(xì)胞，以及低層的類位置編碼。綜上所述，這些結(jié)果提供了基于圖式的學(xué)習(xí)和推理的機(jī)制性解釋，連接了行為、神經(jīng)數(shù)據(jù)和理論。更廣泛地說，我們的發(fā)現(xiàn)表明，圖式形成和泛化可能源于跨皮層和海馬回路層級實(shí)施的預(yù)測處理原則，從而實(shí)現(xiàn)經(jīng)驗(yàn)的泛化。

關(guān)鍵詞：圖式；層級主動推理；預(yù)測處理；前額葉皮層；海馬

1 引言

人類和其他動物展現(xiàn)出非凡的能力，能夠憑借極少的新經(jīng)驗(yàn)將其知識快速泛化至新穎環(huán)境。這種能力仍是當(dāng)前人工系統(tǒng)和人工智能系統(tǒng)無法比擬的，后者通常需要大量針對特定問題的數(shù)據(jù)集。

在認(rèn)知科學(xué)中，長期以來人們假設(shè)一種特定的認(rèn)知結(jié)構(gòu)——圖式（schemas）——可能支持將現(xiàn)有知識與技能泛化至新情境。圖式通常被定義為關(guān)系性知識結(jié)構(gòu)，用于捕捉多次經(jīng)驗(yàn)中抽象出的共性。它們使個體能夠在記憶中組織和解釋經(jīng)驗(yàn)，并泛化至具有潛在結(jié)構(gòu)相似性但感官細(xì)節(jié)不同的新情境（Piaget, 1952; Bartlett, 1932）。關(guān)鍵洞見在于：圖式通過經(jīng)驗(yàn)形成，編碼所推斷的關(guān)系性任務(wù)結(jié)構(gòu)，同時抽象掉低層（感官）細(xì)節(jié)。圖式不僅將經(jīng)驗(yàn)組織成豐富的關(guān)系集合，還作為模板，使新經(jīng)驗(yàn)得以快速同化。此類學(xué)習(xí)——或稱同化（assimilation）——僅需將新經(jīng)驗(yàn)的低層感官細(xì)節(jié)映射到現(xiàn)有圖式的抽象關(guān)系結(jié)構(gòu)上，從而實(shí)現(xiàn)知識在新情境中的快速（理想情況下為單次）復(fù)用與泛化。因此，其速度顯著快于經(jīng)典試錯或聯(lián)想學(xué)習(xí)理論所強(qiáng)調(diào)的漸進(jìn)式知識積累。此外，除了同化——將新信息納入現(xiàn)有圖式——還存在第二種過程，稱為順應(yīng)（accommodation），即當(dāng)新信息無法契合現(xiàn)有圖式時，創(chuàng)建新圖式或修改既有圖式。Piaget（1952） famously 指出，同化與順應(yīng)的雙重過程是學(xué)習(xí)與發(fā)展的基礎(chǔ)。

這些源于認(rèn)知科學(xué)的思想自人工智能早期便頗具影響力，激發(fā)了大量理論構(gòu)建與實(shí)現(xiàn)圖式（或相關(guān)結(jié)構(gòu)，如框架或腳本）的努力，尤其在但不局限于符號人工智能傳統(tǒng)中（Minsky, 1986; Schank and Abelson, 2013; Hummel and Holyoak, 1997）。多年來，多種理論觀點(diǎn)認(rèn)為，將現(xiàn)有圖式與任務(wù)表征重映射至新任務(wù)，是抽象、結(jié)構(gòu)推斷與類比推理的核心，這一機(jī)制見于多個認(rèn)知領(lǐng)域，從目標(biāo)導(dǎo)向?qū)Ш降揭?guī)則學(xué)習(xí)與敘事理解（Chollet, 2019; Mitchell, 2021; Hofstadter, 1999; Tenenbaum et al., 2011; Roy, 2005; Pezzulo, 2009; Niv, 2019; Schuck et al., 2016; Bein and Niv, 2025; B?hner et al., 2025; Collin et al., 2025; Goudar et al., 2023; Beukers et al., 2024; Yang et al., 2019; Sandbrink and Summerfield, 2024）。

然而，設(shè)計(jì)能夠有效學(xué)習(xí)圖式并將其泛化至新經(jīng)驗(yàn)的計(jì)算模型仍是一項(xiàng)重大挑戰(zhàn)。關(guān)鍵難點(diǎn)包括：識別用于形成圖式的底層關(guān)系結(jié)構(gòu)、以支持快速重綁定至新情境的形式對其進(jìn)行編碼，以及設(shè)計(jì) enabling 現(xiàn)有圖式與新問題之間快速映射的機(jī)制。盡管已有進(jìn)展，但關(guān)于基于圖式的學(xué)習(xí)與推理——尤其在復(fù)雜動態(tài)環(huán)境中——的全面計(jì)算解釋仍難以捉摸。盡管如此，神經(jīng)科學(xué)已開始為這些挑戰(zhàn)提供寶貴洞見。

在神經(jīng)科學(xué)領(lǐng)域，多項(xiàng)研究探討了圖式在嚙齒類與靈長類動物中的作用。這些研究揭示，三個相互連接的腦結(jié)構(gòu)——海馬、內(nèi)嗅皮層與前額葉皮層——可能在基于圖式的快速學(xué)習(xí)與系統(tǒng)鞏固中發(fā)揮關(guān)鍵作用（Farzanfar et al., 2023）。例如，Tse 等人（2007）表明，大鼠僅需單次學(xué)習(xí) episode 即可將新信息整合進(jìn)現(xiàn)有聯(lián)想圖式，并觀察到海馬活動的相應(yīng)變化。這支持了如下觀點(diǎn)：當(dāng)新信息與先前獲得的關(guān)系結(jié)構(gòu)一致時，圖式可促進(jìn)快速學(xué)習(xí)。其他研究顯示，隨著圖式習(xí)得，海馬表征變得更為抽象與有組織，這體現(xiàn)在靜息與睡眠期間的海馬重放與再激活模式中（McKenzie et al., 2014）。除海馬之外，內(nèi)嗅皮層的網(wǎng)格細(xì)胞也被認(rèn)為參與認(rèn)知地圖形成與圖式學(xué)習(xí)（Neupane et al., 2024）。在空間導(dǎo)航過程中，網(wǎng)格細(xì)胞提供空間的周期性、低維表征，被認(rèn)為支持路徑積分與類地圖計(jì)算（Hafting et al., 2005）。近期研究提示，網(wǎng)格樣編碼可能超越物理空間，支持抽象認(rèn)知地圖，包括任務(wù)空間與關(guān)系結(jié)構(gòu)（Buzsáki and Moser, 2013; Bellmund et al., 2018; Viganò et al., 2023; Bottini and Doeller, 2020; Dong and Fiete, 2024）。這些研究表明，內(nèi)嗅皮層的網(wǎng)格細(xì)胞可能作為穩(wěn)定、可復(fù)用的坐標(biāo)系統(tǒng)，將由海馬介導(dǎo)的任務(wù)特異性細(xì)節(jié)錨定于抽象關(guān)系支架之上，以組織圖式知識。

最后，多項(xiàng)研究指出，前額葉皮層——可能通過與海馬的交互——在形成認(rèn)知地圖與圖式聯(lián)想、將新信息整合入現(xiàn)有圖式，以及判斷啟用同化或順應(yīng)過程方面發(fā)揮關(guān)鍵作用（Gilboa and Marlatte, 2017; Zeithamova et al., 2012; Van Kesteren et al., 2012; Giuliano et al., 2021; Bonasia et al., 2018; Baldassano et al., 2018; Basu et al., 2021; Manakov et al., 2025; Schuck et al., 2016; Wang and Hayden, 2021; Vaidya and Badre, 2022; Tang et al., 2023）。El-Gaby 等人（2024）提供了一個尤為突出的圖式學(xué)習(xí)與泛化實(shí)例：他們證明嚙齒類動物內(nèi)側(cè)前額葉皮層參與學(xué)習(xí)序列任務(wù)（ABCD 任務(wù)，要求按正確順序到達(dá)四個目標(biāo)位置）的抽象結(jié)構(gòu)，并在目標(biāo)位置變化但序列保持不變的新環(huán)境中復(fù)用該結(jié)構(gòu)。基于圖式的快速學(xué)習(xí)的一個關(guān)鍵行為指標(biāo)是：大鼠在發(fā)現(xiàn)位置 D 后迅速移向位置 A。在神經(jīng)元層面，這種能力由多種細(xì)胞類型支持，這些細(xì)胞對抽象目標(biāo)、物理位置及其他任務(wù)相關(guān)信息的不同組合敏感。

這些及其他研究促成了一個趨同的計(jì)算視角，其核心洞見是：在圖式形成過程中，關(guān)系結(jié)構(gòu)獨(dú)立于感官細(xì)節(jié)被表征；關(guān)系結(jié)構(gòu)中的每個狀態(tài)隨后通過可快速學(xué)習(xí)的聯(lián)想鏈接綁定至特定經(jīng)驗(yàn)。這一觀點(diǎn)已在一系列聚焦海馬與內(nèi)嗅皮層的計(jì)算模型中提出（Whittington et al., 2020, 2018, 2025; Chandra et al., 2025）。在此視角下，內(nèi)嗅皮層的網(wǎng)格細(xì)胞系統(tǒng)提供關(guān)系支架，而個體經(jīng)驗(yàn)在海馬中編碼；內(nèi)嗅網(wǎng)格系統(tǒng)與海馬位置細(xì)胞及聯(lián)合細(xì)胞的交互，可能允許在結(jié)構(gòu)化表征空間內(nèi)快速編碼新經(jīng)驗(yàn)，從而促進(jìn)同化與順應(yīng)過程。另一種基于克隆結(jié)構(gòu)因果圖（CSCG）的相關(guān)計(jì)算解釋已在海馬的圖式與重綁定研究中發(fā)展起來（George et al., 2021; Guntupalli et al., 2023; Swaminathan et al., 2023; Raju et al., 2024）。在此視角下，迷宮認(rèn)知地圖的潛在結(jié)構(gòu)可通過與特定觀測解耦而被抽象，并作為圖式復(fù)用以加速其他迷宮中的學(xué)習(xí)。相同機(jī)制也可用于學(xué)習(xí)算法的抽象結(jié)構(gòu)與語言的模板結(jié)構(gòu)（Swaminathan et al., 2023），其中推理時可塑性解決了在動態(tài)綁定潛在結(jié)構(gòu)至新輸入的同時召回適當(dāng)圖式的問題。近期建模工作將這些思想擴(kuò)展至前額葉皮層的神經(jīng)活動，但未探討圖式如何在空間導(dǎo)航過程中被學(xué)習(xí)與部署（El-Gaby et al., 2024）。

盡管具有價值，這些研究仍遺留若干重要問題未解，包括：抽象圖式如何在目標(biāo)導(dǎo)向?qū)Ш脚c規(guī)劃過程中形成并利用；它們?nèi)绾螖U(kuò)展至更具挑戰(zhàn)性的情境——其中需從頭創(chuàng)建多個圖式或現(xiàn)有圖式與新問題間的多種映射，以捕捉 Piaget（1952）所稱同化與順應(yīng)的動態(tài)過程；以及它們?nèi)绾闻c前額葉皮層的神經(jīng)處理相關(guān)聯(lián)，如 ABCD 任務(wù)中所見（El-Gaby et al., 2024）。

盡管先前關(guān)于 CSCG 的工作已探討從部分可觀測感官輸入中學(xué)習(xí)空間作為潛在結(jié)構(gòu)的問題（Raju et al., 2024），且 CSCG 圖式（Guntupalli et al., 2023; Swaminathan et al., 2023）解決了利用圖式遷移已習(xí)得的空間或算法結(jié)構(gòu)的問題，但它們未解決在同一空間環(huán)境中遷移多個已習(xí)得任務(wù)結(jié)構(gòu)的問題。要在部分可觀測設(shè)定下實(shí)現(xiàn)這一點(diǎn)，需學(xué)習(xí)新的任務(wù)結(jié)構(gòu)圖式，該圖式利用先前已習(xí)得的空間結(jié)構(gòu)的潛在狀態(tài)。

在本研究中，我們開發(fā)并驗(yàn)證了一種新型基于圖式的層級主動推理（S-HAI）模型，以應(yīng)對這些挑戰(zhàn)。下一節(jié)中，我們首先介紹實(shí)驗(yàn)任務(wù)（ABCD 與 ABCB，第 2.1 節(jié)）及解決這些任務(wù)的基于圖式的層級主動推理（S-HAI）智能體（第 2.2 節(jié)）。隨后，我們呈現(xiàn)四項(xiàng)模擬，評估 S-HAI 智能體是否展現(xiàn)出經(jīng)驗(yàn)報道的基于圖式的推理與學(xué)習(xí)的行為及神經(jīng)（前額葉）特征。第一項(xiàng)模擬表明，S-HAI 智能體中的基于圖式推理使其能在 El-Gaby 等人（2024）的 ABCD 任務(wù)中實(shí)現(xiàn)快速泛化（第 2.3 節(jié)）。第二項(xiàng)模擬展示了基于圖式推理在更具挑戰(zhàn)性的 ABCB 任務(wù)中的有效性，該任務(wù)中兩個目標(biāo)可占據(jù)同一位置，類似于空間交替任務(wù)（Jadhav et al., 2012）（第 2.4 節(jié)）。第三項(xiàng)模擬表明，S-HAI 智能體具備增量式在線學(xué)習(xí)能力，并能在關(guān)于如何將抽象圖式映射至當(dāng)前迷宮的多種假設(shè)間進(jìn)行選擇（第 2.5 節(jié)）。最后，第四項(xiàng)模擬表明，S-HAI 智能體在學(xué)習(xí) ABCD 任務(wù)過程中涌現(xiàn)的神經(jīng)表征，展現(xiàn)了嚙齒類動物內(nèi)側(cè)前額葉皮層（mFC）中圖式處理的關(guān)鍵神經(jīng)特征（El-Gaby et al., 2024）。

2 結(jié)果

2.1 實(shí)驗(yàn)任務(wù)：ABCD 和 ABCB 任務(wù)

我們采用來評估模型的主要實(shí)驗(yàn)任務(wù)是 El-Gaby 等人（2024）的 ABCD 任務(wù)。在此任務(wù)中，嚙齒動物（或人工智能體）通過在迷宮上按正確順序訪問四個目標(biāo)位置來獲取獎勵（圖 1b）。迷宮由排列成 3 × 3 網(wǎng)格的九個井（wells）組成，每個井由九個瓦片（tiles）組成，這些瓦片通過單瓦片走廊連接。智能體獲得獎勵后，新獎勵被放置在序列中下一個井的中心。四個目標(biāo)位置在不同塊（blocks）之間有所不同，每個塊包含多次試驗(yàn)。例如，在塊 1 中，四個目標(biāo)位于迷宮位置：“左上”、“上中”、“下中”和“中左”，而在塊 2 中，它們位于位置：“上中”、“左下”、“左上”和“右上”。關(guān)鍵在于，底層（ABCD）結(jié)構(gòu)在整個實(shí)驗(yàn)過程中保持不變：嚙齒動物必須始終按正確順序循環(huán)遍歷四個目標(biāo)位置（例如，A, B, C, D, A, ...）。可變感官細(xì)節(jié)與穩(wěn)定關(guān)系結(jié)構(gòu)之間的區(qū)別使得 ABCD 任務(wù)成為基于圖式推理的自然試驗(yàn)臺。

我們還解決了一個更具挑戰(zhàn)性的變體，即 ABCB 任務(wù)，其中兩個目標(biāo)（B 目標(biāo)）占據(jù)相同的空間位置（圖 1c）。此設(shè)置類似于嚙齒動物中常用的空間交替任務(wù)（Jadhav 等人，2012），并且比 ABCD 任務(wù)要求更高，因?yàn)樵?B 處，動物必須記住它們是從 A 還是從 C 到達(dá)的，以便正確選擇下一個目標(biāo)，C 或 A。

2.2 基于圖式的層級主動推理（S-HAI）

我們使用一種新型基于圖式的層級主動推理（S-HAI）智能體來解決 ABCD 和 ABCB 任務(wù)，該智能體包含兩個層級，實(shí)現(xiàn)為兩個相互連接的部分可觀測馬爾可夫決策過程（POMDPs）。圖 1a 提供了 S-HAI 及其三個組成部分的示意圖：處理空間導(dǎo)航的第 1 層；處理基于圖式推理的第 2 層；以及接地似然（grounding likelihood），它指定了編碼在圖式中的抽象目標(biāo)與迷宮中特定位置之間的概率映射。參見第 4 節(jié)了解 S-HAI 智能體的形式化規(guī)范。

在較低層級（第 1 層），S-HAI 智能體處理“導(dǎo)航空間”中的空間導(dǎo)航，即圖 1b 中描繪的網(wǎng)格世界。在此層級，智能體觀察其當(dāng)前訪問的瓦片顏色，并可以使用四種動作（“上”、“下”、“左”和“右”）導(dǎo)航網(wǎng)格。用于導(dǎo)航的轉(zhuǎn)移模型參數(shù)是通過離線訓(xùn)練獲得的，模擬了在相應(yīng)的嚙齒動物研究中，動物在圖式學(xué)習(xí)之前已經(jīng)了解環(huán)境的事實(shí)（參見第 4 節(jié)）。預(yù)覽我們的模擬結(jié)果，我們發(fā)現(xiàn)訓(xùn)練后，模型正確恢復(fù)了 105 個位置之間的轉(zhuǎn)移動態(tài)（圖 1d，圖 1a 中的插圖“第 1 層”）。

在較高層級（第 2 層），智能體在“任務(wù)空間”中執(zhí)行基于圖式的學(xué)習(xí)和推理。ABCD 任務(wù)中的基于圖式學(xué)習(xí)等同于學(xué)習(xí)目標(biāo)之間的抽象轉(zhuǎn)移模型，代表通過依次訪問四個抽象目標(biāo) A、B、C 和 D，然后再次 A ，來獲得獎勵的事實(shí)。基于圖式的推理等同于基于第 1 層潛在狀態(tài)的觀察以及獎勵的有無來推斷智能體在任務(wù)空間中的當(dāng)前位置（例如，當(dāng)前目標(biāo)是否已實(shí)現(xiàn)），然后——如果當(dāng)前目標(biāo)已實(shí)現(xiàn)——為第 1 層選擇下一個導(dǎo)航目標(biāo)。第 1 層目標(biāo)被指定為對未來狀態(tài)的意圖，這觸發(fā)模型將每個狀態(tài)與歸納成本（inductive cost）相關(guān)聯(lián)（Friston 等人，2023）。根據(jù)潛在動態(tài)，該成本與相對于預(yù)期目標(biāo)狀態(tài)的距離成正比（參見第 4 節(jié)公式 (5)）。在我們的模擬中，我們實(shí)現(xiàn)在線和離線圖式學(xué)習(xí)。預(yù)覽我們的結(jié)果，我們發(fā)現(xiàn)在兩種情況下，S-HAI 智能體都正確學(xué)習(xí)了一個獨(dú)特的可泛化圖式，捕捉四個目標(biāo)之間的循環(huán)轉(zhuǎn)移，適用于塊 1 和塊 2（圖 1e，圖 1a 中的插圖“第 2 層”）。相比之下，未經(jīng)圖式學(xué)習(xí)的替代智能體（HAI）捕獲了兩個塊的不同轉(zhuǎn)移（圖 1f）。最后，我們發(fā)現(xiàn)增強(qiáng)了區(qū)分具有相同位置目標(biāo)能力的 S-HAI 智能體（S-HAI-2C）正確推斷了 ABCB 任務(wù)的可泛化圖式（圖 1f）。

關(guān)鍵在于，S-HAI 智能體還包括一個接地似然：任務(wù)空間中代表目標(biāo)之間轉(zhuǎn)移的抽象圖式（即 A、B、C 和 D）與導(dǎo)航空間中目標(biāo)的具體位置（即迷宮中可以找到獎勵的位置）之間的概率映射。學(xué)習(xí)接地似然是實(shí)現(xiàn)基于圖式泛化的關(guān)鍵：它使智能體能夠?qū)⑵?strong>抽象圖式（例如 ABCD）快速映射到每個新穎的目標(biāo)空間配置（即每個塊），而不是在每次試驗(yàn)中從頭重新學(xué)習(xí)正確的動作和目標(biāo)序列。在我們的模擬中，我們實(shí)現(xiàn)了接地似然的在線學(xué)習(xí)，以及第 2 層圖式的在線和離線變體。此外，我們引入了一個接地似然的混合模型，允許 S-HAI 智能體靈活推斷其現(xiàn)有接地似然中哪一個在當(dāng)前迷宮中最有用，或在需要時創(chuàng)建一個新的。預(yù)覽我們的結(jié)果，我們發(fā)現(xiàn)在所有情況下（在線或離線，有或無混合），接地似然允許 S-HAI 智能體優(yōu)于在相同甚至更大數(shù)據(jù)集上訓(xùn)練但沒有圖式學(xué)習(xí)的替代模型。學(xué)習(xí)接地似然類似于學(xué)習(xí)圖式的發(fā)射矩陣，如（Guntupalli 等人，2023）和（Swaminathan 等人，2023）中所述。

2.3 ABCD 任務(wù)：基于圖式的層級主動推理允許快速泛化到具有相同抽象結(jié)構(gòu)的新問題

在此模擬中，我們測試圖式學(xué)習(xí)是否使 S-HAI 智能體能夠?qū)?ABCD 任務(wù)泛化到具有相同序列結(jié)構(gòu)但特定目標(biāo)位置不同的試驗(yàn)塊。遵循 El-Gaby 等人（2024）的實(shí)驗(yàn)設(shè)置，每個塊運(yùn)行直到智能體在環(huán)境中完成 10,000 步。包含四次連續(xù)獎勵的試驗(yàn)平均可在 32 ± 7.15 步（μ ± σ）內(nèi)完成，這是跨越 40 個塊計(jì)算得出的。

我們比較了 S-HAI 智能體的兩種變體——一種離線學(xué)習(xí)圖式（S-HAI K），一種在線學(xué)習(xí)圖式（S-HAI L）——以及一個沒有圖式的標(biāo)準(zhǔn)層級主動推理（HAI）智能體和一個隨機(jī)選擇目標(biāo)的基線智能體（Random）。為了保持一致性，在此及后續(xù)模擬中，所有智能體共享相同的層級架構(gòu)。此外，負(fù)責(zé)空間導(dǎo)航的第 1 層模型（圖 1d）是離線學(xué)習(xí)的，且在所有智能體中相同。智能體之間的唯一差異出現(xiàn)在第 2 層。

在離線基于圖式的智能體（S-HAI K）中，第 2 層圖式使用僅從第一個塊收集的通過隨機(jī)游走生成的數(shù)據(jù)（50,000 步）進(jìn)行離線訓(xùn)練（"K"表示圖式是已知的）。圖 1e 可視化了第 2 層學(xué)習(xí)到的圖式，它代表了四個目標(biāo) A、B、C 和 D 之間的循環(huán)。接地似然在每個塊開始時隨機(jī)初始化，并在任務(wù)期間在線學(xué)習(xí)。相比之下，在在線基于圖式的智能體（S-HAI L）中，第 2 層圖式和接地似然都在線訓(xùn)練（"L"表示圖式是在線學(xué)習(xí)的）。參數(shù)隨機(jī)初始化并使用共軛更新進(jìn)行更新，接地似然在每個塊后重置。

在沒有圖式的層級主動推理（HAI）智能體中，第 2 層使用克隆結(jié)構(gòu)圖（CSCG）（George 等人，2021）實(shí)現(xiàn)，接地似然是單位矩陣。智能體表示為 HAI-i，索引 i 表示智能體接受訓(xùn)練的任務(wù)數(shù)量；訓(xùn)練在第一個 i 任務(wù)的序列上離線進(jìn)行，每個任務(wù) 10,000 交互步。參見圖 1f 了解 HAI-2 智能體（在兩個塊上訓(xùn)練）在第 2 層學(xué)習(xí)到的目標(biāo)之間的轉(zhuǎn)移動態(tài)。注意，與學(xué)習(xí)獨(dú)特序列圖式的 S-HAI 智能體不同，HAI-2 智能體為每個塊學(xué)習(xí)獨(dú)特的子循環(huán)。當(dāng) HAI-i 智能體在更多塊上訓(xùn)練時，它傾向于學(xué)習(xí)多個特定于塊的子循環(huán)（此處未顯示，但類似于（Van de Maele 等人，2024）中報告的內(nèi)容）。

最后，在基線（隨機(jī)）層級主動推理模型中，第 2 層隨機(jī)選擇一個子目標(biāo)供智能體導(dǎo)航。參見第 4 節(jié)了解本模擬中使用的智能體的形式化解釋。

圖 2a 顯示了 ABCD 任務(wù)的模擬結(jié)果，報告了跨越 40 個塊的平均獎勵率（在 250 步上平滑），相對于最優(yōu)性能歸一化。實(shí)線表示跨塊的平均值，陰影區(qū)域表示標(biāo)準(zhǔn)誤。每個塊在智能體達(dá)到 10,000 次與環(huán)境交互時結(jié)束。正如預(yù)期，沒有圖式的 HAI 智能體（在一半（20）或所有（40）塊上離線訓(xùn)練；HAI-20 和 HAI-40）優(yōu)于隨機(jī)基線，性能隨著訓(xùn)練塊數(shù)量的增加而提高。然而，在一半塊上訓(xùn)練的 HAI-20 智能體顯示出對訓(xùn)練集之外的新塊的泛化能力有限。

相比之下，基于圖式的 S-HAI 智能體穩(wěn)健地泛化到未見過的任務(wù)。離線智能體（S-HAI K）迅速收斂到接近最優(yōu)的獎勵水平，表明從單個訓(xùn)練塊學(xué)習(xí)的圖式可以泛化到 39 個新塊。在線智能體（S-HAI L）也達(dá)到了接近最優(yōu)的性能，表明可泛化的圖式可以有效地在線學(xué)習(xí)，無需先前的離線訓(xùn)練。此外，兩個 S-HAI 智能體每次試驗(yàn)所需的步數(shù)更少（圖 2c），并且比 HAI-20 智能體和隨機(jī)基線積累了更多獎勵（圖 2d）。此外，S-HAI 智能體比訓(xùn)練更廣泛的 HAI-40 智能體更快達(dá)到最大歸一化獎勵（圖 2a）。為了確保觀察到的行為不反映較低層的不完美學(xué)習(xí)，我們還在簡化環(huán)境中復(fù)制了我們的結(jié)果（3 × 3 網(wǎng)格，具有獨(dú)特觀察；見附錄 A.3）。

基于圖式泛化的一個關(guān)鍵驅(qū)動因素是，S-HAI K 和 S-HAI L 都在每個塊中在線學(xué)習(xí)新的接地似然，將抽象圖式觀察（o2t）映射到具體空間狀態(tài)（s1t）。圖 2b 顯示了兩個接地似然的示例，為了清晰起見，僅顯示了對應(yīng)于獎勵位置的高級狀態(tài)（完整的接地似然包括 210 個高級狀態(tài)：105 個位置與獎勵存在狀態(tài)的組合）。圖式和接地似然在塊內(nèi)被快速獲取，如 S-HAI L 性能隨經(jīng)驗(yàn)快速改進(jìn)所示，反映在到子目標(biāo)的相對距離減少上（圖 2e）。

綜上所述，我們發(fā)現(xiàn)基于圖式的 S-HAI 智能體通過在物理位置快速接地抽象的、圖式編碼的目標(biāo)，成功解決了諸如 ABCD 之類的結(jié)構(gòu)化任務(wù)，這些物理位置跨塊變化。值得注意的是，這些基于圖式的智能體比僅在一半塊上訓(xùn)練的 HAI-20 智能體表現(xiàn)效率高得多，并且比 HAI-40 智能體更快達(dá)到最大獎勵，盡管后者在所有塊配置上進(jìn)行了廣泛的離線訓(xùn)練。

2.4 ABCB 任務(wù)：增強(qiáng)克隆圖的基于圖式層級主動推理可解決目標(biāo)混疊問題

在此模擬中，我們考慮 ABCD 任務(wù)的一個更具挑戰(zhàn)性的變體，其中包含目標(biāo)之間的交替模式（Jadhav 等人，2012）。在此，第二個和第四個目標(biāo)（均表示為 B）占據(jù)相同的空間位置；這就是該任務(wù)被稱為 ABCB 的原因。

使此任務(wù)更困難的是它需要空間記憶：當(dāng)智能體在位置 B 觀察到獎勵時，它必須決定是移向 C 目標(biāo)還是 A 目標(biāo)。標(biāo)準(zhǔn)類 HMM 架構(gòu)（如第一次模擬中 HAI 智能體所使用的）難以應(yīng)對此任務(wù)，因?yàn)樗鼈兓煜?B 目標(biāo)的兩個實(shí)例。為解決這一限制，我們賦予 HAI 智能體的第 2 層一個更具表達(dá)力的克隆結(jié)構(gòu)認(rèn)知圖（CSCG）機(jī)制（George 等人，2021），該機(jī)制通過允許每個狀態(tài)有多個克隆來擴(kuò)展 HMM。我們將結(jié)果智能體稱為 S-HAI-2C K。此處，"2C K"表示第 2 層是一個具有兩個克隆的 CSCG，使用來自第一個塊的隨機(jī)游走（10,000 步）離線訓(xùn)練，我們發(fā)現(xiàn)這足以學(xué)習(xí) ABCB 圖式（圖 1g）。此外，我們包含一個在線學(xué)習(xí)克隆結(jié)構(gòu)第 1 層參數(shù)的變體，稱為 S-HAI-2C L。

與第一次模擬一樣，接地似然在每個任務(wù)開始時隨機(jī)初始化，并在任務(wù)期間在線學(xué)習(xí)。參見第 4 節(jié)了解 S-HAI-2C K 智能體的形式化規(guī)范。

圖 2f 顯示了 ABCB 任務(wù) 40 個塊中隨時間獲得的平均獎勵。結(jié)果顯示，帶有克隆的基于圖式智能體（S-HAI-2C K, S-HAI-2C L）達(dá)到了接近最優(yōu)的性能，優(yōu)于沒有克隆的兩個智能體（S-HAI K, S-HAI L），后者在 B 目標(biāo)的歧義上表現(xiàn)掙扎。

同樣值得注意的是，對于 ABCB 任務(wù)，在最初的塊中，每次試驗(yàn)的相對距離（圖 2j）比后期試驗(yàn)下降得更慢，表明在后期階段，智能體已經(jīng)學(xué)習(xí)了圖式中的抽象任務(wù)結(jié)構(gòu)，只需推斷接地似然。

圖 2g 顯示了 S-HAI-2C K 智能體學(xué)習(xí)的兩個塊的接地似然。在第 2 層，接地似然 P (s1t |o2t ) 與觀察似然 P (o2t |s1t ) 相結(jié)合。與圖 2b 不同，兩個不同的任務(wù)狀態(tài)（對應(yīng)于目標(biāo) B 的第一次和第二次出現(xiàn)）映射到相同的空間位置（塊 1 中的位置 2 和塊 2 中的位置 7）。最后，如圖 2h 和 2f 所示，S-HAI-2C K 智能體每次試驗(yàn)所需的步數(shù)更少，并比其非克隆對應(yīng)物獲得更高的獎勵。

綜上所述，這些發(fā)現(xiàn)表明，用基于克隆的機(jī)制（George 等人，2021）增強(qiáng) S-HAI 模型，使其能夠?qū)W習(xí)在具有混疊目標(biāo)的任務(wù)中有效泛化的圖式。

2.5 帶有混合模型的基于圖式推理支持接地似然的增量學(xué)習(xí)與復(fù)用

在之前的模擬中，我們考察了智能體如何使用單個接地似然將空間狀態(tài)重新映射到任務(wù)狀態(tài)，該似然在每個塊重新訓(xùn)練。然而，在現(xiàn)實(shí)場景中，動物（和人工智能體）可能需要自主識別問題塊何時發(fā)生變化（Behrens 等人，2007; Friston 等人，2016b; Proietti 等人，2025）。此外，它們可能多次遇到相同的塊，在這種情況下從頭重新學(xué)習(xí)將是低效的。

為解決這一挑戰(zhàn)，我們實(shí)現(xiàn)了 S-HAI 智能體的非參數(shù)擴(kuò)展，稱為 S-HAI MoGL 智能體，它維護(hù)接地似然的混合，該混合使用截?cái)嗟依死走^程隨時間擴(kuò)展（第 4 節(jié)）。S-HAI MoGL 智能體維護(hù)對混合的信念，該信念在每個塊開始時重置為均勻先驗(yàn)，并為每次試驗(yàn)選擇最可能的接地似然。這種非參數(shù)方法允許智能體在遇到新問題時靈活創(chuàng)建新的接地似然，同時在遇到以前見過的問題時復(fù)用現(xiàn)有的接地似然。與之前的模擬一樣，非參數(shù)智能體實(shí)現(xiàn)在線學(xué)習(xí)（S-HAI L MoGL）和離線學(xué)習(xí)（S-HAI K MoGL）。參見第 4 節(jié)了解 S-HAI MoGL 智能體的形式化解釋。

為了測試接地似然的混合，我們在第一次模擬中使用的 ABCD 任務(wù)中測試了 S-HAI L MoGL 和 S-HAI K MoGL 智能體，其中智能體面對 40 個不同的問題塊。我們的結(jié)果顯示，在完成第一個塊后，S-HAI MoGL 智能體學(xué)習(xí)單個接地似然，顯示在圖 3a 左側(cè)。隨著智能體遇到新塊，混合模型擴(kuò)展，導(dǎo)致針對不同塊產(chǎn)生多個不同的接地似然；例如，圖 3a 右側(cè)顯示了五個塊后學(xué)習(xí)到的混合組件。

圖 3b 比較了 ABCD 任務(wù)中帶有（S-HAI MoGL K 和 S-HAI MoGL L）和不帶有（S-HAI K 和 S-HAI L）接地似然混合的基于圖式智能體的性能。沒有混合的 S-HAI K 和 S-HAI L 智能體的結(jié)果與圖 2a 所示相同。我們的結(jié)果顯示，引入接地似然的混合影響了 S-HAI MoGL 智能體學(xué)習(xí)每個任務(wù)的速度。最初，S-HAI MoGL 智能體——必須推斷哪個接地似然適用于當(dāng)前問題，并在某些情況下創(chuàng)建一個新的——比在每個新塊重新訓(xùn)練單個似然的基于圖式智能體學(xué)習(xí)得更慢。然而，這種較慢的起步隨時間得到補(bǔ)償：隨著 S-HAI MoGL 智能體在塊內(nèi)積累關(guān)于接地似然的知識，它可以跨問題復(fù)用該知識，最終達(dá)到無混合智能體的性能。

最后，為了進(jìn)一步考察接地似然混合的好處，我們考慮了 ABCD 任務(wù)的一個變體，其中智能體可以多次遇到相同的塊。在此變體中，組成實(shí)驗(yàn)的 40 個塊僅是之前模擬中使用的最初 20 個塊的隨機(jī)樣本，因此某些塊可能重復(fù)兩次或更多。圖 3c 顯示了結(jié)果。帶有接地似然混合的基于圖式智能體（S-HAI MoGL）和帶有單個接地似然的智能體（S-HAI）最終都達(dá)到了相同的最優(yōu)性能。然而，配備混合模型的智能體學(xué)習(xí)得更快，因?yàn)樗梢粤⒓磳⑾惹矮@得的組件應(yīng)用于它已經(jīng)遇到的任務(wù)。此模擬表明，在圖式與其可應(yīng)用的問題之間維護(hù)多個顯式映射，在可以復(fù)用先前知識的任務(wù)中提供了明顯優(yōu)勢。

圖 3d 提供了更詳細(xì)的視圖，展示 S-HAI MoGL 智能體如何在具有重復(fù)環(huán)境的 ABCD 任務(wù)期間積累和組織接地似然的混合。該面板顯示了智能體隨時間對所選混合組件（即接地似然）的信念。在大多數(shù)情況下，智能體為每個塊分配唯一的接地似然，反映了對塊的成功區(qū)分。底部面板顯示了混合模型下觀察的期望對數(shù)似然（公式 (13) 中的第一個因子）。當(dāng)此量低于閾值（顯示為虛線紅線）時，新的接地似然被添加到混合中。這通常發(fā)生在新塊的開始，當(dāng)觀察令人驚訝且與先前期望不一致時——這與經(jīng)驗(yàn)發(fā)現(xiàn)一致，即片段（episode）之間的邊界通常對應(yīng)于高驚喜時刻（Zacks, 2020）。當(dāng)遇到智能體先前觀察過的塊時，這種情況不會發(fā)生。在沒有重復(fù)環(huán)境的 ABCD 任務(wù)中，智能體一致地為每個遇到的塊創(chuàng)建新的混合組件（見補(bǔ)充材料）。

2.6 基于圖式的層級主動推理復(fù)現(xiàn)了嚙齒動物內(nèi)側(cè)前額葉皮層中的“目標(biāo)進(jìn)展細(xì)胞”及其他圖式關(guān)鍵特征

在此模擬中，我們旨在評估基于圖式的（S-HAI）智能體在圖式學(xué)習(xí)期間涌現(xiàn)了何種內(nèi)部表征，以及它們?nèi)绾闻c執(zhí)行 ABCD 任務(wù)的嚙齒動物內(nèi)側(cè)前額葉皮層（mPFC）中報道的神經(jīng)編碼相關(guān)聯(lián)（El-Gaby 等人，2024）。根據(jù)貝葉斯腦假說，神經(jīng)元不僅僅是對刺激做出反應(yīng)而放電；相反，它們的激活編碼了關(guān)于環(huán)境中相關(guān)數(shù)量的概率信念（Doya, 2007; Parr 等人，2022）。為了模擬神經(jīng)活動，我們將神經(jīng)元解釋為代表關(guān)于特定狀態(tài)、目標(biāo)或轉(zhuǎn)移的信念。我們將模擬聚焦于圖 4a 中描繪的四個 ABCD 問題。這使我們能夠觀察哪些神經(jīng)信念隨著智能體執(zhí)行問題而演變，哪些保持不變或跨問題實(shí)例變化，以及它們?nèi)绾斡成涞絿X動物 mPFC 中報道的神經(jīng)激活。

ABCD 研究（El-Gaby 等人，2024）的一個關(guān)鍵發(fā)現(xiàn)是，嚙齒動物 mPFC 編碼了大量細(xì)胞群，這些細(xì)胞 tuned 于目標(biāo)相關(guān)、空間及其他類型任務(wù)相關(guān)信息的各種組合。其中，最頻繁的是“目標(biāo)進(jìn)展細(xì)胞”，即主要 tuned 于朝向抽象目標(biāo)的進(jìn)展（例如，早期、中期和晚期階段）的細(xì)胞，獨(dú)立于目標(biāo)身份或物理距離。這由以下事實(shí)證明：這些細(xì)胞的放電發(fā)生在接近任何目標(biāo)時，并根據(jù)目標(biāo)位置的空間分布而拉伸或收縮；參見（El-Gaby 等人，2024）中的圖 2c。

在我們的模型中，當(dāng)考慮智能體在其當(dāng)前位置期望下的歸納成本信念時，追蹤朝向目標(biāo)進(jìn)展的神經(jīng)激活自然涌現(xiàn)。在規(guī)劃期間，與每個狀態(tài)相關(guān)的歸納成本反映了該狀態(tài)距離偏好狀態(tài)有多遠(yuǎn)（詳見方法）。圖 4b 顯示了我們模型中的模擬神經(jīng)活動，其中期望歸納成本在連續(xù)步驟上歸一化，揭示該值隨著智能體接近目標(biāo)而增加。值得注意的是，無論目標(biāo)是哪個，智能體的目標(biāo)期望在接近下一個目標(biāo)時一致攀升。例如，在序列開始時，其期望歸納成本最初很高（早期進(jìn)展，紫色節(jié)點(diǎn)），然后隨著其移向目標(biāo) C 而增加，經(jīng)過中期期望（綠色節(jié)點(diǎn)），然后達(dá)到高期望（黃色節(jié)點(diǎn)）。這種模式對應(yīng)于不同“目標(biāo)進(jìn)展細(xì)胞”群體的參與，這些群體 tuned 于朝向任何目標(biāo)的進(jìn)展的早期、中期或晚期階段。

圖 4c 進(jìn)一步說明了模擬的“目標(biāo)進(jìn)展細(xì)胞”群體，其中它們的激活繪制在塊 1 期間的迷宮布局之上。智能體的軌跡顯示為彩色點(diǎn)（添加少量噪聲以避免點(diǎn)重疊）。在第三個面板中，可以觀察到 C 和 D 之間的兩條不同軌跡。點(diǎn)像以前一樣顏色編碼，表明沿著每條軌跡（例如，第一個面板中從 A 到 B），不同的“目標(biāo)進(jìn)展細(xì)胞”群體依次激活：首先是 tuned 于中期目標(biāo)期望的細(xì)胞（綠色），然后是 tuned 于高目標(biāo)期望的細(xì)胞（黃色），最后是在目標(biāo)位置收集獎勵后 tuned 于低目標(biāo)期望的細(xì)胞（紫色）。重要的是，這種攀升模式跨不同軌跡一致涌現(xiàn)，獨(dú)立于特定目標(biāo)目的地，而這些細(xì)胞的放電野根據(jù)目標(biāo)之間的物理距離靈活地拉伸或收縮。

（El-Gaby 等人，2024）報道的第二類顯著細(xì)胞編碼對特定抽象目標(biāo)（A、B、C 或 D）的追求，獨(dú)立于其在迷宮中的物理位置（參見（El-Gaby 等人，2024）中的圖 2d）。在我們的模型中，具有此屬性的神經(jīng)激活在考慮智能體第 2 層關(guān)于當(dāng)前任務(wù)階段（即，移向 A、B、C 或 D）的（先驗(yàn)）信念時自然涌現(xiàn)，這反映了智能體關(guān)于下一個獎勵將在何處獲得的期望。圖 4d 通過繪制四個塊期間智能體的軌跡說明了這一點(diǎn)，顏色指示當(dāng)前關(guān)于任務(wù)階段的信念。對應(yīng)于每個階段的激活（例如，從 A 移向 B 時為藍(lán)色，從 B 移向 C 時為橙色，從 C 移向 D 時為綠色，從 D 移向 A 時為紫色）沿軌跡保持恒定，直到達(dá)到目標(biāo)，無論采取何種路徑。關(guān)鍵在于，即使目標(biāo)占據(jù)不同的空間位置，這種編碼模式也跨塊泛化，從而證明了目標(biāo)選擇性但空間不變的表征——鏡像了實(shí)證發(fā)現(xiàn)。

（El-Gaby 等人，2024）識別的第三類顯著細(xì)胞編碼關(guān)于特定抽象目標(biāo)（A、B、C 或 D）及其在迷宮中空間位置的聯(lián)合信息。在我們的模型中，這種目標(biāo)和位置調(diào)諧的激活在接地似然內(nèi)自然涌現(xiàn)。這在圖 4e 中說明，其中每組彩色點(diǎn)對應(yīng)于接地似然的一個條目，該條目將給定空間位置映射到任務(wù)狀態(tài)。這種機(jī)制產(chǎn)生獨(dú)特的激活模式：僅當(dāng)空間位置和任務(wù)狀態(tài)都重合時，激活才相同（或高度相似），否則它們不同。例如，任務(wù) 1 和 4 中位置 A 的激活模式是相同的，而任務(wù) 1 和 2 中位置 A 的模式是不同的——鏡像了實(shí)證發(fā)現(xiàn)。

最后，除了支持第 2 層任務(wù)空間導(dǎo)航的神經(jīng)編碼——可能與前額葉皮層機(jī)制相關(guān)——我們的模型還解釋了支持第 1 層物理空間導(dǎo)航的神經(jīng)編碼，可能與海馬結(jié)構(gòu)中的空間映射和導(dǎo)航相關(guān)（Nyberg 等人，2022）。圖 4f 顯示了第 1 層空間激活，其編碼智能體在環(huán)境中的位置。無論任務(wù)實(shí)例如何，每個空間位置對應(yīng)一個獨(dú)特的激活模式。例如，右下角位置一致激活相同的神經(jīng)元，類似于海馬位置細(xì)胞（O'Keefe 和 Dostrovsky, 1971）。這表明第 1 層神經(jīng)元提供了獨(dú)立于當(dāng)前任務(wù)的穩(wěn)定空間表征，使模型能夠保持一致的位置信息，而第 2 層表征捕捉任務(wù)特定和導(dǎo)向目標(biāo)的信息。

3 討論

心理學(xué)、神經(jīng)科學(xué)和人工智能中傳統(tǒng)的 learning 觀點(diǎn)強(qiáng)調(diào)經(jīng)驗(yàn)的漸進(jìn)積累。與經(jīng)典學(xué)習(xí)理論并存的是，長期以來人們假設(shè)人類和其他動物能夠形成圖式——即編碼事件間結(jié)構(gòu)關(guān)系同時抽象掉感官細(xì)節(jié)的數(shù)據(jù)結(jié)構(gòu)——并通過快速將新經(jīng)驗(yàn)重新綁定到現(xiàn)有圖式來快速復(fù)用它們，從而將知識泛化到新情境（Piaget, 1952; Bartlett, 1932）。越來越多的文獻(xiàn)（最近在 Farzanfar 等人，2023 中綜述）支持這一觀點(diǎn)：高級認(rèn)知能力，如快速泛化和跨情境的知識抽象，依賴于基于圖式的機(jī)制，可能涉及海馬、內(nèi)嗅皮層和前額葉皮層。

本研究介紹了一種新穎的計(jì)算方法——基于圖式的層級主動推理（S-HAI）——解決了從經(jīng)驗(yàn)形成圖式及其快速泛化到新情境的問題。該模型建立在層級預(yù)測處理和主動推理理論之上（Parr 等人，2022; Van de Maele 等人，2024; Pezzulo 等人，2018; Butz 等人，2025; Pezzulo 等人，2018; Smith 等人，2022; Lanillos 等人，2021; Matsumoto 和 Tani, 2020; Friston 等人，2021; Taniguchi 等人，2022; Isomura 和 Friston, 2018），并用基于圖式的機(jī)制擴(kuò)展了它們。S-HAI 是層級組織的：高層（第 2 層）負(fù)責(zé)抽象任務(wù)空間中的圖式學(xué)習(xí)和導(dǎo)航，而低層（第 1 層）編碼空間信息并支持物理空間中的導(dǎo)航。關(guān)鍵在于，兩個層級通過我們模型獨(dú)特的機(jī)制連接，即接地似然，它將圖式中的抽象目標(biāo)代碼映射到物理位置。此映射的快速學(xué)習(xí)使智能體能夠靈活地將同一圖式泛化到新穎的目標(biāo)配置。

通過一系列模擬，我們驗(yàn)證了基于圖式的 S-HAI 智能體復(fù)現(xiàn)需要快速泛化任務(wù)中的行為發(fā)現(xiàn)的能力，以及執(zhí)行此類任務(wù)的嚙齒動物內(nèi)側(cè)前額葉皮層中報道的神經(jīng)發(fā)現(xiàn)。我們的結(jié)果顯示，在學(xué)習(xí)了一類具有相同結(jié)構(gòu)的導(dǎo)航問題的圖式后——即需要循環(huán)訪問四個目標(biāo)位置以獲得獎勵的問題，如 ABCD 任務(wù)（El-Gaby 等人，2024）——S-HAI 智能體表現(xiàn)出對新穎問題的快速在線泛化，其中關(guān)系結(jié)構(gòu)保持不變但四個目標(biāo)的空間位置發(fā)生變化。值得注意的是，基于圖式的智能體優(yōu)于在所有問題上離線訓(xùn)練的智能體，展示了基于圖式的學(xué)習(xí)在新情境中的優(yōu)勢。我們的模擬還表明，相同方法可以泛化到更具挑戰(zhàn)性的任務(wù)，其中多個目標(biāo)可以共享同一位置（ABCB 任務(wù)），類似于空間交替任務(wù)（Jadhav 等人，2012），并且 S-HAI 智能體可以在線學(xué)習(xí)并在抽象圖式與具體問題之間的似然映射混合中進(jìn)行選擇，展示了決定何時復(fù)用現(xiàn)有映射或創(chuàng)建新映射的能力——捕捉了至少由（Piaget, 1952）構(gòu)想的同化（將新經(jīng)驗(yàn)納入現(xiàn)有關(guān)系結(jié)構(gòu)）和順應(yīng)（新關(guān)系結(jié)構(gòu)）過程的基本特征。最后且重要的是，S-HAI 模型復(fù)現(xiàn)了在執(zhí)行 ABCD 任務(wù)的嚙齒動物內(nèi)側(cè)前額葉皮層中識別出的圖式關(guān)鍵神經(jīng)特征（El-Gaby 等人，2024），最顯著地捕捉了目標(biāo)進(jìn)展細(xì)胞的活動，同時也反映了其他對目標(biāo)、空間和任務(wù)相關(guān)信息組合敏感的細(xì)胞的異質(zhì)編碼。

綜上所述，這些結(jié)果確立了 S-HAI 作為一個全面的計(jì)算框架，證明了基于圖式的學(xué)習(xí)和推理的有效性，捕捉了快速泛化、靈活問題解決以及新經(jīng)驗(yàn)同化和順應(yīng)的行為和神經(jīng)特征。重要的是，S-HAI 提供了關(guān)于抽象關(guān)系知識如何被表征、映射到特定情境并增量更新的機(jī)制性解釋，基于預(yù)測處理和層級主動推理的原則（Parr 等人，2022）。這表明，在建模感知、行動和決策方面成功的相同預(yù)測處理原則，也可能 underlying 大腦中的圖式形成、關(guān)系知識的靈活復(fù)用和泛化。

通過提供基于圖式的學(xué)習(xí)和推理的機(jī)制模型，我們的框架也產(chǎn)生了可以在未來實(shí)驗(yàn)中測試的新穎實(shí)證預(yù)測。其中一個預(yù)測涉及在執(zhí)行 ABCB 任務(wù)的動物中可能觀察到的行為和神經(jīng)表征（圖 2f）。我們的模擬表明，正確解決此任務(wù)需要一種機(jī)制（基于克隆或類似機(jī)制），能夠區(qū)分同一目標(biāo)的不同實(shí)例（例如，目標(biāo) B）。這反過來應(yīng)該產(chǎn)生特定的行為模式和第 2 層神經(jīng)表征，包括當(dāng)同一目標(biāo)被遇到兩次時的單獨(dú)表征（參見圖 1g）。另一個關(guān)鍵預(yù)測涉及在 ABCD 任務(wù)期間嚙齒動物內(nèi)側(cè)前額葉皮層中報道的神經(jīng)活動模式的功能角色（El-Gaby 等人，2024）。我們的模型將不同的神經(jīng)元群體——tuned 于目標(biāo)進(jìn)展、目標(biāo)身份以及目標(biāo)身份與空間位置結(jié)合——映射到不同的計(jì)算過程，即：目標(biāo)期望、關(guān)于當(dāng)前任務(wù)階段的信念以及接地似然。因此，擾動這些神經(jīng)元應(yīng)該產(chǎn)生可解離的效果。例如，破壞編碼關(guān)于當(dāng)前任務(wù)階段信念的神經(jīng)元應(yīng)損害動物正確推斷其下一個目標(biāo)的能力，而破壞編碼接地似然的神經(jīng)元應(yīng)損害動物將任務(wù)階段靈活鏈接到空間表征的能力。這些預(yù)測仍有待在未來實(shí)驗(yàn)中測試。

當(dāng)前的 S-HAI 智能體有幾個局限性，可以在未來研究中解決。首先，雖然我們的模型考慮了多個接地似然，但它目前只實(shí)現(xiàn)了一個圖式。S-HAI 框架允許從維護(hù)接地似然混合直接擴(kuò)展到也維護(hù)多個圖式的混合，從而提供對（Piaget, 1952）設(shè)想的同化和順應(yīng)過程更全面的解釋。其次，模型主要關(guān)注基于擴(kuò)展隱馬爾可夫模型（HMMs）的概率生成模型的前額葉皮層中的圖式學(xué)習(xí)和推理。這種方法允許復(fù)現(xiàn)前額葉皮層中圖式神經(jīng)編碼的一些關(guān)鍵方面，但不能捕捉其全部復(fù)雜性。未來研究可以探索 HMMs 的生物學(xué)現(xiàn)實(shí)實(shí)現(xiàn)（Kappel 等人，2014）并更系統(tǒng)地調(diào)查這些模型與前額葉皮層神經(jīng)計(jì)算之間的映射。此外，未來工作可能擴(kuò)展 S-HAI 以提供系統(tǒng)級模型，解決前額葉皮層之外的基于圖式的過程，涵蓋其他相關(guān)腦區(qū)如海馬和內(nèi)嗅皮層。最后，未來工作可以調(diào)查基于圖式的機(jī)制如何被復(fù)用以支持抽象概念空間中的導(dǎo)航。近期研究表明，大腦可能依賴共享的計(jì)算機(jī)制進(jìn)行物理和概念領(lǐng)域的映射和導(dǎo)航，海馬 - 內(nèi)嗅系統(tǒng)發(fā)揮核心作用（Buzsáki 和 Moser, 2013; Bellmund 等人，2018; Viganò 等人，2023; Bottini 和 Doeller, 2020; Dong 和 Fiete, 2024）。理解圖式形成和基于圖式的推理如何有助于構(gòu)建和導(dǎo)航此類抽象認(rèn)知地圖，可以為解釋跨空間和非空間領(lǐng)域的靈活認(rèn)知提供統(tǒng)一框架。

4 方法

我們的方法建立在主動推理之上，這是一個框架，其中智能體通過更新信念（感知）、選擇動作（策略評估）和適應(yīng)模型參數(shù)（學(xué)習(xí)）來最小化變分自由能（Parr 等人，2022; Smith 等人，2022）。我們通過引入一個生成模型來擴(kuò)展該范式，該模型能夠表示并在多個環(huán)境中復(fù)用抽象圖式——即任務(wù)動態(tài)的結(jié)構(gòu)化、可泛化表征。該圖式捕捉的是任務(wù)的抽象結(jié)構(gòu)，例如存在四個不同位置的獎勵（如（El-Gaby 等人，2024）的 ABCD 任務(wù)）或交替位置的三個獎勵（如（Jadhav 等人，2012）的空間交替任務(wù)），而不是學(xué)習(xí)任務(wù)中獎勵位置的具體序列（Van de Maele 等人，2024）。在各種任務(wù)實(shí)例中，該圖式隨后可以概率性地映射到特定于環(huán)境的狀態(tài)。這對應(yīng)于一個非常快速的學(xué)習(xí)過程，因?yàn)橹悄荏w只需要學(xué)習(xí)一個新的映射（我們稱之為接地似然），從抽象圖式狀態(tài)到特定于環(huán)境的位置。因此，圖式的使用允許智能體在不同任務(wù)實(shí)例之間快速泛化和轉(zhuǎn)移高層知識。

在本節(jié)中，我們首先簡要回顧主動推理的功能，然后說明新型基于圖式的（S-HAI）智能體的結(jié)構(gòu)。

4.1 主動推理

主動推理是一個框架，它根據(jù)信息論泛函的最小化來描述生物體中的認(rèn)知過程和大腦動態(tài)：變分自由能（Parr 等人，2022）。主動推理智能體被賦予一個生成模型：一個概率模型，編碼關(guān)于隱藏狀態(tài)、動作和隨后觀察結(jié)果之間因果關(guān)系的內(nèi)部信念。注意，這不同于世界中產(chǎn)生結(jié)果的真實(shí)物理過程（稱為生成過程）。由于智能體受計(jì)算限制，對于大狀態(tài)空間，后驗(yàn)推斷變得難以處理。因此，智能體使用近似（變分）推斷，通過最小化其變分自由能，即驚喜的上界，定義為：

4.2 基于圖式的層級主動推理智能體的形式化描述

主動推理智能體被賦予一個生成模型，該模型本質(zhì)上定義并約束了其知識和能力。在本研究中，我們提出了一種新型的層級生成模型，允許智能體進(jìn)行基于圖式的學(xué)習(xí)和推理，例如在 (El-Gaby 等人，2024) 的 ABCD 任務(wù)中所見，其中智能體在空間中導(dǎo)航以到達(dá)四個目標(biāo)的序列。

圖 5a 展示了基于圖式的層級主動推理（S-HAI）的生成模型，使用了貝葉斯網(wǎng)絡(luò)的形式化方法（另見圖 1a 了解更非形式化的示意圖）。它包含兩個層級。底層（第 1 層）在最精細(xì)的時間尺度上運(yùn)行，處理智能體的空間定位和導(dǎo)航。在此層級，智能體接收其位置的直接觀察并通過移動行動。自上而下的目標(biāo)被設(shè)定為對智能體需要到達(dá)的底層未來狀態(tài)的偏好。

高層（第 2 層）實(shí)施基于圖式的推理和學(xué)習(xí)。與第 1 層相比，圖式在較慢的時間尺度上運(yùn)行，并捕捉抽象任務(wù)結(jié)構(gòu)，整合關(guān)于獎勵的信息以及包含底層推斷狀態(tài)的自下而上消息。該層的動態(tài)建模了提供獎勵觀察的目標(biāo)狀態(tài)之間的狀態(tài)轉(zhuǎn)移 (Friston 等人，2024)。例如，在 ABCD 任務(wù)中，圖式捕捉了一個抽象的動作序列以循環(huán)移動到下一個目標(biāo)（從 A 到 B，C，D，然后再回到 A，等等）。

該層級生成模型包含兩個耦合的部分可觀測馬爾可夫決策過程（POMDPs），每層一個，它們通過自上而下和自下而上的消息傳遞進(jìn)行交互 (Van de Maele 等人，2024; Catal 等人，2021)。每一層都維護(hù)其生成模型，對于通用層 i ，聯(lián)合分布分解為：

通過這種層級耦合，接地似然介導(dǎo)了第 2 層的抽象圖式如何指定第 1 層的具體目標(biāo)，從而使智能體能夠跨環(huán)境泛化任務(wù)結(jié)構(gòu)。

4.2.2 接地似然混合

當(dāng)存在多個任務(wù)或環(huán)境時，單個接地似然可能會顯得脆弱。為了支持更豐富的泛化和知識保留，我們引入了接地似然混合（Mixture of Grounding Likelihoods, MoGL），其中智能體維護(hù)一組接地似然，并推斷在每一個時間步哪一個是激活的。

形式上，低層狀態(tài)是從接地似然的混合中采樣的：

關(guān)鍵在于，我們將此混合模型建模為一個非參數(shù)模型，該模型可以通過添加聚類（Stoianov 等人，2022; Heins 等人，2025）來擴(kuò)展混合，即針對觀察到的地圖的特定接地似然。形式上，這被建模為一個截?cái)嗟墓靼粽蹟嘞闰?yàn)（truncated stick-breaking prior），如果所選地圖的期望對數(shù)似然（公式 (13) 中標(biāo)記）低于預(yù)選閾值，則該先驗(yàn)會擴(kuò)展混合模型（Heins 等人，2025），這意味著當(dāng)前正在使用的接地似然中沒有一個能很好地解釋數(shù)據(jù)。

4.2.3 克隆結(jié)構(gòu)因果圖

克隆結(jié)構(gòu)因果圖（Clone-structured causal graphs, CSCG）（George 等人，2021）是隱馬爾可夫模型（HMM）的一個特例，其中觀察似然將觀察確定性地映射到大量稱為“克隆”的狀態(tài)；相反，狀態(tài)推斷完全由模型的動態(tài)驅(qū)動。克隆圖的優(yōu)勢在于，即使觀察可能是相同的，該模型也能將它們消歧為不同的狀態(tài)。這種方法已在具有混疊觀察的導(dǎo)航（George 等人，2021）和交替任務(wù)的層級模型（Van de Maele 等人，2024）中被證明是有效的；此外，CSCG 與海馬體中認(rèn)知地圖形成的神經(jīng)數(shù)據(jù)高度一致（Sun 等人，2025）。注意，具有單個克隆的克隆圖會簡化為標(biāo)準(zhǔn)的（動作增強(qiáng)的）HMM。

CSCG 使用 HMM 的期望最大化（EM）算法（Baum-Welch 算法）進(jìn)行學(xué)習(xí)，該算法最大化證據(jù)下界（ELBO）（George 等人，2021）。在 E 步中，通過平滑（即前向 - 后向算法）估計(jì)狀態(tài)上的后驗(yàn)。然后，M 步根據(jù)這個訪問狀態(tài)序列選擇轉(zhuǎn)移模型的最優(yōu)參數(shù)。訓(xùn)練后，使用 Viterbi 解碼對模型進(jìn)行剪枝。此處，對于每個時間步，選擇最大似然狀態(tài)，并使用這些最大似然狀態(tài)估計(jì)轉(zhuǎn)移模型參數(shù)。

我們還在第 2.4 節(jié)中實(shí)現(xiàn)了一種在線學(xué)習(xí) CSCG 的機(jī)制。與主動推理中的標(biāo)準(zhǔn)參數(shù)學(xué)習(xí)（其中隨著動作的執(zhí)行和觀察的到來，對狀態(tài)的信念被濾波）不同，克隆圖對狀態(tài)上的信念進(jìn)行平滑，并將消歧信息傳播回其他“克隆”狀態(tài)。這提供了對各個狀態(tài)的更好估計(jì)，然后可用于更新轉(zhuǎn)移參數(shù)上的狄利克雷分布。對于學(xué)習(xí)圖式（即第 2 層轉(zhuǎn)移），我們使用 10 個觀察的滑動窗口，并在每個觀察到來時更新參數(shù)。

我們在本研究的三個部分使用了 CSCG 框架。首先，我們使用它來學(xué)習(xí)環(huán)境中空間位置的認(rèn)知地圖。克隆結(jié)構(gòu)允許在高度模糊的觀察中（105 個不同位置中的 6 種瓷磚顏色）發(fā)現(xiàn)結(jié)構(gòu)。其次，我們在模擬 1 中使用它來開發(fā)沒有圖式的 HAI-i 智能體的第 2 層，以解決 ABCD 任務(wù)。在這種情況下，CSCG 初始化的克隆數(shù)量 i 等于要學(xué)習(xí)的塊的數(shù)量（20 或 40），以確保智能體有足夠的容量學(xué)習(xí)所有這些塊。最后，我們在模擬 2 中使用 CSCG 框架來開發(fā)解決 ABCB 任務(wù)的基于圖式的 S-HAI-2C 智能體的第 2 層。在這種情況下，CSCG 用 2 個克隆初始化。為了在離散時間主動推理中使用它們，我們需要按照 Van de Maele 等人（2023）中所述將 CSCG 映射到 POMDP。

https://github.com/toonvdm/grounding-schemas

原文鏈接：https://arxiv.org/pdf/2601.18946

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.