Schema-based active inference supports rapid generalization ofexperience and frontal cortical coding of abstract structure
圖式主動推理:經(jīng)驗(yàn)快速遷移與額葉抽象編碼
https://arxiv.org/pdf/2601.18946
https://github.com/toonvdm/grounding-schemas
![]()
摘要
圖式——捕捉經(jīng)驗(yàn)間共性的抽象關(guān)系結(jié)構(gòu)——被認(rèn)為是人類和動物能夠快速泛化知識、將新經(jīng)驗(yàn)重新綁定到現(xiàn)有結(jié)構(gòu)以及在不同情境下靈活適應(yīng)行為的基礎(chǔ)。盡管它們在認(rèn)知中處于核心地位,但支持圖式形成和使用的計(jì)算原理和神經(jīng)機(jī)制仍然難以捉摸。在此,我們介紹了基于圖式的層級主動推理(S-HAI),這是一個將預(yù)測處理和主動推理與基于圖式的機(jī)制相結(jié)合的新型計(jì)算框架。在 S-HAI 中,高層生成模型編碼抽象任務(wù)結(jié)構(gòu),而低層模型編碼空間導(dǎo)航,兩個層級通過一個將抽象目標(biāo)映射到物理位置的接地似然相連接。通過一系列模擬,我們表明 S-HAI 復(fù)現(xiàn)了空間導(dǎo)航任務(wù)中快速基于圖式泛化的關(guān)鍵行為特征,包括將抽象圖式靈活重映射到新情境的能力、解決目標(biāo)歧義以及平衡新穎映射的復(fù)用與順應(yīng)。關(guān)鍵的是,S-HAI 還復(fù)現(xiàn)了在依賴圖式的導(dǎo)航和決策任務(wù)期間嚙齒動物內(nèi)側(cè)前額葉皮層中報道的顯著神經(jīng)編碼,包括任務(wù)不變的目標(biāo)進(jìn)展細(xì)胞、目標(biāo)身份細(xì)胞和目標(biāo)與空間聯(lián)合細(xì)胞,以及低層的類位置編碼。綜上所述,這些結(jié)果提供了基于圖式的學(xué)習(xí)和推理的機(jī)制性解釋,連接了行為、神經(jīng)數(shù)據(jù)和理論。更廣泛地說,我們的發(fā)現(xiàn)表明,圖式形成和泛化可能源于跨皮層和海馬回路層級實(shí)施的預(yù)測處理原則,從而實(shí)現(xiàn)經(jīng)驗(yàn)的泛化。
關(guān)鍵詞:圖式;層級主動推理;預(yù)測處理;前額葉皮層;海馬
1 引言
人類和其他動物展現(xiàn)出非凡的能力,能夠憑借極少的新經(jīng)驗(yàn)將其知識快速泛化至新穎環(huán)境。這種能力仍是當(dāng)前人工系統(tǒng)和人工智能系統(tǒng)無法比擬的,后者通常需要大量針對特定問題的數(shù)據(jù)集。
在認(rèn)知科學(xué)中,長期以來人們假設(shè)一種特定的認(rèn)知結(jié)構(gòu)——圖式(schemas)——可能支持將現(xiàn)有知識與技能泛化至新情境。圖式通常被定義為關(guān)系性知識結(jié)構(gòu),用于捕捉多次經(jīng)驗(yàn)中抽象出的共性。它們使個體能夠在記憶中組織和解釋經(jīng)驗(yàn),并泛化至具有潛在結(jié)構(gòu)相似性但感官細(xì)節(jié)不同的新情境(Piaget, 1952; Bartlett, 1932)。關(guān)鍵洞見在于:圖式通過經(jīng)驗(yàn)形成,編碼所推斷的關(guān)系性任務(wù)結(jié)構(gòu),同時抽象掉低層(感官)細(xì)節(jié)。圖式不僅將經(jīng)驗(yàn)組織成豐富的關(guān)系集合,還作為模板,使新經(jīng)驗(yàn)得以快速同化。此類學(xué)習(xí)——或稱同化(assimilation)——僅需將新經(jīng)驗(yàn)的低層感官細(xì)節(jié)映射到現(xiàn)有圖式的抽象關(guān)系結(jié)構(gòu)上,從而實(shí)現(xiàn)知識在新情境中的快速(理想情況下為單次)復(fù)用與泛化。因此,其速度顯著快于經(jīng)典試錯或聯(lián)想學(xué)習(xí)理論所強(qiáng)調(diào)的漸進(jìn)式知識積累。此外,除了同化——將新信息納入現(xiàn)有圖式——還存在第二種過程,稱為順應(yīng)(accommodation),即當(dāng)新信息無法契合現(xiàn)有圖式時,創(chuàng)建新圖式或修改既有圖式。Piaget(1952) famously 指出,同化與順應(yīng)的雙重過程是學(xué)習(xí)與發(fā)展的基礎(chǔ)。
這些源于認(rèn)知科學(xué)的思想自人工智能早期便頗具影響力,激發(fā)了大量理論構(gòu)建與實(shí)現(xiàn)圖式(或相關(guān)結(jié)構(gòu),如框架或腳本)的努力,尤其在但不局限于符號人工智能傳統(tǒng)中(Minsky, 1986; Schank and Abelson, 2013; Hummel and Holyoak, 1997)。多年來,多種理論觀點(diǎn)認(rèn)為,將現(xiàn)有圖式與任務(wù)表征重映射至新任務(wù),是抽象、結(jié)構(gòu)推斷與類比推理的核心,這一機(jī)制見于多個認(rèn)知領(lǐng)域,從目標(biāo)導(dǎo)向?qū)Ш降揭?guī)則學(xué)習(xí)與敘事理解(Chollet, 2019; Mitchell, 2021; Hofstadter, 1999; Tenenbaum et al., 2011; Roy, 2005; Pezzulo, 2009; Niv, 2019; Schuck et al., 2016; Bein and Niv, 2025; B?hner et al., 2025; Collin et al., 2025; Goudar et al., 2023; Beukers et al., 2024; Yang et al., 2019; Sandbrink and Summerfield, 2024)。
然而,設(shè)計(jì)能夠有效學(xué)習(xí)圖式并將其泛化至新經(jīng)驗(yàn)的計(jì)算模型仍是一項(xiàng)重大挑戰(zhàn)。關(guān)鍵難點(diǎn)包括:識別用于形成圖式的底層關(guān)系結(jié)構(gòu)、以支持快速重綁定至新情境的形式對其進(jìn)行編碼,以及設(shè)計(jì) enabling 現(xiàn)有圖式與新問題之間快速映射的機(jī)制。盡管已有進(jìn)展,但關(guān)于基于圖式的學(xué)習(xí)與推理——尤其在復(fù)雜動態(tài)環(huán)境中——的全面計(jì)算解釋仍難以捉摸。盡管如此,神經(jīng)科學(xué)已開始為這些挑戰(zhàn)提供寶貴洞見。
在神經(jīng)科學(xué)領(lǐng)域,多項(xiàng)研究探討了圖式在嚙齒類與靈長類動物中的作用。這些研究揭示,三個相互連接的腦結(jié)構(gòu)——海馬、內(nèi)嗅皮層與前額葉皮層——可能在基于圖式的快速學(xué)習(xí)與系統(tǒng)鞏固中發(fā)揮關(guān)鍵作用(Farzanfar et al., 2023)。例如,Tse 等人(2007)表明,大鼠僅需單次學(xué)習(xí) episode 即可將新信息整合進(jìn)現(xiàn)有聯(lián)想圖式,并觀察到海馬活動的相應(yīng)變化。這支持了如下觀點(diǎn):當(dāng)新信息與先前獲得的關(guān)系結(jié)構(gòu)一致時,圖式可促進(jìn)快速學(xué)習(xí)。其他研究顯示,隨著圖式習(xí)得,海馬表征變得更為抽象與有組織,這體現(xiàn)在靜息與睡眠期間的海馬重放與再激活模式中(McKenzie et al., 2014)。除海馬之外,內(nèi)嗅皮層的網(wǎng)格細(xì)胞也被認(rèn)為參與認(rèn)知地圖形成與圖式學(xué)習(xí)(Neupane et al., 2024)。在空間導(dǎo)航過程中,網(wǎng)格細(xì)胞提供空間的周期性、低維表征,被認(rèn)為支持路徑積分與類地圖計(jì)算(Hafting et al., 2005)。近期研究提示,網(wǎng)格樣編碼可能超越物理空間,支持抽象認(rèn)知地圖,包括任務(wù)空間與關(guān)系結(jié)構(gòu)(Buzsáki and Moser, 2013; Bellmund et al., 2018; Viganò et al., 2023; Bottini and Doeller, 2020; Dong and Fiete, 2024)。這些研究表明,內(nèi)嗅皮層的網(wǎng)格細(xì)胞可能作為穩(wěn)定、可復(fù)用的坐標(biāo)系統(tǒng),將由海馬介導(dǎo)的任務(wù)特異性細(xì)節(jié)錨定于抽象關(guān)系支架之上,以組織圖式知識。
最后,多項(xiàng)研究指出,前額葉皮層——可能通過與海馬的交互——在形成認(rèn)知地圖與圖式聯(lián)想、將新信息整合入現(xiàn)有圖式,以及判斷啟用同化或順應(yīng)過程方面發(fā)揮關(guān)鍵作用(Gilboa and Marlatte, 2017; Zeithamova et al., 2012; Van Kesteren et al., 2012; Giuliano et al., 2021; Bonasia et al., 2018; Baldassano et al., 2018; Basu et al., 2021; Manakov et al., 2025; Schuck et al., 2016; Wang and Hayden, 2021; Vaidya and Badre, 2022; Tang et al., 2023)。El-Gaby 等人(2024)提供了一個尤為突出的圖式學(xué)習(xí)與泛化實(shí)例:他們證明嚙齒類動物內(nèi)側(cè)前額葉皮層參與學(xué)習(xí)序列任務(wù)(ABCD 任務(wù),要求按正確順序到達(dá)四個目標(biāo)位置)的抽象結(jié)構(gòu),并在目標(biāo)位置變化但序列保持不變的新環(huán)境中復(fù)用該結(jié)構(gòu)。基于圖式的快速學(xué)習(xí)的一個關(guān)鍵行為指標(biāo)是:大鼠在發(fā)現(xiàn)位置 D 后迅速移向位置 A。在神經(jīng)元層面,這種能力由多種細(xì)胞類型支持,這些細(xì)胞對抽象目標(biāo)、物理位置及其他任務(wù)相關(guān)信息的不同組合敏感。
這些及其他研究促成了一個趨同的計(jì)算視角,其核心洞見是:在圖式形成過程中,關(guān)系結(jié)構(gòu)獨(dú)立于感官細(xì)節(jié)被表征;關(guān)系結(jié)構(gòu)中的每個狀態(tài)隨后通過可快速學(xué)習(xí)的聯(lián)想鏈接綁定至特定經(jīng)驗(yàn)。這一觀點(diǎn)已在一系列聚焦海馬與內(nèi)嗅皮層的計(jì)算模型中提出(Whittington et al., 2020, 2018, 2025; Chandra et al., 2025)。在此視角下,內(nèi)嗅皮層的網(wǎng)格細(xì)胞系統(tǒng)提供關(guān)系支架,而個體經(jīng)驗(yàn)在海馬中編碼;內(nèi)嗅網(wǎng)格系統(tǒng)與海馬位置細(xì)胞及聯(lián)合細(xì)胞的交互,可能允許在結(jié)構(gòu)化表征空間內(nèi)快速編碼新經(jīng)驗(yàn),從而促進(jìn)同化與順應(yīng)過程。另一種基于克隆結(jié)構(gòu)因果圖(CSCG)的相關(guān)計(jì)算解釋已在海馬的圖式與重綁定研究中發(fā)展起來(George et al., 2021; Guntupalli et al., 2023; Swaminathan et al., 2023; Raju et al., 2024)。在此視角下,迷宮認(rèn)知地圖的潛在結(jié)構(gòu)可通過與特定觀測解耦而被抽象,并作為圖式復(fù)用以加速其他迷宮中的學(xué)習(xí)。相同機(jī)制也可用于學(xué)習(xí)算法的抽象結(jié)構(gòu)與語言的模板結(jié)構(gòu)(Swaminathan et al., 2023),其中推理時可塑性解決了在動態(tài)綁定潛在結(jié)構(gòu)至新輸入的同時召回適當(dāng)圖式的問題。近期建模工作將這些思想擴(kuò)展至前額葉皮層的神經(jīng)活動,但未探討圖式如何在空間導(dǎo)航過程中被學(xué)習(xí)與部署(El-Gaby et al., 2024)。
盡管具有價值,這些研究仍遺留若干重要問題未解,包括:抽象圖式如何在目標(biāo)導(dǎo)向?qū)Ш脚c規(guī)劃過程中形成并利用;它們?nèi)绾螖U(kuò)展至更具挑戰(zhàn)性的情境——其中需從頭創(chuàng)建多個圖式或現(xiàn)有圖式與新問題間的多種映射,以捕捉 Piaget(1952)所稱同化與順應(yīng)的動態(tài)過程;以及它們?nèi)绾闻c前額葉皮層的神經(jīng)處理相關(guān)聯(lián),如 ABCD 任務(wù)中所見(El-Gaby et al., 2024)。
盡管先前關(guān)于 CSCG 的工作已探討從部分可觀測感官輸入中學(xué)習(xí)空間作為潛在結(jié)構(gòu)的問題(Raju et al., 2024),且 CSCG 圖式(Guntupalli et al., 2023; Swaminathan et al., 2023)解決了利用圖式遷移已習(xí)得的空間或算法結(jié)構(gòu)的問題,但它們未解決在同一空間環(huán)境中遷移多個已習(xí)得任務(wù)結(jié)構(gòu)的問題。要在部分可觀測設(shè)定下實(shí)現(xiàn)這一點(diǎn),需學(xué)習(xí)新的任務(wù)結(jié)構(gòu)圖式,該圖式利用先前已習(xí)得的空間結(jié)構(gòu)的潛在狀態(tài)。
在本研究中,我們開發(fā)并驗(yàn)證了一種新型基于圖式的層級主動推理(S-HAI)模型,以應(yīng)對這些挑戰(zhàn)。下一節(jié)中,我們首先介紹實(shí)驗(yàn)任務(wù)(ABCD 與 ABCB,第 2.1 節(jié))及解決這些任務(wù)的基于圖式的層級主動推理(S-HAI)智能體(第 2.2 節(jié))。隨后,我們呈現(xiàn)四項(xiàng)模擬,評估 S-HAI 智能體是否展現(xiàn)出經(jīng)驗(yàn)報道的基于圖式的推理與學(xué)習(xí)的行為及神經(jīng)(前額葉)特征。第一項(xiàng)模擬表明,S-HAI 智能體中的基于圖式推理使其能在 El-Gaby 等人(2024)的 ABCD 任務(wù)中實(shí)現(xiàn)快速泛化(第 2.3 節(jié))。第二項(xiàng)模擬展示了基于圖式推理在更具挑戰(zhàn)性的 ABCB 任務(wù)中的有效性,該任務(wù)中兩個目標(biāo)可占據(jù)同一位置,類似于空間交替任務(wù)(Jadhav et al., 2012)(第 2.4 節(jié))。第三項(xiàng)模擬表明,S-HAI 智能體具備增量式在線學(xué)習(xí)能力,并能在關(guān)于如何將抽象圖式映射至當(dāng)前迷宮的多種假設(shè)間進(jìn)行選擇(第 2.5 節(jié))。最后,第四項(xiàng)模擬表明,S-HAI 智能體在學(xué)習(xí) ABCD 任務(wù)過程中涌現(xiàn)的神經(jīng)表征,展現(xiàn)了嚙齒類動物內(nèi)側(cè)前額葉皮層(mFC)中圖式處理的關(guān)鍵神經(jīng)特征(El-Gaby et al., 2024)。
2 結(jié)果
2.1 實(shí)驗(yàn)任務(wù):ABCD 和 ABCB 任務(wù)
我們采用來評估模型的主要實(shí)驗(yàn)任務(wù)是 El-Gaby 等人(2024)的 ABCD 任務(wù)。在此任務(wù)中,嚙齒動物(或人工智能體)通過在迷宮上按正確順序訪問四個目標(biāo)位置來獲取獎勵(圖 1b)。迷宮由排列成 3 × 3 網(wǎng)格的九個井(wells)組成,每個井由九個瓦片(tiles)組成,這些瓦片通過單瓦片走廊連接。智能體獲得獎勵后,新獎勵被放置在序列中下一個井的中心。四個目標(biāo)位置在不同塊(blocks)之間有所不同,每個塊包含多次試驗(yàn)。例如,在塊 1 中,四個目標(biāo)位于迷宮位置:“左上”、“上中”、“下中”和“中左”,而在塊 2 中,它們位于位置:“上中”、“左下”、“左上”和“右上”。關(guān)鍵在于,底層(ABCD)結(jié)構(gòu)在整個實(shí)驗(yàn)過程中保持不變:嚙齒動物必須始終按正確順序循環(huán)遍歷四個目標(biāo)位置(例如,A, B, C, D, A, ...)。可變感官細(xì)節(jié)與穩(wěn)定關(guān)系結(jié)構(gòu)之間的區(qū)別使得 ABCD 任務(wù)成為基于圖式推理的自然試驗(yàn)臺。
![]()
我們還解決了一個更具挑戰(zhàn)性的變體,即 ABCB 任務(wù),其中兩個目標(biāo)(B 目標(biāo))占據(jù)相同的空間位置(圖 1c)。此設(shè)置類似于嚙齒動物中常用的空間交替任務(wù)(Jadhav 等人,2012),并且比 ABCD 任務(wù)要求更高,因?yàn)樵?B 處,動物必須記住它們是從 A 還是從 C 到達(dá)的,以便正確選擇下一個目標(biāo),C 或 A。
2.2 基于圖式的層級主動推理(S-HAI)
我們使用一種新型基于圖式的層級主動推理(S-HAI)智能體來解決 ABCD 和 ABCB 任務(wù),該智能體包含兩個層級,實(shí)現(xiàn)為兩個相互連接的部分可觀測馬爾可夫決策過程(POMDPs)。圖 1a 提供了 S-HAI 及其三個組成部分的示意圖:處理空間導(dǎo)航的第 1 層;處理基于圖式推理的第 2 層;以及接地似然(grounding likelihood),它指定了編碼在圖式中的抽象目標(biāo)與迷宮中特定位置之間的概率映射。參見第 4 節(jié)了解 S-HAI 智能體的形式化規(guī)范。
在較低層級(第 1 層),S-HAI 智能體處理“導(dǎo)航空間”中的空間導(dǎo)航,即圖 1b 中描繪的網(wǎng)格世界。在此層級,智能體觀察其當(dāng)前訪問的瓦片顏色,并可以使用四種動作(“上”、“下”、“左”和“右”)導(dǎo)航網(wǎng)格。用于導(dǎo)航的轉(zhuǎn)移模型參數(shù)是通過離線訓(xùn)練獲得的,模擬了在相應(yīng)的嚙齒動物研究中,動物在圖式學(xué)習(xí)之前已經(jīng)了解環(huán)境的事實(shí)(參見第 4 節(jié))。預(yù)覽我們的模擬結(jié)果,我們發(fā)現(xiàn)訓(xùn)練后,模型正確恢復(fù)了 105 個位置之間的轉(zhuǎn)移動態(tài)(圖 1d,圖 1a 中的插圖“第 1 層”)。
在較高層級(第 2 層),智能體在“任務(wù)空間”中執(zhí)行基于圖式的學(xué)習(xí)和推理。ABCD 任務(wù)中的基于圖式學(xué)習(xí)等同于學(xué)習(xí)目標(biāo)之間的抽象轉(zhuǎn)移模型,代表通過依次訪問四個抽象目標(biāo) A、B、C 和 D,然后再次 A ,來獲得獎勵的事實(shí)。基于圖式的推理等同于基于第 1 層潛在狀態(tài)的觀察以及獎勵的有無來推斷智能體在任務(wù)空間中的當(dāng)前位置(例如,當(dāng)前目標(biāo)是否已實(shí)現(xiàn)),然后——如果當(dāng)前目標(biāo)已實(shí)現(xiàn)——為第 1 層選擇下一個導(dǎo)航目標(biāo)。第 1 層目標(biāo)被指定為對未來狀態(tài)的意圖,這觸發(fā)模型將每個狀態(tài)與歸納成本(inductive cost)相關(guān)聯(lián)(Friston 等人,2023)。根據(jù)潛在動態(tài),該成本與相對于預(yù)期目標(biāo)狀態(tài)的距離成正比(參見第 4 節(jié)公式 (5))。在我們的模擬中,我們實(shí)現(xiàn)在線和離線圖式學(xué)習(xí)。預(yù)覽我們的結(jié)果,我們發(fā)現(xiàn)在兩種情況下,S-HAI 智能體都正確學(xué)習(xí)了一個獨(dú)特的可泛化圖式,捕捉四個目標(biāo)之間的循環(huán)轉(zhuǎn)移,適用于塊 1 和塊 2(圖 1e,圖 1a 中的插圖“第 2 層”)。相比之下,未經(jīng)圖式學(xué)習(xí)的替代智能體(HAI)捕獲了兩個塊的不同轉(zhuǎn)移(圖 1f)。最后,我們發(fā)現(xiàn)增強(qiáng)了區(qū)分具有相同位置目標(biāo)能力的 S-HAI 智能體(S-HAI-2C)正確推斷了 ABCB 任務(wù)的可泛化圖式(圖 1f)。
關(guān)鍵在于,S-HAI 智能體還包括一個接地似然:任務(wù)空間中代表目標(biāo)之間轉(zhuǎn)移的抽象圖式(即 A、B、C 和 D)與導(dǎo)航空間中目標(biāo)的具體位置(即迷宮中可以找到獎勵的位置)之間的概率映射。學(xué)習(xí)接地似然是實(shí)現(xiàn)基于圖式泛化的關(guān)鍵:它使智能體能夠?qū)⑵?strong>抽象圖式(例如 ABCD)快速映射到每個新穎的目標(biāo)空間配置(即每個塊),而不是在每次試驗(yàn)中從頭重新學(xué)習(xí)正確的動作和目標(biāo)序列。在我們的模擬中,我們實(shí)現(xiàn)了接地似然的在線學(xué)習(xí),以及第 2 層圖式的在線和離線變體。此外,我們引入了一個接地似然的混合模型,允許 S-HAI 智能體靈活推斷其現(xiàn)有接地似然中哪一個在當(dāng)前迷宮中最有用,或在需要時創(chuàng)建一個新的。預(yù)覽我們的結(jié)果,我們發(fā)現(xiàn)在所有情況下(在線或離線,有或無混合),接地似然允許 S-HAI 智能體優(yōu)于在相同甚至更大數(shù)據(jù)集上訓(xùn)練但沒有圖式學(xué)習(xí)的替代模型。學(xué)習(xí)接地似然類似于學(xué)習(xí)圖式的發(fā)射矩陣,如(Guntupalli 等人,2023)和(Swaminathan 等人,2023)中所述。
2.3 ABCD 任務(wù):基于圖式的層級主動推理允許快速泛化到具有相同抽象結(jié)構(gòu)的新問題
在此模擬中,我們測試圖式學(xué)習(xí)是否使 S-HAI 智能體能夠?qū)?ABCD 任務(wù)泛化到具有相同序列結(jié)構(gòu)但特定目標(biāo)位置不同的試驗(yàn)塊。遵循 El-Gaby 等人(2024)的實(shí)驗(yàn)設(shè)置,每個塊運(yùn)行直到智能體在環(huán)境中完成 10,000 步。包含四次連續(xù)獎勵的試驗(yàn)平均可在 32 ± 7.15 步(μ ± σ)內(nèi)完成,這是跨越 40 個塊計(jì)算得出的。
我們比較了 S-HAI 智能體的兩種變體——一種離線學(xué)習(xí)圖式(S-HAI K),一種在線學(xué)習(xí)圖式(S-HAI L)——以及一個沒有圖式的標(biāo)準(zhǔn)層級主動推理(HAI)智能體和一個隨機(jī)選擇目標(biāo)的基線智能體(Random)。為了保持一致性,在此及后續(xù)模擬中,所有智能體共享相同的層級架構(gòu)。此外,負(fù)責(zé)空間導(dǎo)航的第 1 層模型(圖 1d)是離線學(xué)習(xí)的,且在所有智能體中相同。智能體之間的唯一差異出現(xiàn)在第 2 層。
在離線基于圖式的智能體(S-HAI K)中,第 2 層圖式使用僅從第一個塊收集的通過隨機(jī)游走生成的數(shù)據(jù)(50,000 步)進(jìn)行離線訓(xùn)練("K"表示圖式是已知的)。圖 1e 可視化了第 2 層學(xué)習(xí)到的圖式,它代表了四個目標(biāo) A、B、C 和 D 之間的循環(huán)。接地似然在每個塊開始時隨機(jī)初始化,并在任務(wù)期間在線學(xué)習(xí)。相比之下,在在線基于圖式的智能體(S-HAI L)中,第 2 層圖式和接地似然都在線訓(xùn)練("L"表示圖式是在線學(xué)習(xí)的)。參數(shù)隨機(jī)初始化并使用共軛更新進(jìn)行更新,接地似然在每個塊后重置。
在沒有圖式的層級主動推理(HAI)智能體中,第 2 層使用克隆結(jié)構(gòu)圖(CSCG)(George 等人,2021)實(shí)現(xiàn),接地似然是單位矩陣。智能體表示為 HAI-i,索引 i 表示智能體接受訓(xùn)練的任務(wù)數(shù)量;訓(xùn)練在第一個 i 任務(wù)的序列上離線進(jìn)行,每個任務(wù) 10,000 交互步。參見圖 1f 了解 HAI-2 智能體(在兩個塊上訓(xùn)練)在第 2 層學(xué)習(xí)到的目標(biāo)之間的轉(zhuǎn)移動態(tài)。注意,與學(xué)習(xí)獨(dú)特序列圖式的 S-HAI 智能體不同,HAI-2 智能體為每個塊學(xué)習(xí)獨(dú)特的子循環(huán)。當(dāng) HAI-i 智能體在更多塊上訓(xùn)練時,它傾向于學(xué)習(xí)多個特定于塊的子循環(huán)(此處未顯示,但類似于(Van de Maele 等人,2024)中報告的內(nèi)容)。
最后,在基線(隨機(jī))層級主動推理模型中,第 2 層隨機(jī)選擇一個子目標(biāo)供智能體導(dǎo)航。參見第 4 節(jié)了解本模擬中使用的智能體的形式化解釋。
圖 2a 顯示了 ABCD 任務(wù)的模擬結(jié)果,報告了跨越 40 個塊的平均獎勵率(在 250 步上平滑),相對于最優(yōu)性能歸一化。實(shí)線表示跨塊的平均值,陰影區(qū)域表示標(biāo)準(zhǔn)誤。每個塊在智能體達(dá)到 10,000 次與環(huán)境交互時結(jié)束。正如預(yù)期,沒有圖式的 HAI 智能體(在一半(20)或所有(40)塊上離線訓(xùn)練;HAI-20 和 HAI-40)優(yōu)于隨機(jī)基線,性能隨著訓(xùn)練塊數(shù)量的增加而提高。然而,在一半塊上訓(xùn)練的 HAI-20 智能體顯示出對訓(xùn)練集之外的新塊的泛化能力有限。
![]()
相比之下,基于圖式的 S-HAI 智能體穩(wěn)健地泛化到未見過的任務(wù)。離線智能體(S-HAI K)迅速收斂到接近最優(yōu)的獎勵水平,表明從單個訓(xùn)練塊學(xué)習(xí)的圖式可以泛化到 39 個新塊。在線智能體(S-HAI L)也達(dá)到了接近最優(yōu)的性能,表明可泛化的圖式可以有效地在線學(xué)習(xí),無需先前的離線訓(xùn)練。此外,兩個 S-HAI 智能體每次試驗(yàn)所需的步數(shù)更少(圖 2c),并且比 HAI-20 智能體和隨機(jī)基線積累了更多獎勵(圖 2d)。此外,S-HAI 智能體比訓(xùn)練更廣泛的 HAI-40 智能體更快達(dá)到最大歸一化獎勵(圖 2a)。為了確保觀察到的行為不反映較低層的不完美學(xué)習(xí),我們還在簡化環(huán)境中復(fù)制了我們的結(jié)果(3 × 3 網(wǎng)格,具有獨(dú)特觀察;見附錄 A.3)。
基于圖式泛化的一個關(guān)鍵驅(qū)動因素是,S-HAI K 和 S-HAI L 都在每個塊中在線學(xué)習(xí)新的接地似然,將抽象圖式觀察(o2t)映射到具體空間狀態(tài)(s1t)。圖 2b 顯示了兩個接地似然的示例,為了清晰起見,僅顯示了對應(yīng)于獎勵位置的高級狀態(tài)(完整的接地似然包括 210 個高級狀態(tài):105 個位置與獎勵存在狀態(tài)的組合)。圖式和接地似然在塊內(nèi)被快速獲取,如 S-HAI L 性能隨經(jīng)驗(yàn)快速改進(jìn)所示,反映在到子目標(biāo)的相對距離減少上(圖 2e)。
綜上所述,我們發(fā)現(xiàn)基于圖式的 S-HAI 智能體通過在物理位置快速接地抽象的、圖式編碼的目標(biāo),成功解決了諸如 ABCD 之類的結(jié)構(gòu)化任務(wù),這些物理位置跨塊變化。值得注意的是,這些基于圖式的智能體比僅在一半塊上訓(xùn)練的 HAI-20 智能體表現(xiàn)效率高得多,并且比 HAI-40 智能體更快達(dá)到最大獎勵,盡管后者在所有塊配置上進(jìn)行了廣泛的離線訓(xùn)練。
2.4 ABCB 任務(wù):增強(qiáng)克隆圖的基于圖式層級主動推理可解決目標(biāo)混疊問題
在此模擬中,我們考慮 ABCD 任務(wù)的一個更具挑戰(zhàn)性的變體,其中包含目標(biāo)之間的交替模式(Jadhav 等人,2012)。在此,第二個和第四個目標(biāo)(均表示為 B)占據(jù)相同的空間位置;這就是該任務(wù)被稱為 ABCB 的原因。
使此任務(wù)更困難的是它需要空間記憶:當(dāng)智能體在位置 B 觀察到獎勵時,它必須決定是移向 C 目標(biāo)還是 A 目標(biāo)。標(biāo)準(zhǔn)類 HMM 架構(gòu)(如第一次模擬中 HAI 智能體所使用的)難以應(yīng)對此任務(wù),因?yàn)樗鼈兓煜?B 目標(biāo)的兩個實(shí)例。為解決這一限制,我們賦予 HAI 智能體的第 2 層一個更具表達(dá)力的克隆結(jié)構(gòu)認(rèn)知圖(CSCG)機(jī)制(George 等人,2021),該機(jī)制通過允許每個狀態(tài)有多個克隆來擴(kuò)展 HMM。我們將結(jié)果智能體稱為 S-HAI-2C K。此處,"2C K"表示第 2 層是一個具有兩個克隆的 CSCG,使用來自第一個塊的隨機(jī)游走(10,000 步)離線訓(xùn)練,我們發(fā)現(xiàn)這足以學(xué)習(xí) ABCB 圖式(圖 1g)。此外,我們包含一個在線學(xué)習(xí)克隆結(jié)構(gòu)第 1 層參數(shù)的變體,稱為 S-HAI-2C L。
與第一次模擬一樣,接地似然在每個任務(wù)開始時隨機(jī)初始化,并在任務(wù)期間在線學(xué)習(xí)。參見第 4 節(jié)了解 S-HAI-2C K 智能體的形式化規(guī)范。
圖 2f 顯示了 ABCB 任務(wù) 40 個塊中隨時間獲得的平均獎勵。結(jié)果顯示,帶有克隆的基于圖式智能體(S-HAI-2C K, S-HAI-2C L)達(dá)到了接近最優(yōu)的性能,優(yōu)于沒有克隆的兩個智能體(S-HAI K, S-HAI L),后者在 B 目標(biāo)的歧義上表現(xiàn)掙扎。
同樣值得注意的是,對于 ABCB 任務(wù),在最初的塊中,每次試驗(yàn)的相對距離(圖 2j)比后期試驗(yàn)下降得更慢,表明在后期階段,智能體已經(jīng)學(xué)習(xí)了圖式中的抽象任務(wù)結(jié)構(gòu),只需推斷接地似然。
圖 2g 顯示了 S-HAI-2C K 智能體學(xué)習(xí)的兩個塊的接地似然。在第 2 層,接地似然 P (s1t |o2t ) 與觀察似然 P (o2t |s1t ) 相結(jié)合。與圖 2b 不同,兩個不同的任務(wù)狀態(tài)(對應(yīng)于目標(biāo) B 的第一次和第二次出現(xiàn))映射到相同的空間位置(塊 1 中的位置 2 和塊 2 中的位置 7)。最后,如圖 2h 和 2f 所示,S-HAI-2C K 智能體每次試驗(yàn)所需的步數(shù)更少,并比其非克隆對應(yīng)物獲得更高的獎勵。
綜上所述,這些發(fā)現(xiàn)表明,用基于克隆的機(jī)制(George 等人,2021)增強(qiáng) S-HAI 模型,使其能夠?qū)W習(xí)在具有混疊目標(biāo)的任務(wù)中有效泛化的圖式。
2.5 帶有混合模型的基于圖式推理支持接地似然的增量學(xué)習(xí)與復(fù)用
在之前的模擬中,我們考察了智能體如何使用單個接地似然將空間狀態(tài)重新映射到任務(wù)狀態(tài),該似然在每個塊重新訓(xùn)練。然而,在現(xiàn)實(shí)場景中,動物(和人工智能體)可能需要自主識別問題塊何時發(fā)生變化(Behrens 等人,2007; Friston 等人,2016b; Proietti 等人,2025)。此外,它們可能多次遇到相同的塊,在這種情況下從頭重新學(xué)習(xí)將是低效的。
為解決這一挑戰(zhàn),我們實(shí)現(xiàn)了 S-HAI 智能體的非參數(shù)擴(kuò)展,稱為 S-HAI MoGL 智能體,它維護(hù)接地似然的混合,該混合使用截?cái)嗟依死走^程隨時間擴(kuò)展(第 4 節(jié))。S-HAI MoGL 智能體維護(hù)對混合的信念,該信念在每個塊開始時重置為均勻先驗(yàn),并為每次試驗(yàn)選擇最可能的接地似然。這種非參數(shù)方法允許智能體在遇到新問題時靈活創(chuàng)建新的接地似然,同時在遇到以前見過的問題時復(fù)用現(xiàn)有的接地似然。與之前的模擬一樣,非參數(shù)智能體實(shí)現(xiàn)在線學(xué)習(xí)(S-HAI L MoGL)和離線學(xué)習(xí)(S-HAI K MoGL)。參見第 4 節(jié)了解 S-HAI MoGL 智能體的形式化解釋。
為了測試接地似然的混合,我們在第一次模擬中使用的 ABCD 任務(wù)中測試了 S-HAI L MoGL 和 S-HAI K MoGL 智能體,其中智能體面對 40 個不同的問題塊。我們的結(jié)果顯示,在完成第一個塊后,S-HAI MoGL 智能體學(xué)習(xí)單個接地似然,顯示在圖 3a 左側(cè)。隨著智能體遇到新塊,混合模型擴(kuò)展,導(dǎo)致針對不同塊產(chǎn)生多個不同的接地似然;例如,圖 3a 右側(cè)顯示了五個塊后學(xué)習(xí)到的混合組件。
![]()
圖 3b 比較了 ABCD 任務(wù)中帶有(S-HAI MoGL K 和 S-HAI MoGL L)和不帶有(S-HAI K 和 S-HAI L)接地似然混合的基于圖式智能體的性能。沒有混合的 S-HAI K 和 S-HAI L 智能體的結(jié)果與圖 2a 所示相同。我們的結(jié)果顯示,引入接地似然的混合影響了 S-HAI MoGL 智能體學(xué)習(xí)每個任務(wù)的速度。最初,S-HAI MoGL 智能體——必須推斷哪個接地似然適用于當(dāng)前問題,并在某些情況下創(chuàng)建一個新的——比在每個新塊重新訓(xùn)練單個似然的基于圖式智能體學(xué)習(xí)得更慢。然而,這種較慢的起步隨時間得到補(bǔ)償:隨著 S-HAI MoGL 智能體在塊內(nèi)積累關(guān)于接地似然的知識,它可以跨問題復(fù)用該知識,最終達(dá)到無混合智能體的性能。
最后,為了進(jìn)一步考察接地似然混合的好處,我們考慮了 ABCD 任務(wù)的一個變體,其中智能體可以多次遇到相同的塊。在此變體中,組成實(shí)驗(yàn)的 40 個塊僅是之前模擬中使用的最初 20 個塊的隨機(jī)樣本,因此某些塊可能重復(fù)兩次或更多。圖 3c 顯示了結(jié)果。帶有接地似然混合的基于圖式智能體(S-HAI MoGL)和帶有單個接地似然的智能體(S-HAI)最終都達(dá)到了相同的最優(yōu)性能。然而,配備混合模型的智能體學(xué)習(xí)得更快,因?yàn)樗梢粤⒓磳⑾惹矮@得的組件應(yīng)用于它已經(jīng)遇到的任務(wù)。此模擬表明,在圖式與其可應(yīng)用的問題之間維護(hù)多個顯式映射,在可以復(fù)用先前知識的任務(wù)中提供了明顯優(yōu)勢。
圖 3d 提供了更詳細(xì)的視圖,展示 S-HAI MoGL 智能體如何在具有重復(fù)環(huán)境的 ABCD 任務(wù)期間積累和組織接地似然的混合。該面板顯示了智能體隨時間對所選混合組件(即接地似然)的信念。在大多數(shù)情況下,智能體為每個塊分配唯一的接地似然,反映了對塊的成功區(qū)分。底部面板顯示了混合模型下觀察的期望對數(shù)似然(公式 (13) 中的第一個因子)。當(dāng)此量低于閾值(顯示為虛線紅線)時,新的接地似然被添加到混合中。這通常發(fā)生在新塊的開始,當(dāng)觀察令人驚訝且與先前期望不一致時——這與經(jīng)驗(yàn)發(fā)現(xiàn)一致,即片段(episode)之間的邊界通常對應(yīng)于高驚喜時刻(Zacks, 2020)。當(dāng)遇到智能體先前觀察過的塊時,這種情況不會發(fā)生。在沒有重復(fù)環(huán)境的 ABCD 任務(wù)中,智能體一致地為每個遇到的塊創(chuàng)建新的混合組件(見補(bǔ)充材料)。
2.6 基于圖式的層級主動推理復(fù)現(xiàn)了嚙齒動物內(nèi)側(cè)前額葉皮層中的“目標(biāo)進(jìn)展細(xì)胞”及其他圖式關(guān)鍵特征
在此模擬中,我們旨在評估基于圖式的(S-HAI)智能體在圖式學(xué)習(xí)期間涌現(xiàn)了何種內(nèi)部表征,以及它們?nèi)绾闻c執(zhí)行 ABCD 任務(wù)的嚙齒動物內(nèi)側(cè)前額葉皮層(mPFC)中報道的神經(jīng)編碼相關(guān)聯(lián)(El-Gaby 等人,2024)。根據(jù)貝葉斯腦假說,神經(jīng)元不僅僅是對刺激做出反應(yīng)而放電;相反,它們的激活編碼了關(guān)于環(huán)境中相關(guān)數(shù)量的概率信念(Doya, 2007; Parr 等人,2022)。為了模擬神經(jīng)活動,我們將神經(jīng)元解釋為代表關(guān)于特定狀態(tài)、目標(biāo)或轉(zhuǎn)移的信念。我們將模擬聚焦于圖 4a 中描繪的四個 ABCD 問題。這使我們能夠觀察哪些神經(jīng)信念隨著智能體執(zhí)行問題而演變,哪些保持不變或跨問題實(shí)例變化,以及它們?nèi)绾斡成涞絿X動物 mPFC 中報道的神經(jīng)激活。
![]()
ABCD 研究(El-Gaby 等人,2024)的一個關(guān)鍵發(fā)現(xiàn)是,嚙齒動物 mPFC 編碼了大量細(xì)胞群,這些細(xì)胞 tuned 于目標(biāo)相關(guān)、空間及其他類型任務(wù)相關(guān)信息的各種組合。其中,最頻繁的是“目標(biāo)進(jìn)展細(xì)胞”,即主要 tuned 于朝向抽象目標(biāo)的進(jìn)展(例如,早期、中期和晚期階段)的細(xì)胞,獨(dú)立于目標(biāo)身份或物理距離。這由以下事實(shí)證明:這些細(xì)胞的放電發(fā)生在接近任何目標(biāo)時,并根據(jù)目標(biāo)位置的空間分布而拉伸或收縮;參見(El-Gaby 等人,2024)中的圖 2c。
在我們的模型中,當(dāng)考慮智能體在其當(dāng)前位置期望下的歸納成本信念時,追蹤朝向目標(biāo)進(jìn)展的神經(jīng)激活自然涌現(xiàn)。在規(guī)劃期間,與每個狀態(tài)相關(guān)的歸納成本反映了該狀態(tài)距離偏好狀態(tài)有多遠(yuǎn)(詳見方法)。圖 4b 顯示了我們模型中的模擬神經(jīng)活動,其中期望歸納成本在連續(xù)步驟上歸一化,揭示該值隨著智能體接近目標(biāo)而增加。值得注意的是,無論目標(biāo)是哪個,智能體的目標(biāo)期望在接近下一個目標(biāo)時一致攀升。例如,在序列開始時,其期望歸納成本最初很高(早期進(jìn)展,紫色節(jié)點(diǎn)),然后隨著其移向目標(biāo) C 而增加,經(jīng)過中期期望(綠色節(jié)點(diǎn)),然后達(dá)到高期望(黃色節(jié)點(diǎn))。這種模式對應(yīng)于不同“目標(biāo)進(jìn)展細(xì)胞”群體的參與,這些群體 tuned 于朝向任何目標(biāo)的進(jìn)展的早期、中期或晚期階段。
圖 4c 進(jìn)一步說明了模擬的“目標(biāo)進(jìn)展細(xì)胞”群體,其中它們的激活繪制在塊 1 期間的迷宮布局之上。智能體的軌跡顯示為彩色點(diǎn)(添加少量噪聲以避免點(diǎn)重疊)。在第三個面板中,可以觀察到 C 和 D 之間的兩條不同軌跡。點(diǎn)像以前一樣顏色編碼,表明沿著每條軌跡(例如,第一個面板中從 A 到 B),不同的“目標(biāo)進(jìn)展細(xì)胞”群體依次激活:首先是 tuned 于中期目標(biāo)期望的細(xì)胞(綠色),然后是 tuned 于高目標(biāo)期望的細(xì)胞(黃色),最后是在目標(biāo)位置收集獎勵后 tuned 于低目標(biāo)期望的細(xì)胞(紫色)。重要的是,這種攀升模式跨不同軌跡一致涌現(xiàn),獨(dú)立于特定目標(biāo)目的地,而這些細(xì)胞的放電野根據(jù)目標(biāo)之間的物理距離靈活地拉伸或收縮。
(El-Gaby 等人,2024)報道的第二類顯著細(xì)胞編碼對特定抽象目標(biāo)(A、B、C 或 D)的追求,獨(dú)立于其在迷宮中的物理位置(參見(El-Gaby 等人,2024)中的圖 2d)。在我們的模型中,具有此屬性的神經(jīng)激活在考慮智能體第 2 層關(guān)于當(dāng)前任務(wù)階段(即,移向 A、B、C 或 D)的(先驗(yàn))信念時自然涌現(xiàn),這反映了智能體關(guān)于下一個獎勵將在何處獲得的期望。圖 4d 通過繪制四個塊期間智能體的軌跡說明了這一點(diǎn),顏色指示當(dāng)前關(guān)于任務(wù)階段的信念。對應(yīng)于每個階段的激活(例如,從 A 移向 B 時為藍(lán)色,從 B 移向 C 時為橙色,從 C 移向 D 時為綠色,從 D 移向 A 時為紫色)沿軌跡保持恒定,直到達(dá)到目標(biāo),無論采取何種路徑。關(guān)鍵在于,即使目標(biāo)占據(jù)不同的空間位置,這種編碼模式也跨塊泛化,從而證明了目標(biāo)選擇性但空間不變的表征——鏡像了實(shí)證發(fā)現(xiàn)。
(El-Gaby 等人,2024)識別的第三類顯著細(xì)胞編碼關(guān)于特定抽象目標(biāo)(A、B、C 或 D)及其在迷宮中空間位置的聯(lián)合信息。在我們的模型中,這種目標(biāo)和位置調(diào)諧的激活在接地似然內(nèi)自然涌現(xiàn)。這在圖 4e 中說明,其中每組彩色點(diǎn)對應(yīng)于接地似然的一個條目,該條目將給定空間位置映射到任務(wù)狀態(tài)。這種機(jī)制產(chǎn)生獨(dú)特的激活模式:僅當(dāng)空間位置和任務(wù)狀態(tài)都重合時,激活才相同(或高度相似),否則它們不同。例如,任務(wù) 1 和 4 中位置 A 的激活模式是相同的,而任務(wù) 1 和 2 中位置 A 的模式是不同的——鏡像了實(shí)證發(fā)現(xiàn)。
最后,除了支持第 2 層任務(wù)空間導(dǎo)航的神經(jīng)編碼——可能與前額葉皮層機(jī)制相關(guān)——我們的模型還解釋了支持第 1 層物理空間導(dǎo)航的神經(jīng)編碼,可能與海馬結(jié)構(gòu)中的空間映射和導(dǎo)航相關(guān)(Nyberg 等人,2022)。圖 4f 顯示了第 1 層空間激活,其編碼智能體在環(huán)境中的位置。無論任務(wù)實(shí)例如何,每個空間位置對應(yīng)一個獨(dú)特的激活模式。例如,右下角位置一致激活相同的神經(jīng)元,類似于海馬位置細(xì)胞(O'Keefe 和 Dostrovsky, 1971)。這表明第 1 層神經(jīng)元提供了獨(dú)立于當(dāng)前任務(wù)的穩(wěn)定空間表征,使模型能夠保持一致的位置信息,而第 2 層表征捕捉任務(wù)特定和導(dǎo)向目標(biāo)的信息。
3 討論
心理學(xué)、神經(jīng)科學(xué)和人工智能中傳統(tǒng)的 learning 觀點(diǎn)強(qiáng)調(diào)經(jīng)驗(yàn)的漸進(jìn)積累。與經(jīng)典學(xué)習(xí)理論并存的是,長期以來人們假設(shè)人類和其他動物能夠形成圖式——即編碼事件間結(jié)構(gòu)關(guān)系同時抽象掉感官細(xì)節(jié)的數(shù)據(jù)結(jié)構(gòu)——并通過快速將新經(jīng)驗(yàn)重新綁定到現(xiàn)有圖式來快速復(fù)用它們,從而將知識泛化到新情境(Piaget, 1952; Bartlett, 1932)。越來越多的文獻(xiàn)(最近在 Farzanfar 等人,2023 中綜述)支持這一觀點(diǎn):高級認(rèn)知能力,如快速泛化和跨情境的知識抽象,依賴于基于圖式的機(jī)制,可能涉及海馬、內(nèi)嗅皮層和前額葉皮層。
本研究介紹了一種新穎的計(jì)算方法——基于圖式的層級主動推理(S-HAI)——解決了從經(jīng)驗(yàn)形成圖式及其快速泛化到新情境的問題。該模型建立在層級預(yù)測處理和主動推理理論之上(Parr 等人,2022; Van de Maele 等人,2024; Pezzulo 等人,2018; Butz 等人,2025; Pezzulo 等人,2018; Smith 等人,2022; Lanillos 等人,2021; Matsumoto 和 Tani, 2020; Friston 等人,2021; Taniguchi 等人,2022; Isomura 和 Friston, 2018),并用基于圖式的機(jī)制擴(kuò)展了它們。S-HAI 是層級組織的:高層(第 2 層)負(fù)責(zé)抽象任務(wù)空間中的圖式學(xué)習(xí)和導(dǎo)航,而低層(第 1 層)編碼空間信息并支持物理空間中的導(dǎo)航。關(guān)鍵在于,兩個層級通過我們模型獨(dú)特的機(jī)制連接,即接地似然,它將圖式中的抽象目標(biāo)代碼映射到物理位置。此映射的快速學(xué)習(xí)使智能體能夠靈活地將同一圖式泛化到新穎的目標(biāo)配置。
通過一系列模擬,我們驗(yàn)證了基于圖式的 S-HAI 智能體復(fù)現(xiàn)需要快速泛化任務(wù)中的行為發(fā)現(xiàn)的能力,以及執(zhí)行此類任務(wù)的嚙齒動物內(nèi)側(cè)前額葉皮層中報道的神經(jīng)發(fā)現(xiàn)。我們的結(jié)果顯示,在學(xué)習(xí)了一類具有相同結(jié)構(gòu)的導(dǎo)航問題的圖式后——即需要循環(huán)訪問四個目標(biāo)位置以獲得獎勵的問題,如 ABCD 任務(wù)(El-Gaby 等人,2024)——S-HAI 智能體表現(xiàn)出對新穎問題的快速在線泛化,其中關(guān)系結(jié)構(gòu)保持不變但四個目標(biāo)的空間位置發(fā)生變化。值得注意的是,基于圖式的智能體優(yōu)于在所有問題上離線訓(xùn)練的智能體,展示了基于圖式的學(xué)習(xí)在新情境中的優(yōu)勢。我們的模擬還表明,相同方法可以泛化到更具挑戰(zhàn)性的任務(wù),其中多個目標(biāo)可以共享同一位置(ABCB 任務(wù)),類似于空間交替任務(wù)(Jadhav 等人,2012),并且 S-HAI 智能體可以在線學(xué)習(xí)并在抽象圖式與具體問題之間的似然映射混合中進(jìn)行選擇,展示了決定何時復(fù)用現(xiàn)有映射或創(chuàng)建新映射的能力——捕捉了至少由(Piaget, 1952)構(gòu)想的同化(將新經(jīng)驗(yàn)納入現(xiàn)有關(guān)系結(jié)構(gòu))和順應(yīng)(新關(guān)系結(jié)構(gòu))過程的基本特征。最后且重要的是,S-HAI 模型復(fù)現(xiàn)了在執(zhí)行 ABCD 任務(wù)的嚙齒動物內(nèi)側(cè)前額葉皮層中識別出的圖式關(guān)鍵神經(jīng)特征(El-Gaby 等人,2024),最顯著地捕捉了目標(biāo)進(jìn)展細(xì)胞的活動,同時也反映了其他對目標(biāo)、空間和任務(wù)相關(guān)信息組合敏感的細(xì)胞的異質(zhì)編碼。
綜上所述,這些結(jié)果確立了 S-HAI 作為一個全面的計(jì)算框架,證明了基于圖式的學(xué)習(xí)和推理的有效性,捕捉了快速泛化、靈活問題解決以及新經(jīng)驗(yàn)同化和順應(yīng)的行為和神經(jīng)特征。重要的是,S-HAI 提供了關(guān)于抽象關(guān)系知識如何被表征、映射到特定情境并增量更新的機(jī)制性解釋,基于預(yù)測處理和層級主動推理的原則(Parr 等人,2022)。這表明,在建模感知、行動和決策方面成功的相同預(yù)測處理原則,也可能 underlying 大腦中的圖式形成、關(guān)系知識的靈活復(fù)用和泛化。
通過提供基于圖式的學(xué)習(xí)和推理的機(jī)制模型,我們的框架也產(chǎn)生了可以在未來實(shí)驗(yàn)中測試的新穎實(shí)證預(yù)測。其中一個預(yù)測涉及在執(zhí)行 ABCB 任務(wù)的動物中可能觀察到的行為和神經(jīng)表征(圖 2f)。我們的模擬表明,正確解決此任務(wù)需要一種機(jī)制(基于克隆或類似機(jī)制),能夠區(qū)分同一目標(biāo)的不同實(shí)例(例如,目標(biāo) B)。這反過來應(yīng)該產(chǎn)生特定的行為模式和第 2 層神經(jīng)表征,包括當(dāng)同一目標(biāo)被遇到兩次時的單獨(dú)表征(參見圖 1g)。另一個關(guān)鍵預(yù)測涉及在 ABCD 任務(wù)期間嚙齒動物內(nèi)側(cè)前額葉皮層中報道的神經(jīng)活動模式的功能角色(El-Gaby 等人,2024)。我們的模型將不同的神經(jīng)元群體——tuned 于目標(biāo)進(jìn)展、目標(biāo)身份以及目標(biāo)身份與空間位置結(jié)合——映射到不同的計(jì)算過程,即:目標(biāo)期望、關(guān)于當(dāng)前任務(wù)階段的信念以及接地似然。因此,擾動這些神經(jīng)元應(yīng)該產(chǎn)生可解離的效果。例如,破壞編碼關(guān)于當(dāng)前任務(wù)階段信念的神經(jīng)元應(yīng)損害動物正確推斷其下一個目標(biāo)的能力,而破壞編碼接地似然的神經(jīng)元應(yīng)損害動物將任務(wù)階段靈活鏈接到空間表征的能力。這些預(yù)測仍有待在未來實(shí)驗(yàn)中測試。
當(dāng)前的 S-HAI 智能體有幾個局限性,可以在未來研究中解決。首先,雖然我們的模型考慮了多個接地似然,但它目前只實(shí)現(xiàn)了一個圖式。S-HAI 框架允許從維護(hù)接地似然混合直接擴(kuò)展到也維護(hù)多個圖式的混合,從而提供對(Piaget, 1952)設(shè)想的同化和順應(yīng)過程更全面的解釋。其次,模型主要關(guān)注基于擴(kuò)展隱馬爾可夫模型(HMMs)的概率生成模型的前額葉皮層中的圖式學(xué)習(xí)和推理。這種方法允許復(fù)現(xiàn)前額葉皮層中圖式神經(jīng)編碼的一些關(guān)鍵方面,但不能捕捉其全部復(fù)雜性。未來研究可以探索 HMMs 的生物學(xué)現(xiàn)實(shí)實(shí)現(xiàn)(Kappel 等人,2014)并更系統(tǒng)地調(diào)查這些模型與前額葉皮層神經(jīng)計(jì)算之間的映射。此外,未來工作可能擴(kuò)展 S-HAI 以提供系統(tǒng)級模型,解決前額葉皮層之外的基于圖式的過程,涵蓋其他相關(guān)腦區(qū)如海馬和內(nèi)嗅皮層。最后,未來工作可以調(diào)查基于圖式的機(jī)制如何被復(fù)用以支持抽象概念空間中的導(dǎo)航。近期研究表明,大腦可能依賴共享的計(jì)算機(jī)制進(jìn)行物理和概念領(lǐng)域的映射和導(dǎo)航,海馬 - 內(nèi)嗅系統(tǒng)發(fā)揮核心作用(Buzsáki 和 Moser, 2013; Bellmund 等人,2018; Viganò 等人,2023; Bottini 和 Doeller, 2020; Dong 和 Fiete, 2024)。理解圖式形成和基于圖式的推理如何有助于構(gòu)建和導(dǎo)航此類抽象認(rèn)知地圖,可以為解釋跨空間和非空間領(lǐng)域的靈活認(rèn)知提供統(tǒng)一框架。
4 方法
我們的方法建立在主動推理之上,這是一個框架,其中智能體通過更新信念(感知)、選擇動作(策略評估)和適應(yīng)模型參數(shù)(學(xué)習(xí))來最小化變分自由能(Parr 等人,2022; Smith 等人,2022)。我們通過引入一個生成模型來擴(kuò)展該范式,該模型能夠表示并在多個環(huán)境中復(fù)用抽象圖式——即任務(wù)動態(tài)的結(jié)構(gòu)化、可泛化表征。該圖式捕捉的是任務(wù)的抽象結(jié)構(gòu),例如存在四個不同位置的獎勵(如(El-Gaby 等人,2024)的 ABCD 任務(wù))或交替位置的三個獎勵(如(Jadhav 等人,2012)的空間交替任務(wù)),而不是學(xué)習(xí)任務(wù)中獎勵位置的具體序列(Van de Maele 等人,2024)。在各種任務(wù)實(shí)例中,該圖式隨后可以概率性地映射到特定于環(huán)境的狀態(tài)。這對應(yīng)于一個非常快速的學(xué)習(xí)過程,因?yàn)橹悄荏w只需要學(xué)習(xí)一個新的映射(我們稱之為接地似然),從抽象圖式狀態(tài)到特定于環(huán)境的位置。因此,圖式的使用允許智能體在不同任務(wù)實(shí)例之間快速泛化和轉(zhuǎn)移高層知識。
在本節(jié)中,我們首先簡要回顧主動推理的功能,然后說明新型基于圖式的(S-HAI)智能體的結(jié)構(gòu)。
4.1 主動推理
主動推理是一個框架,它根據(jù)信息論泛函的最小化來描述生物體中的認(rèn)知過程和大腦動態(tài):變分自由能(Parr 等人,2022)。主動推理智能體被賦予一個生成模型:一個概率模型,編碼關(guān)于隱藏狀態(tài)、動作和隨后觀察結(jié)果之間因果關(guān)系的內(nèi)部信念。注意,這不同于世界中產(chǎn)生結(jié)果的真實(shí)物理過程(稱為生成過程)。由于智能體受計(jì)算限制,對于大狀態(tài)空間,后驗(yàn)推斷變得難以處理。因此,智能體使用近似(變分)推斷,通過最小化其變分自由能,即驚喜的上界,定義為:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4.2 基于圖式的層級主動推理智能體的形式化描述
主動推理智能體被賦予一個生成模型,該模型本質(zhì)上定義并約束了其知識和能力。在本研究中,我們提出了一種新型的層級生成模型,允許智能體進(jìn)行基于圖式的學(xué)習(xí)和推理,例如在 (El-Gaby 等人,2024) 的 ABCD 任務(wù)中所見,其中智能體在空間中導(dǎo)航以到達(dá)四個目標(biāo)的序列。
圖 5a 展示了基于圖式的層級主動推理(S-HAI)的生成模型,使用了貝葉斯網(wǎng)絡(luò)的形式化方法(另見圖 1a 了解更非形式化的示意圖)。它包含兩個層級。底層(第 1 層)在最精細(xì)的時間尺度上運(yùn)行,處理智能體的空間定位和導(dǎo)航。在此層級,智能體接收其位置的直接觀察并通過移動行動。自上而下的目標(biāo)被設(shè)定為對智能體需要到達(dá)的底層未來狀態(tài)的偏好。
![]()
高層(第 2 層)實(shí)施基于圖式的推理和學(xué)習(xí)。與第 1 層相比,圖式在較慢的時間尺度上運(yùn)行,并捕捉抽象任務(wù)結(jié)構(gòu),整合關(guān)于獎勵的信息以及包含底層推斷狀態(tài)的自下而上消息。該層的動態(tài)建模了提供獎勵觀察的目標(biāo)狀態(tài)之間的狀態(tài)轉(zhuǎn)移 (Friston 等人,2024)。例如,在 ABCD 任務(wù)中,圖式捕捉了一個抽象的動作序列以循環(huán)移動到下一個目標(biāo)(從 A 到 B,C,D,然后再回到 A,等等)。
該層級生成模型包含兩個耦合的部分可觀測馬爾可夫決策過程(POMDPs),每層一個,它們通過自上而下和自下而上的消息傳遞進(jìn)行交互 (Van de Maele 等人,2024; Catal 等人,2021)。每一層都維護(hù)其生成模型,對于通用層 i ,聯(lián)合分布分解為:
![]()
![]()
![]()
通過這種層級耦合,接地似然介導(dǎo)了第 2 層的抽象圖式如何指定第 1 層的具體目標(biāo),從而使智能體能夠跨環(huán)境泛化任務(wù)結(jié)構(gòu)。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4.2.2 接地似然混合
當(dāng)存在多個任務(wù)或環(huán)境時,單個接地似然可能會顯得脆弱。為了支持更豐富的泛化和知識保留,我們引入了接地似然混合(Mixture of Grounding Likelihoods, MoGL),其中智能體維護(hù)一組接地似然,并推斷在每一個時間步哪一個是激活的。
形式上,低層狀態(tài)是從接地似然的混合中采樣的:
![]()
![]()
![]()
關(guān)鍵在于,我們將此混合模型建模為一個非參數(shù)模型,該模型可以通過添加聚類(Stoianov 等人,2022; Heins 等人,2025)來擴(kuò)展混合,即針對觀察到的地圖的特定接地似然。形式上,這被建模為一個截?cái)嗟墓靼粽蹟嘞闰?yàn)(truncated stick-breaking prior),如果所選地圖的期望對數(shù)似然(公式 (13) 中標(biāo)記)低于預(yù)選閾值,則該先驗(yàn)會擴(kuò)展混合模型(Heins 等人,2025),這意味著當(dāng)前正在使用的接地似然中沒有一個能很好地解釋數(shù)據(jù)。
4.2.3 克隆結(jié)構(gòu)因果圖
克隆結(jié)構(gòu)因果圖(Clone-structured causal graphs, CSCG)(George 等人,2021)是隱馬爾可夫模型(HMM)的一個特例,其中觀察似然將觀察確定性地映射到大量稱為“克隆”的狀態(tài);相反,狀態(tài)推斷完全由模型的動態(tài)驅(qū)動。克隆圖的優(yōu)勢在于,即使觀察可能是相同的,該模型也能將它們消歧為不同的狀態(tài)。這種方法已在具有混疊觀察的導(dǎo)航(George 等人,2021)和交替任務(wù)的層級模型(Van de Maele 等人,2024)中被證明是有效的;此外,CSCG 與海馬體中認(rèn)知地圖形成的神經(jīng)數(shù)據(jù)高度一致(Sun 等人,2025)。注意,具有單個克隆的克隆圖會簡化為標(biāo)準(zhǔn)的(動作增強(qiáng)的)HMM。
CSCG 使用 HMM 的期望最大化(EM)算法(Baum-Welch 算法)進(jìn)行學(xué)習(xí),該算法最大化證據(jù)下界(ELBO)(George 等人,2021)。在 E 步中,通過平滑(即前向 - 后向算法)估計(jì)狀態(tài)上的后驗(yàn)。然后,M 步根據(jù)這個訪問狀態(tài)序列選擇轉(zhuǎn)移模型的最優(yōu)參數(shù)。訓(xùn)練后,使用 Viterbi 解碼對模型進(jìn)行剪枝。此處,對于每個時間步,選擇最大似然狀態(tài),并使用這些最大似然狀態(tài)估計(jì)轉(zhuǎn)移模型參數(shù)。
我們還在第 2.4 節(jié)中實(shí)現(xiàn)了一種在線學(xué)習(xí) CSCG 的機(jī)制。與主動推理中的標(biāo)準(zhǔn)參數(shù)學(xué)習(xí)(其中隨著動作的執(zhí)行和觀察的到來,對狀態(tài)的信念被濾波)不同,克隆圖對狀態(tài)上的信念進(jìn)行平滑,并將消歧信息傳播回其他“克隆”狀態(tài)。這提供了對各個狀態(tài)的更好估計(jì),然后可用于更新轉(zhuǎn)移參數(shù)上的狄利克雷分布。對于學(xué)習(xí)圖式(即第 2 層轉(zhuǎn)移),我們使用 10 個觀察的滑動窗口,并在每個觀察到來時更新參數(shù)。
我們在本研究的三個部分使用了 CSCG 框架。首先,我們使用它來學(xué)習(xí)環(huán)境中空間位置的認(rèn)知地圖。克隆結(jié)構(gòu)允許在高度模糊的觀察中(105 個不同位置中的 6 種瓷磚顏色)發(fā)現(xiàn)結(jié)構(gòu)。其次,我們在模擬 1 中使用它來開發(fā)沒有圖式的 HAI-i 智能體的第 2 層,以解決 ABCD 任務(wù)。在這種情況下,CSCG 初始化的克隆數(shù)量 i 等于要學(xué)習(xí)的塊的數(shù)量(20 或 40),以確保智能體有足夠的容量學(xué)習(xí)所有這些塊。最后,我們在模擬 2 中使用 CSCG 框架來開發(fā)解決 ABCB 任務(wù)的基于圖式的 S-HAI-2C 智能體的第 2 層。在這種情況下,CSCG 用 2 個克隆初始化。為了在離散時間主動推理中使用它們,我們需要按照 Van de Maele 等人(2023)中所述將 CSCG 映射到 POMDP。
https://github.com/toonvdm/grounding-schemas
原文鏈接:https://arxiv.org/pdf/2601.18946
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.