網易首頁 > 網易號 > 正文申請入駐

學習認知圖作為替代評估的結構化圖形

2026-03-14 20:08:42　來源: CreateAMind

上海舉報

分享至

Learning cognitive maps as structured graphs for vicarious evaluation

學習認知圖作為替代評估的結構化圖形

https://www.biorxiv.org/content/10.1101/864421v4.full.pdf

摘要

認知地圖是環境中空間和概念關系的心理表征。這些地圖對于靈活行為至關重要，因為它們允許我們進行替代性導航，但其底層的表征學習機制仍然未知。為了形成這些抽象地圖，海馬體必須學會在不同情境中適當地分離或合并混疊觀測，以實現泛化、高效規劃和處理不確定性。本文介紹了一種特定的高階圖結構——克隆結構化認知圖（CSCG）——它通過為不同情境形成觀測的不同克隆作為表征來解決這些問題。CSCG可以使用一種新型概率序列模型進行高效學習，該模型本身對不確定性具有魯棒性。我們表明，CSCG可以解釋多種認知地圖現象，例如從混疊感覺流中發現空間關系、在不連續經驗片段之間進行傳遞推理、形成可遷移的結構知識，以及在新環境中尋找捷徑。通過為不同情境學習不同的克隆，CSCG解釋了迷宮導航中觀察到的分裂細胞的出現和位置細胞的路徑特異性編碼，以及跑步實驗中觀察到的事件特異性分級表征。此外，CSCG的學習和推理動態為多種位置細胞重映射現象提供了連貫的解釋。通過將混疊觀測提升到隱藏空間，CSCG揭示了潛在的模塊化結構，然后用于層次化抽象和規劃。總之，使用CSCG進行學習和推理為理解海馬功能提供了一個簡單的統一框架，并可能成為人工智能中形成關系抽象的一條途徑。

引言

替代性試錯（Vicarious trial and error）[1]，即通過心理時間旅行評估未來的能力，是智力的一個標志。為了做到這一點，智能體需要在體驗周圍環境時，從感官信息流中學習心理模型，即“認知地圖”（cognitive maps）[2, 3] [4]。學習這些心理抽象之所以復雜，是因為感官觀察經常是混疊（aliased）的。取決于上下文，相同的事件可能有不同的解釋，而不同的事件可能意味著相同的事情 [5]。因此，認知地圖的計算理論應該：(1) 提出機制來解釋情境和位置特定的表征是如何從混疊的感官或認知事件中產生的，以及 (2) 描述表征結構如何支持鞏固、知識遷移以及靈活和分層的規劃。大多數開發此類理論的嘗試，包括將海馬體建模為記憶索引、關系記憶空間、快速事件記憶器，以及模式分離和模式完成的系統級模型，都未能在一個共同的框架下調和海馬體多樣的功能屬性 [6–8]。最近的模型試圖利用后繼表征理論（successor representation theory）[9–11] 并假設這些細胞是圖的高效表征 [12]，來調和位置細胞和網格細胞的表征屬性。不幸的是，這兩個模型在描述學習完環境后如何進行靈活規劃方面都有所欠缺，并且無法解釋幾個關鍵的實驗觀察結果，例如空間和非空間環境中的位置細胞重映射（remapping）[13, 14]，以及某些位置細胞編碼通往目標的路線 [15, 16] 而其他細胞編碼目標值 [17, 18] 這一事實。

一個行為中的智能體經常遇到看起來瞬間相似的外部情境，但根據上下文需要不同的行動策略。在這些情況下，感官觀察應該被情境化為不同的狀態。在其他時候，看起來不同的感官觀察可能需要合并到同一個狀態，因為那些上下文都導致相同的結果。一般來說，為了從序列觀察中形成世界的靈活模型，智能體需要擁有一個表征結構和學習算法，允許根據適當的情況對上下文進行彈性的拆分和合并 [5, 19]。此外，表征結構應該允許動態規劃和處理不確定性。

在這里，我們提出了一種特定的高階圖——克隆結構化認知圖（clone-structured cognitive graph, CSCG）——它將觀測映射到該觀測的不同“克隆”上，作為一種解決這些問題的表征結構。我們要證明這種結構可以表示為概率序列模型的擴展，并且可以被高效地學習。CSCG 可以解釋多種認知地圖現象，例如從混疊的感官流中發現空間關系、在不連續的經驗片段之間進行傳遞推理、可遷移的結構知識，以及在新環境中尋找捷徑。CSCG 為不同上下文創建不同克隆的能力解釋了分裂細胞（splitter cells）[15] 的出現和路線特異性編碼（route-specific encoding）[20]，我們使用神經生理學中常見的多種實驗設置證明了這一點。在重復跑圈任務（lap-running task）[21] 中，CSCG 學習特定圈數的神經元，并表現出對迷宮擾動具有魯棒性的事件特異性反應，這與神經生理學觀察結果相似。CSCG 還可以學習分離共享觀測的多個環境，然后根據上下文相似性檢索它們。值得注意的是，克隆結構學習和推理的動力學為老鼠從一個環境移動到另一個環境時觀察到的不同活動重映射現象提供了一個連貫的解釋。通過將混疊的觀測提升到隱藏空間，CSCG 揭示了潛在的模塊化，隨后用于分層抽象和規劃。

克隆結構化認知圖作為認知地圖的模型

CSCG 背后的核心思想是動態馬爾可夫編碼（dynamic Markov coding）[22]，這是一種通過拆分，或者說克隆，觀測狀態來表示高階序列的方法。例如，一個表示事件序列 A ? C ? E
和 B ? C ? D 的一階馬爾可夫鏈，會給序列 A ? C ? D
分配高概率（圖 1a）。相比之下，動態馬爾可夫編碼通過將代表事件 C 的狀態拆分為多個副本（每個傳入連接對應一個副本）來構建高階模型，并通過學習進一步特化它們的傳出連接。這種狀態克隆機制允許對高階依賴進行稀疏表示，并已在各個領域被發現 [22–25]。

通過克隆，相同的自下而上的感官輸入由多個狀態來表示，這些狀態在對感官輸入的選擇性上互為副本，但專門針對特定的時間上下文，從而能夠在沒有破壞性干擾的情況下高效存儲大量高階和隨機序列。然而，學習動態馬爾可夫編碼具有挑戰性，因為克隆依賴于一種貪婪啟發式方法，這會導致嚴重的次優性——穿插有零階或一階片段的序列將導致克隆狀態的不受控增長。雖然文獻 [25] 將克隆思想納入了生物學習規則中，但由于缺乏概率模型和連貫的全局損失函數，阻礙了其發現高階序列和靈活表征上下文的能力。一種有效的學習方法應當拆分克隆以發現高階狀態，并在有助于泛化時靈活地合并它們。

我們要之前的工作 [26] 表明，動態馬爾可夫編碼的許多訓練缺陷可以通過克隆隱馬爾可夫模型（cloned hidden Markov models）來克服——這是一種過完備隱馬爾可夫模型（HMM）的稀疏限制 [27]。在克隆 HMM 中，每個狀態的最大克隆數量是預先分配的，這強制執行了一個容量瓶頸。使用期望最大化（EM）算法進行學習，能夠找出如何適當地利用這種容量來拆分或合并不同的上下文，從而高效地利用克隆來表示不同的上下文。此外，克隆 HMM 在一個嚴格的概率框架中表示動態馬爾可夫編碼的克隆機制，該框架能夠處理學習和推理過程中的噪聲和不確定性。

HMM 和克隆 HMM 都假設觀測數據是由一個服從馬爾可夫性質的隱藏過程生成的。也就是說，給定當前狀態和所有過去狀態，未來狀態的條件概率分布僅取決于當前狀態，而與任何過去狀態無關。對于 HMM，觀測狀態和隱藏狀態的聯合分布由以下方程給出：

神經生物學回路

轉移矩陣也可以被視為一個有向圖，其中神經元構成圖的節點，軸突分支構成有向邊。互為克隆的一組神經元從觀測值接收相同的“自下而上”的輸入（藍色箭頭）。克隆神經元的輸出是其橫向輸入的加權和，再乘以自下而上的輸入，這對應于 HMM 推理中的前向傳遞消息 [30]。

任何特定時刻的證據可能是不確定的（“軟證據”），表現為觀測神經元群體上的分級激活。對于特定的觀測值，從觀測值到其所有克隆的直接自下而上連接激活了該觀測值所屬的不同序列，然后這些激活根據每個克隆在其橫向連接上接收到的特定上下文支持進行調節。克隆神經元群體以與其概率成正比的方式，表征了在任何時刻活躍的不同上下文的概率。圖 1e展示了這些活動如何針對從 t = 0
到 t = 3
的噪聲輸入序列 A → ( B , E ) → ( A , D ) → E進行傳播，該序列對應于真實序列 A → B → D → E 。激活用不同深淺的紅色表示，較淺的色調表示較弱的激活。在每個時刻，激活的橫向輸入被高亮顯示，這些對應于上一時間步激活的克隆。通過正確整合上下文和噪聲輸入，克隆 HMM 的克隆激活過濾掉噪聲以代表真實的輸入序列。圖 1f展示了序列如何從回路中被“重放”（采樣）。

像邊緣推斷或 MAP（最大后驗概率）推斷這樣的查詢可以在神經回路中實現為前向和后向掃描，類似于圖 1中的可視化，這與早期工作中探索的消息傳遞推理的神經實現類似 [28, 30, 31]。用于學習的 EM 算法可以很好地由神經生物學機制——脈沖時序依賴可塑性（STDP）[32]——來近似。

CSCG：動作增強的克隆 HMM

我們的動作增強模型允許智能體學習在給定狀態下哪些動作是可行的，相比之下，動作條件化模型 [33] 僅根據動作預測未來的觀測值。

CSCG 內的規劃

規劃被視為推理 [34]，并利用生物合理的消息傳遞算法 [28] 來實現。目標既可以被指定為期望的觀測值，也可以被指定為該觀測值的特定克隆。隨后，通過固定（clamping）當前克隆和目標，并推斷出達到這些觀測值所需的中間觀測和動作序列來完成規劃。通過在圖模型中運行前向傳遞并確定每一步目標的可行性，很容易確定我們需要將目標設定在未來多遠的地方。后向傳遞隨后將返回所需的動作序列。重要的是，由于圖模型本質上是概率性的，它能夠處理帶有不確定結果的噪聲觀測和動作。

結果

我們進行了多項實驗來測試 CSCG 對認知地圖的建模能力。我們具體測試了以下已知功能特性：在混疊和離散的感官體驗下通過隨機游走學習空間地圖、可遷移的結構知識、尋找捷徑、支持層次化規劃，以及生理學發現，例如位置細胞的重映射（remapping）和路線特異性編碼。

從混疊序列觀測中涌現空間地圖

從純粹序列化的隨機游走觀測中（這些觀測無法唯一識別空間中的位置），CSCG 可以學習到底層的空間地圖，這是一種與人類和動物相似的能力。圖 2a展示了一個 2D 房間，其中每個位置都關聯著感官觀測值。該房間有 48 個獨特的位置，但只有 4 種獨特的感官輸入（表示為顏色），一個進行隨機游走的智能體觀測到了這些感官輸入的序列。一階序列模型會嚴重欠擬合，而純粹的序列記憶也無法學習到房間的結構，因為相同的序列幾乎從不重復。相比之下，CSCG 完美地發現了房間的底層 2D 圖（圖 2b）。隨著獨特隨機放置的觀測數量增加，學習變得更加容易（見補充結果）。

值得注意的是，即使大多數觀測是混疊的，CSCG 也能學習空間拓撲，就像在一個大空房間中那樣，只有在靠近墻壁時才會產生獨特的觀測，如圖 2c所示。觀測之間的高度相關性和嚴重的混疊使得這成為一個具有挑戰性的學習問題。盡管如此，CSCG 仍能完美學習 6 × 8
房間的拓撲結構（圖 2d）。隨著房間變大，這種能力會有所下降，但下降是平緩的（graceful degradation）。例如， 9 × 11
房間的周邊被很好地建模，但 CSCG 無法區分中間的幾個位置（見補充結果）。

傳遞推理：不連續的經驗可以被拼接成一個連貫的整體

傳遞推理（Transitive inference），即推斷未在同一時間經歷的項目或事件之間關系的能力，歸因于認知地圖 [7]。例子包括從知道 A > B
和 B > C
中意識到 A > C
，或者根據不同行程中體驗到的地標及其相對位置推斷在城市中導航的新方法 [35]。

我們在一個旨在探究傳遞推理多個方面的具有挑戰性的問題上測試了 CSCG，發現它可以將不連續的序列經驗片段拼接成一個連貫的整體。實驗設置由重疊的房間組成（圖 2e），每個房間都有像前一個實驗那樣的混疊觀測。此外，第一個房間有一個額外的部分，它與兩個房間之間的重疊部分完全相同。這種設計允許測試僅按順序獨家體驗第一個房間或第二個房間的智能體，是否能正確弄清楚房間及其重疊部分之間的關系。大狀態空間、混疊觀測、嵌套關系和二維傳遞性的結合，使得該問題設置比以前的嘗試 [36] 顯著更難。我們通過在每個房間執行兩次單獨的隨機游走，收集了兩組獨立的動作-觀測對序列，并在兩個序列上訓練了一個單一的 CSCG。訓練結果可視化于圖 2f。學習到的轉移矩陣（顯示為圖）已將兩個房間的兼容區域拼接在一起，創建了一個單一的、更大的空間地圖，該地圖與兩個序列都一致，同時在可能的情況下重用克隆。第一個房間中令人困惑的額外補丁保持正確地未合并狀態，并且位于第一個房間中的正確相對位置，盡管看起來與重疊區域完全相同。

發現正確的潛在全局地圖使 CSCG 能夠進行傳遞性概括。雖然智能體從未經歷過一條從房間 1 獨有區域通往房間 2 獨有區域的路徑，但它可以利用學習到的地圖在組合空間中的任意兩個位置之間進行替代性導航（vicariously navigate）。就像在之前的實驗中一樣，學習是純粹關系性的：模型中不對歐幾里得幾何或 2D 或 3D 地圖做任何假設。

有趣的是，繪制克隆隨時間的激活情況顯示，當智能體首次穿越重疊區域時（圖 2g中的軌跡 X），對應于重疊區域和相同的混淆區域的克隆都被激活（圖 2h），表明智能體不確定其在迷宮中的位置。這也表明智能體對認知地圖的信念分裂為兩種可能的現實（見補充視頻 1），因為在沒有額外上下文的情況下，重疊區域和混淆區域完全相同。走出重疊區域為智能體提供了足夠的上下文來解決歧義。隨后，當智能體探索混淆區域時（圖 2g中的軌跡 Y），對應于該區域的克隆變得更加活躍，而對應于重疊區域的克隆不再活躍。當智能體返回重疊區域以遵循其最初遵循的相同序列（軌跡 X）時，克隆活動反映智能體不再在重疊區域和混淆區域之間感到困惑。

學習到的圖形成可重用的結構以探索相似環境

在一個房間中學習到的通用空間結構可以被利用作為圖式 [37]，用于在新穎房間中探索、規劃和尋找捷徑，這很像基于海馬體的導航的能力 [38]。

為了測試這一點，我們首先基于來自隨機游走的混疊觀測在房間 1 上訓練了 CSCG。如前所述，CSCG 完美地學習了房間的圖結構。接下來，我們將智能體置于一個陌生的房間 2 中（圖 3a）。我們保持 CSCG 的轉移矩陣固定，并將發射矩陣重新初始化為隨機值。當智能體在新房間中行走時，發射矩陣通過 EM 算法進行更新。即使沒有訪問新房間中的所有位置，CSCG 也能夠通過從未訪問過的位置在已訪問的位置之間進行捷徑行走（圖 3b）。在沿著周邊進行如圖 3a所示的短暫遍歷后，我們查詢以找到從結束狀態到起始狀態的最短路徑。CSCG 返回了正確的動作序列，盡管它顯然無法預測路徑上的觀測值。有趣的是，維特比解碼（Viterbi decoding）[39] 揭示的隱藏狀態與你在房間 1 中對同一路徑進行維特比解碼所得到的隱藏狀態相同。對 CSCG 查詢從房間左下角到起始位置的最短路徑，揭示了圖 3b中藍色箭頭指示的路徑。該解是從房間 1 獲得的圖的 Dijkstra 最短路徑。此外，如果我們“阻斷”該路徑，我們會得到另一個在 Dijkstra 算法方面也是最優的解（圖 3c）。即使只具有對新房間的部分知識，智能體也可以通過重用來自熟悉房間的 CSCG 轉移圖，替代性地評估到達目的地所需采取的動作數量和類型。

當重用來自舊房間的轉移矩陣時，即使智能體使用隨機游走進行探索，新房間也能被非常快地學習：當房間中的所有位置都被訪問至少一次時，新房間就被完全學習了（圖 3d-f）。這些圖表顯示了所探索房間的比例以及預測下一個符號的平均準確率作為隨機游走步數函數的變化情況。

路徑和時間順序的表征

當觀測到的統計數據有此需求時，CSCG 會學習路徑并表征時間順序，例如當觀測值對應于動物反復行走的典型路線時。例如，考慮圖 4a中顯示的 T 型迷宮，它以“8”字形模式被穿越，要么從右側（藍色路徑），要么從左側（紅色路徑）。結果，這兩條路徑共享同一段。有趣的是，CSCG 為這個共享段學習了單獨的克隆（圖 4b），并且類似于文獻 [15] 中的觀測結果，這個重疊段中克隆的活動將指示大鼠是要向左轉還是向右轉（圖 4c）。值得注意的是，CSCG 學習靈活高階序列的能力獨立于模態（modality）[4]。特別是，輸入可以對應于空間觀測、氣味、字符序列或來自任何其他現象的觀測 [26]。CSCG 將學習生成過程底層圖結構的近似，這與文獻 [2] 設想的認知地圖的作用緊密對應。我們在圖 4e中展示了為圖 4d所示的具有共享路徑的迷宮學習到的 CSCG。

神經生理學實驗已經顯示了海馬體中“分裂細胞”（splitter cells）的出現 [15]。這些細胞代表通往目標的路徑而不是物理位置，并且是在大鼠反復穿越相同的連續路線（相對于隨機游走）時出現的 [20]。圖 4f展示了一個迷宮，其中智能體可以穿越兩條不同的路線（由品紅色和綠色線指示）以到達相同的目的地。這兩條路線都包含一些區域，在這些區域中智能體遵循的確切路徑是隨機的，正如指示從每個單元格可能的移動的箭頭所示。迷宮中的觀測值用數字標記，并且像以前一樣，相同的觀測值可以在迷宮的許多部分被感知（即存在混疊）。此外，這兩條路線相交并共享一個公共段。在這些路徑上訓練的 CSCG 能夠通過為每條路線使用不同的克隆來表征這兩條路線，這類似于在類似實驗中位置細胞表現出的路線依賴性。我們觀察到，當穿越每條路線時，不相交的克隆子集將被激活。圖 4g顯示，當以起始狀態為條件時，在學習到的 CSCG 中采樣將總是產生與這兩條路線一致的路徑。通過可視化由 CSCG 轉移矩陣定義的圖，我們看到這兩條路線是用兩條不同的鏈來表示的（圖 4g）。對于一階模型，當到達共享段時，關于前面段的所有上下文都將丟失，模型將對未來路徑做出不正確的預測。另一方面，CSCG 能夠捕捉路徑的歷史，因此能夠正確地建模路線及其獨特的起始狀態。

在 CSCG 中學習高階序列還可以解釋最近發現的現象，如組塊細胞（chunking cells）和事件特異性表征（ESR）[21]，即位置細胞的激活信號結合了同一迷宮中不同圈數的位置和圈數信息。圖 5a展示了一個類似于文獻 [21] 中實驗的設置，其中大鼠在獲得獎勵前在環形矩形跑道上跑四圈。暴露于相同序列的 CSCG 學會了區分各圈，并預測第 4 圈結束時的獎勵。為了實現獎勵而進行的規劃恢復了正確的動作序列，隨后我們執行該序列以記錄不同圈中克隆的激活情況。可視化每個克隆的信念傳播（無論是以觀測為條件還是以動作為條件），產生了一種類序列的激活模式，其中每個感官觀測都有一個克隆處于激活狀態，因此迷宮周圍的不同圈數由不同的克隆編碼（圖 5b）。類似于海馬體中的神經元（其發放率顯示在圖 5c[21] 中），克隆在不同圈中顯示出分級激活。當一個觀測在其特定的圈中出現時，克隆對該觀測的激活達到最大，但當該觀測在其他圈中出現時則顯示較弱的激活，這是 ESR 的特征。這是由于平滑處理和推理動力學而在 CSCG 中自然發生的，如圖 5e所示。Sun 及其同事報告稱，盡管延長了迷宮，海馬體中的神經元仍然對每一圈做出獨特的反應。我們通過在一個維度上拉長迷宮，引入重復的或混疊的感官觀測，來模擬這一實驗（圖 5d）。同樣，與較小的迷宮一樣，我們觀察到克隆在每一圈上都是獨特激活的，并將每一圈解析為獨立的情境事件（圖 5d）。在這個特定的例子中，該迷宮的認知地圖是一個觀測鏈（見圖 5e），它將每一圈分割成獨特的情境事件。通過這樣做，智能體能夠基于相同的局部觀測來識別它處于哪一圈。ESR 對迷宮延伸的魯棒性也可以通過平滑 CSCG 中的推理來解釋——重復的觀測被解釋為上一時間步的噪聲，而從當前觀測重新規劃則恢復了正確的動作序列。

學習多張地圖并解釋重映射

重映射（Remapping）是指海馬體位置細胞活動響應物理環境變化而重組的現象。重映射可以是全局的或部分的 [19, 41–44]，這取決于海馬體如何分離、存儲和檢索針對多個可能相似或不同環境的地圖 [13, 41]。

與海馬體類似 [19]，CSCG 可以學習從高度相似的環境輸入中分離出多張地圖，在記憶中同時表征這些地圖，然后利用上下文相似性來檢索適當的地圖以驅動行為。在圖 6a中，我們展示了 5 個不同的 5 × 5 房間，它們都共享相同的 25 個觀測值，但在空間中的排列方式不同。我們從這些迷宮中的隨機游走序列中學習單個 CSCG，其中游走在不同房間之間以不規則的間隔切換，且未提供任何關于迷宮身份或切換時間的監督。

盡管所有觀測值在迷宮之間是共享的，CSCG 學會了為不同的房間形成不同的克隆。圖6ai繪制了智能體在從第一個到最后一個房間的每個房間中經歷 50 步隨機游走序列時關于其所在地圖的信念，表明盡管瞬時觀測是模糊的，迷宮身份仍體現在群體響應中。

我們進行了一系列實驗，以評估迷宮之間的相似性、每個迷宮內的可預測性、學習量以及噪聲和不確定性的量如何影響神經響應重組的程度。這些實驗使用了兩組環境——迷宮和房間。房間是前面描述的 5x5 房間（圖 6a），迷宮由 5 種不同的形狀組成（圖 6b），由 6 種不同的觀測值構成（4 個不同的角落，以及垂直或水平的臂）。由于隨機游走的分支因子較低，與房間相比，迷宮具有更好的迷宮內可預測性，而且與不同房間之間的相似性相比，迷宮彼此之間更相似。對于每一組，我們訓練了一個 CSCG，并評估了重映射如何隨訓練量和不確定性而變化（見圖 6a i-iv和圖 6b i-iv）。

我們的結果表明，全局重映射、部分重映射和速率重映射可以使用 CSCG 來解釋：當同一模型中表示多張地圖時，它們是使用克隆結構的學習和推理動力學的表現。我們通過改變訓練量和不確定性，能夠重現不同的重映射效果。圖 6a-b中的行 (ii) 到 (iv) 顯示了兩個 CSCG 的神經響應，這兩個 CSCG 學會了表征相應的房間和迷宮。一列中的所有神經軌跡對應于同一個隨機游走，其中智能體在每個房間/迷宮中采取 50 步，從第一個到最后一個。當 CSCG 經過充分訓練直到 EM 算法收斂時，來自不同迷宮的神經響應重疊最少，產生類似于全局重映射的效果（圖 6aiii和biii）[41]。如果 CSCG 經過部分訓練，克隆僅部分分離——雖然許多克隆仍然專屬于特定的迷宮或房間，但也有大量克隆在多個迷宮/房間中活躍（圖 6aii和bii），對應于部分重映射的效果 [13, 42]。在充分訓練的模型中，更多的平滑處理，或反映不確定性的軟證據，會產生類似于速率重映射的神經響應 [13, 44]（圖 6aiv和biv）：在全訓練情況下發放的所有神經元在這種情況下仍然發放，但發放率降低。發生這種情況是因為不確定性和平滑處理導致表征相同觀測值的克隆之間更多地共享證據。

房間（迷宮）之間的相似性，以及每個房間（迷宮）內的可預測性程度，也會影響重映射的動力學。這可以通過比較圖 6a, b中房間的軌跡與迷宮的軌跡來觀察。在圖 6bi中，由于迷宮中更嚴格的時間上下文，每個迷宮內的信念比房間中的更穩定 [19]。房間中流動的時間上下文會產生信念的更漸進的變形 [45]。不同迷宮之間的結構相似性導致在進入新迷宮后出現更長的瞬態期，導致信念的非瞬時切換 [45]。這也反映在圖 6bii-iv中，其中多個迷宮中的克隆在切換點活躍（綠色條）。

綜上所述，我們的實驗展示了決定海馬網絡如何在預先建立的表征之間突然切換或從一種表征逐漸漂移到另一種表征，從而產生各種重映射效果的條件和機制。

社區檢測與分層規劃

人類以分層的方式表征計劃 [46]。替代性評估（Vicarious evaluations）涉及模擬通往目標的路徑，而分層計算通過減少搜索空間使這些模擬變得可行（tractable）[47]。為了實現分層規劃，學習機制應該能夠從序列觀測數據中恢復底層的層級結構。

通過學習克隆轉移圖，CSCG 將觀測提升到隱藏空間，從而能夠發現觀測中可能不明顯的圖模塊化結構。社區檢測算法（Community detection algorithms）[48] 隨后可以對圖進行劃分以形成分層抽象 [6]，這對規劃和推理很有用。像 CSCG 中的規劃和推理一樣，社區檢測也可以使用消息傳遞算法（message-passing algorithms）[49] 來實現，這使它們具有生物合理性（biologically plausible）[28]。

我們通過模擬智能體在兩個迷宮中的運動，測試了 CSCG 學習分層圖的能力。第一個迷宮是一個具有三個社群（communities）的模塊化圖，其中觀測值并非節點獨有的（圖 7a），這與早期使用該圖的研究 [6, 9] 形成對比，在那些研究中觀測值直接標識了節點。由于觀測的簡并性（degeneracy），對 SR 矩陣進行社區檢測或 MDS 無法揭示隱藏的社群（圖 7b）。相比之下，在 CSCG 上進行社區檢測從隨機游走中訓練得到的模型能輕易揭示正確的社群結構。第二個迷宮，如圖 7d所示，共有 16 個房間排列成 4 × 4 的網格。每個房間都有混疊的觀測值，并通過走廊（黑色方塊）連接。這種混疊是全局的：瞬時觀測無法識別房間、走廊或房間內的位置。此外，迷宮的結構使得存在四個“超房間”（hyper-rooms），使該迷宮成為一個三層層級結構。與前面的例子一樣，在隨機游走序列上訓練 CSCG 學習了迷宮的完美模型。然后我們使用社區檢測對 CSCG 的轉移矩陣進行聚類（圖 7e）。這種聚類揭示了克隆的分層分組（圖 7f），以及被發現的社群之間的連接圖。社群尊重房間邊界：雖然有些房間被分成兩個或三個社群，但沒有一個社群跨越（straddled）多個房間。再次對此圖應用社區檢測揭示了四個超房間（圖 7f），這是層級的最高層。為了使用這張地圖從起始位置 S 導航到特定的最終目的地 F ，智能體首先必須確定目標位于這四個房間中的哪一個，然后在源社群和目標社群之間的社群圖中規劃路線（圖 7h）。這樣做可以顯著減少低層圖中的搜索空間，使得在分層 CSCG 學習到的圖中進行規劃比在原始圖中直接規劃更有效。我們實現了這種形式的分層規劃，并發現我們總是能夠在隨機選擇的起點和終點之間恢復一條高效的路徑（詳見補充方法）。

學習適當編碼時間上下文的高階圖對于使用社區檢測算法提取層級結構至關重要。那些在觀測值上學習一階連接性的方法，例如觀測值上的后繼表征（successor representations）[10]，將無法形成正確的表征，因為觀測值通常存在嚴重的混疊（見補充圖 3）。

當前關于認知地圖如何從感官輸入中學習以及如何用于規劃的理論，一直未能調和大量的實驗證據。在本文中，我們秉持這樣一個強有力的假設：海馬體執行一種單一的算法，學習一種序列的、關系的、與內容無關的結構，并展示了其有效性的證據 [4]。通過一系列實驗，我們展示了 CSCG 如何存儲、抽象和訪問序列感官經驗 [4, 50]。實現這一核心思想需要幾個相互關聯的進展：(1) 一種從序列觀測中提取高階圖的學習機制，(2) 一種支持傳遞性的存儲和表征結構，(3) 高效的上下文敏感和概率檢索，(4) 以及支持高效規劃的層級學習——這些是我們在本文中開發的技術。作為一個模型，CSCG 跨越了 Marr 層級的多個層面。其計算規范基于概率模型和最優推理，其算法實現利用了神經科學的見解 [24]。此外，其學習和推理的圖模型及算法實現很容易轉化為神經生物學實現，為我們考慮的所有實驗現象提供了機制性解釋。

CSCG 與 Tolman-Eichenbaum 機器（TEM）[33, 51] 有顯著不同，后者是最近提出的關于海馬體回路結構學習的模型。正如本工作所演示的，CSCG 可以解決 TEM 所考慮的任務以及其他任務。例如，與 TEM 不同，CSCG 可以規劃以實現測試時選擇的任意目標（見圖 3b-c），并且原生地處理錯誤或模糊的觀測（見補充材料中的檢索和重映射）。CSCG 還允許高效的精確推理，這使得復雜的查詢能夠被快速且準確地回答。相比之下，TEM 的表征復雜性僅允許近似推理，并且需要更高的計算代價。例如，圖 5a中的問題使用了 4 圈，每圈 12 步，在單個 CPU 核心上幾秒鐘內即可解決；而對于 TEM 可解決的等效問題，它需要簡化為 3 圈，每圈 4 步。CSCG 原生是概率性的并處理不確定性和噪聲，而當前的 TEM 實現則不然。最重要的是，CSCG 將觀測提升到揭示模塊化的潛在圖的能力，通過使得抽象層級的形成成為可能，為其提供了優于 TEM 的強大優勢，見圖 7。

一種常用于海馬體功能的理論是后繼表征框架 [9, 10, 52]，它通過聚合給定策略下智能體未來位置的分布來表征當前狀態。然而，這對表征施加了幾個限制。首先，由于時間聚合，時間上的順序丟失了。此外，后繼表征不允許單獨訪問當前位置和未來位置，并且混淆了未來位置的順序 [53]。相比之下，CSCG 提供對當前和預測未來的單獨訪問并保留順序，這是有效規劃的關鍵屬性。其次，后繼表征是策略的函數。文獻 [9] 強調，當獎勵改變時，價值函數可以很容易地重新計算，而無需重新計算后繼表征。然而，當獎勵改變時真正需要改變的是策略，這反過來要求重新計算后繼表征。由于 CSCG 捕捉世界的動態，它們可以即時更新策略。在后繼表征的特征向量中觀察到的類網格細胞屬性可能是所有采用轉移矩陣的方法的一個屬性（見補充結果），我們要懷疑這一屬性本身可能沒有任何行為相關性。最后，雖然后繼表征可用于發現社群（communities），但它要求世界是完全可觀測的且沒有潛狀態。相比之下，CSCG 有能力將混疊的觀測拆分到不同的上下文中，以發現潛在圖和社群。

CSCG 與圖式網絡（schema networks）[54] 有著有趣的聯系。像圖式網絡一樣，CSCG 編碼關系知識。為不同的時間上下文創建不同的克隆，類似于用于解決狀態混疊的合成項（synthetic items）概念 [55]。我們打算在未來的工作中探索這些聯系。圖式細胞（Schema cells）已在海馬體中被觀察到 [37]，CSCG 或許能夠解釋它們的出現和屬性。此外，由于序列學習發生在許多其他腦區，例如頂葉皮層 [56] 和眶額皮層 [57]，這項工作的一個自然擴展將涉及學習高階概念關系并將其應用于認知靈活性。目前的工作可以通過將其與主動推理框架（active inference framework）[58] 相結合來進一步擴展，該框架為結合探索和利用提供了指導原則。使用主動推理，在學習開始時，智能體將由探索驅動，因為其世界模型非常不確定，并且隨著其對世界知識的增加，將緩慢增加利用的量。盡管主動推理到目前為止一直用于簡單得多的模型，這些模型無法解決當前工作中提出的實驗，但 CSCG 的概率公式兼容于使用模型參數上的分層先驗來表示模型的確定性，為未來研究提供了一條途徑。

與 [50] 一致，CSCG 表征無內容指針（content-free pointers）的序列：每個指針可以指代來自不同模態的感覺事件的聯結。來自網格細胞（grid cells）的輸出，即路徑整合信號，被視為僅僅是另一種感官模態。網格細胞輸出提供均勻空間的周期性平鋪，這對于在其他感官線索缺失時學習和導航地圖是有利的。類似地，將來自視覺圖模型 [59] 的快照編碼為此序列器的輸入，可能使得學習視覺空間概念和視覺例程 [60] 成為可能，并建模海馬體對視覺皮層的雙向影響 [61]。我們相信這些想法是未來探索的有前景的路徑。雖然超出當前工作的范圍，海馬體重放（hippocampal replay）[62] 是一個可能使用 CSCG 解釋的現象。我們相關的工作 [63] 表明，一種快速記憶并逐漸泛化的算法對于學習 CSCG 表征是可能的。從序列的休息時間重放中學習可以幫助此類算法更好地鞏固和泛化。推理時間重放可以被解釋為對通往多個目標的軌跡的搜索及其替代性評估。

闡明認知地圖如何在海馬體中表征，如何從經驗流中獲取，以及如何利用它們進行預測和規劃，不僅對于理解大腦的內部運作至關重要，而且為開發具有人工通用智能的智能體提供了關鍵見解。我們在本文中介紹的 CSCG 模型，為這些問題中的每一個提供了合理的答案。我們期望該模型在神經科學和人工智能中都有益，作為一種從多模態序列數據中產生易于解釋和操縱的顯式表征的方法。

原文鏈接：https://www.biorxiv.org/content/10.1101/864421v4.full.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.