網易首頁 > 網易號 > 正文申請入駐

覓食動物通過動態貝葉斯更新建模環境表征的元不確定性

2026-03-12 21:24:24　來源: CreateAMind

上海舉報

分享至

Foraging animals use dynamic Bayesian updating to model meta-uncertainty in environment representations

覓食動物通過動態貝葉斯更新建模環境表征的元不確定性

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1012989

摘要

覓食理論在許多背景下預測動物行為。在基于斑塊的覓食行為中，邊際值定理（MVT）為參數對覓食者完全已知的確定性環境提供了最優策略。在自然環境中，環境參數表現出變異性，且動物僅能基于其經驗部分知曉，從而產生不確定性。覓食中的不確定性模型已得到充分確立。然而，自然環境的統計特性也表現出不可預測的變化。因此，動物必須確定當前觀察到的環境質量是否與其內部模型一致，或者是否發生了變化，從而產生元不確定性。在元不確定性下優化覓食行為的行為策略及其神經基礎，目前很大程度上是未知的。在此，我們開發了一種新穎的行為任務和計算框架，用于研究元不確定性條件下頭部固定和自由運動小鼠的離開斑塊決策。我們隨機改變了斑塊間的旅行時間，以及斑塊內的獎勵消耗率。我們發現，當不確定性最小時，小鼠采取的斑塊停留時間與 MVT 一致，且無法用簡單的基于行為學的啟發式策略來解釋。然而，高度可變環境中的行為通過對環境參數中的一階和二階不確定性進行建模得到了最好的解釋，其中局部變異性和全局統計分別由貝葉斯估計器和動態先驗所捕捉。因此，小鼠通過采用分層貝葉斯策略在元不確定性下覓食，這對于在波動環境中高效覓食至關重要。這些結果為理解表現出自然化元不確定性的決策的神經基礎提供了基礎。

作者摘要

理解動物如何做出決策的行為生態學方法，是使用它們在自然環境中經常面臨的任務。其中一項典型任務，在行為生態學中規范地稱為基于斑塊的覓食，涉及從隨時間消耗的空間分離區域（稱為"斑塊"）中獲取資源。在進行斑塊覓食時，動物必須決定何時離開當前斑塊以尋找新的、已補充的斑塊。邊際值定理（MVT）描述了當環境統計特性穩定且為動物所知時的最優行為策略。然而，自然化情境通常充滿噪聲且不確定，這限制了 MVT 的適用性。在此，為理解實驗室小鼠如何做出與行為生態學相關的決策，我們在物理或虛擬的基于斑塊的覓食環境中實施了一項斑塊覓食任務。該任務納入了斑塊豐度的不確定性、斑塊間距離的不確定性，以及重要的是，斑塊內獎勵時機的隨機性。當獎勵時機的隨機性較低時，動物的行為與 MVT 一致。然而，當獎勵時機的隨機性較高時，小鼠會動態地權衡平均統計特性與近期觀測結果，這一過程由貝葉斯估計器所捕捉。因此，我們的研究結果為探討大腦在面對多層級不確定性時如何解決任務奠定了基礎。

引言

在覓食時，最優策略應最大化獎勵率（單位時間內的獎勵）[1]。在研究最充分的一類覓食決策中，資源斑塊內的動物需要決定何時放棄正在耗盡的斑塊，并付出代價（通常以移動時間的形式）轉移到更新、更豐富的斑塊 [1–3]。人們越來越有興趣將覓食行為作為理解正常和異常決策的潛在途徑，并且在動物中，作為理解決策神經回路基礎的機制性理解工具 [4, 5]。這種興趣反映在動物行為學和行為生態學的大量研究中 [6–12]。此外，偏離最優覓食可作為學習缺陷和精神疾病的診斷指標 [13, 14]。

當環境參數完全為覓食者所知時，最優行為由邊際值定理（MVT）支配，該定理表明，當邊際獎勵下降至與環境平均水平相匹配時，離開時機可最大化獎勵率。然而，MVT 做出了相當嚴格且不切實際的假設，即環境統計量是平穩的，且覓食者擁有這些統計量的完美內部模型。如果覓食者沒有良好的環境模型，他們面臨的每個結果都構成挑戰。該結果是符合還是偏離他們的內部模型？這一挑戰源于對環境的不確定性，這種不確定性源于環境的隨機性，以及關于這些環境統計量是否發生變化的嵌套元不確定性。例如，考慮在樹下或超市遇到的蘋果。如果那個蘋果顏色異常或甜度低于平均水平，覓食者必須決定它是優質蘋果正常變異性的一部分，還是他們應該轉移到一棵新樹或商店。由于這種元不確定性，決策者必須不斷評估他們遇到的變異性是反映已知環境統計量中的隨機性，還是這些統計量的變化。這兩種形式的變異性都符合自然情況，正如生態學文獻所證明的那樣 [15–18]，因此應在策略中予以考慮。

作為自然覓食者，嚙齒動物在其原生環境中經常遇到此類元決策，需要同時解析經濟因素和風險（例如捕食），以及它們在多個時間尺度上的變異性 [19–22]。鑒于它們對這類任務的偏好，以及嚙齒動物在系統神經科學中的廣泛使用，最近的實驗室研究利用覓食構建來探索行為策略及其潛在的神經生理機制 [23–30]。然而，在實驗環境中復制自然覓食的動態是困難的。在斑塊內，獎勵遭遇應包含一定水平的變異性，同時也表現出足夠的穩定性，嚙齒動物可據此做出斑塊離開決策。此外，遭遇中包含的環境信息應該是動物可感知的，并導致可解釋的結果。在復制挖掘嚙齒動物先天認知能力所需的自然特性，與創建可輕松獲取、分析和解釋有意義行為和/或神經生理數據的實驗構建之間取得平衡，給實驗者造成了困境 [31]。特別是，元不確定性尚未在實驗室覓食行為模型中得到考慮。

在此，我們在自由移動和頭部固定的小鼠中實施了一種基于斑塊的覓食任務，捕捉了幾個關鍵的接近自然的特性，包括元不確定性。小鼠在物理或虛擬軌道上的獎勵端口之間奔跑，并以隨時間在斑塊內衰減的速率接收液體獎勵。斑塊位置和豐富度用聲學線索指示。在斑塊內的任何時刻，小鼠都可以離開并前往下一個斑塊，后者被補充到其初始獎勵率。關鍵在于，我們在耗盡過程中引入了隨機性，因此獎勵遭遇序列包含信息性和隨機性元素，使小鼠面臨解析獎勵時機偏差是反映環境參數中的隨機性還是他們對環境的不確定性的需求。我們的結果表明，與簡單啟發式或標準 MVT 模型相比，通過貝葉斯估計器將結果變異性與環境穩定性分離開的分層模型更好地解釋了行為。因此，我們的研究闡明了小鼠如何通過計算行為策略適應其自然環境中普遍存在的現象——元不確定性——強調了決策中以前未知的一層復雜性，該復雜性支持在環境波動存在下的穩健行為。

結果

自由移動小鼠中基于斑塊的覓食任務

為了在實驗室中研究不確定性條件下的基于斑塊的覓食行為，我們開發了一種自由移動的小鼠實驗裝置。我們構建了一個線性軌道系統，類似于通常用于研究導航過程中海馬功能的裝置 [32, 33]。經過兩步訓練方案以熟悉實驗設置后（見材料與方法），小鼠成功完成了自由移動的基于斑塊的覓食任務。

該任務包括在線性軌道兩端之間來回奔跑，軌道兩端的獎勵端口提供隨機耗盡的糖水資源，并配有指示獎勵可用性的聲學線索（圖 1A，右上）。在每次任務會話開始時，將小鼠放置在線性軌道的中心。當小鼠導航至兩個獎勵端口中的任意一個時，獎勵端口附近的揚聲器會持續播放音調云，指示獎勵可用（圖 1A，左下）。當小鼠在獎勵端口內進行鼻尖探測時，可以舔舐噴口獲取液體獎勵。我們將這種鼻尖探測舔舐行為稱為"采集"（harvesting），這與行為生態學文獻中的用法一致 [1]。獎勵可用性遵循非齊次伽馬過程（IGP；也稱為修正的非齊次泊松過程），其泊松速率呈指數衰減（圖 1B，左下）。在獎勵可用時播放的純音提供了關于獎勵時機的信息，該信息獨立于舔舐行為。由于 IGP 的底層速率隨時間呈指數衰減，隨著動物停留在斑塊內，獎勵可用性變得越來越稀少，從而模擬了行為生態學中經典的斑塊耗盡過程 [1]。獎勵動態中的隨機性水平在三個等級之間變化，并使用獎勵隨機性指數（RSI）進行量化，該指數定義為隱藏事件體積與可觀察獎勵體積的比率（見材料與方法）。較大的 RSI 值對應于獎勵時機的更大方差，且獨立于衰減速率。

當小鼠在獎勵端口進行鼻尖探測（nose-poke）時，它們可以通過停止探測（un-poking）來終止采集，此時音調云（tone-cloud）刺激停止播放，以指示該端口處于非活動狀態。停止探測會立即觸發聲學粉紅噪聲從對面端口附近的揚聲器播放，提示小鼠該端口有獎勵可用。當小鼠行進并探測對面端口時，聽覺線索切換為音調云，小鼠可以像之前一樣從耗盡的非齊次伽馬過程（IGP）中接收獎勵。行進距離，以及由此產生的因在端口間行進而損失時間所帶來的機會成本，通過使用兩條不同長度的軌道進行了系統且明確的改變（圖 1B，右上）。每次行為會話使用一組固定的環境參數。

小鼠根據環境統計量的每日擾動調整其行為

一組小鼠（N=8 只，每只動物 27.6 ± 1.1 次會話）在低隨機性水平下進行了基于斑塊的覓食任務。對于每次會話（每天一次），獎勵衰減速率具有四個值之一（τ；3、6、12 或 24 秒；圖 1B，左下），并使用兩種軌道長度之一（1 米或 4 米；圖 1B，右上）。在各種環境中，小鼠學會了在獎勵端口之間交替并舔舐以獲取獎勵（圖 1C），每次會話遇到大量斑塊（正態分布；μ = 45.58, σ = 22.68），并且在斑塊內停留的時間（即鼻尖探測持續時間）范圍很廣（對數正態分布；μlog10 = 0.91, σlog10 = 0.29），這被稱為斑塊停留時間（patch-residence time）[1]。

我們將停留時間定義為從進入獎勵端口（通過探測）到離開（通過停止探測）的時間，將非采集時間定義為從離開一個獎勵端口到進入下一個活動獎勵端口之間的時間。因為動物也表現出非覓食行為，例如探索或梳理毛發，我們將任務相關的非采集時間（稱為“行進時間”）估算為每只動物在每種軌道類型上所有斑塊間持續時間的第十百分位數，盡管結果在廣泛的百分位數值范圍內都很穩健（S7 圖）。完整的非采集時間（圖 2A）和任務相關的行進時間估算（圖 2B）都表明，軌道長度影響了在獎勵端口之間行進的時間成本。為了理解獎勵耗盡率和行進時間對采集行為的綜合影響，我們使用聚類自助法設計（cluster bootstrap design）（S5 圖；見方法）測試了它們對停留時間的影響。我們發現這兩個參數都影響了停留時間，并且行為適應的方向與邊際值定理（MVT）一致（圖 2C；衰減速率：r = 0.50 [0.46, 0.55]（均值 [95% CI]），p(r>0)>0.9999；軌道長度：r = 0.10 [0.05, 0.16]，p(r>0)>0.9999）。

我們注意到，斑塊停留時間在單次會話過程中逐漸減少，這種任務時長效應可能源于疲勞或飽腹感 [34, 35]。我們還注意到，動物之間的總體停留時間存在顯著變異性。為了在單一模型中量化實驗操控因素（衰減速率、行進距離）和這些混淆因素（任務時長和個體特異性偏差）如何共同影響行為，我們對該數據集擬合了一個線性混合模型（LMM）。我們將獎勵衰減速率、任務相關的行進時間以及任務時長設為固定效應，將動物個體身份設為隨機效應。在低隨機性環境中，衰減速率和行進時間的影響高度顯著，且與邊際值定理（MVT）一致；較慢的衰減速率和較長的行進時間與更長的停留時間相關（見 S1 表中的表 A）。

基于 MVT 的模型在解釋行為方面優于簡單啟發式策略

盡管基于斑塊的覓食規范性模型由邊際值定理（MVT）支配，且上述分析表明我們的小鼠結果與 MVT 的主要預測一致，但動物通常通過應用簡單的啟發式決策策略來解決任務 [16, 36–38]。使用簡單啟發式策略可能在滿足生存所需足夠獎勵率的同時降低認知需求。另一方面，使用基于 MVT 的模型將最大化獎勵率 [6, 39]。因此，在轉向更復雜的模型（包括與獎勵隨機性相關的模型）之前，我們通過擬合動物停留時間的預測模型，評估小鼠在覓食行為中采取的策略是否遵循一種近似于基于 MVT 行為的簡單啟發式規則。

我們確定了小鼠可能采用的三種"局部"（斑塊內）啟發式規則。即，動物可能在以下情況下離開斑塊：(1) 自進入斑塊后經過固定時長 [啟發式，恒定時間；HEU-CT]，(2) 在遇到固定數量的獎勵后 [啟發式，獎勵數量；HEU-NR]，或 (3) 自上一次獎勵后經過固定時長 [啟發式，自獎勵起經過的時間；HEU-ETR]。對于每只動物，我們使用每個相關指標的平均值（即每個斑塊的平均時長、獎勵數量，或最后一次獎勵與離開斑塊之間的延遲）來預測每個斑塊中的停留時間（圖 3A–3B）。我們首先將這些模型應用于低隨機性條件。

我們將啟發式模型的結果與兩種基于 MVT 的模型進行了比較（圖 3C）。在第一個 MVT 模型中，我們利用對底層參數的了解，通過優化整體獎勵率來預測每個環境下的停留時間，這等同于經典覓食理論中的最優停留時間（MVT，最優；MVT-OPT）。由于動物可能會產生穩定但不準確的任務參數內部估計，在第二個 MVT 模型中，每只動物的預測停留時間遵循 MVT，但使用的是針對每個環境固定的、環境特異性的參數估計值，這些估計值未必正確（MVT，基于內部模型；MVT-IM）。該模型假設動物試圖根據反映其感知到的或內部估計的每個環境的獎勵衰減速率和行進時間的模型參數，遵循 MVT 來最大化其整體采集率。在此過程中，MVT-OPT 方程中的環境參數被替換為那些能最好地預測實證停留時間的數值（S6 圖）。

在比較啟發式模型和 MVT 模型時，我們使用固定時長啟發式模型（HEU-CT）作為零假設。另外兩個啟發式模型與觀察到的數據擬合不佳，無論是在定性上還是定量上。HEU-NR 模型預測的斑塊停留時間對衰減速率的依賴趨勢與數據中觀察到的趨勢相反（圖 3D，芥末黃）。HEU-ETR 數據低估了快速獎勵衰減速率下的停留時間，并且由于其構建方式，無法捕捉軌道長度的影響（圖 3D，橙色）。MVT-OPT 模型在定性上捕捉到了軌道長度和獎勵衰減的影響，但像 HEU-ETR 一樣，低估了快速衰減速率下的斑塊停留時間（圖 3E，青色）。相對于根據 MVT 計算的最優時間，動物在斑塊中停留時間過長，或者說出現了過度采集（overharvesting），特別是在衰減速率較快的環境中（圖 3E），正如之前所觀察到的那樣 [41, 42]。MVT-IM 很好地捕捉了數據，沒有系統性誤差（圖 3E，綠色），包括解釋了快速衰減速率環境中的過度采集現象。因此，動物適應環境擾動的方式與 MVT 一致，但仿佛它們低估了斑塊獎勵衰減速率（圖 3F 和 S6；均方根預測誤差 (RMSE) [95% CI]：HEU-CT, 4.88 [4.75, 5.01]; HEU-ETR, 5.86 [5.75, 5.97]; HEU-NR, 6.57 [6.42, 6.71]; MVT-OPT, 4.90 [4.80, 5.00]; MVT-IM, 4.10 [4.00, 4.20]）。

局部獎勵序列動態影響斑塊離開決策

小鼠在每次會話中表現出顯著的斑塊離開時間變異性。我們假設這種會話內的行為變異性可能源于兩種不確定性來源：(1) 動物不知道每日的斑塊衰減參數，以及 (2) 獎勵可用性存在斑塊間的隨機性。因此，我們要確定近期的獎勵統計數據是否影響它們的選擇。為此，我們實施了一個貝葉斯模型，利用對底層泊松過程的了解，根據一組觀察到的獎勵時間生成當前獎勵率的最大似然估計（MLE）。我們將模型輸入限制在當前斑塊的獎勵時間，并計算了離開斑塊時的 MLE 和真實泊松獎勵率。隨后，我們將離開斑塊時貝葉斯模型估計的誤差與當前停留時間相對于給定會話中所有停留時間平均值的偏差進行了比較。

如果動物像 MVT 提出的那樣追蹤即時獎勵率來決定離開時間，那么高估獎勵率會導致更長的停留時間（圖 4A，左），反之亦然（圖 4A，右）。線性回歸顯示，在低隨機性環境中，貝葉斯比率估計誤差與停留時間相對于平均值的偏差之間存在顯著的正相關（圖 4B；觀測值：r = 0.52 ± 0.01，五次交叉驗證子集間的均值 ± 標準差；R2 = 0.27 ± 0.01；打亂后：r = 0.18 ± 0.01，R2 = 0.032 ± 0.002）。因此，即使獎勵隨機性很低，動物的離開時間也受到局部（當前斑塊）獎勵序列信息的影響。

動物在高度隨機環境中利用局部和全局信息

接下來，我們測試了在低隨機性環境中觀察到的行為策略是否延伸至更高隨機性的環境中。我們讓之前以 RSI=0.05 完成自由移動覓食任務的動物在同一任務中運行，但增加了獎勵時機的變異性（RSI ∈ [1.0, 2.0]；N=8 只小鼠，每只動物 10 ± 1 次會話）。任務的結構使得平均獎勵動態保持不變，但斑塊遭遇間獎勵時機的方差顯著增加（圖 1E–1F）。

在高隨機性環境中，小鼠仍然根據 MVT 隨衰減速率和軌道長度調整停留時間（圖 2D）。聚類自助法分析顯示這些變化具有統計學顯著性（衰減速率：r = 0.50 [0.46, 0.55]（均值 [95% CI]），p(r>0)>0.9999；軌道長度：r = 0.10 [0.01, 0.18]，p(r > 0) = 0.985）。為了進一步測試行為適應性，如上所述，我們使用與擬合低隨機性數據相同的解釋變量，用線性混合模型（LMM）擬合了高隨機性環境中的行為數據。該模型顯示，對于衰減速率和軌道長度的操控，停留時間均出現了符合 MVT 預期方向的顯著適應性（見 S1 表中的表 A）。

隨后，我們通過將相同的局部啟發式和基于 MVT 的模型擬合到高隨機性環境中的停留時間來評估行為策略（圖 5B–5C，左）。值得注意的是，基于平均獎勵動態的模型，包括所有局部啟發式和 MVT 模型，做出的預測不依賴于 RSI，因此預測的停留時間與低隨機性環境中的相似。與低隨機性環境一致，基于觀察到的獎勵數量（HEU-NR）和感知到的 MVT 參數（MVT-IM）的模型分別是表現最差和最好的（RMSE [95% CI]：HEU-CT, 4.92 [4.72, 5.12]; HEU-ETR, 4.67 [4.48, 4.92]; HEU-NR, 7.03 [6.82, 7.24]; MVT-OPT, 4.85 [4.67, 5.05]; MVT-IM, 3.98 [3.81, 4.16]），這表明動物有效地從隨機觀察中提取了平均動態。然而，與低隨機性環境相反，在高隨機性中，未觀察到獎勵的經過時間啟發式模型（HEU-ETR）部分解釋了停留時間的方差，暗示當獎勵時機更多變時，動物默認追蹤這一簡單指標。盡管如此，盡管獎勵序列更不可預測，動物仍表現出與 MVT 一致的行為適應性。

接下來，我們利用這些會話進一步探索動物是否在對獎勵參數進行連續、動態的估計，正如低隨機性環境會話的模型所指示的那樣（圖 4B）。與之前一樣，我們利用當前的獎勵序列計算了離開斑塊時的泊松速率的最大似然估計（MLE），并將其與相對于會話平均值的停留時間變化進行了比較（圖 4C）。相關性既為正又顯著（RSI ∈ [0.5, 1.0]；觀測值：r = 0.49 ± 0.02（五折交叉驗證子集間的均值 ± 標準差），R2=0.24 ± 0.02；打亂后：r=0.06 ± 0.01，R2=0.004 ± 0.001；見 S2 圖），這與小鼠利用近期獎勵歷史來修正全局斑塊離開決策的假設一致。有趣的是，雖然正如預期的那樣，估計誤差的方差隨著 RSI 的增加而增加，但停留時間的方差保持不變（見圖 4C 中的邊緣分布）。因此，增加斑塊內獎勵動態的隨機性并沒有影響整體的會話內行為變異性，而是將這種決策變異性與獎勵序列變寬的分布耦合在了一起。

動物利用近期觀察結果更新其對環境變量的估計

接下來，我們探索了當前斑塊的表現如何受到近期斑塊歷史的影響。我們遵循與上述相同的程序，比較離開斑塊時估計的獎勵率誤差與停留時間的變化，不同之處在于泊松速率的最大似然估計（MLE）除了包含當前斑塊的序列外，還納入了來自先前斑塊的獎勵序列（圖 4D）。值得注意的是，與停留時間的局部適應性之間的相關性與用于估計獎勵率的近期歷史程度呈負相關，這表明斑塊離開決策的大幅變化源于最近觀察到的獎勵序列的時機（圖 4E）。

雖然這些發現證明了估計獎勵率與停留時間適應性之間的關系，但它們并未根據估計的速率生成停留時間的實際預測。為此，我們構建了一個斑塊停留時間的預測模型，該模型利用獎勵率的 MLE 作為輸入。與 MVT 一致，該模型假設當即時獎勵率低于給定模型時動物會離開斑塊。然而，新模型利用的是估計的（而非固定的）獎勵率（MLE-x，其中 x 代表納入泊松速率似然估計的近期斑塊數量）。與圖 4E 中一樣，使用給定程度的斑塊歷史計算每個斑塊的泊松速率 MLE。獎勵率閾值對應于 MVT-IM 模型中離開斑塊時的獎勵率。與停留時間的局部適應性相反，模型預測誤差隨著斑塊歷史范圍的增加而減小，并漸近地接近 MVT-IM 模型的準確性（圖 S3A 和 5C）。

因此，捕捉不同時間尺度的變異性導致了關于斑塊離開決策中納入的斑塊歷史程度的表面上相互矛盾的建議。停留時間的斑塊間變異性最好由最近的觀察結果解釋，而整個會話的平均停留時間最好通過納入所有先前的觀察結果（包括久遠的觀察結果）來解釋。換句話說，雖然近期經驗影響了斑塊離開決策的斑塊間變異性，但它并未以獎勵率估計的形式提供足夠的證據來完全預測斑塊離開決策。

這種與觀察歷史程度的不一致關系表明了一個模型，其中環境的局部和全局估計是獨立計算的，并對行為做出了不同的貢獻。為解決這個問題，我們使用貝葉斯方法來納入底層獎勵率參數（初始獎勵率和衰減速率）的先驗概率，以及獎勵率的 MLE，它們分別反映了環境的全局和局部特征。由此產生的獎勵率估計稱為最大后驗（MAP）估計，它通過用先驗信念調節似然度來擴展 MLE，在這種情況下，先驗信念反映了小鼠對平均統計數據的感知。該模型預測，當獎勵率的 MAP 估計低于獎勵率閾值時會發生斑塊離開，該閾值對應于給定環境的 MVT-IM 參數。根據圖 4E 的結果，我們使用了當前斑塊以及最多前三個斑塊遭遇中觀察到的獎勵時間。

為了確定最佳模型參數化，我們首先通過在一系列先驗分布上計算預測誤差來進行網格搜索，這些先驗分布以 MVT-IM 的獎勵參數為中心，但方差不同，反映了全局估計中的不確定性程度（圖 5A 和 S3B–S3D）。因此，這些模型在概率框架（MAP）中反映了動物對環境參數的感知（基于內部模型），該框架由近期經驗更新（局部優化）。最佳擬合模型（MAP，基于內部模型，局部優化；MAP-IM-L）僅使用當前斑塊（N = 1）的觀察結果，獎勵率參數具有中等不確定性（，）；參數描述見材料與方法）。與 MVT-IM 相比，改進不顯著（圖 5B–5C；RMSE [95% CI]：）。

雖然 MAP-IM-L 模型采用了 MVT-IM 模型的參數來設定斑塊離開決策的獎勵率閾值，但一旦通過概率框架捕捉到局部適應性，最能解釋動物行為的閾值可能會有所不同。因此，我們構建了一個模型，其中先驗分布的參數和獎勵率閾值都采用分層方法進行優化（MAP，基于內部模型，全局和局部優化；MAP-IM-GL）。對于每組先驗分布，計算每個環境中使預測誤差最小化的獎勵率閾值（S3D 圖；見材料與方法）。當評估預測停留時間的準確性時，最佳擬合的 MAP-IM-GL 模型（N = 1，，）顯著優于所有僅利用全局或局部環境特征的其他行為模型（圖 5B–5C；RMSE [95% CI]：）。

頭部固定虛擬覓食任務中的行為遵循 MVT 原則，而非簡單啟發式策略

由于頭部固定行為允許使用更廣泛的生理學方法，我們接下來測試了自由移動任務是否可以改編為用于頭部固定小鼠的虛擬基于斑塊的覓食任務。在虛擬覓食任務中，小鼠在一維虛擬空間中的圓柱形跑步機上奔跑，使用與自由移動任務相同的聽覺線索（圖 6A）。斑塊之間由虛擬軌道距離隔開，動物必須在輪子上跑過這段距離才能到達下一個虛擬斑塊（圖 6B）。小鼠在任務開始時從一個斑塊開始。當小鼠保持靜止時播放聲學音調云，表明它們處于斑塊內。每當有獎勵可用時嵌入純音，遵循非齊次伽馬過程，此時小鼠舔舐即可接收獎勵。與之前一樣，蔗糖溶液獎勵是恒定的 2 體積，并且隨著在斑塊內時間的推移，它們之間的間隔越來越長。在虛擬斑塊內的任何時刻，小鼠都可以開始在跑步機上行走或奔跑，這標志著斑塊離開決策，并且開始播放粉紅噪聲以指示它們不再處于斑塊內。當它們在虛擬空間中接近下一個斑塊時，粉紅噪聲的強度增加，直到它們跑完了給定環境的完整虛擬軌道距離，此時聲音切換為音調云。當小鼠此外還變為靜止狀態時，獎勵生成過程開始，這標志著對斑塊進入的識別。這種虛擬斑塊停留和斑塊間行進的序列在會話期間持續進行。

在經過一段熟悉頭部固定裝置的訓練期后，小鼠在低隨機性（RSI = 0.05）和高隨機性（）環境中，使用三種獎勵衰減速率（）和三種虛擬軌道長度（60 厘米、100 厘米、200 厘米）執行覓食任務。與自由移動任務一樣，每次會話使用一組固定的參數。使用與自由移動任務類似的標準，表現較差的會話和動物被從分析中剔除。在剩余的會話中，任務相關行為在斑塊間和斑塊內均被估計。

我們將任務相關的行進時間定義為動物速度超過斑塊進入閾值（0.5 厘米/秒）的時間，這占所有納入會話總行進時間的 70%（S4D 圖）。此外，在大約三分之一的情況下，動物連續跑向下一個斑塊。我們將平均任務相關行進時間估計為每只動物在每種虛擬軌道長度上任務相關行進時間的幾何平均值。正如預期的那樣，在低隨機性和高隨機性環境中，任務相關時間都隨著虛擬軌道長度的增加而增加，這表明虛擬斑塊間距離改變了前往下一個斑塊的時間成本（圖 6D；平均任務相關行進時間：60 厘米，13.22 秒；100 厘米，16.14 秒；200 厘米，30.14 秒）。一旦它們跑完虛擬軌道長度，動物會以與軌道長度成比例的時間充分減速以進入斑塊（S4E 圖；延遲的幾何平均值（占平均任務相關行進時間的比例）：60 厘米，4.46 秒（0.34）；100 厘米，4.77 秒（0.30）；200 厘米，7.26 秒（0.24））。

與動物需要主動進行鼻尖探測以停留在斑塊內的自由移動任務不同，頭部固定任務在虛擬斑塊內不需要主動參與。因此，我們認為舔舐頻率反映了參與度，并將任務相關的停留時間估計為舔舐頻率超過最小閾值（0.5 赫茲；S4A–S4B 圖）的時間。在 49% 的納入斑塊中，小鼠在至少 95% 的停留時間內保持參與；在 61% 的納入斑塊中，至少 80% 的時間保持參與；在 66% 的納入斑塊中，至少 60% 的時間保持參與。為了有效排除與任務無關的行為時段，我們在剩余分析中僅分析了參與度超過 60% 的斑塊（S4C 圖）。

隨后，我們調查了環境參數對虛擬基于斑塊的覓食任務中任務相關停留時間的影響。在低隨機性環境中（N = 3 只小鼠，每只動物 13.0 ± 2.2 次會話），聚類自助法分析顯示，獎勵衰減速率（而非虛擬軌道長度）與任務相關停留時間顯著相關（圖 6E；衰減速率：（均值 [95% CI]），p(r > 0) > 0.9999；軌道長度：，）。在高隨機性環境中（N = 3 只小鼠，每只動物 9.7 ± 2.5 次會話），兩個參數均與任務相關停留時間顯著相關（圖 6F；衰減速率：（均值 [95% CI]），；軌道長度：，p(r > 0) > 0.9999）。根據獎勵衰減速率和平均任務相關行進時間預測任務相關時間的線性混合模型與聚類自助法結果一致（見 S1 表中的表 B）。所有顯著參數的系數符號均與 MVT 一致；即，較慢的衰減速率或較長的行進時間與較長的停留時間相關。因此，總體而言，平均行為在頭部固定的虛擬基于斑塊的覓食環境中反映了 MVT 的原則。這些結果表明，基于斑塊的覓食可以在頭部固定范式中實現。

覓食是自然界中典型的決策過程，因此必然驅動了認知過程的進化。因此，覓食過程中利用的心理通路與自然界中存在的決策過程直接相關 [4, 43, 44]。行為生態學和行為學的大量研究表明，覓食任務中充分的資源獲取可以通過多種策略 [6, 15, 16, 36–38, 45, 46] 或行為模型 [25, 38, 47–52] 來描述。此外，由于覓食的幾個組成部分（例如探索與利用之間的權衡）在精神疾病中會受到破壞 [13, 14]，覓食任務提供了一種潛在的跨物種工具，用于表征潛在的神經病理學。相比之下，傳統實驗室任務的設計旨在便于分析和解釋，只能間接揭示現實世界中的決策過程。重要的是，自然過程中固有的多層不確定性在傳統任務設計和行為模型中基本缺失。在此，我們利用來自新穎實驗范式的大量行為數據，闡明了動物在自然環境中行為的機制。我們的結果表明，動物通過整合多時間尺度的信息來建模元不確定性。動物并非僅依賴平均統計量或近期觀察結果，而是利用分層框架有效獲取資源，同時解析斑塊內動態不同分布內部及之間的不確定性。

本研究建模的不確定性發生在兩個不同層面：斑塊耗竭速率的不確定性，源于環境參數的每日擾動；以及在已知耗竭速率下獎勵時機的不確定性，源于獎勵生成過程的底層隨機性。這種"變異性的變異"被稱為"元變異性"（meta-variability），相關的認知負荷被稱為"元不確定性"（meta-uncertainty）。為了在自然環境中應對這一現象，當動物面臨偏離預期的情況時，必須判斷這是由于同一底層分布的變異性所致，還是代表環境參數發生了變化。盡管前者已被廣泛研究 [18, 53]，但關于處理元不確定性的內在機制知之甚少。我們的實驗設計獨特地在這些隨機環境中引入并建模了覓食決策，表明動物可以構建復雜模型，在具有挑戰性、波動性的環境中做出明智決策。此外，動物無需計算底層參數的精確貝葉斯估計，而是通過近期觀察結果不斷更新其模型，這種方法為理解不穩定自然環境中的覓食行為提供了機制性見解 [54]。因此，我們的結果不僅表明動物有能力在具有多層不確定性的環境中有效做出決策，而且它們還可以構建極其高效的模型來在此類環境中執行任務，這一發現對行為生態學和神經科學的視角都具有重要意義。

元變異性在自然界中普遍存在，因此，不同學科以多種方式對其進行了框架化。例如，在機器學習領域 [55]，元不確定性被理論化為由偶然不確定性（aleatoric uncertainty，與觀察結果相關）和認知不確定性（epistemic uncertainty，與模型參數相關）組成。在本文提出的貝葉斯模型框架內，這兩種不確定性分別與似然度（獎勵時機）和后驗分布（獎勵衰減速率）直接相關 [56]。在神經科學界，元不確定性已在多種情境下得到研究，從封裝刺激變異性水平的神經狀態波動 [57, 58]，到對決策信心的不確定性 [59]。更一般地，[60] 引入的相關范式區分了與本質上隨機的觀察結果（或獎勵）相關的預期不確定性，以及由底層過程參數變化引起的意外不確定性，這一概念通常與強化學習和探索/利用權衡相關 [61–66]。研究表明，小鼠通過估計刺激的方差來學習處理預期不確定性 [67]，并且在較小程度上，通過編碼與預期分布的偏差來處理意外不確定性 [68–71]。然而，這些研究通常使用傳統的、基于試次的方法，即使在覓食情境下也是如此 [70]。此外，這些方法（如概率反轉學習）將動物對意外不確定性的反應建模為在兩個或多個獎勵位點之間的偏好，而無需對底層參數進行顯式推斷。相比之下，我們任務引入的元不確定性在連續時間（獎勵時機的變異性）和連續任務空間（獎勵衰減速率的變異性）中評估決策。我們的工作通過展示小鼠以自然形式（基于斑塊的覓食）處理元不確定性的能力，擴展了先前關于小鼠不確定性的模型。因此，我們的結果促進了對認知能力庫及潛在神經回路的研究，而這些在基于試次的任務中無法直接評估。

更廣泛地說，處理元變異性及元不確定性的行為策略及潛在神經回路在很大程度上仍是未知的，并且正在被積極研究。動物會尋求先前信息的指導 [72]；即使面對矛盾證據也傾向于堅持當前選擇 [73–75]（也稱為堅持性，或在覓食情況下，與過度采集相關）；并且有趣的是，做出的決策至少部分本質上是隨機的 [76]。例如，盡管平均行為可能與經過訓練的、甚至是理想的貝葉斯觀察者相關，但個體決策仍保持著行為模型無法捕捉的顯著變異性水平 [76]，正如我們的結果所見。先前研究已觀察到覓食情境下的高行為變異性 [3]，相關的過度采集既可解釋為貝葉斯推斷的后果 [77]（特別是對于快速衰減的斑塊），也可解釋為對自身行為變異性的一種補償機制 [42]。在特定情況下，覓食者可能構建隨機環境的多峰模型并相應調整停留時間，從而產生行為變異性的另一個來源 [78–80]，盡管鑒于我們任務中獎勵序列的隨機性，這種策略不太可能出現。同時，后驗概率的利用是覓食決策的一個重要特征；盡管早期隨機環境的理論模型提出了一種啟發式策略 [15]，但我們的結果與近期提出貝葉斯方法的模型一致 [49]。這一策略很重要，因為它塑造了人們研究潛在神經回路的方式。例如，先前的研究已通過積分至閾值機制證明了背側前扣帶回皮層（dACC）在斑塊離開決策中的重要性 [3]。雖然 dACC 的活動在停留或離開決策期間短暫增加，但在持續決策過程中以及面對元不確定性時的編碼尚不清楚。此外，多巴胺、5-羥色胺或乙酰膽堿等神經調節劑可能追蹤不同水平和類型的變異性 [51, 81–83]，或調節離開時間 [25]。我們在此提出的隨機覓食環境的行為和分析框架將有助于更好地映射神經活動與自然行為之間的關系。

我們的方法和結果指向了多個有前景的進一步研究方向。盡管自由移動任務分析中包含的斑塊遭遇數量很大（300 次會話中 14,060 個斑塊），但動物數量（N = 8）不足以研究動物間的行為差異。例如，個體小鼠對獎勵變異性表現出不同的敏感性，這可能反映了學習率的連續譜，或完全不同策略的聚類。此外，未來的實驗可以測試在自由移動和虛擬斑塊覓食環境之間，行為的哪些方面以及潛在的神經回路機制是共同或不同的。在兩項任務中，動物也表現出相當比例的與任務無關的行為，例如自由移動任務中斑塊外的探索或梳理毛發，或頭部固定任務中的不活動時段，這可能部分源于自然主義任務設計所賦予的行為自由度。特別是在自由移動任務中，探索表現為直立、嗅探或試圖攀爬實驗裝置的墻壁；更審慎的行為，如意念改變或頭部轉動，則在鼻尖探測期間以較短時間尺度呈現。盡管本研究在分析中排除了這一層行為噪聲，但未來的工作可以利用更復雜的數據，如分別跟蹤動物運動和瞳孔尺寸的視頻，來構建更全面的行為模型，包括覓食和非覓食狀態 [41]。最后，由于動物經歷了長期的訓練期，且環境參數在數天內順序修改，任務學習難以研究。此外，由于實驗方案，同一動物用于研究感興趣參數（例如，在給定軌道上與）的可比會話在某些情況下相隔數天。未來使用會話內環境參數切換（確定性或隨機性）的工作將進一步闡明行為適應環境擾動的時間進程。

許多認知研究采用自上而下的方法，即實驗設計旨在測試特定的認知功能。這不僅導致了非自然任務的設計，還預設了源自人類心理學的心理過程適用于所研究的動物物種。在這兩種情況下，結果可能難以解釋甚至具有誤導性。我們反而采用自下而上的方法，通過從自然原則構建任務，允許動物自由執行任務，并跟隨其行為生成解釋性模型。當然，沒有任何實驗室任務能完美復制原生環境，必須在數據采集（包括神經數據）和行為自由度之間做出權衡。然而，越來越達成的共識是，實驗室任務在模仿大腦進化所適應的世界時將產生最佳結果，這一觀點對于基于斑塊的覓食尤其如此 [4, 5]。此外，本研究概述的行為范式和分析方法為研究決策過程的進一步方面（如情境信息或連續模型 [84, 85]）提供了框架。通過調用原生行為并呈現自然主義的不確定性，基于斑塊的覓食任務為研究基本決策過程提供了無數機會。

原文鏈接：https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1012989

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.