![]()
認(rèn)知神經(jīng)科學(xué)前沿文獻(xiàn)分享
![]()
基本信息
Title:Human hippocampal ripples prioritize model-based learning
發(fā)表時間:2026-4-9
發(fā)表期刊:Neuron
影響因子:15.0
獲取原文:
1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
研究背景
人類大腦有一種驚人的能力:能從極其稀疏的經(jīng)驗中高效學(xué)習(xí)。想象你偶然在一條偏僻的山谷里發(fā)現(xiàn)了一座金礦,你不僅會記住剛剛走過的那條路,還會立刻意識到,其他那些你從未走過、但同樣通向這個山谷的路線也變得極具價值。
![]()
在強(qiáng)化學(xué)習(xí)領(lǐng)域,這種能力被稱為“基于模型的學(xué)習(xí)”(model-based learning)。大腦利用對環(huán)境的內(nèi)部模型,將直接獲得的局部經(jīng)驗,推斷并泛化到未曾經(jīng)歷的非局部選項上。然而,現(xiàn)實世界極其復(fù)雜,如果大腦要在每次獲得獎勵后更新所有未經(jīng)歷的路線,計算量將是災(zāi)難性的。因此,強(qiáng)化學(xué)習(xí)理論提出大腦必須進(jìn)行“優(yōu)先級排序”,優(yōu)先更新那些最有用、最迫切的非局部經(jīng)驗。
那么,大腦究竟是如何在神經(jīng)層面實現(xiàn)這種優(yōu)先級排序的?
嚙齒類動物研究表明,海馬體在組織經(jīng)驗重放中起著關(guān)鍵作用,尤其是伴隨出現(xiàn)的一種短暫的高頻腦電活動:尖波漣漪(sharp-wave ripples)。同時,人類的功能磁共振成像(fMRI)研究也發(fā)現(xiàn),前額葉皮層在表征任務(wù)結(jié)構(gòu)和評估備選項時不可或缺。但是,由于fMRI的時間分辨率限制,我們一直不清楚海馬尖波漣漪在人類基于模型的學(xué)習(xí)中具體扮演什么角色,以及它如何與前額葉皮層在毫秒級別上協(xié)同工作來完成復(fù)雜的信用分配。
為了回答這個問題,研究團(tuán)隊招募了34名植入顱內(nèi)深度電極(iEEG)的癲癇患者,讓他們完成一項精心設(shè)計的強(qiáng)化學(xué)習(xí)任務(wù),以此直接觀察大腦在獲得獎勵后,是如何將價值更新傳播到未走過的路線上,并揭示其背后的跨腦區(qū)協(xié)調(diào)機(jī)制。
![]()
研究核心總結(jié)
這項研究巧妙地設(shè)計了一個“三臂老虎機(jī)”任務(wù)。每條機(jī)械臂固定連接兩條路線,而每條路線最終通向兩個可能產(chǎn)生獎勵的終點之一。這種結(jié)構(gòu)使得研究者能夠?qū)?strong>“局部學(xué)習(xí)”(更新剛走過的路線)與“非局部學(xué)習(xí)”(更新通向同一終點的其他未走路線)分離開來。
一、行為學(xué)證據(jù):人類會根據(jù)“優(yōu)先級”更新未歷經(jīng)驗
研究首先在行為層面上證實了非局部學(xué)習(xí)的存在。當(dāng)受試者在某個終點獲得獎勵后,他們在下一回合不僅更傾向于選擇剛走過的路線,也更傾向于選擇那些同樣通向該終點但剛才沒走過的路線。
然而,非局部學(xué)習(xí)的效率低于局部學(xué)習(xí),存在一個“效率鴻溝”。計算模型分析表明,受試者并非盲目地更新所有未走過的路線,而是根據(jù)“優(yōu)先級”來分配學(xué)習(xí)資源。這里的優(yōu)先級由“需求”(這條路線出現(xiàn)的頻率有多高)和“收益”(預(yù)測誤差有多大)共同決定。模型擬合結(jié)果顯示,受試者對高優(yōu)先級的非局部路線具有顯著更高的學(xué)習(xí)率。
![]()
Fig 1. 實驗設(shè)計與行為學(xué)表現(xiàn)。受試者需要利用學(xué)習(xí)到的任務(wù)結(jié)構(gòu),將直接獲得的獎勵價值推導(dǎo)并更新到未曾走過的其他路線上。
![]()
Fig 2. 行為學(xué)模型表明,受試者對高優(yōu)先級的非局部路線具有更高的學(xué)習(xí)率,且結(jié)構(gòu)利用能力越差的受試者,局部與非局部學(xué)習(xí)的效率鴻溝越大。二、海馬尖波漣漪不僅反映獎勵預(yù)測誤差,更編碼非局部更新的優(yōu)先級
在明確了行為模式后,研究者將目光轉(zhuǎn)向了神經(jīng)信號。顱內(nèi)腦電數(shù)據(jù)顯示,在受試者獲得獎勵后的2.5秒內(nèi),海馬體同時編碼了獎勵預(yù)測誤差和非局部路線的優(yōu)先級。
更關(guān)鍵的發(fā)現(xiàn)隱藏在海馬尖波漣漪中。研究者發(fā)現(xiàn),在獲得獎勵后的420到740毫秒這個特定時間窗內(nèi),海馬尖波漣漪的發(fā)生率不僅與預(yù)測誤差相關(guān),更與優(yōu)先級緊密掛鉤。特別值得注意的是,漣漪的持續(xù)時間(duration)特異性地反映了優(yōu)先級信息:當(dāng)非局部路線的優(yōu)先級較高時,長時程漣漪的持續(xù)時間會顯著增加,而短時程漣漪則沒有這種變化。這意味著,海馬尖波漣漪不僅僅是在宣告“有獎勵發(fā)生”,更是在計算“哪些未經(jīng)歷的路線最值得更新”。
![]()
Fig 3. 顱內(nèi)腦電記錄顯示,外側(cè)額極皮層(LFPC)和海馬在基于模型的決策與獎勵處理中發(fā)揮核心作用。
![]()
Fig 4. 獲得獎勵后,海馬尖波漣漪(尤其是長時程漣漪)顯著編碼了非局部路線的更新優(yōu)先級。三、漣漪發(fā)生期間,大腦皮層選擇性地“重放”高優(yōu)先級路線
如果海馬尖波漣漪確實在指導(dǎo)優(yōu)先級的分配,那么大腦皮層中應(yīng)該能觀察到相應(yīng)經(jīng)驗的重現(xiàn)。研究者利用獨立數(shù)據(jù)訓(xùn)練了針對不同路線圖像的神經(jīng)解碼器,并在主任務(wù)中檢測這些路線的自發(fā)重現(xiàn)(reactivation)。
結(jié)果證實了這一猜想。在獎勵接收階段,大腦皮層對高優(yōu)先級非局部路線的重現(xiàn)強(qiáng)度顯著高于低優(yōu)先級路線。更重要的是,這種重現(xiàn)強(qiáng)度的分化極其依賴于海馬尖波漣漪的時間窗口。在漣漪發(fā)生前,高低優(yōu)先級路線的重現(xiàn)沒有差異;而恰恰是在漣漪發(fā)生的瞬間(前后100毫秒內(nèi)),高優(yōu)先級路線的皮層重現(xiàn)被顯著增強(qiáng)。這表明海馬尖波漣漪開啟了一個短暫的時間窗口,引導(dǎo)皮層選擇性地重放最有價值的替代方案。
![]()
Fig 5. 在海馬尖波漣漪發(fā)生的窗口期,大腦皮層對高優(yōu)先級非局部路線的神經(jīng)重現(xiàn)顯著增強(qiáng)。四、外側(cè)額極皮層與海馬的精準(zhǔn)同步驅(qū)動了非局部學(xué)習(xí)
基于模型的學(xué)習(xí)不僅需要海馬的重放,還需要準(zhǔn)確調(diào)用內(nèi)部的任務(wù)結(jié)構(gòu)。研究發(fā)現(xiàn),位于前額葉最高層級的外側(cè)額極皮層(LFPC)在這一過程中扮演了關(guān)鍵角色。
在獎勵后的漣漪窗口期,LFPC的活動顯著增強(qiáng),并且專門編碼了優(yōu)先級信息。有趣的是,如果脫離了海馬尖波漣漪的同步,LFPC就不再編碼優(yōu)先級。此外,受試者在漣漪期間LFPC的激活越強(qiáng),他們在行為上對任務(wù)結(jié)構(gòu)的利用就越準(zhǔn)確。
為了驗證這種神經(jīng)同步是否真的影響了學(xué)習(xí),研究者構(gòu)建了一個混合學(xué)習(xí)模型。結(jié)果顯示,只有當(dāng)LFPC活動與海馬尖波漣漪精準(zhǔn)對齊時,才會特異性地提高非局部學(xué)習(xí)的學(xué)習(xí)率。相比之下,腹內(nèi)側(cè)前額葉(VMPFC)和外側(cè)眶額皮層(LOFC)在漣漪期間只編碼預(yù)測誤差,不編碼優(yōu)先級。這種雙重分離表明,海馬與LFPC的協(xié)同是實現(xiàn)復(fù)雜模型學(xué)習(xí)的專屬機(jī)制。
![]()
Fig 6. 只有當(dāng)LFPC活動與海馬尖波漣漪精準(zhǔn)對齊時,才會特異性地促進(jìn)基于模型的非局部價值學(xué)習(xí)。
![]()
研究意義
這項研究為我們理解人類如何從稀疏經(jīng)驗中學(xué)習(xí)提供了細(xì)胞尺度的機(jī)制解釋。它不僅證實了海馬尖波漣漪在人類高級認(rèn)知功能中的核心地位,還揭示了漣漪的異質(zhì)性:長時程漣漪在編碼復(fù)雜優(yōu)先級信息時承擔(dān)了更重要的計算任務(wù)。
在理論層面上,該研究修正了我們對前額葉功能的傳統(tǒng)認(rèn)知。它表明,外側(cè)額極皮層(LFPC)參與基于模型的價值更新,并不是孤立進(jìn)行的,而是必須在海馬尖波漣漪開啟的特定時間窗口內(nèi),通過精準(zhǔn)的跨腦區(qū)節(jié)律同步來實現(xiàn)。這種“海馬-前額葉”的動態(tài)耦合,構(gòu)成了大腦進(jìn)行高效信用分配的神經(jīng)基礎(chǔ)。
同時,這項工作也明確了其研究邊界。由于任務(wù)中多條路線確定性地指向同一終點,研究尚無法完全剝離純粹基于模型的預(yù)測誤差與初級獎勵反應(yīng)。此外,受限于人類宏觀電極的空間分辨率,未來仍需要借助更高密度的記錄手段或因果調(diào)控技術(shù),進(jìn)一步探究這些節(jié)律同步背后的微觀環(huán)路基礎(chǔ)。
分享人:飯鴿兒
審核:PsyBrain 腦心前沿編輯部
你好,這里是「PsyBrain 腦心前沿」
專注追蹤全球認(rèn)知神經(jīng)科學(xué)的最尖端突破
視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊
每日速遞「深度解讀」與「前沿快訊」
科研是一場探索未知的長跑,但你無需獨行。歡迎加入PsyBrain 學(xué)術(shù)社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。
點擊卡片進(jìn)群,歡迎你的到來
一鍵關(guān)注,點亮星標(biāo) ? 前沿不走丟!
![]()
一鍵分享,讓更多人了解前沿
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.