視知覺、注意和工作記憶中的時間整合適應性過程
Temporal integration as an adaptive process in visual perception, attention,and working memory
https://www.sciencedirect.com/science/article/pii/S0149763425000417
![]()
摘 要
我提出,時間整合在視覺感知中是普遍存在的,因為它發揮著一種適應性作用。為支持這一觀點,我整合了來自歷史上相互分離、且針對不同時間尺度的研究領域的證據。在一個極端上,這涉及在小于四分之一秒的時間間隔內對連續刺激進行檢測與辨別。在中間層面,與注意片段相關,考慮的是介于半秒到數秒之間的時間間隔。最后,在另一個極端上,這涉及跨越數秒甚至數分鐘時間間隔的高層級概念性事件。在這樣的不同時間間隔下,時間整合的性質及其所產生的感知事件顯然是不同的。然而,我 nevertheless 提出,時間整合應被理解為一個連續的過程,其服務于一個共同的適應性目標:以最小的代價,最大化有用信息的獲取,并根據觀察者當前的需求與情境進行定制。從這一視角出發,衍生出若干關于時間整合及其對感知與記憶之影響的研究方向,值得進一步探索。
關鍵詞:時間整合;視覺持久性;圖像記憶;注意瞬脫;事件知覺;工作記憶
- 引言
時間整合,即連續刺激在知覺上被結合為單一事件的過程,并非源于補償感知遲滯的需要。人類視覺系統完全能夠感知節奏極快的輸入。近150年前,Exner(1875)觀察到,當兩個連續刺激呈現于不同位置時,間隔小于20毫秒即可檢測到其不連續性(參見 Hirsh 與 Sherrick,1961);若呈現于同一位置,則該間隔小于50毫秒。Exner 還通過直接向自身眼睛施加電流觀察到,即使在60赫茲的振蕩頻率下,不連續性仍然明顯(即他體驗到了閃爍)。后續研究采用更為保守的刺激方法,證實了這些估計值(Hecht 與 Shlaer,1936;Hecht 與 Verrijp,1933a)。關于感知不同位置刺激之間順序(且常常伴隨illusory movement,即錯覺運動)所需的最小時間間隔,Westheimer 與 McKee(1977)報告了最低的時間估計值:在某些情境下僅為3毫秒。
然而,人們也早已認識到,這些快速的檢測速率并非全部事實。Bloch(1885)早已觀察到,在極短的刺激持續時間下,恒定強度的光的亮度會隨著持續時間增加而增強,仿佛其在知覺上發生了累加。時間summation(累加)的另一個顯著案例見于顏色知覺:快速的連續顏色刺激(例如紅色與綠色)在20–200毫秒的時間間隔內,并非被分別感知,而是融合為單一顏色(例如黃色)(Burr 與 Morrone,1993;Hecht 與 Verrijp,1933b;Regan 與 Tyler,1971;Smith 等人,1984;Uchikawa 與 Ikeda,1986;Wisowaty,1981)。同樣在19世紀,Charpentier(1887)觀察到,他無法區分7毫秒與60毫秒光的持續時間差異;平均而言,對于強度不同的類似定時光刺激,其可分辨的持續時間差異約為55毫秒,具體取決于其強度。
此類觀察促使人們形成這樣一種觀點:任何單一刺激都關聯著一個最小的加工時段,在此期間,其感覺信息會持續留存、與任何后續或正在進行的刺激發生整合,而只有整合后的結果被知覺到(Efron,1967)。這一時段已被以多種細微差異的方式概念化,例如知覺時刻(perceptual moment)、圖像(icon)以及(視覺)持久性(persistence)(Allport,1968;Coltheart,1980;Dixon 與 Di Lollo,1994;Neisser,1967;Sperling,1960;Stroud,1956;C. T. White,1963)。盡管此類延遲間隔在神經機制上是合理的,并且作為對持續時間估計與顏色融合觀察結果的解釋頗具吸引力,但人們在遠更快的速率下仍能體驗閃爍與順序的事實也表明,它作為一種關于感知速度的普適性解釋仍顯不足——感知的這些方面顯然超出了該延遲的解釋范圍。
那么,我們如何才能調和這些關于我們所能感知的最小刺激持續時間的不同估計值呢?我將論證:它們都是正確的,甚至更長的最小間隔也同樣適用,這取決于我們試圖完成的知覺任務。重要的是,這些層層遞進的整合間隔之所以存在,并非因為我們的知覺系統必然無法處理更短的間隔,而是因為整合后的知覺在感覺信息加工中發揮著一種適應性目的。
在回顧關于時間整合適應性性質的證據之前,我將首先描述我在此語境下所定義的"適應性"。首先,一個適應性的知覺過程應通過最大化有用信息、同時最小化代價來提供效率。"有用信息"指的是一種選擇性篩選,即所篩選出的信息能夠增強知覺理解,這蘊含著一種生態維度(Gibson,1979)。例如,當一只鳥飛過時,理解其飛行軌跡(這是一個延展的事件)可能比感知其翅膀的瞬間位置(極短暫的事件)對我們更有用。"代價"指的是加工信息所耗費的時間與能量,這在所有情況下都應被最小化,尤其當所述信息最終并無用處時更是如此。此外,代價還包括在知覺加工過程中可能丟失的信息(例如精細的時間細節)。其次,一個適應性過程應能根據當前情境進行調整。例如,一個固定的知覺采樣速率或許能在某些情境下滿足效率標準,但如果它無法根據環境變化進行調整,那就并非真正具有適應性。一個適應性過程還應具備靈活性,并允許產生可變的結果,具體取決于情境是需要更多的整合,還是更需要分離——因為在某些情況下,后者實際上可能提供最佳的知覺分析。因此,適應性的時間整合應能在多變的情境下展現出效率。
為論證時間整合的適應性解釋,我將回顧跨越三個不同時間尺度的時間整合研究,并識別其共性。首先,我將討論時間整合在其最基礎的層面,即發生在最初四分之一秒內的整合。其次,我將呈現注意整合在介于半秒至多數秒時間間隔內的證據。第三,我將回顧跨越數秒至數分鐘的事件整合研究。最后,我將提出一個從適應性視角審視時間整合所衍生出的新穎研究方向的綱要。
- 第一個四分之一秒
2.1. 視覺持久性
自亞里士多德以來,人們就知道單一刺激的視覺印象可以留存,他使用了看向太陽這種不明智的方法,以便觀察它引起的后像(Allen, 1926)。在 18 世紀和 19 世紀,當燃燒的煤塊在黑暗中揮舞時被感知到的發光軌跡,被報道為同一現象的證明。后來使用機械裝置進行了更系統的個人觀察,發現顏色和亮度的操作會影響視覺持久性的持續時間(Piéron, 1934; Plateau, 1829)。
這些效應最初被認為是純粹視網膜性質的。正是 Sperling(1960)以及 Averbach 和 Coriell(1961)進行的一系列實驗,將這種視覺持久性與認知信息加工聯系了起來。在 Sperling 的實驗中,由多個字母(例如 XVNKH)組成的刺激陣列在速示器上顯示 50 毫秒,然后通過所謂的部分報告法對這些字母的回憶進行采樣,其中某些字母位置被隨機探測。Sperling 觀察到,當探測在 300 毫秒內給出時,這些部分報告反映出比全部報告更高的準確率。為解釋這種部分報告優勢,Sperling 提出,刺激引起的感覺似乎會留存,允許信息在刺激物理終止后被讀出并進入記憶(例如,Sperling, 1967)。隨著這種視覺持久性隨時間消退,部分報告優勢也隨之消退。
與持久性可能構成一種記憶形式的觀點一致的是 Townsend(1973)一項研究的結果。Townsend 首先復制了 Averbach 和 Coriell(1961)的字母陣列實驗,然后在第二個實驗中對其進行了修改,以探測字母的身份,而不是它們的空間位置。在此改變之后,Townsend 觀察到在 450 毫秒的延遲內,報告準確率沒有可測量的下降。這一發現因此表明,(字母)身份信息被保留,而空間信息丟失,這是一種難以與簡單的、低水平的持久性概念相協調的模式。類似地,Phillips(1974)觀察到,呈現 1 秒的塊狀模式的保持,強烈依賴于該刺激與探測模式之間的刺激間間隔(ISI)。觀察到高達 100 毫秒 ISI 的高保持率,此后出現急劇下降,降至一個在長達 600 毫秒內保持恒定的水平。因此,盡管這些數據支持短暫持久性的想法,第二種更有限類型的記憶也持續存在。
這些對可被視為時間整合間隔的經驗測試只是對其的間接測量,因為它們集中于對一個關鍵刺激的感知及其產生的留存印象。隨著 Eriksen 和 Collins(1967);(1968)進行的研究,這種情況發生了改變。使用一種創新設計,其中兩個連續的點模式,每個看似隨機且無意義,可以在知覺上結合形成無意義音節,Eriksen 和 Collins 表明,來自一個刺激的留存印象可以與第二個刺激的印象合并,成為一個整合的知覺。他們還提供了第一個證據,表明持久性并非快速呈現刺激整合中的唯一因素。在他們的研究中,他們獨立操縱了兩個刺激的亮度,測試來自持久性視角的預測,例如更強的刺激應該更容易與(較弱的)后續刺激整合。這些數據并未證實這些預測,作者得出結論,似乎需要第二種機制來解釋數據,即不連續性的檢測。
Hogben 和 Di Lollo(1974)進一步完善了 Eriksen 和 Collins(1967);(1968)采用的實驗方法,用完全知識無關的點網格替換了有限的音節集和不規則點模式。在他們的范式任務中,24 個點以隨機、不重疊的位置呈現,跨越兩個或更多連續的刺激顯示,排列在一個不可見的 5 × 5 矩陣上。參與者的任務是找到矩陣中保持空白的那個位置。由于連續的刺激顯示實際上不可能被記憶并在心理上比較,且由于沒有可用的概念知識(例如字母身份)來引導參與者,找到這個缺失點位置的唯一方法是通過顯示的時間整合。通過操縱單個點的時間,Hogben 和 Di Lollo(1974)觀察到,整合似乎不僅受到時間流逝的損害(這可以通過持久痕跡的消退來解釋),還受到點之間時間間隙檢測的損害(參見 Kinnucan 和 Friden,1981),這與 Eriksen 和 Collins(1967);(1968)基于刺激強度的先前觀察非常吻合(但也參見 Di Lollo 和 Wilson,1978)。
從這一范式中,也獲得了反對長期存在的觀點的第一個證據,該觀點認為時間整合發生主要是因為刺激在消失后持續存在。Di Lollo(1977);(1980)使用了帶有修改后刺激序列的點陣列整合任務。24 個點現在呈現為兩個連續的刺激顯示,每個顯示 12 個隨機放置的點,其中第一個顯示的持續時間被操縱。刺激間間隔(ISI)保持在 10 毫秒恒定,第二個顯示的持續時間也保持在 10 毫秒恒定。研究結果表明,當第一個顯示的持續時間增加超過 100 毫秒時,整合迅速瓦解。圖 1A 展示了一個當代實現,即 MET,是“缺失元素任務”(Akyürek 等人,2010)的簡稱,圖 1B 展示了典型的表現模式。
![]()
從經典的持久性觀點來看,沒有理由假設一個持續時間更長的第一個刺激會持久性更差,并阻礙與后續刺激的整合,然而數據顯示的正是如此。Di Lollo(1977)得出結論,持久性并非與刺激的終止相關聯,而是與刺激的起始相關聯,此時神經過程被啟動并持續一段時間,在此期間整合是可能的,并最終消退——無論實際刺激是否仍在呈現。這一解釋也與 Efron(1970a, 1970b, 1970c)的發現一致,他發現視覺持久性與刺激持續時間成反比關系,直至 120–240 毫秒;這也與 Wilson(1983)報告的關于起始和終止持久性的更直接測量結果一致。
然而,并非所有旨在測量視覺持久性的任務都顯示出刺激持續時間與整合可能性之間的反比關系,其中包括 Sperling(1960)的研究,以及其他使用部分報告法的研究(Long 和 Sakitt,1980;Yeomans 和 Irwin,1985)。在亮度對整合的影響方面也觀察到了類似的不一致(Alpern,1954;Di Lollo 和 Bischof,1995;Haber 和 Standing,1969;Johnson 等人,1998;Long 和 Beaton,1982;Long 和 Sakitt,1980;Nisly 和 Wasserman,1989;Roufs,1963;Ueno,1983)。這引發了一些爭議(Bowling 和 Lovegrove,1982;Loftus 等人,1992;Long,1980),但最終被采納的解釋是,視覺持久性并非一個單一過程,知覺系統的不同階段,從視網膜到皮層,都可能起作用(Bowling 和 Lovegrove,1981;Di Lollo 和 Dixon,1988, 1992;Hawkins 和 Shulman,1979;Irwin 和 Brown,1987;Irwin 和 Yeomans,1986;Loftus 和 Hanna,1989;Long 和 McCarthy,1982)。
這一觀點由 Coltheart(1980)有力地闡述,他提出視覺持久性由兩個子成分組成:可見持久性和信息持久性,后者也被稱為圖像記憶。可見持久性是兩者中持續時間更短、水平更低的(但不像視網膜后像那樣低級;Di Lollo 等人,1988),而信息持久性持續時間更長,并與包含有關刺激身份信息的記憶存儲相關。這兩種持久性對實驗操縱的反應也不同,例如刺激復雜性,它影響信息持久性,但不影響可見持久性(Irwin 和 Yeomans,1991)。有趣的是,這兩種形式的持久性可能并非具有完全不同的神經位點;甚至更低水平的可見持久性也至少部分源自皮層,正如 Engel(1970)的立體視覺實驗所示。
2.2. 時間整合
盡管關于各種形式持久性的研究催生了時間整合的概念,但重要的是要重申,這兩者并不完全相同。時間整合是持久性的結果,但一個刺激是否會與后續刺激發生整合,取決于它們各自對應的神經活動之間的(時間)重疊量(Groner 等人,1988;Long 和 O'Saben,1989)。這種活動在不同層面(從空間分析到身份提取)滯后并持久存在的程度各不相同(Allik 和 Kreegipuu,1998),這確實使得整合成為可能(參見 van Rossum 等人,2008),但如圖 2 所示,正是大腦中連續刺激之間表征所對應的加工過程及其結果活動的時間重疊1,決定了它們知覺整合的可能性(Di Lollo 等人,1994;Dixon 和 Di Lollo,1994)。時間重疊假設統一了若干已被提出用以解釋時間整合的觀點。持久性顯然是一個核心原則,但為了計算并跟蹤時間重疊,也有必要維持視覺輸入的“運行平均值”——這是一個滑動窗口,與滾動知覺時刻(rolling perceptual moment)的概念相當相似(Allport,1968)。計算時間重疊也是(反向的)不連續性檢測的一種實現(Eriksen 和 Collins,1967;1968)。
![]()
持久性與時間整合之間的間接聯系通過掩蔽現象得到了進一步闡明。如果一個后續刺激對其產生掩蔽,刺激的知覺加工和可見持久性可能會被截斷(Spalek 和 Di Lollo,2022),這種效應在刺激呈現異步性(SOA)為 50–100 毫秒時最為顯著(綜述參見 Breitmeyer 和 Ogmen,2000;Enns 和 Di Lollo,2000)。相比之下,有證據表明時間整合并不會被掩蔽所廢除。首先,在缺失元素任務及其同類任務中,盡管存在物體替代掩蔽(即刺激之間沒有空間重疊的掩蔽),時間整合仍在相當程度上得以保留。其次,甚至有證據表明,即使當連續刺激在空間上重疊(這是發生模式掩蔽的條件)時,也存在時間整合。在快速序列視覺呈現(RSVP)任務中,一系列刺激以典型的 100 毫秒 SOA 連續呈現在屏幕中心,如圖 3A 所示。值得關注的是,觀察者在此類序列中識別目標(通常為兩個)的能力程度,是如何作為它們之間間隔("lag",即滯后)的函數而變化的。
![]()
圖 3B 展示了在三個關鍵滯后點上通常觀察到的表現模式。在滯后 8(Lag 8),觀察者在正確識別第一個目標(T1)之后,能夠很好地正確識別第二個目標(T2),但在較短的滯后點上,情況發生了顯著變化。在滯后 3(或更普遍地說,在低于約半秒的 SOA 處),T2 識別表現非常低,這種現象被稱為注意瞬脫(AB;Broadbent 和 Broadbent,1987;Raymond 等人,1992)。AB 本身可能是注意性、情節性整合的結果,將在下文更詳細地討論。在第一個四分之一秒內,即在滯后 1 處,觀察者似乎逃脫了 AB,表現良好(關于這種所謂的滯后 1“保留”現象及其發生條件的綜述,參見 Visser 等人,1999)。最初被假設為一種純粹的注意效應(Potter 等人,2002),但后來變得明顯的是,時間整合在滯后 1 處發揮著主要作用。在經典的 RSVP 任務中,目標和干擾物通常是字母數字字符,因此時間整合無法在其中直接測量。因此,時間整合的證據最初是間接獲得的,源于這一發現:與目標身份錯誤相反,目標順序錯誤在滯后 1 處異常頻繁(Akyürek 和 Hommel,2005;Hommel 和 Akyürek,2005)。在被感知為單一事件組成部分的目標之間丟失順序信息,這在直觀上似乎是合理的,即使時間整合不太可能是時間順序判斷中的唯一因素(例如,Akyürek 和 de Jong,2017;Hilkenmeier 等人,2012;Olivers 等人,2011)。通過使用可以以整合形式報告的目標符號(例如,將 / 和 O 報告為 ?),后來證實了整合后的目標對確實在滯后 1 處被頻繁報告為單一單元,如圖 3C 所示(Akyürek 等人,2012)。
RSVP 中滯后 1 處的時間整合證據尤為顯著,因為它表明即使在存在相當程度掩蔽的情況下,它仍然發生。盡管字母數字字符平均而言并非彼此完美的模式(或元對比)掩蔽,但它們之間仍存在相當程度的空間重疊,且 RSVP 的時間安排與后向掩蔽的最佳間隔相吻合。RSVP 中的時間整合發生在可見持久性應受限制之時,這一事實表明兩者之間存在分離。因此可以設想,RSVP 中的時間整合主要是信息持久性的結果。從這一視角來看,值得注意的是,盡管任務指令要求識別兩個單獨的目標(與之相反),但在滯后 1 處整合后的目標報告仍以相當高的頻率出現,這表明在這些試次中整合是不可避免的。
RSVP 中的時間整合也對最終的意識及所產生的知覺的記憶產生若干顯著影響。首先,RSVP 中的整合知覺在主觀體驗報告中相當清晰(Simione 等人,2017)。這一發現強調了知覺通過時間整合得以增強的觀點,即收獲了在更長時間段內積累感官輸入的好處。其次,來自瞳孔擴張的證據表明,時間整合減少了與處理目標刺激相關的心理努力,并將工作記憶負荷從兩個項目減少至接近單個項目的水平,這是通過 ERP 的 CDA 成分幅度來測量的(Jolic?ur 等人,2008;Klaver 等人,2001;Vogel 和 Machizawa,2004),且并未伴隨目標識別方面的相應損失(Akyürek 等人,2017;Wolff 等人,2015)。這種節省證明了時間整合對認知過程具有有意義且有益的影響,遠遠超出了視覺感知的最初步驟。更普遍地說,如果要將時間整合理解為一種適應性過程,那么此類效應的存在無疑是其先決條件。
2.3. 持久性與時間整合的心理生理學
與關于視覺持久性和時間整合豐富的行為文獻相比,神經生理學研究較為匱乏,尤其是后一個主題。盡管事實如此,現有研究顯示與行為研究相當程度的一致性。神經持久性的證據早期由 Hartline(1934)報告。在他的研究中,總能量相等、可變持續時間長達 100 毫秒的單一刺激,被報告在鱟(horseshoe crab)的光感受器中引發不變的反應。這些反應顯示出與關于亮度對持久性的(反向)效應的行為報告一致的活動模式,盡管它們不能解釋時間整合的所有方面(Nisly-Nagele 和 Wasserman,2001;Wasserman 和 Nisly-Nagele,2001)。在貓中,視網膜神經節細胞活動的測量同樣顯示了持久性,因為這些細胞被發現發放固定時期 50–70 毫秒,即使引發該反應的刺激短于該時間(Levick 和 Zacks,1970)。
在視覺加工系統更上游,在貓初級視覺皮層,神經元在刺激消失后也繼續發放,且該時期的長度受反向持續時間效應影響(Duysens 等人,1985)。這些持久反應的累加在某些細胞中持續長達 320 毫秒(Duysens 等人,1991)。在獼猴中,初級視覺皮層活動的皮層內測量對應于剛剛超過 60 毫秒的可見持久性的屬性和時間過程(Teeuwen 等人,2021)。在另一項研究中,獼猴前上顳溝的單細胞記錄在 RSVP 序列的 93 毫秒間隙期間表現出持續發放,響應引發刺激的總時間超過 170 毫秒(Keysers 等人,2005)。神經反應與無間隙 RSVP 條件下的反應無法區分。在人類中,對可變持續時間閃光引發的 事件相關電位(ERP)的分析表明,對低于 125 毫秒持續時間的重疊起始和終止反應產生了瞬時閃光的印象,而非持久閃光(Servi`ere 等人,1977)。內側顳葉的單細胞記錄顯示,對(熟悉)面部圖像也有類似的持續尖峰發放,甚至在刺激起始后長達 300 毫秒(Quiroga 等人,2008)。
盡管這些生理學研究為神經持久性提供了明確證據,但它們尚未調查大腦隨后如何隨時間整合連續刺激。然而,一系列關于 MET 中陣列整合的 ERP 研究直接針對了這一點(Akyürek 等人,2010;Akyürek 和 Balta,2024;Akyürek 和 Meijerink,2012;Akyürek 和 van Asselt,2015;Akyürek 和 Wijnja,2019)。比較整合成功或失敗的 MET 試次顯示,幾個 ERP 成分的幅度受時間整合調節。其中第一個是 N1 成分(Akyürek 等人,2010;Akyürek 和 van Asselt,2015;Akyürek 和 Wijnja,2019),它與注意和刺激辨別相關(Luck 等人,1990;Vogel 和 Luck,2000)。N1 幅度在注意位置呈現的刺激中增強,但僅當這些刺激需要辨別而非檢測時(即不是簡單地響應任何刺激的存在,而是響應特定刺激)。第二個成分是 N2pc(Akyürek 和 Meijerink,2012;Akyürek 和 van Asselt,2015;Akyürek 和 Wijnja,2019),它通常被解釋為反映注意的橫向轉移,但更可能參與任一視覺半視野內任務相關刺激特征的注意加工(Eimer,1996;Kiss 等人,2008;Luck 和 Hillyard,1994a)。第三個成分是后部 N2(Akyürek 等人,2010;Akyürek 和 Meijerink,2012),它與視覺目標的檢測和空間分組相關,特別是同質性(Folstein 和 Van Petten,2008;Luck 和 Hillyard,1994b;Schub? 等人,2007)。第四個也是最后一個在 MET 中受時間整合調節的成分是 P3(Akyürek 等人,2010;Akyürek 和 Balta,2024;Akyürek 和 Meijerink,2012;Akyürek 和 van Asselt,2015;Akyürek 和 Wijnja,2019),它涉及注意、工作記憶更新和反應決策的監控(Nieuwenhuis 等人,2005;Polich,2007;Verleger 等人,2005)。在 MET 之外,P3 也被涉及概念上類似的字母 - 單詞整合任務中(Forget 等人,2010)。
ERP 在時間整合期間的這些幅度調節似乎與視覺持久性的神經生理相關性廣泛兼容;兩者都表明廣泛的認知和知覺過程受到影響。注意,這些普遍效應并不意味著因果關系,因為晚期 ERP 效應可能是早期效應或多或少被動的結果。更重要的是,承認更具推測性的是,ERP 結果允許對時間整合的性質進行一些獨特的推斷。首先,迄今為止沒有任何研究涉及早于 N1 的成分,如 P1 或 C1:MET 中的連續刺激引發相同的 ERP,直到 N1,無論它們最終是否被整合。就 EEG 能檢測到這一點而言,整合似乎并未發生在這一早期階段。其次,第一個刺激持續時間 40–100 毫秒的偏移,從而 SOA 的偏移,根本不改變 ERP 成分的潛伏期。事實上,第二個刺激似乎沒有引發任何屬于它自己的成分,至少直到 P3 都是如此(Akyürek 和 Balta,2024;Akyürek 和 Meijerink,2012)。這可能可能反映連續刺激被共同加工,即使它們最終沒有成功整合。
由于 ERP 主要反映刺激引發的效應,觀察者瞬時狀態的可能作用更容易通過 EEG 的時頻分析來評估。雖然它并不總是直接與時間整合 linked,目前一個有影響力的提議認為,知覺和注意由周期性、振蕩性大腦活動介導——這一想法源于兔視覺皮層對重復視神經刺激的循環反應(Bishop,1932)。更近期的人類研究表明,短暫視覺刺激的知覺(檢測)由先前的 alpha 功率、相位以及 alpha、beta 和 gamma 頻段的相位耦合介導(Busch 等人,2009;Ergenoglu 等人,2004;Hanslmayr 等人,2007;Mathewson 等人,2009)。同樣,刺激 timing 和感知到的同時性被報告依賴于瞬時 alpha 相位(Chota 等人,2021;Kristofferson,1967;Milton 和 Pleydell-Pearce,2016;Varela 等人,1981)。此類發現促使了這樣的想法,即(alpha)振蕩可能反映知覺的時間分辨率,或更具體地說,其離散采樣窗口(Cecere 等人,2015;Ronconi 等人,2017;Samaha 和 Postle,2015;Samaha 和 Romei,2024;VanRullen 和 Koch,2003;Wutz 等人,2014)。必須注意,離散知覺采樣窗口的想法受到了批評(P. A. White,2018)。一種替代解釋認為,知覺本身是連續、無意識地發生的,而當這一過程的輸出作為單一事件出現時,離散意識才發生(Herzog 等人,2016, 2020)。然而,由于 alpha 頻段的周期性對應于 100 毫秒窗口,它也將很好地符合關于可見持久性和時間整合占主導的間隔的經典行為估計(例如,Dixon 和 Di Lollo,1994)。
雖然離散采樣窗口不必對應于整合周期(VanRullen 和 Koch,2003),兩者之間通常假設存在密切關系(例如,Karvat 和 Landau,2024;VanRullen,2016)。MET 中的 EEG 和 MEG 測量確實提供了大腦振蕩在時間整合中作用的證據。Geerligs 和 Akyürek(2012)發現,在 S1 持續時間為 70 毫秒的試次中(其中整合與分離的可能性大致相等),刺激起始前 beta 頻段較高的功率預測成功的整合。類似的刺激前 beta 頻段效應似乎也發生在視覺(元對比)掩蔽中,其中錯誤試次表現出增加的功率(Wutz 等人,2014),且 beta 頻段的相位偏移預測目標和掩蔽是否被感知為同時(Kraut 和 Albrecht,2022)。theta 振蕩的相位也被發現預測整合和分離行為,且這一節奏與眼睛注視對齊(Wutz 等人,2016)。theta 振蕩相對較慢,將輕松覆蓋長達四分之一秒的整合周期。似乎,取決于所執行的知覺任務,不同的節奏(例如 alpha, theta)從而整合周期可能被涉及(Ronconi 等人,2024)。所有這些頻段的共同原則如圖 4 所示:落入一個振蕩周期內的連續刺激被視為同時且整合的,而未落入的則被視為連續且分離的。
![]()
2.4. 第一個四分之一秒內的適應性整合
從迄今為止總結的文獻來看,人們可能會傾向于將第一個四分之一秒內的時間整合視為早期視覺感知中一個可能有益、但仍然主要是硬連線(hard-wired)的步驟,其輸出先于進一步加工,并作為進一步加工的單位(參見 Efron, 1967;另見 Haber, 1983)。即使是“晚期”效應的生理證據(例如,在 P3 上,或在內側顳葉中)也可以被解釋為早期效應的下游后果,無法受到適應性調節。同樣,刺激出現之前預測后續整合行為的振蕩模式可能反映與任務無關的大腦狀態。在我看來,這種關于時間整合的觀點盡管如此仍然是誤導性的。首先,一些信息在整合中得以保留并保持知覺上的可訪問性。來自點陣列整合任務的主觀印象表明,盡管在較短的 SOA 下整合顯然正在發生,但閃爍的知覺即使在那時也依然存在。其次,整合并非一個固定的、統一的過程。這在更自然的觀看條件下顯而易見,在這種條件下,我們在觀看快速運動時可能會感知到運動涂抹,但其持續時間遠短于根據整合延遲期長度所預測的值(Burr, 1980)。關于這一悖論的研究表明,時間整合隨連續刺激之間的空間接近度而變化,較短的距離比較長的距離產生持續時間更短的整合,這被歸因于側抑制(Di Lollo 和 Hogben, 1985, 1987; Farrell, 1984; Francis, 1996a, 1996b; Francis 等人,1994; Hermens 等人,2009)。
關于刺激呈現速度的期望似乎也調節整合的可能性。在快速序列視覺呈現(RSVP)任務中(但可能不適用于缺失元素任務(MET);Balta 等人,2020),當觀察者期望相對較慢的刺激呈現節奏時,他們傾向于擴展其整合的時間窗口,從而導致更多的目標順序報告錯誤(Akyürek 等人,2008)。此外,與指示優先考慮連續目標的出現順序相比,指示優先考慮連續目標的組成特征也會增加整合目標報告的頻率(Akyürek 和 Wolff, 2016)。在可整合刺激之前不久呈現的用于引導注意的線索也被發現能夠延長整合時間(Megna 等人,2012)。
此類時間期望體現在生理測量中,例如 alpha 頻段去同步化,它跟隨刺激事件的預期時間,并增強后續任務表現(Rohenkohl 和 Nobre, 2011)。確實,符合大腦可能不斷嘗試預測傳入物體和事件(及其節奏)的觀點(A. K. Engel 等人,2001; Nobre 等人,2007),整合任務中刺激開始之前發生的許多振蕩變化似乎易于受到調節,無論是注意性的還是其他方面的。例如,Wutz 等人(2018)觀察到,當參與者預期需要整合即將到來的刺激時,alpha 頻段振蕩減慢;而對于需要分離的刺激,則加速。這些預期整合和分離的 alpha 頻段調節似乎具有空間特異性并由注意介導(Sharp 等人,2018, 2022)。
因此,即使在這些相對較短的間隔下,整合似乎也是適應性的:它產生有用的知覺,而不丟失其原始輸入的所有方面(例如閃爍),最大化全局信息增益,同時最小化底層細節的損失。整合在有用時發生得更多,在無用時發生得更少,例如當它會導致有害的運動模糊時。即使這種調節僅基于觀察者對即將到來的刺激節奏的期望,它也會發生。就此而言,更普遍地說,時間整合或許更應被視為一種主動的、適應性的平衡行為,介于保留和分離不屬于一起的輸入的需要,與整合屬于一起的輸入的需要之間(Dixon 和 Di Lollo, 1994; Loftus 和 Irwin, 1998)。
- 注意片段
3.1. 快速序列視覺呈現及更遠范圍內的事件
超過第一個四分之一秒的時間整合證據已在最初旨在研究時間注意的研究中被揭示,即注意在時間上分布的目標刺激上的連續分配。如上簡要提及并在圖 3A 中所示,如果第二個目標在距離第一個目標約半秒內到達,且未在滯后 1 處被保留和/或在緊密的時間鄰近性中整合,觀察者在感知兩個目標中的第二個時會經歷困難。這種 T2 缺陷即 AB 現象(Broadbent 和 Broadbent,1987;Raymond 等人,1992),可在包含多個目標的 RSVP 序列中觀察到(參見圖 3),以及在更稀疏的目標 - 掩蔽范式中觀察到(Duncan 等人,1994)。盡管 AB 標簽在事實并非不正確(即缺陷本質上是注意性的),但它同時也可能掩蓋其重要的情節性質量,而這對當前的討論至關重要。
關于 AB 的理論在其對導致缺陷原因的描述上各不相同。最初的解釋表明,感知目標項目涉及一個兩階段過程。第一階段可以并行處理多個項目,但僅將這些項目處理到有限程度,使得個別特征可能被感知(例如,紅色、圓形),而無需將它們綁定到連貫的對象上(例如,一個蘋果)。第二階段涉及這種綁定,這需要注意,且容量有限。第二階段也是觀察者能夠響應目標并將其鞏固在短時或工作記憶中所必需的。這一想法具有廣泛的吸引力,事實上,鞏固中的瓶頸已被提出用以解釋一般的雙任務表現(Jolic?ur 和 Dell'Acqua,1998)。在兩階段理論中,當 T1 占據第二階段時,T2 無法進入,其短暫的第一階段表征可能易于衰退和干擾,從而完全丟失(Broadbent 和 Broadbent,1987;Chun 和 Potter,1995)。這些功能階段被提出是由藍斑神經遞質去甲腎上腺素的相位放電引起的,這導致刺激處理的瞬間增強,但隨后是不應期(Nieuwenhuis 等人,2005)。根據這一提議,第二階段處理被認為依賴于去甲腎上腺素驅動的增強,當 T2 在不應該期內到達時,這種增強將無法用于 T2。
兩階段理論中關于需要一個注意階段來適當綁定視覺場景中存在的刺激特征的觀點與空間注意理論相吻合,特別是 Treisman 的特征整合理論(Treisman,1996;Treisman 和 Gelade,1980;但參見 Desimone 和 Duncan,1995,以了解不同觀點)。綁定的必要性具有神經動機,源于需要“解決”大腦處理不同感官特征的物理分布方式(Reynolds 和 Desimone,1999;Serences 和 Yantis,2006)。特征整合可被視為時間整合的空間兄弟,兩者都是構建連貫時空對象和事件所必需的(參見 Zivony 和 Eimer,2024)。事實上,在 RSVP 中,在時間上鄰近目標刺激出現的干擾物特征侵入在目標報告中相當頻繁地發生(Botella 等人,1992, 2001;Botella 和 Eriksen,1991;Lawrence,1971)。因此,在這些呈現速率下,綁定過程似乎不完美。注意在時間特征綁定中的參與已由研究表明注意缺乏(例如在 AB 期間發生)會加劇侵入錯誤的研究證明(Botella 等人,2011;Chun,1997;Vul 等人,2008)。
AB 的兩階段理論可以說在同時類型、序列標記(STST; Bowman 和 Wyble, 2007)模型及其密切相關的“情節”版本(eSTST; Wyble 等人,2009, 2011)中達到了頂峰。正如后一個名稱特別透露的那樣,片段的概念是這些模型的核心。(e)STST 的核心在于類型和標記之間的劃分,這映射到先前提出的兩個處理階段。然而,存在一個細微差別,即第一階段的類型表征不僅僅是被激活的、分離的特征;它們可以反映刺激的身份,包含其集體語義和視覺特征。盡管如此,第一階段的表征是短暫的,且非特定于實例。相反,標記表征是情節性的,或者說,是一個時間整合的事件。(e)STST 假設只有標記可以在工作記憶中鞏固和維持。在此框架中,AB 出現是因為創建獨立片段根據定義是一個序列過程。
另一類歷史悠久的 AB 模型似乎,至少乍一看,避開了情節瓶頸的概念。這些模型假設干擾是瞬脫的根本原因。在此,直接在 T1 之后到達的刺激被識別為非目標,可能會侵入正在進行的處理以識別和鞏固工作記憶中的 T1(Raymond 等人,1992;Shapiro 等人,1994)。為了保護 T1,注意門暫時關閉,或施加注意控制以抑制目標檢測(Taatgen 等人,2009),以犧牲在該間隔期間到達的任何 T2 為代價。在此解釋中,也有兩階段理論的元素,即識別和鞏固需要保護,因為它一次只能安全地為一個目標事件進行。在 Di Lollo 等人(2005)的暫時控制喪失理論中,這種容量限制被重新定義為由 T1 啟動的脆弱處理期,在此期間注意控制被占用。因此,T1 后的項目通過外源性重置注意過濾器而干擾,使其與 T2 不匹配,導致 AB。
脆弱(第二階段)過程的概念后來在 Olivers 和 Meeter(2008)的干擾模型中被完全拋棄。在這種“增強與反彈”理論中,AB 由注意增強和抑制的動態引起。注意被認為遵循兩個一般原則。首先,被識別為任務相關的感官輸入被增強,這首先發生在 T1 被感知時。其次,與任務無關的輸入,例如干擾物項目,被抑制。重要的是,增強不是立即的,而是需要約 100 毫秒來建立,這意味著在典型的 RSVP 條件下,實際上被增強的不是 T1,而是跟隨其后的干擾物。因此被增強的任務無關項目反過來引發強烈的抑制反應,防止后續項目進入工作記憶,包括如果在短滯后處到達的 T2。模型中的注意反應被認為不是為了緩解記憶鞏固(或綁定)中的任何容量相關瓶頸。然而,瓶頸確實存在,即在注意的速率限制中,使其無法在 100 毫秒內行動——這是一個顯著的時間長度,也在知覺時刻(Efron, 1967)、視覺持久性和時間整合(Dixon 和 Di Lollo, 1994)以及 alpha 頻段振蕩(Wutz 等人,2018)的估計中遇到。因此可以認為,即使在增強與反彈模型中,與一個事件相關的處理最終延遲了下一個事件。
總之,盡管存在差異,AB 模型因此都匯聚于這樣一個概念,即不可能連續處理兩個獨立的目標事件(參見 Schneider, 2013 中的競爭片段)。單個目標事件在適當情況下可以在時間上擴展,但一旦創建了一個事件,它不能立即跟隨另一個事件。AB 現象因此提供了證據,表明存在一個超越第一個四分之一秒的事件結構。在這些片段層面所需的“停機時間”(無論它們是否被解釋為注意性的;Snir 和 Yeshurun,2017),似乎是該典型時間整合周期的兩倍長。換句話說,一整秒的時間間隔最多容納兩個整合的四分之一秒,而不是四個。
關于 AB 的研究也提供了重要證據,表明單個注意片段可以超過四分之一秒,即 beyond 經典持久性任務(如 MET)中觀察到時間整合的間隔。支持這些長達四個目標項目或 400 毫秒的更長間隔的證據來自表明 T1 之后出現的連續目標保留(即無論報告順序如何,正確的目標身份報告)的研究。發生這種情況的條件是這些目標之間沒有中斷;流中沒有干擾物或間隙,其中任何一個都會信號化片段的結束,并觸發 AB(Di Lollo 等人,2005;Kawahara 等人,2006;Nieuwenstein 和 Potter,2006;Olivers 等人,2007)。這些擴展序列的情節性質量由這一發現證明,即其中目標之間的順序錯誤頻繁發生(Wyble 等人,2011),表明目標之間的情節獨特性喪失。
僅因其時間范圍,注意事件整合似乎在性質上不同于在第一個四分之一秒期間觀察到的更短暫類型的事件,后者可能更多是知覺性而非注意性的。此外,注意事件包含可能情節性地屬于一起的個別刺激,但它們本身也是獨特的且可如此報告。這種個體化在跨較短間隔的時間整合中未發現。然而,有證據表明跨這些不同尺度的時間整合過程共享共同空間。例如,傾向于在滯后 1 處整合更多的觀察者也傾向于產生更明顯的 AB(Willems 等人,2016)。事實上,可以設想時間整合位于一個包含這兩個時間尺度的連續體上(但參見 White, 2024,以了解不同觀點)。
支持這一觀點的進一步證據來自關于超過第一個四分之一秒的信息保留和整合的研究,這不涉及注意的明確操縱。人們早已知道,來自(短暫)視覺暴露的信息可以很容易地持續至少半秒(Irwin 和 Yeomans,1986;Phillips,1974;Townsend,1973),甚至長達 5 秒(Irwin 和 Yeomans,1991)。這種“持久性”可能與工作記憶中信息的鞏固和維持相關,雖然它不一定意味著時間整合本身,但它為其提供了必要條件。Brockmole 等人(2002), (2003)提供了記憶中的信息如何與后續視覺輸入整合的直接證明,他們測試了 MET 中的表現,S1 和 S2 呈現持續時間為 33 毫秒,作為 ISI 持續時間的函數。在 100 毫秒 ISI 處的初始低谷之后,表現幾乎在更長的 ISI 處完全恢復,達到一個持續長達 5 秒的穩定平臺。使用類似設計,Jiang 和 Kumar(2004)也發現了視覺工作記憶中整合表征的證據,ISI 長達 500 毫秒。在 MET 之外,Gao 等人(2016)也報告了跨約 1–2 秒間隔的空間信息的時間整合。在他們的任務中,兩個或三個連續的、掩蔽的刺激顯示 featuring 部分格式塔線索,指向其元素的整體組織,如果它們可以在刺激序列上整合,這將促進記憶表現。格式塔線索確實在所有情況下都產生了更優的表現。同樣長的時間常數也在全球運動的(跨眼跳)時間整合中觀察到(Burr 和 Santoro,2001;Melcher 和 Morrone,2003)。
除了相對緩慢刺激序列的整合之外,還有證據表明僅非常短暫顯示的刺激存在持久的時間整合。在標準游標融合實驗中,兩個連續的垂直線對以不同偏移量非常短暫地顯示,通常每個僅 30 毫秒,具有可變的 ISI。在知覺上,偏移量被融合,且感知到整合的、有偏的平均偏移量。盡管這種效應看似低水平,但已顯示它相當依賴于刺激如何分組。如果第二個顯示包含不止一對線,融合可以被廢除;五對導致第一對的掩蔽,而 25 對使第一對線顯現出來(Herzog 和 Fahle,2002;Herzog 和 Koch,2001)。當游標融合確實發生時,它跨越數百毫秒的持續時間,且部分非視網膜拓撲(Scharnowski 等人,2007)。對游標融合相對緩慢時間過程的直接測試由 Scharnowski 等人(2009)執行,他們發現游標融合受到經顱磁刺激應用的影響,即使它是在游標線本身之后約 350 毫秒 delivered。后來的研究表明,此任務中的整合窗口似乎從刺激起始開始,并持續接近半秒(Drissi-Daoudi 等人,2019)。
此類相對持久的逆向效應的存在也導致了這樣的想法,即意識覺察以離散的方式更新,節奏略高于每秒兩次(Herzog 等人,2016, 2020)。在此期間聚合的時間長度允許對輸入進行改進的知覺分析,包括在其中構建事件結構。注意和工作記憶在此時間尺度上處理和記憶事件的參與可能證明與意識覺察的聯系是合理的(另參見 Faivre 和 Koch,2014)。然而,就當前目的而言,這一想法的主要含義是,在這一層面存在一種事件整合形式,它包含了以更精細分辨率發生的時間整合(例如,跨越 100 毫秒間隔)。
3.2. 事件整合的心理生理學
關于 AB 的電生理測量已提供明確證據,表明注意和工作記憶參與了 T2 的(未)成功報告。當在 AB 期間錯過一個目標時,ERP 的 P3 成分幅度受到抑制,而較早的 P1 和 N1 成分不受影響,這表明加工位點相對較晚,可能與工作記憶中的鞏固有關(Kranczioch 等人,2003;Rolke 等人,2001;Vogel 等人,1998)。有趣的是,如果 T2 未被掩蔽,例如當它出現在 RSVP 序列的末尾時,P3 的潛伏期在短滯后處被延遲,這表明 T2 事件的加工在大腦中實際上可能被延遲了。在 T2 之后沒有干擾性干擾物到達的情況下,這種延遲隨后也不影響 T2 識別表現,這與掩蔽目標發生的情況相反(Vogel 和 Luck,2002)。
3.2. 事件整合的心理生理學(續)
在早期的 P1 和 N1 成分與 P3 之間,有限的證據表明 N2 可能在 AB 中發揮作用。一方面,Sergent 等人(2005)發現 N2 成分并未顯示出可能由 AB 引起的雙峰幅度分布,即在未命中目標的低幅度與看到目標的高幅度之間存在尖銳分界,這在 P3 中觀察到了。另一方面,他們也發現證據表明 T1 誘發的 P3 可能與時間上重合的 T2 誘發的 N2 競爭,導致 AB。在大致相同的時間窗口內,側化 N2pc 成分確實明確地與 AB 對應。在目標位于側向位置的 RSVP 范式中,當 T2 被瞬脫時,未觀察到針對 T2 的 N2pc,反映了注意部署的失敗(Dell'Acqua 等人,2006;Jolic?ur 等人,2006)。
盡管這些 ERP 研究可能表明,鑒于它們不同的時間過程,AB 任務中注意事件整合的位點比 MET 中的稍晚,但來自振蕩大腦活動的證據指出了這兩種整合形式之間顯著的共性。在 Gross 等人(2004)的 MEG 研究的 AB 條件中,發現額 - 頂 - 顳腦區內 beta 頻段的相位同步性較低;這些區域也與患者中的時間特征綁定錯誤有關(Arend 等人,2011)。這種 beta 頻段效應后來在 EEG 中也得到了復制(Kranczioch 等人,2007)。在 gamma 頻段也觀察到了類似效應,正確報告的目標之前出現同步性增加(Nakatani 等人,2005)。Alpha 頻段也與 AB 有關,使得在目標呈現之前和期間相干性較低時,成功檢測 T2 的機會增加(Kranczioch 等人,2007),且在靜息狀態下 alpha 功率較低時也是如此(MacLean 等人,2012)。當 RSVP 中的刺激被設定節奏以使得它們引導大腦中的振蕩活動時,對應于 alpha 和 beta 頻段的速度似乎也比其他頻率引發更強的 AB(Shapiro 等人,2017)。因此,涉及注意片段的頻段與介導第一個四分之一秒整合的頻段在相當程度上對應。
這些共性引人注目,再次表明時間整合可能在不同時間尺度上基于共享原則或以類似方式運作。然而,必須注意,具體實現可能有所不同,且在不同時間常數的整合中可能涉及定量甚至定性不同的過程。這方面的一個例子見于雙重漂移錯覺,其中 Gabor 斑塊沿直線運動路徑移動,而其紋理垂直于該路徑漂移,導致斜向運動的錯覺。實際運動路徑與漂移紋理的整合已被顯示持續長達至少一秒(Tse 和 Hsieh,2006)。通過 fMRI,顯示整合表征不存在于視覺皮層,而是存在于前腦區域(Liu 等人,2019)。后者的區域參與與在較短間隔整合中識別出的顳區形成對比(Keysers 等人,2005;Quiroga 等人,2008)。
3.3. 注意片段中的適應性整合
注意總體上是明顯適應性的,因為它是高效的,它允許我們只選擇與我們最相關的信息,這樣我們就不必費力處理其余部分。注意可以在時間上“聚光燈”式地突出一個特別顯著的事件,以犧牲其他較無趣味的事件為代價,就像它對場景中的特定區域或物體所做的那樣。雖然空間中的注意聚光燈無疑是積極的,增強了對注意項目的加工(例如,Eriksen 和 Hoffman,1972;Posner,1980;Shiu 和 Pashler,1995;Yeshurun 和 Carrasco,1998, 1999),但它在時間上的效應似乎可能是有害的,至少乍一看是這樣。注意可以使刺激看起來比實際出現得更早,這種現象稱為先進入(prior entry)(Titchener,1908;綜述參見 Spence 和 Parise,2010)。注意也延長了事件的感知持續時間(Enns 等人,1999;Herbst 等人,2012;Mattes 和 Ulrich,1998;Seifried 和 Ulrich,2011;Yeshurun 和 Marom,2008),這在某些情況下可能歸因于感知刺激終止(offset)的延遲(Rolke 等人,2006)。作為這些效應的結果,區分連續刺激的能力受損,降低了我們的時間分辨率(Yeshurun 和 Levy,2003,但也參見 Chica 和 Christie,2009;Correa 等人,2006)。
然而,在將這些注意對時間加工的效應解釋為負面之前,應考慮另一種觀點:在自然主義觀看條件下,最大化一個人的時間分辨率實際上可能并不是很有幫助或信息量。調整到較慢但足夠快的節奏可能更有意義,并利用 thus 獲得的時間來收集更多輸入。這正是時間整合期間發生的情況,如果注意作用于增強事件層面的加工,而不是在我們知覺系統時間分辨率的頂點,上述效應實際上可被視為有益的。
確實有證據表明注意促進了時間整合。通過操縱空間注意,Hochmitz 等人(2021)表明,在雙幀 Ternus 表觀運動顯示中,當注意可用時,時間整合被延長至總呈現時間長達 450 毫秒。在一個 RSVP 任務中,MET 作為第二個目標嵌入,Visser 和 Enns(2001)相當直接地表明,在長滯后處時間整合更容易,此時注意已從處理第一個目標事件中恢復。RSVP 中滯后 1 和 2 處兩個目標的整合也受制于不同的任務集,以優先考慮整合或分離(Akyürek 和 Wolff,2016),以及對刺激流速度的期望(來自順序錯誤的證據;Akyürek 等人,2008),以及目標被顯示的可能性(來自保留的證據;Visser,2015)。
RSVP 中短滯后處發生的時間整合已被顯示具有下游后果,特別是在事件被記憶的方式上。MEG 數據顯示,當發生滯后 1 保留時,顳頂額皮層中出現單一神經反應,而不是在較長滯后處發現的一對 distinct 反應(Kessler 等人,2005)。類似地,Akyürek 等人(2007)觀察到當滯后 1 處整合可能時,出現單一 N2 和 P3 峰。最后,在側化雙流 RSVP 中記錄的 ERP 顯示,在報告了整合目標對的試次上,P3 和 CDA 成分幅度低于兩個目標被分別報告的試次,表明前者導致工作記憶負荷較低(Akyürek 等人,2017)。這些注意片段的神經相關物與時間整合提供了一種信息可被表征的高效方式的觀點一致。實現這種效率將是視覺感知中任何適應性過程的主要目標,而時間整合的注意調節顯然符合這一特征。
雖然 250 毫秒到幾秒之間時間尺度的時間整合適應可以合理地被視為本質上是注意性的,但一些適應也可能以更隱式的方式發生。Ossmy 等人(2013)呈現了一個可變持續時間的目標信號,由平均亮度增量組成,位于亮度水平變化的噪聲流中。為了檢測信號,觀察者必須隨時間整合噪聲信號,跨越 150 到 900 毫秒的間隔。結果表明,觀察者根據信號持續時間的分布調整了他們的整合窗口,其中包含相對較多的短或長持續時間。因此,在包含更多短持續時間的塊中,短持續時間的表現 improved,而在主要為長持續時間的塊中情況相反。無論是否屬于注意性的,這些結果都顯示了時間整合中清晰的適應性變化,其中知覺證據的收集時間恰好與環境條件所要求的一樣長。
4.長期事件
4.1. 概念性整合
事件也可以在更大的尺度上被定義,其持續時間甚至可以任意延長。在實驗上,這些長時程事件中最易處理的是那些觀察者能夠從動態刺激呈現中識別(分割)出來的事件,從簡單動畫到幻燈片展示,再到最多持續數秒至數分鐘的電影片段。Michotte(1946)通過一個旋轉機械裝置制作了此類動態呈現,以研究刺激運動中的因果知覺。在 Michotte 最簡單的實驗中,一個小方塊刺激看似橫向移動,朝向第二個相似的方塊,直到兩者接觸,此時第二個方塊開始沿相同方向移動。觀察者感知到第一個刺激導致了第二個的運動;這種印象可以說捕捉到了最具生態效度的信息(Gibson, 1979)。因此,盡管存在對兩個刺激及整個呈現序列的統一運動的知覺,其中也存在一個被感知為最大變化的點——即第一個刺激停止運動、第二個開始運動的時刻。在這一點上,出現了一個事件邊界,表明知覺變化在分割這些相對較長的事件中具有重要作用。
對于遵循明確運動規則、更可識別的序列(如自由落體物體或生物運動模式),有意義事件的知覺更為強烈(Johansson 等人,1980)。然而,在這一層面的分割也受更概念性因素驅動,例如關于他人行為信息的組織方式。針對展示演員執行某些可操作活動(如填寫問卷或修理摩托車)的電影片段分割的研究表明,事件邊界在理解這些活動中起著關鍵作用,且觀察者可能會調整其分割方式以更好地理解所觀看的行為,例如當演員做出意外舉動時縮短片段長度(Newtson, 1973;Newtson 和 Engquist, 1976)。還有研究提出,觀察者的內部狀態(如對正在進行情境的洞察發生改變)也可能影響事件分割(Y. C. Wang 等人,2024)。這類效應可被理解為概念性事件分割具有推理性本質的結果,有助于對事件如何展開做出適應性預測(Kurby 和 Zacks, 2008;Richmond 和 Zacks, 2017)。
盡管概念性事件在多個方面可能具有可變性,但在這一層面(事實上在任何層面)所構建的事件仍可簡單地定義為:在特定位置上具有起點和終點的一段時間(Zacks 和 Tversky, 2001)。事件也可通過其外觀來描述,例如不同觀察者對其時空邊界的共識、其與知覺變化的相關性,或較短事件如何聚合成較長事件的方式(Zacks, 2020)。另一種更具體、基于內容的事件描述,可將其定義為一種瞬態對象,具有動態性,并由特定的時空坐標所界定(Miller 和 Johnson-Laird, 1976)。實際上,對象的表征已被構想為一種顯式的情節性表征,它將所有被感知的屬性聯系起來,并追蹤和整合隨時間發生的變化(Kahneman 等人,1992)。這種表征被稱為“對象文件”(object file)或“標記”(token)——這一術語也出現在注意事件的表征中(Bowman 和 Wyble, 2007),并與早期提出的增量表征(Ullman, 1984)、“實例化指針”(fingers of instantiation;Pylyshyn, 1989)以及更近期的“事件編碼”(event code)概念相似,后者還明確整合了該表征所支持的動作計劃(Hommel, 2019;Hommel 等人,2001)。
在這些表征中,隨著時間尺度的擴展,事件被緊密整合的程度逐漸減弱。一個經過視野的對象所綁定的特征(例如,一個圓形、紅色的蘋果)似乎比與“泡茶”這一事件相關聯的屬性聯系得更緊密。然而,這并非概念性事件所獨有。例如,即使在幾十到幾百毫秒內,缺失元素任務(MET)中連續陣列的整合已不如顏色融合任務中連續顏色的整合那么完整,前者感知到更多的不連續性(即閃爍)。此外,盡管不同時間整合層級之間存在明顯的質性差異,其運作方式卻表現出可比性。例如,通常與最短時間間隔相關的感官證據整合(Bloch, 1885)同樣適用于數十秒的時間尺度(Waskom 和 Kiani, 2018),表明時間整合具有一種統一的、在某種程度上與時間無關的目的。
此外,發生在概念層面的時間整合也具有清晰的認知后果,類似于較低層級所見的后果。當物體出現在電影片段的事件邊界處時,它們在記憶中的編碼效果更好,表明這些是事件內部特別顯著或信息豐富的時刻(Swallow 等人,2009)。進一步研究表明,當觀察者(預期)穿越一個事件邊界(在實驗環境中由穿過一扇門標記)時,對先前遇到物體的記憶會變差(Radvansky 等人,2010;Radvansky 和 Copeland,2006;V. Wang 等人,2023),這可能反映了工作記憶中僅保留最近事件的內容(Radvansky 和 Zacks,2017)。這類記憶代價讓人聯想到 RSVP 中觀察者報告兩個獨立目標(而非包含相同特征的整合目標)時觀察到的工作記憶負荷增加(Akyürek 等人,2017)。
在概念性事件內部,其表征的整合性質也可能導致項目之間產生更多相互干擾。當單詞列表中的所有詞都屬于同一事件時,其記憶效果比將它們分屬多個事件更差——這是時間分離更有益的一個例子(Pettijohn 等人,2016)。類似地,在概念效應與注意效應的交界處,最近有研究顯示,RSVP 中在中等滯后呈現的 T2 會受到其前一個 T1 以及前次試驗中目標的影響,這被歸因于跨試次和試次內的時序整合(Yildirim 等人,2024)。最后,還有研究顯示,在(大幅簡化版)足球比賽的動畫序列中短暫呈現的一個簡單視覺事件(一個紅點)在事件邊界處的檢測受損(Huff 等人,2012)。這種可能是注意性的效應,讓人聯想到快速連續構建兩個注意片段所產生的代價,即注意瞬脫(AB;Raymond 等人,1992)。
這些共性引出了一個問題:是否所有這些類型的事件都可以被置于單一的時間整合連續體上?在概念性事件的語境中,已有研究提出事件存在一種部分-整體層級結構(partonomic hierarchy),即較長事件可被細分為更小的組成事件(Cutting, 1981;Zacks、Tversky 等人,2001)。這與更廣泛的時間整合連續體概念非常吻合,該連續體也包含了以分數秒為單位的最短事件。圖 5 展示了這種整合事件的層級結構可能如何實例化。此處需特別指出兩點:第一,該層級結構可能并非完全無縫,因為它可能在注意層面發生轉折:當一個足夠顯著的刺激被感知(被注意)時,所有層級上都會啟動一個事件;而當注意不可用時,較低層級的整合可能會暫時中止。第二,每個層級上事件的長度在一定程度上是可變的,取決于外源性和內源性因素。
![]()
4.2. 概念性整合的心理生理學
關于概念性整合的生理學研究主要依賴 fMRI 方法來識別參與分割持續輸入的腦區。其中,處理運動信號的中顳視覺區(MT)以及參與眼動控制的額葉眼動區(FEF)是最早被識別的區域之一(Zacks、Braver 等人,2001)。隨后,上顳溝(STS)、楔前葉、后外側溝(LS)以及顳頂聯合區(TPJ)也被發現參與其中(Hasson 等人,2008)。重要的是,類似于較短間隔內神經反應持續時間的較小尺度變化(Keysers 等人,2005;Quiroga 等人,2008;Teeuwen 等人,2021),這些區域的反應似乎也存在一種時間層級結構。楔前葉和 STS 對約 12 秒的間隔反應最為顯著,而 LS、TPJ 和 FEF 似乎能夠整合長達 36 秒的信息。支持皮層中存在事件層級結構想法的證據在后續研究中得到了證實,這些研究涵蓋了不同的腦區以及大腦中的廣泛網絡,其中注意可能將事件邊界跨不同間隔傳播(Baldassano 等人,2017;Geerligs 等人,2022)。
在知覺之后,Swallow 等人(2011)表明,檢索 5 秒前在電影片段中顯示的與物體相關的信息會以不同方式激活腦區,這取決于是否跨越了事件邊界。除其他效應外,當跨事件檢索靠近事件邊界的物體時,與同一事件內出現的物體相比,海馬體和部分下頂葉(IPL)被更強地激活。此外,觀看期間的海馬體活動不僅在更高層級的事件邊界處增加,而且這種活動還能預測后來的回憶(Baldassano 等人,2017)。這些與檢索相關的差異表明,事件在長期結構化(情節性)記憶中起著重要作用。當觀察者反復暴露于相同的電影片段時(即使這些片段最初是打亂的),海馬體與楔前葉、角回以及后扣帶皮層之間的功能耦合也會增加,進一步表明海馬體及這些相連區域參與了時間結構的學習(Aly 等人,2018)。這種對時間結構的漸進式經驗可能有助于情節性記憶以及生成對近期的預測,這兩者都可能由海馬體介導(Clewett 等人,2019)。
概念性事件更普遍地與觀察者所擁有的世界知識密切相關。其中一些知識可以在有限的暴露后獲得,例如實驗室環境中特定的電影序列(如 Aly 等人,2018 的研究),而另一些知識則可以通過一生的經驗(例如泡茶)逐漸積累。研究發現,與知識一致的事件會增加內側前額葉皮層、IPL 和中額回之間的功能連接(Bonasia 等人,2018)。將先驗知識與持續輸入匹配可能服務于預測接下來可能發生什么的目的。有研究提出,特別是后扣帶皮層和內側前額葉皮層參與了此類預測的生成(Stawarczyk 等人,2021)。
EEG 和 MEG 研究提供了一些初步見解,說明大腦處理概念性事件信息的速度有多快。在事件邊界出現后 200 至 800 毫秒之間,通過對 EEG 數據的多變量模式分析,觀察到對前一事件的相對快速的記憶性重激活,這可能是將其編碼進記憶的一部分(Sols 等人,2017)。這種反應與發現的潛伏期約 500 毫秒的過去記憶重激活相似,后者也由海馬體介導(Jafarpour 等人,2014;Staresina 等人,2016)。在另一項關于 50 分鐘長電影中事件分割的研究中,EEG 中的重激活發生在邊界出現后 500 至 1400 毫秒之間(Silva 等人,2019)。盡管這些大腦反應可能被認為是相對快速的,特別是在其所編碼事件長度的背景下,但顯然這一層面的整合并不像知覺和注意整合那樣迅速發生,這符合不同層級事件之間的層級關系。
4.3. 長時程事件中的適應性整合
在概念層面,時間整合適應性性質的證據并不難找到。就其本質而言,這一層級的事件圍繞著增進理解、賦予連續輸入以意義而展開(Gibson, 1979)。反過來,這種理解有助于對未來做出準確預測,促進適應性行為(Kurby 和 Zacks, 2008)。最終,概念性事件以高效的情節性表征形式進入記憶(Baldassano 等人,2017),從而提升認知經濟性。概念性事件也是有意識可訪問的,觀察者可以被可靠地要求劃定它們,甚至可以根據其平均長度進行調整(Newtson, 1973)。因此,觀察者可以根據當前目標的需要,隨意調整整合與分離之間的平衡。
盡管我已指出概念性整合與其更快層級兄弟之間的共性,但我應指出,它也可能提供獨特的益處。除了作為最易于意識認知控制的層級外,概念性事件還可能用于將事件聯結在一起,提供更高層級的知覺和認知理解。即使在 Michotte(1946)的早期研究中,也存在一種因果關系,將所涉及的兩個刺激的獨立運動統一起來。這種將連續事件串聯起來的做法在注意層面并不明顯,在該層面,單個事件的分離和孤立占主導地位(Bowman 和 Wyble, 2007;Wyble 等人,2009),在知覺層面也沒有特定證據表明存在相反情況。相比之下,在概念層面,較小的事件(例如"把水壺放上去")被分組為更大、更 overarching 的事件(例如"泡茶"),而這些表征之間沒有任何明顯的接縫(Cutting, 1981;Zacks、Braver 等人,2001)。
- 綜合與未來方向
我在當前的文獻綜述中強調了時間整合在視覺感知中是普遍存在的,也沒有理由認為在任何其他感覺模態中會有所不同。其普遍性表明,它在塑造認知本身方面也發揮著重要作用。事實上,時間整合可能是普遍認知的一個必要條件。與物體知覺類比可能有助于闡明這一觀點:假設我們完全無法感知連貫的物體,永遠只體驗到松散、漂浮的特征(參見 Treisman, 1996; Treisman 和 Gelade, 1980)。在這種情況下,很難想象我們能夠連貫地思考,缺乏來自知覺世界的任何結構經驗。同樣地,如果沒有能力理解時間中有意義的單元,即事件,我們可能缺乏結構化思維所需的連貫性。即使這個——純粹推測的——想法最終是錯誤的,時間整合的普遍性表明,它對感知和認知的重要性比通常所認為的要大。
考慮到整合發生的時間尺度,很明顯,整合事件在內容以及它們在多大程度上構成單一知覺方面差異很大。在一個極端,兩個連續呈現的顏色可以整合為單一的、加法混合的顏色,沒有太多跡象表明它在物理上是由單獨的刺激提供的。在另一個極端,相對松散的物體、演員和動作集合(其中許多可以由觀察者命名并詳細描述)可以整合為對相關間隔內正在發生的事情的單一意識理解。然而,盡管整合層級之間存在如此明顯的差異,有兩個重要且密切相關的共性將所有時間尺度的時間整合聯系在一起。
第一個共性是所有事件都將信息打包,并將其捆綁在一起成為高效的表征。這在所有整合層級上都是如此。在第一個四分之一秒內,不是在缺失元素任務(MET)中感知和編碼兩個部分陣列,而是處理一個幾乎完整的單一陣列。處理整合后的陣列不僅更高效(這在實驗任務的更瑣碎意義上也是如此),而且就時間而言也是一個更實質性的事件。在自然的、生態的情境中,即使環境處于運動中,似乎也不太可能在少于 100 毫秒的持續時間內發生許多感興趣的事件。因此,即使視覺系統能夠解析非常快速的變化,例如閃爍,在僅幾毫秒長的周期內,這樣做也很少有意義;肯定不是為了從該間隔中獲取意義。
注意片段同樣顯示出信息結構和提取的標志。為了在快速序列視覺呈現(RSVP)中處理正確的目標身份,需要一個情節性表征將目標特征(形狀、顏色等)綁定在一起,使其個體化,并將其與干擾物分開。如果沒有這種整合,松散的特征可能會被錯誤歸因,刺激表征可能變得不準確。在這一整合層級上,工作記憶中的結果表征也變得更加高效也是明顯的;屬于目標的整合特征束比任意收集的松散特征更容易保持在工作記憶中。鑒于工作記憶非常有限的容量(Cowan, 2001; Miller, 1956),這些都是重要的認知節省。
在概念事件層面,認知經濟性也很明顯。隨著場景展開,以全面的方式表征這一點至關重要,以便創建總結最相關信息的有意義實體。回到泡茶的例子,在此情境中,對水壺特定運動路徑或演員身體動作的情節性表征所產生的有用信息將非常少。同樣,如果泡茶之后是倒垃圾,那么“各種家務活動”的表征將相對缺乏信息量。隨著信息隨后從工作記憶轉移到長期情節性記憶,這些系統的容量(再次)通過所構建的概念性事件的高效打包而得到節省。
不同時間尺度時間整合之間的第二個共性是,它會根據觀察者和環境的當前需求進行調整。即使在最低層級,整合也不是在給定的間隔內僵硬地應用,仿佛有一個固定的知覺采樣率在支配它。相反,外部和內部因素都介導整合。彼此靠近的刺激不太可能被整合,如果觀察者期望即將到來的刺激相對較快,整合同樣會減少(反之亦然,對于期望較慢的刺激)。這些調節并非偶然產生,而是服務于適應性目的——通過使其適應環境中的時空特征來改善感知。
在注意層面,事件由有目的的、目標相關的選擇啟動。RSVP 中的目標觸發一個片段,被選擇以滿足固有的適應性目標;在這種情況下是在實驗任務中表現良好。注意片段的長度也可以變化很大,取決于知覺情境。在噪聲環境中,時間整合可以延長,以便在片段內收集更多證據。在注意片段內,時間整合顯然存在相當程度的意志控制,并且根據對即將到來的刺激的期望,整合可以被調節到更顯著的程度。這些調節尤其值得注意,因為構建注意片段是有代價的,正如注意瞬脫(AB)現象所說明的那樣。因此,任何延長或限制整合時間的傾向都將隨后不久處理的刺激產生明顯的(負面)后果。因此,這些調節必須在效率方面承載其自身的分量,否則它們對于知覺系統來說就不值得。
概念事件受意識控制,因此在需要時易于適應性調整。事件表征的長度和內容與長時記憶中的知識密切相關,這些知識由先前的經驗獲得,如圖式中所代表的那樣(Bartlett, 1932)。符合既定圖式的展開場景可以整合為更長的事件,其內容由先驗知識支撐,而意外的轉折將促使更短的事件,以及存儲細節的更大需求。這些調節的效果不僅是感知得到促進,更高效的表征被保持在記憶中,而且關于(近)未來的推斷也得到最優的信息告知。大腦因此可能在貝葉斯意義上權衡當前和先前的證據(參見 Knill 和 Richards, 1996)。
因此,時間整合既高效又靈活,但重要的是要補充說,這些屬性可以被視為同一枚硬幣的兩面。它們服務于優化感知:如果整合一個事件導致一個笨拙的表征,充滿無關信息,那么這將不是一個非常有吸引力的提議。相反,不考慮何時這與觀察者的當前情境和目標一致而整合高效包,很容易導致不必要的信息丟失。為了使時間整合在任何時間尺度上起作用,它只需要在適當的時機提供效率。
采用這種關于時間整合的統一適應性視角提出了若干似乎值得追求的研究方向。首先,評估何種信息可以在每個層級影響整合將是重要的。一個問題可能是先驗經驗是否已經在第一個四分之一秒內調節整合。在尺度的另一端,人們可以測試呈現顯著或有節奏的刺激對概念事件分割的影響。其次,整合中內部(自上而下)和外部(自下而上)因素之間的平衡在不同整合時間尺度上可能不是恒定的。檢查它們的比較效應將是有趣的。第三,不確定性對時間整合的影響可能具有信息量。在缺乏可靠感官信息和/或先驗知識的情況下,知覺系統可以在默認水平上整合信息,從而可以被表征。例如,時間整合可能“默認”與知覺事件的 alpha 頻段中的特定頻率同步。第四,如果整合確實服務于適應性目的,量化那種適應性優勢,就減少的記憶負荷或改善的知覺預測而言,對于描繪其對感知和認知的影響將是重要的。這些只是對未來研究的建議,可以被采納或丟棄,但我希望通過采取跨巨大不同時間尺度的時間整合的適應性視角,我為未來研究與這個引人入勝的主題相關提供了一個鼓舞人心的起點。
原文鏈接:https://www.sciencedirect.com/science/article/pii/S0149763425000417
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.