網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

圖式學(xué)習(xí)和重組作為情境學(xué)習(xí)和涌現(xiàn)的機(jī)制

2026-03-12 11:13:11　來(lái)源: CreateAMind

上海舉報(bào)

分享至

Schema-learning and rebinding as mechanisms of in-context learning and emergence

https://proceedings.neurips.cc/paper_files/paper/2023/file/5bc3356e0fa1753fff7e8d6628e71b22-Paper-Conference.pdf

摘要

上下文學(xué)習(xí)（In-context learning, ICL）是基于Transformer的大語(yǔ)言模型（LLMs）中最強(qiáng)大、最出乎意料的能力之一。然而，其背后的機(jī)制尚不明確。在本文中，我們展示了類似的ICL能力可以通過(guò)另一種序列預(yù)測(cè)學(xué)習(xí)方法獲得，即克隆結(jié)構(gòu)因果圖（clone-structured causal graphs, CSCGs）。CSCG的一個(gè)關(guān)鍵特性是，與基于Transformer的LLMs不同，它們是可解釋的，這大大簡(jiǎn)化了解釋ICL工作原理的任務(wù)。我們證明，CSCG中的ICL結(jié)合運(yùn)用了以下幾種機(jī)制：(a) 學(xué)習(xí)用于模式補(bǔ)全的模板（模式）電路，(b) 以上下文敏感的方式檢索相關(guān)模板，以及(c) 將新出現(xiàn)的標(biāo)記（token）重新綁定到模板中的適當(dāng)槽位。我們進(jìn)一步匯集證據(jù)，支持LLMs中的ICL也依賴于類似機(jī)制的假設(shè)。例如，我們發(fā)現(xiàn)，與LLMs一樣，在CSCGs中，不同的能力會(huì)在不同程度的過(guò)參數(shù)化（overparameterization）水平上涌現(xiàn)，這表明過(guò)參數(shù)化有助于學(xué)習(xí)更復(fù)雜的模板（模式）電路。通過(guò)展示如何能用小型模型和數(shù)據(jù)集實(shí)現(xiàn)ICL，我們?yōu)樵O(shè)計(jì)新型架構(gòu)開辟了道路，并向更普遍地理解這一重要能力背后的機(jī)制邁出了關(guān)鍵一步。

1 引言

在預(yù)訓(xùn)練的序列模型中，上下文學(xué)習(xí)（ICL），或稱少樣本提示（few-shot prompting），是指在推理時(shí)從上下文（提示）中呈現(xiàn)的一小組示例中學(xué)習(xí)新任務(wù)的能力。令人驚訝的是，在足夠數(shù)據(jù)上訓(xùn)練的大語(yǔ)言模型（LLMs）展現(xiàn)出了ICL能力，盡管它們僅以預(yù)測(cè)下一個(gè)標(biāo)記（next token prediction）為訓(xùn)練目標(biāo) [1, 2]。當(dāng)前圍繞LLMs的許多興奮情緒正是源于這種意想不到的能力，因?yàn)樗鼧O大地?cái)U(kuò)展了其潛在的應(yīng)用范圍。目前理解這種能力的嘗試有多種形式，包括使用貝葉斯推理 [3] 的高級(jí)規(guī)范性解釋，以及涉及隱式梯度下降 [4] 或歸納頭（induction heads）[5] 的機(jī)制性解釋。盡管如此，LLMs中ICL背后的機(jī)制仍然有些神秘。

我們采用一種替代方法，研究一種稱為克隆結(jié)構(gòu)因果圖（CSCG）[6, 7] 的序列學(xué)習(xí)模型，以揭示驅(qū)動(dòng)ICL的條件。我們證明，ICL可以被解釋為以下機(jī)制的結(jié)合：(a) 學(xué)習(xí)用于模式補(bǔ)全的模板電路，(b) 以上下文敏感的方式檢索相關(guān)模板，以及(c) 將新出現(xiàn)的標(biāo)記重新綁定到模板中的適當(dāng)槽位 [8]。與n-gram模型不同，CSCGs允許在潛在空間中進(jìn)行傳遞性泛化：它們?yōu)橛?xùn)練期間從未見過(guò)的序列賦予語(yǔ)義上合理的非零概率，從而確保用于檢索的上下文（提示）并非純粹的機(jī)械記憶。此外，將新標(biāo)記綁定到已學(xué)習(xí)模板的槽位中，允許將相同的結(jié)構(gòu)知識(shí)應(yīng)用于全新的輸入。我們假設(shè)類似的機(jī)制可能存在于基于Transformer的LLMs中。通過(guò)闡明支撐ICL機(jī)制的原理，我們希望為設(shè)計(jì)用于抽象和泛化的新型架構(gòu)鋪平道路，同時(shí)我們識(shí)別出的這些構(gòu)建模塊將引導(dǎo)在Transformer中尋找機(jī)制上可解釋 [9] 和可編輯 [10] 的電路 [11]。

2 克隆結(jié)構(gòu)因果圖的再綁定算法

2.1 克隆結(jié)構(gòu)因果圖（CSCGs）背景

2.2 CSCG中的再綁定

2.2.1 通過(guò)關(guān)注驚異實(shí)現(xiàn)快速再綁定

通常，環(huán)境變化是局部的，這意味著大部分潛在結(jié)構(gòu)和觀測(cè)映射得以保留，僅少數(shù)觀測(cè)需要被再綁定：例如，僅更換房間內(nèi)的地毯而墻面顏色保持不變，或者在熟悉的語(yǔ)境中接觸到一個(gè)新詞。這一洞見可被用來(lái)推導(dǎo)出一種算法，該算法將發(fā)射矩陣的更新僅聚焦于那些被現(xiàn)有模型發(fā)現(xiàn)為驚異（surprising）的觀測(cè)上。

再綁定完成后，我們通過(guò)在再綁定后的CSCG中，以所提供的提示為條件執(zhí)行最大后驗(yàn)概率（MAP）推理來(lái)完成提示。我們運(yùn)行前向的最大乘積算法 [19]（后向消息均為均勻分布），從而為提示之后的標(biāo)記生成一系列MAP觀測(cè)值。一旦生成分隔符標(biāo)記，我們就停止。詳見附錄B中的算法2。

3 使用CSCG的總體論證框架

3.1 上下文相關(guān)的潛在表示與傳遞性泛化

CSCG的克隆結(jié)構(gòu)允許在語(yǔ)言建模中基于上下文進(jìn)行分離和適當(dāng)?shù)幕旌?。例如，單詞"bank"在"bank robber"（銀行劫匪）中的含義與在"river bank"（河岸）中的含義不同。CSCG學(xué)習(xí)通過(guò)在潛在空間中將它們連接到不同的克隆來(lái)消除這些上下文的歧義，從而提高預(yù)測(cè)準(zhǔn)確性。在圖2A中，句子"river bank resort"和"one bank robber"使用了"bank"的不同克隆。序列可以具有概率分支："one bank robber"可能以"\n"結(jié)束，也可能繼續(xù)到"eating at river bank resort"或"eating bread and honey"，或者"eating bread and butter at river bank resort"（圖2B）。CSCG還允許合并導(dǎo)致傳遞性泛化的上下文：即使訓(xùn)練數(shù)據(jù)僅有序列"bread and butter"和"milk and honey"，如果它們經(jīng)過(guò)相同的克隆狀態(tài)"and"，模型將泛化到"bread and honey"和"milk and butter"，賦予這些序列非零概率。由于上下文相關(guān)的分離和傳遞性的結(jié)合，相關(guān)的主題、概念和算法被聚類成通過(guò)相同克隆的子網(wǎng)絡(luò)。一個(gè)提示的上下文將激活其子網(wǎng)絡(luò)，而傳遞性泛化允許處理并非完全機(jī)械記憶的提示。正如我們?cè)诘?節(jié)中展示的，關(guān)于ICL的貝葉斯推理視角 [3] 僅對(duì)應(yīng)于這種上下文敏感且具有傳遞性泛化的存儲(chǔ)與檢索，不足以解釋我們?cè)诤罄m(xù)章節(jié)中考慮的ICL特性。

3.2 學(xué)習(xí)靈活的模式（模板電路）與再綁定

就像學(xué)習(xí)房間布局一樣，CSCG可以學(xué)習(xí)用于序列到序列（seq2seq）算法的自動(dòng)機(jī)電路 [20]。參見圖2中用于計(jì)算奇偶性、復(fù)制序列以及逆轉(zhuǎn)多種長(zhǎng)度序列的CSCG電路。圖2E中的列表逆轉(zhuǎn)電路綁定到了訓(xùn)練中使用的特定符號(hào)A、B、C、D、E。為了用作模板，此圖中的槽位必須能夠在測(cè)試時(shí)適當(dāng)?shù)亟壎ǖ缴舷挛闹谐霈F(xiàn)的內(nèi)容（任意符號(hào)）[8, 21]。再綁定機(jī)制（在算法1中形式化）可以直觀地理解為基于預(yù)測(cè)誤差運(yùn)行——當(dāng)潛在上下文強(qiáng)烈預(yù)測(cè)對(duì)應(yīng)于某個(gè)時(shí)刻的潛在狀態(tài)，但實(shí)際觀測(cè)不匹配時(shí)，再綁定調(diào)整發(fā)射矩陣，將該潛在狀態(tài)的所有克隆連接到令人驚異的觀測(cè)。這種將先前知識(shí)與新內(nèi)容混合及門控的機(jī)制，使得訓(xùn)練期間學(xué)到的電路能夠成為靈活的模板，其槽位可以根據(jù)需要?jiǎng)討B(tài)綁定到新輸入。例如，在圖2F的列表逆轉(zhuǎn)模式中，標(biāo)記"["和"]"是用于檢測(cè)列表開始和結(jié)束的先前內(nèi)容——它們充當(dāng)將該模式錨定在觀測(cè)中的錨點(diǎn)。基于列表結(jié)束標(biāo)記"]"的概率分支允許長(zhǎng)度泛化，而將與A、B、C、D、E對(duì)應(yīng)的槽位吸收任意符號(hào)，則允許算法泛化到新的符號(hào)。圖2G展示了此再綁定機(jī)制的結(jié)果，其中發(fā)射A、B、C、D、E的槽位分別被重新綁定到輸入提示中的符號(hào)K、M、N、P、R。類似地，在句子"I wrote in a notebook using a dax"中，再綁定可以通過(guò)將新詞"dax"綁定到對(duì)應(yīng)于"pencil"或"pen"的克隆上，將其吸收到上下文中，并在那些上下文中使用這個(gè)新詞。

3.3 基于指令或內(nèi)容的檢索與任務(wù)完成

基于內(nèi)容的零樣本任務(wù)識(shí)別與再綁定：許多引人注目的零樣本學(xué)習(xí)示例涉及從提示中識(shí)別任務(wù)，并將其應(yīng)用于新輸入。例如，給定一個(gè)提示："Input: [p, q, r, s] Output: [p, p, q, q, r, r, s, s]; Input: [l, m, n, o] Output: [l, l, m, m, n, n, o, o]"，大語(yǔ)言模型（LLM）能夠推斷出任務(wù)是將序列元素重復(fù)，并應(yīng)用該規(guī)則來(lái)完成一個(gè)新輸入提示的輸出，即使與此任務(wù)相關(guān)的標(biāo)記"p, q, r, s, l, m, n, o"在訓(xùn)練中未曾見過(guò)。再綁定機(jī)制為此提供了自然的解釋。給定提示后，期望最大化（EM）算法[18]會(huì)同時(shí)評(píng)估針對(duì)多個(gè)潛在算法模式的不同再綁定方案，以推斷出最佳綁定，然后將其應(yīng)用于完成查詢提示。

基于指令的檢索：當(dāng)算法使用預(yù)定義的語(yǔ)言指令進(jìn)行訓(xùn)練時(shí)，CSCG會(huì)學(xué)習(xí)到指令子網(wǎng)絡(luò)，這些子網(wǎng)絡(luò)直接指向代表算法的電路（見第4.2節(jié)）。由于傳遞性泛化和再綁定，即使使用的語(yǔ)言提示與訓(xùn)練指令有顯著差異，也能通過(guò)直接提示來(lái)檢索到相應(yīng)算法。

3.4 涌現(xiàn)現(xiàn)象

我們假設(shè)并在第4節(jié)中通過(guò)實(shí)證表明，涌現(xiàn)現(xiàn)象可以解釋為上述特性（上下文分離、傳遞性泛化、模式形成和再綁定）、模型容量以及數(shù)據(jù)模式共同作用的結(jié)果。在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練，會(huì)誘導(dǎo)出更多在較小數(shù)據(jù)集中可能不存在的模板。學(xué)習(xí)更復(fù)雜算法或數(shù)據(jù)中更多模式的示意圖電路需要更大的模型容量，因?yàn)檫^(guò)參數(shù)化有助于優(yōu)化過(guò)程。

4 結(jié)果

我們通過(guò)在三個(gè)數(shù)據(jù)集上的實(shí)證結(jié)果來(lái)論證上述觀點(diǎn)：(a) 文獻(xiàn) [3] 中提出的 GINC 基準(zhǔn)測(cè)試，(b) 我們?cè)?LIALT 數(shù)據(jù)集中引入的一系列算法學(xué)習(xí)任務(wù)，以及 (c) 在 CSCG 語(yǔ)言模型上的零樣本詞匯用法歸納任務(wù)。

由于詞匯表在不同潛在概念間是共享的，GINC 中的觀測(cè)值像自然語(yǔ)言一樣存在混淆，解決該任務(wù)需要模型區(qū)分混淆的觀測(cè)值以正確推斷潛在概念。

結(jié)果：CSCG 學(xué)會(huì)了對(duì)應(yīng)于 GINC 數(shù)據(jù)集中五個(gè)潛在概念的不同潛在子網(wǎng)絡(luò)（圖 3A），并且對(duì)提供的提示進(jìn)行推理時(shí)，能夠檢索到正確的潛在子網(wǎng)絡(luò)（圖 3C）。增加提示長(zhǎng)度可以改善子網(wǎng)絡(luò)以及子網(wǎng)絡(luò)內(nèi)特定狀態(tài)的定位。圖 3C 可視化了在零樣本設(shè)置（ n = 0
）下，對(duì)于一個(gè)示例提示解碼出的潛在狀態(tài)分布。解碼開始時(shí)是不確定的，隨著提示變長(zhǎng)而改善。這種（在圖上的）定位導(dǎo)致了有效的模式檢索，從而實(shí)現(xiàn)了準(zhǔn)確的提示補(bǔ)全。圖 3B[左] 報(bào)告了 GINC 測(cè)試集中每個(gè) ( k , n )
對(duì)的上下文內(nèi)準(zhǔn)確率——定義為正確預(yù)測(cè)的平均比率。CSCG 的上下文內(nèi)準(zhǔn)確率與 [3] 中 LSTM 和 transformer 表現(xiàn)出的模式相匹配，同時(shí)性能略有提升。圖 3B 還顯示，容量更大的 CSCG（即每個(gè)詞元有 50 個(gè)克?。┠芨玫胤蛛x潛在概念，并且顯著優(yōu)于每個(gè)詞元只有 10 個(gè)克隆的 CSCG。附錄 C 中的圖 9[左] 展示了 CSCG 的上下文內(nèi)置信度：對(duì)于更大的上下文，CSCG 能更好地消除混淆，平均預(yù)測(cè)概率更高。最后，圖 9[右] 顯示，與 [3] 中的 transformer 和 LSTM 類似，當(dāng)測(cè)試提示從未在訓(xùn)練中出現(xiàn)過(guò)的概念中采樣時(shí)，CSCG 的 ICL 會(huì)失敗。GINC 的結(jié)果與第 3.1 節(jié)中基于上下文檢索的論點(diǎn)相符：此設(shè)置下的 ICL 是在提示和模型之間檢索共享的潛在概念。通過(guò)利用訓(xùn)練文檔中概念的遠(yuǎn)距離一致性，模型學(xué)會(huì)了將不同概念分離到不同的潛在表示中。盡管訓(xùn)練集和提示的分布存在不匹配 [3]，但由于表示允許傳遞性混合，CSCG 仍然成功地完成了提示補(bǔ)全。

4.2 學(xué)習(xí) seq2seq 算法的模式并通過(guò)再綁定實(shí)現(xiàn)泛化

訓(xùn)練數(shù)據(jù)集：為了測(cè)試 CSCG 學(xué)習(xí)能夠泛化到訓(xùn)練中未見的新輸入上的算法的能力，我們構(gòu)建了語(yǔ)言指令算法學(xué)習(xí)任務(wù)（LIALT）數(shù)據(jù)集。LIALT 訓(xùn)練集包含圖 4A[左上] 中展示的 13 種列表和矩陣算法的演示。一次演示包含一個(gè)由多個(gè)詞組成的語(yǔ)言指令——每種算法有五個(gè)不同的指令——后跟該算法的 10 個(gè)輸入-輸出示例。使用的完整指令列表見附錄 D.1 中的表 2 和表 3。對(duì)于每條指令，數(shù)據(jù)集中包含 20 個(gè)演示。在一個(gè)演示中，語(yǔ)言指令和示例之間由“/”分隔符隔開。不同的演示之間由“\n”分隔符隔開。輸入列表和矩陣的值是通過(guò)從由大寫字母隨機(jī)配對(duì)創(chuàng)建的 676 個(gè)詞元的詞匯表中均勻采樣生成的。列表操作的示例長(zhǎng)度從 3 到 6 不等，矩陣操作的規(guī)模為 2×2 或 3×3。圖 4A[左下] 展示了訓(xùn)練數(shù)據(jù)格式。

測(cè)試數(shù)據(jù)集：ILIAT 包含兩個(gè)測(cè)試數(shù)據(jù)集，分別包含：(a) 基于指令的檢索提示，和 (b) 基于示例的檢索提示?；谥噶畹臋z索測(cè)試提示由一個(gè)自然語(yǔ)言指令后跟單個(gè)輸入組成。基于示例的檢索測(cè)試提示由一個(gè)算法的首個(gè)輸入-輸出示例（不含任何自然語(yǔ)言指令）后跟第二個(gè)輸入組成。兩個(gè)測(cè)試數(shù)據(jù)集中的所有列表和矩陣都包含新穎的詞元。對(duì)于這兩種類型的提示，上下文內(nèi)任務(wù)都是預(yù)測(cè)將算法應(yīng)用于（最后一個(gè)）輸入時(shí)的輸出。請(qǐng)注意，對(duì)于基于示例的提示，CSCG 必須從第一個(gè)示例推斷所使用的算法。每個(gè)測(cè)試集包含 100 個(gè)提示，通過(guò)均勻采樣指令以及列表或矩陣詞元構(gòu)建而成。圖 4A [右]展示了這兩個(gè)測(cè)試集的格式。

學(xué)習(xí)到的 CSCG（以過(guò)分配率 3 初始化）使用堆疊克隆的方式在附錄圖 10 中進(jìn)行了可視化。圖 6A 展示了使用 Kamada-Kawai 算法 [24] 得到的轉(zhuǎn)移圖。它揭示了十三個(gè)松散連接的聚類，對(duì)應(yīng)于 LIALT 數(shù)據(jù)集中存在的十三種算法。圖 6B 展示了再綁定過(guò)程，針對(duì)兩個(gè)不同的基于示例的提示，給出了學(xué)習(xí)到的 CSCG 模型在潛在狀態(tài)上的解碼分布。即使在任何再綁定之前，錨點(diǎn)和槽位的識(shí)別已經(jīng)將解碼限制在與提示結(jié)構(gòu)兼容的模式上——在此例中是基于括號(hào)和分隔符。然而，這種結(jié)構(gòu)不足以完全區(qū)分兼容的模式（對(duì)應(yīng)于逆轉(zhuǎn)、循環(huán)前移和循環(huán)后移的列表操作），兩個(gè)選定的提示導(dǎo)致了相同的潛在狀態(tài)分布。因此，第一個(gè) E 步之后的解碼分布定位到了這三個(gè)兼容的模式上。在隨后的 M 步中，所有三個(gè)模式中的槽位都將針對(duì)此提示進(jìn)行再綁定。在第一次 EM 迭代結(jié)束時(shí)，鑒于一致證據(jù)，正確模式中槽位的新綁定將具有很高的確定性，而不一致證據(jù)將導(dǎo)致其他模式中槽位的綁定不確定。在第二次迭代的 E 步中，綁定中各自的確定性水平隨后有助于將正確的算法模式提升為最可能的解碼——從而適當(dāng)?shù)赝瓿商崾尽Ｗ⒁?，在這些示例中，單次 EM 步就足以推導(dǎo)出正確的再綁定。比較圖 5 和圖 11，以及附錄 D.3 節(jié)中的表格，可以看出再綁定過(guò)程中第一個(gè) EM 步之后的上下文內(nèi)補(bǔ)全性能與 EM 收斂結(jié)束時(shí)的性能非常相似。

LIALT 的結(jié)果證實(shí)了我們?cè)诘?3.2 和 3.3 節(jié)中提出的論點(diǎn)?；陂L(zhǎng)期一致性的潛在上下文貝葉斯推理（足以解釋第 4.1 節(jié)中的 GINC 結(jié)果）并不能解釋為了在 LIALT 算法上泛化所需的將潛在表示重新映射到全新詞元的過(guò)程。如果沒(méi)有再綁定，即使提示包含一個(gè)算法的完整長(zhǎng)度示例但帶有新穎詞元，也無(wú)法僅基于潛在狀態(tài)推理來(lái)檢索到正確的算法模式或產(chǎn)生正確的補(bǔ)全（圖 6B，第一行）。相比之下，同時(shí)推斷再綁定和潛在狀態(tài)則能準(zhǔn)確檢索算法模式并正確完成提示（圖 6B，第二行）。因此，CSCG 能夠?qū)W習(xí) seq2seq 算法，并通過(guò)再綁定將這些算法泛化到新穎詞元上。

涌現(xiàn)：CSCG 在 LIALT 數(shù)據(jù)集上的 ICL 性能展現(xiàn)了歸因于涌現(xiàn)的特性。上下文內(nèi)準(zhǔn)確率明顯依賴于 CSCG 的過(guò)參數(shù)化水平，這為我們?cè)诘?3.4 節(jié)中的假設(shè)提供了支持證據(jù)。

5 相關(guān)工作

上下文學(xué)習(xí)：類似于人類通過(guò)類比學(xué)習(xí)的方式 [27] 以及突觸可塑性使大腦能夠快速適應(yīng)新任務(wù) [28]，上下文學(xué)習(xí)（ICL）能力 [1] 使得預(yù)訓(xùn)練模型能夠在僅給定少量示例的情況下學(xué)習(xí)新任務(wù)。[29, 30] 展示了明確指導(dǎo)推理過(guò)程的演示如何提高 Transformer 在新復(fù)雜任務(wù)上的 ICL 性能。下面我們澄清一些不應(yīng)與 ICL 混淆的概念，然后討論一些旨在理解 ICL 及其影響因素的工作。

監(jiān)督學(xué)習(xí)（SL）和少樣本學(xué)習(xí)（FSL）：監(jiān)督學(xué)習(xí)方法學(xué)習(xí)一個(gè)映射，以最小化訓(xùn)練數(shù)據(jù)上的損失：梯度方法是一種流行的范式 [31, 32, 33]。在少樣本學(xué)習(xí)中，模型學(xué)習(xí)從有限數(shù)量的監(jiān)督示例中快速適應(yīng)新任務(wù) [34, 35, 36]，并在推理時(shí)執(zhí)行此相同任務(wù)。相比之下，ICL 任務(wù)僅在推理時(shí)揭示。[37, 38] 表明，在 ICL 指令上微調(diào) Transformer 可以提高其 ICL 性能。

元學(xué)習(xí)：元學(xué)習(xí)范式旨在通過(guò)利用多次學(xué)習(xí)經(jīng)驗(yàn)，學(xué)習(xí)僅用少量示例適應(yīng)新任務(wù) [39, 40, 41]。相比之下，ICL 直接從預(yù)訓(xùn)練模型中涌現(xiàn)。[42, 43] 提出了一個(gè)用于 ICL 的元學(xué)習(xí)框架，其中模型經(jīng)過(guò)微調(diào)：它學(xué)習(xí)利用少樣本示例并在推理時(shí)適應(yīng)新任務(wù)。

ICL 的工作原理：[3] 將 ICL 解釋為隱式貝葉斯推理，并構(gòu)建了 GINC 數(shù)據(jù)集（見第 4.1 節(jié)）來(lái)演示 ICL。[44] 將 ICL 抽象為一個(gè)算法學(xué)習(xí)問(wèn)題，發(fā)現(xiàn) Transformer 可以隱式推斷一個(gè)假設(shè)函數(shù)。類似地，[45] 表明，Transformer 可以被訓(xùn)練來(lái)對(duì)未見過(guò)的線性函數(shù)執(zhí)行 ICL，其性能與最優(yōu)最小二乘估計(jì)器相當(dāng)。[46] 表明，在線性情況下，Transformer 隱式地實(shí)現(xiàn)了梯度下降，并在 ICL 示例上訓(xùn)練了一個(gè)隱式線性模型。[4] 提出了 Transformer 注意力與梯度方法之間的對(duì)偶性，并建議將預(yù)訓(xùn)練模型視為元優(yōu)化器。他們將 ICL 呈現(xiàn)為隱式微調(diào)，其中對(duì)演示示例的前向傳播會(huì)產(chǎn)生元梯度。最后，[5] 展示了 Transformer 中存在“歸納頭”，它們?cè)谟?xùn)練過(guò)程中涌現(xiàn)，復(fù)制先前的模式，并驅(qū)動(dòng) ICL 能力。

影響 ICL 的因素：[1, 47] 指出，LLM 的 ICL 性能會(huì)“涌現(xiàn)”，然后在模型規(guī)模增大時(shí)持續(xù)改進(jìn)。[48] 提出了位置編碼的替代方案，并展示了 Transformer 如何學(xué)習(xí)算法任務(wù)的模式，并泛化到比訓(xùn)練期間見過(guò)的任何序列都更長(zhǎng)的測(cè)試序列上。一些工作強(qiáng)調(diào)了訓(xùn)練數(shù)據(jù)在 ICL 中的作用。[49] 表明，當(dāng)訓(xùn)練數(shù)據(jù)包含大量稀有類別且示例以聚類形式出現(xiàn)時(shí)，ICL 會(huì)涌現(xiàn)。而 [50] 證明，當(dāng)模型在多個(gè)語(yǔ)料庫(kù)的組合上進(jìn)行訓(xùn)練時(shí)，ICL 會(huì)涌現(xiàn)，并且低困惑度與 ICL 性能并不總是相關(guān)。[51, 52] 發(fā)現(xiàn) ICL 高度不穩(wěn)定，并受到提示模板、上下文示例的選擇以及示例順序的影響。[53] 表明，ICL 性能受標(biāo)簽空間的暴露、輸入分布以及序列的整體格式驅(qū)動(dòng)。類似地，[54] 發(fā)現(xiàn)選擇與 ICL 測(cè)試樣本嵌入更接近的 ICL 示例可以提高 ICL 性能，[55] 表明在上下文中添加解釋可以提高性能。最后，[56] 最近聲稱，在更大模型中 ICL 的急劇涌現(xiàn)可能是指標(biāo)的假象，而非模型的基本屬性。

6 討論

隨著將 ICL 解構(gòu)為模式學(xué)習(xí)、模式檢索和槽位再綁定，未來(lái)一個(gè)有趣的研究方向?qū)⑹翘骄扛鞣N序列模型中這些組件各自表現(xiàn)的穩(wěn)健性——甚至圍繞這些原則構(gòu)建新模型。在此，我們考慮這個(gè)框架如何可能映射到最初觀察到 ICL 現(xiàn)象的 Transformer 上。

與 CSCG 不同，Transformer 會(huì)緩存輸入并將位置表示為位置編碼，這使得注意力能夠根據(jù)提示的結(jié)構(gòu)以及內(nèi)容進(jìn)行門控。先前的解釋 [3, 4] 并未區(qū)分序列位置相對(duì)于內(nèi)容的作用；我們認(rèn)為相關(guān)理論可能需要強(qiáng)調(diào)這種區(qū)分（見圖 8A），以充分理解 ICL 背后的歸納偏差。

我們推測(cè)（見圖 8B），Transformer 的多個(gè)層實(shí)現(xiàn)了位置和內(nèi)容的多種混合模板，這些模板在提示的不同偏移量上進(jìn)行評(píng)估。能夠自回歸匹配提示的模板組合將在競(jìng)爭(zhēng)中勝出，從而對(duì)內(nèi)容進(jìn)行門控。再綁定機(jī)制僅需要對(duì)發(fā)射矩陣進(jìn)行少量迭代的稀疏更新，并且可以在時(shí)間上“展開”為前向傳播，從而允許在權(quán)重固定的情況下實(shí)現(xiàn) ICL 行為，因?yàn)椴畚环峙溥^(guò)程存在于激活空間中。

回到 CSCG 本身，其實(shí)現(xiàn)可以通過(guò)利用稀疏性和并行化 EM 步驟中的計(jì)算來(lái)擴(kuò)展到更大的模型和數(shù)據(jù)集。允許使用分解的潛在空間并添加跳躍連接，也將在實(shí)現(xiàn)可擴(kuò)展性的同時(shí)支持組合性。此外，雖然我們?cè)诖岁U述了將新符號(hào)附加到現(xiàn)有槽位的再綁定概念，但“跨時(shí)間”的再綁定也可以針對(duì)克隆之間的連接，從而在上下文內(nèi)實(shí)現(xiàn)組合行為。我們將這些探索留給未來(lái)的研究。我們這里的目標(biāo)一直是利用 CSCG 的可解釋性來(lái)闡明 ICL 行為的一般框架。我們希望這能通過(guò)類比的方式，揭開在 LLM 中觀察到的 ICL 行為的神秘面紗，展示進(jìn)一步研究 ICL 能力的途徑，并為可解釋方法提供廣泛動(dòng)力。

原文鏈接：https://proceedings.neurips.cc/paper_files/paper/2023/file/5bc3356e0fa1753fff7e8d6628e71b22-Paper-Conference.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.