網易首頁 > 網易號 > 正文申請入駐

大語言模型是貝葉斯的，本工作從根本上重構了現代語言模型中架構設計與統計最優性之間的關系

2025-09-22 00:05:53　來源: CreateAMind

上海舉報

分享至

LLMs are Bayesian,In Expectation, Not in Realization

https://arxiv.org/pdf/2507.11768

6.5 結論

本研究始于一個表面上的矛盾：變換器違反了貝葉斯推理的基本性質，卻實現了貝葉斯級別的性能。通過嚴謹的理論分析與受控實驗，我們已證明，當從信息論的視角審視時，這一悖論便得以消解。變換器并非經典意義上的貝葉斯推理器；它們是通過不同機制實現統計最優性的架構系統。

“變換器在期望上是貝葉斯的，但在具體實現上并非如此”這一關鍵洞見，捕捉了現代深度學習的一個根本特征。架構約束以經典理論必須接納而非忽視的方式塑造了統計行為。位置編碼在表達能力與可交換性之間制造了固有的張力，從而產生可被理解、量化和緩解的可預測偏差。

我們的最優思維鏈框架展示了理論洞見如何轉化為實際價值。通過理解推理背后的信息論基礎，我們可以在保持性能的同時大幅降低計算成本。不完備性定理揭示了為何這種外部推理是必要的：有限的參數無法承載無限的計算復雜度。

隨著語言模型在科學與商業應用中日益占據核心地位，對其性質的嚴謹理解變得至關重要。我們的工作為可靠部署提供了所需的理論基礎與實用工具。我們所開發的排列平均、最優思維鏈選擇與偏差緩解方法，可立即應用于當前系統，同時也為未來架構設計指明了原則方向。

更廣泛的啟示超越了變換器本身，觸及智能的本質。最優推理需要在壓縮知識與動態計算、內部容量與外部記憶、架構偏差與統計靈活性之間取得平衡。通過擁抱而非忽視這些權衡，我們可以構建不僅強大、而且可理解，不僅有效、而且高效，不僅令人印象深刻、而且可靠穩健的系統。未來的道路需要持續融合架構創新與理論嚴謹性——這正是本研究力求推進的綜合方向。

摘要

大型語言模型展現出顯著的上下文學習能力，能夠在不更新參數的情況下適應新任務。盡管這一現象已被成功建模為隱式貝葉斯推理，但最近的實證發現揭示了一個根本性矛盾：變換器transformers系統性地違反了鞅性質，而這是在可交換數據上進行貝葉斯更新的一個基本要求。這種違反挑戰了在關鍵應用中不確定性量化所依賴的理論基礎。

1 引言

上下文學習（ICL）的出現代表了機器學習領域的一次范式轉變。以 GPT-3 [2] 為代表的大型語言模型，僅需在推理時提供少量示例即可適應新任務，而無需任何基于梯度的參數更新。這一能力對少樣本學習、任務適應以及神經網絡中學習的本質具有深遠影響。

1.1 貝葉斯框架及其成功

一種特別優雅的理論框架通過貝葉斯推理的角度解釋 ICL。[17] 提出，變換器transformers隱式地對潛在概念變量執行后驗更新，預訓練分布編碼了可能任務的先驗。這一觀點已被擴展，表明變換器可以實現最優統計過程 [1]、近似高斯過程 [9]，并達到極小極大最優后悔界 [19]。

貝葉斯解釋提供了概念清晰性和實際益處。它建議了不確定性量化的原則方法，解釋了少樣本學習的樣本效率，并將 ICL 連接到元學習和統計估計理論的豐富文獻中。該框架的預測成功使其成為我們理解變換器能力的理論基石。

1.2 鞅違反挑戰

然而，這一理論大廈最近被 [3] 挑戰，他們通過實證表明基于變換器的語言模型系統性地違反了鞅性質。對于觀察順序不攜帶信息的可交換數據，貝葉斯后驗預測分布必須滿足：

1.3 我們的貢獻：信息論解決方案

我們提出，這一表觀矛盾可以通過采用算法信息論視角來解決。我們的關鍵洞察是，廣泛存在于變換器架構中的位置編碼，從根本上改變了學習問題的信息論結構。雖然經典貝葉斯推理假設數據是可交換的，但位置編碼通過使模型計算依賴于輸入順序，明確打破了這種對稱性。

1.4 結果總結

我們的主要貢獻包括：

1.5 論文結構
第2節回顧了與上下文學習、貝葉斯解釋以及鞅批判相關的背景知識。
第3節呈現我們的主要理論結果，包括對鞅違反現象的刻畫以及最小描述長度（MDL）最優性分析。
第4節推導出具有顯式常數和有限樣本保證的最優思維鏈長度。
第5節通過受控實驗提供實證驗證。
第6節討論研究的意義與局限性。
詳細證明見附錄。

2 背景與相關工作

2.1 上下文學習：經驗現象與機制理解

近期的機制性研究已識別出支撐上下文學習的關鍵架構組件。[10] 發現了“歸納頭”（induction heads），即在訓練過程中發生相變時出現的注意力模式，這些模式基于先前出現的標記進行復制。[15] 表明變換器的前向傳播可以實現梯度下降，暗示上下文學習可能涉及隱式優化。[4] 展示了從零開始訓練的變換器能夠在上下文中執行線性回歸、決策樹及其他算法，其性能可匹配最優估計器。

2.2 貝葉斯解釋：理論基礎與擴展

由 [17] 提出的用于上下文學習的貝葉斯框架將預訓練分布分解為：

該框架已在多個方向上得到擴展：
? [9] 提出了“先驗-數據擬合網絡”（Prior-Data Fitted Networks），可直接近似貝葉斯后驗分布
? [19] 證明了上下文學習實現了具有最優后悔界（regret bounds）的貝葉斯模型平均
? [1] 表明變換器能夠根據數據特征選擇并執行合適的統計估計器

2.3 鞅性質及其違反

2.4 信息論與最優預測

最小描述長度（Minimum Description Length, MDL）原則 [7] 為學習提供了信息論基礎。MDL 選擇使以下表達式最小化的模型：

2.5 思維鏈提示與計算成本

2.6 位置編碼：架構必要性與統計后果

位置編碼使變換器能夠處理序列數據，因為注意力機制本身是排列不變的。常見的方案包括：

3 理論分析

我們現在呈現主要的理論結果，闡明位置編碼如何在架構表達能力與統計可交換性之間制造一種內在張力。

3.1 問題形式化

4 最優思維鏈長度

基于我們從定理 3.4 和 3.7 得出的信息論框架，我們現在展示如何選擇中間推理標記的數量 k，以在考慮計算成本的前提下最小化總描述長度。我們推導出一個具有顯式常數和有限樣本保證的閉式縮放規律：

4.1 經濟動因

思維鏈提示（Chain-of-Thought prompting）已成為生產級大語言模型（LLM）系統中的標準實踐，但其帶來了顯著的成本。每個額外的推理標記都會增加：

例如，OpenAI 的 GPT-4 API 對每 1000 個輸入標記收費 0.03 美元。一個復雜的推理任務可能使用 100 到 1000 個思維鏈標記，從而每次查詢增加 0.003 至 0.03 美元的成本。在企業級規模（每日數百萬次查詢）下，非最優的鏈長每年可能導致數百萬美元的浪費。我們的理論框架為這一優化問題提供了首個有原則的解決方案。

5 實證驗證

我們通過在 OpenAI 的 GPT-3（text-davinci-002）上進行受控實驗，驗證了我們的理論預測，利用其 API 訪問標記對數概率。我們的實驗設計重點測試三個核心理論預測：鞅違反的縮放規律、通過排列平均實現的方差降低，以及位置編碼偏差的結構。第 4 節推導出的最優思維鏈邊界實證驗證將推遲到后續工作，因為它需要大量計算資源和多個模型規模的訪問權限。

5.1 實驗設置

該結果具有直接的實際意義。使用 k=20次排列，實踐者可在僅增加 20 次前向傳播成本的情況下實現預測方差降低 4 倍——這對于需要校準不確定性估計的應用來說是一個有利的權衡。方差降低在 k≈50時趨于飽和，表明在此之后收益遞減。重要的是，這種方差降低無需任何架構修改或重新訓練，可立即應用于現有部署模型。

5.2.3 位置編碼分析

我們對位置特異性偏差的分析（如圖 3 所示）揭示了旋轉嵌入引入的精細結構。原始鞅間隙表現出明顯的 64 位置周期性，對應于 RoPE 正弦基的基本頻率。傅里葉分析識別出在 64、32 和 21.3 個位置周期處存在顯著諧波，解釋了超過 60% 的位置特異性方差。

去偏過程成功緩解了這些偽影，總體方差降低了 14.1%，并使位置與預測偏差之間的相關性從。這表明我們的理論框架正確地將根本性縮放行為與實現特定的偽影分離開來。去偏后的殘余方差代表了架構中固有的不可約位置不確定性。

5.3 壓縮效率

為了驗證我們的 MDL 最優性主張，我們將變換器預測與伯努利序列的理論熵極限進行了比較。GPT-3 僅用 20 個示例就達到了最優壓縮效率的 99%，以經驗交叉熵與真實熵 H(p)的比值衡量。這種快速收斂顯著優于經典估計器：拉普拉斯平滑需要超過 100 個示例才能達到相似效率，而最大似然估計在小樣本下表現出高方差。

這種優異的小樣本性能與我們的理論分析一致，表明變換器通過其注意力機制實現了近似貝葉斯推理。學習到的偽計數有效地實現了一個先驗，加速了向最優壓縮速率的收斂。這一發現強化了我們的主要論點：當被正確認識時，破壞可交換性的架構偏差反而可以增強而非阻礙統計效率。

6 討論與結論

6.1 理論意義

我們的工作從根本上重構了現代語言模型中架構設計與統計最優性之間的關系。當通過信息論的視角審視時，變換器表面上違反貝葉斯推理基本要求、同時卻實現貝葉斯級別性能的悖論便得以消解。這一解決方式對我們理解和部署這些系統具有深遠影響。

6.2 實際貢獻

除了理論洞見之外，我們的分析還為實踐者提供了可立即應用的方法。

排列平均技術提供了一種用于不確定性量化的原則性方法，無需任何架構修改或重新訓練。通過對 20–30 個隨機排列的預測結果進行平均，實踐者可將預測方差降低 70–80%，同時獲得經過校準的置信區間。該方法在高風險應用場景中尤為寶貴，因為在這些場景中，不確定性估計直接指導決策制定。

我們提出的最優思維鏈長度公式解決了現代人工智能部署中的一個關鍵經濟挑戰。隨著各機構擴大語言模型的使用規模，推理成本正成為主導性支出。當前實踐中常使用無限制長度的思維鏈（如“讓我們一步步思考……”），導致生成數百甚至數千個標記。我們的公式表明，通常更短的思維鏈即可實現相同性能：對于常見任務，10–50 個標記即可獲得 90% 的性能收益，而僅需 10% 的成本。對于每日處理數百萬次查詢的機構而言，這一優化每年可節省數百萬美元。

我們為處理位置編碼偽影而開發的去偏技術具有更廣泛的應用價值。隨著新型位置編碼方案（如 ALiBi、RoPE、CoPE）不斷涌現，我們的框架提供了一種系統化的方法，用于識別并緩解它們引入的偏差。關鍵洞見在于：通過譜分析與模型比較，將基礎縮放行為與實現特定偽影分離開來。

6.3 局限性與未來方向

盡管我們的分析為理解變換器在可交換序列上的行為提供了嚴謹基礎，但仍存在若干重要未解問題。

我們的實驗聚焦于二值序列，以保持理論可處理性，但自然語言展現出復雜的依賴結構，可能對 Θ(logn/n)縮放規律產生調制作用。初步實驗表明，語言結構會引入額外因子，但全面分析需要開發新的理論工具，以處理具有潛在層次結構的非可交換數據。

模型規模與統計性質之間的關系值得系統性研究。更大的模型可能通過更強的復雜交互建模能力，更好地逼近可交換行為；也可能因其能夠記憶更精細的模式，而表現出更強的位置偏差。理解這些縮放規律對于預測未來更強大系統的性能至關重要。

我們的最優思維鏈公式假設推理過程為單一推理軌跡，但近期研究已探索樹狀結構或迭代式推理。將我們的信息論框架擴展至這些更復雜的推理模式，有望帶來進一步的效率提升。內部壓縮與外部計算之間的根本權衡可能具有普適性，但具體的縮放規律可能有所不同。

從架構設計角度看，我們的工作提示：未來的位置編碼方案應明確權衡表達能力與統計性質。我們能否設計出在不犧牲序列建模能力的前提下、實現更小鞅間隙的編碼方式？這一優化問題處于架構設計與統計理論的交匯點，需要發展新的數學工具，以彌合離散優化與連續分析之間的鴻溝。

6.4 更廣泛的影響

語言模型正被部署于醫療診斷、金融建模和法律分析等關鍵應用領域，這要求我們對其統計特性有更深入的理解。我們的工作為此提供了理論基礎與實用工具。通過闡明變換器在何時、以何種方式偏離理想的貝葉斯行為，我們能夠幫助決策者更明智地選擇模型部署方案并進行不確定性量化。

我們的思維鏈優化方法所產生的經濟影響，遠不止于直接的成本節約。計算需求的降低意味著更低的能耗與碳排放。隨著人工智能系統在全球計算資源中所占比例持續增長，此類優化不僅具有經濟價值，更成為環境可持續性的必要舉措。通過有原則地選擇思維鏈長度，實現推理計算量 90% 的削減，可顯著降低人工智能部署的碳足跡。

我們的信息論框架也為關于人工智能能力與局限性的更廣泛討論提供了啟示。不完備性定理表明，即使規模任意大的變換器也面臨根本性的計算限制，這些限制只能通過顯式推理來克服。這提示我們，僅靠擴大模型規模無法實現通用人工智能；仍需架構上的創新，以更好地融合參數化知識與動態計算能力。

6.5 結論

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.