網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大模型的第一性原理：（三）信息論篇

2026-03-04 17:22:51　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

作者 | 白鉑博士

白鉑博士華為 2012 實(shí)驗(yàn)室理論研究部主任信息論首席科學(xué)家

引言

在本系列的第二篇《信號(hào)處理篇》中，我們引入了一些信息論的概念和方法來(lái)理解語(yǔ)義嵌入/向量化。本篇將完全從信息論的角度出發(fā)，深入解讀原論文，探討大模型背后的第一性原理1。

1948 年，Shannon 發(fā)表了題為 A Mathematical Theory of Communication 的劃時(shí)代論文，奠定了現(xiàn)代數(shù)字通信的理論基礎(chǔ)，推動(dòng)了人類邁向信息時(shí)代2。論文的主要目標(biāo)是用數(shù)學(xué)方法解決有噪聲的數(shù)字通信系統(tǒng)的可靠傳輸問(wèn)題。以此為起點(diǎn)，Shannon 及后來(lái)的專家學(xué)者建立了一套完備的數(shù)學(xué)框架與理論體系，這便是后來(lái)眾所周知的信息論。1949 年，Weaver 與 Shannon 合著了一篇論文，文中明確將通信問(wèn)題分為三個(gè)層級(jí)3：

Level-A（技術(shù)問(wèn)題）：通信符號(hào)能在多大程度上被準(zhǔn)確地傳輸？
Level-B（語(yǔ)義問(wèn)題）：傳輸?shù)姆?hào)能在多大程度上精確傳達(dá)了預(yù)期的含義？
Level-C（效用問(wèn)題）：接收到的含義能在多大程度上有效地影響行為，使其符合預(yù)期？ Shannon 曾表示，他的理論僅僅解決了可靠通信問(wèn)題，即 Level-A（技術(shù)問(wèn)題）。這是因?yàn)樵?Shannon 的理論中，信息和不確定性是等價(jià)的，并不關(guān)注消息的含義或內(nèi)容。

受到 Shannon 方法論的啟發(fā)，本文嘗試從推理的視角出發(fā)探討大模型的可解釋理論。我們發(fā)現(xiàn)，只要將 Shannon 的理論從以BIT為中心轉(zhuǎn)換為以TOKEN為中心，便可以從信息論的視角完全解釋大模型的底層原理，該理論在原論文中被稱為語(yǔ)義信息論（Semantic Information Theory）。

Shannon 信息論

本節(jié)先歸納一下 Shannon 的主要結(jié)論和方法論啟示。下圖是一般通信系統(tǒng)的原理圖。

圖：一般通信系統(tǒng)原理圖?。

信息論的三個(gè)主要結(jié)論

在通信系統(tǒng)中，信源是產(chǎn)生信息的源頭。信源編碼器將每一個(gè)信源符號(hào)映射為一個(gè)長(zhǎng)度為 m 的二進(jìn)制碼字，從而實(shí)現(xiàn)對(duì)原始信息的壓縮，節(jié)約寶貴的信道資源，提升效率。如果信源的輸出是一個(gè)隨機(jī)變量 S 的獨(dú)立采樣，Shannon 證明這類信源所產(chǎn)生的信息量就是 S 的（Entropy）。用 P(S) 表示 S 的概率分布，那么 S 的熵定義為：

其中 Ω 為隨機(jī)變量 S 的樣本空間，在信息論中通常稱為符號(hào)集字符集。熵是信源無(wú)損壓縮（即能夠完美恢復(fù)信源符號(hào)的壓縮）的可達(dá)下界。這個(gè)結(jié)論就是著名的信源編碼定理

由于信道會(huì)受到噪聲的影響，如果直接傳輸信源符號(hào)，接收的符號(hào)就會(huì)出現(xiàn)錯(cuò)誤。如何實(shí)現(xiàn)可靠的數(shù)字通信，是當(dāng)時(shí)任何工程方案都無(wú)法解決的世界難題。但 Shannon 通過(guò)他的理論不僅告訴我們可靠通信完全可以實(shí)現(xiàn)，而且還給出了數(shù)學(xué)上最優(yōu)的解決路徑。他首先創(chuàng)造性地用轉(zhuǎn)移概率來(lái)建模通信信道，即

Shannon 的第三個(gè)偉大貢獻(xiàn)在于證明了信源-信道分離定理，即把一個(gè)通信系統(tǒng)分解成信源編解碼和信道編解碼兩個(gè)主要組成部分在理論上是最優(yōu)的。這種分離設(shè)計(jì)極大地降低了工程實(shí)現(xiàn)的難度，并給實(shí)際應(yīng)用帶來(lái)了諸多便利。自此，通信技術(shù)就分成信源和信道兩個(gè)領(lǐng)域。從事一個(gè)領(lǐng)域理論研究和工程實(shí)現(xiàn)的人并不需要了解另一個(gè)領(lǐng)域在做什么。可以說(shuō)，Shannon 的信源-信道分離定理讓世界同時(shí)產(chǎn)生了兩個(gè)全新的科學(xué)和工程領(lǐng)域。

方法論啟示

Shannon 是用數(shù)學(xué)理論解決工程技術(shù)難題（即以數(shù)學(xué)補(bǔ)物理）的典范。他最值得稱道的方法論是在解決可靠通信問(wèn)題時(shí)，沒(méi)有陷入具體實(shí)現(xiàn)方案的比較和技術(shù)路線的選擇，而是回歸到一個(gè)基本的思想實(shí)驗(yàn)：如果一個(gè)可靠通信系統(tǒng)真的被造出來(lái)了，它應(yīng)該具備什么功能、應(yīng)該滿足何種數(shù)學(xué)性質(zhì)？這是一種自頂向下的方法論，即從運(yùn)行時(shí)的視角來(lái)研究實(shí)現(xiàn)可靠信息傳輸?shù)臄?shù)學(xué)條件，從而指導(dǎo)通信系統(tǒng)設(shè)計(jì)。

針對(duì)信道編解碼部分，我認(rèn)為 Shannon 在論文中回答了以下三個(gè)關(guān)鍵問(wèn)題：

1.在數(shù)字通信中，可靠的數(shù)學(xué)定義是什么？

Shannon 的答案是漸進(jìn)無(wú)差錯(cuò)的信息傳輸，他將概率論和統(tǒng)計(jì)學(xué)引入了通信領(lǐng)域，進(jìn)而導(dǎo)出差錯(cuò)概率及其指數(shù)界、最大似然譯碼、聯(lián)合典型譯碼等一系列概念和方法。

2.可靠通信的數(shù)學(xué)模型是什么？

Shannon 的答案是用轉(zhuǎn)移概率來(lái)建模信道，這一點(diǎn)十分關(guān)鍵，因?yàn)闊o(wú)論是已存在的通信系統(tǒng)還是人們當(dāng)前尚未想到的通信技術(shù)，都可以用轉(zhuǎn)移概率來(lái)建模信道不確定性帶來(lái)的影響。這種概率模型與具體實(shí)現(xiàn)無(wú)關(guān)，具有極大的普適性。
在數(shù)學(xué)上，這類方法被稱為概率方法?。但 Shannon 的天才在于把這種并不復(fù)雜的數(shù)學(xué)技巧完美應(yīng)用于解決工程問(wèn)題。

3.衡量通信系統(tǒng)的性能指標(biāo)是什么？

Shannon 的答案是可靠通信速率用互信息和信道容量來(lái)衡量?；バ畔⒈举|(zhì)上是用更基礎(chǔ)的Kullback-Leibler（KL）散度衡量 P (X,Y) 和 P (X) P (Y) 之間的差異，從而刻畫(huà) X 和 Y 之間的統(tǒng)計(jì)相關(guān)性。如果找到一個(gè) P (X) 使得上述統(tǒng)計(jì)相關(guān)性最大，那么互信息 I (X;Y) 就達(dá)到了信道容量 C。
KL 散度是信息論中的一個(gè)基本概念，其定義為

這樣互信息可表示為

機(jī)器學(xué)習(xí)領(lǐng)域常用的交叉熵損失函數(shù)可表示為

如果 H (P) 給定，那么交叉熵和 KL 散度是等價(jià)的。

大模型的信息論抽象

信息論從運(yùn)行時(shí)的視角出發(fā)來(lái)研究通信系統(tǒng)，對(duì)研究大模型的第一性原理極具啟發(fā)性。因?yàn)槲覀兤谕o大模型建立與具體實(shí)現(xiàn)無(wú)關(guān)的數(shù)學(xué)模型和理論。即便人們未來(lái)發(fā)明出比 Transformer 更好的架構(gòu)，該理論仍然具有指導(dǎo)意義。事實(shí)上，2024 年圖靈獎(jiǎng)得主 Richard Sutton 在提出 Oak 架構(gòu)時(shí)也認(rèn)為走向 AGI 必須區(qū)分設(shè)計(jì)時(shí)和運(yùn)行時(shí)?。

類似 Shannon 解決可靠通信問(wèn)題的思路，我們也可以對(duì)大模型提出以下三個(gè)基本問(wèn)題：

對(duì)大模型而言，語(yǔ)義意味著什么？
大模型與具體實(shí)現(xiàn)方式無(wú)關(guān)的數(shù)學(xué)模型是什么？
衡量大模型性能的指標(biāo)是什么？第一個(gè)問(wèn)題實(shí)際上在本系列的第二篇《信號(hào)處理篇》中已經(jīng)回答了，這里不再贅述。本篇的后續(xù)部分將著重回答第二和第三個(gè)問(wèn)題。

面向大模型的信息論測(cè)度

為方便討論，本節(jié)將首先介紹面向大模型的信息論測(cè)度，包括速率 - 失真函數(shù)、定向信息和定向信息密度。

2、定向信息

在本系列的第二篇《信號(hào)處理篇》中，為了討論信息論意義下最優(yōu)的語(yǔ)義嵌入 / 向量化，我們引入了定向信息倒向定向信息。這里我們將展開(kāi)討論定向信息提出的背景和意義。

定向信息是由著名信息論專家，1988 年香農(nóng)獎(jiǎng)得主，James Massey 提出13。他在 1990 年的論文中指出：Ash 的信息論專著中關(guān)于 DMC 的定義是有問(wèn)題的，因?yàn)樵摱x天然不能包含反饋1?。他同時(shí)還認(rèn)為，在 IEEE ISIT '73 會(huì)議上，Shannon 之所以選擇反饋?zhàn)鳛槭状?Shannon Lecture 的主題，或許正是因?yàn)樾畔⒄撛谔幚韼в蟹答伒南到y(tǒng)中并未取得顯著的成果。

Massey 認(rèn)為離散無(wú)記憶信道（Massey-DMC）的轉(zhuǎn)移概率應(yīng)該滿足：

以上討論表明，定向信息能夠突破互信息的局限性，描述更廣泛信道的輸入和輸出之間的統(tǒng)計(jì)相關(guān)性。然而遺憾的是，后續(xù)的信息論教材并未采納 Massey 的修正建議。這使得信息論研究長(zhǎng)期聚焦于不能納入反饋的 Ash-DMC 定義，而定向信息則未得到足夠重視。關(guān)于定向信息更詳細(xì)的研究和更廣泛的應(yīng)用，可參考 Massey 的學(xué)生 Kramer 的博士論文和綜述論文1? 1?。

3、定向信息密度

信息密度的概念最早由前蘇聯(lián)數(shù)學(xué)家、信息論專家 Roland Dobrushin 于 1959 年提出1?。還有一種說(shuō)法認(rèn)為信息密度是另一位著名的前蘇聯(lián)信息論專家 Mark Pinsker 在更早的一本書(shū)中提出的，但我尚未找到這本書(shū)。以 Strassen 矩陣乘法聞名于世的 Volker Strassen 在 1962 年給出了信息密度的首個(gè)理論分析結(jié)果1?。具體來(lái)說(shuō)，信息密度?(x;y) 定義為：

定向信息的計(jì)算和估計(jì)

在實(shí)際應(yīng)用中，定向信息的計(jì)算和估計(jì)是很困難的。在數(shù)值算法方面，Haim Permuter 與他的合作者提出將經(jīng)典的 BA 算法推廣到計(jì)算定向信息23。這篇論文利用了輸入分布的凹性和定向信息的因果結(jié)構(gòu)，并結(jié)合動(dòng)態(tài)規(guī)劃原理，提出了面向定向信息的 BA 算法。

基于互信息的 Donsker-Varadhan 表示2?，Belghazi 等人在互信息神經(jīng)估計(jì)器（Mutual Information Neural Estimator，MINE）取得重要進(jìn)展2?。受此啟發(fā)，Permuter 及其合作者進(jìn)一步提出了基于 RNN 的定向信息神經(jīng)估計(jì)器（Directed Information Neural Estimator，DINE）2?。更進(jìn)一步地，他們最近的工作則提出 Transformer 本身就可以用來(lái)估計(jì)傳遞熵（TRansfer Entropy Estimation via Transformers，TREET），即有限長(zhǎng)度版本的定向信息2?。TREET 將傳遞熵的估計(jì)問(wèn)題轉(zhuǎn)化為一個(gè)離散序列的自回歸預(yù)測(cè)問(wèn)題，利用 Transformer 的上下文學(xué)習(xí)能力來(lái)精確計(jì)算條件概率的對(duì)數(shù)似然差。從這個(gè)角度看，Transformer 和定向信息是天然結(jié)合在一起的。

Granger 因果與 Pearl 因果

在本系列的第一篇《統(tǒng)計(jì)物理篇》和第二篇《信號(hào)處理篇》中，我們都指出：大模型推理的本質(zhì)，是通過(guò)預(yù)測(cè)下一個(gè) Token 這一看似簡(jiǎn)單的訓(xùn)練目標(biāo)，實(shí)現(xiàn)逼近人類水平的 Granger 因果推斷。

機(jī)器學(xué)習(xí)領(lǐng)域的著名專家，2011 年圖靈獎(jiǎng)得主，Judth Pearl 教授曾嚴(yán)厲批評(píng) Granger 因果，認(rèn)為它混淆了因果的定義，給這一領(lǐng)域帶來(lái)了誤導(dǎo)。在 Pearl 看來(lái)，Granger 因果并非本質(zhì)上的因果關(guān)系，而是屬于具有時(shí)間順序的統(tǒng)計(jì)。進(jìn)一步地，Pearl 認(rèn)為沒(méi)有模型假設(shè)的數(shù)據(jù)，永遠(yuǎn)無(wú)法推導(dǎo)出真正的因果結(jié)論?？梢赃@樣概括兩種因果概念如下：

Granger 因果在哲學(xué)上屬于經(jīng)驗(yàn)主義，關(guān)注的是數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)
Pearl 因果在哲學(xué)上屬于結(jié)構(gòu)主義，關(guān)注的是模型假設(shè)下的干預(yù)反事實(shí)
具體來(lái)說(shuō)，Pearl 因果分為三個(gè)層級(jí)：
Level-A（關(guān)聯(lián)問(wèn)題）：從數(shù)據(jù)中觀察 X 和 Y 是否有關(guān)聯(lián)，即 P(Y∣X).
Level-B（干預(yù)問(wèn)題）：執(zhí)行 do(?) 算子，觀察干預(yù) X 后 Y 的情況，即 P (Y∣do(X)).
Level-C（反事實(shí)問(wèn)題）：觀察到事件 {X=x,Y=y} 后，強(qiáng)行假設(shè)x' 發(fā)生時(shí) Y 的情況，即P (Y_(x' )∣X=x,Y=y).
Pearl 證明：僅憑較低層級(jí)的信息，無(wú)法推導(dǎo)出較高層級(jí)問(wèn)題的答案，除非引入額外的、不可從數(shù)據(jù)中識(shí)別的因果假設(shè)31 32。容易看出，Granger 因果屬于 Level-A（關(guān)聯(lián)問(wèn)題），但定義了時(shí)序關(guān)系，因此是數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)能力極限。根據(jù) Pearl 的定理，如果大模型只在 Level-A 的語(yǔ)料上訓(xùn)練，則永遠(yuǎn)無(wú)法做出 Level-B/C 的推理。

隨著強(qiáng)化學(xué)習(xí)和 Mote Carlo 樹(shù)搜索等算法與大模型相結(jié)合33 3?，大模型的推理能力得到了顯著提升。然而本質(zhì)上，這類算法是在模型固定的前提下，極致模仿人類語(yǔ)料中的干預(yù)問(wèn)題和反事實(shí)問(wèn)題。簡(jiǎn)言之，大模型可以寫(xiě)出非常像干預(yù)和反事實(shí)的句子，因?yàn)樗７铝巳祟惖恼Z(yǔ)言模式。但這只是大模型在做數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)，而不是真正進(jìn)行因果推理3?。從另一個(gè)角度看，當(dāng)前人類與大模型互動(dòng)的價(jià)值，正是引入了不可從數(shù)據(jù)中識(shí)別的因果假設(shè)，從而將大模型作為工具來(lái)大幅提升人們的工作效率。

結(jié)語(yǔ)：一個(gè)新時(shí)代的開(kāi)始

本篇是系列解讀文章的最后一篇，它圍繞 TOKEN 為大模型建立語(yǔ)義信息論框架。在這里我要解釋一下，原論文的題目叫 Forget BIT, It is All about TOKEN 沒(méi)有絲毫貶低 BIT 的意思。事實(shí)上，我始終認(rèn)為信息時(shí)代最偉大的發(fā)明就是BIT。這是 2023 年初我和 5G Polar 碼發(fā)明人、2019 年香農(nóng)獎(jiǎng)得主，Erdal Arikan 教授的圓桌論壇上，他在回答吳博士的問(wèn)題時(shí)提出的核心觀點(diǎn)。這一觀點(diǎn)啟發(fā)我一直思考 AI 時(shí)代的核心概念 ——和 BIT 同等重要的概念—— 到底是什么？BIT 連接了計(jì)算和通信，兩個(gè)理論基礎(chǔ)和哲學(xué)理念完全不同，卻又相互促進(jìn)、相互限制的學(xué)科。我現(xiàn)在堅(jiān)信 Kolmogorov 的觀點(diǎn)是對(duì)的：信息論不應(yīng)該建立在概率論的基礎(chǔ)上，信息論比概率論更加基礎(chǔ)，它和 Turing 的計(jì)算理論一樣，建立在邏輯的基礎(chǔ)上。這也就是為什么 Kolmogorov 提出了基于 Turing 機(jī)的 Kolmogorov 復(fù)雜度，并由此推導(dǎo)出 Shannon 熵是 Kolmogorov 復(fù)雜度的數(shù)學(xué)期望。另一方面，直覺(jué)主義邏輯的 Brouwer-Heyting-Kolmogorov 釋義（BHK Interpretation），即一個(gè)數(shù)學(xué)命題的意義等同于證明這個(gè)命題的方法，則是現(xiàn)代計(jì)算機(jī)科學(xué)中的柯里-霍華德對(duì)應(yīng)（Curry-Howard Correspondence）的邏輯基礎(chǔ)。它告訴我們：命題即類型和證明即程序。人類已邁向 AI 時(shí)代，其核心概念我認(rèn)為就是TOKEN。從這個(gè)角度出發(fā)，可以大膽推測(cè)，正如 BIT 連接了計(jì)算和通信一樣，TOKEN 將連接經(jīng)驗(yàn)（記憶、推斷）和理性（推理），或者按照 Daniel Kahneman 的說(shuō)法就是連接了系統(tǒng) 1系統(tǒng) 23?。因此，BIT 定義了信息時(shí)代，而 TOKEN 則將定義 AI 時(shí)代

無(wú)論大模型當(dāng)前的技術(shù)路徑是否能真正通往通用人工智能（Artificial General Intelligence，AGI）和超級(jí)人工智能（Artificial Super Intelligence，ASI），我想通過(guò)這篇論文和這個(gè)系列的解讀文章來(lái)說(shuō)明：AI 時(shí)代的大幕已經(jīng)正式開(kāi)啟，我們要圍繞新的核心概念開(kāi)展研究與開(kāi)發(fā)，構(gòu)筑新的理論和系統(tǒng)。也許大模型的下一個(gè) Token 預(yù)測(cè)并非真的在思考，但無(wú)論是誰(shuí)也無(wú)法否認(rèn)大模型革命性地提升了自動(dòng)化整合和處理信息的能力。也許正如電影《模仿游戲》中 Turing 的那句震撼心靈的臺(tái)詞：有趣的問(wèn)題是，只因?yàn)槟硺訓(xùn)|西與你思考的方式不同，就意味著它不思考嗎？（The interesting question is, just because something thinks differently from you, does that mean it's not thinking?）

參考文獻(xiàn)

1 B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv: 2511.01202, Nov. 2025.

2 C. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 7, pp. 379-423, Oct. 1948.

3 W. Weaver and C. Shannon, "Recent contributions to the mathematical theory of communications," The Rockefeller Foundation, Sep. 1949.

? C. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 7, pp. 379-423, Oct. 1948.

? R. Ash, Information Theory. New York, NY, USA: Dover Publications, 1990.

? N. Alon and J. Spencer, The Probabilistic Method, 4th ed. Hoboken, NJ, USA: John Wiley & Sons, 2016.

? R. Sutton, "The Oak architecture: A vision of super intelligence from experience," Invited talk at NeurIPS ’25, San Diego, CA, USA, Dec. 03, 2025.

? C. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 7, pp. 379-423, Oct. 1948.

? T. Berger, Rate Distortion Theory: A Mathematical Basis for Data Compression. Englewood Cliffs, NJ, USA: Prentice Hall PTR, 1971.

1? R. Blahut, "Computation of channel capacity and rate-distortion functions," IEEE Transactions on Information Theory, vol. 18, no. 4, pp. 460-473, Jul. 1972.

11 S. Arimoto, "An algorithm for computing the capacity of arbitrary discrete memoryless channels," IEEE Transactions on Information Theory, vol. 18, no. 1, pp. 14-20, Jan. 1972.

12 S. Wu, W. Ye, H. Wu, H. Wu, W. Zhang, and B. Bai, "A communication optimal transport approach to the computation of rate distortion functions," arXiv: 2212.10098, Dec. 2022.

13 J. Massey, "Causality, feedback and directed information," in Proc. IEEE International Symposium on Information Theory ’90, Waikiki, HI, USA, Nov. 1990.

1? R. Ash, Information Theory. New York, NY, USA: Dover Publications, 1990.

1? H. Marko, "The bidirectional communication theory: A generalization of information theory," IEEE Transactions on Communications, vol. 21, no. 12, pp. 1345-1351, Dec. 1973.

1? G. Kramer, "Directed information for channels with feedback," Ph. D Dissertation, ETH Zurich, Zurich, Switzerland, 1998.

1? D. Tsur, O. Sabag, N. Kashyap, H. Permuter, and G. Kramer, "Directed information: Estimation, optimization and applications in communications and causality," arXiv: 2602.09711, Feb. 2026.

1? R. Dobrushin, "General formulation of Shannon's main theorem in information theory," American Mathematical Society Translations: Series 2, vol. 33, no. 2, pp. 323-438, 1963.

1? V. Strassen, "Asymptotische absch?tzungen in Shannon's informationstheorie," in Transactions of 3rd Prague Conference on Information Theory '62, Prague, Czech Republic, 1962.

2? Y. Polyanskiy and Y. Wu, Information Theory: From Coding to Learning. Cambridge, UK: Cambridge University Press, 2025.

21 R. Rafailov, A. Sharma, E. Mitchell, S. Ermon, C. Manning, and C. Finn, "Direct preference optimization: Your language model is secretly a reward model," arXiv: 2305.18290, Jul. 2024.

22 D. Williams, Probability with Martingales. Cambridge, UK: Cambridge University Press, 1991.

23 I. Naiss and H. Permuter, "Extension of the Blahut-Arimoto algorithm for maximizing directed information," IEEE Transactions on Information Theory, vol. 59, no. 1, pp. 204-222, Jan. 2013.

2? M. Donsker and S. Varadhan, "Asymptotic evaluation of certain Markov process expectations for large time, IV," Communications on Pure and Applied Mathematics, vol. 36, no. 2, pp. 183-212, Mar. 1983.

2? M. Belghazi et al., "MINE: Mutual information neural estimation," arXiv: 1801.04062, Aug. 2021.

2? D. Tsur, Z. Aharoni, Z. Goldfeld, and H. Permuter, "Neural estimation and optimization of directed information over continuous spaces," IEEE Transactions on Information Theory, vol. 69, no. 8, pp. 4777-4798, Aug. 2023.

2? O. Luxembourg, D. Tsur, and H. Permuter, "TREET: Transfer entropy estimation via transformers," arXiv: 2402.06919, Jul. 2025.

2? T. Schreiber, "Measuring information transfer," Physical Review Letters, vol. 85, no. 2, pp. 461-464, Jul. 2000.

2? L. Barnett, A. B. Barrett, and A. K. Seth, "Granger causality and transfer entropy are equivalent for Gaussian variables," Physical Review Letters, vol. 103, no. 23, pp. 238701, Dec. 2009.

3? P. Amblard and O. Michel, "The relation between Granger causality and directed information theory: A review," Entropy, vol. 15, no. 1, pp. 113-143, Jan. 2013.

31 J. Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. New York, NY, USA: Cambridge University Press, 2009.

32 J. Pearl and D. Mackenzie, The Book of Why: The New Science of Cause and Effect. New York, NY, USA: Basic Books, 2018.

33 D. Silver et al., "Mastering the game of Go without human knowledge, Nature, vol. 550, no. 7676, Oct. 2017.

3? DeepSeek-AI, "DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning," DeepSeek, Hangzhou, China, Jan. 2025.

3? L. Berglund et al., "The reversal curse: LLMs Trained on 'A is B' fail to learn 'B is A'," arXiv: 2309.12288, May 2024.

3? D. Kahneman, Thinking, Fast and Slow. New York, NY, USA: Farrar, Straus and Giroux, 2013.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.