337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型的第一性原理:(三)信息論篇

0
分享至



作者 | 白鉑 博士

白鉑 博士 華為 2012 實(shí)驗(yàn)室理論研究部主任 信息論首席科學(xué)家

引言

在本系列的第二篇《信號(hào)處理篇》中,我們引入了一些信息論的概念和方法來(lái)理解語(yǔ)義嵌入/向量化。本篇將完全從信息論的角度出發(fā),深入解讀原論文,探討大模型背后的第一性原理1。

1948 年,Shannon 發(fā)表了題為 A Mathematical Theory of Communication 的劃時(shí)代論文,奠定了現(xiàn)代數(shù)字通信的理論基礎(chǔ),推動(dòng)了人類邁向信息時(shí)代2。論文的主要目標(biāo)是用數(shù)學(xué)方法解決有噪聲的數(shù)字通信系統(tǒng)的可靠傳輸問(wèn)題。以此為起點(diǎn),Shannon 及后來(lái)的專家學(xué)者建立了一套完備的數(shù)學(xué)框架與理論體系,這便是后來(lái)眾所周知的信息論。1949 年,Weaver 與 Shannon 合著了一篇論文,文中明確將通信問(wèn)題分為三個(gè)層級(jí)3:

  • Level-A(技術(shù)問(wèn)題): 通信符號(hào)能在多大程度上被準(zhǔn)確地傳輸?
  • Level-B(語(yǔ)義問(wèn)題): 傳輸?shù)姆?hào)能在多大程度上精確傳達(dá)了預(yù)期的含義?
  • Level-C(效用問(wèn)題): 接收到的含義能在多大程度上有效地影響行為,使其符合預(yù)期? Shannon 曾表示,他的理論僅僅解決了可靠通信問(wèn)題,即 Level-A(技術(shù)問(wèn)題)。這是因?yàn)樵?Shannon 的理論中,信息和不確定性是等價(jià)的,并不關(guān)注消息的含義或內(nèi)容。

受到 Shannon 方法論的啟發(fā),本文嘗試從推理的視角出發(fā)探討大模型的可解釋理論。我們發(fā)現(xiàn),只要將 Shannon 的理論從以BIT為中心轉(zhuǎn)換為以TOKEN為中心,便可以從信息論的視角完全解釋大模型的底層原理,該理論在原論文中被稱為語(yǔ)義信息論(Semantic Information Theory)。

Shannon 信息論

本節(jié)先歸納一下 Shannon 的主要結(jié)論和方法論啟示。下圖是一般通信系統(tǒng)的原理圖。



圖:一般通信系統(tǒng)原理圖?。

信息論的三個(gè)主要結(jié)論

在通信系統(tǒng)中,信源是產(chǎn)生信息的源頭。信源編碼器將每一個(gè)信源符號(hào)映射為一個(gè)長(zhǎng)度為 m 的二進(jìn)制碼字,從而實(shí)現(xiàn)對(duì)原始信息的壓縮,節(jié)約寶貴的信道資源,提升效率。如果信源的輸出是一個(gè)隨機(jī)變量 S 的獨(dú)立采樣,Shannon 證明這類信源所產(chǎn)生的信息量就是 S 的(Entropy)。用 P(S) 表示 S 的概率分布,那么 S 的熵定義為:



其中 Ω 為隨機(jī)變量 S 的樣本空間,在信息論中通常稱為符號(hào)集字符集。熵是信源無(wú)損壓縮(即能夠完美恢復(fù)信源符號(hào)的壓縮)的可達(dá)下界。這個(gè)結(jié)論就是著名的信源編碼定理

由于信道會(huì)受到噪聲的影響,如果直接傳輸信源符號(hào),接收的符號(hào)就會(huì)出現(xiàn)錯(cuò)誤。如何實(shí)現(xiàn)可靠的數(shù)字通信,是當(dāng)時(shí)任何工程方案都無(wú)法解決的世界難題。但 Shannon 通過(guò)他的理論不僅告訴我們可靠通信完全可以實(shí)現(xiàn),而且還給出了數(shù)學(xué)上最優(yōu)的解決路徑。他首先創(chuàng)造性地用轉(zhuǎn)移概率來(lái)建模通信信道,即







Shannon 的第三個(gè)偉大貢獻(xiàn)在于證明了信源-信道分離定理,即把一個(gè)通信系統(tǒng)分解成信源編解碼和信道編解碼兩個(gè)主要組成部分在理論上是最優(yōu)的。這種分離設(shè)計(jì)極大地降低了工程實(shí)現(xiàn)的難度,并給實(shí)際應(yīng)用帶來(lái)了諸多便利。自此,通信技術(shù)就分成信源和信道兩個(gè)領(lǐng)域。從事一個(gè)領(lǐng)域理論研究和工程實(shí)現(xiàn)的人并不需要了解另一個(gè)領(lǐng)域在做什么。可以說(shuō),Shannon 的信源-信道分離定理讓世界同時(shí)產(chǎn)生了兩個(gè)全新的科學(xué)和工程領(lǐng)域。

方法論啟示

Shannon 是用數(shù)學(xué)理論解決工程技術(shù)難題(即以數(shù)學(xué)補(bǔ)物理)的典范。他最值得稱道的方法論是在解決可靠通信問(wèn)題時(shí),沒(méi)有陷入具體實(shí)現(xiàn)方案的比較和技術(shù)路線的選擇,而是回歸到一個(gè)基本的思想實(shí)驗(yàn):如果一個(gè)可靠通信系統(tǒng)真的被造出來(lái)了,它應(yīng)該具備什么功能、應(yīng)該滿足何種數(shù)學(xué)性質(zhì)?這是一種自頂向下的方法論,即從運(yùn)行時(shí)的視角來(lái)研究實(shí)現(xiàn)可靠信息傳輸?shù)臄?shù)學(xué)條件,從而指導(dǎo)通信系統(tǒng)設(shè)計(jì)。

針對(duì)信道編解碼部分,我認(rèn)為 Shannon 在論文中回答了以下三個(gè)關(guān)鍵問(wèn)題:

1.在數(shù)字通信中,可靠的數(shù)學(xué)定義是什么?

  • Shannon 的答案是漸進(jìn)無(wú)差錯(cuò)的信息傳輸,他將概率論和統(tǒng)計(jì)學(xué)引入了通信領(lǐng)域,進(jìn)而導(dǎo)出差錯(cuò)概率及其指數(shù)界、最大似然譯碼、聯(lián)合典型譯碼等一系列概念和方法。

2.可靠通信的數(shù)學(xué)模型是什么?

  • Shannon 的答案是用轉(zhuǎn)移概率來(lái)建模信道,這一點(diǎn)十分關(guān)鍵,因?yàn)闊o(wú)論是已存在的通信系統(tǒng)還是人們當(dāng)前尚未想到的通信技術(shù),都可以用轉(zhuǎn)移概率來(lái)建模信道不確定性帶來(lái)的影響。這種概率模型與具體實(shí)現(xiàn)無(wú)關(guān),具有極大的普適性。
  • 在數(shù)學(xué)上,這類方法被稱為概率方法?。但 Shannon 的天才在于把這種并不復(fù)雜的數(shù)學(xué)技巧完美應(yīng)用于解決工程問(wèn)題。

3.衡量通信系統(tǒng)的性能指標(biāo)是什么?

  • Shannon 的答案是可靠通信速率用互信息和信道容量來(lái)衡量?;バ畔⒈举|(zhì)上是用更基礎(chǔ)的Kullback-Leibler(KL)散度衡量 P (X,Y) 和 P (X) P (Y) 之間的差異,從而刻畫(huà) X 和 Y 之間的統(tǒng)計(jì)相關(guān)性。如果找到一個(gè) P (X) 使得上述統(tǒng)計(jì)相關(guān)性最大,那么互信息 I (X;Y) 就達(dá)到了信道容量 C。
  • KL 散度是信息論中的一個(gè)基本概念,其定義為



這樣互信息可表示為



機(jī)器學(xué)習(xí)領(lǐng)域常用的交叉熵損失函數(shù)可表示為



如果 H (P) 給定,那么交叉熵和 KL 散度是等價(jià)的。

大模型的信息論抽象

信息論從運(yùn)行時(shí)的視角出發(fā)來(lái)研究通信系統(tǒng),對(duì)研究大模型的第一性原理極具啟發(fā)性。因?yàn)槲覀兤谕o大模型建立與具體實(shí)現(xiàn)無(wú)關(guān)的數(shù)學(xué)模型和理論。即便人們未來(lái)發(fā)明出比 Transformer 更好的架構(gòu),該理論仍然具有指導(dǎo)意義。事實(shí)上,2024 年圖靈獎(jiǎng)得主 Richard Sutton 在提出 Oak 架構(gòu)時(shí)也認(rèn)為走向 AGI 必須區(qū)分設(shè)計(jì)時(shí)和運(yùn)行時(shí)?。

類似 Shannon 解決可靠通信問(wèn)題的思路,我們也可以對(duì)大模型提出以下三個(gè)基本問(wèn)題:

  1. 對(duì)大模型而言,語(yǔ)義意味著什么?
  2. 大模型與具體實(shí)現(xiàn)方式無(wú)關(guān)的數(shù)學(xué)模型是什么?
  3. 衡量大模型性能的指標(biāo)是什么?第一個(gè)問(wèn)題實(shí)際上在本系列的第二篇《信號(hào)處理篇》中已經(jīng)回答了,這里不再贅述。本篇的后續(xù)部分將著重回答第二和第三個(gè)問(wèn)題。

面向大模型的信息論測(cè)度

為方便討論,本節(jié)將首先介紹面向大模型的信息論測(cè)度,包括速率 - 失真函數(shù)、定向信息和定向信息密度。





2、定向信息

在本系列的第二篇《信號(hào)處理篇》中,為了討論信息論意義下最優(yōu)的語(yǔ)義嵌入 / 向量化,我們引入了定向信息倒向定向信息。這里我們將展開(kāi)討論定向信息提出的背景和意義。

定向信息是由著名信息論專家,1988 年香農(nóng)獎(jiǎng)得主,James Massey 提出13。他在 1990 年的論文中指出:Ash 的信息論專著中關(guān)于 DMC 的定義是有問(wèn)題的,因?yàn)樵摱x天然不能包含反饋1?。他同時(shí)還認(rèn)為,在 IEEE ISIT '73 會(huì)議上,Shannon 之所以選擇反饋?zhàn)鳛槭状?Shannon Lecture 的主題,或許正是因?yàn)樾畔⒄撛谔幚韼в蟹答伒南到y(tǒng)中并未取得顯著的成果。

Massey 認(rèn)為離散無(wú)記憶信道(Massey-DMC)的轉(zhuǎn)移概率應(yīng)該滿足:







以上討論表明,定向信息能夠突破互信息的局限性,描述更廣泛信道的輸入和輸出之間的統(tǒng)計(jì)相關(guān)性。然而遺憾的是,后續(xù)的信息論教材并未采納 Massey 的修正建議。這使得信息論研究長(zhǎng)期聚焦于不能納入反饋的 Ash-DMC 定義,而定向信息則未得到足夠重視。關(guān)于定向信息更詳細(xì)的研究和更廣泛的應(yīng)用,可參考 Massey 的學(xué)生 Kramer 的博士論文和綜述論文1? 1?。

3、定向信息密度

信息密度的概念最早由前蘇聯(lián)數(shù)學(xué)家、信息論專家 Roland Dobrushin 于 1959 年提出1?。還有一種說(shuō)法認(rèn)為信息密度是另一位著名的前蘇聯(lián)信息論專家 Mark Pinsker 在更早的一本書(shū)中提出的,但我尚未找到這本書(shū)。以 Strassen 矩陣乘法聞名于世的 Volker Strassen 在 1962 年給出了信息密度的首個(gè)理論分析結(jié)果1?。具體來(lái)說(shuō),信息密度?(x;y) 定義為:















定向信息的計(jì)算和估計(jì)

在實(shí)際應(yīng)用中,定向信息的計(jì)算和估計(jì)是很困難的。在數(shù)值算法方面,Haim Permuter 與他的合作者提出將經(jīng)典的 BA 算法推廣到計(jì)算定向信息23。這篇論文利用了輸入分布的凹性和定向信息的因果結(jié)構(gòu),并結(jié)合動(dòng)態(tài)規(guī)劃原理,提出了面向定向信息的 BA 算法。

基于互信息的 Donsker-Varadhan 表示2?,Belghazi 等人在互信息神經(jīng)估計(jì)器(Mutual Information Neural Estimator,MINE)取得重要進(jìn)展2?。受此啟發(fā),Permuter 及其合作者進(jìn)一步提出了基于 RNN 的定向信息神經(jīng)估計(jì)器(Directed Information Neural Estimator,DINE)2?。更進(jìn)一步地,他們最近的工作則提出 Transformer 本身就可以用來(lái)估計(jì)傳遞熵(TRansfer Entropy Estimation via Transformers,TREET),即有限長(zhǎng)度版本的定向信息2?。TREET 將傳遞熵的估計(jì)問(wèn)題轉(zhuǎn)化為一個(gè)離散序列的自回歸預(yù)測(cè)問(wèn)題,利用 Transformer 的上下文學(xué)習(xí)能力來(lái)精確計(jì)算條件概率的對(duì)數(shù)似然差。從這個(gè)角度看,Transformer 和定向信息是天然結(jié)合在一起的。

Granger 因果與 Pearl 因果

在本系列的第一篇《統(tǒng)計(jì)物理篇》和第二篇《信號(hào)處理篇》中,我們都指出:大模型推理的本質(zhì),是通過(guò)預(yù)測(cè)下一個(gè) Token 這一看似簡(jiǎn)單的訓(xùn)練目標(biāo),實(shí)現(xiàn)逼近人類水平的 Granger 因果推斷。



機(jī)器學(xué)習(xí)領(lǐng)域的著名專家,2011 年圖靈獎(jiǎng)得主,Judth Pearl 教授曾嚴(yán)厲批評(píng) Granger 因果,認(rèn)為它混淆了因果的定義,給這一領(lǐng)域帶來(lái)了誤導(dǎo)。在 Pearl 看來(lái),Granger 因果并非本質(zhì)上的因果關(guān)系,而是屬于具有時(shí)間順序的統(tǒng)計(jì)。進(jìn)一步地,Pearl 認(rèn)為沒(méi)有模型假設(shè)的數(shù)據(jù),永遠(yuǎn)無(wú)法推導(dǎo)出真正的因果結(jié)論??梢赃@樣概括兩種因果概念如下:

  • Granger 因果在哲學(xué)上屬于經(jīng)驗(yàn)主義,關(guān)注的是數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)
  • Pearl 因果在哲學(xué)上屬于結(jié)構(gòu)主義,關(guān)注的是模型假設(shè)下的干預(yù)反事實(shí)
  • 具體來(lái)說(shuō),Pearl 因果分為三個(gè)層級(jí):
  • Level-A(關(guān)聯(lián)問(wèn)題):從數(shù)據(jù)中觀察 X 和 Y 是否有關(guān)聯(lián),即 P(Y∣X).
  • Level-B(干預(yù)問(wèn)題):執(zhí)行 do(?) 算子,觀察干預(yù) X 后 Y 的情況,即 P (Y∣do(X)).
  • Level-C(反事實(shí)問(wèn)題):觀察到事件 {X=x,Y=y} 后,強(qiáng)行假設(shè)x' 發(fā)生時(shí) Y 的情況,即P (Y_(x' )∣X=x,Y=y).
  • Pearl 證明:僅憑較低層級(jí)的信息,無(wú)法推導(dǎo)出較高層級(jí)問(wèn)題的答案,除非引入額外的、不可從數(shù)據(jù)中識(shí)別的因果假設(shè)31 32。容易看出,Granger 因果屬于 Level-A(關(guān)聯(lián)問(wèn)題),但定義了時(shí)序關(guān)系,因此是數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)能力極限。根據(jù) Pearl 的定理,如果大模型只在 Level-A 的語(yǔ)料上訓(xùn)練,則永遠(yuǎn)無(wú)法做出 Level-B/C 的推理。

隨著強(qiáng)化學(xué)習(xí)和 Mote Carlo 樹(shù)搜索等算法與大模型相結(jié)合33 3?,大模型的推理能力得到了顯著提升。然而本質(zhì)上,這類算法是在模型固定的前提下,極致模仿人類語(yǔ)料中的干預(yù)問(wèn)題和反事實(shí)問(wèn)題。簡(jiǎn)言之,大模型可以寫(xiě)出非常像干預(yù)和反事實(shí)的句子,因?yàn)樗7铝巳祟惖恼Z(yǔ)言模式。但這只是大模型在做數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè),而不是真正進(jìn)行因果推理3?。從另一個(gè)角度看,當(dāng)前人類與大模型互動(dòng)的價(jià)值,正是引入了不可從數(shù)據(jù)中識(shí)別的因果假設(shè),從而將大模型作為工具來(lái)大幅提升人們的工作效率。

結(jié)語(yǔ):一個(gè)新時(shí)代的開(kāi)始

本篇是系列解讀文章的最后一篇,它圍繞 TOKEN 為大模型建立語(yǔ)義信息論框架。在這里我要解釋一下,原論文的題目叫 Forget BIT, It is All about TOKEN 沒(méi)有絲毫貶低 BIT 的意思。事實(shí)上,我始終認(rèn)為信息時(shí)代最偉大的發(fā)明就是BIT。這是 2023 年初我和 5G Polar 碼發(fā)明人、2019 年香農(nóng)獎(jiǎng)得主,Erdal Arikan 教授的圓桌論壇上,他在回答吳博士的問(wèn)題時(shí)提出的核心觀點(diǎn)。這一觀點(diǎn)啟發(fā)我一直思考 AI 時(shí)代的核心概念 ——和 BIT 同等重要的概念—— 到底是什么?BIT 連接了計(jì)算和通信,兩個(gè)理論基礎(chǔ)和哲學(xué)理念完全不同,卻又相互促進(jìn)、相互限制的學(xué)科。我現(xiàn)在堅(jiān)信 Kolmogorov 的觀點(diǎn)是對(duì)的:信息論不應(yīng)該建立在概率論的基礎(chǔ)上,信息論比概率論更加基礎(chǔ),它和 Turing 的計(jì)算理論一樣,建立在邏輯的基礎(chǔ)上。這也就是為什么 Kolmogorov 提出了基于 Turing 機(jī)的 Kolmogorov 復(fù)雜度,并由此推導(dǎo)出 Shannon 熵是 Kolmogorov 復(fù)雜度的數(shù)學(xué)期望。另一方面,直覺(jué)主義邏輯的 Brouwer-Heyting-Kolmogorov 釋義(BHK Interpretation),即一個(gè)數(shù)學(xué)命題的意義等同于證明這個(gè)命題的方法,則是現(xiàn)代計(jì)算機(jī)科學(xué)中的柯里-霍華德對(duì)應(yīng)(Curry-Howard Correspondence)的邏輯基礎(chǔ)。它告訴我們:命題即類型和證明即程序。人類已邁向 AI 時(shí)代,其核心概念我認(rèn)為就是TOKEN。從這個(gè)角度出發(fā),可以大膽推測(cè),正如 BIT 連接了計(jì)算和通信一樣,TOKEN 將連接經(jīng)驗(yàn)(記憶、推斷)和理性(推理),或者按照 Daniel Kahneman 的說(shuō)法就是連接了系統(tǒng) 1系統(tǒng) 23?。因此,BIT 定義了信息時(shí)代,而 TOKEN 則將定義 AI 時(shí)代

無(wú)論大模型當(dāng)前的技術(shù)路徑是否能真正通往通用人工智能(Artificial General Intelligence,AGI) 和超級(jí)人工智能(Artificial Super Intelligence,ASI),我想通過(guò)這篇論文和這個(gè)系列的解讀文章來(lái)說(shuō)明:AI 時(shí)代的大幕已經(jīng)正式開(kāi)啟,我們要圍繞新的核心概念開(kāi)展研究與開(kāi)發(fā),構(gòu)筑新的理論和系統(tǒng)。也許大模型的下一個(gè) Token 預(yù)測(cè)并非真的在思考,但無(wú)論是誰(shuí)也無(wú)法否認(rèn)大模型革命性地提升了自動(dòng)化整合和處理信息的能力。也許正如電影《模仿游戲》中 Turing 的那句震撼心靈的臺(tái)詞:有趣的問(wèn)題是,只因?yàn)槟硺訓(xùn)|西與你思考的方式不同,就意味著它不思考嗎?(The interesting question is, just because something thinks differently from you, does that mean it's not thinking?)

參考文獻(xiàn)

1 B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv: 2511.01202, Nov. 2025.

2 C. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 7, pp. 379-423, Oct. 1948.

3 W. Weaver and C. Shannon, "Recent contributions to the mathematical theory of communications," The Rockefeller Foundation, Sep. 1949.

? C. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 7, pp. 379-423, Oct. 1948.

? R. Ash, Information Theory. New York, NY, USA: Dover Publications, 1990.

? N. Alon and J. Spencer, The Probabilistic Method, 4th ed. Hoboken, NJ, USA: John Wiley & Sons, 2016.

? R. Sutton, "The Oak architecture: A vision of super intelligence from experience," Invited talk at NeurIPS ’25, San Diego, CA, USA, Dec. 03, 2025.

? C. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 7, pp. 379-423, Oct. 1948.

? T. Berger, Rate Distortion Theory: A Mathematical Basis for Data Compression. Englewood Cliffs, NJ, USA: Prentice Hall PTR, 1971.

1? R. Blahut, "Computation of channel capacity and rate-distortion functions," IEEE Transactions on Information Theory, vol. 18, no. 4, pp. 460-473, Jul. 1972.

11 S. Arimoto, "An algorithm for computing the capacity of arbitrary discrete memoryless channels," IEEE Transactions on Information Theory, vol. 18, no. 1, pp. 14-20, Jan. 1972.

12 S. Wu, W. Ye, H. Wu, H. Wu, W. Zhang, and B. Bai, "A communication optimal transport approach to the computation of rate distortion functions," arXiv: 2212.10098, Dec. 2022.

13 J. Massey, "Causality, feedback and directed information," in Proc. IEEE International Symposium on Information Theory ’90, Waikiki, HI, USA, Nov. 1990.

1? R. Ash, Information Theory. New York, NY, USA: Dover Publications, 1990.

1? H. Marko, "The bidirectional communication theory: A generalization of information theory," IEEE Transactions on Communications, vol. 21, no. 12, pp. 1345-1351, Dec. 1973.

1? G. Kramer, "Directed information for channels with feedback," Ph. D Dissertation, ETH Zurich, Zurich, Switzerland, 1998.

1? D. Tsur, O. Sabag, N. Kashyap, H. Permuter, and G. Kramer, "Directed information: Estimation, optimization and applications in communications and causality," arXiv: 2602.09711, Feb. 2026.

1? R. Dobrushin, "General formulation of Shannon's main theorem in information theory," American Mathematical Society Translations: Series 2, vol. 33, no. 2, pp. 323-438, 1963.

1? V. Strassen, "Asymptotische absch?tzungen in Shannon's informationstheorie," in Transactions of 3rd Prague Conference on Information Theory '62, Prague, Czech Republic, 1962.

2? Y. Polyanskiy and Y. Wu, Information Theory: From Coding to Learning. Cambridge, UK: Cambridge University Press, 2025.

21 R. Rafailov, A. Sharma, E. Mitchell, S. Ermon, C. Manning, and C. Finn, "Direct preference optimization: Your language model is secretly a reward model," arXiv: 2305.18290, Jul. 2024.

22 D. Williams, Probability with Martingales. Cambridge, UK: Cambridge University Press, 1991.

23 I. Naiss and H. Permuter, "Extension of the Blahut-Arimoto algorithm for maximizing directed information," IEEE Transactions on Information Theory, vol. 59, no. 1, pp. 204-222, Jan. 2013.

2? M. Donsker and S. Varadhan, "Asymptotic evaluation of certain Markov process expectations for large time, IV," Communications on Pure and Applied Mathematics, vol. 36, no. 2, pp. 183-212, Mar. 1983.

2? M. Belghazi et al., "MINE: Mutual information neural estimation," arXiv: 1801.04062, Aug. 2021.

2? D. Tsur, Z. Aharoni, Z. Goldfeld, and H. Permuter, "Neural estimation and optimization of directed information over continuous spaces," IEEE Transactions on Information Theory, vol. 69, no. 8, pp. 4777-4798, Aug. 2023.

2? O. Luxembourg, D. Tsur, and H. Permuter, "TREET: Transfer entropy estimation via transformers," arXiv: 2402.06919, Jul. 2025.

2? T. Schreiber, "Measuring information transfer," Physical Review Letters, vol. 85, no. 2, pp. 461-464, Jul. 2000.

2? L. Barnett, A. B. Barrett, and A. K. Seth, "Granger causality and transfer entropy are equivalent for Gaussian variables," Physical Review Letters, vol. 103, no. 23, pp. 238701, Dec. 2009.

3? P. Amblard and O. Michel, "The relation between Granger causality and directed information theory: A review," Entropy, vol. 15, no. 1, pp. 113-143, Jan. 2013.

31 J. Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. New York, NY, USA: Cambridge University Press, 2009.

32 J. Pearl and D. Mackenzie, The Book of Why: The New Science of Cause and Effect. New York, NY, USA: Basic Books, 2018.

33 D. Silver et al., "Mastering the game of Go without human knowledge, Nature, vol. 550, no. 7676, Oct. 2017.

3? DeepSeek-AI, "DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning," DeepSeek, Hangzhou, China, Jan. 2025.

3? L. Berglund et al., "The reversal curse: LLMs Trained on 'A is B' fail to learn 'B is A'," arXiv: 2309.12288, May 2024.

3? D. Kahneman, Thinking, Fast and Slow. New York, NY, USA: Farrar, Straus and Giroux, 2013.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張?jiān)迄i母子終于見(jiàn)面!媽媽離婚租房住生活困苦,同母異父妹妹露面

張?jiān)迄i母子終于見(jiàn)面!媽媽離婚租房住生活困苦,同母異父妹妹露面

小彭美識(shí)
2026-03-05 15:58:24
燒高香了!網(wǎng)傳珠海一工廠漲工資,一線崗位一個(gè)月能多拿近1000元

燒高香了!網(wǎng)傳珠海一工廠漲工資,一線崗位一個(gè)月能多拿近1000元

火山詩(shī)話
2026-03-03 08:48:42
俄烏局勢(shì)升級(jí),英法或親自下場(chǎng):完成派兵準(zhǔn)備,還要向基輔運(yùn)核彈

俄烏局勢(shì)升級(jí),英法或親自下場(chǎng):完成派兵準(zhǔn)備,還要向基輔運(yùn)核彈

兵說(shuō)
2026-03-04 17:27:16
史詩(shī)級(jí)封殺!2000萬(wàn)網(wǎng)紅“聽(tīng)風(fēng)的蠶”徹底涼了

史詩(shī)級(jí)封殺!2000萬(wàn)網(wǎng)紅“聽(tīng)風(fēng)的蠶”徹底涼了

互聯(lián)網(wǎng)品牌官
2026-02-12 01:17:23
羅永浩自曝44歲在兒科確診ADHD,“害怕尷尬就坐在孩子旁邊,讓別人誤以為自己是就診孩子的爸爸”

羅永浩自曝44歲在兒科確診ADHD,“害怕尷尬就坐在孩子旁邊,讓別人誤以為自己是就診孩子的爸爸”

觀威海
2026-03-04 17:11:03
上海炒股大賽冠軍的箴言:如果手里只有10萬(wàn),不妨死磕"七大口訣"

上海炒股大賽冠軍的箴言:如果手里只有10萬(wàn),不妨死磕"七大口訣"

一方聊市
2026-01-19 13:13:48
兩極反轉(zhuǎn)!網(wǎng)友被父母的老式旅游折服了!評(píng)論區(qū)全部是真香現(xiàn)場(chǎng)

兩極反轉(zhuǎn)!網(wǎng)友被父母的老式旅游折服了!評(píng)論區(qū)全部是真香現(xiàn)場(chǎng)

另子維愛(ài)讀史
2026-02-26 21:36:17
伊朗戰(zhàn)爭(zhēng),算一下中國(guó)的損失

伊朗戰(zhàn)爭(zhēng),算一下中國(guó)的損失

漢唐光輝
2026-03-05 10:29:17
美退伍老兵抗議反對(duì)為以色列而戰(zhàn) 遭拉斷胳膊

美退伍老兵抗議反對(duì)為以色列而戰(zhàn) 遭拉斷胳膊

看看新聞Knews
2026-03-05 18:06:04
李亞鵬回家過(guò)元宵!住北京200平豪宅,自曝王菲和母親相處的細(xì)節(jié)

李亞鵬回家過(guò)元宵!住北京200平豪宅,自曝王菲和母親相處的細(xì)節(jié)

離離言幾許
2026-03-03 12:37:57
英媒爆出猛料:中國(guó)或違反聯(lián)合國(guó)規(guī)定,運(yùn)送超高音速導(dǎo)彈給伊朗!

英媒爆出猛料:中國(guó)或違反聯(lián)合國(guó)規(guī)定,運(yùn)送超高音速導(dǎo)彈給伊朗!

始于初見(jiàn)見(jiàn)
2026-03-02 19:33:23
中超揭幕戰(zhàn)明天開(kāi)打,CCTV5直播!韋世豪領(lǐng)銜成都蓉城V深圳新鵬城

中超揭幕戰(zhàn)明天開(kāi)打,CCTV5直播!韋世豪領(lǐng)銜成都蓉城V深圳新鵬城

足球評(píng)論qs
2026-03-05 17:25:14
阿里人事地震持續(xù)發(fā)酵!有網(wǎng)友直言,那些踏實(shí)干活的人得不到激勵(lì)

阿里人事地震持續(xù)發(fā)酵!有網(wǎng)友直言,那些踏實(shí)干活的人得不到激勵(lì)

火山詩(shī)話
2026-03-05 16:37:15
一天辦不出三張卡的人要寫(xiě)“檢討”,山姆其實(shí)很焦慮

一天辦不出三張卡的人要寫(xiě)“檢討”,山姆其實(shí)很焦慮

知危
2026-03-04 17:21:13
61分鐘速敗出局!老將張帥不敵世界第52,止步印第安維爾斯首輪

61分鐘速敗出局!老將張帥不敵世界第52,止步印第安維爾斯首輪

全景體育V
2026-03-05 14:18:00
十四屆全國(guó)人大四次會(huì)議:3月6日下午3時(shí)舉行經(jīng)濟(jì)主題記者會(huì)

十四屆全國(guó)人大四次會(huì)議:3月6日下午3時(shí)舉行經(jīng)濟(jì)主題記者會(huì)

界面新聞
2026-03-05 16:16:01
蔡正元“三料錦囊打伊朗”全中,自稱“現(xiàn)代諸葛”封神

蔡正元“三料錦囊打伊朗”全中,自稱“現(xiàn)代諸葛”封神

Ck的蜜糖
2026-03-05 01:30:43
妖、魔、鬼、怪、精,到底有什么區(qū)別?

妖、魔、鬼、怪、精,到底有什么區(qū)別?

歷史地理大發(fā)現(xiàn)
2026-02-27 23:49:41
1分58秒,格林伍德打進(jìn)馬賽本世紀(jì)正式比賽開(kāi)場(chǎng)最快點(diǎn)球

1分58秒,格林伍德打進(jìn)馬賽本世紀(jì)正式比賽開(kāi)場(chǎng)最快點(diǎn)球

懂球帝
2026-03-05 04:39:10
霍爾木茲一封鎖,你的工資單和菜錢(qián)全要變天

霍爾木茲一封鎖,你的工資單和菜錢(qián)全要變天

流蘇晚晴
2026-03-03 19:13:32
2026-03-05 18:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12418文章數(shù) 142578關(guān)注度
往期回顧 全部

科技要聞

阿里內(nèi)部郵件回應(yīng):批準(zhǔn)林俊旸辭職

頭條要聞

俄外長(zhǎng):美以意圖將海灣國(guó)家拖入對(duì)伊朗戰(zhàn)爭(zhēng)

頭條要聞

俄外長(zhǎng):美以意圖將海灣國(guó)家拖入對(duì)伊朗戰(zhàn)爭(zhēng)

體育要聞

不開(kāi)玩笑,沒(méi)人想在季后賽碰上黃蜂

娛樂(lè)要聞

謝娜下場(chǎng)撕薛之謙,張杰前女友爆猛料

財(cái)經(jīng)要聞

“十五五”開(kāi)局之年,這么干!

汽車要聞

小鵬第二代VLA如何破解智駕不敢用的技術(shù)困局?

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
教育
親子
公開(kāi)課

房產(chǎn)要聞

超猛!又有2800套房源砸出,2026??诎簿臃?,徹底爆發(fā)!

藝術(shù)要聞

2026年“浩瀚草原 亮麗北疆”美展

教育要聞

青島長(zhǎng)沙路小學(xué):以“馬”為序,策馬奔赴新學(xué)期

親子要聞

深度長(zhǎng)文:嬰兒哭聲可能招來(lái)野獸,原始人是如何生存下來(lái)的?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版