網易首頁 > 網易號 > 正文申請入駐

從Entropy到Epiplexity

2026-03-21 16:08:53　來源: 人工智能學家

北京舉報

分享至

1948年，香農以《通信的數學理論》為信息時代立碑，香農熵與柯爾莫哥洛夫復雜度自此成為信息世界的絕對法則。七十余年，學界篤信：信息守恒，確定性變換無法生新；順序無關，信息總量與排列無涉；似然建模，不過是對生成過程的復刻。這三條鐵律，如亙古枷鎖，定義了信息的本質。直到2026年，一篇題為《From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence》的論文，以三道悖論破壁，用「認知復雜度（epiplexity）」重構信息定義——這不是修補，是一場范式革命：當經典信息論執著于「信息如何傳遞」，這篇論文終于叩問「智能如何從數據中生長」。

https://arxiv.org/pdf/2601.03220

一、從熵到認知復雜度的百年變遷

epiplexity 并非憑空誕生的理論，而是信息科學歷經三代核心范式迭代，最終突破經典理論邊界的必然產物。每一次范式升級，都是對「信息是什么」這一核心問題的重新回答，也是對「觀察者」角色的重新定義。

第一代范式：香農熵 —— 通信時代的客觀信息度量

1948 年香農提出的信息熵，是信息科學的第一塊基石。核心使命是解決「信息如何無損傳輸」的通信問題，因此它定義的信息，是消除隨機不確定性的客觀物理量，與觀察者無關、與內容價值無關、與計算能力無關。

核心邊界：只關心信號的統計分布，不關心信號的語義結構；只描述信息的傳輸損耗，不描述信息的智能價值。

固有局限：默認觀察者擁有無限解碼能力，無法解釋「同樣的比特流，對不同人有完全不同的價值」這一基本現實，也無法適配人工智能時代「從數據中提取可泛化結構」的核心需求。

第二代范式：算法復雜度 —— 無限算力下的結構描述

以柯爾莫哥洛夫復雜度為核心的算法信息論，是對香農熵的第一次重要升級。它將信息的定義從「統計分布」轉向「生成規則」：一段數據的復雜度，是能生成它的最短程序的長度。

核心突破：第一次將「結構」納入信息的定義，區分了「隨機噪聲」與「有結構的信息」，衍生出了 sophistication（復雜度）、有效復雜度、邏輯深度等一系列試圖量化「結構性信息」的理論。

固有局限：依然默認觀察者擁有無限計算能力。它無法區分「有種子的偽隨機數」與「真隨機數」，無法解釋「簡單規則生成的復雜系統，對有限算力的觀察者有極高的學習價值」，更無法解決 AI 實踐中遇到的三大信息悖論。正如原論文指出的：這些理論對高復雜度對象的定義，在有限算力的現實世界中完全不可證、不可用。

第三代范式：Epiplexity（認知復雜度）—— 有限算力下的智能信息論

原論文提出的 epiplexity，完成了信息論從「神的視角」到「人的視角」的終極轉向。它將信息的定義徹底重構為：在給定的算力約束下，觀察者能從數據中提取的、可復用、可泛化的結構性信息總量。

核心顛覆：第一次將「觀察者的算力約束」作為信息定義的核心前提，第一次將「信息的可學習性、可泛化性」作為信息價值的核心標尺，徹底打通了信息理論與人工智能實踐的壁壘。

體系價值：它不是對經典信息論的否定，而是對其的邊界拓展 —— 香農熵解決了「信息能不能傳過去」的問題，而 epiplexity 解決了「信息能不能被學會、能不能用來解決新問題」的問題。

二、認知復雜度(Epiplexity)的詳解 1. 核心定義與基礎公式

原論文對 epiplexity 的形式化定義，是整個體系的起點：

定義（Epiplexity 與時間有界熵）：對于定義在 {0,1}^n 上的隨機變量 X，給定時間可構造的非遞減算力約束 T，令

P?為算力約束 T 下，實現最小兩部分描述長度（模型描述長度 + 數據編碼長度）的最優概率模型。則：

在算力約束T下的有界認知復雜度為：
即最優模型的描述長度，對應數據中可被提取的結構性信息總量；
在算力約束T下的有界熵為：
即最優模型下數據的期望編碼長度，對應數據中不可預測噪聲總量。

如果時間無限（T→∞），你可以找到最完美的整理方法，這時：

認知復雜度趨近于柯爾莫哥洛夫復雜度（數據的最小描述長度）
時間有界熵趨近于香農熵（數據的統計不確定性）

基于定義，衍生出兩大可落地的測量公式，構成 epiplexity 的量化基礎：

預序編碼估計（直觀近似法）

用模型訓練損失曲線中「收斂損失之上的面積」，近似量化數據的 epiplexity，適用于絕大多數工程場景，與模型訓練過程天然適配。

重序編碼估計（嚴謹上界法）

用師生模型迭代過程中的 KL 散度累積和，精準量化 epiplexity 的理論上界，適用于嚴謹的理論驗證與精細的數據集對比。

2. 核心定理與理論邊界

定理 1 偽隨機數是低認知復雜度的

偽隨機數是用固定種子 + 固定公式生成的，在無限算力的神眼里，一眼就能看穿種子和規則，所以它的信息和種子一樣少，根本沒新東西（認知復雜度和時間有界熵都極低）。在有限算力的現實世界里，偽隨機數看起來信息量爆炸（熵高），但完全沒有可學習的結構（認知復雜度低）

這就完美解釋了「為什么隨機噪聲沒有學習價值」，也解決了經典算法復雜度無法區分偽隨機數與真隨機數的核心痛點。

定理 2 存在可以持續挖掘更多結構的高認知復雜度的隨機變量

在單向函數存在的密碼學假設下，存在 epiplexity 隨數據維度對數增長的隨機變量序列。這一定理從數學上證明了「結構性信息可以被持續提取」，為大模型的持續學習、數據的持續價值提供了理論支撐。好的數據不是學一遍就廢，而是可以持續挖掘出更多結構，支撐模型不斷變強。所以對質數的不斷研究能不斷提升人類的認知復雜度

定理 3數據順序直接決定了認知復雜度和時間有界熵的量級

對于單向置換 f，正向建模（X→f (X)）與反向建模（f (X)→X）的時間有界熵與 epiplexity 存在超對數級的差距。定理從數學上證明了「數據順序決定信息價值」，順序不是無關緊要的細節，而是解鎖信息價值的鑰匙。

來點個人啟發，也可以說說你的啟發：

信息爆炸時代，要警惕 “偽豐富”。真正的價值是 “可提取的結構”
好的信息是 “常讀常新” 的，因為它是高認知復雜度的載體（比如質數）
刻意選擇 “未知路徑”，能解鎖更高的認知體驗
學習的順序，比學習的內容更重要
智能時代，思考更有必要。普通人只是有限算力的觀察者，再強大的AI也無法把信息直接傳遞，自主思考是 epiplexity 的創造過程......

3. 與基礎學科的交叉公理

與計算復雜性理論交叉：全盤繼承計算復雜度的核心公理，但只聚焦多項式時間內的真實能力邊界；

與密碼學：以單向函數為前提，用計算不可區分性區分噪聲與可學習結構；

與算法信息論：沿用最小描述長度思路，加入了算力約束，解決了經典 MDL 原則在有限算力下的不可實現問題。

三：Epiplexity 在其他領域 1.工程方法層：Epiplexity讓數據治理科學化

epiplexity的核心工程價值，是將AI從「模型中心主義」轉向「數據中心主義」，讓數據治理從經驗直覺升級為嚴謹科學，核心包含四大核心模塊：

數據集認知復雜度量化分級：基于兩大測量公式，建立標準化量化體系，按認知復雜度高低劃分數據價值梯度，揭示文本模態認知復雜度遠超圖像、視頻的核心原因，為數據選擇提供精準依據；
預訓練數據認知復雜度優化：以最大化有效認知復雜度為目標，通過篩選高價值數據、設計認知復雜度遞進的課程學習、優化合成數據的結構增益，釋放數據的智能價值；
模型訓練認知復雜度對齊：核心遵循三大原則——算力-認知復雜度匹配、認知復雜度飽和止訓、下游任務認知匹配，實現模型、算力與數據價值的最優耦合；
模型能力認知復雜度評估：跳出傳統評估框架，從結構提取能力、泛化潛力、算力效率三個維度，構建全新的模型能力評價體系。

2. 跨學科應用層：Epiplexity為傳統學科困境破解

epiplexity的核心思想，為傳統學科的長期困境提供了全新破解路徑，實現從單一AI應用到跨學科賦能的延伸：

1. 認知科學與心理學：人類認知的 epiplexity 量化框架

人類的學習本質，是從感官數據中提取 epiplexity 的過程：新手與專家的核心差距，不是記憶的信息量，而是對同一數據能提取的 epiplexity 總量 —— 新手只能看到棋局的棋子位置，專家能解碼棋局的深層結構，正是 epiplexity 提取能力的差異；

認知發展的階段躍遷，對應 epiplexity 提取能力的升級：兒童從具象思維到抽象思維的發展，本質是能從數據中提取更復雜、更抽象的結構性信息，epiplexity 的增長曲線，可精準量化認知發展的進度；

學習障礙的本質，是特定領域的 epiplexity 提取能力缺陷：閱讀障礙、計算障礙等問題，并非智力缺陷，而是無法從對應的數據中提取有效的結構性信息，epiplexity 可為學習障礙的診斷與干預提供量化標準。

2. 語言學與符號學：語言的高epiplexity性

epiplexity 為「語言為什么是人類智能的核心」提供了解釋：

語言是 epiplexity 的最優載體：自然語言通過層級化的語法、語義、語用結構，將世界的復雜規律壓縮為可傳遞的符號序列，用極低的熵承載了極高的 epiplexity，這也是為什么文本預訓練能帶來通用智能的躍遷；

語言的演化，是 epiplexity 的持續優化過程：人類語言從簡單的信號到復雜的符號系統，本質是不斷提升單位符號能承載的 epiplexity，讓信息的傳遞與學習更高效；不同語言、不同文體的 epiplexity 差異：詩歌、哲學文本、科學論文的 epiplexity 遠高于日常口語，因為它們承載了更復雜、更抽象的結構性信息，這也解釋了為什么高質量的文本語料，對大模型的能力提升至關重要。

3. 復雜系統科學：涌現現象的 epiplexity 量化

長期以來，復雜系統科學中的「涌現」現象，只能定性描述，無法定量計算，而 epiplexity 提供了完美的量化工具：

涌現的本質，是系統演化過程中 epiplexity 的非線性增長：康威生命游戲、元胞自動機、混沌系統，從簡單規則演化出復雜結構的過程，就是 epiplexity 持續創造的過程；

原論文給出了「epiplexity 涌現」的嚴格定義：當系統的單步演化對不同算力的觀察者有相同的 epiplexity，而多步演化的 epiplexity 差距隨系統規模發散時，系統就出現了涌現現象（簡而言之：單步演化無差異，說明復雜并非來自初始規則；多步差距發散，說明確實有結構，高算力者能歸納，不是單純的復雜）

復雜系統的分類，可通過 epiplexity 的演化特征實現：原論文的元胞自動機實驗驗證，Class II（周期型）規則 epiplexity 極低，Class III（混沌型）規則 epiplexity 接近零，Class IV（復雜型）規則 epiplexity 持續增長，這為復雜系統的分類與預測提供了統一的量化標準。

4. 數學與邏輯學：演繹推理的 epiplexity 創造

epiplexity 解決了數學哲學中的長期悖論：「從公理出發的演繹推理，是否能創造新的信息？」

經典信息論認為，演繹推理的所有結論都包含在公理中，沒有創造新信息；但epiplexity角度，對有限算力的人類而言，數學定理的證明過程，就是從公理中提取 epiplexity 的過程—— 公理中蘊含的結構，對有限算力的觀察者是不可見的，只有通過嚴格的演繹推理，才能將這些結構具象化，創造出可學習、可復用的 epiplexity；

數學理論的價值，取決于它能提供的 epiplexity 總量：一個好的數學定理，能將大量分散的結論統一為簡潔的規則，大幅提升人類從數據中提取結構的效率，本質是創造了極高的 epiplexity；

數學難題的認知復雜度，可界定為「人類當前算力下，僅能部分提取、難以完全解鎖的頂級高認知復雜度」，其核心難度并非香農信息量大（僅用簡潔語言即可表述猜想本身），而是提取其底層結構性信息所需的算力，遠超當前人類個體與群體的算力邊界，這也正是其歷經數百年仍未被完全破解的核心原因。

5. 經濟學與社會學：信息不對稱的 epiplexity 本質

信息不對稱的本質，不是香農信息的差異，而是 epiplexity 提取能力的差異：專業投資者與普通人面對同一份財報，看到的是完全不同的信息 —— 普通人只能看到數字，專業投資者能解碼數字背后的企業經營結構、行業趨勢，這就是 epiplexity 提取能力的差距；

市場的有效性，取決于市場參與者的 epiplexity 分布：當市場中大多數參與者都能從數據中提取足夠的 epiplexity 時，市場就接近有效；反之，市場就會出現定價偏差與套利機會；

教育的核心價值，是提升個體的 epiplexity 提取能力：教育不是給個體灌輸更多的信息，而是教會個體如何從世界的海量數據中，提取可復用、可泛化的結構性信息，提升單位算力能提取的 epiplexity 總量。

3.哲學范式層 ——Epiplexity 的信息哲學體系

epiplexity 不僅是一個科學理論，更是一套全新的信息哲學，徹底重構了我們對「信息、觀察者、智能、世界」的哲學認知，核心分為三大層面：

1. 本體論：信息的主觀性與客觀性的統一

信息的客觀性基礎：數據的底層生成規則是客觀的，數據中蘊含的結構性信息的上限，是由生成規則決定的，這是香農的世界觀；

信息的主觀性本質：數據中能被提取的有效信息（epiplexity），完全取決于觀察者的算力約束與結構提取能力，同一數據對不同的觀察者，有完全不同的 epiplexity，這是信息的主觀維度；

最經典的例證就是密文：密文的生成規則是客觀的，對有密鑰的解密者，它有極高的 epiplexity；對無密鑰的普通人，它的 epiplexity 為零，全是隨機噪聲。信息不是絕對的，而是觀察者與世界互動的產物。

2. 認識論：智能的本質是 epiplexity 的提取與創造

智能的本質，是在有限算力的約束下，從混沌數據中提取、創造、復用結構性信息（epiplexity）的能力。

人類的認知過程，是 epiplexity 的提取過程：我們從感官的海量混沌數據中，提煉出規律、因果、邏輯，形成對世界的認知，本質是提取 epiplexity；

人類的創造過程，是 epiplexity 的生成過程：科學發現、藝術創作、技術發明，本質是通過計算與思考，創造出新的、可被他人提取的 epiplexity。

智能的高低，本質是 epiplexity 的提取效率：用越少的算力、越少的數據，提取越多的可泛化 epiplexity，就是更高的智能。

3. 價值論：信息的價值由 epiplexity 決定

epiplexity 徹底重構了信息的價值評判標準：一段信息的價值，不取決于它的香農熵大小，不取決于它的存儲體積，而取決于它能為觀察者提供的 epiplexity 總量。

一段高質量的科學論文，可能只有幾千字，香農熵極低，但它能為研究者提供極高的 epiplexity，幫助他們解決全新的問題，因此有極高的價值；

一段幾小時的監控視頻，存儲體積極大，香農熵極高，但其中幾乎沒有可泛化的結構性信息，epiplexity 幾乎為零，因此幾乎沒有價值；

這一價值標準，也為我們當下的信息時代提供了核心的行動指南：在信息爆炸的時代，我們需要的不是更多的信息，而是更多高 epiplexity 的信息；不是更高效的信息接收，而是更強的 epiplexity 提取能力。

四、總結：Epiplexity 帶來的改變信息論：從「通信的信息論」到「智能的信息論」

經典信息論的核心使命是客觀信息的「無損傳輸」，而 epiplexity 將信息論的核心使命升級為主觀「有效學習」，讓信息論從通信時代的基礎理論，升級為人工智能時代的基礎理論，解決了經典信息論與 AI 實踐長期脫節的核心矛盾。

機器學習：從「模型中心主義」到「數據中心主義」

過去幾十年，機器學習的核心焦點是「模型選擇」—— 卷架構、卷優化器、卷參數量；而 epiplexity 告訴我們，決定模型泛化上限的，是訓練數據的 epiplexity。它為「數據中心 AI」提供了完整的理論基礎，讓數據治理、數據篩選、數據生成從「經驗工程」升級為「嚴謹科學」。

復雜系統科學：從「定性描述」到「定量計算」

復雜系統科學長期面臨「涌現無法量化」的困境，而 epiplexity 為涌現、自組織、混沌等核心現象提供了可計算的量化標準，讓復雜系統的研究從定性的描述性科學，升級為定量的預測性科學。

認知科學：從「行為觀測」到「能力量化」

傳統認知科學主要通過行為實驗觀測人類的認知能力，而 epiplexity 提供了一種量化認知能力的核心標尺，讓認知發展、學習效果、認知障礙都能被精準量化，為認知科學的工程化應用提供了理論基礎。

未來：更精細的算力約束模型與更廣泛的理論邊界

現有的 epiplexity 理論以「多項式時間 / 非多項式時間」為核心算力分界，未來將拓展到更精細的算力約束模型（如二次時間、電路深度、內存約束等），適配更廣泛的 AI 場景與認知場景；同時將 epiplexity 與量子計算、量子信息論結合，探索量子算力下的認知復雜度理論。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.