1948年,香農以《通信的數學理論》為信息時代立碑,香農熵與柯爾莫哥洛夫復雜度自此成為信息世界的絕對法則。七十余年,學界篤信:信息守恒,確定性變換無法生新;順序無關,信息總量與排列無涉;似然建模,不過是對生成過程的復刻。這三條鐵律,如亙古枷鎖,定義了信息的本質。直到2026年,一篇題為《From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence》的論文,以三道悖論破壁,用「認知復雜度(epiplexity)」重構信息定義——這不是修補,是一場范式革命:當經典信息論執著于「信息如何傳遞」,這篇論文終于叩問「智能如何從數據中生長」。
https://arxiv.org/pdf/2601.03220
一、從熵到認知復雜度的百年變遷
epiplexity 并非憑空誕生的理論,而是信息科學歷經三代核心范式迭代,最終突破經典理論邊界的必然產物。每一次范式升級,都是對「信息是什么」這一核心問題的重新回答,也是對「觀察者」角色的重新定義。
第一代范式:香農熵 —— 通信時代的客觀信息度量
1948 年香農提出的信息熵,是信息科學的第一塊基石。核心使命是解決「信息如何無損傳輸」的通信問題,因此它定義的信息,是消除隨機不確定性的客觀物理量,與觀察者無關、與內容價值無關、與計算能力無關。
核心邊界:只關心信號的統計分布,不關心信號的語義結構;只描述信息的傳輸損耗,不描述信息的智能價值。
固有局限:默認觀察者擁有無限解碼能力,無法解釋「同樣的比特流,對不同人有完全不同的價值」這一基本現實,也無法適配人工智能時代「從數據中提取可泛化結構」的核心需求。
第二代范式:算法復雜度 —— 無限算力下的結構描述
以柯爾莫哥洛夫復雜度為核心的算法信息論,是對香農熵的第一次重要升級。它將信息的定義從「統計分布」轉向「生成規則」:一段數據的復雜度,是能生成它的最短程序的長度。
核心突破:第一次將「結構」納入信息的定義,區分了「隨機噪聲」與「有結構的信息」,衍生出了 sophistication(復雜度)、有效復雜度、邏輯深度等一系列試圖量化「結構性信息」的理論。
固有局限:依然默認觀察者擁有無限計算能力。它無法區分「有種子的偽隨機數」與「真隨機數」,無法解釋「簡單規則生成的復雜系統,對有限算力的觀察者有極高的學習價值」,更無法解決 AI 實踐中遇到的三大信息悖論。正如原論文指出的:這些理論對高復雜度對象的定義,在有限算力的現實世界中完全不可證、不可用。
第三代范式:Epiplexity(認知復雜度)—— 有限算力下的智能信息論
原論文提出的 epiplexity,完成了信息論從「神的視角」到「人的視角」的終極轉向。它將信息的定義徹底重構為:在給定的算力約束下,觀察者能從數據中提取的、可復用、可泛化的結構性信息總量。
核心顛覆:第一次將「觀察者的算力約束」作為信息定義的核心前提,第一次將「信息的可學習性、可泛化性」作為信息價值的核心標尺,徹底打通了信息理論與人工智能實踐的壁壘。
體系價值:它不是對經典信息論的否定,而是對其的邊界拓展 —— 香農熵解決了「信息能不能傳過去」的問題,而 epiplexity 解決了「信息能不能被學會、能不能用來解決新問題」的問題。
二、認知復雜度(Epiplexity)的詳解 1. 核心定義與基礎公式
原論文對 epiplexity 的形式化定義,是整個體系的起點:
定義(Epiplexity 與時間有界熵):對于定義在 {0,1}^n 上的隨機變量 X,給定時間可構造的非遞減算力約束 T,令
P?為算力約束 T 下,實現最小兩部分描述長度(模型描述長度 + 數據編碼長度)的最優概率模型。則:
在算力約束T下的有界認知復雜度為:
即最優模型的描述長度,對應數據中可被提取的結構性信息總量;
在算力約束T下的有界熵為:
即最優模型下數據的期望編碼長度,對應數據中不可預測噪聲總量。
如果時間無限(T→∞),你可以找到最完美的整理方法,這時:
認知復雜度趨近于柯爾莫哥洛夫復雜度(數據的最小描述長度)
時間有界熵趨近于香農熵(數據的統計不確定性)
基于定義,衍生出兩大可落地的測量公式,構 成 epiplexity 的量化基礎:
預序編碼估計(直觀近似法)
用模型訓練損失曲線中「收斂損失之上的面積」,近似量化數據的 epiplexity,適用于絕大多數工程場景,與模型訓練過程天然適配。
重序編碼估計(嚴謹上界法)
用師生模型迭代過程中的 KL 散度累積和,精準量化 epiplexity 的理論上界,適用于嚴謹的理論驗證與精細的數據集對比。
2. 核心定理與理論邊界
定理 1 偽隨機數是低認知復雜度的
偽隨機數是用固定種子 + 固定公式生成的,在無限算力的神眼里,一眼就能看穿種子和規則,所以它的信息和種子一樣少,根本沒新東西(認知復雜度和時間有界熵都極低)。在有限算力的現實世界里,偽隨機數看起來信息量爆炸(熵高),但完全沒有可學習的結構(認知復雜度低)
這就完美解釋了「為什么隨機噪聲沒有學習價值」,也解決了經典算法復雜度無法區分偽隨機數與真隨機數的核心痛點。
定理 2 存在可以持續挖掘更多結構的高認知復雜度的隨機變量
在單向函數存在的密碼學假設下,存在 epiplexity 隨數據維度對數增長的隨機變量序列。這一定理從數學上證明了「結構性信息可以被持續提取」,為大模型的持續學習、數據的持續價值提供了理論支撐。好的數據不是學一遍就廢,而是可以持續挖掘出更多結構,支撐模型不斷變強。所以對質數的不斷研究能不斷提升人類的認知復雜度
定理 3數據順序直接決定了認知復雜度和時間有界熵的量級
對于單向置換 f,正向建模(X→f (X))與反向建模(f (X)→X)的時間有界熵與 epiplexity 存在超對數級的差距。定理從數學上證明了「數據順序決定信息價值」,順序不是無關緊要的細節,而是解鎖信息價值的鑰匙。
來點個人啟發,也可以說說你的啟發:
信息爆炸時代,要警惕 “偽豐富”。真正的價值是 “可提取的結構”
好的信息是 “常讀常新” 的,因為它是高認知復雜度的載體(比如質數)
刻意選擇 “未知路徑”,能解鎖更高的認知體驗
學習的順序,比學習的內容更重要
智能時代,思考更有必要。普通人只是有限算力的觀察者,再強大的AI也無法把信息直接傳遞,自主思考是 epiplexity 的創造過程......
與計算復雜性理論交叉:全盤繼承計算復雜度的核心公理,但只聚焦多項式時間內的真實能力邊界;
與密碼學:以單向函數為前提,用計算不可區分性區分噪聲與可學習結構;
與算法信息論:沿用最小描述長度思路,加入了算力約束,解決了經典 MDL 原則在有限算力下的不可實現問題。
三:Epiplexity 在其他領域 1.工程方法層:Epiplexity讓數據治理科學化
epiplexity的核心工程價值,是將AI從「模型中心主義」轉向「數據中心主義」,讓數據治理從經驗直覺升級為嚴謹科學,核心包含四大核心模塊:
數據集認知復雜度量化分級:基于兩大測量公式,建立標準化量化體系,按認知復雜度高低劃分數據價值梯度,揭示文本模態認知復雜度遠超圖像、視頻的核心原因,為數據選擇提供精準依據;
預訓練數據認知復雜度優化:以最大化有效認知復雜度為目標,通過篩選高價值數據、設計認知復雜度遞進的課程學習、優化合成數據的結構增益,釋放數據的智能價值;
模型訓練認知復雜度對齊:核心遵循三大原則——算力-認知復雜度匹配、認知復雜度飽和止訓、下游任務認知匹配,實現模型、算力與數據價值的最優耦合;
模型能力認知復雜度評估:跳出傳統評估框架,從結構提取能力、泛化潛力、算力效率三個維度,構建全新的模型能力評價體系。
2. 跨學科應用層:Epiplexity為傳統學科困境破解
epiplexity的核心思想,為傳統學科的長期困境提供了全新破解路徑,實現從單一AI應用到跨學科賦能的延伸:
1. 認知科學與心理學:人類認知的 epiplexity 量化框架
人類的學習本質,是從感官數據中提取 epiplexity 的過程:新手與專家的核心差距,不是記憶的信息量,而是對同一數據能提取的 epiplexity 總量 —— 新手只能看到棋局的棋子位置,專家能解碼棋局的深層結構,正是 epiplexity 提取能力的差異;
認知發展的階段躍遷,對應 epiplexity 提取能力的升級:兒童從具象思維到抽象思維的發展,本質是能從數據中提取更復雜、更抽象的結構性信息,epiplexity 的增長曲線,可精準量化認知發展的進度;
學習障礙的本質,是特定領域的 epiplexity 提取能力缺陷:閱讀障礙、計算障礙等問題,并非智力缺陷,而是無法從對應的數據中提取有效的結構性信息,epiplexity 可為學習障礙的診斷與干預提供量化標準。
2. 語言學與符號學:語言的 高epiplexity性
epiplexity 為「語言為什么是人類智能的核心」提供了解釋:
語言是 epiplexity 的最優載體:自然語言通過層級化的語法、語義、語用結構,將世界的復雜規律壓縮為可傳遞的符號序列,用極低的熵承載了極高的 epiplexity,這也是為什么文本預訓練能帶來通用智能的躍遷;
語言的演化,是 epiplexity 的持續優化過程:人類語言從簡單的信號到復雜的符號系統,本質是不斷提升單位符號能承載的 epiplexity,讓信息的傳遞與學習更高效;不同語言、不同文體的 epiplexity 差異:詩歌、哲學文本、科學論文的 epiplexity 遠高于日常口語,因為它們承載了更復雜、更抽象的結構性信息,這也解釋了為什么高質量的文本語料,對大模型的能力提升至關重要。
3. 復雜系統科學:涌現現象的 epiplexity 量化
長期以來,復雜系統科學中的「涌現」現象,只能定性描述,無法定量計算,而 epiplexity 提供了完美的量化工具:
涌現的本質,是系統演化過程中 epiplexity 的非線性增長:康威生命游戲、元胞自動機、混沌系統,從簡單規則演化出復雜結構的過程,就是 epiplexity 持續創造的過程;
原論文給出了「epiplexity 涌現」的嚴格定義:當系統的單步演化對不同算力的觀察者有相同的 epiplexity,而多步演化的 epiplexity 差距隨系統規模發散時,系統就出現了涌現現象(簡而言之:單步演化無差異,說明復雜并非來自初始規則;多步差距發散,說明確實有結構,高算力者能歸納,不是單純的復雜)
復雜系統的分類,可通過 epiplexity 的演化特征實現:原論文的元胞自動機實驗驗證,Class II(周期型)規則 epiplexity 極低,Class III(混沌型)規則 epiplexity 接近零,Class IV(復雜型)規則 epiplexity 持續增長,這為復雜系統的分類與預測提供了統一的量化標準。
4. 數學與邏輯學:演繹推理的 epiplexity 創造
epiplexity 解決了數學哲學中的長期悖論:「從公理出發的演繹推理,是否能創造新的信息?」
經典信息論認為,演繹推理的所有結論都包含在公理中,沒有創造新信息;但epiplexity角度,對有限算力的人類而言,數學定理的證明過程,就是從公理中提取 epiplexity 的過程—— 公理中蘊含的結構,對有限算力的觀察者是不可見的,只有通過嚴格的演繹推理,才能將這些結構具象化,創造出可學習、可復用的 epiplexity;
數學理論的價值,取決于它能提供的 epiplexity 總量:一個好的數學定理,能將大量分散的結論統一為簡潔的規則,大幅提升人類從數據中提取結構的效率,本質是創造了極高的 epiplexity;
數學難題的認知復雜度,可界定為「人類當前算力下,僅能部分提取、難以完全解鎖的頂級高認知復雜度」,其核心難度并非香農信息量大(僅用簡潔語言即可表述猜想本身),而是提取其底層結構性信息所需的算力,遠超當前人類個體與群體的算力邊界,這也正是其歷經數百年仍未被完全破解的核心原因。
5. 經濟學與社會學:信息不對稱的 epiplexity 本質
信息不對稱的本質,不是香農信息的差異,而是 epiplexity 提取能力的差異:專業投資者與普通人面對同一份財報,看到的是完全不同的信息 —— 普通人只能看到數字,專業投資者能解碼數字背后的企業經營結構、行業趨勢,這就是 epiplexity 提取能力的差距;
市場的有效性,取決于市場參與者的 epiplexity 分布:當市場中大多數參與者都能從數據中提取足夠的 epiplexity 時,市場就接近有效;反之,市場就會出現定價偏差與套利機會;
教育的核心價值,是提升個體的 epiplexity 提取能力:教育不是給個體灌輸更多的信息,而是教會個體如何從世界的海量數據中,提取可復用、可泛化的結構性信息,提升單位算力能提取的 epiplexity 總量。
3.哲學范式層 ——Epiplexity 的信息哲學體系
epiplexity 不僅是一個科學理論,更是一套全新的信息哲學,徹底重構了我們對「信息、觀察者、智能、世界」的哲學認知,核心分為三大層面:
1. 本體論:信息的主觀性與客觀性的統一
信息的客觀性基礎:數據的底層生成規則是客觀的,數據中蘊含的結構性信息的上限,是由生成規則決定的,這是香農的世界觀;
信息的主觀性本質:數據中能被提取的有效信息(epiplexity),完全取決于觀察者的算力約束與結構提取能力,同一數據對不同的觀察者,有完全不同的 epiplexity,這是信息的主觀維度;
最經典的例證就是密文:密文的生成規則是客觀的,對有密鑰的解密者,它有極高的 epiplexity;對無密鑰的普通人,它的 epiplexity 為零,全是隨機噪聲。信息不是絕對的,而是觀察者與世界互動的產物。
2. 認識論:智能的本質是 epiplexity 的提取與創造
智能的本質,是在有限算力的約束下,從混沌數據中提取、創造、復用結構性信息(epiplexity)的能力。
人類的認知過程,是 epiplexity 的提取過程:我們從感官的海量混沌數據中,提煉出規律、因果、邏輯,形成對世界的認知,本質是提取 epiplexity;
人類的創造過程,是 epiplexity 的生成過程:科學發現、藝術創作、技術發明,本質是通過計算與思考,創造出新的、可被他人提取的 epiplexity。
智能的高低,本質是 epiplexity 的提取效率:用越少的算力、越少的數據,提取越多的可泛化 epiplexity,就是更高的智能。
3. 價值論:信息的價值由 epiplexity 決定
epiplexity 徹底重構了信息的價值評判標準:一段信息的價值,不取決于它的香農熵大小,不取決于它的存儲體積,而取決于它能為觀察者提供的 epiplexity 總量。
一段高質量的科學論文,可能只有幾千字,香農熵極低,但它能為研究者提供極高的 epiplexity,幫助他們解決全新的問題,因此有極高的價值;
一段幾小時的監控視頻,存儲體積極大,香農熵極高,但其中幾乎沒有可泛化的結構性信息,epiplexity 幾乎為零,因此幾乎沒有價值;
這一價值標準,也為我們當下的信息時代提供了核心的行動指南:在信息爆炸的時代,我們需要的不是更多的信息,而是更多高 epiplexity 的信息;不是更高效的信息接收,而是更強的 epiplexity 提取能力。
四、總結:Epiplexity 帶來的改變 信息論:從「通信的信息論」到「智能的信息論」
經典信息論的核心使命是客觀信息的「無損傳輸」,而 epiplexity 將信息論的核心使命升級為主觀「有效學習」,讓信息論從通信時代的基礎理論,升級為人工智能時代的基礎理論,解決了經典信息論與 AI 實踐長期脫節的核心矛盾。
機器學習:從「模型中心主義」到「數據中心主義」
過去幾十年,機器學習的核心焦點是「模型選擇」—— 卷架構、卷優化器、卷參數量;而 epiplexity 告訴我們,決定模型泛化上限的,是訓練數據的 epiplexity。它為「數據中心 AI」提供了完整的理論基礎,讓數據治理、數據篩選、數據生成從「經驗工程」升級為「嚴謹科學」。
復雜系統科學:從「定性描述」到「定量計算」
復雜系統科學長期面臨「涌現無法量化」的困境,而 epiplexity 為涌現、自組織、混沌等核心現象提供了可計算的量化標準,讓復雜系統的研究從定性的描述性科學,升級為定量的預測性科學。
認知科學:從「行為觀測」到「能力量化」
傳統認知科學主要通過行為實驗觀測人類的認知能力,而 epiplexity 提供了一種量化認知能力的核心標尺,讓認知發展、學習效果、認知障礙都能被精準量化,為認知科學的工程化應用提供了理論基礎。
未來:更精細的算力約束模型與更廣泛的理論邊界
現有的 epiplexity 理論以「多項式時間 / 非多項式時間」為核心算力分界,未來將拓展到更精細的算力約束模型(如二次時間、電路深度、內存約束等),適配更廣泛的 AI 場景與認知場景;同時將 epiplexity 與量子計算、量子信息論結合,探索量子算力下的認知復雜度理論。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.