通過實際信息增益量化不完美認知
Quantifying Imperfect Cognition Via Achieved Information Gain
https://onlinelibrary.wiley.com/doi/pdf/10.1002/andp.202500057
![]()
認知,即以推理、通信和記憶形式進行的信息處理,是任何智能的核心活動。其在大腦、計算機或任何其他智能系統中的物理實現需要資源,如時間、能量、記憶、帶寬、金錢及其他資源。由于資源有限,許多現實世界中的智能系統僅執行不完美的認知。為了理解現有系統(例如在生物學中)中準確性與資源投入之間的權衡,以及為了信息處理系統(如計算機算法和人工神經網絡)的資源感知優化設計,對不完美的認知操作中獲得的信息進行量化是可取的。為此,提出了信念更新的實際信息增益(AIG)概念,其由從初始知識狀態更新到理想狀態所獲得的信息量,減去從不完美狀態到理想狀態的變化將產生的信息量給出。AIG 具有許多用于量化不完美認知的理想性質。實際獲得信息與理想可獲得信息的比率衡量認知保真度,而 AIG 與必要認知努力的比率衡量認知效率。這項工作提供了 AIG 的公理化推導,將其與其他信息度量相關聯,闡述了其在后驗不準確性的常見場景中的應用,并討論了認知效率對計算推理中可持續資源分配的影響。
- 引言 1.1. 信息度量
物理世界中的任何信息處理實體——簡稱認知系統——都必須在有限資源下運行。這對技術系統以及生物系統都成立,因此它們都需要在準確性和成本之間做出權衡。為了評估前者,需要任何信息處理操作所獲得、丟失或傳輸的信息量的度量。我們這里考慮的基本認知操作包括信息傳輸、記憶和推理。
常用的信息量度量是熵,特別是相對熵。相對熵,又名 Kullback-Leibler 散度 [1],根源于統計力學 [2] 和信息論 [3],并且可以通過多種方式推導 [4–13]。它表征了從知識較少信息的初始狀態改變為知識較多信息的狀態所獲得的信息量,或在反向改變中丟失的信息量。因此,它是理解、表征和設計信息處理系統的核心,因此可以在大量語境中找到。僅舉幾例:分配概率分布的最大熵原理 [14–18],通過期望傳播 [19] 和變分推斷 [20–22] 的近似貝葉斯推理,信息幾何 [23,24],推斷中的平均場近似 [25–29],神經網絡訓練 [30],特別是變分自編碼器 [31–34],最優編碼 [35],有損數據壓縮 [36,37],模型融合 [38],基于互信息的因果推斷 [39,40],信息場論 [41],主動學習和主動推斷 [42–45],生態學 [46],以及計算心理學 [47,48]。盡管這份列表多種多樣,但它遠未完成。
相對熵作為認知更新中獲得的信息量的度量的問題在于,它對更新是走向正確方向還是錯誤方向不敏感。對錯誤的事情變得非常確定會帶來顯著的正相對熵,盡管它本應更與負信息相關聯,因為撤銷錯誤的更新將需要正量的信息才能恢復初始狀態,而那沒有信息增益。因此,更新后與初始知識狀態之間的相對熵僅表征了表觀信息增益,而不是真實的信息增益。真實的信息增益還應考慮有多少更新走向了正確的方向,以便能夠區分純粹表觀的信息與實際信息。因此,它取決于三個信息狀態:初始狀態、最終狀態和理想狀態,見圖 1。我們在本工作中主張,使用理想更新的相對熵減去剩余更新到理想信息狀態的相對熵,作為實際信息增益(AIG)的度量,是量化不完美認知操作中獲得的信息的一種非常好的方法。如果沒有更新,AIG 為零;如果更新是理想的,則最大;當更新走向錯誤方向時,它變為負值。其單位是奈特(nits)或比特(bits),它有一個簡單的直觀解釋:它提供了由于實際更新導致的驚喜減少的估計,是從理想知識狀態的角度計算的。
![]()
AIG 衡量近似認知操作獲得的信息量。因此,它允許將此類操作的認知保真度(CF)表征為實際信息增益與理想信息增益的比率,將其認知效率(CE)表征為 AIG 與投入資源(如時間、金錢、能量和環境足跡)的比率。
這里提出的 CE 定義似乎也與心理學和認知研究中使用的定義很好地一致:“認知效率(CE)通常定義為相對于知識獲取中投入的時間和努力所獲得的知識的質量增加”[49]。知識質量的提高表明,只有正確方向的知識才應計入 CE,這正是我們在 AIG 和 CE 定義中所做的。
AIG、CE 和 CF 應該具有重要的技術應用。它們可以指導決策,即在許多在保真度和計算成本方面不同的數據處理方法中選擇哪種方法。由于數據分析的計算成本可能很大 [50],較便宜的方法乍一看可能顯得有利。然而,這些方法可能需要更大的數據集,才能提供與更昂貴但更高保真度方法可比的結果。由于后者意味著更少的測量成本,盡管它們的計算成本更大,但從全局角度來看,它們實際上可能更便宜。為了判斷,需要為每種考慮的方法量化作為數據集大小函數的信息增益。AIG 的概念使這成為可能,而由此衍生的 CF 和 CE 概念可以為可持續計算決策提供有價值的定量指導。
1.2. 工作結構
本工作的結構如下:第 2 節陳述數學預備知識,在通信、推斷和記憶的認知操作上發展 AIG,并在數學上定義 CF。第 4 節提供 AIG 的公理化推導,并表明在初始和更新后的知識狀態均可分離的情況下,它成為一個可分離的量。第 3 節討論 AIG 與其他信息度量的關系。第 5 節通過許多說明性案例說明了 AIG 的使用,如具有不準確參數的伯努利、二項、泊松和高斯分布的更新,平均場近似中參數間交叉相關的忽略,數據的不完全使用,并展示了如何為非高斯概率分布估計 AIG。第 6 節介紹基于 AIG 的 CE 的數學定義,并展示 CE 如何指導可持續數據分析。最后,第 7 節以簡要總結和展望結束本工作。
- 信息增益
2.1. 數學預備知識
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
2.2. 信息傳輸
![]()
![]()
![]()
是一個類似相對熵的表達式,它涉及通信中所有三個相關的信念狀態,即消息發送者 Alice 的狀態,以及消息接收者 Bob 在消息傳輸前后的狀態,分別為 。
![]()
![]()
2.3. 記憶
![]()
![]()
這種負增益的量正是記憶行為中丟失的信息量。一些旨在以壓縮形式記憶信息的貝葉斯方案,其目標正是盡可能最小化這種損失。[37,53]
2.4. 推理
![]()
2.5. 認知保真度
為了表征 AIG,我們可以將通信、記憶和推理置于同等地位,并將它們都視為配置略有不同的信息處理操作。我們將它們統稱為認知。
此外,我們可以將認知保真度定義為認知更新操作中 AIG 與理想信息增益的比率,
![]()
- 與其他度量的關系
AIG 與許多現有的信息度量相關,例如 Kullback-Leibler 散度、互信息、Rényi 散度,以及其他用于表征概率及其差異的評分規則。這些度量捕捉了概率分布的不同方面,因此可能適用于不同的目的,而這些目的可用于推導它們。[13] 在我們于第 4 節對 AIG 進行公理化推導之前,我們先討論它與若干其他信息度量的關系。
3.1. Kullback-Leibler 散度
最著名的信息度量是 Kullback-Leibler (KL) 散度 [ 1 ] ,又名相對熵
![]()
![]()
![]()
![]()
3.2.交互信息
![]()
![]()
3.3. Rényi 散度
Rényi 散度或 alpha-散度 [ 56 ] 可以定義為
![]()
![]()
3.5. 信息幾何
![]()
![]()
![]()
![]()
![]()
- 公理化推導
4.1. 公理
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
- 說明性示例
![]()
![]()
![]()
![]()
這是一個現實世界的應用示例,例如天氣預報員 Alice 需要決定向受眾更新改進后的天氣預報有多重要。她所在電視臺的政策是將任何傳達的概率四舍五入到 10%。她需要決定是否發布的公告是第二天的降雨概率為 60%。這則新聞值得發布嗎?
![]()
![]()
![]()
5.2. 二項分布
二項分布在重復伯努利醫學實驗的分析中起著核心作用,在這些實驗中,一定數量的患者接受某種治療或安慰劑,并在不同條件下統計各種效果(如治愈疾病或副作用)的發生情況。[60]
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
5.5. 多元高斯概率
一個特殊但非常相關的情況是,當所有涉及的概率均為多元高斯分布時,
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
5.8. 不完整的數據使用
不完美高斯更新的一個特例是那些僅使用了部分可用數據的情況。設
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
- 可持續數據分析 6.1. 認知效率
隨著科學實驗、觀測站以及其數據分析所需的計算工作成本的增加,出現了這樣一個問題:如何優化科學的認知效率,即每投入金錢和其他資源所獲得的科學信息量。[50] 我們將認知效率定義為
![]()
![]()
為了使這一論點成立,需要仔細討論認知效率的分子和分母。實際獲得的信息增益可能并非更新的唯一收益,例如,它可能具有教育、文化、技術或政治維度。然而,在此我們要關注的是 AIG 的量。在估算成本時,是僅考慮更新的計算成本,還是將獲取更新所用數據的成本也納入成本預算,往往會產生顯著差異。如果數據無論如何都是可用的,從而數據獲取成本微乎其微,那么前者是一種適當的近似。如果獲取數據需要專門的投資,則必須使用后者。從社會的角度來看,任何可持續性計算都應包含數據生成成本。
因此,從不同角度來看,認知效率存在顯著差異。對于一位分析免費可用數據集的科學家來說,一種成本較低但認知保真度較低的方法可能更具吸引力,因為它可能會最大化其認知效率。然而,從社會的角度來看,應考慮生產數據的成本,這使得更準確但通常計算成本更高的方法從全局認知效率的角度來看是有益的,當然前提是更高的準確性是有益的。
在科學實踐中,這種利益差距通常可以通過科學出版機制來彌合。這些機制通常要求,為了被同行評審期刊接受,對數據的重新分析與早期的分析相比,必須具有更高的認知保真度。
6.2. 可持續成本
為了從可持續性角度決定兩種認知方法(例如“B”和“C”)中的哪一種應用于分析來自測量設備的數據,我們必須比較它們的收益和成本。由于實際信息增益(AIG)的收益未必隨其大小線性增長,比較兩種方法的最佳方式并非對兩者使用相同的數據集,而是要求為每種方法提供大小適當的數據集,使得它們各自產生相同的(預期)實際信息增益。通過這種方式,它們的收益將是相同的,但它們的數據獲取和處理成本將有所不同,而這些成本通常更容易量化。
![]()
![]()
因此,計算上更精確因而更昂貴的數據分析方法,可能比那些精度較低因而較便宜的方法更具可持續性,特別是在數據獲取成本很高時。我們在第 5.8 節中的觀察加強了這一論點,即實際信息增益(AIG)往往僅隨數據集大小的對數增長。這意味著,認知保真度較低的方法 C 可能需要顯著更大的數據集才能達到相同的 AIG。獲取這個更大的數據集會消耗更多比例的昂貴設施時間 ,從而惡化了這種計算成本低廉的方法的可持續性。
6.3. 說明性場景
![]()
![]()
這甚至可能涵蓋方法 B 開發的人員成本,特別是如果它可以用于多次此類測量的情況。
7. 結論
7.1. 總結
量化不完美認知操作的需求——無論是生物的還是計算的,無論是通信、推理還是記憶——促使我們引入并公理化推導了實際信息增益(AIG)的概念,將其定義為最優可能增益減去不完美認知后的剩余增益。我們表明 AIG 具有表征不完美認知操作所需的許多性質,并使我們能夠定義認知保真度和認知效率。此外,我們討論了它與其他幾種信息度量的關系,并展示了如何通過區分更新所達到的知識狀態與理想達到的知識狀態,將這些度量也轉化為實際增益。
我們解析地考察了具有高斯和各種非高斯概率的說明性場景,并展示了在分布難解的情況下如何通過采樣數值計算 AIG。我們表明,在更新均值存在未計入誤差的情況下,鼓勵采取擴大不確定性的做法,因為它可以將原本為負的 AIG 轉為正值。對于某量的重復測量,數值實驗表明,平均而言 AIG 隨所獲數據集大小的對數增長,但會被具有顯著降低 AIG 的不幸數據序列片段所中斷。表觀信息增益對此類不幸的數據實現不敏感,因此可能具有誤導性。
![]()
![]()
最后,我們說明了 AIG 如何被用來幫助決定大型研究設施昂貴數據的準確性與計算復雜度之間的權衡。在決定哪種計算方法更可持續時,AIG 的概念使我們能夠確定,對于具有較低認知保真度的方法,設施需要被額外使用多長時間才能生成同樣具有信息量的數據,從而設定了高保真度方法值得付出的尺度,盡管其潛在計算成本可能更高。
7.2. 展望
我們希望實際信息增益(AIG)的概念能在量化和理解技術、生物、心理及社會信息處理方面得到廣泛應用。它應有助于設計認知高效的數據處理系統,例如用于處理由日益增多的科學、工業和私人傳感器、探測器及望遠鏡所產生的、不斷增長的數據流所帶來的高能耗處理問題。[50] 它可以幫助理解塑造現有生物、心理或社會信息處理系統演化的權衡關系。而且,作為一種依賴于三個位置(初始位置、達到的位置和理想位置)的信息“距離”度量,AIG 為近似認知操作的幾何特性提供了洞見,這在理解人工智能系統的操作等方面可能變得相關。
原文鏈接:https://onlinelibrary.wiley.com/doi/pdf/10.1002/andp.202500057
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.