典型性原則及其對統計學和數據科學的啟示
The typicality principle and its implications for statistics and data science
https://www.researchgate.net/publication/400209222_The_Typicality_Principle_and_Its_Implications_for_Statistics_and_Data_Science
![]()
摘要
數據科學的一個核心焦點是將經驗證據轉化為知識。這里所說的“知識”,指的是那些 (i) 通過明確的推斷過程得到數據支持,且 (ii) 伴隨有校準過的不確定性度量的主張。因此,像羅納德·A·費希爾、卡爾·R·波普爾和約翰·W·圖基等深刻思想家的科學見解和態度,有望在未來幾年激發機器學習和人工智能領域激動人心的新進展。沿著這些思路,本文提出了一種新穎的典型性原則,該原則大致表述為:如果觀測數據相對于某個提出的理論在某種意義上足夠“非典型”,那么該理論就是沒有根據的。這種對典型性的強調,將模型檢驗等熟悉但常被忽視的背景概念推到了推斷的前景。典型性原則的一個實例是在參數估計的背景下,我們提出了一種新的基于典型性的正則化策略,該策略在很大程度上依賴于擬合優度檢驗。這種新正則化策略的有效性在三個普通最大似然估計失敗的、非平凡的例子中得到了說明。我們還展示了典型性原則如何適應于可靠且高效的不確定性量化這一更廣闊的圖景。
關鍵詞 證偽;擬合優度;推斷模型;似然;模型檢驗;正則化;不確定性量化
1 引言
隨著數據科學的持續發展,它必將激發——同時也受啟發于——羅納德·A·費希爾、卡爾·R·波普爾和約翰·W·圖基所倡導的基礎性研究工作。
現代數據集固有的復雜性意味著存在許多不確定性和模糊性的來源,因此使得分析以及隨后的歸納論證變得高度非平凡。正因如此,來自認識論的見解是息息相關的,而占主導地位的思想流派是波普爾在其《科學發現的邏輯》(Popper, 1959a)中闡述的證偽主義。他的關鍵見解是,在一系列對相關理論進行嚴苛檢驗的實驗中,那些經受住這種檢驗的理論便“證明了它們的實力”(Popper, 1959b, p. 10),這是任何理論被稱為“未被證偽”的必要但不充分條件。只有在一種極限意義上,隨著檢驗次數/嚴苛程度的增加,一個理論才能贏得“未被證偽”的地位。
現代經驗科學中的一個挑戰——這在哲學文本中常討論的“所有天鵝都是白的”這類例子中并不存在——是經驗數據在邏輯上無法反駁任何合理的理論,因此在推斷時不可避免地存在不確定性。這就需要對所述不確定性進行可靠的量化,而這正是我們當前貢獻的焦點。
證偽主義觀點背后是這樣一種理解:實驗往往會產生典型的數據,即看起來符合現實世界中預期情況的數據。因此,如果觀測到的數據相對于某個提出的理論而言是非典型的——或者說看起來與預期情況足夠不同——那么就可以合理地認為該理論被證偽了。這就是我們提出的典型性原則的基本形式。但是,數據“看起來像”預期情況究竟是什么意思?(嚴格來說,在某種意義上,所有數據都是“非典型的”。例如,在涉及絕對連續分布的模型中,所有可能實現的數據在該模型下的概率都為零。幸運的是,可靠的推斷并不需要嚴格意義上的非典型性——稍加創意,就可以發展出有意義的非典型性概念。)通常的做法是將模型的似然函數解釋為其對觀測數據擬合優度的度量,反過來,通常也通過似然值的大小來判斷數據是否“看起來像”預期情況。似然法則(例如,Edwards, 1992; Hacking, 1976)對此進行了形式化。然而,在某些情況下,似然函數值很大可能是由于某種退化所致,而不是因為數據看起來像相應理論下的預期。這凸顯了以似然為中心的歸納推理方法的缺陷,以及對新視角的需求。常見的正則化策略僅依賴于提出的理論——例如,懲罰與假定的“稀疏性”不相容的理論——而不依賴于數據本身,因此無法自行修復上述缺陷。作為替代,我們的典型性概念關注的是非參數擬合優度意義上的擬合,而不是基于參數模型、大似然意義上的擬合。本文提出的典型性原則受到了圖基關于模型構建/檢驗的見解(Tukey, 1977, 1962)的啟發。雖然哲學原則往往是“自上而下”的,即由更高權威傳達的指令,但圖基的哲學風格是“自下而上”的(例如,Dempster, 2002; Tukey, 1986),因此本質上具有波普爾主義的色彩。例如,在模型構建中,確實沒有哪個候選模型是神授的,所以一個模型的優點必須通過提供對觀測結果的合理解釋來贏得。我們提出的典型性原則正是建立在這些關鍵思想之上。
我們在此的主要方法創新是一種新的、以典型性為中心的正則化策略。更具體地說,我們建議采用熟悉的懲罰似然框架,但有一個轉變:我們不再懲罰與先驗知識不相容的理論,而是懲罰那些數據可能被判定為非典型的理論,從而確保我們推導出的程序獎勵那些與數據擬合良好的理論,這有助于解釋并提高效率。從這個意義上說,以典型性為中心的正則化不是一種結構約束或先驗規范,而是一種有原則的機制,用于將模型檢驗和基于似然的擬合整合到一個單一、經過校準的推斷框架內。我們通過將提出的以典型性為中心的正則化應用于幾個具有挑戰性的問題來評估其性能,這些問題在歷史上一直是統計學基礎中的爭議點。我們的結果證明了它在點估計和更廣泛的不確定性量化方面的效率,突顯了它在解決統計科學中一些最深層次的未解決問題方面的潛力。
除了實際應用之外,我們還深入探討了典型性原則的理論基礎,揭示了它與其他常見統計原理的聯系——或缺乏聯系。這些聯系強調了典型性的更廣泛重要性,不僅作為一種方法論工具,而且作為連接統計推理各個方面的概念橋梁。通過將典型性原則置于這個豐富的理論和應用背景下,本文為未來探索其在數據科學及其他領域的影響奠定了基礎。這種觀點與可信機器學習的目的一致,后者不僅尋求準確的預測,還尋求可靠的不確定性陳述和診斷,以便在擬合模型的行為與假設不符時進行檢測。最近的研究強調,可靠的不確定性量化是可信人工智能的核心組成部分,特別是用于檢測模型局限性和支持穩健的決策制定(Deuschel et al., 2024; Liu et al., 2024)。特別是,基于典型性的評估可被視為一種統計機制,用于 (i) 對模型充分性進行壓力測試,以及 (ii) 當診斷證據表明擬合不足時,調節由似然驅動的擬合,從而提高下游決策的可信度。
本文的其余部分安排如下。第2節設定了我們討論的背景,并介紹了一些關鍵概念和符號。第3節介紹了典型性原則的第一個基本版本,我們在此的討論側重于統計直覺和哲學思考。在參數估計的背景下,典型性原則的一個具體實例產生了我們新的基于典型性的正則化策略,該策略也在那里進行了詳細說明。我們提出的基于典型性的正則化策略的性能在第4節中通過三個非平凡且充滿悖論的例子進行了研究:勒卡姆混合模型、內曼-斯科特問題和斯坦因均值向量長度問題。這三個例子中面臨的挑戰在現代數據科學應用中也普遍存在,因為這些應用中存在過擬合的風險,因此我們在此的貢獻超越了這里考慮的簡單參數模型。第5節進行更深入的探討,提出了一個形式化的典型性原則,并展示了它如何融入一個能夠提供可證明可靠的不確定性量化(超越點估計、假設檢驗等)的通用框架。文中還討論了與其他統計原理的聯系,并通過一個數值示例展示了所提出框架在一個具有挑戰性的邊緣推斷問題中的有效性和效率。我們在第6節以幾點評論作為結論。
2 問題設定
![]()
![]()
3 典型性原則
我們采納波普爾的證偽主義觀點,即關于不確定的 Θ Θ的假設 H H不能基于數據 x x被確證,它只能根據假設 H H的真實性與數據 x x是否足夠矛盾,來決定是被反駁或未被反駁。重要的是,證偽主義實際上是我們唯一的選擇:以科學和數學上嚴謹的方式采用對立的卡爾納普-杰弗里斯-杰恩斯式的確證主義觀點(例如,Carnap, 1962; Jeffreys, 1998; Jaynes, 2003),需要一個真實的先驗概率分布并應用貝葉斯定理,而正如第2節所討論的,這是無法實現的。如第1節所述,我們的證偽主義視角建議指定一種策略,用于評估數據 x x相對于關于 Θ Θ的某個陳述假設 H H是否是“典型的”——如果是,那么是在何種意義上以及何種程度上是典型的。基于這樣的評估,至少在概念上,推斷就變得直接了當。
我們從一個非正式且直觀的關鍵原則陳述開始,該陳述側重于簡單的、單點假設。更正式的形式將在第5節中給出。
![]()
![]()
![]()
我們提出的典型性原則的實現方式是通過正則化。這將圍繞似然函數展開,因為它在正則情形下是高效的,但我們提出的正則化在幾個重要方面與數據科學文獻中常見的正則化不同。具體來說,考慮目標函數
![]()
![]()
![]()
![]()
4 示例:非正則估計 4.1 勒卡姆混合模型
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4.2 內曼-斯科特問題
![]()
![]()
![]()
![]()
![]()
4.3 斯坦因均值向量長度
![]()
![]()
![]()
![]()
![]()
![]()
5 可靠的不確定性量化 5.1 典型性原則再探
![]()
也就是說,頻率主義者并不試圖量化給定 x x 下假設 H H 真實性的不確定性——他們滿足于一個控制錯誤概率的決策規則。而那些試圖找到貝葉斯-頻率主義“圣杯”的努力則走得更遠,即尋求一個框架,該框架能提供依賴于數據的、對假設 H H 真實性的支持度量或信度度量,同時保持與梅奧的頻率主義證據原則一致。這包括默認先驗貝葉斯推斷(例如,Jeffreys, 1946; Datta and Ghosh, 1995; Berger et al., 2024)、費希爾的信仰推斷(例如,Fisher, 1933, 1935a; Zabell, 1992)及其推廣形式(例如,Fraser, 1968; Hannig et al., 2016; Xie and Singh, 2013)、登普斯特-謝弗理論(例如,Dempster, 1966, 2008; Shafer, 1976, 1982)以及推斷模型(例如,Martin and Liu, 2013, 2015; Martin, 2025b)。這些方法的一個共同點是,至少從表面上看,它們未能認識到典型性是唯一的基本工作概念,這導致了混淆并阻礙了進展。通過將典型性置于核心和中心位置,我們可以澄清這種混淆。特別是,我們展示了哪些類型的性質與典型性度量是一致的,并進而說明了要實現可靠且有原則的不確定性量化這個“圣杯”需要什么條件。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
實施所提出的框架需要能夠評估 (5.4) 中定義的輪廓。我們沒有足夠的篇幅來討論計算問題,但我們將感興趣的讀者指引到 Jiang et al. (2023) 和 Martin (2025a) 了解細節;另見 Martin (2025b)。
5.3 與其他統計原理的關系
為了將前面的討論置于背景中,回顧一下似然原理(例如,Birnbaum, 1962; Basu, 1975; Berger and Wolpert, 1984)是有幫助的,該原理指出,數據中用于推斷 Θ Θ的所有相關信息都由似然函數的形狀所捕捉。這似乎是直觀且無害的,因為常用的最大似然估計量和似然比統計量只依賴于似然函數的形狀。然而,仔細觀察,我們通常用這些匯總統計量所做的事情,例如 p p-值計算,依賴于所設定模型下的抽樣分布,并且由于抽樣分布不是由觀測到的似然決定的,基于這些的推斷違反了似然原理。這種違反本身并不值得關注,但鑒于伯恩鮑姆定理指出似然原理等價于更常識性的充分性和條件性原理的結合,這就變得潛在有問題了;因此,違反似然原理意味著至少違反了一個常識性原則,從而引發了爭議。對伯恩鮑姆定理適用范圍(最初見于 Durbin (1970),最近見于 Evans (2013) 和 Mayo (2014))的質疑,更是火上澆油。
![]()
![]()
![]()
![]()
![]()
5.4 再論斯坦因均值向量長度
![]()
![]()
![]()
6 結論
受費希爾、波普爾和圖基科學視角的啟發,我們在此提出了一條新的典型性原則,該原則對數據科學具有諸多方法論和基礎性意義。首先,在方法論方面,典型性原則直接暗示了一種在參數估計背景下新穎的正則化策略。事實上,我們的基于典型性的焦點并非將估計量向假定的結構(例如“稀疏性”)收縮,而是鼓勵擬合優度,確保觀測數據在擬合模型下看起來是“典型的”。本文呈現了三個非平凡的例子,在這些例子中,最大似然方法徹底失效,而我們提出的以典型性為中心的正則化策略則表現得相當令人滿意。其次,在基礎理論方面,典型性原則的一個更正式版本可以很容易地被通用推斷模型框架所容納,該框架用于提供超越點估計、假設檢驗等的可證明可靠的不確定性量化。這種更廣泛形式的不確定性量化可以輕松容納馮·諾依曼和摩根斯坦風格的決策制定以及其他形式的正式推斷,類似于貝葉斯方法,但無需先驗分布,也不犧牲錯誤率控制保證。更廣泛地說,我們相信,所提出的典型性原則的各種實現將對數據科學有益,因為自動化應用有望在人工智能的進步中發揮關鍵作用。盡管本文的重點是基于模型的推斷,但典型性的概念與擬合優度的考量緊密相連,因此我們完全期望典型性原則及其衍生出的方法論能夠對建模和推斷都產生影響。
典型性原則及其衍生的各種方法論進展有待進一步研究。首先,現代應用涉及復雜模型,如果沒有這種或那種正則化策略的指導,很容易出現過擬合;正是這種過擬合的傾向導致了第4節例子中最大似然估計的糟糕表現。因此,本文的一個自然后續工作是研究我們所提出的基于典型性的正則化策略在一類現代數據科學相關問題中的表現,這些問題涉及深度神經網絡和變換器(Vaswani et al., 2017)等復雜且過參數化的模型。將我們的提議與其他先進技術(如知識蒸餾,例如 Hinton et al., 2015; Jiang and Liu, 2025)進行比較也將很有意義。其次,還有一個重要的實踐問題,即如何設置 (3.1) 中的調節參數 λ。雖然現在有許多標準的調節參數選擇策略可用,但一個相關的問題是,我們基于典型性的懲罰中固有的數據依賴性是否值得引入新的調節參數選擇考量。畢竟,與通常鼓勵稀疏性的懲罰相比,p-值具有有意義的尺度,因此可能需要新的考量來平衡后一種懲罰與似然的貢獻。第三,所提出的基于典型性的正則化最大似然估計量,以及第5節中發展的更廣泛的不確定性量化的有限樣本和大樣本效率性質,完全有待研究。
![]()
所提出的框架依賴于選擇擬合優度統計量來確保校準,而這種選擇會影響統計效率和功效。在正則的、正確設定的模型中,這種影響通常是輕微的,因為如前一段所述,廣泛類別的擬合優度統計量在真實參數鄰域內產生的 p p-值都遠離零,使得典型性懲罰不活躍。相比之下,在模型誤設或非正則設定下,不同的擬合優度選擇會強調擬合不足的不同方面,導致在對特定備擇假設的敏感性和統計效率之間進行權衡。從可信推斷的角度來看,這種行為是刻意的:該框架并非旨在優化針對特定備擇假設的功效,而是允許實踐者選擇與科學或決策背景最相關的模型充分性方面相匹配的診斷。探索用于平衡校準和效率的擬合優度統計量的最優或自適應選擇,是未來工作的重要方向。
與我們提出的統計原理相一致,并受其他哲學思考的啟發,最近在增強人工智能的創造力和可信度方面取得了進展(例如,Eschker and Liu, 2024)。一個主要挑戰在于理解這些及其他哲學進展如何幫助改進當今的前沿方法,并激發推動現代邊界的新發展。同樣重要的是,這些哲學貢獻應當具有圖基那種親自動手、面向應用的“自下而上”的風格,而非象牙塔內規定的那種束縛手腳、“自上而下”的教條式協議。
原文鏈接:https://www.researchgate.net/publication/400209222_The_Typicality_Principle_and_Its_Implications_for_Statistics_and_Data_Science
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.