Generative Quantile Bayesian Prediction
生成式分位數貝葉斯預測
https://arxiv.org/pdf/2510.21784
![]()
摘要
預測是機器學習的核心任務。我們的目標是利用生成式貝葉斯預測(GBP)解決大規模預測問題。通過直接學習預測分位數而非概率密度,我們在理論和實踐上獲得了諸多優勢。我們將該方法與包括共形預測、基準預測以及邊際似然在內的前沿方法進行了對比。我們方法的突出特點是利用生成式方法來構建預測分位數圖。我們通過正態-正態學習和因果推斷的案例來展示該方法。最后,我們對未來的研究方向進行了總結。
關鍵詞:生成式方法,貝葉斯預測,深度學習,共形預測,分位數神經網絡,不確定性量化
1 引言
預測是現代機器學習的核心任務。我們的目標是提供一個大規模預測框架。Efron [2020] 闡述了這對現代統計方法如何構成挑戰,以及深度學習、神經網絡和隨機森林等純粹的“黑箱”方法 [Breiman, 2001] 如何可能超越傳統的統計回歸方法。Hill [1968] 提出了一種無需指定先驗分布的貝葉斯推斷方法,隨后 Lei 和 Wasserman [2014] 將其推廣至回歸情形。我們專注于直接對預測分位數函數進行建模的生成式貝葉斯方法,因而無需涉及似然函數和先驗分布。正如 Ritov [2025] 近期所指出的,這一特性在高維問題中尤為重要。我們的方法建立在 Parzen (2004, 2009) 發展的分位數推斷框架之上,我們將對此進行詳細闡述。
我們的方法為機器學習中廣泛使用的共形預測方法提供了一種替代方案。條件生成建模的基本洞見在于,它可以借助非參數分位數回歸 [White, 1992] 來實現。具體而言,我們希望找到一個分位數函數族,用以描述在給定 X 的條件下,輸出變量 Y 的預測分布,其表達式為:
![]()
我們的研究也建立在隱含分位數神經網絡文獻 Dabney 等人 [2018] 以及 Polson 和 Sokolov [2023] 的生成式貝葉斯建模框架之上。
我們旨在直接找到 Breiman [2001] 所提出的預測規則。我們將規避對參數的使用。存在三種方式來表述條件預測期望:
(1) 使用密度函數,
(2) 使用生存函數,以及
(3) 使用分位數。
![]()
在貝葉斯框架中,預測密度的計算需要通過積分來求取邊際密度。
![]()
在貝葉斯框架中,預測密度的計算需要通過積分來求取邊際密度。這可以通過馬爾可夫鏈蒙特卡洛(MCMC)方法實現。而在生成式人工智能(Polson 和 Sokolov [2023])中,我們直接將逆條件累積分布函數![]()
建模為一個神經網絡映射。
盡管我們的方法在某種意義上“免先驗”且“免似然”——因為我們沒有明確指定這些量——但必須認識到,該方法隱含著特定的假設。神經網絡架構、損失函數和正則化的選擇,共同定義了我們所能表示的一類條件分布。理解這一隱含類的性質,仍然是一個重要的理論研究方向。在我們所舉的正態-正態學習例子中,其與王(Wang)扭曲函數的聯系提供了有價值的理論見解。這表明,我們的分位數更新過程可以被解釋為運用一個扭曲函數,將先驗分布轉換為后驗分布。對神經網絡能夠學習的扭曲函數類進行刻畫,將為架構設計提供理論指導。
考慮一個純粹的預測問題。“純粹”這一形容詞的合理性在于,算法專注于預測而忽略估計與歸因(Efron [2020])。其基本策略很簡單:直接追求高預測精度,而無需擔憂“信號加噪聲”這類模型。這種做法具有一些顯著的優點,但也存在一些缺點。具體而言,假設我們擁有輸入-輸出數據對![]()
。不同的純粹預測算法彼此之間可能差異很大。其中結構最不復雜且最易于描述的是隨機森林(Breiman [2001])。近期的研究則集中于共形預測和預測驅動的推斷。
![]()
![]()
![]()
貝葉斯推斷的一個核心原則是一致性:要求所有的概率陳述和預測在內部保持一致,并從一個單一的聯合概率模型中推導出來。這種一致性是通過為參數指定一個先驗分布來實現的,然后根據觀測數據,通過貝葉斯定理對該分布進行更新。
我們的研究建立在Parzen [2004, 2009]的統計框架之上,他證明了貝葉斯規則對于分位數而言是函數的復合(疊加)。因此,我們可以利用分位數神經網絡(Polson等人 [2024], Polson和Sokolov [2023]),將預測問題替換為一個基于非參數分布匹配(Lu和Wong [2025])的問題。
分位數貝葉斯預測
此方法已廣泛應用于分布決策領域 [Dabney 等人 [2017], Polson 等人 [2024]] 和計量經濟學 [Chernozhukov 等人 [2010, 2021]]。雖然經典的分位數方法是為單變量開發的 [Koenker [2005]],但最近已有多種針對多變量情況提出的方法 [Carlier 等人 [2016], Kim 等人 [2025]]。這些方法需要使用神經網絡來訓練從估計中獲得的傳輸映射。
![]()
![]()
共形預測 這是一種統計技術,它提供了一個靈活的框架,用以構建具有指定置信水平的預測區間或集合,且不依賴于基礎數據分布。其工作原理是通過一個非合群度量,評估新數據點與一組先前觀測數據的符合程度,以此量化新觀測相對于現有數據的異常或典型程度。借助可交換性的概念,共形預測確保所構建的預測區間或集合具有有效的覆蓋概率,這意味著即使在有限樣本下,它們也能以預先設定的概率包含響應變量的真實值。這使得共形預測成為機器學習和統計推斷中不確定性量化的有力工具,因為它提供了與分布無關、模型無關的預測可靠性保證。Angelopoulos 等人 [2022] 和 Angelopoulos 等人 [2023] 描述了共形預測方法的使用。我們將證明,生成式分位數貝葉斯方法是進行預測推斷的一種自然方法。Polson 和 Sokolov [2023] 為推斷開發了這些方法,Polson 等人 [2024] 則將其用于強化學習。然而,盡管共形映射提供了不確定性量化,它們并不必然導致一致的推斷,并且可能隱含了一個具有不存在先驗的模型。
預測與基準推斷 從基準預測分布導出的預測區間,并不自動具備共形預測區間所特有的、強大的、有限樣本的、與分布無關的邊際覆蓋保證。基準預測區間的頻率覆蓋性質可能很復雜,并且可能依賴于所使用的特定模型和基準論證的性質 [Liu 和 Martin, 2024]。相比之下,共形預測通過構造,利用可交換數據上的非合群分數進行校準步驟,來實現其保證。
分位數回歸在給定某些預測變量的條件下,對響應變量的條件分位數(或百分位數)進行建模,而經典回歸則是對條件均值進行建模。這使得我們能夠更全面地理解變量之間的關系,特別是當響應變量的條件分布非正態,或關注分布的不同部分(例如,第10百分位數、中位數、第90百分位數)時。它對于具有異方差性的數據尤其有用,因為它可以建模分布的離散程度如何隨預測變量變化。廣義基準推斷 [Hannig 等人, 2016]。后驗預測檢驗 [Box, 1980] 和 [Sinharay 和 Stern, 2003]。
![]()
Hannig 等人 [2016] 將這一思想推廣到生成式方法,例如深度基準預測。盡管該方法無需指定似然函數和先驗分布,但其中無疑隱含了一個先驗。具體而言,Hannig 指出,該先驗是“經驗”杰弗里斯先驗。它涉及觀測信息與期望信息的比較,以及三明治估計量。這為這類默認貝葉斯程序提供了一個很好的解釋。
本質上, ∣ d u / d θ ∣ 即是該隱含先驗。經驗杰弗里斯先驗源于拉普拉斯近似。對于預測問題,其思想是相同的。
一種由Leonard [1976]提出的替代方法被稱為逆向預測貝葉斯,它反向應用了貝葉斯定理。對于未來數據 z z和當前數據 x x,反向應用貝葉斯定理可得:
![]()
![]()
1.1 估計方法
![]()
![]()
核方法得到了眾多泛化界的支持,這些泛化界通常表現為描述基于核的估計器性能極限的不等式。一個特別重要的例子是k-近鄰(k-NN)的貝葉斯風險,它可以在核框架下表達為:
![]()
Schmidt-Hieber 和 Zamolodtchikov [2024] 展示了如何將核方法用于生成式方法。
1.2 分位數神經網絡
分位數神經網絡擴展了傳統神經網絡,使其能夠估計條件分位數,而不僅僅是條件均值,這使得它們對于在特征空間中方差發生變化的異方差數據尤其有價值。該方法結合了神經網絡架構的靈活性與分位數回歸的統計特性 [Koenker, 2005]。
![]()
![]()
分位數損失函數是凸函數,并提供不對稱的懲罰,這促使網絡學習第 τ 分位的條件分位數。當 τ = 0.5 時,該函數簡化為平均絕對誤差,對應于中位數回歸。
我們使用條件分位數神經網絡(亦稱為隱式分位數神經網絡 IQN)[Dabney et al., 2018]。我們希望估計一個函數:
![]()
![]()
![]()
2 生成貝葉斯預測
![]()
![]()
![]()
![]()
![]()
![]()
預測貝葉斯充分性存在許多預測充分統計量,包括針對指數族和降維方法的統計量 [Ressel, 1985]。
![]()
![]()
神經網絡估計有多種方法可用于條件分位數函數的神經網絡估計。White [1992] 為非參數條件分位數估計提供了理論基礎,并在計量經濟學文獻中確立了一致性結果。在此基礎之上,Polson 和 Sokolov [2023] 遵循 Schmidt-Hieber 的理論框架,開發了使用 ReLU 網絡的方法 [Schmidt-Hieber, 2020]。這些方法也融入了基于核的技術,類似于近似貝葉斯計算(ABC)中使用的局部加窗技術。
Kim 等人 [2025] 提出了用于多元分位數回歸的深度學習方法,將經典的單變量方法擴展到處理復雜的多元依賴關系。他們的框架使用神經網絡直接學習條件分位數函數,避免了對顯式分布假設的需求。
Lu 和 Wong [2025] 的方法側重于非參數分布匹配,這與 ABC 方法有相似之處。其核心見解在于,通過以形如 I ( D ( ? , ? ) < ? )
的指示函數為條件(其中 D D表示預測密度之間的距離度量),可以將無限維問題降維。
一個關鍵的考慮因素是預測密度之間距離度量 D D的選擇。推土機距離(EMD)為比較分布提供了一個自然的度量標準。當處理來自分布的樣本時,問題轉變為如何有效地測量距離,從而引出了非參數密度估計問題。盡管 Bishop [1994] 在密度估計方面應對了這一挑戰,但直接處理分位數在計算和理論上具有優勢。
3 應用
Efron 示例一個具有未知期望 θ 的正態分布作為動機示例,
![]()
![]()
正態學習考慮正態分布混合的預測分位數函數。我們發現,相較于處理密度混合,直接處理分位數混合更具優勢。這種方法利用了Wang扭曲映射框架進行分位數更新。
對于兩成分正態分布混合,我們可以展示分位數是如何通過學習過程更新的。依據 Shen 等人 [2002] 的研究,預測分位數函數的形式如下:
![]()
該公式與 Wang [2000] 的扭曲深度學習框架自然銜接,該框架為貝葉斯預測問題中的分位數更新提供了一種神經網絡方法。
![]()
![]()
![]()
4 討論
我們提出了一種直接操作預測分位數而非概率密度的生成式貝葉斯預測框架,為大規模預測問題提供了一種新方法。我們方法的根本理論依據是Parzen的復合分位數恒等式,該等式表明條件分位數通過函數復合而非積分進行更新。這一數學性質直接轉化為計算優勢:神經網絡憑借其層級架構擅長學習復合函數,這使我們能夠在保持概率一致性的同時,規避傳統貝葉斯預測密度所需的昂貴計算積分。我們的方法為共形預測方法提供了一個引人注目的替代方案,同時兼具其免似然和免先驗的理想特性。然而,共形預測通過校準來實現與分布無關的覆蓋,同時將預測模型視為黑箱;與之不同,我們的生成式分位數方法直接對條件預測分布進行建模,并產生與一個隱含生成模型相一致的預測。這種一致性特性在需要概率推理的應用中可能具有重要價值。
與競爭框架相比,我們的方法具有顯著優勢。傳統的貝葉斯預測推斷需要在后驗分布上進行積分,這要求指定似然函數和設定先驗分布,在高維場景下面臨巨大挑戰。基準推斷雖然也避免了顯式先驗,但通常需要對數據生成過程做出很強的結構性假設。我們基于分位數的方法僅要求具備通過神經網絡從數據中學習條件分位數函數的能力。從計算角度看,一旦訓練完成,預測只需要通過網絡進行一次前向傳播——這是一個常數時間操作,與核方法或基于MCMC的推斷形成鮮明對比。該方法天然地處理異方差數據和分布不對稱性,可擴展到現代深度學習架構,并通過直接對條件分位數建模來適應局部數據特征。
盡管有其優勢,我們的方法也面臨若干局限。與所有神經網絡方法一樣,分位數神經網絡需要仔細的超參數調優,并且在小樣本情況下可能過擬合。確保分位數單調性需要架構約束或懲罰項,且其可解釋性可能不如參數化模型透明。未來的研究有幾個充滿希望的方向:建立有限樣本或漸近保證、擴展到多元輸出空間、通過分位數處理效應發展與因果推斷的聯系,以及通過結構化架構融入領域知識。分位數通過復合進行更新的基本見解,為未來結合不確定性量化的預測研究奠定了堅實基礎。
原文鏈接:https://arxiv.org/pdf/2510.21784
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.