網易首頁 > 網易號 > 正文申請入駐

模型誤設下的模擬貝葉斯推理

2026-02-02 00:06:26　來源: CreateAMind

上海舉報

分享至

模型誤設下的模擬貝葉斯推理

Simulation-based Bayesian inference under model misspecification

https://arxiv.org/pdf/2503.12315

摘要
基于模擬的貝葉斯推斷（Simulation-based Bayesian inference, SBI）方法廣泛用于復雜模型中的參數估計，這類模型的特點是似然函數難以計算，但生成模擬數據相對容易。然而，這些方法通常假設模擬模型能準確反映真實的數據生成過程，而這一假設在現實場景中常常被違背。本文聚焦于模型誤設情形下SBI方法所面臨的挑戰。我們整合了近期旨在緩解誤設影響的研究，重點介紹了三種關鍵策略：i) 魯棒性匯總統計量，ii) 廣義貝葉斯推斷，以及 iii) 誤差建模與調整參數。為說明主流SBI方法在模型誤設下的脆弱性，以及對誤設具有魯棒性的替代方法的有效性，我們在一個示例問題上展示了實證結果。

關鍵詞：近似貝葉斯計算，條件密度估計，無似然推斷，模型誤設，神經網絡，基于模擬的推斷，合成似然

1 引言

標準貝葉斯方法依賴于從參數化統計模型導出的顯式定義的似然函數。然而，在許多現實應用中，直接計算該似然函數在計算上可能代價高昂，或在解析上不可行。在此類情形下，可通過直接指定數據生成過程（DGP）來使用隱式統計模型（Diggle and Gratton, 1984）。

基于模擬的貝葉斯推斷（SBI）方法通過隱式統計模型的模擬來近似后驗分布。近似貝葉斯計算（ABC）方法在候選參數值下生成模擬數據集，然后計算觀測數據與模擬數據之間的差異——通常通過低維匯總統計量來定義（Tavaré et al., 1997; Martin et al., 2024; Sisson et al., 2018）。另一種歷史悠久的方法是間接推斷（indirect inference），它基于觀測數據的間接或輔助匯總量來估計統計模型的參數（Gourieroux et al., 1993）。一種相關且流行的 SBI 技術是貝葉斯合成似然（BSL）（Price et al., 2018; Wood, 2010），它建立在間接推斷基礎上，假設這些匯總統計量服從（條件）多元正態分布。最近，機器學習技術，尤其是神經條件密度估計器（NCDEs），為近似似然函數、后驗分布和似然比提供了強大工具（Cranmer et al., 2020）。

在復雜應用中，小規模的污染或未建模現象使得詳盡指定 DGP 的每一個細節變得不切實際，尤其在面對大規模數據集時（Miller and Dunson, 2019）。盡管實踐者意識到模擬與現實之間存在差距，但推斷通常仍以模型被完美設定為前提進行。當真實分布位于所考慮模型集合之外（即 P ? ? P
）時，這一假設常被違背，這被稱為 M-open 情形；相比之下，M-closed 情形則指 P ? ∈ P
（Bernardo and Smith, 2009; Le and Clarke, 2017; Yao et al., 2018）。

針對模型誤設的魯棒方法的主要目標是：即使在 M-open 情形下，也能提供可靠且有用的推斷。我們采用 Huber 和 Ronchetti（2009）的經典定義來界定魯棒性：對假設模型的微小偏離僅應導致推斷結果的微小變化。這確保了假設模型與真實分布之間的適度偏差不會不成比例地影響我們的結論。

模型誤設在 SBI 中構成一項重大挑戰，會導致經驗上觀察到的不可靠推斷（Cannon et al., 2022；Schmitt et al., 2024），并違背通常的理論假設，因而需要專門處理（Legramanti et al., 2025；Marin et al., 2014；Frazier et al., 2020）。盡管近期在統計學（Bharti et al., 2022；Dellaporta et al., 2022；Frazier and Drovandi, 2021）和機器學習（Huang et al., 2023；Kelly et al., 2024；Ward et al., 2022）等多個領域已涌現出大量關于 SBI 中模型誤設魯棒方法的研究，但尚無綜合性工作將這些成果統一整合。本文對 SBI 框架下模型誤設相關研究進行了全面回顧與綜合。我們描述了模型誤設情形下 SBI 所面臨的問題，探討了各類 SBI 方法如何受此問題影響，并匯總了近期提升這些方法魯棒性的策略。通過這一工作，我們旨在厘清分散的文獻，為實際應用提供實用洞見，并勾勒未來研究的可行方向。

在第 2 節中，我們考察了三種主要的 SBI 方法——近似貝葉斯計算（ABC）、貝葉斯合成似然（BSL）和神經條件密度估計（NCDE）——并描述和演示了每種方法如何易受模型誤設的影響。在第 3 節中，我們將近期方法歸類為三類應對 SBI 中模型誤設的魯棒策略：魯棒性匯總統計量、廣義貝葉斯推斷，以及誤差建模與調整參數。隨后，我們在第 4 節通過一個貫穿全文的示例展示這些策略的應用。最后，在第 5 節中，我們進行總結討論，并展望 SBI 中模型誤設問題的未來研究方向。

2 SBI 與模型誤設

在本節中，我們首先介紹貝葉斯推斷所需的背景知識，包括對模型誤設的一般性討論。隨后，我們概述基于模擬的推斷（SBI），重點介紹三種關鍵方法：近似貝葉斯計算（ABC）、貝葉斯合成似然（BSL）和神經條件密度估計（NCDE）。接著，我們在 SBI 框架下考察模型誤設問題，側重于理論層面的洞見。最后，我們通過一個示例——一個誤設的 MA(1) 模型——來演示標準 SBI 方法如何因模型誤設而受到不利影響。

2.1 貝葉斯推斷預備知識

貝葉斯推斷通過利用觀測數據更新我們對模型參數的初始信念，從而量化參數的不確定性。對于數據 y y 和模型參數 θ θ，貝葉斯推斷的目標是后驗分布（posterior distribution）：

在貝葉斯推斷中，模型誤設可能源于兩個相互關聯的組成部分：數據生成過程（DGP）和先驗分布。盡管本文聚焦于 DGP 的誤設，但另一種形式的誤設出現在先驗與似然所包含的信息相互沖突時，即使 DGP 被正確設定，這種沖突仍可能導致不良推斷（Evans and Moshonov, 2006）。關于在無似然推斷中如何檢驗先驗-數據沖突的討論，參見 Chakraborty et al. (2023a)。

與其追求一個完美“真實”的模型——這在實踐中往往無法實現——我們將模型構建視為一個迭代過程。我們從更簡單的模型出發，僅當增加復雜性能帶來更清晰的洞見或更好的擬合時才引入復雜性，遵循 George Box 的名言：“所有模型都是錯的，但有些是有用的”（Box, 1976, 1980）。這一理念構成了原則性貝葉斯工作流的基礎（Betancourt, 2020；Gabry et al., 2019；Gelman et al., 2020；Schad et al., 2021），該工作流包括模型構建、推斷、模型檢驗、評估與擴展。通過計算驗證和模型評估技術來評估模型擬合情況是該工作流的關鍵環節，有助于識別潛在的誤設。例如，后驗預測檢查（posterior predictive checks）用于評估模型能否復現觀測數據的關鍵特征（Gelman and Shalizi, 2013）。當檢查表明擬合不佳時，建模者可通過修訂先驗、納入更多數據、重新審視關鍵假設或擴展模型結構等方式改進模型。然而，不加區分地增加模型復雜度可能會掩蓋洞見，并阻礙有意義的科學推斷（McElreath, 2018；Miller and Dunson, 2019）。原則上，貝葉斯框架可通過奧卡姆剃刀原則——即通過模型證據（model evidence）——協調模型復雜度與數據擬合（參見 MacKay, 2003, 第28章），但在 SBI 中，由于僅有不充分的匯總統計量可用，這一方法會變得有問題（Robert et al., 2011；Marin et al., 2014）。

在 M-closed 情形下，貝葉斯方法（配合恰當的先驗和充足的計算能力）被證明是諸如決策（Savage, 1954）和信息處理（Zellner, 1988）等任務中唯一最優的方法。此外，它具有“一致性”（consistency），即隨著數據量增加，后驗分布會集中于真實參數值。

相比之下，在 M-open 情形下，在正則條件下，標準貝葉斯推斷將集中于偽真參數（pseudo-true parameter），

2.2 SBI 背景知識

我們關注的情形是：似然函數不可用或難以處理，但我們可以方便地從模型中生成模擬數據。本文聚焦于近似貝葉斯計算（ABC）、貝葉斯合成似然（BSL）和神經條件密度估計器（NCDE），因為 SBI 中關于模型誤設的研究主要基于這些方法。盡管如此，也存在其他策略，例如非神經網絡的條件密度估計器（Forbes et al., 2022；H?ggstr?m et al., 2024）以及密度比估計（Hermans et al., 2020；Thomas et al., 2022）。此外，頻率學派方法（Cranmer et al., 2016；Dalmasso et al., 2024；Warne et al., 2023）提供了另一種視角，但本綜述仍專注于貝葉斯方法。

盡管有這些改進，所有 ABC 方法在處理高維匯總統計量時仍面臨“維度災難”（curse of dimensionality）的挑戰（Barber et al., 2015；Csilléry et al., 2012）。隨著維度增加，要么需要放寬對“接近性”的容差，從而導致更大的近似誤差；要么接受的模擬數量減少，為了維持給定數量的后驗樣本，就必須進行更多次模擬，進而大幅增加計算成本。

2.2.2 貝葉斯合成似然（Bayesian Synthetic Likelihood, BSL）
與 ABC 依賴差異函數比較模擬數據與觀測數據不同，BSL 使用參數化估計器來近似不可處理的似然函數。合成似然方法最早由 Wood（2010）提出，他采用多元正態分布來近似匯總統計量的似然。當匯總統計量是大量獨立隨機變量的和或均值時，中心極限定理可為該正態性假設提供理論依據。

Price 等人（2018）將合成似然納入貝葉斯框架，從而發展出 BSL。在標準 BSL 中，合成似然函數定義為：

2.2.3 神經條件密度估計（Neural Conditional Density Estimation, NCDE）

NCDE 類方法通過神經網絡從模型模擬中學習目標條件密度的代理模型，從而逼近 SBI 中不可計算的條件密度。這類方法因能有效處理高維數據與參數而廣受歡迎。這與傳統密度估計方法（如核密度估計，KDE）形成對比——后者受“維度災難”困擾，在高維情形下變得不切實際（Rosenblatt, 1956；Parzen, 1962）。

最常見的情形是，NCDE 方法直接以目標后驗分布為擬合對象。當神經網絡用于此目的時，該方法被稱為神經后驗估計（Neural Posterior Estimation, NPE）（Papamakarios and Murray, 2016；Lueckmann et al., 2017；Greenberg et al., 2019）。其目標是學習一個神經網絡近似，使其最小化前向 KL 散度，即：

若 amortised 方法收效甚微，或無法從先驗預測性模擬中高效學習到準確的 NCDE，則可采用分輪次運行模擬的序貫采樣方案（Papamakarios and Murray, 2016）。該策略旨在針對感興趣的區域生成更多模擬，以提升推斷效率與精度。當應用于 NPE 時，此方法稱為序貫神經后驗估計（Sequential Neural Posterior Estimation, SNPE）。另一種聚焦于感興趣區域的策略是：先通過 ABC 方法生成一個更貼近觀測數據的訓練數據集（即“預條件化 NPE”，pre-conditioned NPE），如 Wang et al. (2024b) 所提出。

類似地，高斯過程（GP）代理模型已被用于 ABC 中，以高效建模模擬數據與觀測數據之間的差異，并近似合成似然。例如，無似然推斷的貝葉斯優化（BOLFI）（Gutmann and Corander, 2016）利用 GP 建模差異函數，引導模擬朝向參數空間中信息更豐富的區域，并顯著減少所需模擬次數。進一步的研究將貝葉斯優化與不確定性下的決策制定相結合，以實現準確、高效的后驗估計（J?rvenp?? et al., 2019, 2021；Oliveira et al., 2021）。

2.3 SBI 中的模型誤設

ABC 通過絕對差異比較觀測與模擬匯總統計量。在模型誤設下，Frazier 等（2020）已證明 ABC 后驗會集中于偽真參數

因此，ABC 的偽真參數既取決于匯總統計量的選擇，也取決于差異函數 d ( ? , ? )
，凸顯了審慎選擇這些組件的重要性。盡管精確復現完整數據集可能不可行，但采用魯棒性匯總統計量有助于實現兼容性。類似地，選擇魯棒性差異度量也可能提升模型在誤設下的收斂表現（見第 3.1 節）。

雖然 ABC 在誤設下表現出一定魯棒性（因其收斂于偽真參數——無論該參數是否實用），但它通常無法提供有效的頻率覆蓋（frequentist coverage）。此局限并非 ABC 獨有：標準貝葉斯推斷在誤設下同樣可能無法實現名義覆蓋（Kleijn and Vaart, 2012）。此外，與標準 Bernstein–von Mises 情形不同，誤設下 ABC 后驗的極限分布未必為高斯型（Frazier et al., 2020）。進一步地，常見的后處理調整（如局部回歸）在模型誤設時可能惡化推斷，使后驗偏離偽真參數（Beaumont et al., 2002）。

相比之下，ABC 與 BSL 已受益于對其誤設行為的嚴謹理論分析，而 NCDE 方法目前尚缺乏同等水平的理論清晰性。近期理論工作（Frazier et al., 2024a）在兼容性假設（即模型正確設定）下提供了洞見，但針對誤設情形的研究仍屬空白。盡管如此，實證研究表明模型誤設可能對 NCDE 方法產生不利影響（Cannon et al., 2022；Schmitt et al., 2024）。直觀而言，這是由于神經網絡在訓練時所見的數據分布（來自假設模擬器）與測試時需泛化的分布（真實觀測數據）不同，從而引發分布外（out-of-distribution, OOD）泛化問題——這在深度學習中是一個核心關切（Hendrycks et al., 2021；Hendrycks and Gimpel, 2022；Yang et al., 2022）。例如，常用于神經 SBI 的歸一化流模型已被證實難以應對 OOD 數據（Kirichenko et al., 2020）。在標準深度學習中，通常通過測試/驗證集（來自真實數據）評估模型泛化能力，以增強對未見真實數據適用性的信心；然而在 SBI 中，驗證損失僅反映模型在假設模擬器生成數據上的性能，無法保證其在與假設模型顯著不同的真實觀測數據上表現良好。

診斷模型誤設對基于 ABC 的方法的可靠結果獲取及模型改進至關重要。Frazier 等（2020）提出了兩種 ABC 診斷工具：其一檢驗接受概率隨容差衰減的情況——線性偏離提示誤設；其二比較不同 ABC 算法所得后驗期望，不一致則暗示模型問題。類似地，Gutmann 等（2018）將分類準確率引入 ABC，將推斷問題建模為模擬數據與觀測數據間的二分類任務；高分類準確率表明模型難以復現觀測數據，提示潛在誤設。

基于匯總統計量的后驗預測檢驗在 SBI 中被廣泛采用（Bertorelle et al., 2010；Wang et al., 2024a）。通過從后驗預測分布生成數據，并將其匯總統計量與觀測數據的匯總統計量比較，可評估模型對實際觀測的復現能力。若后驗預測區間無法覆蓋大部分觀測數據，則提示模型誤設或推斷性能不佳0。此外，Chakraborty 等（2023a）將先驗-數據沖突檢驗拓展至 SBI 框架，有助于識別先驗與觀測數據之間的不一致性。

多種擬合優度檢驗已被提出用于評估 SBI 中的模型設定。Dalmasso 等（2020）提出一個結合固定參數下局部雙樣本檢驗與全局擬合優度檢驗的框架，用于檢測代理模型中的誤設。Ramírez-Hassan 與 Frazier（2024）提出一種檢驗統計量，在零假設 ε ? = 0
（即式 (2) 定義的兼容性）下漸近服從卡方分布，從而支持對模型誤設的假設檢驗。Schmitt 等（2024）則采用最大均值差異（MMD）度量觀測與模擬數據分布間的差異，并基于模擬估計的臨界 MMD 值實施假設檢驗。

2.4 示例：誤設的 MA(1) 模型

我們以 Frazier 和 Drovandi（2021）所提出的一階移動平均（MA(1)）誤設模型作為貫穿全文的示例。我們的目標是在該玩具示例上演示 ABC、BSL 和 NCDE 如何對模型誤設作出不同的響應。我們將在第 4 節再次回到此示例，展示第 3 節所述的魯棒方法如何用于獲得理想的推斷結果。

在此誤設示例中，我們所假設的數據生成過程（DGP）是一個 MA(1) 模型：

當然，在實踐中，對于如此簡單的例子，人們通常會進一步探究以構建更精確的 DGP。我們采用此例純粹出于教學目的：旨在說明——即使在 DGPs 根本不同的誤設情形下，后驗仍可能集中于一個在當前情境下具有合理解釋的參數值；同時展示建模者可用于迭代改進模型的若干相關診斷工具。

作為現實類比，“2018 年 Volmageddon 事件”提供了一個典型案例：因隨機波動率模型誤設，與波動率掛鉤的金融產品遭遇災難性損失（Augustin et al., 2021）。這一失敗凸顯了誤設波動率假設的嚴重風險。Cannon 等（2022）對 Volmageddon 進行了模擬復現，發現常用 SBI 方法均產生較差的推斷結果。

在此簡單示例中，我們可觀察到三類主要 SBI 方法對模型誤設的不同響應：

3 SBI 的魯棒方法

我們歸納出文獻中用于實現模型誤設下魯棒推斷的三類主要策略：第一，可通過謹慎選擇魯棒性匯總統計量，緩解對完整、復雜數據的依賴，從而減輕模型誤設的影響；第二，可采用廣義貝葉斯推斷，其中魯棒推斷通過使用替代性損失函數實現——特別地，SBI 可在 GBI 框架下實施，利用基于樣本的魯棒損失函數；第三，可通過直接建模觀測與模擬匯總統計量之間的差異，并引入調整參數，以應對數據不匹配問題。

3.1 魯棒匯總統計量

當使用匯總統計量而非完整數據集進行推斷時，模型誤設體現為無法復現觀測匯總統計量，而非無法復現全部觀測數據。通過將數據映射至一組經審慎篩選的魯棒匯總統計量0，我們可聚焦于對推斷目標關鍵的特征，同時抑制可能引發誤設的復雜噪聲或無關特征0。匯總統計量的構建在 SBI 中已獲大量關注（參見 Sisson 等，2018，第5章），但本文聚焦于如何構造對模型誤設魯棒的匯總統計量0。

遵循原則性貝葉斯工作流（Betancourt, 2020），我們區分“相關”與“無關”的模型誤設：不嘗試精確匹配真實 DGP，而是集中于提取對分析目標相關、并忽略數據采集或處理中產生的無關偽影等無關特征。在 SBI 中，我們的目標是通過匯總統計量捕獲相關特征。理想情況下，所構建的匯總統計量應具備魯棒性——即使存在對模型假設的微小偏離，估計仍保持可靠。一個常見例子是中位數：因其高截斷點（breakdown point），它能承受顯著污染而不致估計退化0。

盡管基于匯總統計量的推斷常被視為必要之惡——因犧牲信息換取計算效率——但若丟失的信息屬于無關特征，則使用匯總統計量反而可能提升魯棒性。

由 Lewis 等（2021）提出的貝葉斯受限似然方法（Bayesian restricted likelihood approach）將數據映射至一組對特定數據特征魯棒、但對不良擾動（如離群點）不敏感的不足量匯總統計量。例如，M-估計量可降低對離群點的敏感性（參見 Vaart, 2000，第5章綜述）。該思路亦被 Ruli 等（2020）采納，其在 ABC 中采用 M-估計函數構建魯棒匯總統計量；近期，Luciano 等（2024）進一步發展出一種基于 Gibbs 抽樣的方法，其條件依賴于魯棒不足量匯總統計量。

另一種策略是貝葉斯數據選擇（Bayesian data selection），即識別出與所假設參數模型兼容的數據部分（Weinstein and Miller, 2023）。在此框架中，“前景”（foreground）由參數模型刻畫，“背景”（background）則由貝葉斯非參數模型建模；Weinstein 與 Miller（2023）提出一種新穎評分準則，用于尋找數據的低維投影——這些投影能被參數模型有效描述，從而作為兼容的匯總統計量，使我們可聚焦于模型能捕捉的數據方面0。

同樣聚焦于貝葉斯數據選擇任務，Huang 等（2023）在損失函數中引入最大均值差異（MMD），以魯棒地學習適用于 SBI 的匯總統計量。先前自動化構建匯總統計量的方法（如 Albert 等, 2022；Chen 等, 2021；Fearnhead & Prangle, 2012；Jiang 等, 2017）雖在信息獲取上有效，但通常未考慮模型誤設情形。相比之下，Huang 等（2023）的方法明確針對誤設場景：他們提出兩種方法：其一，在 NPE 框架內聯合學習神經網絡與匯總統計量網絡；其二，利用自編碼器學習對 ABC 魯棒的匯總統計量0。對于 NPE0，其目標是最小化如下損失：

此外，Bharti 等（2022）通過在匯總統計量選擇過程中引入領域專家來應對 ABC 中的模型誤設問題。他們認識到手動選擇信息性匯總統計量的困難，提出了一種序貫實驗設計方法，以最小侵入性的方式主動讓專家參與其中。該方法通過允許專家識別并剔除具有誤導性的匯總統計量，有效緩解了模型誤設的影響。

另一種策略是模塊化貝葉斯推斷（modularised Bayesian inference），它通過將聯合后驗分解為多個模塊，并采用“切斷反饋”（cutting feedback）方法選擇性地忽略被誤設的模塊，從而應對模型誤設（Bayarri et al., 2009；Yu et al., 2023）。在我們基于匯總統計量的語境下，這意味著可以忽略那些對某些模型參數推斷產生不利影響的匯總統計量的作用。Chakraborty 等（2023b）進一步將這一概念拓展至 SBI 框架，提出了一種基于聯合后驗高斯混合近似的切斷反饋方法。

3.2 廣義貝葉斯推斷

標準貝葉斯推斷對模型誤設高度敏感，因為它本質上最小化的是 Kullback–Leibler（KL）散度，而 KL 散度會嚴重懲罰模型與數據之間任何小概率區域的不匹配（Basu et al., 1998；Jewson et al., 2018）。為應對這一脆弱性，可使用替代性損失函數取代常規的對數似然更新，這構成了廣義貝葉斯推斷（Generalised Bayesian Inference, GBI）的基礎。本節探討 GBI 思想如何與 SBI 相結合。

GBI 推廣了傳統的貝葉斯信念更新方式（Bissiri et al., 2016；Knoblauch et al., 2022）。廣義后驗（亦稱 Gibbs 后驗或偽后驗）定義為：

Miller 和 Dunson（2019）通過“粗化后驗”（coarsened posteriors）形式化了類似聯系：該方法通過對經驗分布的某個鄰域（而非精確數據）進行條件化，從而增強魯棒性。作為其工作的副產品，他們展示了 ABC 后驗如何通過核函數 K ε
隱式地契合廣義后驗視角。

在開創性工作中，Wilkinson（2013）通過將假設 DGP 與真實 DGP 之間的差異視為模型誤差或測量誤差，明確承認了模型誤設的可能性。他們指出，若實際的模型誤差被明確指定，則 ABC 在該假設下可產生精確結果，這反映了 K ε
如何編碼模型誤差。此外，Schmon 等（2020）將 ABC 的接受/拒絕步驟解釋為隱式定義了一個誤差模型。在實踐中，基于閾值或高斯核的選擇主要出于計算便利性或啟發式考慮，但這些選擇本身很可能也是誤設的。例如，拒絕式 ABC 可被視為在以 S ( y )
為中心、半徑為 ε ε 的球內對均勻模型誤差進行的精確推斷，而這種均勻誤差假設不太可能反映真實的模型誤差。為緩解這一潛在的誤設誤差假設，可采用更靈活的誤差分布（見第 3.3 節）。此外，由于 ABC 可被納入 GBI 框架，更廣泛的 GBI 魯棒推斷策略自然也適用于 ABC（Schmon et al., 2020）。

廣義后驗主要通過兩種方式應對模型誤設：一是調整校準參數 w ，二是選擇對誤設更具魯棒性的損失函數 L 。

3.2.2 校準參數 w 的調整
降低對負對數似然的權重（即取 w < 1
）可限制誤設似然的影響。該方法被稱為溫控后驗（tempered posteriors；Holmes and Walker, 2017）或分數后驗（fractional posteriors；Bhattacharya et al., 2019）。其中最早的方法之一是 SafeBayes（Grünwald, 2012；Grünwald and Ommen, 2017），它通過自適應地縮放似然，以防止在模型誤設下出現不一致性，從而確保即使模型未被正確設定，后驗仍保持“安全”。Miller 和 Dunson（2019）通過溫控似然來近似其粗化后驗（一種廣義后驗）。盡管溫控對于真實似然可能是一種有效的魯棒策略，但對于依賴模擬數據的似然方法而言，溫控通常被證明無效。例如，Frazier 等（2024b）考慮對合成似然進行溫控，Gao 等（2023）則研究了神經似然方法中的溫控。在這兩種情形中，該策略均被發現無效甚至有害。如 Frazier 等（2024b）所展示的，盡管溫控可改變后驗近似的尺度，卻無法改變其眾數或整體形狀，因此通常無法解決由模型誤設引發的核心問題。

3.2.3 魯棒損失函數
廣義貝葉斯推斷（GBI）可通過在式 (3) 中選擇一個魯棒的損失函數來應對模型誤設。由于 ABC 后驗是一種廣義后驗，我們可以采用相同的思路來指導魯棒距離度量的選擇。與此相關的是，Frazier 等（2020）的結果表明，ABC 所用的距離決定了偽真參數，這凸顯了選擇對模型微小偏離不敏感的距離度量的重要性。此處我們聚焦于已在 ABC 中被考慮過的距離選擇。

積分概率度量（Integral Probability Metrics, IPMs；Müller, 1997）是一類適用于基于模擬推斷（SBI）的有用度量，其中包括最大均值差異（MMD）和 Wasserstein 距離。兩個定義在空間 X 上的概率測度 P 與 Q 之間的 IPM 一般形式定義為：

Legramanti 等人（2025）近期的理論工作為在 ABC 中使用基于 IPM 的距離提供了嚴格的理論基礎。他們的框架引入了 Rademacher 復雜度的概念，用于分析基于差異度量的 ABC 后驗的極限性質，包括在非獨立同分布（non-i.i.d.）和模型誤設情形下的表現。

ABC 中魯棒距離的一個早期例子來自 Park 等人（2016），他們提出了 K2-ABC 方法，該方法在 ABC 中采用最大均值差異（MMD）作為差異函數。平方 MMD 的一個無偏估計量如下所示：

另一種被研究的距離選擇是 Wasserstein 距離（Villani, 2009）。Bernton 等人（2019）提出在 ABC 中使用觀測數據與模擬數據經驗分布之間的 Wasserstein 距離。他們開發了計算近似方法，以緩解其隨觀測數量呈超二次方增長的計算復雜度，從而使該方法在大數據集上更具實用性。

進一步的散度度量已在 ABC 中被探索：Fujisawa 等人（2021）利用一種基于 k k-近鄰核密度估計的 γ γ-散度估計器；Jiang（2018）將 KL 散度作為 ABC 中的數據差異度量，將其與貝葉斯推斷中的傳統 KL 基偽真參數對齊；Frazier（2020）則研究了 Hellinger 與 Cramér–von Mises（CvM）距離的使用，驗證了其在模型誤設下的魯棒潛力。

面對眾多距離選項，建模者需了解哪些在 ABC 中最具前景。當然，最合適的距離取決于具體問題；Drovandi 與 Frazier（2022）的實證研究表明，在模型正確設定情形下，CvM、Wasserstein 與 MMD 距離表現相當；而在模型誤設情形下，Legramanti 等人（2025）在誤設的 Huber 污染模型中比較了 MMD、Wasserstein 與 KL 散度，發現 MMD 在各類誤設程度下表現最優，突顯了其在魯棒推斷中的有效性。

最初，研究 ABC 中多種距離選擇的主要動機在于它們既適用于使用匯總統計量的情形，也適用于不使用匯總統計量的情形。例如，Park 等人（2016）提出 K2-ABC 的初衷是為了避免使用不充分的匯總統計量，并未提及模型誤設問題。然而，幸運的是，人們后來發現，在 ABC 中使用 MMD 對模型誤設具有高度魯棒性。本節內容同時適用于基于匯總統計量和無匯總統計量的 SBI 方法。

在 ABC 中，用于定義廣義后驗的損失函數相當明確，因為建模者必須顯式選擇一個距離度量和誤差核函數。對于 BSL 和 NCDE 方法，也隱含地使用了類似的損失函數——盡管其形式不那么顯式。Pacchiardi 等人（2024）利用評分規則（scoring rules；Gneiting and Raftery, 2007）構建 GBI 框架，從一個恰當的評分規則導出損失函數，以度量模型與數據之間的差異。例如，BSL 后驗對應于一個以 Dawid–Sebastiani 評分（Dawid and Sebastiani, 1999）為基礎的廣義后驗。

NCDE 方法通常旨在近似標準貝葉斯后驗；例如，如式 (1) 所示，NPE 最小化前向 KL 散度。但如前所述，KL 散度并不魯棒，最壞情況是遭遇對抗性攻擊——即微小但有針對性的擾動會顯著影響估計器的輸出。為增強對此類對抗性擾動的魯棒性，Gl?ckler 等人（2023）提出了一種正則化方案，通過懲罰條件密度估計器的 Fisher 信息來實現。

另一種方法是使用 KL 散度以外的損失函數訓練神經網絡，以提升模型誤設下的魯棒性。例如，Gao 等人（2023）提出了一種 GBI 的 amortised（攤銷式）方法，通過訓練神經網絡直接預測損失函數。他們的方法稱為攤銷成本估計（Amortised Cost Estimation, ACE），學習損失函數的代理模型，從而在推斷階段無需大量模擬。通過采用魯棒的損失函數（如 MMD），ACE 可提供對模型誤設具有魯棒性的推斷。同樣的原則也適用于其他依賴損失函數代理建模的 SBI 方法，例如 BOLFI（Gutmann and Corander, 2016），其中所建模的差異度量可被選擇為魯棒的形式。

3.3 誤差建模與調整參數

這些誤差模型的一個有用特例是引入 調整參數 （adjustment parameters），其可直接平移模擬輸出，使其更好地與觀測數據對齊。當使用匯總統計量時，調整參數可被理解為對不兼容匯總統計量的修正——即通過偏移來緩解模型與數據之間的不匹配。對于給定參數 θ θ ，引入與匯總統計量維度相同的加性調整參數向量 Γ = ( γ 1 , … , γ d ) ?，我們有：

早期關于確定性計算機模型的研究即引入調整參數以校正模型與觀測數據之間的不匹配。Kennedy 與 O’Hagan（2001）提出的模型 Γ 被稱為“模型不足校正”（model inadequacy correction），其采用高斯過程建模。Bayarri 等人（2009）將該方法拓展至模塊化貝葉斯框架，并提供了對 Γ 建模的策略。

在 SBI 的背景下，一種早期方法是 Ratmann 等人（2009）提出的 ABC(_\mu) 方法。鑒于評估模型適切性的必要性，Ratmann 等人（2009）將一個未知誤差項引入似然函數，并將 ABC 誤差容差視為具有自身指數先驗分布的隨機變量。這些隨機的 ABC 誤差容差——對每個匯總統計量分別設定——與調整參數 Γ 實質相同，即：模擬與觀測匯總統計量之間的偏差。

從模型參數與誤差項的聯合后驗分布中抽樣，使得可通過誤差項的后驗分布直接檢驗模型誤設。這一模型批評機會是所有調整參數方法的共有特征。在兼容匯總統計量情形下（如 Frazier 與 Drovandi, 2021 所示）， Γ 各分量的后驗收斂于其先驗；而在模型誤設情形下， Γ 的后驗會偏離其先驗，以修正模型與觀測數據間的差異。通過檢驗調整參數是否顯著偏離其先驗，我們可識別出不兼容的匯總統計量。若匯總統計量經領域專家審慎篩選而被認為有意義，則該方法可精準揭示模型中哪些方面存在不足，從而促進模型批評與改進。

Frazier 與 Drovandi（2021）提出了魯棒 BSL（RBSL）方法，該方法在合成似然中引入調整參數以增強對誤設的魯棒性。在 RBSL-M 中，合成似然中的均值向量被調整為：

在 RBSL-V 變體中，不調整均值，而是對協方差進行膨脹（inflated）以應對誤設：

該增廣的 BSL 后驗可通過分量式 MCMC 算法進行抽樣：模型參數 θ θ 采用 Metropolis–Hastings 算法（Metropolis et al., 1953；Hastings, 1970）抽樣，而調整參數 Γ 則采用切片抽樣（slice sampling）（Neal, 2003）抽樣。RBSL-M 算法詳見算法 3。盡管為保持記號一致性我們仍稱其為 RBSL-M，但也可將 RBSL-V 解釋為：將標準合成似然與一個獨立高斯誤差模型相結合，其中協方差項被視為未知參數。

4 重訪示例：魯棒方法的效果驗證

為展示第 3 節所述魯棒方法如何在模型誤設下改進推斷，我們再次考察第 2.4 節中的誤設 MA(1) 示例。在標準設定下，BSL 與 SNL 均給出較差的推斷結果，其近似后驗集中于參數空間中遠離偽真參數值的區域。

通過引入調整參數，我們可實現更魯棒的推斷。圖 6 展示了 RBSL-M 與 RBSL-V 的結果。與標準 BSL 相比，這些魯棒變體產生的后驗更緊密地圍繞偽真參數值 θ = 0
集中0。其后驗預測模擬也更好地匹配觀測匯總統計量，從而緩解了先前觀察到的過度自信（overconfidence）與覆蓋不足問題。我們在圖 7 中對神經方法也觀察到類似改進：當采用魯棒策略（如 RSNL）時，性能得到提升。

使用調整參數的另一優勢在于支持模型批評（model criticism）。圖 8 表明，第一調整參數分量 γ 1
的后驗明顯偏離其先驗分布，明確警示該模型與第一匯總統計量不兼容0。這提示所選 MA(1) 模型無法復現觀測樣本方差，有助于建模者定位并修正模型缺陷0。盡管這是一個簡單示例，但相同邏輯適用于更復雜的場景，幫助建模者精準識別其模型中未能捕捉數據關鍵特征的部分0。

5 討論

模型誤設現已被確立為 SBI 中的核心問題。本文全面綜述了 SBI 中的模型誤設問題，涵蓋其對關鍵方法——近似貝葉斯計算（ABC）、貝葉斯合成似然（BSL）和神經條件密度估計（NCDE）——的影響，并概述了近期應對模型誤設的方法。

在實踐中構建魯棒模型，要求從業者意識到模型誤設的存在，并迭代地改進其模型。在原則性貝葉斯工作流中，模型檢驗起著關鍵作用。后驗預測檢驗等診斷工具，或第 2.3 節末尾所述更專門針對 SBI 的診斷方法，有助于揭示模型在何處以及如何未能捕捉數據的關鍵特征。基于這些診斷結果，建模者可迭代改進模型或引入魯棒推斷技術。

第 3 節概述了 SBI 中實現魯棒推斷的三大策略：魯棒匯總統計量、廣義貝葉斯推斷（GBI）和調整參數。采用魯棒匯總統計量（例如用中位數而非均值）可降低對離群點和微小偏差的敏感性。盡管許多自動學習匯總統計量的方法易受誤設影響，但魯棒自動化匯總構造的研究正在積極推進，如 Huang 等人（2023）提出的方法。對于依賴模擬數據與觀測數據之間距離度量的 SBI 方法，選用魯棒度量（如基于 MMD 的方法）可增強穩健性。若條件允許，測試多種距離度量可提供進一步洞見。類似地，在使用 BSL、NPE 或 SNL 時，引入魯棒調整參數可在幾乎不增加計算開銷的情況下提升可靠性。通過歸類近期進展，我們可考慮將多種魯棒策略結合，并整合進貝葉斯工作流，以進一步增強魯棒性并提升整體推斷質量。

盡管本文未顯式比較 ABC、BSL 和 NCDE 的魯棒性，但值得注意的是，標準 ABC 方法通常表現出一定程度的內在魯棒性（Schmon 等, 2020）。頗具諷刺意味的是，ABC 中常被視為缺點的特性——如依賴匯總統計量、誤差容差閾值以及用戶指定的差異函數——實際上可能緩解某些形式的誤設。例如，魯棒匯總統計量（第 3.1 節）可能比使用完整數據集對離群點更不敏感；容差閾值本質上充當了隱式誤差模型（Miller and Dunson, 2019；Wilkinson, 2013）；而選擇魯棒距離度量（第 3.2 節）相比標準貝葉斯推斷可降低離群點的影響。盡管 ABC 在高維數據下擴展性較差，但其天然的魯棒性可能使其在低維問題中更具優勢。

盡管近期取得諸多進展，仍有許多開放問題亟待解決，并指向未來研究的激動人心方向。首要任務之一是為誤設模型開發標準化的度量指標與基準測試，類似于 Lueckmann 等人（2021）在模型正確設定情形下建立的基準。此類基準將有助于不同方法的比較，并為實踐者提供指導。另一重要空白在于 NCDE 在誤設下的理論基礎。雖然 ABC 和 BSL 已受益于對其誤設行為的嚴格理論分析，但 NCDE 方法目前尚缺乏同等水平的理論清晰性。近期關于 NCDE 的理論洞見依賴于兼容性假設（Frazier 等, 2024a），但在模型誤設情形下尚不明確，亟需進一步研究。

在 SBI 的序貫采樣中，參數樣本本應從高密度區域抽取，但標準方法可能不穩定。一個挑戰是后驗質量“泄漏”到先驗支撐集之外（Durkan 等, 2020），對此已有研究建議采用截斷先驗提議分布（Deistler 等, 2022）。另一問題是極端的先驗預測樣本會損害訓練，可通過預條件化 NPE 緩解——該方法使用 ABC 樣本作為初始訓練集（Wang 等, 2024b）。在模型誤設下，神經 SBI 方法的經驗表現較差，表明其未必自然收斂至合適的偽真參數，而 ABC 的這一性質已被充分證實。因此，在誤設場景中，采用 ABC 樣本進行預條件化的序貫方法可能具備更強的魯棒性。

獲得具有可信區間且覆蓋概率與真實覆蓋率一致的后驗，是 SBI 中一個公認難題，許多 NCDE 方法傾向于給出過度自信的推斷（Hermans 等, 2022）。當模型未被正確設定時，這一問題可能加劇，正如 Cannon 等人（2022）的實證結果所示；一般而言，當模型誤設時，貝葉斯可信集并非有效的置信集（Kleijn and Vaart, 2012）。針對誤設情形下的校準問題，近期利用最優傳輸理論實現更魯棒、更校準推斷的工作可能提供幫助（Wehenkel 等, 2024）。

同時，新興的 SBI 方法類別（如流匹配和擴散模型；Gloeckler 等, 2024；Simons 等, 2023；Wildberger 等, 2023）在誤設背景下的研究仍基本空白。探究其魯棒性并設計緩解模型誤設的方法，有望顯著拓展其實際適用性。此外，訓練神經近似模型時，若放棄通常最小化前向 KL 散度的損失，轉而采用廣義變分推斷（GVI）框架（Knoblauch 等, 2022），也可能有助于學習更魯棒的近似。

SBI 領域正開始認真應對模型誤設問題。目前已有許多魯棒方法被提出，且對其在模型誤設下行為的理論理解也在穩步提升。神經網絡方法雖因其可擴展性而廣受歡迎，卻對模型誤設較為敏感。從 ABC 方法所具有的內在魯棒性中汲取的經驗，或可啟發 NCDE 方法的進一步魯棒化改進。歸根結底，實踐者必須對模型誤設保持警惕，積極開展模型檢驗，并在必要時引入魯棒方法。我們預期，持續的研究將進一步擴充可用工具集，使針對模型誤設的魯棒推斷日益成為可能。

原文：https://arxiv.org/pdf/2503.12315

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.