網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

模型誤設(shè)下貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)的泛化性能分析

2026-01-31 00:07:26　來(lái)源: CreateAMind

上海舉報(bào)

分享至

模型誤設(shè)下貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)的泛化性能分析

Generalization Analysis for Bayesian Optimal Experiment Design under Model Misspecification

https://arxiv.org/pdf/2506.07805v1

摘要
在科學(xué)和工業(yè)的許多場(chǎng)景中，例如藥物發(fā)現(xiàn)和臨床試驗(yàn)，一個(gè)核心挑戰(zhàn)是在時(shí)間和預(yù)算限制下設(shè)計(jì)實(shí)驗(yàn)。貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)（Bayesian Optimal Experimental Design, BOED）是一種選擇信息量最大設(shè)計(jì)的范式，近年來(lái)已被越來(lái)越多地應(yīng)用于此類問(wèn)題。在訓(xùn)練階段，BOED 根據(jù)預(yù)設(shè)的采集準(zhǔn)則選擇輸入。在測(cè)試階段，訓(xùn)練期間學(xué)習(xí)到的模型會(huì)遇到自然出現(xiàn)的測(cè)試樣本分布。這導(dǎo)致了一種協(xié)變量偏移（covariate shift）的情形，即訓(xùn)練樣本和測(cè)試樣本來(lái)自不同的分布。先前的研究表明，在模型誤設(shè)（model misspecification）存在的情況下，協(xié)變量偏移會(huì)放大泛化誤差。我們的第一項(xiàng)貢獻(xiàn)是提供了一個(gè)泛化誤差的數(shù)學(xué)分解，揭示了在模型誤設(shè)情況下泛化誤差的關(guān)鍵成因。我們指出，誤設(shè)下的泛化誤差不僅源于協(xié)變量偏移，還源于一種我們稱之為“誤差（去）放大”（error (de-)amplification）的現(xiàn)象——這一現(xiàn)象在以往工作中尚未被識(shí)別或研究。我們的第二項(xiàng)貢獻(xiàn)是提供了詳細(xì)的實(shí)證分析，表明那些能產(chǎn)生具有代表性且具備去放大特性的訓(xùn)練數(shù)據(jù)的方法，可以提升泛化性能。我們的第三項(xiàng)貢獻(xiàn)是開發(fā)了一種新穎的采集函數(shù)，通過(guò)引入一個(gè)“代表性”項(xiàng)并隱式誘導(dǎo)去放大效應(yīng)，來(lái)緩解模型誤設(shè)的影響。實(shí)驗(yàn)結(jié)果表明，我們的方法在存在模型誤設(shè)的情況下優(yōu)于傳統(tǒng) BOED。

1 引言
貝葉斯建模是在數(shù)據(jù)稀缺或獲取成本高昂時(shí)進(jìn)行推斷的一種原則性方法。大多數(shù)貝葉斯機(jī)器學(xué)習(xí)方法都是在假設(shè)真實(shí)數(shù)據(jù)生成過(guò)程（DGP）包含在所選模型族中的前提下開發(fā)的 [1]。然而，在復(fù)雜的現(xiàn)實(shí)世界環(huán)境中，這一假設(shè)很少成立，學(xué)習(xí)者無(wú)法獲知真實(shí)的 DGP [2, 3]。因此，真實(shí)的 DGP 通常位于所假設(shè)的模型族之外。模型誤設(shè)這一現(xiàn)象的不可避免性，被一句略帶諷刺意味的名言所概括：“所有模型都是錯(cuò)的”[5, 6]。模型誤設(shè)的常見原因包括遺漏變量 [7]、對(duì)誤差項(xiàng)結(jié)構(gòu)的錯(cuò)誤認(rèn)知（例如未能考慮異方差性或自相關(guān)性）[8, 9]，或選擇了信息不足或表達(dá)能力不足的模型類 [7, 10]。模型誤設(shè)的后果包括推斷偏差 [8, 11, 12, 13]、不可靠的近似（例如在基于模擬的推斷方法中 [14, 15, 16]），以及次優(yōu)決策 [17, 18]。

已有大量文獻(xiàn)研究了在數(shù)據(jù)獨(dú)立同分布（i.i.d.）或從學(xué)習(xí)者希望其推斷能泛化的分布中“被動(dòng)”收集的情況下，模型誤設(shè)對(duì)貝葉斯推斷的影響 [19, 20, 21, 4, 22, 23]。然而，由于大規(guī)模數(shù)據(jù)集的廣泛可用，主動(dòng)學(xué)習(xí)方法的使用變得越來(lái)越普遍 [24]。這些方法通過(guò)選擇訓(xùn)練數(shù)據(jù)以適配特定的學(xué)習(xí)目標(biāo) [25, 26]。主動(dòng)學(xué)習(xí)方法兩次依賴于指定的模型：一次用于擬合訓(xùn)練數(shù)據(jù)的推斷，另一次用于選擇數(shù)據(jù) [27]。因此，模型誤設(shè)對(duì)這些方法具有雙重影響，可能在采集函數(shù)和最終推斷中都引入偏差。特別是在主動(dòng)學(xué)習(xí)的背景下，模型誤設(shè)可能導(dǎo)致低質(zhì)量的數(shù)據(jù)集 [28, 29, 30, 31, 26]。理解模型誤設(shè)的后果對(duì)于開發(fā)魯棒的主動(dòng)學(xué)習(xí)方法至關(guān)重要。

在貝葉斯框架下，貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)（BOED）是一種自然且常用的主動(dòng)學(xué)習(xí)方法 [18]。BOED 通過(guò)最大化一個(gè)稱為期望信息增益（expected information gain）的采集函數(shù)來(lái)選擇最優(yōu)設(shè)計(jì)，從而在許多應(yīng)用中實(shí)現(xiàn)時(shí)間和預(yù)算效率 [18, 32]，例如藥物發(fā)現(xiàn) [33]、臨床試驗(yàn)設(shè)計(jì) [32]、化學(xué) [34, 35]、生物學(xué) [36, 37] 和心理學(xué) [38, 39]。盡管文獻(xiàn)中已承認(rèn) BOED 在模型誤設(shè)情況下的局限性，但僅有少數(shù)論文對(duì)此進(jìn)行了研究 [18, 40, 41, 42, 43]。

我們對(duì)模型誤設(shè)下的泛化誤差提供了新穎的理論分析。我們的分析表明，能夠?qū)δＰ驼`設(shè)具有魯棒性的訓(xùn)練數(shù)據(jù)集具備兩個(gè)特性：它們代表了目標(biāo)數(shù)據(jù)生成分布，并且具有“去放大”（de-amplifying）特性。期望信息增益既不包含代表性項(xiàng)，也不包含去放大項(xiàng)，因此標(biāo)準(zhǔn) BOED 可能導(dǎo)致既不具代表性也不具去放大特性的訓(xùn)練數(shù)據(jù)集。從這個(gè)意義上說(shuō)，標(biāo)準(zhǔn) BOED 對(duì)模型誤設(shè)并不魯棒。

非代表性訓(xùn)練數(shù)據(jù)。BOED 選擇樣本以實(shí)現(xiàn)特定目標(biāo)，而這些樣本很可能無(wú)法反映學(xué)習(xí)者希望泛化的分布。換句話說(shuō)，BOED 引入了一種分布偏移形式，即用于（主動(dòng)）學(xué)習(xí)的分布與用于評(píng)估的分布不同。近期關(guān)于模型誤設(shè)與分布偏移相互作用的研究提出了“誤設(shè)放大”（misspecification amplification）的概念 [44]，即由誤設(shè)引起的泛化誤差被測(cè)試與訓(xùn)練輸入分布之間的密度比“放大”。在 BOED 的背景下也觀察到了類似現(xiàn)象：在模型誤設(shè)存在的情況下，某些設(shè)置中的泛化誤差已被證明同時(shí)依賴于模型誤設(shè)的程度和分布偏移的程度 [41]。

去放大訓(xùn)練數(shù)據(jù)。正如我們對(duì)泛化誤差的新穎分解所示，泛化性能不僅取決于訓(xùn)練數(shù)據(jù)的代表性，還取決于其與模型（誤）設(shè)定的交互方式：當(dāng)訓(xùn)練數(shù)據(jù)最能代表測(cè)試分布，并且同時(shí)位于模型誤設(shè)方向“有益”（即減少誤差）的區(qū)域時(shí)，泛化性能得到提升。我們將這一特性稱為誤差“去放大”（error “de-amplification”），以強(qiáng)調(diào)其作用是抵消而非放大誤設(shè)的影響。

貢獻(xiàn)。在本工作中，我們探討了模型誤設(shè)下的 BOED 問(wèn)題，并做出以下貢獻(xiàn)：

泛化誤差的理論分解。以往工作主要探討了誤設(shè)和分布偏移的影響，忽略了去放大設(shè)計(jì)的作用。我們正式將泛化誤差分解為三個(gè)組成部分：(1) 誤設(shè)偏差，(2) 估計(jì)偏差，以及 (3) 我們引入的一個(gè)新項(xiàng)——誤差（去）放大。我們還推導(dǎo)了一個(gè)泛化誤差的上界，刻畫了其對(duì)訓(xùn)練數(shù)據(jù)代表性、去放大程度以及模型誤設(shè)的依賴關(guān)系。
模型誤設(shè)下 BOED 的實(shí)證分析。我們從對(duì)模型誤設(shè)的魯棒性角度評(píng)估了短視（myopic）和非短視（non-myopic）BOED 方法。結(jié)果表明，性能差異可由我們分解中的各項(xiàng)解釋。我們提供了詳細(xì)的實(shí)證分析支持這一效應(yīng)：能產(chǎn)生具有代表性且去放大訓(xùn)練數(shù)據(jù)的方法提升了泛化性能。
通過(guò)代表性與去放大構(gòu)建的新采集函數(shù)。我們提出了一種新穎的采集函數(shù)，旨在通過(guò)識(shí)別那些不僅信息豐富、而且具有代表性并隱式具備去放大特性的設(shè)計(jì)，來(lái)緩解模型誤設(shè)的影響。我們的實(shí)驗(yàn)證明，該新采集函數(shù)在存在模型誤設(shè)的情況下優(yōu)于傳統(tǒng) BOED。

2 預(yù)備知識(shí)

2.1 問(wèn)題設(shè)定

2.2 貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)

貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)（Bayesian Optimal Experimental Design, BOED）是一種基于模型的框架，通過(guò)最大化關(guān)于參數(shù)的期望信息量來(lái)選擇最優(yōu)設(shè)計(jì)，從而實(shí)現(xiàn)預(yù)算和時(shí)間效率 [18, 32]。其主要目標(biāo)是找到一個(gè)設(shè)計(jì) ξ ，該設(shè)計(jì)在能夠提供關(guān)于參數(shù) θ θ最多信息的意義上是最優(yōu)的。期望信息增益（Expected Information Gain, EIG）用于刻畫關(guān)于 θ 所獲得的信息量 [47, 48]：

傳統(tǒng) BOED 方法 [49, 50]，亦稱貝葉斯自適應(yīng)設(shè)計(jì)（Bayesian Adaptive Design, BAD），通過(guò)反復(fù)評(píng)估式 (3) 來(lái)做出設(shè)計(jì)決策，并利用貝葉斯推斷對(duì)迄今為止所獲數(shù)據(jù)進(jìn)行建模，從而更新底層模型。傳統(tǒng) BOED 在計(jì)算上代價(jià)高昂，原因在于每一步均需耗費(fèi)大量計(jì)算資源以估計(jì)和優(yōu)化 EIG(ξ) 并更新模型。為緩解這些局限性，已提出基于策略（policy-based）的算法 [43, 51]，例如深度自適應(yīng)設(shè)計(jì)（Deep Adaptive Design, DAD）[40]，該方法通過(guò)在一組模擬實(shí)驗(yàn)軌跡上訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)對(duì)設(shè)計(jì)選擇過(guò)程的完全 amortization；由此，基于策略的方法消除了逐步在線模型更新的需求，顯著降低了計(jì)算開銷。

2.3 分布偏移

3 理論結(jié)果
3.1 泛化誤差的分解

近期研究表明，泛化誤差取決于協(xié)變量偏移程度（即訓(xùn)練數(shù)據(jù)在多大程度上不能代表測(cè)試分布）與模型誤設(shè)程度之間的相互作用 [44, 52, 53]。在本節(jié)中，我們指出，泛化誤差還額外依賴于一種我們稱之為誤差（去）放大（error (de-)amplification）現(xiàn)象的存在程度。我們證明，泛化誤差可被分解為三項(xiàng)，分別反映了誤設(shè)偏差、估計(jì)偏差和誤差（去）放大各自所作出的貢獻(xiàn)。

3.2 一個(gè)含誤差（去）放大項(xiàng)的泛化誤差上界

我們的結(jié)果。定理 3.7 通過(guò)顯式刻畫泛化誤差的行為，將 [44] 的結(jié)果進(jìn)行了擴(kuò)展，其中納入了誤差（去）放大項(xiàng)。在 BOED 的有限訓(xùn)練樣本設(shè)定下，這一額外項(xiàng)尤為重要，因?yàn)樗坍嬃擞?xùn)練數(shù)據(jù)與模型誤設(shè)之間的交互作用如何放大或去放大泛化誤差。

4 一種新穎的采集函數(shù)

利用定理 3.7 所提供的洞見，我們?cè)O(shè)計(jì)了一種采集函數(shù)，該函數(shù)能夠識(shí)別出既具有代表性又具備去放大特性的設(shè)計(jì)，同時(shí)還能提供關(guān)于感興趣參數(shù)的信息。盡管該采集函數(shù)并未包含一個(gè)顯式的去放大項(xiàng)（因?yàn)檫@一性質(zhì)在實(shí)踐中不可計(jì)算；參見備注 3.9），但我們的實(shí)證結(jié)果表明，它仍然傾向于比其他 BOED 方法選擇更多具有去放大特性的樣本。為了度量?jī)蓚€(gè)數(shù)據(jù)集所隱含分布之間的距離，我們采用最大均值差異（Maximum Mean Discrepancy, MMD）。

為應(yīng)對(duì)協(xié)變量偏移，我們通過(guò)引入一個(gè)基于 MMD 的修正項(xiàng)對(duì)標(biāo)準(zhǔn) EIG 采集函數(shù)進(jìn)行修改。其核心思想是鼓勵(lì)選擇那些不僅具有高信息增益，而且有助于減小訓(xùn)練點(diǎn)與測(cè)試點(diǎn)分布之間差異的設(shè)計(jì)點(diǎn)。具體而言，我們采用如下形式：

5 實(shí)驗(yàn)

本節(jié)包含對(duì)比實(shí)驗(yàn)與分析，旨在探究在模型誤設(shè)存在的情況下，何種算法在兩種實(shí)驗(yàn)范式（一個(gè)玩具示例與一個(gè)源位置定位范式）中表現(xiàn)最優(yōu)。我們還通過(guò)實(shí)驗(yàn)對(duì)第 3 節(jié)中的理論結(jié)果進(jìn)行了經(jīng)驗(yàn)性驗(yàn)證。

我們比較以下方法：

隨機(jī)策略（Random strategy）：從測(cè)試分布中隨機(jī)選擇設(shè)計(jì)；
貝葉斯自適應(yīng)設(shè)計(jì)（Bayesian Adaptive Design, BAD）[49]：依據(jù)傳統(tǒng) BOED 策略逐次選擇設(shè)計(jì)，即在實(shí)驗(yàn)的每一步進(jìn)行選擇；
深度自適應(yīng)設(shè)計(jì)（Deep Adaptive Design, DAD）[40]：依據(jù)一種基于策略的 BOED 算法選擇設(shè)計(jì)，即對(duì)整個(gè)設(shè)計(jì)過(guò)程進(jìn)行完全 amortized（離線訓(xùn)練）；
修正版 BAD（Adjusted BAD, BAD-Adj.）：依據(jù)我們提出的新型采集函數(shù)選擇設(shè)計(jì)。

除我們新采集函數(shù)的相對(duì)性能外，我們亦關(guān)注模型誤設(shè)如何影響 BAD 與 DAD 算法的性能差異。BAD 的迭代范式可使其在每次迭代中直接與真實(shí) DGP 交互，從而在模型誤設(shè)時(shí)獲得適應(yīng)機(jī)會(huì)；相比之下，DAD 為離線訓(xùn)練，無(wú)法通過(guò)與真實(shí) DGP 的交互進(jìn)行適應(yīng)。

5.1 玩具示例

代表性與泛化誤差之間的關(guān)系：圖 1 表明，在正確設(shè)定情形下，所有方法均產(chǎn)生相似的泛化誤差（圖 1d），無(wú)論協(xié)變量偏移程度如何（圖 1a）。這表明，當(dāng)模型正確設(shè)定時(shí)，協(xié)變量偏移不會(huì)顯著影響泛化性能。然而，在模型誤設(shè)情形下，協(xié)變量偏移對(duì)模型性能產(chǎn)生負(fù)面影響。如圖 1a 所示，BAD 所誘導(dǎo)的協(xié)變量偏移程度高于隨機(jī)方法所誘導(dǎo)的程度（圖 1a）。這種更高的協(xié)變量偏移程度轉(zhuǎn)化為更大的泛化誤差（圖 1d）。這表明，在模型誤設(shè)存在的情況下，非代表性設(shè)計(jì)（即更大的協(xié)變量偏移）會(huì)降低模型性能。圖 1b 和圖 1e 展示了我們的采集函數(shù)在不同 λ λ 取值下的性能表現(xiàn)。對(duì)于較大的 λ λ 值，我們預(yù)期代表性項(xiàng)將主導(dǎo)采集函數(shù)，從而產(chǎn)生一個(gè)接近測(cè)試分布的設(shè)計(jì)分布。圖 1b 顯示，當(dāng)設(shè)計(jì)更具代表性時(shí)，泛化誤差降低（圖 1e），這與定理 3.7 中的理論預(yù)測(cè)一致。這些結(jié)果再次證明：具有代表性的設(shè)計(jì)能有效減小估計(jì)偏差并提升泛化性能。

降低誤差放大的能力：為說(shuō)明命題 3.2 中各項(xiàng)在每個(gè)設(shè)計(jì)點(diǎn)上的行為，我們選取 20 次運(yùn)行中的某一次，在完成 10 步實(shí)驗(yàn)后，計(jì)算誤差分解中的每一項(xiàng)，并將各值繪制于設(shè)計(jì)范圍 [ ? 4 , 4 ]上。相關(guān)結(jié)果見圖 2。

在訓(xùn)練階段，隨機(jī)策略（Random strategy）選擇具有代表性的設(shè)計(jì)，但未包含任何針對(duì)（去）放大效應(yīng)的項(xiàng)。如圖 2a 所示，該策略有時(shí)會(huì)偶然選中去放大設(shè)計(jì)（藍(lán)色線取正值），從而導(dǎo)致誤差（去）放大項(xiàng)在所有訓(xùn)練設(shè)計(jì)上的期望值略為負(fù)值。

相比之下，BAD 與 DAD 所采用的采集函數(shù)均未顯式包含對(duì)應(yīng)于（去）放大或代表性的項(xiàng)。圖 2b 與圖 2c 表明：盡管如此，這些方法所選擇的設(shè)計(jì)在訓(xùn)練數(shù)據(jù)上總體仍導(dǎo)致一個(gè)負(fù)的放大項(xiàng)（即傾向于放大）。盡管 DAD 相較于 BAD 選擇了更具代表性的設(shè)計(jì)，但總體而言，DAD 所選設(shè)計(jì)比 BAD 所選設(shè)計(jì)更具放大性（對(duì)應(yīng)藍(lán)色線的取值更低于零）。這與定理 3.7 的結(jié)論一致，并如圖 1a 所示，導(dǎo)致 DAD 在測(cè)試分布上產(chǎn)生更高的泛化誤差。

圖 2d 顯示，我們提出的方法 BAD-Adj 所生成的訓(xùn)練集同時(shí)包含放大與去放大設(shè)計(jì)，表明盡管我們提出的采集函數(shù)并未直接針對(duì)去放大區(qū)域進(jìn)行優(yōu)化，但它選擇去放大設(shè)計(jì)的概率仍高于 BAD 或 DAD。圖 2d 還顯示，BAD-Adj 所選設(shè)計(jì)誘導(dǎo)出的整體（取）放大程度接近于零。這些結(jié)果表明，與隨機(jī)策略類似，BAD-Adj 有時(shí)也會(huì)偶然選中去放大設(shè)計(jì)。上述結(jié)果共同說(shuō)明：選擇去放大設(shè)計(jì)有助于降低泛化誤差（如圖 1e 所示），這與定理 3.7 中建立的理論結(jié)果一致。

5.2 聲源定位實(shí)驗(yàn)

6 結(jié)論

本文探討了模型誤設(shè)對(duì) BOED 方法的影響。與以往僅關(guān)注訓(xùn)練樣本代表性的研究不同，我們引入了一個(gè)新術(shù)語(yǔ)——“誤差（去）放大”（error (de-)amplification），并刻畫了“（去）放大”樣本對(duì)模型誤設(shè)魯棒性的貢獻(xiàn)。

局限性與未來(lái)工作本研究的一個(gè)局限在于，主要貢獻(xiàn)依賴于定理 3.7 所提供的洞見，而該定理僅給出了泛化性能的一個(gè)上界。該上界在多大程度上反映實(shí)際泛化性能，取決于這些界是否緊致（tightness）。因此，評(píng)估這些界的緊致性是未來(lái)工作的一個(gè)重要方向。

另一項(xiàng)局限在于，我們所提出的采集函數(shù)未顯式納入對(duì)放大風(fēng)險(xiǎn)的度量。與代表性不同，學(xué)習(xí)者無(wú)法評(píng)估訓(xùn)練樣本在多大程度上具有（去）放大特性，因?yàn)檫@需要獲知（未知的）最優(yōu)擬合近似。本工作一個(gè)顯而易見的拓展方向是：探究是否可利用非參數(shù)模型來(lái)捕捉模型的誤設(shè)情況，從而以一種原則性和自動(dòng)化的方式指導(dǎo)（去）放大設(shè)計(jì)的選擇。

原文： https://arxiv.org/pdf/2506.07805v1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.