模型誤設(shè)下貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)的泛化性能分析
Generalization Analysis for Bayesian Optimal Experiment Design under Model Misspecification
https://arxiv.org/pdf/2506.07805v1
![]()
![]()
摘要
在科學(xué)和工業(yè)的許多場(chǎng)景中,例如藥物發(fā)現(xiàn)和臨床試驗(yàn),一個(gè)核心挑戰(zhàn)是在時(shí)間和預(yù)算限制下設(shè)計(jì)實(shí)驗(yàn)。貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)(Bayesian Optimal Experimental Design, BOED)是一種選擇信息量最大設(shè)計(jì)的范式,近年來(lái)已被越來(lái)越多地應(yīng)用于此類問(wèn)題。在訓(xùn)練階段,BOED 根據(jù)預(yù)設(shè)的采集準(zhǔn)則選擇輸入。在測(cè)試階段,訓(xùn)練期間學(xué)習(xí)到的模型會(huì)遇到自然出現(xiàn)的測(cè)試樣本分布。這導(dǎo)致了一種協(xié)變量偏移(covariate shift)的情形,即訓(xùn)練樣本和測(cè)試樣本來(lái)自不同的分布。先前的研究表明,在模型誤設(shè)(model misspecification)存在的情況下,協(xié)變量偏移會(huì)放大泛化誤差。我們的第一項(xiàng)貢獻(xiàn)是提供了一個(gè)泛化誤差的數(shù)學(xué)分解,揭示了在模型誤設(shè)情況下泛化誤差的關(guān)鍵成因。我們指出,誤設(shè)下的泛化誤差不僅源于協(xié)變量偏移,還源于一種我們稱之為“誤差(去)放大”(error (de-)amplification)的現(xiàn)象——這一現(xiàn)象在以往工作中尚未被識(shí)別或研究。我們的第二項(xiàng)貢獻(xiàn)是提供了詳細(xì)的實(shí)證分析,表明那些能產(chǎn)生具有代表性且具備去放大特性的訓(xùn)練數(shù)據(jù)的方法,可以提升泛化性能。我們的第三項(xiàng)貢獻(xiàn)是開發(fā)了一種新穎的采集函數(shù),通過(guò)引入一個(gè)“代表性”項(xiàng)并隱式誘導(dǎo)去放大效應(yīng),來(lái)緩解模型誤設(shè)的影響。實(shí)驗(yàn)結(jié)果表明,我們的方法在存在模型誤設(shè)的情況下優(yōu)于傳統(tǒng) BOED。
1 引言
貝葉斯建模是在數(shù)據(jù)稀缺或獲取成本高昂時(shí)進(jìn)行推斷的一種原則性方法。大多數(shù)貝葉斯機(jī)器學(xué)習(xí)方法都是在假設(shè)真實(shí)數(shù)據(jù)生成過(guò)程(DGP)包含在所選模型族中的前提下開發(fā)的 [1]。然而,在復(fù)雜的現(xiàn)實(shí)世界環(huán)境中,這一假設(shè)很少成立,學(xué)習(xí)者無(wú)法獲知真實(shí)的 DGP [2, 3]。因此,真實(shí)的 DGP 通常位于所假設(shè)的模型族之外。模型誤設(shè)這一現(xiàn)象的不可避免性,被一句略帶諷刺意味的名言所概括:“所有模型都是錯(cuò)的”[5, 6]。模型誤設(shè)的常見原因包括遺漏變量 [7]、對(duì)誤差項(xiàng)結(jié)構(gòu)的錯(cuò)誤認(rèn)知(例如未能考慮異方差性或自相關(guān)性)[8, 9],或選擇了信息不足或表達(dá)能力不足的模型類 [7, 10]。模型誤設(shè)的后果包括推斷偏差 [8, 11, 12, 13]、不可靠的近似(例如在基于模擬的推斷方法中 [14, 15, 16]),以及次優(yōu)決策 [17, 18]。
已有大量文獻(xiàn)研究了在數(shù)據(jù)獨(dú)立同分布(i.i.d.)或從學(xué)習(xí)者希望其推斷能泛化的分布中“被動(dòng)”收集的情況下,模型誤設(shè)對(duì)貝葉斯推斷的影響 [19, 20, 21, 4, 22, 23]。然而,由于大規(guī)模數(shù)據(jù)集的廣泛可用,主動(dòng)學(xué)習(xí)方法的使用變得越來(lái)越普遍 [24]。這些方法通過(guò)選擇訓(xùn)練數(shù)據(jù)以適配特定的學(xué)習(xí)目標(biāo) [25, 26]。主動(dòng)學(xué)習(xí)方法兩次依賴于指定的模型:一次用于擬合訓(xùn)練數(shù)據(jù)的推斷,另一次用于選擇數(shù)據(jù) [27]。因此,模型誤設(shè)對(duì)這些方法具有雙重影響,可能在采集函數(shù)和最終推斷中都引入偏差。特別是在主動(dòng)學(xué)習(xí)的背景下,模型誤設(shè)可能導(dǎo)致低質(zhì)量的數(shù)據(jù)集 [28, 29, 30, 31, 26]。理解模型誤設(shè)的后果對(duì)于開發(fā)魯棒的主動(dòng)學(xué)習(xí)方法至關(guān)重要。
在貝葉斯框架下,貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)(BOED)是一種自然且常用的主動(dòng)學(xué)習(xí)方法 [18]。BOED 通過(guò)最大化一個(gè)稱為期望信息增益(expected information gain)的采集函數(shù)來(lái)選擇最優(yōu)設(shè)計(jì),從而在許多應(yīng)用中實(shí)現(xiàn)時(shí)間和預(yù)算效率 [18, 32],例如藥物發(fā)現(xiàn) [33]、臨床試驗(yàn)設(shè)計(jì) [32]、化學(xué) [34, 35]、生物學(xué) [36, 37] 和心理學(xué) [38, 39]。盡管文獻(xiàn)中已承認(rèn) BOED 在模型誤設(shè)情況下的局限性,但僅有少數(shù)論文對(duì)此進(jìn)行了研究 [18, 40, 41, 42, 43]。
我們對(duì)模型誤設(shè)下的泛化誤差提供了新穎的理論分析。我們的分析表明,能夠?qū)δP驼`設(shè)具有魯棒性的訓(xùn)練數(shù)據(jù)集具備兩個(gè)特性:它們代表了目標(biāo)數(shù)據(jù)生成分布,并且具有“去放大”(de-amplifying)特性。期望信息增益既不包含代表性項(xiàng),也不包含去放大項(xiàng),因此標(biāo)準(zhǔn) BOED 可能導(dǎo)致既不具代表性也不具去放大特性的訓(xùn)練數(shù)據(jù)集。從這個(gè)意義上說(shuō),標(biāo)準(zhǔn) BOED 對(duì)模型誤設(shè)并不魯棒。
非代表性訓(xùn)練數(shù)據(jù)。BOED 選擇樣本以實(shí)現(xiàn)特定目標(biāo),而這些樣本很可能無(wú)法反映學(xué)習(xí)者希望泛化的分布。換句話說(shuō),BOED 引入了一種分布偏移形式,即用于(主動(dòng))學(xué)習(xí)的分布與用于評(píng)估的分布不同。近期關(guān)于模型誤設(shè)與分布偏移相互作用的研究提出了“誤設(shè)放大”(misspecification amplification)的概念 [44],即由誤設(shè)引起的泛化誤差被測(cè)試與訓(xùn)練輸入分布之間的密度比“放大”。在 BOED 的背景下也觀察到了類似現(xiàn)象:在模型誤設(shè)存在的情況下,某些設(shè)置中的泛化誤差已被證明同時(shí)依賴于模型誤設(shè)的程度和分布偏移的程度 [41]。
去放大訓(xùn)練數(shù)據(jù)。正如我們對(duì)泛化誤差的新穎分解所示,泛化性能不僅取決于訓(xùn)練數(shù)據(jù)的代表性,還取決于其與模型(誤)設(shè)定的交互方式:當(dāng)訓(xùn)練數(shù)據(jù)最能代表測(cè)試分布,并且同時(shí)位于模型誤設(shè)方向“有益”(即減少誤差)的區(qū)域時(shí),泛化性能得到提升。我們將這一特性稱為誤差“去放大”(error “de-amplification”),以強(qiáng)調(diào)其作用是抵消而非放大誤設(shè)的影響。
貢獻(xiàn)。在本工作中,我們探討了模型誤設(shè)下的 BOED 問(wèn)題,并做出以下貢獻(xiàn):
- 泛化誤差的理論分解。以往工作主要探討了誤設(shè)和分布偏移的影響,忽略了去放大設(shè)計(jì)的作用。我們正式將泛化誤差分解為三個(gè)組成部分:(1) 誤設(shè)偏差,(2) 估計(jì)偏差,以及 (3) 我們引入的一個(gè)新項(xiàng)——誤差(去)放大。我們還推導(dǎo)了一個(gè)泛化誤差的上界,刻畫了其對(duì)訓(xùn)練數(shù)據(jù)代表性、去放大程度以及模型誤設(shè)的依賴關(guān)系。
- 模型誤設(shè)下 BOED 的實(shí)證分析。我們從對(duì)模型誤設(shè)的魯棒性角度評(píng)估了短視(myopic)和非短視(non-myopic)BOED 方法。結(jié)果表明,性能差異可由我們分解中的各項(xiàng)解釋。我們提供了詳細(xì)的實(shí)證分析支持這一效應(yīng):能產(chǎn)生具有代表性且去放大訓(xùn)練數(shù)據(jù)的方法提升了泛化性能。
- 通過(guò)代表性與去放大構(gòu)建的新采集函數(shù)。我們提出了一種新穎的采集函數(shù),旨在通過(guò)識(shí)別那些不僅信息豐富、而且具有代表性并隱式具備去放大特性的設(shè)計(jì),來(lái)緩解模型誤設(shè)的影響。我們的實(shí)驗(yàn)證明,該新采集函數(shù)在存在模型誤設(shè)的情況下優(yōu)于傳統(tǒng) BOED。
2 預(yù)備知識(shí)
2.1 問(wèn)題設(shè)定
![]()
![]()
2.2 貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)
貝葉斯最優(yōu)實(shí)驗(yàn)設(shè)計(jì)(Bayesian Optimal Experimental Design, BOED)是一種基于模型的框架,通過(guò)最大化關(guān)于參數(shù)的期望信息量來(lái)選擇最優(yōu)設(shè)計(jì),從而實(shí)現(xiàn)預(yù)算和時(shí)間效率 [18, 32]。其主要目標(biāo)是找到一個(gè)設(shè)計(jì) ξ ,該設(shè)計(jì)在能夠提供關(guān)于參數(shù) θ θ最多信息的意義上是最優(yōu)的。期望信息增益(Expected Information Gain, EIG)用于刻畫關(guān)于 θ 所獲得的信息量 [47, 48]:
![]()
傳統(tǒng) BOED 方法 [49, 50],亦稱貝葉斯自適應(yīng)設(shè)計(jì)(Bayesian Adaptive Design, BAD),通過(guò)反復(fù)評(píng)估式 (3) 來(lái)做出設(shè)計(jì)決策,并利用貝葉斯推斷對(duì)迄今為止所獲數(shù)據(jù)進(jìn)行建模,從而更新底層模型。傳統(tǒng) BOED 在計(jì)算上代價(jià)高昂,原因在于每一步均需耗費(fèi)大量計(jì)算資源以估計(jì)和優(yōu)化 EIG(ξ) 并更新模型。為緩解這些局限性,已提出基于策略(policy-based)的算法 [43, 51],例如深度自適應(yīng)設(shè)計(jì)(Deep Adaptive Design, DAD)[40],該方法通過(guò)在一組模擬實(shí)驗(yàn)軌跡上訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)設(shè)計(jì)選擇過(guò)程的完全 amortization;由此,基于策略的方法消除了逐步在線模型更新的需求,顯著降低了計(jì)算開銷。
2.3 分布偏移
![]()
3 理論結(jié)果
3.1 泛化誤差的分解
近期研究表明,泛化誤差取決于協(xié)變量偏移程度(即訓(xùn)練數(shù)據(jù)在多大程度上不能代表測(cè)試分布)與模型誤設(shè)程度之間的相互作用 [44, 52, 53]。在本節(jié)中,我們指出,泛化誤差還額外依賴于一種我們稱之為誤差(去)放大(error (de-)amplification)現(xiàn)象的存在程度。我們證明,泛化誤差可被分解為三項(xiàng),分別反映了誤設(shè)偏差、估計(jì)偏差和誤差(去)放大各自所作出的貢獻(xiàn)。
![]()
![]()
3.2 一個(gè)含誤差(去)放大項(xiàng)的泛化誤差上界
![]()
![]()
我們的結(jié)果。定理 3.7 通過(guò)顯式刻畫泛化誤差的行為,將 [44] 的結(jié)果進(jìn)行了擴(kuò)展,其中納入了誤差(去)放大項(xiàng)。在 BOED 的有限訓(xùn)練樣本設(shè)定下,這一額外項(xiàng)尤為重要,因?yàn)樗坍嬃擞?xùn)練數(shù)據(jù)與模型誤設(shè)之間的交互作用如何放大或去放大泛化誤差。
![]()
![]()
![]()
4 一種新穎的采集函數(shù)
利用定理 3.7 所提供的洞見,我們?cè)O(shè)計(jì)了一種采集函數(shù),該函數(shù)能夠識(shí)別出既具有代表性又具備去放大特性的設(shè)計(jì),同時(shí)還能提供關(guān)于感興趣參數(shù)的信息。盡管該采集函數(shù)并未包含一個(gè)顯式的去放大項(xiàng)(因?yàn)檫@一性質(zhì)在實(shí)踐中不可計(jì)算;參見備注 3.9),但我們的實(shí)證結(jié)果表明,它仍然傾向于比其他 BOED 方法選擇更多具有去放大特性的樣本。為了度量?jī)蓚€(gè)數(shù)據(jù)集所隱含分布之間的距離,我們采用最大均值差異(Maximum Mean Discrepancy, MMD)。
為應(yīng)對(duì)協(xié)變量偏移,我們通過(guò)引入一個(gè)基于 MMD 的修正項(xiàng)對(duì)標(biāo)準(zhǔn) EIG 采集函數(shù)進(jìn)行修改。其核心思想是鼓勵(lì)選擇那些不僅具有高信息增益,而且有助于減小訓(xùn)練點(diǎn)與測(cè)試點(diǎn)分布之間差異的設(shè)計(jì)點(diǎn)。具體而言,我們采用如下形式:
![]()
![]()
5 實(shí)驗(yàn)
本節(jié)包含對(duì)比實(shí)驗(yàn)與分析,旨在探究在模型誤設(shè)存在的情況下,何種算法在兩種實(shí)驗(yàn)范式(一個(gè)玩具示例與一個(gè)源位置定位范式)中表現(xiàn)最優(yōu)。我們還通過(guò)實(shí)驗(yàn)對(duì)第 3 節(jié)中的理論結(jié)果進(jìn)行了經(jīng)驗(yàn)性驗(yàn)證。
我們比較以下方法:
- 隨機(jī)策略(Random strategy):從測(cè)試分布中隨機(jī)選擇設(shè)計(jì);
- 貝葉斯自適應(yīng)設(shè)計(jì)(Bayesian Adaptive Design, BAD)[49]:依據(jù)傳統(tǒng) BOED 策略逐次選擇設(shè)計(jì),即在實(shí)驗(yàn)的每一步進(jìn)行選擇;
- 深度自適應(yīng)設(shè)計(jì)(Deep Adaptive Design, DAD)[40]:依據(jù)一種基于策略的 BOED 算法選擇設(shè)計(jì),即對(duì)整個(gè)設(shè)計(jì)過(guò)程進(jìn)行完全 amortized(離線訓(xùn)練);
- 修正版 BAD(Adjusted BAD, BAD-Adj.):依據(jù)我們提出的新型采集函數(shù)選擇設(shè)計(jì)。
除我們新采集函數(shù)的相對(duì)性能外,我們亦關(guān)注模型誤設(shè)如何影響 BAD 與 DAD 算法的性能差異。BAD 的迭代范式可使其在每次迭代中直接與真實(shí) DGP 交互,從而在模型誤設(shè)時(shí)獲得適應(yīng)機(jī)會(huì);相比之下,DAD 為離線訓(xùn)練,無(wú)法通過(guò)與真實(shí) DGP 的交互進(jìn)行適應(yīng)。
5.1 玩具示例
![]()
![]()
代表性與泛化誤差之間的關(guān)系:圖 1 表明,在正確設(shè)定情形下,所有方法均產(chǎn)生相似的泛化誤差(圖 1d),無(wú)論協(xié)變量偏移程度如何(圖 1a)。這表明,當(dāng)模型正確設(shè)定時(shí),協(xié)變量偏移不會(huì)顯著影響泛化性能。然而,在模型誤設(shè)情形下,協(xié)變量偏移對(duì)模型性能產(chǎn)生負(fù)面影響。如圖 1a 所示,BAD 所誘導(dǎo)的協(xié)變量偏移程度高于隨機(jī)方法所誘導(dǎo)的程度(圖 1a)。這種更高的協(xié)變量偏移程度轉(zhuǎn)化為更大的泛化誤差(圖 1d)。這表明,在模型誤設(shè)存在的情況下,非代表性設(shè)計(jì)(即更大的協(xié)變量偏移)會(huì)降低模型性能。圖 1b 和圖 1e 展示了我們的采集函數(shù)在不同 λ λ 取值下的性能表現(xiàn)。對(duì)于較大的 λ λ 值,我們預(yù)期代表性項(xiàng)將主導(dǎo)采集函數(shù),從而產(chǎn)生一個(gè)接近測(cè)試分布的設(shè)計(jì)分布。圖 1b 顯示,當(dāng)設(shè)計(jì)更具代表性時(shí),泛化誤差降低(圖 1e),這與定理 3.7 中的理論預(yù)測(cè)一致。這些結(jié)果再次證明:具有代表性的設(shè)計(jì)能有效減小估計(jì)偏差并提升泛化性能。
降低誤差放大的能力:為說(shuō)明命題 3.2 中各項(xiàng)在每個(gè)設(shè)計(jì)點(diǎn)上的行為,我們選取 20 次運(yùn)行中的某一次,在完成 10 步實(shí)驗(yàn)后,計(jì)算誤差分解中的每一項(xiàng),并將各值繪制于設(shè)計(jì)范圍 [ ? 4 , 4 ]上。相關(guān)結(jié)果見圖 2。
![]()
在訓(xùn)練階段,隨機(jī)策略(Random strategy)選擇具有代表性的設(shè)計(jì),但未包含任何針對(duì)(去)放大效應(yīng)的項(xiàng)。如圖 2a 所示,該策略有時(shí)會(huì)偶然選中去放大設(shè)計(jì)(藍(lán)色線取正值),從而導(dǎo)致誤差(去)放大項(xiàng)在所有訓(xùn)練設(shè)計(jì)上的期望值略為負(fù)值。
相比之下,BAD 與 DAD 所采用的采集函數(shù)均未顯式包含對(duì)應(yīng)于(去)放大或代表性的項(xiàng)。圖 2b 與圖 2c 表明:盡管如此,這些方法所選擇的設(shè)計(jì)在訓(xùn)練數(shù)據(jù)上總體仍導(dǎo)致一個(gè)負(fù)的放大項(xiàng)(即傾向于放大)。盡管 DAD 相較于 BAD 選擇了更具代表性的設(shè)計(jì),但總體而言,DAD 所選設(shè)計(jì)比 BAD 所選設(shè)計(jì)更具放大性(對(duì)應(yīng)藍(lán)色線的取值更低于零)。這與定理 3.7 的結(jié)論一致,并如圖 1a 所示,導(dǎo)致 DAD 在測(cè)試分布上產(chǎn)生更高的泛化誤差。
圖 2d 顯示,我們提出的方法 BAD-Adj 所生成的訓(xùn)練集同時(shí)包含放大與去放大設(shè)計(jì),表明盡管我們提出的采集函數(shù)并未直接針對(duì)去放大區(qū)域進(jìn)行優(yōu)化,但它選擇去放大設(shè)計(jì)的概率仍高于 BAD 或 DAD。圖 2d 還顯示,BAD-Adj 所選設(shè)計(jì)誘導(dǎo)出的整體(取)放大程度接近于零。這些結(jié)果表明,與隨機(jī)策略類似,BAD-Adj 有時(shí)也會(huì)偶然選中去放大設(shè)計(jì)。上述結(jié)果共同說(shuō)明:選擇去放大設(shè)計(jì)有助于降低泛化誤差(如圖 1e 所示),這與定理 3.7 中建立的理論結(jié)果一致。
5.2 聲源定位實(shí)驗(yàn)
![]()
![]()
6 結(jié)論
本文探討了模型誤設(shè)對(duì) BOED 方法的影響。與以往僅關(guān)注訓(xùn)練樣本代表性的研究不同,我們引入了一個(gè)新術(shù)語(yǔ)——“誤差(去)放大”(error (de-)amplification),并刻畫了“(去)放大”樣本對(duì)模型誤設(shè)魯棒性的貢獻(xiàn)。
局限性與未來(lái)工作本研究的一個(gè)局限在于,主要貢獻(xiàn)依賴于定理 3.7 所提供的洞見,而該定理僅給出了泛化性能的一個(gè)上界。該上界在多大程度上反映實(shí)際泛化性能,取決于這些界是否緊致(tightness)。因此,評(píng)估這些界的緊致性是未來(lái)工作的一個(gè)重要方向。
另一項(xiàng)局限在于,我們所提出的采集函數(shù)未顯式納入對(duì)放大風(fēng)險(xiǎn)的度量。與代表性不同,學(xué)習(xí)者無(wú)法評(píng)估訓(xùn)練樣本在多大程度上具有(去)放大特性,因?yàn)檫@需要獲知(未知的)最優(yōu)擬合近似。本工作一個(gè)顯而易見的拓展方向是:探究是否可利用非參數(shù)模型來(lái)捕捉模型的誤設(shè)情況,從而以一種原則性和自動(dòng)化的方式指導(dǎo)(去)放大設(shè)計(jì)的選擇。
原文: https://arxiv.org/pdf/2506.07805v1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.