網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

深度生成分位數(shù)貝葉斯

2026-02-11 23:27:56　來(lái)源: CreateAMind

上海舉報(bào)

分享至

深度生成分位數(shù)貝葉斯

Deep Generative Quantile Bayes

https://proceedings.mlr.press/v258/kim25d.html

摘要
我們通過(guò)深度生成式分位數(shù)學(xué)習(xí)，開(kāi)發(fā)了一種多元后驗(yàn)抽樣方法。其抽樣過(guò)程隱含于一個(gè)前推映射中，該映射可以變換從后驗(yàn)分布中抽取的獨(dú)立同分布隨機(jī)向量樣本。我們利用多元分位數(shù)中的蒙日-坎托羅維奇深度，直接從貝葉斯可信集中抽樣，這是典型后驗(yàn)抽樣方法不具備的獨(dú)特功能。為優(yōu)化分位數(shù)映射的訓(xùn)練，我們?cè)O(shè)計(jì)了一個(gè)能自動(dòng)執(zhí)行概要統(tǒng)計(jì)量提取的神經(jīng)網(wǎng)絡(luò)。這種額外的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)帶來(lái)了性能優(yōu)勢(shì)，包括支持收縮（即我們的后驗(yàn)近似會(huì)隨著觀測(cè)樣本量的增加而收縮）。我們?cè)趲讉€(gè)示例中展示了本方法的實(shí)用性，這些示例因缺乏似然函數(shù)而使得經(jīng)典MCMC方法不可行。最后，我們?yōu)樵摲治粩?shù)學(xué)習(xí)框架提供了如下頻率派理論依據(jù)：估計(jì)的向量分位數(shù)、恢復(fù)的后驗(yàn)分布以及相應(yīng)的貝葉斯可信集的一致性。

1 引言

本研究的目的是為似然函數(shù)僅能通過(guò)模擬獲取的隱式模型，開(kāi)發(fā)一種從貝葉斯后驗(yàn)分布中抽樣的生成式方法。我們提出了一種基于分位數(shù)學(xué)習(xí)的新方法，作為對(duì)現(xiàn)有對(duì)抗性抽樣方法（Wang and Ro?ková, 2022）的替代。在貝葉斯領(lǐng)域之外，分位數(shù)學(xué)習(xí)已在廣泛的實(shí)踐應(yīng)用中證明其價(jià)值，尤其適用于目標(biāo)分布呈現(xiàn)出偏斜、厚尾特征，或尾部行為是主要關(guān)注點(diǎn)的場(chǎng)景（Yu 等人, 2003）。近期，統(tǒng)計(jì)學(xué)界內(nèi)部對(duì)于將分位數(shù)學(xué)習(xí)應(yīng)用于生成式建模的興趣日益增長(zhǎng)，這包括了貝葉斯視角（Polson 和 Sokolov, 2023）和頻率派視角（Wang 等人, 2024）的研究。我們的工作將此關(guān)注點(diǎn)從一維拓展到了多維領(lǐng)域。

定義一個(gè)多元分位數(shù)具有挑戰(zhàn)性，因?yàn)閺木鶆蚍植嫉侥繕?biāo)多元分布的映射并不唯一。此外，盡管分位數(shù)函數(shù)的單調(diào)性在單變量情況下可以得到保證，但這一性質(zhì)無(wú)法自動(dòng)推廣到多元情境。這些模糊性可以通過(guò)僅考慮那些作為凸勢(shì)函數(shù)梯度的映射來(lái)得到解決（Carlier 等人, 2016）。

遵循 Wang 和 Ro?ková (2022) 的方法，我們通過(guò)在由似然模擬器（即前向采樣器）和先驗(yàn)?zāi)M器生成的模擬數(shù)據(jù)上訓(xùn)練我們的采樣器，從而避免了對(duì) MCMC 的需求。然而，我們采用了一種直接學(xué)習(xí)分位數(shù)映射的不同路徑。

相反，我們的目標(biāo)是計(jì)算均勻分布與給定 X X 時(shí) θ θ 的條件分布之間的 2-Wasserstein 距離，這自然地產(chǎn)生了一個(gè)可用于后驗(yàn)抽樣的傳輸映射。這種方法不同于 Wang 和 Ro?ková (2022)，他們是通過(guò)迭代估計(jì)并最小化這個(gè) Wasserstein 距離來(lái)實(shí)現(xiàn)的（更詳細(xì)的比較請(qǐng)參見(jiàn)附錄 A）。

本文的一個(gè)特定貢獻(xiàn)是將概要統(tǒng)計(jì)量納入到后驗(yàn)分位數(shù)映射中。受“噪聲外包引理”的啟發(fā)，這一關(guān)鍵的技術(shù)擴(kuò)展不僅使得學(xué)習(xí)凸勢(shì)函數(shù)具有可行性，而且使得一系列分位數(shù)學(xué)習(xí)方法能獲得理論上的收斂性保證。摘要統(tǒng)計(jì)量學(xué)習(xí)這一關(guān)鍵步驟已在文獻(xiàn)中被廣泛研究。例如，長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM, Hochreiter (1997)）處理相關(guān)觀測(cè)，適用于數(shù)據(jù)點(diǎn)順序至關(guān)重要的情況。同時(shí)，深度集合神經(jīng)網(wǎng)絡(luò)（下文簡(jiǎn)稱 DeepSet, Zaheer 等人 (2017)）專為表示可交換數(shù)據(jù)的摘要統(tǒng)計(jì)量而設(shè)計(jì)。我們的方法整合了這兩種架構(gòu)以增強(qiáng)摘要統(tǒng)計(jì)量的學(xué)習(xí)。

由于真實(shí)后驗(yàn)會(huì)隨著樣本量增加而收縮，一致的置信集合也應(yīng)隨著 n n的增加而縮小，這一現(xiàn)象我們稱之為支撐收縮。我們通過(guò)實(shí)驗(yàn)證明，應(yīng)用 DeepSet 的我們的方法展現(xiàn)了支撐收縮。此外，在真實(shí)后驗(yàn)已知的模擬研究中，即使維度 n n很高，我們方法得到的置信集合也接近于真實(shí)集合，這與我們的理論發(fā)現(xiàn)一致。雖然 Jiang 等人 (2017) 也利用深度學(xué)習(xí)進(jìn)行自動(dòng)摘要統(tǒng)計(jì)量學(xué)習(xí)，但他們的方法與 Polson 和 Sokolov (2023) 更為接近，因?yàn)樗麄兠鞔_地應(yīng)用監(jiān)督學(xué)習(xí)，在給定 X i
時(shí)預(yù)測(cè) θ i
。

我們的方法學(xué)習(xí)從一個(gè)球面均勻分布出發(fā)的前推映射。因此，任意水平 τ ∈ ( 0 , 1 ) 的可信集，可以通過(guò)將此映射應(yīng)用于半徑為 τ τ的內(nèi)球來(lái)獲得。與傳統(tǒng)的貝葉斯后驗(yàn)抽樣方法（如MCMC或ABC）需從后驗(yàn)抽取中間接抽樣不同，我們的方法無(wú)需重抽樣。可信集的形式定義依賴于數(shù)據(jù)深度（Hallin等人，2021）這一概念。我們選擇的是蒙日-坎托羅維奇深度（Chernozhukov等人，2017），它可以看作是向量分位數(shù)的一個(gè)副產(chǎn)品，在分位數(shù)空間中可解釋為一個(gè)勢(shì)函數(shù)。其等勢(shì)面扮演著分位數(shù)等高線的角色，可等價(jià)地視為可信集。

文獻(xiàn)中已有眾多研究探索了深度分位數(shù)回歸的理論。White (1992) 使用篩法建立了基于單隱層前饋網(wǎng)絡(luò)的非參數(shù)條件分位數(shù)估計(jì)器的一致性。Padilla 等人 (2022) 證明了最小化分位數(shù)損失的條件分位數(shù)估計(jì)的一致性結(jié)果。我們基于 Chernozhukov 等人 (2017) 提出的一個(gè)更通用的框架，并證明了估計(jì)的向量分位數(shù)的漸近一致性。我們還證明了恢復(fù)的后驗(yàn)分位數(shù)在 2-Wasserstein 距離的意義上收斂于真實(shí)后驗(yàn)。

我們的貢獻(xiàn)可以總結(jié)如下：

我們使用兩種策略將 Polson 和 Sokolov (2023) 的方法從一維參數(shù) θ 擴(kuò)展到 d 維。第一種簡(jiǎn)單策略利用聯(lián)合分布 π ( θ ∣ X ) 的鏈?zhǔn)椒▌t表示，學(xué)習(xí) d 個(gè)單變量采樣器。給定 θ 中變量的一個(gè)特定排序，我們通過(guò)將先前參數(shù)（從先前的單變量后驗(yàn)采樣器模擬得到）加入序列中下一個(gè)參數(shù)的訓(xùn)練數(shù)據(jù)表中，來(lái)順序地學(xué)習(xí)這些采樣器（參見(jiàn)第 D 節(jié)）。接下來(lái)，我們?yōu)樯墒截惾~斯開(kāi)發(fā)我們的分位數(shù)學(xué)習(xí)方法。
作為副產(chǎn)品，我們的多元分位數(shù)學(xué)習(xí)方法使得能夠直接從多元貝葉斯可信集進(jìn)行模擬。可信集是貝葉斯推斷的基礎(chǔ)，我們可以直接針對(duì)它們進(jìn)行模擬，而無(wú)需施加任何嚴(yán)格的幾何結(jié)構(gòu)（若使用 MCMC 或 ABC 方法則需施加結(jié)構(gòu)）。然后，采樣點(diǎn)的凸包提供了可信集的估計(jì)。
并非所有深度學(xué)習(xí)架構(gòu)在生成式建模中都具有同等效用。我們?cè)O(shè)計(jì)了一種特定的網(wǎng)絡(luò)，用于自動(dòng)學(xué)習(xí)摘要統(tǒng)計(jì)量，能夠同時(shí)處理不斷增加的觀測(cè)數(shù)量以及它們之間的依賴關(guān)系。使用這種方法，我們觀察到估計(jì)的可信集會(huì)隨著樣本量的增加而收縮，我們稱此現(xiàn)象為支撐收縮。如果可信集正收斂于基于真實(shí)后驗(yàn)的真實(shí)集合，那么支撐收縮是一個(gè)必然的標(biāo)志。
我們?yōu)槲覀兊亩嘣治粩?shù)學(xué)習(xí)方法以及 Polson 和 Sokolov (2023) 的初始方法提供了頻率學(xué)派理論。現(xiàn)有的關(guān)于單變量分位數(shù)學(xué)習(xí)的理論結(jié)果無(wú)法直接推廣到多變量情況；我們的工作填補(bǔ)了這一空白。

具體而言，我們證明，當(dāng) N → ∞
時(shí)：
(1) 估計(jì)的向量分位數(shù)函數(shù)實(shí)現(xiàn)了一致性，
(2) 恢復(fù)的后驗(yàn)分布在 2-Wasserstein 距離的意義上一致收斂于真實(shí)后驗(yàn)，以及
(3) 貝葉斯可信集收斂于真實(shí)集。
這些通用的理論結(jié)果適用于所有基于前饋神經(jīng)網(wǎng)絡(luò)、利用摘要統(tǒng)計(jì)量學(xué)習(xí)凸勢(shì)函數(shù)的分位數(shù)學(xué)習(xí)方法。

本文后續(xù)內(nèi)容安排如下。第 2 節(jié)回顧多維分位數(shù)學(xué)習(xí)的最新進(jìn)展。第 3 節(jié)介紹我們的生成式分位數(shù)方法。第 4 節(jié)的理論研究證明了估計(jì)的向量分位數(shù)以及從中恢復(fù)的后驗(yàn)分布的一致性。我們?cè)诘?5 節(jié)中探究所提方法的實(shí)證性能。最后，在第 6 節(jié)對(duì)全文進(jìn)行總結(jié)。

2 多元分位數(shù)學(xué)習(xí)

分位數(shù)學(xué)習(xí)在統(tǒng)計(jì)學(xué)中已有悠久的文獻(xiàn)歷史。關(guān)于一維分位數(shù)學(xué)習(xí)的簡(jiǎn)要回顧將在附錄 B.1 節(jié)（補(bǔ)充材料）中提供。由于在中不存在明顯的“排序”概念，因此將分位數(shù)、符號(hào)和秩等概念從單變量情形擴(kuò)展到多元設(shè)定也并非易事。關(guān)于多元分位數(shù)各種概念的全面討論，我們參考 Hallin (2022)。我們的工作基于最近發(fā)展起來(lái)的最優(yōu)傳輸視角之一。

2.1 用于分位數(shù)學(xué)習(xí)的最優(yōu)傳輸

3 生成式貝葉斯計(jì)算

在本節(jié)中，我們拓展了 Carlier 等人 (2016)的條件向量分位數(shù)，以采用摘要統(tǒng)計(jì)量進(jìn)行貝葉斯分位數(shù)學(xué)習(xí)。然后，介紹我們的深度生成式貝葉斯算法與實(shí)現(xiàn)，以及可信集的計(jì)算。

3.1 生成式貝葉斯的向量分位數(shù)

同樣值得指出的是，引入任意形式的摘要統(tǒng)計(jì)量 f ( X ) 是對(duì) Carlier 等人 (2017) 原始方法的一種改進(jìn)，后者用 X X本身代替 f ( X ) 。該方法依賴于一個(gè)假設(shè)，即勢(shì)函數(shù)

這是 (3.2) 式一個(gè)可行的拓展，因?yàn)榇嬖诙喾N摘要統(tǒng)計(jì)量，通常是一個(gè)在某種變換下不可數(shù)的類。更重要的是，假設(shè) 1在我們的方法論中扮演核心角色，不應(yīng)簡(jiǎn)單視為僅僅是 (3.2) 式的技術(shù)性推廣。學(xué)習(xí)勢(shì)函數(shù) ψ ( u , x ) 的目標(biāo)被拆分為兩個(gè)子任務(wù)：學(xué)習(xí)摘要統(tǒng)計(jì)量 f ( x ) 以及擬合凸的函數(shù)系數(shù) φ ( u )
和 b ( u )
。這為一類具有理論保證的分位數(shù)學(xué)習(xí)方法敞開(kāi)了大門，并成為了我們所提算法的基石。

3.2 深度生成式分位數(shù)貝葉斯

為了訓(xùn)練函數(shù) φ、b 和 f，我們對(duì)以下目標(biāo)函數(shù)進(jìn)行優(yōu)化：

在我們的實(shí)現(xiàn)中，我們使用 Adam 優(yōu)化器及其默認(rèn)的超參數(shù)設(shè)置，學(xué)習(xí)率為 0.01。在每個(gè)周期（每 100 次迭代），我們將學(xué)習(xí)率乘以 0.99 進(jìn)行衰減。

3.3 摘要統(tǒng)計(jì)量的自動(dòng)學(xué)習(xí)

我們通過(guò) DeepSet 和 LSTM 設(shè)計(jì) f ( ? )
的方式，有潛力擴(kuò)展到其他基于深度學(xué)習(xí)的貝葉斯方法，包括 Wang 和 Ro?ková (2022)以及 Kim 和 Rockova (2023)。當(dāng)使用標(biāo)準(zhǔn)的全連接神經(jīng)網(wǎng)絡(luò)時(shí)，網(wǎng)絡(luò)規(guī)模（需要優(yōu)化的網(wǎng)絡(luò)參數(shù)量）會(huì)隨著輸入維度的增加而擴(kuò)大，這對(duì)于較大的 n n來(lái)說(shuō)是不現(xiàn)實(shí)的。深度集合的設(shè)計(jì)也被用于神經(jīng)估計(jì)器，例如，在極值分析（Sainsbury-Dale 等人，2024）和空間數(shù)據(jù)分析（Richards 等人，2023）中。

3.4 可信集計(jì)算

生成式分位數(shù)后驗(yàn)學(xué)習(xí)使得我們能夠直接從多元后驗(yàn)可信集中采樣。現(xiàn)有的采樣器（如 MCMC 和 ABC 方法）需要先對(duì)集合的幾何形狀做出假定（例如橢球體），然后基于選定的度量使用后驗(yàn)抽取樣本來(lái)計(jì)算這些集合。相反，我們的方法不對(duì)幾何結(jié)構(gòu)施加任何特定的限制，并且能夠自動(dòng)學(xué)習(xí)可信集的形狀。

正如 Chernozhukov 等人 (2017) 和 Hallin 等人 (2021) 所提出的，向量分位數(shù)定義了數(shù)據(jù)深度，由此我們可以推導(dǎo)出深度區(qū)域（最深集合）和分位數(shù)等高線。那么，概率為 τ τ的深度區(qū)域就可以用作概率為 τ τ的可信集。得益于 MK 深度的這些理想特性，我們將在第 4 節(jié)中看到，我們的方法是漸近有效的，即這些可信集會(huì)收斂于由真實(shí)底層后驗(yàn)推導(dǎo)出的理想集合。

4 理論研究

一個(gè)重要的說(shuō)明與支撐收縮相關(guān)。隨著觀測(cè)數(shù)量 n n的增加，真實(shí)的底層后驗(yàn)會(huì)發(fā)生收縮，從而導(dǎo)致真實(shí)集合的收縮。如果我們目前所做的所有假設(shè)都得到滿足，那么推論 4 意味著貝葉斯可信集應(yīng)該以與真實(shí)集合相似的方式收縮。違反這些假設(shè)可能是許多先前方法未能觀察到支撐收縮的原因，這也是可信集未收斂于真實(shí)集的一個(gè)跡象。

本節(jié)的理論分析并非專門針對(duì)第 3 節(jié)中的方法，而是更為通用。作為對(duì)第 3.1 節(jié)討論的補(bǔ)充，我們希望強(qiáng)調(diào)，假設(shè) 1 的動(dòng)機(jī)源于引理 1，即噪聲外包引理。在更廣泛的層面上，只要這些方法能夠同時(shí)學(xué)習(xí)摘要統(tǒng)計(jì)量 f ( X )
以及凸函數(shù) φ ( u )
和 b ( u ) ，并且滿足技術(shù)條件，那么由該假設(shè)所支持的廣泛分位數(shù)學(xué)習(xí)方法在理論上都可以是一致的。

5 數(shù)值研究 5.1 高斯共軛模擬

這里，我們使用 DeepSet 特征提取器，針對(duì)少數(shù)選定的 X = x
值來(lái)增加 n n。通過(guò) DeepSet 特征網(wǎng)絡(luò)（順序不變網(wǎng)絡(luò)設(shè)計(jì)），我們可以看到我們的方法能夠適應(yīng)不斷增加的 n n值。我們?cè)趫D 2（第二行）中強(qiáng)調(diào)，當(dāng) x x相對(duì)靠近原點(diǎn)時(shí)，隨著 n n的增加，可以清晰地觀察到支撐收縮（即估計(jì)的后驗(yàn)等高線集收縮）。在此圖中，我們還可以看到使用 DeepSet 的效果，并與沒(méi)有特征提取器（ f ( x ) = x
）或使用非充分統(tǒng)計(jì)量（ f ( x ) = x
的情況進(jìn)行了比較。在附錄的 E 節(jié)中，我們提供了更多實(shí)驗(yàn)細(xì)節(jié)、與 B-GAN (Wang 和 Ro?ková, 2022) 以及自回歸方法的比較，以及當(dāng) n = 2 時(shí)網(wǎng)絡(luò)選擇的影響。

5.2 Brock Hommes 模型

Brock 和 Hommes (1998) 開(kāi)發(fā)了一個(gè)基于智能體的模型來(lái)模擬人工股票市場(chǎng)上的資產(chǎn)交易，捕捉了遵循不同交易策略的異質(zhì)交易者之間的互動(dòng)。Brock 和 Hommes 模型是最基礎(chǔ)的基于智能體的經(jīng)濟(jì)模型之一，因其簡(jiǎn)潔性而被廣泛使用，同時(shí)有效融入了異質(zhì)智能體。最近，Platt (2020) 應(yīng)用該模型來(lái)評(píng)估基于智能體的經(jīng)濟(jì)模型的校準(zhǔn)。模型如下：

在附錄的 G 節(jié)中，我們還展示了與其他方法的比較，例如標(biāo)準(zhǔn) ABC（拒絕式 ABC）和序貫蒙特卡洛 ABC（SMC-ABC, Sisson 等人 (2007)），這些比較顯示了我們的方法在樣本質(zhì)量和計(jì)算時(shí)間方面的競(jìng)爭(zhēng)力。

6 結(jié)論

本文通過(guò)分位數(shù)學(xué)習(xí)，開(kāi)發(fā)了一種從多元參數(shù)后驗(yàn)分布中進(jìn)行隱式抽樣的方法。該方法能夠適應(yīng)（可能具有依賴關(guān)系的）觀測(cè)數(shù)量的變化，并表現(xiàn)出支撐收縮，即后驗(yàn)近似隨樣本量 n n的增加而收縮。此外，我們提供了一種無(wú)需強(qiáng)加嚴(yán)格幾何結(jié)構(gòu)即可估計(jì)后驗(yàn)近似（包括后驗(yàn)可信集）輪廓的工具。對(duì)于使用更傳統(tǒng)的抽樣方法（如 MCMC 或 ABC）來(lái)構(gòu)建多元可信集，這種幾何結(jié)構(gòu)是必需的。然而，必須指出，我們的方法與 ABC 和 MCMC 方法有根本的不同。一旦我們的后驗(yàn)生成器訓(xùn)練完成，它就可以應(yīng)用于任何數(shù)據(jù)集的實(shí)現(xiàn)，而無(wú)需重新訓(xùn)練。相比之下，MCMC 和 ABC 都必須為每個(gè)新數(shù)據(jù)集重新運(yùn)行，這在實(shí)踐中顯著增加了它們的計(jì)算負(fù)擔(dān)。這種可重用性使得我們的方法在需要高效分析多個(gè)數(shù)據(jù)集的情景中尤其具有優(yōu)勢(shì)。

我們的工作重點(diǎn)關(guān)注似然函數(shù)難以處理且參數(shù)空間為連續(xù)低維的模型。將這項(xiàng)工作擴(kuò)展到離散參數(shù)空間將是有趣的。當(dāng)前訓(xùn)練數(shù)據(jù)并非針對(duì)特定觀測(cè)數(shù)據(jù) 定制。這可以通過(guò)構(gòu)建一個(gè)包含與更相似的樣本的數(shù)據(jù)集來(lái)改進(jìn)，例如采用 O’Hagan 等人 (2024) 的方法，該方法為訓(xùn)練觀測(cè)值分配重要性權(quán)重，然后將這些權(quán)重納入學(xué)習(xí)準(zhǔn)則中。

原文：https://proceedings.mlr.press/v258/kim25d.html

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.