深度生成分位數(shù)貝葉斯
Deep Generative Quantile Bayes
https://proceedings.mlr.press/v258/kim25d.html
![]()
摘要
我們通過(guò)深度生成式分位數(shù)學(xué)習(xí),開(kāi)發(fā)了一種多元后驗(yàn)抽樣方法。其抽樣過(guò)程隱含于一個(gè)前推映射中,該映射可以變換從后驗(yàn)分布中抽取的獨(dú)立同分布隨機(jī)向量樣本。我們利用多元分位數(shù)中的蒙日-坎托羅維奇深度,直接從貝葉斯可信集中抽樣,這是典型后驗(yàn)抽樣方法不具備的獨(dú)特功能。為優(yōu)化分位數(shù)映射的訓(xùn)練,我們?cè)O(shè)計(jì)了一個(gè)能自動(dòng)執(zhí)行概要統(tǒng)計(jì)量提取的神經(jīng)網(wǎng)絡(luò)。這種額外的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)帶來(lái)了性能優(yōu)勢(shì),包括支持收縮(即我們的后驗(yàn)近似會(huì)隨著觀測(cè)樣本量的增加而收縮)。我們?cè)趲讉€(gè)示例中展示了本方法的實(shí)用性,這些示例因缺乏似然函數(shù)而使得經(jīng)典MCMC方法不可行。最后,我們?yōu)樵摲治粩?shù)學(xué)習(xí)框架提供了如下頻率派理論依據(jù):估計(jì)的向量分位數(shù)、恢復(fù)的后驗(yàn)分布以及相應(yīng)的貝葉斯可信集的一致性。
1 引言
本研究的目的是為似然函數(shù)僅能通過(guò)模擬獲取的隱式模型,開(kāi)發(fā)一種從貝葉斯后驗(yàn)分布中抽樣的生成式方法。我們提出了一種基于分位數(shù)學(xué)習(xí)的新方法,作為對(duì)現(xiàn)有對(duì)抗性抽樣方法(Wang and Ro?ková, 2022)的替代。在貝葉斯領(lǐng)域之外,分位數(shù)學(xué)習(xí)已在廣泛的實(shí)踐應(yīng)用中證明其價(jià)值,尤其適用于目標(biāo)分布呈現(xiàn)出偏斜、厚尾特征,或尾部行為是主要關(guān)注點(diǎn)的場(chǎng)景(Yu 等人, 2003)。近期,統(tǒng)計(jì)學(xué)界內(nèi)部對(duì)于將分位數(shù)學(xué)習(xí)應(yīng)用于生成式建模的興趣日益增長(zhǎng),這包括了貝葉斯視角(Polson 和 Sokolov, 2023)和頻率派視角(Wang 等人, 2024)的研究。我們的工作將此關(guān)注點(diǎn)從一維拓展到了多維領(lǐng)域。
定義一個(gè)多元分位數(shù)具有挑戰(zhàn)性,因?yàn)閺木鶆蚍植嫉侥繕?biāo)多元分布的映射并不唯一。此外,盡管分位數(shù)函數(shù)的單調(diào)性在單變量情況下可以得到保證,但這一性質(zhì)無(wú)法自動(dòng)推廣到多元情境。這些模糊性可以通過(guò)僅考慮那些作為凸勢(shì)函數(shù)梯度的映射來(lái)得到解決(Carlier 等人, 2016)。
遵循 Wang 和 Ro?ková (2022) 的方法,我們通過(guò)在由似然模擬器(即前向采樣器)和先驗(yàn)?zāi)M器生成的模擬數(shù)據(jù)上訓(xùn)練我們的采樣器,從而避免了對(duì) MCMC 的需求。然而,我們采用了一種直接學(xué)習(xí)分位數(shù)映射的不同路徑。
![]()
相反,我們的目標(biāo)是計(jì)算均勻分布與給定 X X 時(shí) θ θ 的條件分布之間的 2-Wasserstein 距離,這自然地產(chǎn)生了一個(gè)可用于后驗(yàn)抽樣的傳輸映射。這種方法不同于 Wang 和 Ro?ková (2022),他們是通過(guò)迭代估計(jì)并最小化這個(gè) Wasserstein 距離來(lái)實(shí)現(xiàn)的(更詳細(xì)的比較請(qǐng)參見(jiàn)附錄 A)。
本文的一個(gè)特定貢獻(xiàn)是將概要統(tǒng)計(jì)量納入到后驗(yàn)分位數(shù)映射中。受“噪聲外包引理”的啟發(fā),這一關(guān)鍵的技術(shù)擴(kuò)展不僅使得學(xué)習(xí)凸勢(shì)函數(shù)具有可行性,而且使得一系列分位數(shù)學(xué)習(xí)方法能獲得理論上的收斂性保證。摘要統(tǒng)計(jì)量學(xué)習(xí)這一關(guān)鍵步驟已在文獻(xiàn)中被廣泛研究。例如,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM, Hochreiter (1997))處理相關(guān)觀測(cè),適用于數(shù)據(jù)點(diǎn)順序至關(guān)重要的情況。同時(shí),深度集合神經(jīng)網(wǎng)絡(luò)(下文簡(jiǎn)稱 DeepSet, Zaheer 等人 (2017))專為表示可交換數(shù)據(jù)的摘要統(tǒng)計(jì)量而設(shè)計(jì)。我們的方法整合了這兩種架構(gòu)以增強(qiáng)摘要統(tǒng)計(jì)量的學(xué)習(xí)。
由于真實(shí)后驗(yàn)會(huì)隨著樣本量增加而收縮,一致的置信集合也應(yīng)隨著 n n的增加而縮小,這一現(xiàn)象我們稱之為支撐收縮。我們通過(guò)實(shí)驗(yàn)證明,應(yīng)用 DeepSet 的我們的方法展現(xiàn)了支撐收縮。此外,在真實(shí)后驗(yàn)已知的模擬研究中,即使維度 n n很高,我們方法得到的置信集合也接近于真實(shí)集合,這與我們的理論發(fā)現(xiàn)一致。雖然 Jiang 等人 (2017) 也利用深度學(xué)習(xí)進(jìn)行自動(dòng)摘要統(tǒng)計(jì)量學(xué)習(xí),但他們的方法與 Polson 和 Sokolov (2023) 更為接近,因?yàn)樗麄兠鞔_地應(yīng)用監(jiān)督學(xué)習(xí),在給定 X i
時(shí)預(yù)測(cè) θ i
。
我們的方法學(xué)習(xí)從一個(gè)球面均勻分布出發(fā)的前推映射。因此,任意水平 τ ∈ ( 0 , 1 ) 的可信集,可以通過(guò)將此映射應(yīng)用于半徑為 τ τ的內(nèi)球來(lái)獲得。與傳統(tǒng)的貝葉斯后驗(yàn)抽樣方法(如MCMC或ABC)需從后驗(yàn)抽取中間接抽樣不同,我們的方法無(wú)需重抽樣。可信集的形式定義依賴于數(shù)據(jù)深度(Hallin等人,2021)這一概念。我們選擇的是蒙日-坎托羅維奇深度(Chernozhukov等人,2017),它可以看作是向量分位數(shù)的一個(gè)副產(chǎn)品,在分位數(shù)空間中可解釋為一個(gè)勢(shì)函數(shù)。其等勢(shì)面扮演著分位數(shù)等高線的角色,可等價(jià)地視為可信集。
文獻(xiàn)中已有眾多研究探索了深度分位數(shù)回歸的理論。White (1992) 使用篩法建立了基于單隱層前饋網(wǎng)絡(luò)的非參數(shù)條件分位數(shù)估計(jì)器的一致性。Padilla 等人 (2022) 證明了最小化分位數(shù)損失的條件分位數(shù)估計(jì)的一致性結(jié)果。我們基于 Chernozhukov 等人 (2017) 提出的一個(gè)更通用的框架,并證明了估計(jì)的向量分位數(shù)的漸近一致性。我們還證明了恢復(fù)的后驗(yàn)分位數(shù)在 2-Wasserstein 距離的意義上收斂于真實(shí)后驗(yàn)。
我們的貢獻(xiàn)可以總結(jié)如下:
我們使用兩種策略將 Polson 和 Sokolov (2023) 的方法從一維參數(shù) θ 擴(kuò)展到 d 維。第一種簡(jiǎn)單策略利用聯(lián)合分布 π ( θ ∣ X ) 的鏈?zhǔn)椒▌t表示,學(xué)習(xí) d 個(gè)單變量采樣器。給定 θ 中變量的一個(gè)特定排序,我們通過(guò)將先前參數(shù)(從先前的單變量后驗(yàn)采樣器模擬得到)加入序列中下一個(gè)參數(shù)的訓(xùn)練數(shù)據(jù)表中,來(lái)順序地學(xué)習(xí)這些采樣器(參見(jiàn)第 D 節(jié))。接下來(lái),我們?yōu)樯墒截惾~斯開(kāi)發(fā)我們的分位數(shù)學(xué)習(xí)方法。
作為副產(chǎn)品,我們的多元分位數(shù)學(xué)習(xí)方法使得能夠直接從多元貝葉斯可信集進(jìn)行模擬。可信集是貝葉斯推斷的基礎(chǔ),我們可以直接針對(duì)它們進(jìn)行模擬,而無(wú)需施加任何嚴(yán)格的幾何結(jié)構(gòu)(若使用 MCMC 或 ABC 方法則需施加結(jié)構(gòu))。然后,采樣點(diǎn)的凸包提供了可信集的估計(jì)。
并非所有深度學(xué)習(xí)架構(gòu)在生成式建模中都具有同等效用。我們?cè)O(shè)計(jì)了一種特定的網(wǎng)絡(luò),用于自動(dòng)學(xué)習(xí)摘要統(tǒng)計(jì)量,能夠同時(shí)處理不斷增加的觀測(cè)數(shù)量以及它們之間的依賴關(guān)系。使用這種方法,我們觀察到估計(jì)的可信集會(huì)隨著樣本量的增加而收縮,我們稱此現(xiàn)象為支撐收縮。如果可信集正收斂于基于真實(shí)后驗(yàn)的真實(shí)集合,那么支撐收縮是一個(gè)必然的標(biāo)志。
我們?yōu)槲覀兊亩嘣治粩?shù)學(xué)習(xí)方法以及 Polson 和 Sokolov (2023) 的初始方法提供了頻率學(xué)派理論。現(xiàn)有的關(guān)于單變量分位數(shù)學(xué)習(xí)的理論結(jié)果無(wú)法直接推廣到多變量情況;我們的工作填補(bǔ)了這一空白。
具體而言,我們證明,當(dāng) N → ∞
時(shí):
(1) 估計(jì)的向量分位數(shù)函數(shù)實(shí)現(xiàn)了一致性,
(2) 恢復(fù)的后驗(yàn)分布在 2-Wasserstein 距離的意義上一致收斂于真實(shí)后驗(yàn),以及
(3) 貝葉斯可信集收斂于真實(shí)集。
這些通用的理論結(jié)果適用于所有基于前饋神經(jīng)網(wǎng)絡(luò)、利用摘要統(tǒng)計(jì)量學(xué)習(xí)凸勢(shì)函數(shù)的分位數(shù)學(xué)習(xí)方法。
本文后續(xù)內(nèi)容安排如下。第 2 節(jié)回顧多維分位數(shù)學(xué)習(xí)的最新進(jìn)展。第 3 節(jié)介紹我們的生成式分位數(shù)方法。第 4 節(jié)的理論研究證明了估計(jì)的向量分位數(shù)以及從中恢復(fù)的后驗(yàn)分布的一致性。我們?cè)诘?5 節(jié)中探究所提方法的實(shí)證性能。最后,在第 6 節(jié)對(duì)全文進(jìn)行總結(jié)。
2 多元分位數(shù)學(xué)習(xí)
分位數(shù)學(xué)習(xí)在統(tǒng)計(jì)學(xué)中已有悠久的文獻(xiàn)歷史。關(guān)于一維分位數(shù)學(xué)習(xí)的簡(jiǎn)要回顧將在附錄 B.1 節(jié)(補(bǔ)充材料)中提供。由于在中不存在明顯的“排序”概念,因此將分位數(shù)、符號(hào)和秩等概念從單變量情形擴(kuò)展到多元設(shè)定也并非易事。關(guān)于多元分位數(shù)各種概念的全面討論,我們參考 Hallin (2022)。我們的工作基于最近發(fā)展起來(lái)的最優(yōu)傳輸視角之一。
2.1 用于分位數(shù)學(xué)習(xí)的最優(yōu)傳輸
![]()
![]()
![]()
![]()
![]()
3 生成式貝葉斯計(jì)算
在本節(jié)中,我們拓展了 Carlier 等人 (2016)的條件向量分位數(shù),以采用摘要統(tǒng)計(jì)量進(jìn)行貝葉斯分位數(shù)學(xué)習(xí)。然后,介紹我們的深度生成式貝葉斯算法與實(shí)現(xiàn),以及可信集的計(jì)算。
3.1 生成式貝葉斯的向量分位數(shù)
![]()
![]()
同樣值得指出的是,引入任意形式的摘要統(tǒng)計(jì)量 f ( X ) 是對(duì) Carlier 等人 (2017) 原始方法的一種改進(jìn),后者用 X X本身代替 f ( X ) 。該方法依賴于一個(gè)假設(shè),即勢(shì)函數(shù)
![]()
這是 (3.2) 式一個(gè)可行的拓展,因?yàn)榇嬖诙喾N摘要統(tǒng)計(jì)量,通常是一個(gè)在某種變換下不可數(shù)的類。更重要的是,假設(shè) 1在我們的方法論中扮演核心角色,不應(yīng)簡(jiǎn)單視為僅僅是 (3.2) 式的技術(shù)性推廣。學(xué)習(xí)勢(shì)函數(shù) ψ ( u , x ) 的目標(biāo)被拆分為兩個(gè)子任務(wù):學(xué)習(xí)摘要統(tǒng)計(jì)量 f ( x ) 以及擬合凸的函數(shù)系數(shù) φ ( u )
和 b ( u )
。這為一類具有理論保證的分位數(shù)學(xué)習(xí)方法敞開(kāi)了大門,并成為了我們所提算法的基石。
3.2 深度生成式分位數(shù)貝葉斯
![]()
為了訓(xùn)練函數(shù) φ、b 和 f,我們對(duì)以下目標(biāo)函數(shù)進(jìn)行優(yōu)化:
![]()
![]()
在我們的實(shí)現(xiàn)中,我們使用 Adam 優(yōu)化器及其默認(rèn)的超參數(shù)設(shè)置,學(xué)習(xí)率為 0.01。在每個(gè)周期(每 100 次迭代),我們將學(xué)習(xí)率乘以 0.99 進(jìn)行衰減。
3.3 摘要統(tǒng)計(jì)量的自動(dòng)學(xué)習(xí)
![]()
我們通過(guò) DeepSet 和 LSTM 設(shè)計(jì) f ( ? )
的方式,有潛力擴(kuò)展到其他基于深度學(xué)習(xí)的貝葉斯方法,包括 Wang 和 Ro?ková (2022)以及 Kim 和 Rockova (2023)。當(dāng)使用標(biāo)準(zhǔn)的全連接神經(jīng)網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)規(guī)模(需要優(yōu)化的網(wǎng)絡(luò)參數(shù)量)會(huì)隨著輸入維度的增加而擴(kuò)大,這對(duì)于較大的 n n來(lái)說(shuō)是不現(xiàn)實(shí)的。深度集合的設(shè)計(jì)也被用于神經(jīng)估計(jì)器,例如,在極值分析(Sainsbury-Dale 等人,2024)和空間數(shù)據(jù)分析(Richards 等人,2023)中。
3.4 可信集計(jì)算
生成式分位數(shù)后驗(yàn)學(xué)習(xí)使得我們能夠直接從多元后驗(yàn)可信集中采樣。現(xiàn)有的采樣器(如 MCMC 和 ABC 方法)需要先對(duì)集合的幾何形狀做出假定(例如橢球體),然后基于選定的度量使用后驗(yàn)抽取樣本來(lái)計(jì)算這些集合。相反,我們的方法不對(duì)幾何結(jié)構(gòu)施加任何特定的限制,并且能夠自動(dòng)學(xué)習(xí)可信集的形狀。
正如 Chernozhukov 等人 (2017) 和 Hallin 等人 (2021) 所提出的,向量分位數(shù)定義了數(shù)據(jù)深度,由此我們可以推導(dǎo)出深度區(qū)域(最深集合)和分位數(shù)等高線。那么,概率為 τ τ的深度區(qū)域就可以用作概率為 τ τ的可信集。得益于 MK 深度的這些理想特性,我們將在第 4 節(jié)中看到,我們的方法是漸近有效的,即這些可信集會(huì)收斂于由真實(shí)底層后驗(yàn)推導(dǎo)出的理想集合。
4 理論研究
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
一個(gè)重要的說(shuō)明與支撐收縮相關(guān)。隨著觀測(cè)數(shù)量 n n的增加,真實(shí)的底層后驗(yàn)會(huì)發(fā)生收縮,從而導(dǎo)致真實(shí)集合的收縮。如果我們目前所做的所有假設(shè)都得到滿足,那么推論 4 意味著貝葉斯可信集應(yīng)該以與真實(shí)集合相似的方式收縮。違反這些假設(shè)可能是許多先前方法未能觀察到支撐收縮的原因,這也是可信集未收斂于真實(shí)集的一個(gè)跡象。
本節(jié)的理論分析并非專門針對(duì)第 3 節(jié)中的方法,而是更為通用。作為對(duì)第 3.1 節(jié)討論的補(bǔ)充,我們希望強(qiáng)調(diào),假設(shè) 1 的動(dòng)機(jī)源于引理 1,即噪聲外包引理。在更廣泛的層面上,只要這些方法能夠同時(shí)學(xué)習(xí)摘要統(tǒng)計(jì)量 f ( X )
以及凸函數(shù) φ ( u )
和 b ( u ) ,并且滿足技術(shù)條件,那么由該假設(shè)所支持的廣泛分位數(shù)學(xué)習(xí)方法在理論上都可以是一致的。
5 數(shù)值研究 5.1 高斯共軛模擬
![]()
這里,我們使用 DeepSet 特征提取器,針對(duì)少數(shù)選定的 X = x
值來(lái)增加 n n。通過(guò) DeepSet 特征網(wǎng)絡(luò)(順序不變網(wǎng)絡(luò)設(shè)計(jì)),我們可以看到我們的方法能夠適應(yīng)不斷增加的 n n值。我們?cè)趫D 2(第二行)中強(qiáng)調(diào),當(dāng) x x相對(duì)靠近原點(diǎn)時(shí),隨著 n n的增加,可以清晰地觀察到支撐收縮(即估計(jì)的后驗(yàn)等高線集收縮)。在此圖中,我們還可以看到使用 DeepSet 的效果,并與沒(méi)有特征提取器( f ( x ) = x
)或使用非充分統(tǒng)計(jì)量( f ( x ) = x
的情況進(jìn)行了比較。在附錄的 E 節(jié)中,我們提供了更多實(shí)驗(yàn)細(xì)節(jié)、與 B-GAN (Wang 和 Ro?ková, 2022) 以及自回歸方法的比較,以及當(dāng) n = 2 時(shí)網(wǎng)絡(luò)選擇的影響。
![]()
5.2 Brock Hommes 模型
Brock 和 Hommes (1998) 開(kāi)發(fā)了一個(gè)基于智能體的模型來(lái)模擬人工股票市場(chǎng)上的資產(chǎn)交易,捕捉了遵循不同交易策略的異質(zhì)交易者之間的互動(dòng)。Brock 和 Hommes 模型是最基礎(chǔ)的基于智能體的經(jīng)濟(jì)模型之一,因其簡(jiǎn)潔性而被廣泛使用,同時(shí)有效融入了異質(zhì)智能體。最近,Platt (2020) 應(yīng)用該模型來(lái)評(píng)估基于智能體的經(jīng)濟(jì)模型的校準(zhǔn)。模型如下:
![]()
![]()
![]()
在附錄的 G 節(jié)中,我們還展示了與其他方法的比較,例如標(biāo)準(zhǔn) ABC(拒絕式 ABC)和序貫蒙特卡洛 ABC(SMC-ABC, Sisson 等人 (2007)),這些比較顯示了我們的方法在樣本質(zhì)量和計(jì)算時(shí)間方面的競(jìng)爭(zhēng)力。
6 結(jié)論
本文通過(guò)分位數(shù)學(xué)習(xí),開(kāi)發(fā)了一種從多元參數(shù)后驗(yàn)分布中進(jìn)行隱式抽樣的方法。該方法能夠適應(yīng)(可能具有依賴關(guān)系的)觀測(cè)數(shù)量的變化,并表現(xiàn)出支撐收縮,即后驗(yàn)近似隨樣本量 n n的增加而收縮。此外,我們提供了一種無(wú)需強(qiáng)加嚴(yán)格幾何結(jié)構(gòu)即可估計(jì)后驗(yàn)近似(包括后驗(yàn)可信集)輪廓的工具。對(duì)于使用更傳統(tǒng)的抽樣方法(如 MCMC 或 ABC)來(lái)構(gòu)建多元可信集,這種幾何結(jié)構(gòu)是必需的。然而,必須指出,我們的方法與 ABC 和 MCMC 方法有根本的不同。一旦我們的后驗(yàn)生成器訓(xùn)練完成,它就可以應(yīng)用于任何數(shù)據(jù)集的實(shí)現(xiàn),而無(wú)需重新訓(xùn)練。相比之下,MCMC 和 ABC 都必須為每個(gè)新數(shù)據(jù)集重新運(yùn)行,這在實(shí)踐中顯著增加了它們的計(jì)算負(fù)擔(dān)。這種可重用性使得我們的方法在需要高效分析多個(gè)數(shù)據(jù)集的情景中尤其具有優(yōu)勢(shì)。
我們的工作重點(diǎn)關(guān)注似然函數(shù)難以處理且參數(shù)空間為連續(xù)低維的模型。將這項(xiàng)工作擴(kuò)展到離散參數(shù)空間將是有趣的。當(dāng)前訓(xùn)練數(shù)據(jù)并非針對(duì)特定觀測(cè)數(shù)據(jù) 定制。這可以通過(guò)構(gòu)建一個(gè)包含與更相似的樣本的數(shù)據(jù)集來(lái)改進(jìn),例如采用 O’Hagan 等人 (2024) 的方法,該方法為訓(xùn)練觀測(cè)值分配重要性權(quán)重,然后將這些權(quán)重納入學(xué)習(xí)準(zhǔn)則中。
原文:https://proceedings.mlr.press/v258/kim25d.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.