實(shí)用好奇心:一種基于主動(dòng)推理的混合學(xué)習(xí)優(yōu)化范式
Pragmatic Curiosity:A Hybrid Learning-Optimization Paradigm via Active Inference
https://arxiv.org/abs/2602.06104
![]()
摘要
許多工程和科學(xué)工作流程依賴于昂貴的黑盒評(píng)估,要求決策能夠同時(shí)提高性能并減少不確定性。貝葉斯優(yōu)化(BO)和貝葉斯實(shí)驗(yàn)設(shè)計(jì)(BED)提供了強(qiáng)大但基本分離的目標(biāo)尋求與信息尋求處理方式,對(duì)于學(xué)習(xí)與優(yōu)化內(nèi)在耦合的混合場(chǎng)景,它們提供的指導(dǎo)有限。我們提出了實(shí)用好奇心(pragmatic curiosity),這是一種源自主動(dòng)推斷的混合學(xué)習(xí) - 優(yōu)化范式,其中動(dòng)作通過(guò)最小化期望自由能來(lái)選擇——這是一個(gè)將實(shí)用效用與認(rèn)知信息增益耦合的單一目標(biāo)。我們?cè)诟鞣N現(xiàn)實(shí)世界混合任務(wù)上展示了實(shí)用好奇心的實(shí)際有效性和靈活性,包括約束系統(tǒng)辨識(shí)、目標(biāo)主動(dòng)搜索以及具有未知偏好的復(fù)合優(yōu)化。在這些基準(zhǔn)測(cè)試中,實(shí)用好奇心持續(xù)優(yōu)于強(qiáng)大的 BO 型和 BED 型基線,實(shí)現(xiàn)了更高的估計(jì)精度、更好的關(guān)鍵區(qū)域覆蓋以及改進(jìn)的最終解質(zhì)量。
1. 引言
工程和科學(xué)應(yīng)用通常依賴于昂貴的黑盒評(píng)估,以識(shí)別高性能設(shè)計(jì)或理想的系統(tǒng)狀態(tài)。當(dāng)主要目標(biāo)是達(dá)到指定目標(biāo)時(shí),貝葉斯優(yōu)化(BO)加速了這一過(guò)程(Shahriari 等人,2016;Frazier,2018),而貝葉斯實(shí)驗(yàn)設(shè)計(jì)(BED)則優(yōu)先獲取關(guān)于未知系統(tǒng)參數(shù)的信息(Rainforth 等人,2023)。兩種方法都利用概率模型和采集準(zhǔn)則,量化評(píng)估未知配置的效用,針對(duì)優(yōu)化或?qū)W習(xí)目標(biāo)量身定制。盡管它們各自取得了成功且各領(lǐng)域研究爆炸式增長(zhǎng),但它們的脫節(jié)為一大類混合問(wèn)題造成了真空,這些問(wèn)題通常需要同步尋求知識(shí)和實(shí)現(xiàn)目標(biāo)。
對(duì)于許多現(xiàn)實(shí)世界應(yīng)用,如目標(biāo)導(dǎo)向規(guī)劃(Lookman 等人,2019)、環(huán)境監(jiān)測(cè)(Konakovic Lukovic 等人,2020)和針對(duì)性材料設(shè)計(jì)(Matsumoto 等人,2025),學(xué)習(xí)和優(yōu)化不是獨(dú)立的階段,而是深度交織的目標(biāo)。這一挑戰(zhàn)根本性地出現(xiàn)在具有日益復(fù)雜性的任務(wù)中,就認(rèn)知考慮(即從參數(shù)模型到非參數(shù)模型)和實(shí)用評(píng)估(即從已知目標(biāo)到未知目標(biāo))而言:(1) 約束系統(tǒng)辨識(shí),其中精確學(xué)習(xí)系統(tǒng)參數(shù)的認(rèn)知愿望受限于將實(shí)驗(yàn)保持在安全或有效操作范圍內(nèi)的實(shí)用需求(例如,避免傳感器飽和或危險(xiǎn)化學(xué)反應(yīng))。此類任務(wù)可見(jiàn)于眾多應(yīng)用,包括環(huán)境監(jiān)測(cè)(Konakovic Lukovic 等人,2020)和催化劑設(shè)計(jì)(Zhong 等人,2020)。(2) 目標(biāo)主動(dòng)搜索,其中發(fā)現(xiàn)符合特定標(biāo)準(zhǔn)區(qū)域(例如,系統(tǒng)故障模式或特定性能范圍)的實(shí)用目標(biāo)需要認(rèn)知好奇心來(lái)探索區(qū)域的形狀、大小和邊界。應(yīng)用示例可見(jiàn)于故障發(fā)現(xiàn)(Ramanagopal 等人,2018)和醫(yī)療監(jiān)控(Malkomes 等人,2021)。(3) 復(fù)合貝葉斯優(yōu)化,其中實(shí)用目標(biāo)是根據(jù)用戶的隱藏偏好找到最優(yōu)設(shè)計(jì)——這是一項(xiàng)如果不首先對(duì)用戶目標(biāo)本身產(chǎn)生認(rèn)知好奇心就不可能完成的任務(wù)。此類場(chǎng)景常見(jiàn)于基于模擬的設(shè)計(jì)(González & Zavala,2025;Coelho 等人,2025)和 A/B 測(cè)試(Bakshy 等人,2018)。
傳統(tǒng)上,為解決這些混合問(wèn)題,從業(yè)者被迫在專用工具之間選擇,并通過(guò)利用信息增益準(zhǔn)則來(lái)增強(qiáng)優(yōu)化(反之亦然)以適應(yīng)特定問(wèn)題的調(diào)整。在 BO 方面,Russo & Van Roy(2018)將信息導(dǎo)向采樣(IDS)提出用于在線優(yōu)化問(wèn)題。Hvarfner 等人(2023)將基于統(tǒng)計(jì)距離的主動(dòng)學(xué)習(xí)(SAL)準(zhǔn)則引入 BO 循環(huán),即使在搜索最優(yōu)解時(shí)也主動(dòng)學(xué)習(xí)模型超參數(shù)。在 BED(也稱為貝葉斯主動(dòng)學(xué)習(xí),BAL)方面,Smith 等人(2023)提出了預(yù)期預(yù)測(cè)信息增益(EPIG)準(zhǔn)則,專注于模型預(yù)測(cè)中的信息增益,通過(guò)考慮輸入數(shù)據(jù)分布,減輕了經(jīng)典 BAL 選擇分布外或低相關(guān)性查詢的傾向。這些方法突顯了優(yōu)化與學(xué)習(xí)之間日益增長(zhǎng)的協(xié)同作用,但它們?nèi)匀皇翘囟ㄓ谌蝿?wù)的,且很少跨類別泛化。
在本文中,我們提出實(shí)用好奇心:一種源自主動(dòng)推斷(AIF)(Friston,2010;Friston 等人,2017)的混合學(xué)習(xí) - 優(yōu)化范式。AIF 通過(guò)最小化期望自由能(EFE)規(guī)定動(dòng)作選擇,這是一個(gè)單一目標(biāo),結(jié)合了 (i) 偏好首選結(jié)果的實(shí)用項(xiàng)和 (ii) 偏好信息增益的認(rèn)知項(xiàng)。我們證明 EFE 最小化提供了各種采集策略的統(tǒng)一視角:通過(guò)指定偏好、觀測(cè)模型和近似,所得準(zhǔn)則將 BO 類和 BED 類行為作為極限機(jī)制恢復(fù)。
在此范式下,尋求知識(shí)和實(shí)現(xiàn)目標(biāo)不被視為競(jìng)爭(zhēng)目標(biāo),而是最小化 EFE 這一單一指令的兩個(gè)不可分割的方面。這兩種驅(qū)動(dòng)力由一個(gè)稱為好奇心的系數(shù)平衡,該系數(shù)設(shè)定了學(xué)習(xí)與優(yōu)化之間的權(quán)衡。好奇心在保證自洽學(xué)習(xí)(即后驗(yàn)收斂于真理)和無(wú)遺憾優(yōu)化(即具有有界累積遺憾)方面的正式作用在 Li 等人(2026)中提供了理論支持。本文轉(zhuǎn)而展示該范式在處理廣泛一類復(fù)雜混合問(wèn)題上的實(shí)際有效性和靈活性,這些問(wèn)題常被標(biāo)準(zhǔn)方法忽略,包括具有演化目標(biāo)(條件隨時(shí)間變化)和隱式目標(biāo)(目標(biāo)未先驗(yàn)定義)的任務(wù)。我們圍繞上述三類問(wèn)題結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),借鑒的應(yīng)用包括羽流場(chǎng)中的環(huán)境監(jiān)測(cè)(Konakovic Lukovic 等人,2020)、自動(dòng)駕駛場(chǎng)景中的故障檢測(cè)(Ramanagopal 等人,2018)和電網(wǎng)中的分布式能源資源分配(Kianmehr 等人,2019)。
實(shí)證結(jié)果揭示了一貫的優(yōu)越性能模式,表明我們的框架在解決復(fù)雜混合目標(biāo)方面具有優(yōu)勢(shì)。在約束系統(tǒng)辨識(shí)任務(wù)中,我們的算法實(shí)現(xiàn)了近乎完美的估計(jì)精度,同時(shí)所需的查詢次數(shù)比其他方法少高達(dá) 40%。對(duì)于目標(biāo)主動(dòng)搜索任務(wù),它展示了一種更有效的探索策略,在相同預(yù)算內(nèi)多發(fā)現(xiàn)了關(guān)鍵失敗區(qū)域中至關(guān)重要的 10%。最值得注意的是,在具有未知用戶偏好的任務(wù)中,我們的方法總是成功學(xué)習(xí)了潛在目標(biāo),而其他基線方法則未能捕捉到。總之,這些發(fā)現(xiàn)驗(yàn)證了我們統(tǒng)一方法的強(qiáng)大效力,表明實(shí)用驅(qū)動(dòng)力與認(rèn)知驅(qū)動(dòng)力之間的原則性平衡能夠在多樣且具有挑戰(zhàn)性的問(wèn)題設(shè)置中帶來(lái)實(shí)質(zhì)性的收益。
綜上所述,我們的主要貢獻(xiàn)如下:
? 通過(guò)主動(dòng)推斷的視角,對(duì)各種采集策略提供了統(tǒng)一的觀點(diǎn)。
? 提出了一種針對(duì)通用混合學(xué)習(xí) - 優(yōu)化問(wèn)題的實(shí)用好奇心范式。
? 在三個(gè)具有多樣混合學(xué)習(xí) - 優(yōu)化目標(biāo)的典型現(xiàn)實(shí)世界問(wèn)題類別上進(jìn)行了全面的實(shí)證驗(yàn)證。
2. 預(yù)備知識(shí)
2.1. 貝葉斯優(yōu)化
![]()
![]()
![]()
2.2. 貝葉斯實(shí)驗(yàn)設(shè)計(jì)
![]()
![]()
3. 采集策略的統(tǒng)一視角
BO 中的采集策略通常導(dǎo)致目標(biāo)導(dǎo)向的行為,其中(隱式的)目標(biāo)是某個(gè)(未知)目標(biāo)函數(shù)的最優(yōu)值。相反,BED 中的采集策略鼓勵(lì)信息尋求行為,旨在收集關(guān)于某些感興趣參數(shù)的最大信息量。盡管兩者都可以被視為自適應(yīng)采樣(Di Fiore 等人,2023)的實(shí)現(xiàn),但由于指令不同(Hvarfner 等人,2025),這兩個(gè)領(lǐng)域之間不存在可遷移的方法。
在本節(jié)中,我們表明這兩個(gè)看似競(jìng)爭(zhēng)的指令可以通過(guò)主動(dòng)推斷(AIF)的原則自然地平衡。
3.1. 作為期望自由能最小化的主動(dòng)推斷
我們指定一個(gè)概率代理模型 q ( ? )
來(lái)捕捉結(jié)果 y 與決策變量 x 基于一組感興趣參數(shù) s 之間的關(guān)系,該關(guān)系分解為
![]()
![]()
![]()
其中最后一個(gè)不等式遵循琴生不等式(Jensen's inequality),該不等式指出對(duì)數(shù)的期望總是小于或等于期望的對(duì)數(shù)。
公式 (1) 的右邊被稱為變分自由能(VFE),其名稱源于 F F 類似于物理學(xué)中的亥姆霍茲自由能這一事實(shí)。我們可以看到 VFE 總是大于或等于驚異(即,它是驚異的上界)。在機(jī)器學(xué)習(xí)中,VFE 的符號(hào)通常被反轉(zhuǎn),使其成為證據(jù)下界(ELBO)。最大化 ELBO 是機(jī)器學(xué)習(xí)中常用的一種優(yōu)化方法(Titsias, 2009)。
為了制定決策策略,我們需要考慮決策變量 x 以及由動(dòng)作選擇導(dǎo)致的結(jié)果。由于未來(lái)結(jié)果尚未發(fā)生,我們轉(zhuǎn)而考察基于預(yù)測(cè)分布 q ( y ∣ x )
的預(yù)測(cè)結(jié)果上的驚異期望:
![]()
其中公式 (2) 的右側(cè)記為期望自由能(EFE)。
![]()
我們可以看到,通過(guò)構(gòu)造,EFE 在某些先驗(yàn)偏好下平衡了信息尋求和目標(biāo)導(dǎo)向行為。它界定了認(rèn)知價(jià)值(關(guān)于參數(shù))與實(shí)用價(jià)值(關(guān)于結(jié)果)之間的差異,這捕捉到了在與環(huán)境交互時(shí)最大化認(rèn)知價(jià)值(即關(guān)于潛在狀態(tài)的信息增益)的指令,同時(shí)關(guān)于先驗(yàn)偏好最大化實(shí)用價(jià)值(即期望偏好對(duì)齊)。AIF 的這一關(guān)鍵方面有效地解決了“探索 - 利用困境”,因?yàn)樘剿骱屠玫闹噶钪皇?EFE 的兩個(gè)方面:
實(shí)用價(jià)值(利用):這一項(xiàng)通過(guò)偏好預(yù)期能產(chǎn)生首選結(jié)果的動(dòng)作來(lái)鼓勵(lì)目標(biāo)導(dǎo)向行為。它由對(duì)期望觀測(cè)的先驗(yàn)分布編碼,其功能類似于強(qiáng)化學(xué)習(xí)中的效用或獎(jiǎng)勵(lì)函數(shù)(Millidge 等人,2020),驅(qū)動(dòng)智能體利用其當(dāng)前知識(shí)來(lái)實(shí)現(xiàn)其目標(biāo)。
認(rèn)知價(jià)值(探索):這一項(xiàng)通過(guò)偏好預(yù)期能最大程度減少關(guān)于底層系統(tǒng)不確定性的動(dòng)作來(lái)促進(jìn)信息尋求行為。它量化了關(guān)于模型參數(shù)的期望信息增益,驅(qū)動(dòng)智能體探索環(huán)境以完善其世界模型。
3.2. BO 和 BED 中采集策略的重新詮釋
至關(guān)重要的是,最小化 EFE 作為一個(gè)統(tǒng)一的 umbrella 原則。BO 和 BED 中的許多經(jīng)典采集策略可以重新詮釋為最小化 EFE 的特例,如表 1 所示。
表 1 中大多數(shù)采集策略的重新詮釋根據(jù)其定義是直截了當(dāng)?shù)摹H欢瑢⑾喈?dāng)直觀的 GP-UCB 策略置于該框架中似乎較為隱式。為了揭示它們之間的聯(lián)系,我們依賴于以下引理:
![]()
![]()
這揭示了 GP-UCB 與 AIF 之間的緊密聯(lián)系,表明即使是像 GP-UCB 這樣看似純粹直觀的策略,其背后也有著相當(dāng)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)基礎(chǔ)。
4. 推導(dǎo)采集函數(shù)的新范式
表 1 中的偏好分布 p ( y )
可以解釋為針對(duì)結(jié)果的時(shí)變價(jià)值函數(shù)的 softmax 變換。從這一觀察推廣開(kāi)來(lái),我們提出了一種推導(dǎo)采集函數(shù)的新范式,該范式適用于除傳統(tǒng) BO 和 BED 之外更廣泛的一類混合問(wèn)題。
![]()
![]()
![]()
![]()
![]()
好奇心 β t
在平衡學(xué)習(xí)與優(yōu)化的性能方面起著重要作用。Li 等人 (2026) 推導(dǎo)出了在充分好奇心條件下后驗(yàn)一致性和有界累積遺憾的形式化理論保證,并提供了在不同設(shè)置中選擇 β t的實(shí)用設(shè)計(jì)指南。
本文轉(zhuǎn)而考察問(wèn)題依賴的能量函數(shù) h ( y ∣ D t ) 如何提供一種靈活的機(jī)制,以顯式地表示關(guān)于目標(biāo)本身的不確定性。這種增強(qiáng)的表達(dá)能力使得能夠?yàn)闃?biāo)準(zhǔn)方法經(jīng)常忽略的一大類復(fù)雜設(shè)置進(jìn)行采集設(shè)計(jì),包括具有演化目標(biāo)(條件隨時(shí)間變化)和隱式目標(biāo)(未先驗(yàn)指定)的任務(wù)。這種公式化在此類任務(wù)上的有效性和通用性將在下一節(jié)中展示。
5. 實(shí)驗(yàn)
在本節(jié)中,我們通過(guò)跨三個(gè)彼此顯著不同的類別進(jìn)行實(shí)驗(yàn),來(lái)舉例說(shuō)明所提出的采集策略的優(yōu)勢(shì)和可變性。這些問(wèn)題源于 BO 和 BED 領(lǐng)域內(nèi)不同的文獻(xiàn),且它們都不是典型的 BO 或 BED 任務(wù)。因此,每一個(gè)任務(wù)都針對(duì)適合該特定任務(wù)的一組不同的 BO 型(專注于優(yōu)化)和 BED 型(專注于學(xué)習(xí))基線進(jìn)行評(píng)估,以確保公平且嚴(yán)謹(jǐn)?shù)谋容^。
5.1. 具有已知不變目標(biāo)的參數(shù)模型
![]()
![]()
任務(wù)。 我們?cè)诙S羽流場(chǎng)(2D plume fields)中的現(xiàn)實(shí)環(huán)境監(jiān)測(cè)問(wèn)題上進(jìn)行實(shí)驗(yàn),其中傳感器具有飽和閾值
(詳細(xì)設(shè)置和超參數(shù)選擇見(jiàn)附錄 D.2)。我們考慮三種類型的監(jiān)測(cè)任務(wù):(a) 定位未知源位置;(b) 估計(jì)未知風(fēng)向和強(qiáng)度;以及 (c) 識(shí)別多源場(chǎng)中的活躍源。
基線方法。 我們將我們提出的采集策略(AIF)與針對(duì)此任務(wù)定制的 BO 型和 BED 型基線方法進(jìn)行比較:(a) 隨機(jī)(Random);(b) 通過(guò)選擇導(dǎo)致違反約束概率最小的點(diǎn)來(lái)進(jìn)行貪婪選擇(BO 型);以及 (c) 關(guān)于未知參數(shù)的期望信息增益(EIG,BED 型)。
評(píng)估。 我們從認(rèn)知和實(shí)用兩個(gè)角度評(píng)估性能:(a) 估計(jì)精度;以及 (b) 約束違反情況。
結(jié)果。 圖 1 顯示,我們的方法在遵守所有操作約束的同時(shí),比基線方法實(shí)現(xiàn)了持續(xù)更強(qiáng)的查詢效率,且累積約束違反始終為零。這一優(yōu)勢(shì)在源定位任務(wù)中尤為明顯,在該任務(wù)中,獲取信息的驅(qū)動(dòng)力與滿足約束的需求產(chǎn)生了相互對(duì)立的壓力。通過(guò)解決這一沖突,我們的方法使用的查詢次數(shù)比競(jìng)爭(zhēng)方法少高達(dá) 40%,達(dá)到了近乎完美的估計(jì)。
5.2. 具有已知演化目標(biāo)的非參數(shù)模型
接下來(lái),我們考慮一個(gè)更具挑戰(zhàn)性的設(shè)定,其中任務(wù)條件會(huì)演化,且模型完全是黑盒的,以至于我們需要訴諸于非參數(shù)模型(例如,高斯過(guò)程 GP)。一個(gè)這樣的例子是多目標(biāo)設(shè)計(jì)問(wèn)題中的目標(biāo)主動(dòng)搜索。目標(biāo)被視為度量指標(biāo),其中特定范圍具有特殊意義,而目標(biāo)是設(shè)計(jì)實(shí)驗(yàn)以最大化這些重要區(qū)域 S 的覆蓋率。
![]()
![]()
任務(wù)。 我們?cè)谧詣?dòng)駕駛場(chǎng)景中的現(xiàn)實(shí)故障發(fā)現(xiàn)問(wèn)題上進(jìn)行實(shí)驗(yàn),其中感知模塊(一個(gè) YOLO 檢測(cè)器)可能因多種原因失效,這潛在地可能導(dǎo)致碰撞(3D 輸入-2D 輸出)。我們考慮三個(gè)體積遞減的目標(biāo)集,即目標(biāo)集 1 ? 目標(biāo)集 2 ? 目標(biāo)集 3(詳細(xì)設(shè)置和超參數(shù)選擇見(jiàn)附錄 D.3)。
基線方法。 我們?cè)俅螌⑽覀兲岢龅牟杉呗裕ˋIF)與針對(duì)此任務(wù)定制的 BO 型和 BED 型基線方法進(jìn)行比較:(a) 隨機(jī)(Random);(b) 通過(guò)最大化度量空間中的覆蓋體積來(lái)進(jìn)行貪婪選擇(BO 型);以及 (c) 通過(guò)最大化參數(shù)空間中的覆蓋體積來(lái)進(jìn)行期望信息增益(EIG,BED 型)。
![]()
結(jié)果。 如圖 2 所示,我們的 AIF 算法有效地平衡了參數(shù)空間和度量空間的覆蓋。這種能力對(duì)于搜索更為困難的較小目標(biāo)集尤其具有顯著影響。在最具有挑戰(zhàn)性的情況(目標(biāo)集 3)下,與領(lǐng)先的基線方法相比,我們的方法識(shí)別出了近 10% 更多的關(guān)鍵故障區(qū)域。
![]()
5.3. 具有未知目標(biāo)的非參數(shù)模型
最后,我們要研究最困難的設(shè)定,即模型和目標(biāo)都是黑盒的。
一個(gè)實(shí)際場(chǎng)景源于多目標(biāo)優(yōu)化問(wèn)題中的復(fù)合貝葉斯優(yōu)化。目標(biāo)由一個(gè)偏好函數(shù) g ( y )
進(jìn)行加權(quán),該函數(shù)是先驗(yàn)未知的,并且必須在優(yōu)化過(guò)程中被同時(shí)學(xué)習(xí)。
![]()
![]()
![]()
任務(wù)。 我們?cè)谌齻€(gè)現(xiàn)實(shí)世界問(wèn)題上進(jìn)行實(shí)驗(yàn),包括車輛安全(5 維輸入 -3 維輸出)、青霉素生產(chǎn)模擬器(7 維輸入 -3 維輸出)和電網(wǎng)中的分布式能源資源分配(40 維輸入 -4 維輸出)(詳細(xì)設(shè)置和超參數(shù)選擇見(jiàn)附錄 D.4)。
![]()
評(píng)估。 我們通過(guò)使用真實(shí)偏好函數(shù) g ( y )
檢查所有收集結(jié)果中的最佳偏好來(lái)評(píng)估它們的性能。
結(jié)果。 圖 3 展示了我們的 AIF 方法在學(xué)習(xí)未知偏好函數(shù)方面的卓越能力,這是相對(duì)于常因查詢方向不當(dāng)而失敗的基線方法的一個(gè)關(guān)鍵優(yōu)勢(shì)。隨著任務(wù)變得更加復(fù)雜且噪聲更大(從 (a) 到 (c)),我們的結(jié)果表明,采集函數(shù) (4) 的每個(gè)組件在實(shí)現(xiàn)最優(yōu)性能方面都發(fā)揮著不可替代的作用。這一優(yōu)勢(shì)在能源資源分配任務(wù)中最為顯著,在該任務(wù)中,競(jìng)爭(zhēng)方法未能捕捉到任何有意義的偏好模型,而我們的方法始終成功。
![]()
聯(lián)合學(xué)習(xí)與優(yōu)化的優(yōu)勢(shì)。 為了強(qiáng)調(diào)聯(lián)合學(xué)習(xí)和優(yōu)化而非將其分階段進(jìn)行的好處,我們將我們的方法與 Lin 等人 (2022) 中使用不同階段設(shè)計(jì)選擇的幾種 BOPE 變體進(jìn)行比較。詳細(xì)的實(shí)驗(yàn)設(shè)置、設(shè)計(jì)選擇、圖表和分析見(jiàn)附錄 D.4.3。結(jié)果表明,我們的方法在每一步自然地平衡探索與利用,并持續(xù)發(fā)現(xiàn)更高偏好的區(qū)域,而 BOPE 變體對(duì)階段的配置方式高度敏感。因此,像 BOPE 這樣的分階段方法需要仔細(xì)手動(dòng)調(diào)整這些選擇,而我們的統(tǒng)一公式自動(dòng)化了這一權(quán)衡,因此更適用于高階分層模型。
6. 結(jié)論與局限性
我們提出了實(shí)用好奇心,這是一種基于 AIF 的范式,用于在昂貴黑盒評(píng)估下進(jìn)行混合學(xué)習(xí) - 優(yōu)化。通過(guò)最小化 EFE 來(lái)選擇動(dòng)作,該方法在單一采集目標(biāo)內(nèi)統(tǒng)一了目標(biāo)尋求和信息尋求。在約束系統(tǒng)辨識(shí)、目標(biāo)主動(dòng)搜索和具有未知偏好的復(fù)合優(yōu)化中,實(shí)用好奇心始終優(yōu)于強(qiáng)大的 BO 型和 BED 型基線,在固定預(yù)算下提高了估計(jì)精度、關(guān)鍵區(qū)域覆蓋率和最終解質(zhì)量。
我們方法的局限性源于問(wèn)題依賴的能量/偏好模型的指定;錯(cuò)誤指定可能會(huì)使采集產(chǎn)生偏差并降低性能。性能也繼承了底層代理和觀測(cè)模型的假設(shè);嚴(yán)重的模型不匹配或非平穩(wěn)性可能會(huì)損害不確定性量化和偏好誘導(dǎo)的指導(dǎo)。未來(lái)的工作包括將該范式的評(píng)估擴(kuò)展到多智能體、長(zhǎng)視野或多保真度設(shè)置。
原文鏈接:https://arxiv.org/pdf/2602.06104
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.