337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

主動(dòng)推理的混合學(xué)習(xí)-優(yōu)化范式

0
分享至

實(shí)用好奇心:一種基于主動(dòng)推理的混合學(xué)習(xí)優(yōu)化范式

Pragmatic Curiosity:A Hybrid Learning-Optimization Paradigm via Active Inference

https://arxiv.org/abs/2602.06104


摘要

許多工程和科學(xué)工作流程依賴于昂貴的黑盒評(píng)估,要求決策能夠同時(shí)提高性能并減少不確定性。貝葉斯優(yōu)化(BO)和貝葉斯實(shí)驗(yàn)設(shè)計(jì)(BED)提供了強(qiáng)大但基本分離的目標(biāo)尋求與信息尋求處理方式,對(duì)于學(xué)習(xí)與優(yōu)化內(nèi)在耦合的混合場(chǎng)景,它們提供的指導(dǎo)有限。我們提出了實(shí)用好奇心(pragmatic curiosity),這是一種源自主動(dòng)推斷的混合學(xué)習(xí) - 優(yōu)化范式,其中動(dòng)作通過(guò)最小化期望自由能來(lái)選擇——這是一個(gè)將實(shí)用效用與認(rèn)知信息增益耦合的單一目標(biāo)。我們?cè)诟鞣N現(xiàn)實(shí)世界混合任務(wù)上展示了實(shí)用好奇心的實(shí)際有效性和靈活性,包括約束系統(tǒng)辨識(shí)、目標(biāo)主動(dòng)搜索以及具有未知偏好的復(fù)合優(yōu)化。在這些基準(zhǔn)測(cè)試中,實(shí)用好奇心持續(xù)優(yōu)于強(qiáng)大的 BO 型和 BED 型基線,實(shí)現(xiàn)了更高的估計(jì)精度、更好的關(guān)鍵區(qū)域覆蓋以及改進(jìn)的最終解質(zhì)量。

1. 引言

工程和科學(xué)應(yīng)用通常依賴于昂貴的黑盒評(píng)估,以識(shí)別高性能設(shè)計(jì)或理想的系統(tǒng)狀態(tài)。當(dāng)主要目標(biāo)是達(dá)到指定目標(biāo)時(shí),貝葉斯優(yōu)化(BO)加速了這一過(guò)程(Shahriari 等人,2016;Frazier,2018),而貝葉斯實(shí)驗(yàn)設(shè)計(jì)(BED)則優(yōu)先獲取關(guān)于未知系統(tǒng)參數(shù)的信息(Rainforth 等人,2023)。兩種方法都利用概率模型和采集準(zhǔn)則,量化評(píng)估未知配置的效用,針對(duì)優(yōu)化或?qū)W習(xí)目標(biāo)量身定制。盡管它們各自取得了成功且各領(lǐng)域研究爆炸式增長(zhǎng),但它們的脫節(jié)為一大類混合問(wèn)題造成了真空,這些問(wèn)題通常需要同步尋求知識(shí)和實(shí)現(xiàn)目標(biāo)。

對(duì)于許多現(xiàn)實(shí)世界應(yīng)用,如目標(biāo)導(dǎo)向規(guī)劃(Lookman 等人,2019)、環(huán)境監(jiān)測(cè)(Konakovic Lukovic 等人,2020)和針對(duì)性材料設(shè)計(jì)(Matsumoto 等人,2025),學(xué)習(xí)和優(yōu)化不是獨(dú)立的階段,而是深度交織的目標(biāo)。這一挑戰(zhàn)根本性地出現(xiàn)在具有日益復(fù)雜性的任務(wù)中,就認(rèn)知考慮(即從參數(shù)模型到非參數(shù)模型)和實(shí)用評(píng)估(即從已知目標(biāo)到未知目標(biāo))而言:(1) 約束系統(tǒng)辨識(shí),其中精確學(xué)習(xí)系統(tǒng)參數(shù)的認(rèn)知愿望受限于將實(shí)驗(yàn)保持在安全或有效操作范圍內(nèi)的實(shí)用需求(例如,避免傳感器飽和或危險(xiǎn)化學(xué)反應(yīng))。此類任務(wù)可見(jiàn)于眾多應(yīng)用,包括環(huán)境監(jiān)測(cè)(Konakovic Lukovic 等人,2020)和催化劑設(shè)計(jì)(Zhong 等人,2020)。(2) 目標(biāo)主動(dòng)搜索,其中發(fā)現(xiàn)符合特定標(biāo)準(zhǔn)區(qū)域(例如,系統(tǒng)故障模式或特定性能范圍)的實(shí)用目標(biāo)需要認(rèn)知好奇心來(lái)探索區(qū)域的形狀、大小和邊界。應(yīng)用示例可見(jiàn)于故障發(fā)現(xiàn)(Ramanagopal 等人,2018)和醫(yī)療監(jiān)控(Malkomes 等人,2021)。(3) 復(fù)合貝葉斯優(yōu)化,其中實(shí)用目標(biāo)是根據(jù)用戶的隱藏偏好找到最優(yōu)設(shè)計(jì)——這是一項(xiàng)如果不首先對(duì)用戶目標(biāo)本身產(chǎn)生認(rèn)知好奇心就不可能完成的任務(wù)。此類場(chǎng)景常見(jiàn)于基于模擬的設(shè)計(jì)(González & Zavala,2025;Coelho 等人,2025)和 A/B 測(cè)試(Bakshy 等人,2018)。

傳統(tǒng)上,為解決這些混合問(wèn)題,從業(yè)者被迫在專用工具之間選擇,并通過(guò)利用信息增益準(zhǔn)則來(lái)增強(qiáng)優(yōu)化(反之亦然)以適應(yīng)特定問(wèn)題的調(diào)整。在 BO 方面,Russo & Van Roy(2018)將信息導(dǎo)向采樣(IDS)提出用于在線優(yōu)化問(wèn)題。Hvarfner 等人(2023)將基于統(tǒng)計(jì)距離的主動(dòng)學(xué)習(xí)(SAL)準(zhǔn)則引入 BO 循環(huán),即使在搜索最優(yōu)解時(shí)也主動(dòng)學(xué)習(xí)模型超參數(shù)。在 BED(也稱為貝葉斯主動(dòng)學(xué)習(xí),BAL)方面,Smith 等人(2023)提出了預(yù)期預(yù)測(cè)信息增益(EPIG)準(zhǔn)則,專注于模型預(yù)測(cè)中的信息增益,通過(guò)考慮輸入數(shù)據(jù)分布,減輕了經(jīng)典 BAL 選擇分布外或低相關(guān)性查詢的傾向。這些方法突顯了優(yōu)化與學(xué)習(xí)之間日益增長(zhǎng)的協(xié)同作用,但它們?nèi)匀皇翘囟ㄓ谌蝿?wù)的,且很少跨類別泛化。

在本文中,我們提出實(shí)用好奇心:一種源自主動(dòng)推斷(AIF)(Friston,2010;Friston 等人,2017)的混合學(xué)習(xí) - 優(yōu)化范式。AIF 通過(guò)最小化期望自由能(EFE)規(guī)定動(dòng)作選擇,這是一個(gè)單一目標(biāo),結(jié)合了 (i) 偏好首選結(jié)果的實(shí)用項(xiàng)和 (ii) 偏好信息增益的認(rèn)知項(xiàng)。我們證明 EFE 最小化提供了各種采集策略的統(tǒng)一視角:通過(guò)指定偏好、觀測(cè)模型和近似,所得準(zhǔn)則將 BO 類和 BED 類行為作為極限機(jī)制恢復(fù)。

在此范式下,尋求知識(shí)和實(shí)現(xiàn)目標(biāo)不被視為競(jìng)爭(zhēng)目標(biāo),而是最小化 EFE 這一單一指令的兩個(gè)不可分割的方面。這兩種驅(qū)動(dòng)力由一個(gè)稱為好奇心的系數(shù)平衡,該系數(shù)設(shè)定了學(xué)習(xí)與優(yōu)化之間的權(quán)衡。好奇心在保證自洽學(xué)習(xí)(即后驗(yàn)收斂于真理)和無(wú)遺憾優(yōu)化(即具有有界累積遺憾)方面的正式作用在 Li 等人(2026)中提供了理論支持。本文轉(zhuǎn)而展示該范式在處理廣泛一類復(fù)雜混合問(wèn)題上的實(shí)際有效性和靈活性,這些問(wèn)題常被標(biāo)準(zhǔn)方法忽略,包括具有演化目標(biāo)(條件隨時(shí)間變化)和隱式目標(biāo)(目標(biāo)未先驗(yàn)定義)的任務(wù)。我們圍繞上述三類問(wèn)題結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),借鑒的應(yīng)用包括羽流場(chǎng)中的環(huán)境監(jiān)測(cè)(Konakovic Lukovic 等人,2020)、自動(dòng)駕駛場(chǎng)景中的故障檢測(cè)(Ramanagopal 等人,2018)和電網(wǎng)中的分布式能源資源分配(Kianmehr 等人,2019)。

實(shí)證結(jié)果揭示了一貫的優(yōu)越性能模式,表明我們的框架在解決復(fù)雜混合目標(biāo)方面具有優(yōu)勢(shì)。在約束系統(tǒng)辨識(shí)任務(wù)中,我們的算法實(shí)現(xiàn)了近乎完美的估計(jì)精度,同時(shí)所需的查詢次數(shù)比其他方法少高達(dá) 40%。對(duì)于目標(biāo)主動(dòng)搜索任務(wù),它展示了一種更有效的探索策略,在相同預(yù)算內(nèi)多發(fā)現(xiàn)了關(guān)鍵失敗區(qū)域中至關(guān)重要的 10%。最值得注意的是,在具有未知用戶偏好的任務(wù)中,我們的方法總是成功學(xué)習(xí)了潛在目標(biāo),而其他基線方法則未能捕捉到。總之,這些發(fā)現(xiàn)驗(yàn)證了我們統(tǒng)一方法的強(qiáng)大效力,表明實(shí)用驅(qū)動(dòng)力與認(rèn)知驅(qū)動(dòng)力之間的原則性平衡能夠在多樣且具有挑戰(zhàn)性的問(wèn)題設(shè)置中帶來(lái)實(shí)質(zhì)性的收益。

綜上所述,我們的主要貢獻(xiàn)如下:

? 通過(guò)主動(dòng)推斷的視角,對(duì)各種采集策略提供了統(tǒng)一的觀點(diǎn)。

? 提出了一種針對(duì)通用混合學(xué)習(xí) - 優(yōu)化問(wèn)題的實(shí)用好奇心范式。

? 在三個(gè)具有多樣混合學(xué)習(xí) - 優(yōu)化目標(biāo)的典型現(xiàn)實(shí)世界問(wèn)題類別上進(jìn)行了全面的實(shí)證驗(yàn)證。

2. 預(yù)備知識(shí)

2.1. 貝葉斯優(yōu)化




2.2. 貝葉斯實(shí)驗(yàn)設(shè)計(jì)



3. 采集策略的統(tǒng)一視角

BO 中的采集策略通常導(dǎo)致目標(biāo)導(dǎo)向的行為,其中(隱式的)目標(biāo)是某個(gè)(未知)目標(biāo)函數(shù)的最優(yōu)值。相反,BED 中的采集策略鼓勵(lì)信息尋求行為,旨在收集關(guān)于某些感興趣參數(shù)的最大信息量。盡管兩者都可以被視為自適應(yīng)采樣(Di Fiore 等人,2023)的實(shí)現(xiàn),但由于指令不同(Hvarfner 等人,2025),這兩個(gè)領(lǐng)域之間不存在可遷移的方法。

在本節(jié)中,我們表明這兩個(gè)看似競(jìng)爭(zhēng)的指令可以通過(guò)主動(dòng)推斷(AIF)的原則自然地平衡。

3.1. 作為期望自由能最小化的主動(dòng)推斷

我們指定一個(gè)概率代理模型 q ( ? )
來(lái)捕捉結(jié)果 y 與決策變量 x 基于一組感興趣參數(shù) s 之間的關(guān)系,該關(guān)系分解為




其中最后一個(gè)不等式遵循琴生不等式(Jensen's inequality),該不等式指出對(duì)數(shù)的期望總是小于或等于期望的對(duì)數(shù)。

公式 (1) 的右邊被稱為變分自由能(VFE),其名稱源于 F F 類似于物理學(xué)中的亥姆霍茲自由能這一事實(shí)。我們可以看到 VFE 總是大于或等于驚異(即,它是驚異的上界)。在機(jī)器學(xué)習(xí)中,VFE 的符號(hào)通常被反轉(zhuǎn),使其成為證據(jù)下界(ELBO)。最大化 ELBO 是機(jī)器學(xué)習(xí)中常用的一種優(yōu)化方法(Titsias, 2009)。

為了制定決策策略,我們需要考慮決策變量 x 以及由動(dòng)作選擇導(dǎo)致的結(jié)果。由于未來(lái)結(jié)果尚未發(fā)生,我們轉(zhuǎn)而考察基于預(yù)測(cè)分布 q ( y ∣ x )
的預(yù)測(cè)結(jié)果上的驚異期望:


其中公式 (2) 的右側(cè)記為期望自由能(EFE)。


我們可以看到,通過(guò)構(gòu)造,EFE 在某些先驗(yàn)偏好下平衡了信息尋求和目標(biāo)導(dǎo)向行為。它界定了認(rèn)知價(jià)值(關(guān)于參數(shù))與實(shí)用價(jià)值(關(guān)于結(jié)果)之間的差異,這捕捉到了在與環(huán)境交互時(shí)最大化認(rèn)知價(jià)值(即關(guān)于潛在狀態(tài)的信息增益)的指令,同時(shí)關(guān)于先驗(yàn)偏好最大化實(shí)用價(jià)值(即期望偏好對(duì)齊)。AIF 的這一關(guān)鍵方面有效地解決了“探索 - 利用困境”,因?yàn)樘剿骱屠玫闹噶钪皇?EFE 的兩個(gè)方面:

實(shí)用價(jià)值(利用):這一項(xiàng)通過(guò)偏好預(yù)期能產(chǎn)生首選結(jié)果的動(dòng)作來(lái)鼓勵(lì)目標(biāo)導(dǎo)向行為。它由對(duì)期望觀測(cè)的先驗(yàn)分布編碼,其功能類似于強(qiáng)化學(xué)習(xí)中的效用或獎(jiǎng)勵(lì)函數(shù)(Millidge 等人,2020),驅(qū)動(dòng)智能體利用其當(dāng)前知識(shí)來(lái)實(shí)現(xiàn)其目標(biāo)。

認(rèn)知價(jià)值(探索):這一項(xiàng)通過(guò)偏好預(yù)期能最大程度減少關(guān)于底層系統(tǒng)不確定性的動(dòng)作來(lái)促進(jìn)信息尋求行為。它量化了關(guān)于模型參數(shù)的期望信息增益,驅(qū)動(dòng)智能體探索環(huán)境以完善其世界模型。

3.2. BO 和 BED 中采集策略的重新詮釋

至關(guān)重要的是,最小化 EFE 作為一個(gè)統(tǒng)一的 umbrella 原則。BO 和 BED 中的許多經(jīng)典采集策略可以重新詮釋為最小化 EFE 的特例,如表 1 所示。

表 1 中大多數(shù)采集策略的重新詮釋根據(jù)其定義是直截了當(dāng)?shù)摹H欢瑢⑾喈?dāng)直觀的 GP-UCB 策略置于該框架中似乎較為隱式。為了揭示它們之間的聯(lián)系,我們依賴于以下引理:



這揭示了 GP-UCB 與 AIF 之間的緊密聯(lián)系,表明即使是像 GP-UCB 這樣看似純粹直觀的策略,其背后也有著相當(dāng)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)基礎(chǔ)。

4. 推導(dǎo)采集函數(shù)的新范式

表 1 中的偏好分布 p ( y )
可以解釋為針對(duì)結(jié)果的時(shí)變價(jià)值函數(shù)的 softmax 變換。從這一觀察推廣開(kāi)來(lái),我們提出了一種推導(dǎo)采集函數(shù)的新范式,該范式適用于除傳統(tǒng) BO 和 BED 之外更廣泛的一類混合問(wèn)題。






好奇心 β t
在平衡學(xué)習(xí)與優(yōu)化的性能方面起著重要作用。Li 等人 (2026) 推導(dǎo)出了在充分好奇心條件下后驗(yàn)一致性和有界累積遺憾的形式化理論保證,并提供了在不同設(shè)置中選擇 β t的實(shí)用設(shè)計(jì)指南。

本文轉(zhuǎn)而考察問(wèn)題依賴的能量函數(shù) h ( y ∣ D t ) 如何提供一種靈活的機(jī)制,以顯式地表示關(guān)于目標(biāo)本身的不確定性。這種增強(qiáng)的表達(dá)能力使得能夠?yàn)闃?biāo)準(zhǔn)方法經(jīng)常忽略的一大類復(fù)雜設(shè)置進(jìn)行采集設(shè)計(jì),包括具有演化目標(biāo)(條件隨時(shí)間變化)和隱式目標(biāo)(未先驗(yàn)指定)的任務(wù)。這種公式化在此類任務(wù)上的有效性和通用性將在下一節(jié)中展示。

5. 實(shí)驗(yàn)

在本節(jié)中,我們通過(guò)跨三個(gè)彼此顯著不同的類別進(jìn)行實(shí)驗(yàn),來(lái)舉例說(shuō)明所提出的采集策略的優(yōu)勢(shì)和可變性。這些問(wèn)題源于 BO 和 BED 領(lǐng)域內(nèi)不同的文獻(xiàn),且它們都不是典型的 BO 或 BED 任務(wù)。因此,每一個(gè)任務(wù)都針對(duì)適合該特定任務(wù)的一組不同的 BO 型(專注于優(yōu)化)和 BED 型(專注于學(xué)習(xí))基線進(jìn)行評(píng)估,以確保公平且嚴(yán)謹(jǐn)?shù)谋容^。

5.1. 具有已知不變目標(biāo)的參數(shù)模型



任務(wù)。 我們?cè)诙S羽流場(chǎng)(2D plume fields)中的現(xiàn)實(shí)環(huán)境監(jiān)測(cè)問(wèn)題上進(jìn)行實(shí)驗(yàn),其中傳感器具有飽和閾值 (詳細(xì)設(shè)置和超參數(shù)選擇見(jiàn)附錄 D.2)。我們考慮三種類型的監(jiān)測(cè)任務(wù):(a) 定位未知源位置;(b) 估計(jì)未知風(fēng)向和強(qiáng)度;以及 (c) 識(shí)別多源場(chǎng)中的活躍源。

基線方法。 我們將我們提出的采集策略(AIF)與針對(duì)此任務(wù)定制的 BO 型和 BED 型基線方法進(jìn)行比較:(a) 隨機(jī)(Random);(b) 通過(guò)選擇導(dǎo)致違反約束概率最小的點(diǎn)來(lái)進(jìn)行貪婪選擇(BO 型);以及 (c) 關(guān)于未知參數(shù)的期望信息增益(EIG,BED 型)。

評(píng)估。 我們從認(rèn)知和實(shí)用兩個(gè)角度評(píng)估性能:(a) 估計(jì)精度;以及 (b) 約束違反情況。

結(jié)果。 圖 1 顯示,我們的方法在遵守所有操作約束的同時(shí),比基線方法實(shí)現(xiàn)了持續(xù)更強(qiáng)的查詢效率,且累積約束違反始終為零。這一優(yōu)勢(shì)在源定位任務(wù)中尤為明顯,在該任務(wù)中,獲取信息的驅(qū)動(dòng)力與滿足約束的需求產(chǎn)生了相互對(duì)立的壓力。通過(guò)解決這一沖突,我們的方法使用的查詢次數(shù)比競(jìng)爭(zhēng)方法少高達(dá) 40%,達(dá)到了近乎完美的估計(jì)。

5.2. 具有已知演化目標(biāo)的非參數(shù)模型

接下來(lái),我們考慮一個(gè)更具挑戰(zhàn)性的設(shè)定,其中任務(wù)條件會(huì)演化,且模型完全是黑盒的,以至于我們需要訴諸于非參數(shù)模型(例如,高斯過(guò)程 GP)。一個(gè)這樣的例子是多目標(biāo)設(shè)計(jì)問(wèn)題中的目標(biāo)主動(dòng)搜索。目標(biāo)被視為度量指標(biāo),其中特定范圍具有特殊意義,而目標(biāo)是設(shè)計(jì)實(shí)驗(yàn)以最大化這些重要區(qū)域 S 的覆蓋率。



任務(wù)。 我們?cè)谧詣?dòng)駕駛場(chǎng)景中的現(xiàn)實(shí)故障發(fā)現(xiàn)問(wèn)題上進(jìn)行實(shí)驗(yàn),其中感知模塊(一個(gè) YOLO 檢測(cè)器)可能因多種原因失效,這潛在地可能導(dǎo)致碰撞(3D 輸入-2D 輸出)。我們考慮三個(gè)體積遞減的目標(biāo)集,即目標(biāo)集 1 ? 目標(biāo)集 2 ? 目標(biāo)集 3(詳細(xì)設(shè)置和超參數(shù)選擇見(jiàn)附錄 D.3)。

基線方法。 我們?cè)俅螌⑽覀兲岢龅牟杉呗裕ˋIF)與針對(duì)此任務(wù)定制的 BO 型和 BED 型基線方法進(jìn)行比較:(a) 隨機(jī)(Random);(b) 通過(guò)最大化度量空間中的覆蓋體積來(lái)進(jìn)行貪婪選擇(BO 型);以及 (c) 通過(guò)最大化參數(shù)空間中的覆蓋體積來(lái)進(jìn)行期望信息增益(EIG,BED 型)。


結(jié)果。 如圖 2 所示,我們的 AIF 算法有效地平衡了參數(shù)空間和度量空間的覆蓋。這種能力對(duì)于搜索更為困難的較小目標(biāo)集尤其具有顯著影響。在最具有挑戰(zhàn)性的情況(目標(biāo)集 3)下,與領(lǐng)先的基線方法相比,我們的方法識(shí)別出了近 10% 更多的關(guān)鍵故障區(qū)域。


5.3. 具有未知目標(biāo)的非參數(shù)模型

最后,我們要研究最困難的設(shè)定,即模型和目標(biāo)都是黑盒的。

一個(gè)實(shí)際場(chǎng)景源于多目標(biāo)優(yōu)化問(wèn)題中的復(fù)合貝葉斯優(yōu)化。目標(biāo)由一個(gè)偏好函數(shù) g ( y )
進(jìn)行加權(quán),該函數(shù)是先驗(yàn)未知的,并且必須在優(yōu)化過(guò)程中被同時(shí)學(xué)習(xí)。




任務(wù)。 我們?cè)谌齻€(gè)現(xiàn)實(shí)世界問(wèn)題上進(jìn)行實(shí)驗(yàn),包括車輛安全(5 維輸入 -3 維輸出)、青霉素生產(chǎn)模擬器(7 維輸入 -3 維輸出)和電網(wǎng)中的分布式能源資源分配(40 維輸入 -4 維輸出)(詳細(xì)設(shè)置和超參數(shù)選擇見(jiàn)附錄 D.4)。


評(píng)估。 我們通過(guò)使用真實(shí)偏好函數(shù) g ( y )
檢查所有收集結(jié)果中的最佳偏好來(lái)評(píng)估它們的性能。

結(jié)果。 圖 3 展示了我們的 AIF 方法在學(xué)習(xí)未知偏好函數(shù)方面的卓越能力,這是相對(duì)于常因查詢方向不當(dāng)而失敗的基線方法的一個(gè)關(guān)鍵優(yōu)勢(shì)。隨著任務(wù)變得更加復(fù)雜且噪聲更大(從 (a) 到 (c)),我們的結(jié)果表明,采集函數(shù) (4) 的每個(gè)組件在實(shí)現(xiàn)最優(yōu)性能方面都發(fā)揮著不可替代的作用。這一優(yōu)勢(shì)在能源資源分配任務(wù)中最為顯著,在該任務(wù)中,競(jìng)爭(zhēng)方法未能捕捉到任何有意義的偏好模型,而我們的方法始終成功。


聯(lián)合學(xué)習(xí)與優(yōu)化的優(yōu)勢(shì)。 為了強(qiáng)調(diào)聯(lián)合學(xué)習(xí)和優(yōu)化而非將其分階段進(jìn)行的好處,我們將我們的方法與 Lin 等人 (2022) 中使用不同階段設(shè)計(jì)選擇的幾種 BOPE 變體進(jìn)行比較。詳細(xì)的實(shí)驗(yàn)設(shè)置、設(shè)計(jì)選擇、圖表和分析見(jiàn)附錄 D.4.3。結(jié)果表明,我們的方法在每一步自然地平衡探索與利用,并持續(xù)發(fā)現(xiàn)更高偏好的區(qū)域,而 BOPE 變體對(duì)階段的配置方式高度敏感。因此,像 BOPE 這樣的分階段方法需要仔細(xì)手動(dòng)調(diào)整這些選擇,而我們的統(tǒng)一公式自動(dòng)化了這一權(quán)衡,因此更適用于高階分層模型。

6. 結(jié)論與局限性

我們提出了實(shí)用好奇心,這是一種基于 AIF 的范式,用于在昂貴黑盒評(píng)估下進(jìn)行混合學(xué)習(xí) - 優(yōu)化。通過(guò)最小化 EFE 來(lái)選擇動(dòng)作,該方法在單一采集目標(biāo)內(nèi)統(tǒng)一了目標(biāo)尋求和信息尋求。在約束系統(tǒng)辨識(shí)、目標(biāo)主動(dòng)搜索和具有未知偏好的復(fù)合優(yōu)化中,實(shí)用好奇心始終優(yōu)于強(qiáng)大的 BO 型和 BED 型基線,在固定預(yù)算下提高了估計(jì)精度、關(guān)鍵區(qū)域覆蓋率和最終解質(zhì)量。

我們方法的局限性源于問(wèn)題依賴的能量/偏好模型的指定;錯(cuò)誤指定可能會(huì)使采集產(chǎn)生偏差并降低性能。性能也繼承了底層代理和觀測(cè)模型的假設(shè);嚴(yán)重的模型不匹配或非平穩(wěn)性可能會(huì)損害不確定性量化和偏好誘導(dǎo)的指導(dǎo)。未來(lái)的工作包括將該范式的評(píng)估擴(kuò)展到多智能體、長(zhǎng)視野或多保真度設(shè)置。

原文鏈接:https://arxiv.org/pdf/2602.06104

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我,死刑犯,執(zhí)行前最后一句遺言:把我捐了,救那個(gè)等肝的孩子

我,死刑犯,執(zhí)行前最后一句遺言:把我捐了,救那個(gè)等肝的孩子

真實(shí)人物采訪
2026-03-21 16:51:10
官場(chǎng)奇案:汕頭大火燒死中紀(jì)委調(diào)查員,是天災(zāi)還是人禍?

官場(chǎng)奇案:汕頭大火燒死中紀(jì)委調(diào)查員,是天災(zāi)還是人禍?

午夜故事會(huì)
2024-03-28 11:35:01
難了?馬杜羅沒(méi)料到,回家的最后指望,是被自己人親手?jǐn)財(cái)嗟?>
    </a>
        <h3>
      <a href=歸史
2026-03-23 06:04:50
謝爾基秀腳法場(chǎng)上顛球,瓜迪奧拉看了直搖頭

謝爾基秀腳法場(chǎng)上顛球,瓜迪奧拉看了直搖頭

懂球帝
2026-03-23 02:38:27
章子怡主動(dòng)擁抱卻被“懸空手”婉拒!這分寸感才是真高級(jí)

章子怡主動(dòng)擁抱卻被“懸空手”婉拒!這分寸感才是真高級(jí)

TVB的四小花
2026-03-22 20:12:18
官媒“痛批”女博士網(wǎng)紅相宜:有學(xué)識(shí)無(wú)修養(yǎng)究竟多可怕

官媒“痛批”女博士網(wǎng)紅相宜:有學(xué)識(shí)無(wú)修養(yǎng)究竟多可怕

手工制作阿殲
2026-03-22 18:56:46
第一次對(duì)現(xiàn)金的購(gòu)買力有這么清晰的概念!網(wǎng)友:不要小瞧一萬(wàn)塊錢

第一次對(duì)現(xiàn)金的購(gòu)買力有這么清晰的概念!網(wǎng)友:不要小瞧一萬(wàn)塊錢

夜深愛(ài)雜談
2026-03-16 21:38:52
母親是影后,丈夫是著名演員,公公是央視名嘴,34歲的她在當(dāng)網(wǎng)紅

母親是影后,丈夫是著名演員,公公是央視名嘴,34歲的她在當(dāng)網(wǎng)紅

地理三體說(shuō)
2026-01-23 20:58:26
紀(jì)實(shí):天津一女博士得知閨蜜懷孕,用10天時(shí)間讓閨蜜命喪黃泉

紀(jì)實(shí):天津一女博士得知閨蜜懷孕,用10天時(shí)間讓閨蜜命喪黃泉

清茶淺談
2025-02-19 15:27:54
中國(guó)在 2026 年初增加了原油庫(kù)存,但并不打算使用它們

中國(guó)在 2026 年初增加了原油庫(kù)存,但并不打算使用它們

新浪財(cái)經(jīng)
2026-03-22 11:14:36
本輪美以伊沖突以來(lái) 以色列已有超4500人送醫(yī)治療

本輪美以伊沖突以來(lái) 以色列已有超4500人送醫(yī)治療

財(cái)聯(lián)社
2026-03-22 16:28:12
前皇馬青訓(xùn):我無(wú)意間踢到C羅,那一年我再也沒(méi)去一線隊(duì)訓(xùn)練

前皇馬青訓(xùn):我無(wú)意間踢到C羅,那一年我再也沒(méi)去一線隊(duì)訓(xùn)練

懂球帝
2026-03-22 09:48:04
3年虧損2200億!常州首富與許家印,踏入了同一條河流

3年虧損2200億!常州首富與許家印,踏入了同一條河流

小熊侃史
2026-01-04 12:37:35
為了給前NBA狀元霍華德生孩子,籃球?qū)氊悏褖丫烤垢冻隽硕啻蟠鷥r(jià)

為了給前NBA狀元霍華德生孩子,籃球?qū)氊悏褖丫烤垢冻隽硕啻蟠鷥r(jià)

羅氏八卦
2026-03-10 18:00:03
掀掉洋蔥頂,整治宗教泛濫的第一步

掀掉洋蔥頂,整治宗教泛濫的第一步

黑哥講現(xiàn)代史
2026-03-14 15:46:38
拉夫羅夫:莫斯科將把所有歷史上的俄羅斯土地歸還其合法家園

拉夫羅夫:莫斯科將把所有歷史上的俄羅斯土地歸還其合法家園

番茄說(shuō)史聊
2026-02-22 14:07:52
“廉價(jià)的人歸來(lái)就是這個(gè)下場(chǎng)!”15W人圍觀女留子,現(xiàn)狀讓人唏噓

“廉價(jià)的人歸來(lái)就是這個(gè)下場(chǎng)!”15W人圍觀女留子,現(xiàn)狀讓人唏噓

知曉科普
2026-03-21 11:30:09
巴拿馬港口無(wú)人接盤20億索賠難承受!3月21日,巴拿馬政壇傳來(lái)新消息

巴拿馬港口無(wú)人接盤20億索賠難承受!3月21日,巴拿馬政壇傳來(lái)新消息

天氣觀察站
2026-03-22 13:13:55
媒體人談王鈺棟:若以足球偶像標(biāo)準(zhǔn)去看待,他顯然是不合格的

媒體人談王鈺棟:若以足球偶像標(biāo)準(zhǔn)去看待,他顯然是不合格的

懂球帝
2026-03-22 15:38:24
兩國(guó)可能合并,一旦成功將變成超級(jí)大國(guó),恐終結(jié)美國(guó)一家獨(dú)大局面

兩國(guó)可能合并,一旦成功將變成超級(jí)大國(guó),恐終結(jié)美國(guó)一家獨(dú)大局面

現(xiàn)代小青青慕慕
2026-03-15 09:34:25
2026-03-23 08:03:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1294文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

嫌臺(tái)積電太慢 馬斯克要把芯片產(chǎn)能飆升50倍

頭條要聞

伊朗采用新型戰(zhàn)術(shù)和升級(jí)系統(tǒng) 地面部隊(duì)處于戰(zhàn)備"巔峰"

頭條要聞

伊朗采用新型戰(zhàn)術(shù)和升級(jí)系統(tǒng) 地面部隊(duì)處于戰(zhàn)備"巔峰"

體育要聞

46歲生日快樂(lè)!巴薩全隊(duì)穿10號(hào)致敬小羅

娛樂(lè)要聞

47歲“國(guó)際章”身材走樣?讓嘲笑她的人閉嘴

財(cái)經(jīng)要聞

睡夢(mèng)中欠債1.2萬(wàn)?這只“蝦”殺瘋了

汽車要聞

14.28萬(wàn)元起 吉利銀河星耀8遠(yuǎn)航家開(kāi)啟預(yù)售

態(tài)度原創(chuàng)

時(shí)尚
本地
數(shù)碼
手機(jī)
游戲

她憑這件旗袍在賽場(chǎng)圈粉無(wú)數(shù)

本地新聞

春色滿城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

數(shù)碼要聞

古爾曼:蘋果Apple TV、HomePod和HomePod mini庫(kù)存告急

手機(jī)要聞

OPPO K15 Pro真機(jī)外觀曝光,內(nèi)置風(fēng)扇設(shè)計(jì)

陶德:《上古卷軸5》付費(fèi)Mod唯一問(wèn)題是玩家不愿購(gòu)買

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版