網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

主動(dòng)推理的混合學(xué)習(xí)-優(yōu)化范式

2026-03-16 08:50:31　來(lái)源: CreateAMind

上海舉報(bào)

分享至

實(shí)用好奇心：一種基于主動(dòng)推理的混合學(xué)習(xí)優(yōu)化范式

Pragmatic Curiosity:A Hybrid Learning-Optimization Paradigm via Active Inference

https://arxiv.org/abs/2602.06104

摘要

許多工程和科學(xué)工作流程依賴于昂貴的黑盒評(píng)估，要求決策能夠同時(shí)提高性能并減少不確定性。貝葉斯優(yōu)化（BO）和貝葉斯實(shí)驗(yàn)設(shè)計(jì)（BED）提供了強(qiáng)大但基本分離的目標(biāo)尋求與信息尋求處理方式，對(duì)于學(xué)習(xí)與優(yōu)化內(nèi)在耦合的混合場(chǎng)景，它們提供的指導(dǎo)有限。我們提出了實(shí)用好奇心（pragmatic curiosity），這是一種源自主動(dòng)推斷的混合學(xué)習(xí) - 優(yōu)化范式，其中動(dòng)作通過(guò)最小化期望自由能來(lái)選擇——這是一個(gè)將實(shí)用效用與認(rèn)知信息增益耦合的單一目標(biāo)。我們?cè)诟鞣N現(xiàn)實(shí)世界混合任務(wù)上展示了實(shí)用好奇心的實(shí)際有效性和靈活性，包括約束系統(tǒng)辨識(shí)、目標(biāo)主動(dòng)搜索以及具有未知偏好的復(fù)合優(yōu)化。在這些基準(zhǔn)測(cè)試中，實(shí)用好奇心持續(xù)優(yōu)于強(qiáng)大的 BO 型和 BED 型基線，實(shí)現(xiàn)了更高的估計(jì)精度、更好的關(guān)鍵區(qū)域覆蓋以及改進(jìn)的最終解質(zhì)量。

1. 引言

工程和科學(xué)應(yīng)用通常依賴于昂貴的黑盒評(píng)估，以識(shí)別高性能設(shè)計(jì)或理想的系統(tǒng)狀態(tài)。當(dāng)主要目標(biāo)是達(dá)到指定目標(biāo)時(shí)，貝葉斯優(yōu)化（BO）加速了這一過(guò)程（Shahriari 等人，2016；Frazier，2018），而貝葉斯實(shí)驗(yàn)設(shè)計(jì)（BED）則優(yōu)先獲取關(guān)于未知系統(tǒng)參數(shù)的信息（Rainforth 等人，2023）。兩種方法都利用概率模型和采集準(zhǔn)則，量化評(píng)估未知配置的效用，針對(duì)優(yōu)化或?qū)W習(xí)目標(biāo)量身定制。盡管它們各自取得了成功且各領(lǐng)域研究爆炸式增長(zhǎng)，但它們的脫節(jié)為一大類混合問(wèn)題造成了真空，這些問(wèn)題通常需要同步尋求知識(shí)和實(shí)現(xiàn)目標(biāo)。

對(duì)于許多現(xiàn)實(shí)世界應(yīng)用，如目標(biāo)導(dǎo)向規(guī)劃（Lookman 等人，2019）、環(huán)境監(jiān)測(cè)（Konakovic Lukovic 等人，2020）和針對(duì)性材料設(shè)計(jì)（Matsumoto 等人，2025），學(xué)習(xí)和優(yōu)化不是獨(dú)立的階段，而是深度交織的目標(biāo)。這一挑戰(zhàn)根本性地出現(xiàn)在具有日益復(fù)雜性的任務(wù)中，就認(rèn)知考慮（即從參數(shù)模型到非參數(shù)模型）和實(shí)用評(píng)估（即從已知目標(biāo)到未知目標(biāo)）而言：(1) 約束系統(tǒng)辨識(shí)，其中精確學(xué)習(xí)系統(tǒng)參數(shù)的認(rèn)知愿望受限于將實(shí)驗(yàn)保持在安全或有效操作范圍內(nèi)的實(shí)用需求（例如，避免傳感器飽和或危險(xiǎn)化學(xué)反應(yīng)）。此類任務(wù)可見(jiàn)于眾多應(yīng)用，包括環(huán)境監(jiān)測(cè)（Konakovic Lukovic 等人，2020）和催化劑設(shè)計(jì)（Zhong 等人，2020）。(2) 目標(biāo)主動(dòng)搜索，其中發(fā)現(xiàn)符合特定標(biāo)準(zhǔn)區(qū)域（例如，系統(tǒng)故障模式或特定性能范圍）的實(shí)用目標(biāo)需要認(rèn)知好奇心來(lái)探索區(qū)域的形狀、大小和邊界。應(yīng)用示例可見(jiàn)于故障發(fā)現(xiàn)（Ramanagopal 等人，2018）和醫(yī)療監(jiān)控（Malkomes 等人，2021）。(3) 復(fù)合貝葉斯優(yōu)化，其中實(shí)用目標(biāo)是根據(jù)用戶的隱藏偏好找到最優(yōu)設(shè)計(jì)——這是一項(xiàng)如果不首先對(duì)用戶目標(biāo)本身產(chǎn)生認(rèn)知好奇心就不可能完成的任務(wù)。此類場(chǎng)景常見(jiàn)于基于模擬的設(shè)計(jì)（González & Zavala，2025；Coelho 等人，2025）和 A/B 測(cè)試（Bakshy 等人，2018）。

傳統(tǒng)上，為解決這些混合問(wèn)題，從業(yè)者被迫在專用工具之間選擇，并通過(guò)利用信息增益準(zhǔn)則來(lái)增強(qiáng)優(yōu)化（反之亦然）以適應(yīng)特定問(wèn)題的調(diào)整。在 BO 方面，Russo & Van Roy（2018）將信息導(dǎo)向采樣（IDS）提出用于在線優(yōu)化問(wèn)題。Hvarfner 等人（2023）將基于統(tǒng)計(jì)距離的主動(dòng)學(xué)習(xí)（SAL）準(zhǔn)則引入 BO 循環(huán)，即使在搜索最優(yōu)解時(shí)也主動(dòng)學(xué)習(xí)模型超參數(shù)。在 BED（也稱為貝葉斯主動(dòng)學(xué)習(xí)，BAL）方面，Smith 等人（2023）提出了預(yù)期預(yù)測(cè)信息增益（EPIG）準(zhǔn)則，專注于模型預(yù)測(cè)中的信息增益，通過(guò)考慮輸入數(shù)據(jù)分布，減輕了經(jīng)典 BAL 選擇分布外或低相關(guān)性查詢的傾向。這些方法突顯了優(yōu)化與學(xué)習(xí)之間日益增長(zhǎng)的協(xié)同作用，但它們?nèi)匀皇翘囟ㄓ谌蝿?wù)的，且很少跨類別泛化。

在本文中，我們提出實(shí)用好奇心：一種源自主動(dòng)推斷（AIF）（Friston，2010；Friston 等人，2017）的混合學(xué)習(xí) - 優(yōu)化范式。AIF 通過(guò)最小化期望自由能（EFE）規(guī)定動(dòng)作選擇，這是一個(gè)單一目標(biāo)，結(jié)合了 (i) 偏好首選結(jié)果的實(shí)用項(xiàng)和 (ii) 偏好信息增益的認(rèn)知項(xiàng)。我們證明 EFE 最小化提供了各種采集策略的統(tǒng)一視角：通過(guò)指定偏好、觀測(cè)模型和近似，所得準(zhǔn)則將 BO 類和 BED 類行為作為極限機(jī)制恢復(fù)。

在此范式下，尋求知識(shí)和實(shí)現(xiàn)目標(biāo)不被視為競(jìng)爭(zhēng)目標(biāo)，而是最小化 EFE 這一單一指令的兩個(gè)不可分割的方面。這兩種驅(qū)動(dòng)力由一個(gè)稱為好奇心的系數(shù)平衡，該系數(shù)設(shè)定了學(xué)習(xí)與優(yōu)化之間的權(quán)衡。好奇心在保證自洽學(xué)習(xí)（即后驗(yàn)收斂于真理）和無(wú)遺憾優(yōu)化（即具有有界累積遺憾）方面的正式作用在 Li 等人（2026）中提供了理論支持。本文轉(zhuǎn)而展示該范式在處理廣泛一類復(fù)雜混合問(wèn)題上的實(shí)際有效性和靈活性，這些問(wèn)題常被標(biāo)準(zhǔn)方法忽略，包括具有演化目標(biāo)（條件隨時(shí)間變化）和隱式目標(biāo)（目標(biāo)未先驗(yàn)定義）的任務(wù)。我們圍繞上述三類問(wèn)題結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)，借鑒的應(yīng)用包括羽流場(chǎng)中的環(huán)境監(jiān)測(cè)（Konakovic Lukovic 等人，2020）、自動(dòng)駕駛場(chǎng)景中的故障檢測(cè)（Ramanagopal 等人，2018）和電網(wǎng)中的分布式能源資源分配（Kianmehr 等人，2019）。

實(shí)證結(jié)果揭示了一貫的優(yōu)越性能模式，表明我們的框架在解決復(fù)雜混合目標(biāo)方面具有優(yōu)勢(shì)。在約束系統(tǒng)辨識(shí)任務(wù)中，我們的算法實(shí)現(xiàn)了近乎完美的估計(jì)精度，同時(shí)所需的查詢次數(shù)比其他方法少高達(dá) 40%。對(duì)于目標(biāo)主動(dòng)搜索任務(wù)，它展示了一種更有效的探索策略，在相同預(yù)算內(nèi)多發(fā)現(xiàn)了關(guān)鍵失敗區(qū)域中至關(guān)重要的 10%。最值得注意的是，在具有未知用戶偏好的任務(wù)中，我們的方法總是成功學(xué)習(xí)了潛在目標(biāo)，而其他基線方法則未能捕捉到。總之，這些發(fā)現(xiàn)驗(yàn)證了我們統(tǒng)一方法的強(qiáng)大效力，表明實(shí)用驅(qū)動(dòng)力與認(rèn)知驅(qū)動(dòng)力之間的原則性平衡能夠在多樣且具有挑戰(zhàn)性的問(wèn)題設(shè)置中帶來(lái)實(shí)質(zhì)性的收益。

綜上所述，我們的主要貢獻(xiàn)如下：

? 通過(guò)主動(dòng)推斷的視角，對(duì)各種采集策略提供了統(tǒng)一的觀點(diǎn)。

? 提出了一種針對(duì)通用混合學(xué)習(xí) - 優(yōu)化問(wèn)題的實(shí)用好奇心范式。

? 在三個(gè)具有多樣混合學(xué)習(xí) - 優(yōu)化目標(biāo)的典型現(xiàn)實(shí)世界問(wèn)題類別上進(jìn)行了全面的實(shí)證驗(yàn)證。

2. 預(yù)備知識(shí)

2.1. 貝葉斯優(yōu)化

2.2. 貝葉斯實(shí)驗(yàn)設(shè)計(jì)

3. 采集策略的統(tǒng)一視角

BO 中的采集策略通常導(dǎo)致目標(biāo)導(dǎo)向的行為，其中（隱式的）目標(biāo)是某個(gè)（未知）目標(biāo)函數(shù)的最優(yōu)值。相反，BED 中的采集策略鼓勵(lì)信息尋求行為，旨在收集關(guān)于某些感興趣參數(shù)的最大信息量。盡管兩者都可以被視為自適應(yīng)采樣（Di Fiore 等人，2023）的實(shí)現(xiàn)，但由于指令不同（Hvarfner 等人，2025），這兩個(gè)領(lǐng)域之間不存在可遷移的方法。

在本節(jié)中，我們表明這兩個(gè)看似競(jìng)爭(zhēng)的指令可以通過(guò)主動(dòng)推斷（AIF）的原則自然地平衡。

3.1. 作為期望自由能最小化的主動(dòng)推斷

我們指定一個(gè)概率代理模型 q ( ? )
來(lái)捕捉結(jié)果 y 與決策變量 x 基于一組感興趣參數(shù) s 之間的關(guān)系，該關(guān)系分解為

其中最后一個(gè)不等式遵循琴生不等式（Jensen's inequality），該不等式指出對(duì)數(shù)的期望總是小于或等于期望的對(duì)數(shù)。

公式 (1) 的右邊被稱為變分自由能（VFE），其名稱源于 F F 類似于物理學(xué)中的亥姆霍茲自由能這一事實(shí)。我們可以看到 VFE 總是大于或等于驚異（即，它是驚異的上界）。在機(jī)器學(xué)習(xí)中，VFE 的符號(hào)通常被反轉(zhuǎn)，使其成為證據(jù)下界（ELBO）。最大化 ELBO 是機(jī)器學(xué)習(xí)中常用的一種優(yōu)化方法（Titsias, 2009）。

為了制定決策策略，我們需要考慮決策變量 x 以及由動(dòng)作選擇導(dǎo)致的結(jié)果。由于未來(lái)結(jié)果尚未發(fā)生，我們轉(zhuǎn)而考察基于預(yù)測(cè)分布 q ( y ∣ x )
的預(yù)測(cè)結(jié)果上的驚異期望：

其中公式 (2) 的右側(cè)記為期望自由能（EFE）。

我們可以看到，通過(guò)構(gòu)造，EFE 在某些先驗(yàn)偏好下平衡了信息尋求和目標(biāo)導(dǎo)向行為。它界定了認(rèn)知價(jià)值（關(guān)于參數(shù)）與實(shí)用價(jià)值（關(guān)于結(jié)果）之間的差異，這捕捉到了在與環(huán)境交互時(shí)最大化認(rèn)知價(jià)值（即關(guān)于潛在狀態(tài)的信息增益）的指令，同時(shí)關(guān)于先驗(yàn)偏好最大化實(shí)用價(jià)值（即期望偏好對(duì)齊）。AIF 的這一關(guān)鍵方面有效地解決了“探索 - 利用困境”，因?yàn)樘剿骱屠玫闹噶钪皇?EFE 的兩個(gè)方面：

實(shí)用價(jià)值（利用）：這一項(xiàng)通過(guò)偏好預(yù)期能產(chǎn)生首選結(jié)果的動(dòng)作來(lái)鼓勵(lì)目標(biāo)導(dǎo)向行為。它由對(duì)期望觀測(cè)的先驗(yàn)分布編碼，其功能類似于強(qiáng)化學(xué)習(xí)中的效用或獎(jiǎng)勵(lì)函數(shù)（Millidge 等人，2020），驅(qū)動(dòng)智能體利用其當(dāng)前知識(shí)來(lái)實(shí)現(xiàn)其目標(biāo)。

認(rèn)知價(jià)值（探索）：這一項(xiàng)通過(guò)偏好預(yù)期能最大程度減少關(guān)于底層系統(tǒng)不確定性的動(dòng)作來(lái)促進(jìn)信息尋求行為。它量化了關(guān)于模型參數(shù)的期望信息增益，驅(qū)動(dòng)智能體探索環(huán)境以完善其世界模型。

3.2. BO 和 BED 中采集策略的重新詮釋

至關(guān)重要的是，最小化 EFE 作為一個(gè)統(tǒng)一的 umbrella 原則。BO 和 BED 中的許多經(jīng)典采集策略可以重新詮釋為最小化 EFE 的特例，如表 1 所示。

表 1 中大多數(shù)采集策略的重新詮釋根據(jù)其定義是直截了當(dāng)?shù)摹Ｈ欢瑢⑾喈?dāng)直觀的 GP-UCB 策略置于該框架中似乎較為隱式。為了揭示它們之間的聯(lián)系，我們依賴于以下引理：

這揭示了 GP-UCB 與 AIF 之間的緊密聯(lián)系，表明即使是像 GP-UCB 這樣看似純粹直觀的策略，其背后也有著相當(dāng)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)基礎(chǔ)。

4. 推導(dǎo)采集函數(shù)的新范式

表 1 中的偏好分布 p ( y )
可以解釋為針對(duì)結(jié)果的時(shí)變價(jià)值函數(shù)的 softmax 變換。從這一觀察推廣開(kāi)來(lái)，我們提出了一種推導(dǎo)采集函數(shù)的新范式，該范式適用于除傳統(tǒng) BO 和 BED 之外更廣泛的一類混合問(wèn)題。

好奇心 β t
在平衡學(xué)習(xí)與優(yōu)化的性能方面起著重要作用。Li 等人 (2026) 推導(dǎo)出了在充分好奇心條件下后驗(yàn)一致性和有界累積遺憾的形式化理論保證，并提供了在不同設(shè)置中選擇 β t的實(shí)用設(shè)計(jì)指南。

本文轉(zhuǎn)而考察問(wèn)題依賴的能量函數(shù) h ( y ∣ D t ) 如何提供一種靈活的機(jī)制，以顯式地表示關(guān)于目標(biāo)本身的不確定性。這種增強(qiáng)的表達(dá)能力使得能夠?yàn)闃?biāo)準(zhǔn)方法經(jīng)常忽略的一大類復(fù)雜設(shè)置進(jìn)行采集設(shè)計(jì)，包括具有演化目標(biāo)（條件隨時(shí)間變化）和隱式目標(biāo)（未先驗(yàn)指定）的任務(wù)。這種公式化在此類任務(wù)上的有效性和通用性將在下一節(jié)中展示。

5. 實(shí)驗(yàn)

在本節(jié)中，我們通過(guò)跨三個(gè)彼此顯著不同的類別進(jìn)行實(shí)驗(yàn)，來(lái)舉例說(shuō)明所提出的采集策略的優(yōu)勢(shì)和可變性。這些問(wèn)題源于 BO 和 BED 領(lǐng)域內(nèi)不同的文獻(xiàn)，且它們都不是典型的 BO 或 BED 任務(wù)。因此，每一個(gè)任務(wù)都針對(duì)適合該特定任務(wù)的一組不同的 BO 型（專注于優(yōu)化）和 BED 型（專注于學(xué)習(xí)）基線進(jìn)行評(píng)估，以確保公平且嚴(yán)謹(jǐn)?shù)谋容^。

5.1. 具有已知不變目標(biāo)的參數(shù)模型

任務(wù)。 我們?cè)诙S羽流場(chǎng)（2D plume fields）中的現(xiàn)實(shí)環(huán)境監(jiān)測(cè)問(wèn)題上進(jìn)行實(shí)驗(yàn)，其中傳感器具有飽和閾值（詳細(xì)設(shè)置和超參數(shù)選擇見(jiàn)附錄 D.2）。我們考慮三種類型的監(jiān)測(cè)任務(wù)：(a) 定位未知源位置；(b) 估計(jì)未知風(fēng)向和強(qiáng)度；以及 (c) 識(shí)別多源場(chǎng)中的活躍源。

基線方法。 我們將我們提出的采集策略（AIF）與針對(duì)此任務(wù)定制的 BO 型和 BED 型基線方法進(jìn)行比較：(a) 隨機(jī)（Random）；(b) 通過(guò)選擇導(dǎo)致違反約束概率最小的點(diǎn)來(lái)進(jìn)行貪婪選擇（BO 型）；以及 (c) 關(guān)于未知參數(shù)的期望信息增益（EIG，BED 型）。

評(píng)估。 我們從認(rèn)知和實(shí)用兩個(gè)角度評(píng)估性能：(a) 估計(jì)精度；以及 (b) 約束違反情況。

結(jié)果。 圖 1 顯示，我們的方法在遵守所有操作約束的同時(shí)，比基線方法實(shí)現(xiàn)了持續(xù)更強(qiáng)的查詢效率，且累積約束違反始終為零。這一優(yōu)勢(shì)在源定位任務(wù)中尤為明顯，在該任務(wù)中，獲取信息的驅(qū)動(dòng)力與滿足約束的需求產(chǎn)生了相互對(duì)立的壓力。通過(guò)解決這一沖突，我們的方法使用的查詢次數(shù)比競(jìng)爭(zhēng)方法少高達(dá) 40%，達(dá)到了近乎完美的估計(jì)。

5.2. 具有已知演化目標(biāo)的非參數(shù)模型

接下來(lái)，我們考慮一個(gè)更具挑戰(zhàn)性的設(shè)定，其中任務(wù)條件會(huì)演化，且模型完全是黑盒的，以至于我們需要訴諸于非參數(shù)模型（例如，高斯過(guò)程 GP）。一個(gè)這樣的例子是多目標(biāo)設(shè)計(jì)問(wèn)題中的目標(biāo)主動(dòng)搜索。目標(biāo)被視為度量指標(biāo)，其中特定范圍具有特殊意義，而目標(biāo)是設(shè)計(jì)實(shí)驗(yàn)以最大化這些重要區(qū)域 S 的覆蓋率。

任務(wù)。 我們?cè)谧詣?dòng)駕駛場(chǎng)景中的現(xiàn)實(shí)故障發(fā)現(xiàn)問(wèn)題上進(jìn)行實(shí)驗(yàn)，其中感知模塊（一個(gè) YOLO 檢測(cè)器）可能因多種原因失效，這潛在地可能導(dǎo)致碰撞（3D 輸入-2D 輸出）。我們考慮三個(gè)體積遞減的目標(biāo)集，即目標(biāo)集 1 ? 目標(biāo)集 2 ? 目標(biāo)集 3（詳細(xì)設(shè)置和超參數(shù)選擇見(jiàn)附錄 D.3）。

基線方法。 我們?cè)俅螌⑽覀兲岢龅牟杉呗裕ˋIF）與針對(duì)此任務(wù)定制的 BO 型和 BED 型基線方法進(jìn)行比較：(a) 隨機(jī)（Random）；(b) 通過(guò)最大化度量空間中的覆蓋體積來(lái)進(jìn)行貪婪選擇（BO 型）；以及 (c) 通過(guò)最大化參數(shù)空間中的覆蓋體積來(lái)進(jìn)行期望信息增益（EIG，BED 型）。

結(jié)果。 如圖 2 所示，我們的 AIF 算法有效地平衡了參數(shù)空間和度量空間的覆蓋。這種能力對(duì)于搜索更為困難的較小目標(biāo)集尤其具有顯著影響。在最具有挑戰(zhàn)性的情況（目標(biāo)集 3）下，與領(lǐng)先的基線方法相比，我們的方法識(shí)別出了近 10% 更多的關(guān)鍵故障區(qū)域。

5.3. 具有未知目標(biāo)的非參數(shù)模型

最后，我們要研究最困難的設(shè)定，即模型和目標(biāo)都是黑盒的。

一個(gè)實(shí)際場(chǎng)景源于多目標(biāo)優(yōu)化問(wèn)題中的復(fù)合貝葉斯優(yōu)化。目標(biāo)由一個(gè)偏好函數(shù) g ( y )
進(jìn)行加權(quán)，該函數(shù)是先驗(yàn)未知的，并且必須在優(yōu)化過(guò)程中被同時(shí)學(xué)習(xí)。

任務(wù)。 我們?cè)谌齻€(gè)現(xiàn)實(shí)世界問(wèn)題上進(jìn)行實(shí)驗(yàn)，包括車輛安全（5 維輸入 -3 維輸出）、青霉素生產(chǎn)模擬器（7 維輸入 -3 維輸出）和電網(wǎng)中的分布式能源資源分配（40 維輸入 -4 維輸出）（詳細(xì)設(shè)置和超參數(shù)選擇見(jiàn)附錄 D.4）。

評(píng)估。 我們通過(guò)使用真實(shí)偏好函數(shù) g ( y )
檢查所有收集結(jié)果中的最佳偏好來(lái)評(píng)估它們的性能。

結(jié)果。 圖 3 展示了我們的 AIF 方法在學(xué)習(xí)未知偏好函數(shù)方面的卓越能力，這是相對(duì)于常因查詢方向不當(dāng)而失敗的基線方法的一個(gè)關(guān)鍵優(yōu)勢(shì)。隨著任務(wù)變得更加復(fù)雜且噪聲更大（從 (a) 到 (c)），我們的結(jié)果表明，采集函數(shù) (4) 的每個(gè)組件在實(shí)現(xiàn)最優(yōu)性能方面都發(fā)揮著不可替代的作用。這一優(yōu)勢(shì)在能源資源分配任務(wù)中最為顯著，在該任務(wù)中，競(jìng)爭(zhēng)方法未能捕捉到任何有意義的偏好模型，而我們的方法始終成功。

聯(lián)合學(xué)習(xí)與優(yōu)化的優(yōu)勢(shì)。 為了強(qiáng)調(diào)聯(lián)合學(xué)習(xí)和優(yōu)化而非將其分階段進(jìn)行的好處，我們將我們的方法與 Lin 等人 (2022) 中使用不同階段設(shè)計(jì)選擇的幾種 BOPE 變體進(jìn)行比較。詳細(xì)的實(shí)驗(yàn)設(shè)置、設(shè)計(jì)選擇、圖表和分析見(jiàn)附錄 D.4.3。結(jié)果表明，我們的方法在每一步自然地平衡探索與利用，并持續(xù)發(fā)現(xiàn)更高偏好的區(qū)域，而 BOPE 變體對(duì)階段的配置方式高度敏感。因此，像 BOPE 這樣的分階段方法需要仔細(xì)手動(dòng)調(diào)整這些選擇，而我們的統(tǒng)一公式自動(dòng)化了這一權(quán)衡，因此更適用于高階分層模型。

6. 結(jié)論與局限性

我們提出了實(shí)用好奇心，這是一種基于 AIF 的范式，用于在昂貴黑盒評(píng)估下進(jìn)行混合學(xué)習(xí) - 優(yōu)化。通過(guò)最小化 EFE 來(lái)選擇動(dòng)作，該方法在單一采集目標(biāo)內(nèi)統(tǒng)一了目標(biāo)尋求和信息尋求。在約束系統(tǒng)辨識(shí)、目標(biāo)主動(dòng)搜索和具有未知偏好的復(fù)合優(yōu)化中，實(shí)用好奇心始終優(yōu)于強(qiáng)大的 BO 型和 BED 型基線，在固定預(yù)算下提高了估計(jì)精度、關(guān)鍵區(qū)域覆蓋率和最終解質(zhì)量。

我們方法的局限性源于問(wèn)題依賴的能量/偏好模型的指定；錯(cuò)誤指定可能會(huì)使采集產(chǎn)生偏差并降低性能。性能也繼承了底層代理和觀測(cè)模型的假設(shè)；嚴(yán)重的模型不匹配或非平穩(wěn)性可能會(huì)損害不確定性量化和偏好誘導(dǎo)的指導(dǎo)。未來(lái)的工作包括將該范式的評(píng)估擴(kuò)展到多智能體、長(zhǎng)視野或多保真度設(shè)置。

原文鏈接：https://arxiv.org/pdf/2602.06104

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.