337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

貝葉斯智能體:通過(guò)語(yǔ)言化概率圖模型進(jìn)行不確定性下的貝葉斯智能體推理

0
分享至

貝葉斯智能體:通過(guò)語(yǔ)言化概率圖模型進(jìn)行不確定性下的貝葉斯智能體推理

BayesAgent: Bayesian Agentic Reasoning Under Uncertainty via Verbalized Probabilistic Graphical Modeling

https://www.alphaxiv.org/zh/overview/2406.05516v4


摘要

人類認(rèn)知的卓越之處在于能夠超越感官輸入,形成構(gòu)建我們對(duì)世界理解結(jié)構(gòu)的潛在表征。雖然大型語(yǔ)言模型(LLM)智能體展現(xiàn)出 emergent 的推理和決策能力,但它們?nèi)狈σ粋€(gè)原則性的框架來(lái)捕捉潛在結(jié)構(gòu)并對(duì)不確定性進(jìn)行建模。在這項(xiàng)工作中,我們首次探索如何將 LLM 智能體與概率圖模型(PGM)相結(jié)合,以解決不確定性下的智能體推理問(wèn)題。為此,我們引入了語(yǔ)言化概率圖建模(vPGM),這是一個(gè)貝葉斯智能體框架,它能夠(i)通過(guò)自然語(yǔ)言引導(dǎo) LLM 智能體遵循 PGM 的關(guān)鍵原則,以及(ii)通過(guò)數(shù)值貝葉斯推理優(yōu)化得到的后驗(yàn)分布。與許多需要大量領(lǐng)域?qū)I(yè)知識(shí)的傳統(tǒng)概率方法不同,vPGM 繞過(guò)了專家驅(qū)動(dòng)的模型設(shè)計(jì),使其特別適用于假設(shè)條件有限的場(chǎng)景。我們?cè)趲讉€(gè)封閉式和開(kāi)放式的智能體推理任務(wù)上評(píng)估了我們的模型。結(jié)果表明,該模型有效地增強(qiáng)了置信度校準(zhǔn)和文本生成質(zhì)量。代碼與附錄 —— https://github.com/xingbpshen/agentic-reasoning-vpgm

引言

在處理復(fù)雜的推理問(wèn)題(例如解決具有挑戰(zhàn)性的科學(xué)問(wèn)題)時(shí),人類大腦被認(rèn)為有能力超越單純的感官輸入,可能形成對(duì)世界潛在模式的洞察。這種能力表明,人類可能擁有解釋潛在結(jié)構(gòu)和不確定性的復(fù)雜技能(Tenenbaum et al. 2011),盡管其確切機(jī)制仍是 ongoing 研究和爭(zhēng)論的主題。截至目前,人類所展現(xiàn)出的這種理解深度尚未在人工智能系統(tǒng)中完全實(shí)現(xiàn)(Lake et al. 2017; Bender and Koller 2020; Zheng et al. 2021; Sumers et al. 2023)。

雖然大型語(yǔ)言模型在處理和生成人類語(yǔ)言方面展現(xiàn)了令人印象深刻的能力(Devlin et al. 2018; Brown et al. 2020; Achiam et al. 2023),但其性能常常受限于其訓(xùn)練數(shù)據(jù)的范圍。這些模型主要基于海量文本語(yǔ)料庫(kù)構(gòu)建,擅長(zhǎng)生成句法連貫且上下文相關(guān)的響應(yīng)。最近的進(jìn)展,如思維鏈(CoT)提示(Wei et al. 2022)和智能體范式的出現(xiàn)(Yao et al. 2023; Schick et al. 2023),已將其能力擴(kuò)展到交互式和組合式的智能體推理。然而,當(dāng)在不確定或部分可觀測(cè)的環(huán)境中作為自主智能體運(yùn)行時(shí),尤其是在那些需要隱性知識(shí)以及整合和推理來(lái)自多個(gè)來(lái)源的未公開(kāi)信息的能力(這些是 humans 在復(fù)雜推理中通常運(yùn)用的技能)的場(chǎng)景下,LLM 智能體常常會(huì)遇到困難。這種局限性不僅源于它們對(duì)表層語(yǔ)言相關(guān)性的依賴,還源于缺乏一個(gè)原則性的貝葉斯框架來(lái)捕捉潛在結(jié)構(gòu)并對(duì)不確定性進(jìn)行建模。

在這項(xiàng)工作中,我們首次探索如何將 LLM 智能體與概率圖模型(PGM)相結(jié)合,以解決不確定性下的智能體推理問(wèn)題。為此,我們引入了語(yǔ)言化概率圖建模(vPGM),這是一個(gè)貝葉斯智能體框架,它將 LLM 智能體推理的優(yōu)勢(shì)與顯式的數(shù)值貝葉斯推理相結(jié)合。與通常需要大量領(lǐng)域?qū)I(yè)知識(shí)的傳統(tǒng)貝葉斯推理框架(Griffiths, Kemp, and Tenenbaum 2008; Bielza and Larra?aga 2014; Wang and Yeung 2020; Abdullah, Hassan, and Mustafa 2022)不同,vPGM 繞過(guò)了專家驅(qū)動(dòng)的模型設(shè)計(jì),使其特別適用于假設(shè)條件有限的場(chǎng)景。具體來(lái)說(shuō),貝葉斯結(jié)構(gòu)學(xué)習(xí)方法(Kitson et al. 2023)有助于發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò),但它們通常需要專家領(lǐng)域知識(shí)來(lái)手動(dòng)驗(yàn)證統(tǒng)計(jì)依賴性,或者依賴計(jì)算成本高昂的評(píng)分函數(shù)來(lái)評(píng)估圖模型對(duì)數(shù)據(jù)的擬合優(yōu)度。我們的方法通過(guò)引導(dǎo) LLMs 模擬貝葉斯推理原則,同時(shí)通過(guò)一個(gè)可學(xué)習(xí)的貝葉斯代理模型增強(qiáng)不確定性量化,從而利用 LLMs 的知識(shí)和推理能力,顯著減少了對(duì)專家輸入的依賴。

具體而言,我們的方法包含三個(gè)初始階段:(1)圖結(jié)構(gòu)發(fā)現(xiàn),在此階段,提示 LLM 識(shí)別潛在變量及其概率依賴性;(2)基于提示的推理,引導(dǎo) LLMs 在給定新輸入數(shù)據(jù)的情況下推斷每個(gè)潛在變量的語(yǔ)言化后驗(yàn)分布;(3)不確定性下的預(yù)測(cè),通過(guò)計(jì)算在推斷出的潛在變量上的條件預(yù)測(cè)分布的期望值,來(lái)實(shí)現(xiàn)最終預(yù)測(cè)的置信度。此外,為了充分利用 vPGM 框架內(nèi) LLMs 生成的多個(gè)響應(yīng)樣本并增強(qiáng)不確定性量化,我們使用數(shù)值貝葉斯推理技術(shù)擴(kuò)展了 vPGM,這些技術(shù)可以推斷預(yù)測(cè)的后驗(yàn)分布,并通過(guò)一個(gè)理論上有保證的可微校準(zhǔn)損失函數(shù)來(lái)增強(qiáng)置信度校準(zhǔn)。

我們?cè)趲讉€(gè)智能體推理任務(wù)上評(píng)估了我們的方法,這些任務(wù)設(shè)計(jì)為封閉式和開(kāi)放式回答格式。實(shí)驗(yàn)證明,該方法在置信度校準(zhǔn)和生成響應(yīng)的質(zhì)量方面均有改進(jìn),突顯了 vPGM 在增強(qiáng) LLM 智能體概率推理能力方面的有效性。

相關(guān)工作

大型語(yǔ)言模型的研究近期已從靜態(tài)提示轉(zhuǎn)向能夠進(jìn)行智能體推理、工具使用和交互式?jīng)Q策的 LLM 智能體或智能體系統(tǒng)。我們分別討論這兩個(gè)方向,強(qiáng)調(diào)它們的局限性以及我們提出的 vPGM 如何解決一個(gè)關(guān)鍵缺失的組成部分:針對(duì)智能體推理任務(wù)的概率潛在變量推理和不確定性校準(zhǔn)。

LLM 提示
LLM 中的提示方法構(gòu)成了一個(gè)長(zhǎng)期的研究方向,其核心是無(wú)訓(xùn)練地引導(dǎo)模型響應(yīng)。早期方法包括上下文學(xué)習(xí),即模型根據(jù)特定任務(wù)的演示進(jìn)行條件生成;以及指令提示,它將明確的任務(wù)指令直接嵌入到自然語(yǔ)言提示中。一個(gè)重大的發(fā)展是思維鏈提示,它引出中間推理步驟以增強(qiáng)復(fù)雜推理。后續(xù)的變體將 CoT 擴(kuò)展到更靈活或自動(dòng)化的設(shè)置:零樣本 CoT、自動(dòng) rationale 生成、自洽性解碼,以及連續(xù)思維鏈,它將推理軌跡嵌入潛在空間。此外,(Xiong et al. 2023) 在基于一致性的方法基礎(chǔ)上進(jìn)行了擴(kuò)展,并對(duì) LLM 的置信度 elicitation 進(jìn)行了實(shí)證研究。相比之下,我們提出的 vPGM 從貝葉斯推理的角度解決置信度 elicitation 問(wèn)題,該方法遵循理論上更扎實(shí)的貝葉斯推理框架——概率圖模型的原則。

LLM 智能體與智能體系統(tǒng)
在這些提示方法進(jìn)步的基礎(chǔ)上,LLM 提示已演變?yōu)?LLM 智能體,它將推理與行動(dòng)、工具使用以及對(duì)外部環(huán)境的交互交織在一起。ReAct 結(jié)合了自然語(yǔ)言推理與工具調(diào)用和環(huán)境反饋;Toolformer 使用自監(jiān)督信號(hào)教導(dǎo) LLM 何時(shí)以及如何調(diào)用工具;ADAS 則自動(dòng)化了智能體系統(tǒng)架構(gòu)的設(shè)計(jì)。這些系統(tǒng)標(biāo)志著從被動(dòng)文本生成向交互式、工具增強(qiáng)行為的轉(zhuǎn)變。然而,現(xiàn)有的智能體方法通常缺乏一個(gè)原則性的概率框架:它們不顯式地建模潛在變量、量化不確定性或執(zhí)行貝葉斯信念更新,這限制了它們?cè)谛枰淮_定性下進(jìn)行校準(zhǔn)的智能體推理的場(chǎng)景中的適用性。

同期工作
一些同期的工作探索了使用 LLM 進(jìn)行概率或因果建模,但它們?cè)诤艽蟪潭壬吓c我們的貢獻(xiàn)是正交的。最近的因果發(fā)現(xiàn)研究專注于學(xué)習(xí)因果關(guān)系和反事實(shí),而 vPGM 的目標(biāo)是針對(duì)多源智能體任務(wù)的非因果概率潛在變量推理和不確定性校準(zhǔn)。BIRD 引入了一個(gè)用于 LLM 的貝葉斯推理包裝器,但它僅限于二元決策制定,因此不直接適用于我們的多類別和開(kāi)放式輸出。相比之下,vPGM 為 LLM 智能體內(nèi)的潛在變量推理和校準(zhǔn)的不確定性提供了一個(gè)統(tǒng)一的貝葉斯框架。

我們的方法:語(yǔ)言化概率圖建模(vPGM)

語(yǔ)言化概率圖建模(vPGM)是一種貝葉斯智能體推理方法,它利用大型語(yǔ)言模型智能體以自然語(yǔ)言模擬概率圖模型的關(guān)鍵原則。與許多需要廣泛領(lǐng)域知識(shí)和專門(mén)訓(xùn)練的現(xiàn)有概率方法不同,vPGM 繞過(guò)了基于專家的模型設(shè)計(jì)需求,使其適用于處理領(lǐng)域假設(shè)有限或數(shù)據(jù)稀缺的復(fù)雜推理任務(wù)。

vPGM 概述

從應(yīng)用角度來(lái)看,vPGM 可以嵌入到一系列復(fù)雜的推理系統(tǒng)中,例如智能體推理任務(wù)(見(jiàn)圖1)。我們的方法將整個(gè)推理過(guò)程分解為三個(gè)核心步驟:(1)圖結(jié)構(gòu)發(fā)現(xiàn),在此階段,通過(guò)提示 LLM 來(lái)識(shí)別潛在變量及其概率依賴關(guān)系(見(jiàn)圖2);(2)基于提示的推理,引導(dǎo) LLMs 根據(jù)新的輸入數(shù)據(jù)推斷每個(gè)潛在變量的語(yǔ)言化后驗(yàn)分布;(3)不確定性下的預(yù)測(cè),通過(guò)計(jì)算在推斷出的潛在變量上的條件預(yù)測(cè)分布的期望值,來(lái)實(shí)現(xiàn)最終預(yù)測(cè)的置信度。



圖結(jié)構(gòu)發(fā)現(xiàn)

我們的方法首先通過(guò)設(shè)計(jì)專門(mén)的提示(見(jiàn)附錄)來(lái)揭示組合推理中的潛在變量。該提示包含幾個(gè)關(guān)鍵要素:(1)通用任務(wù)描述,簡(jiǎn)潔陳述推理目標(biāo);(2)輸入-輸出數(shù)據(jù)對(duì),展示具有代表性的數(shù)據(jù)樣本;(3)上下文信息,提供必要的背景知識(shí)或領(lǐng)域洞見(jiàn);(4)先驗(yàn)知識(shí)與約束,指定約束條件,例如潛在變量的最大數(shù)量及其預(yù)定義的依賴關(guān)系。

在識(shí)別出一組潛在變量 Z = {Z?, Z?, ..., Z?}(潛在變量的示例見(jiàn)附錄)之后,我們進(jìn)一步提示大語(yǔ)言模型(LLMs)來(lái)確定每個(gè)潛在變量如何依賴于其他變量。從 LLM 獲得的一組依賴關(guān)系示例如下:{ X → Z?, X → Z?, X → Z?, X → Z?, Z? → Z?, Z? → Z?, Z? → Z?, Z? → Z?, Z? → Y },其中每個(gè)關(guān)系 a → b 表示 b 條件依賴于 a。與傳統(tǒng)的概率圖模型(PGMs)類似,我們的語(yǔ)言化 PGM(vPGM)將這些依賴關(guān)系編碼為條件概率分布 P(Z? | Pa(Z?))。然而,vPGM 不依賴于顯式的分布形式,而是使用自然語(yǔ)言描述(詳細(xì)示例見(jiàn)附錄)來(lái)指定每個(gè)條件關(guān)系,從而減少了對(duì)大量領(lǐng)域?qū)I(yè)知識(shí)或參數(shù)估計(jì)的需求。

基于提示的貝葉斯推斷

傳統(tǒng)上,貝葉斯推斷側(cè)重于在給定概率模型和新觀測(cè)值的情況下推斷模型參數(shù)的后驗(yàn)分布。然而,在 LLM 的語(yǔ)境下,它被重新表述為生成提示,以在 vPGM 框架下利用其發(fā)現(xiàn)的結(jié)構(gòu)和新觀測(cè)值來(lái)模擬后驗(yàn)推斷。這種方法利用 LLM 的高級(jí)推理能力來(lái)生成指令,使其能夠模擬貝葉斯推斷原理。一個(gè)示例提示是:"生成一個(gè)提示,引導(dǎo) LLM 根據(jù)提供的任務(wù)描述、發(fā)現(xiàn)的 PGM 和測(cè)試數(shù)據(jù),逐步進(jìn)行概率推理……"

不確定性下的預(yù)測(cè)

智能體推理任務(wù)通常涉及顯著的不確定性。例如,LLM 智能體(如圖像描述器)可能產(chǎn)生有噪聲的輸出,引入偶然不確定性。在 vPGM 框架下,這種可變性通過(guò)潛在變量的語(yǔ)言化后驗(yàn)分布來(lái)捕捉。在通過(guò)基于提示的貝葉斯推斷構(gòu)建語(yǔ)言化后驗(yàn) P(Z | X) 之后,我們通過(guò)對(duì) Z 取 P(Y | Z) 的期望值來(lái)量化對(duì)最終預(yù)測(cè)的置信度:


其中 X 表示觀測(cè)輸入,Z 是通過(guò)使用 vPGM 的貝葉斯推斷提示查詢 LLM 來(lái)采樣的。在實(shí)踐中,P(Z | X) 和 P(Y | Z) 都在單個(gè)提示中模擬(詳見(jiàn)附錄中的示例)。因此,期望后驗(yàn)概率可以通過(guò)對(duì) LLM 在這些推斷步驟中生成的 P(Y | Z) 的數(shù)值取平均來(lái)近似。

貝葉斯增強(qiáng)的 vPGM:BayesVPGM

當(dāng)在 vPGM 框架下反復(fù)查詢大語(yǔ)言模型(LLM)時(shí),我們會(huì)獲得多個(gè)響應(yīng)樣本,即類別預(yù)測(cè)及其數(shù)值概率。一個(gè)自然的問(wèn)題是:如何利用這些數(shù)據(jù)來(lái)更好地捕捉 LLM 預(yù)測(cè)中潛在的不確定性。為此,我們提出推斷這樣一個(gè)后驗(yàn)分布,記為 q(y | x?),其中 x? 表示類別預(yù)測(cè)。




通過(guò)可微分校準(zhǔn)損失優(yōu)化 λ

該后驗(yàn)分布的一個(gè)關(guān)鍵局限性在于它依賴于手動(dòng)調(diào)優(yōu)的 λ,該參數(shù)控制著 vPGM 的數(shù)值概率對(duì)最終結(jié)果的影響程度。為了實(shí)現(xiàn)這一過(guò)程的自動(dòng)化并改善校準(zhǔn)效果,我們引入了一種可微分的校準(zhǔn)損失,通過(guò)基于梯度的優(yōu)化來(lái)學(xué)習(xí) λ。

具體而言,我們最小化以下關(guān)于 λ 的損失函數(shù):







證明見(jiàn)附錄。盡管損失函數(shù)公式 (2) 中的交叉熵項(xiàng)將預(yù)測(cè)拉向獨(dú)熱標(biāo)簽,而校準(zhǔn)項(xiàng)強(qiáng)制執(zhí)行逐類別平均對(duì)齊,但定理 1 表明這兩個(gè)目標(biāo)可以同時(shí)達(dá)到最小值。

實(shí)驗(yàn)

我們?cè)谌齻€(gè)智能體推理任務(wù)上評(píng)估了所提出的 vPGM 和 BayesVPGM 在建模不確定性方面的有效性。第一個(gè)是名為 ScienceQA(Lu et al. 2022)的封閉式任務(wù),第二個(gè)是名為 ChatCoach(Huang et al. 2024)的開(kāi)放式任務(wù),這兩個(gè)任務(wù)都需要結(jié)合來(lái)自多個(gè)來(lái)源的未公開(kāi)信息進(jìn)行推理。然后,我們引入了一個(gè)源自 A-OKVQA(Schwenk et al. 2022)的負(fù)對(duì)照實(shí)驗(yàn),以研究潛在變量是否可以通過(guò)檢測(cè)錯(cuò)誤信息存在時(shí)的不匹配來(lái)增強(qiáng)置信度校準(zhǔn)。詳細(xì)的實(shí)驗(yàn)配置見(jiàn)附錄。

科學(xué)問(wèn)答

由(Lu et al. 2022)提出的科學(xué)問(wèn)答(ScienceQA)基準(zhǔn)是一個(gè)全面的多模態(tài)問(wèn)答基準(zhǔn),涵蓋物理學(xué)、數(shù)學(xué)、生物學(xué)和人文學(xué)科等多種科學(xué)學(xué)科。它包含 4,241 個(gè)問(wèn)答對(duì),涵蓋各種主題和背景。該任務(wù)需要整合來(lái)自多個(gè)來(lái)源或 LLM 智能體(例如必應(yīng)搜索結(jié)果、圖像描述)的信息,這一過(guò)程可能引入錯(cuò)誤并增加推理的復(fù)雜性。鑒于這些挑戰(zhàn),ScienceQA 成為評(píng)估 vPGM 識(shí)別潛在結(jié)構(gòu)和模型不確定性效果的理想測(cè)試平臺(tái)。更詳細(xì)的實(shí)驗(yàn)設(shè)置見(jiàn)附錄。

基線方法 我們將 vPGM/BayesVPGM 與以下基線方法進(jìn)行比較:

  • 思維鏈(Chain-of-Thought) 這是一種非工具增強(qiáng)的 LLM:配備言語(yǔ)化置信度估計(jì)的思維鏈(CoT)提示(Wei et al. 2022),通過(guò)提示其為所選答案提供數(shù)值置信度來(lái)實(shí)現(xiàn)。

  • Chameleon 這是一種基于工具增強(qiáng) LLM 的方法:Chameleon(Lu et al. 2023),我們?yōu)槠渑鋫淞搜哉Z(yǔ)化置信度估計(jì)。

  • Chameleon+ 它通過(guò)結(jié)合言語(yǔ)化置信度估計(jì)和自洽性測(cè)量(Wang et al. 2022a)的最先進(jìn)不確定性量化框架擴(kuò)展了 Chameleon,如(Xiong et al. 2023)所推薦的。

評(píng)估指標(biāo) 根據(jù)(Naeini, Cooper, and Hauskrecht 2015; Guo et al. 2017; Xiong et al. 2023)中先前的置信度校準(zhǔn)評(píng)估設(shè)置,我們采用期望校準(zhǔn)誤差(ECE)來(lái)評(píng)估模型置信度,以數(shù)值概率預(yù)測(cè)的形式表示。ECE 量化了預(yù)測(cè)概率與每個(gè)置信度水平(分箱)上觀測(cè)準(zhǔn)確率之間的差異。在整個(gè)實(shí)驗(yàn)中,我們將置信度分箱數(shù)固定為 10,各分箱的置信度貢獻(xiàn)均勻分布。此外,我們通過(guò)測(cè)量準(zhǔn)確率(Acc.)來(lái)評(píng)估給定方法正確解決問(wèn)題的能力。

結(jié)果 表 1 詳細(xì)列出了不同方法在 ScienceQA 數(shù)據(jù)集上的性能。結(jié)果顯示,Chameleon 的 ECE(×102)最高(最差),為 9.62,表明即使在借助外部工具的情況下,處理復(fù)雜推理任務(wù)時(shí)仍存在嚴(yán)重的過(guò)度自信問(wèn)題。相比之下,我們的 vPGM 在準(zhǔn)確率和 ECE 方面均優(yōu)于這些方法,這得益于其捕捉其他基線方法所忽略的潛在結(jié)構(gòu)信息的卓越能力。圖 3 展示了 vPGM 和 BayesVPGM 的可靠性圖,顯示其在所有分箱上與理想校準(zhǔn)曲線幾乎完美對(duì)齊,突出了其在置信度校準(zhǔn)方面的精確性(消融結(jié)果和詞元級(jí)計(jì)算成本見(jiàn)附錄)。



推斷潛在變量的定性研究 圖 1 展示了 BayesVPGM 推理能力的案例研究,以定性評(píng)估模型利用潛在結(jié)構(gòu)信息改進(jìn)置信度估計(jì)的能力。在此,vPGM 利用其潛在變量來(lái)批判性評(píng)估檢索信息的相關(guān)性。例如,當(dāng)面對(duì)來(lái)自必應(yīng)搜索等外部工具的不相關(guān)數(shù)據(jù)或圖像描述器提供的不準(zhǔn)確描述時(shí),基線方法 Chameleon 錯(cuò)誤地對(duì)其預(yù)測(cè)保持高置信度。相比之下,BayesVPGM 會(huì)仔細(xì)調(diào)整其置信度,在缺少關(guān)鍵上下文知識(shí)或知識(shí)不正確時(shí)分配較低的概率,這一過(guò)程通過(guò)潛在變量的推斷尤為有效。這些觀察結(jié)果突顯了推斷潛在結(jié)構(gòu)對(duì)于提高組合推理系統(tǒng)可靠性的重要性。


交際醫(yī)療指導(dǎo)

醫(yī)療指導(dǎo)基準(zhǔn) ChatCoach 由(Huang et al. 2024)提出,建立了一個(gè)復(fù)雜的多智能體對(duì)話場(chǎng)景,涉及醫(yī)生、患者和醫(yī)療教練,跨越 3,500 輪對(duì)話。醫(yī)療教練的任務(wù)是檢測(cè)醫(yī)生使用的醫(yī)學(xué)術(shù)語(yǔ)中的不準(zhǔn)確之處(檢測(cè)任務(wù))并提出適當(dāng)?shù)男拚ㄗh(修正任務(wù))。這些任務(wù)需要整合外部醫(yī)學(xué)知識(shí),這本質(zhì)上會(huì)給回復(fù)生成帶來(lái)不確定性。選擇該基準(zhǔn)是為了測(cè)試 vPGM 在復(fù)雜開(kāi)放式推理任務(wù)上的泛化能力。BayesVPGM 未在此設(shè)置中應(yīng)用,因?yàn)樵撃P图僭O(shè)輸出為類別分布。實(shí)驗(yàn)和實(shí)現(xiàn)的更多細(xì)節(jié)見(jiàn)附錄。

基線方法 為進(jìn)行比較分析,我們將 vPGM 與以下方法進(jìn)行基準(zhǔn)對(duì)比:

  • 普通指令提示(Vanilla Instruction Prompting):該方法使用直接指令提示 LLM 生成對(duì)話。

  • 零樣本思維鏈(Zero-shot Chain of Thought, CoT)(Kojima et al. 2022):一種簡(jiǎn)單的 CoT 方法,提示 LLM 依次闡述推理鏈。

  • 普通思維鏈(Vanilla CoT)(Wei et al. 2022):該方法在基礎(chǔ) CoT 之上,為 LLM 提供一組包含詳細(xì)推理步驟的示例。

  • 廣義思維鏈(Generalized CoT, GCoT)(Huang et al. 2024):CoT 的高級(jí)版本,旨在有效改進(jìn)結(jié)構(gòu)化反饋的生成和外部知識(shí)的整合。它代表了 ChatCoach 基準(zhǔn)中的最先進(jìn)方法。

評(píng)估指標(biāo) 我們遵循(Huang et al. 2024),采用傳統(tǒng)的自動(dòng)評(píng)估指標(biāo) BLEU-2、ROUGE-L 和 BERTScore。BLEU-2 用于測(cè)量二元語(yǔ)法重疊的精確度,提供生成文本相對(duì)于參考答案詞匯準(zhǔn)確性的洞察。ROUGE-L 用于評(píng)估句子級(jí)相似性,關(guān)注最長(zhǎng)公共子序列以評(píng)估結(jié)構(gòu)連貫性和順序 n 元語(yǔ)法的一致性。此外,BERTScore 應(yīng)用于語(yǔ)義相似性評(píng)估,利用 BERT 嵌入在更深層次的語(yǔ)義上比較生成輸出和參考文本。如(Huang et al. 2024)所指定,我們使用 GPT-4 從教練智能體的反饋中提取醫(yī)學(xué)術(shù)語(yǔ)錯(cuò)誤和相應(yīng)的修正。然后基于這些提取的元素與人類標(biāo)注進(jìn)行比較計(jì)算自動(dòng)指標(biāo)。

結(jié)果 我們?cè)诒?2 中展示了各種方法的性能。所有指標(biāo)上機(jī)器生成輸出與人類基準(zhǔn)之間的顯著差異突顯了交際醫(yī)療指導(dǎo)中固有的挑戰(zhàn)。在醫(yī)學(xué)術(shù)語(yǔ)錯(cuò)誤檢測(cè)方面,vPGM 以優(yōu)異的 BLEU-2(37.2)和 BERTScore(76.3)領(lǐng)先,突顯其在識(shí)別不準(zhǔn)確之處方面的熟練程度。在修正任務(wù)中,雖然 vPGM 取得了突出的 BERTScore 68.3,超越所有基線,但其在 BLEU-2 和 ROUGE-L 上得分較低。這種變化歸因于醫(yī)生輸入中的歧義性,這可能產(chǎn)生多個(gè)有效回復(fù),影響依賴精確匹配的指標(biāo)。


A-OKVQA 負(fù)對(duì)照:研究錯(cuò)誤信息下的潛在變量

數(shù)據(jù)模擬 A-OKVQA(Schwenk et al. 2022)是一個(gè)視覺(jué)問(wèn)答數(shù)據(jù)集,挑戰(zhàn)模型對(duì)場(chǎng)景進(jìn)行常識(shí)推理,這通常超出了簡(jiǎn)單知識(shí)庫(kù)查詢的范圍。關(guān)鍵的是,它為每個(gè)問(wèn)題提供了真實(shí)圖像描述和推理依據(jù)。我們利用這些標(biāo)注來(lái)構(gòu)建一個(gè)負(fù)對(duì)照實(shí)驗(yàn):A-OKVQA-clean(603 個(gè)數(shù)據(jù)點(diǎn))保留正確的圖像描述和推理依據(jù)(接近單跳推理),而 A-OKVQA-noisy(603 個(gè)數(shù)據(jù)點(diǎn))隨機(jī)打亂推理依據(jù),從而引入錯(cuò)誤信息并強(qiáng)制進(jìn)行多跳一致性檢查。在此實(shí)驗(yàn)中,我們采用具有 2 個(gè)潛在變量的 vPGM(推理提示和示例查詢見(jiàn)附錄)。數(shù)據(jù)配置的更多細(xì)節(jié)見(jiàn)附錄。

噪聲條件下的整體性能 表 3 顯示了 A-OKVQA-noisy 數(shù)據(jù)集上的整體準(zhǔn)確率(Acc.)和期望校準(zhǔn)誤差(ECE)。vPGM 和 BayesVPGM 在準(zhǔn)確率上均優(yōu)于 Chameleon+(61.03% 對(duì) 59.04%),并產(chǎn)生更低的 ECE,表明潛在變量能夠檢測(cè)不匹配并改進(jìn)置信度校準(zhǔn)。




這表明了一種權(quán)衡:雖然潛在變量在檢測(cè)錯(cuò)誤信息和改進(jìn) Noisy 設(shè)置中的校準(zhǔn)方面表現(xiàn)出色,但在實(shí)際不存在不匹配時(shí),它們可能會(huì)輕微降低校準(zhǔn)效果。

結(jié)論

我們提出了言語(yǔ)化概率圖模型(vPGM),一種貝葉斯智能體框架,該框架(1)指導(dǎo) LLM 智能體通過(guò)自然語(yǔ)言模擬概率圖模型(PGM)的核心原理,以及(2)通過(guò)數(shù)值貝葉斯推斷細(xì)化所得的后驗(yàn)分布。應(yīng)用于智能體工作流中,vPGM 使 LLM 智能體能夠執(zhí)行具有校準(zhǔn)不確定性的概率潛在變量推理。該方法無(wú)需大量領(lǐng)域?qū)I(yè)知識(shí)即可發(fā)現(xiàn)潛在變量和依賴關(guān)系,使其非常適用于假設(shè)有限的場(chǎng)景。我們?cè)谥悄荏w推理任務(wù)上的實(shí)證結(jié)果顯示,在置信度校準(zhǔn)和文本生成質(zhì)量方面均有顯著提升。這些結(jié)果突顯了將貝葉斯原理與 LLM 智能體相結(jié)合以增強(qiáng) AI 系統(tǒng)建模不確定性和不確定性下推理能力的潛力。

原文鏈接:https://arxiv.org/pdf/2406.05516

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
第八波反制來(lái)了, 巴方請(qǐng)求中方高抬貴手, 巴方的要求, 中方接受不了

第八波反制來(lái)了, 巴方請(qǐng)求中方高抬貴手, 巴方的要求, 中方接受不了

健身狂人
2026-03-20 19:36:26
80年他向鄧小平提退休,前往國(guó)外休假,大使卻道賀:您當(dāng)副總理了

80年他向鄧小平提退休,前往國(guó)外休假,大使卻道賀:您當(dāng)副總理了

歷史點(diǎn)行
2026-03-20 23:15:17
被年輕人的“家務(wù)方法”驚呆了!只是換個(gè)思路,家務(wù)就少了一半!

被年輕人的“家務(wù)方法”驚呆了!只是換個(gè)思路,家務(wù)就少了一半!

家居設(shè)計(jì)師宅哥
2026-03-16 20:26:46
醫(yī)生告誡:腦梗早期不是手腳麻,而是頻繁出現(xiàn)5癥狀,千萬(wàn)別忽視

醫(yī)生告誡:腦梗早期不是手腳麻,而是頻繁出現(xiàn)5癥狀,千萬(wàn)別忽視

醫(yī)學(xué)科普匯
2026-03-19 21:15:03
算力+電力+儲(chǔ)能|10家正宗龍頭,搶占算電協(xié)同萬(wàn)億賽道

算力+電力+儲(chǔ)能|10家正宗龍頭,搶占算電協(xié)同萬(wàn)億賽道

風(fēng)風(fēng)順
2026-03-20 07:50:21
蘋(píng)果的 Neo 扯下了廉價(jià) Windows 本的遮羞布

蘋(píng)果的 Neo 扯下了廉價(jià) Windows 本的遮羞布

動(dòng)點(diǎn)科技
2026-03-19 15:46:55
美容院老板娘大實(shí)話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實(shí)話:脫了衣服,女人的差距根本不在臉上!

夜深愛(ài)雜談
2026-03-08 21:28:24
普京鐵桿突然倒戈,向全世界痛斥三件事,俄羅斯再也裝不下去了

普京鐵桿突然倒戈,向全世界痛斥三件事,俄羅斯再也裝不下去了

用冷眼洞悉世界
2026-03-20 14:28:12
外交部:殺害伊朗國(guó)家領(lǐng)導(dǎo)人和攻擊平民目標(biāo)的行徑不可接受

外交部:殺害伊朗國(guó)家領(lǐng)導(dǎo)人和攻擊平民目標(biāo)的行徑不可接受

財(cái)聯(lián)社
2026-03-19 15:24:04
澤連斯基會(huì)見(jiàn)前伊朗流亡王儲(chǔ)

澤連斯基會(huì)見(jiàn)前伊朗流亡王儲(chǔ)

清濱酒客
2026-03-14 18:30:05
全球央行開(kāi)始拋售黃金了,波蘭拋130億俄哈也跟了?真相太現(xiàn)實(shí)!

全球央行開(kāi)始拋售黃金了,波蘭拋130億俄哈也跟了?真相太現(xiàn)實(shí)!

溫讀史
2026-03-20 11:32:57
恒大到底如何虧出八千億的?終于搞懂了!許家印不跑是有原因的!

恒大到底如何虧出八千億的?終于搞懂了!許家印不跑是有原因的!

歷史偉人錄
2026-02-25 18:17:16
皇馬第五!最新歐冠奪冠概率榜,巴薩力壓大巴黎,馬競(jìng)第七

皇馬第五!最新歐冠奪冠概率榜,巴薩力壓大巴黎,馬競(jìng)第七

祥談體育
2026-03-20 11:37:43
李昊意外落選國(guó)足大名單,真正原因已曝光,和邵佳一選人眼光無(wú)關(guān)

李昊意外落選國(guó)足大名單,真正原因已曝光,和邵佳一選人眼光無(wú)關(guān)

零度眼看球
2026-03-20 13:27:47
動(dòng)容!普京單膝跪地 為坐輪椅的俄羅斯冬殘奧會(huì)冠軍佩戴勛章

動(dòng)容!普京單膝跪地 為坐輪椅的俄羅斯冬殘奧會(huì)冠軍佩戴勛章

念洲
2026-03-20 13:52:24
當(dāng)年為什么查辦褚時(shí)健?

當(dāng)年為什么查辦褚時(shí)健?

百曉生談歷史
2025-08-20 21:55:53
臺(tái)灣統(tǒng)一的風(fēng)向:賴清德由獨(dú)轉(zhuǎn)統(tǒng),或能成就統(tǒng)一功績(jī)

臺(tái)灣統(tǒng)一的風(fēng)向:賴清德由獨(dú)轉(zhuǎn)統(tǒng),或能成就統(tǒng)一功績(jī)

混沌錄
2026-03-15 16:17:03
震驚!網(wǎng)傳一女生與前男友同居兩年,被現(xiàn)男友以“二婚”拒付彩禮

震驚!網(wǎng)傳一女生與前男友同居兩年,被現(xiàn)男友以“二婚”拒付彩禮

火山詩(shī)話
2026-03-19 14:35:03
轟36+7+9!別總是依賴哈登,阿特金森賽后不滿,并向全隊(duì)發(fā)出請(qǐng)求

轟36+7+9!別總是依賴哈登,阿特金森賽后不滿,并向全隊(duì)發(fā)出請(qǐng)求

巴叔GO聊體育
2026-03-20 11:54:12
1941年12月,180萬(wàn)德軍推進(jìn)到莫斯科約20公里處,被蘇軍一招制敵

1941年12月,180萬(wàn)德軍推進(jìn)到莫斯科約20公里處,被蘇軍一招制敵

飯小妹說(shuō)歷史
2026-03-10 17:33:05
2026-03-21 02:11:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1288文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

宇樹(shù)招股書(shū)拆解,人形機(jī)器人出貨量第一!

頭條要聞

向特朗普提問(wèn)日記者遭瘋狂網(wǎng)暴 被罵幫中國(guó)讓高市難堪

頭條要聞

向特朗普提問(wèn)日記者遭瘋狂網(wǎng)暴 被罵幫中國(guó)讓高市難堪

體育要聞

6年前的一場(chǎng)悲劇,造就了“法國(guó)瓦爾迪”

娛樂(lè)要聞

總臺(tái)首屆電影盛典,“沈馬”CP再合體

財(cái)經(jīng)要聞

金融法草案向社會(huì)公開(kāi)征求意見(jiàn)

汽車(chē)要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅(jiān)定

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
教育
家居
數(shù)碼

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計(jì)劃】,即刻啟動(dòng)!

推廣中獎(jiǎng)名單-更新至2026年3月4日推廣

教育要聞

爸爸身上的錢(qián)是媽媽的兩倍,還少八元,請(qǐng)問(wèn)爸爸身上有多少錢(qián)

家居要聞

時(shí)空交織 空間綺夢(mèng)

數(shù)碼要聞

唯卓仕折疊閃光燈首發(fā)僅148元,你沖不沖?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版