關(guān)注openclaw安全風(fēng)險，AgentDoG提出智能體安全與防護(hù)的診斷式護(hù)欄框架

2026-03-12 21:18:42　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)，始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則，歡迎加入共同成長。

隨著人工智能技術(shù)的飛速發(fā)展，基于大語言模型的智能體正逐漸成為研究和應(yīng)用的熱點(diǎn)。這些智能體能夠自主規(guī)劃、調(diào)用工具并執(zhí)行長周期任務(wù)，被廣泛應(yīng)用于深度研究、計算機(jī)輔助、軟件工程及金融投資等領(lǐng)域。然而，這種高度的自主性和非確定性也帶來了前所未有的安全與防護(hù)挑戰(zhàn)。現(xiàn)有的護(hù)欄模型往往缺乏對智能體特有風(fēng)險的感知能力，且在風(fēng)險診斷方面缺乏透明度。

為了解決這一問題，上海人工智能實(shí)驗室的研究團(tuán)隊提出了AgentDoG框架。該框架基于一個統(tǒng)一的三維安全分類體系，不僅構(gòu)建了細(xì)粒度的智能體安全基準(zhǔn)ATBench，還提供了一種能夠診斷不安全行為根本原因的診斷式護(hù)欄機(jī)制。本文將詳細(xì)介紹該框架的核心創(chuàng)新、方法論及實(shí)驗成果。AgentDoG系列模型和ATBench數(shù)據(jù)集已經(jīng)發(fā)布到了始智AI wisemodel開源社區(qū)，歡迎感興趣的月臺前往了解詳情！

項目地址

https://wisemodel.cn/organization/AgentDoG

智能體安全的全新挑戰(zhàn)

在大語言模型（LLM）的演進(jìn)推動下，AI智能體已經(jīng)具備了在復(fù)雜環(huán)境中進(jìn)行自主決策和工具使用的能力。然而，這種能力的提升伴隨著復(fù)雜的安全隱患。與傳統(tǒng)的單輪對話不同，智能體的風(fēng)險往往隱藏在多步交互、環(huán)境反饋以及工具調(diào)用的過程中。

當(dāng)前的防護(hù)模型（如LlamaGuard3、Qwen3Guard等）主要針對LLM的輸出內(nèi)容進(jìn)行安全過濾，但在應(yīng)對復(fù)雜的智能體場景時表現(xiàn)出明顯的局限性。這些局限性主要體現(xiàn)在兩個方面：

缺乏智能體風(fēng)險感知：現(xiàn)有的LLM安全策略無法捕捉智能體特有的、依賴于環(huán)境交互的復(fù)雜風(fēng)險圖景。
缺乏溯源與透明度：現(xiàn)有的模型通常僅提供“安全/不安全”的二元標(biāo)簽，這對于準(zhǔn)確診斷風(fēng)險是不夠的，往往忽視了那些看似安全但不合理的行為。

為了構(gòu)建有效的智能體護(hù)欄，研究團(tuán)隊首先定義了一個全面且層次化的安全分類體系，進(jìn)而提出了AgentDoG框架。該框架不僅能在智能體軌跡上進(jìn)行細(xì)粒度的上下文監(jiān)控，更重要的是，它能診斷出不安全行為或看似安全但不合理行為的根本原因，從而提供超越二元標(biāo)簽的透明度，促進(jìn)更有效的智能體對齊。

核心創(chuàng)新：三維正交安全分類體系

為了系統(tǒng)性地組織多樣且不斷演變的智能體風(fēng)險，研究團(tuán)隊提出了一種統(tǒng)一的三維正交分類體系。該體系打破了以往扁平化、枚舉式的風(fēng)險定義方式，從三個正交維度對智能體風(fēng)險進(jìn)行分類：風(fēng)險來源、失效模式和現(xiàn)實(shí)危害。

如圖2所示，這三個維度分別回答了關(guān)于風(fēng)險的三個核心問題：

2.1 風(fēng)險來源：風(fēng)險從何而來？

該維度描述了潛在風(fēng)險在智能體交互循環(huán)中的起源位置。研究團(tuán)隊將其細(xì)分為四類：

用戶輸入：包括惡意用戶指令或越獄攻擊，以及嵌入在良性提示詞中的直接提示注入。
環(huán)境觀察：包括間接提示注入（如嵌入在網(wǎng)頁或文檔中的惡意指令）以及不可靠或錯誤信息。
外部實(shí)體（工具/API）：涵蓋工具描述注入、惡意工具執(zhí)行以及被篡改的工具反饋。
內(nèi)部邏輯與故障：指智能體內(nèi)部決策過程中的幻覺、推理缺陷或工具選擇錯誤等內(nèi)在失敗。

2.2 失效模式：智能體如何失效？

該維度描述了風(fēng)險源引入后，智能體如何通過行為或輸出具體實(shí)現(xiàn)該風(fēng)險。主要分為兩大類：

行為失效模式：源于有缺陷的規(guī)劃、推理或執(zhí)行。具體包括：
未經(jīng)確認(rèn)或越權(quán)行動：在未獲充分確認(rèn)的情況下執(zhí)行高風(fēng)險操作。
規(guī)劃或推理缺陷：誤讀用戶意圖或構(gòu)建邏輯錯誤的行動序列。
工具使用不當(dāng)：包括參數(shù)錯誤、選擇惡意工具、特定場景下的工具濫用以及未驗證工具輸出。
不安全交互：運(yùn)行易受攻擊的代碼或點(diǎn)擊釣魚鏈接。
程序偏差或不作為：未能遵循預(yù)定工作流或必要時的不作為。
低效或浪費(fèi)執(zhí)行：以極高的資源消耗完成任務(wù)。
輸出內(nèi)容失效模式：指智能體的文本輸出本身直接構(gòu)成風(fēng)險，如生成有害內(nèi)容、非法活動指導(dǎo)、惡意可執(zhí)行文件、未授權(quán)信息泄露或提供虛假誤導(dǎo)信息。

2.3 現(xiàn)實(shí)危害：造成了什么后果？

該維度關(guān)注失效行為導(dǎo)致的現(xiàn)實(shí)世界影響，支持以結(jié)果為導(dǎo)向的安全評估。具體類別包括：

隱私與保密危害
金融與經(jīng)濟(jì)危害
安全與系統(tǒng)完整性危害
人身與健康危害
心理與情感危害
名譽(yù)與人際危害
信息生態(tài)與社會危害
公共服務(wù)與資源危害
公平、公正與分配危害
功能與機(jī)會危害

AgentDoG框架詳解

AgentDoG是一個專門針對智能體安全與防護(hù)的診斷式護(hù)欄框架。與以往僅關(guān)注最終輸出的模型不同，AgentDoG關(guān)注的是軌跡層面的安全診斷。

3.1 任務(wù)定義

AgentDoG定義了兩個核心任務(wù)：

軌跡層面安全評估：給定一個智能體軌跡
T={t1,…,tn}
，模型需判斷該軌跡中是否存在任何不安全行為。關(guān)鍵在于，不安全行為可能源于中間動作（如工具調(diào)用）或環(huán)境反饋，即使最終響應(yīng)看起來是良性的。
細(xì)粒度風(fēng)險診斷：對于被判定為不安全的軌跡，模型需進(jìn)一步預(yù)測其三維標(biāo)簽：風(fēng)險來源、失效模式與現(xiàn)實(shí)危害。

圖3展示了AgentDoG的任務(wù)指令模板。模型被要求根據(jù)軌跡內(nèi)容，不僅輸出“safe”或“unsafe”的判斷，還要在診斷任務(wù)中輸出細(xì)粒度的風(fēng)險類別，從而實(shí)現(xiàn)對風(fēng)險的精準(zhǔn)定位。

3.2 數(shù)據(jù)合成與收集

為了訓(xùn)練能夠覆蓋完整工具使用鏈的高質(zhì)量風(fēng)險數(shù)據(jù)，研究團(tuán)隊設(shè)計了一種基于分類法的智能體風(fēng)險軌跡合成方法。

如圖4所示，該流水線包含三個階段：

規(guī)劃階段：采樣風(fēng)險配置（風(fēng)險源、失效模式、后果），確定軌跡的安全結(jié)果（安全或非安全），并制定包含風(fēng)險注入點(diǎn)的多步任務(wù)計劃。
軌跡合成階段：通過協(xié)調(diào)器控制執(zhí)行流程，生成用戶查詢、模擬工具交互、生成智能體響應(yīng)。在特定的風(fēng)險觸發(fā)點(diǎn)，會故意注入惡意內(nèi)容或模擬智能體的防御行為。
質(zhì)量控制（QC）：通過確定性驗證器移除結(jié)構(gòu)和格式錯誤，并利用LLM評判器驗證軌跡內(nèi)容與安全標(biāo)簽的語義一致性。

該數(shù)據(jù)集包含超過10萬條多輪交互軌跡，使用了包含約10,000個不同工具的工具庫，其規(guī)模比現(xiàn)有基準(zhǔn)（如R-Judge、ASSE-Safety）大40倍以上，確保了數(shù)據(jù)的多樣性和真實(shí)性。

ATBench基準(zhǔn)測試

為了評估護(hù)欄模型在真實(shí)場景下的表現(xiàn)，研究團(tuán)隊構(gòu)建了ATBench（Agent Trajectory Safety and Security Benchmark）。

4.1 基準(zhǔn)概況

ATBench包含500條完整的執(zhí)行軌跡，平均長度為8.97輪，覆蓋了1575個獨(dú)特工具。該基準(zhǔn)具有以下特點(diǎn)：

軌跡級評估：評估完整的執(zhí)行軌跡，捕捉現(xiàn)實(shí)部署中典型的長周期決策鏈。
分類法接地：提供語義明確的標(biāo)簽，支持精準(zhǔn)的風(fēng)險歸因和診斷。
工具級分離：ATBench使用的工具庫與訓(xùn)練數(shù)據(jù)完全隔離，用于測試模型對未見過的工具和上下文的泛化能力。

圖6展示了ATBench中不安全數(shù)據(jù)在三維分類法下的分布情況，確保了各類風(fēng)險的均衡覆蓋。

4.2 數(shù)據(jù)處理流水線

ATBench的構(gòu)建同樣遵循分類法指導(dǎo)的合成框架，并引入了嚴(yán)格的驗證機(jī)制：

多智能體驗證：使用四個異構(gòu)模型（Qwen-QwQ, GPT-5.2, Gemini 3 Pro, DeepSeek-V3.2）對軌跡進(jìn)行二元判決和分類標(biāo)簽預(yù)測。通過多數(shù)投票聚合結(jié)果，對于票數(shù)持平的案例則轉(zhuǎn)交人工審核。
難度分層：根據(jù)模型間的一致性將軌跡分為“簡單”和“困難”子集，優(yōu)先對困難樣本進(jìn)行人工驗證。

實(shí)驗評估與結(jié)果

研究團(tuán)隊在多種智能體基準(zhǔn)上對AgentDoG進(jìn)行了全面評估，包括R-judge、ASSE-Safety以及新提出的ATBench。

實(shí)驗結(jié)果表明，AgentDoG在各項指標(biāo)上均取得了顯著的性能提升：

二元安全分類：在R-Judge、ASSE-Safety和ATBench三個基準(zhǔn)上，AgentDoG（以8B參數(shù)版本為例）分別達(dá)到了91.84%、92.80%和82.00%的準(zhǔn)確率，大幅領(lǐng)先于現(xiàn)有的通用模型和護(hù)欄模型。
細(xì)粒度風(fēng)險診斷：在ATBench的細(xì)粒度分類任務(wù)中，AgentDoG在風(fēng)險來源、失效模式和現(xiàn)實(shí)危害三個維度上均表現(xiàn)優(yōu)異，準(zhǔn)確率分別達(dá)到32.40%、58.40%和顯著高于基線模型的水平。這證明了其在深層風(fēng)險理解方面的強(qiáng)大能力。
模型泛化能力：得益于大規(guī)模工具庫的訓(xùn)練，AgentDoG在面對未見過的工具時仍能保持較高的識別準(zhǔn)確率，展現(xiàn)了良好的泛化性。

可解釋性分析

除了安全評估，AgentDoG還引入了一個可解釋性AI（XAI）模塊，用于歸因分析。

該模塊采用層次化的智能體歸因方法，能夠追蹤特定不安全動作的根本原因，將其歸因于具體的規(guī)劃步驟、工具選擇或上下文誤解。通過這種方式，AgentDoG不僅告訴開發(fā)者“出了什么問題”，還能解釋“為什么會出現(xiàn)這個問題”，從而為智能體的對齊和優(yōu)化提供有力支持。

結(jié)論與展望

AgentDoG的提出標(biāo)志著智能體安全研究從單一的輸出審核邁向了軌跡級的全鏈路診斷。通過構(gòu)建統(tǒng)一的三維安全分類體系、合成大規(guī)模高質(zhì)量數(shù)據(jù)以及開發(fā)診斷式護(hù)欄模型，該工作為解決智能體在復(fù)雜交互環(huán)境中的安全問題提供了新的思路。

盡管如此，研究團(tuán)隊也指出了未來的改進(jìn)方向，例如進(jìn)一步擴(kuò)展風(fēng)險分類體系以涵蓋更邊緣的案例，以及優(yōu)化模型在超長軌跡上的推理效率。隨著智能體技術(shù)的廣泛應(yīng)用，AgentDoG及其衍生的開源模型和數(shù)據(jù)集將為構(gòu)建安全、可靠、透明的AI系統(tǒng)奠定堅實(shí)基礎(chǔ)。

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵高校實(shí)驗室、大企業(yè)研究團(tuán)隊、個人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高?？蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.