337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

關(guān)注openclaw安全風(fēng)險,AgentDoG提出智能體安全與防護(hù)的診斷式護(hù)欄框架

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則,歡迎加入共同成長。

隨著人工智能技術(shù)的飛速發(fā)展,基于大語言模型的智能體正逐漸成為研究和應(yīng)用的熱點(diǎn)。這些智能體能夠自主規(guī)劃、調(diào)用工具并執(zhí)行長周期任務(wù),被廣泛應(yīng)用于深度研究、計算機(jī)輔助、軟件工程及金融投資等領(lǐng)域。然而,這種高度的自主性和非確定性也帶來了前所未有的安全與防護(hù)挑戰(zhàn)。現(xiàn)有的護(hù)欄模型往往缺乏對智能體特有風(fēng)險的感知能力,且在風(fēng)險診斷方面缺乏透明度。

為了解決這一問題,上海人工智能實(shí)驗室的研究團(tuán)隊提出了AgentDoG框架。該框架基于一個統(tǒng)一的三維安全分類體系,不僅構(gòu)建了細(xì)粒度的智能體安全基準(zhǔn)ATBench,還提供了一種能夠診斷不安全行為根本原因的診斷式護(hù)欄機(jī)制。本文將詳細(xì)介紹該框架的核心創(chuàng)新、方法論及實(shí)驗成果。AgentDoG系列模型和ATBench數(shù)據(jù)集已經(jīng)發(fā)布到了始智AI wisemodel開源社區(qū),歡迎感興趣的月臺前往了解詳情!


項目地址

https://wisemodel.cn/organization/AgentDoG

01

智能體安全的全新挑戰(zhàn)

在大語言模型(LLM)的演進(jìn)推動下,AI智能體已經(jīng)具備了在復(fù)雜環(huán)境中進(jìn)行自主決策和工具使用的能力。然而,這種能力的提升伴隨著復(fù)雜的安全隱患。與傳統(tǒng)的單輪對話不同,智能體的風(fēng)險往往隱藏在多步交互、環(huán)境反饋以及工具調(diào)用的過程中。

當(dāng)前的防護(hù)模型(如LlamaGuard3、Qwen3Guard等)主要針對LLM的輸出內(nèi)容進(jìn)行安全過濾,但在應(yīng)對復(fù)雜的智能體場景時表現(xiàn)出明顯的局限性。這些局限性主要體現(xiàn)在兩個方面:

  1. 缺乏智能體風(fēng)險感知:現(xiàn)有的LLM安全策略無法捕捉智能體特有的、依賴于環(huán)境交互的復(fù)雜風(fēng)險圖景。

  2. 缺乏溯源與透明度:現(xiàn)有的模型通常僅提供“安全/不安全”的二元標(biāo)簽,這對于準(zhǔn)確診斷風(fēng)險是不夠的,往往忽視了那些看似安全但不合理的行為。

為了構(gòu)建有效的智能體護(hù)欄,研究團(tuán)隊首先定義了一個全面且層次化的安全分類體系,進(jìn)而提出了AgentDoG框架。該框架不僅能在智能體軌跡上進(jìn)行細(xì)粒度的上下文監(jiān)控,更重要的是,它能診斷出不安全行為或看似安全但不合理行為的根本原因,從而提供超越二元標(biāo)簽的透明度,促進(jìn)更有效的智能體對齊。

02

核心創(chuàng)新:三維正交安全分類體系

為了系統(tǒng)性地組織多樣且不斷演變的智能體風(fēng)險,研究團(tuán)隊提出了一種統(tǒng)一的三維正交分類體系。該體系打破了以往扁平化、枚舉式的風(fēng)險定義方式,從三個正交維度對智能體風(fēng)險進(jìn)行分類:風(fēng)險來源、失效模式和現(xiàn)實(shí)危害。


如圖2所示,這三個維度分別回答了關(guān)于風(fēng)險的三個核心問題:

2.1 風(fēng)險來源:風(fēng)險從何而來?

該維度描述了潛在風(fēng)險在智能體交互循環(huán)中的起源位置。研究團(tuán)隊將其細(xì)分為四類:

  • 用戶輸入:包括惡意用戶指令或越獄攻擊,以及嵌入在良性提示詞中的直接提示注入。

  • 環(huán)境觀察:包括間接提示注入(如嵌入在網(wǎng)頁或文檔中的惡意指令)以及不可靠或錯誤信息。

  • 外部實(shí)體(工具/API):涵蓋工具描述注入、惡意工具執(zhí)行以及被篡改的工具反饋。

  • 內(nèi)部邏輯與故障:指智能體內(nèi)部決策過程中的幻覺、推理缺陷或工具選擇錯誤等內(nèi)在失敗。

2.2 失效模式:智能體如何失效?

該維度描述了風(fēng)險源引入后,智能體如何通過行為或輸出具體實(shí)現(xiàn)該風(fēng)險。主要分為兩大類:

  • 行為失效模式:源于有缺陷的規(guī)劃、推理或執(zhí)行。具體包括:

  • 未經(jīng)確認(rèn)或越權(quán)行動:在未獲充分確認(rèn)的情況下執(zhí)行高風(fēng)險操作。

  • 規(guī)劃或推理缺陷:誤讀用戶意圖或構(gòu)建邏輯錯誤的行動序列。

  • 工具使用不當(dāng):包括參數(shù)錯誤、選擇惡意工具、特定場景下的工具濫用以及未驗證工具輸出。

  • 不安全交互:運(yùn)行易受攻擊的代碼或點(diǎn)擊釣魚鏈接。

  • 程序偏差或不作為:未能遵循預(yù)定工作流或必要時的不作為。

  • 低效或浪費(fèi)執(zhí)行:以極高的資源消耗完成任務(wù)。

  • 輸出內(nèi)容失效模式:指智能體的文本輸出本身直接構(gòu)成風(fēng)險,如生成有害內(nèi)容、非法活動指導(dǎo)、惡意可執(zhí)行文件、未授權(quán)信息泄露或提供虛假誤導(dǎo)信息。

2.3 現(xiàn)實(shí)危害:造成了什么后果?

該維度關(guān)注失效行為導(dǎo)致的現(xiàn)實(shí)世界影響,支持以結(jié)果為導(dǎo)向的安全評估。具體類別包括:

  • 隱私與保密危害

  • 金融與經(jīng)濟(jì)危害

  • 安全與系統(tǒng)完整性危害

  • 人身與健康危害

  • 心理與情感危害

  • 名譽(yù)與人際危害

  • 信息生態(tài)與社會危害

  • 公共服務(wù)與資源危害

  • 公平、公正與分配危害

  • 功能與機(jī)會危害

03

AgentDoG框架詳解

AgentDoG是一個專門針對智能體安全與防護(hù)的診斷式護(hù)欄框架。與以往僅關(guān)注最終輸出的模型不同,AgentDoG關(guān)注的是軌跡層面的安全診斷。

3.1 任務(wù)定義

AgentDoG定義了兩個核心任務(wù):

  • 軌跡層面安全評估:給定一個智能體軌跡

  • T={t1,…,tn}

  • ,模型需判斷該軌跡中是否存在任何不安全行為。關(guān)鍵在于,不安全行為可能源于中間動作(如工具調(diào)用)或環(huán)境反饋,即使最終響應(yīng)看起來是良性的。

  • 細(xì)粒度風(fēng)險診斷:對于被判定為不安全的軌跡,模型需進(jìn)一步預(yù)測其三維標(biāo)簽:風(fēng)險來源、失效模式與現(xiàn)實(shí)危害。


圖3展示了AgentDoG的任務(wù)指令模板。模型被要求根據(jù)軌跡內(nèi)容,不僅輸出“safe”或“unsafe”的判斷,還要在診斷任務(wù)中輸出細(xì)粒度的風(fēng)險類別,從而實(shí)現(xiàn)對風(fēng)險的精準(zhǔn)定位。

3.2 數(shù)據(jù)合成與收集

為了訓(xùn)練能夠覆蓋完整工具使用鏈的高質(zhì)量風(fēng)險數(shù)據(jù),研究團(tuán)隊設(shè)計了一種基于分類法的智能體風(fēng)險軌跡合成方法。


如圖4所示,該流水線包含三個階段:


  1. 規(guī)劃階段:采樣風(fēng)險配置(風(fēng)險源、失效模式、后果),確定軌跡的安全結(jié)果(安全或非安全),并制定包含風(fēng)險注入點(diǎn)的多步任務(wù)計劃。

  2. 軌跡合成階段:通過協(xié)調(diào)器控制執(zhí)行流程,生成用戶查詢、模擬工具交互、生成智能體響應(yīng)。在特定的風(fēng)險觸發(fā)點(diǎn),會故意注入惡意內(nèi)容或模擬智能體的防御行為。

  3. 質(zhì)量控制(QC):通過確定性驗證器移除結(jié)構(gòu)和格式錯誤,并利用LLM評判器驗證軌跡內(nèi)容與安全標(biāo)簽的語義一致性。

該數(shù)據(jù)集包含超過10萬條多輪交互軌跡,使用了包含約10,000個不同工具的工具庫,其規(guī)模比現(xiàn)有基準(zhǔn)(如R-Judge、ASSE-Safety)大40倍以上,確保了數(shù)據(jù)的多樣性和真實(shí)性。

04

ATBench基準(zhǔn)測試

為了評估護(hù)欄模型在真實(shí)場景下的表現(xiàn),研究團(tuán)隊構(gòu)建了ATBench(Agent Trajectory Safety and Security Benchmark)。

4.1 基準(zhǔn)概況

ATBench包含500條完整的執(zhí)行軌跡,平均長度為8.97輪,覆蓋了1575個獨(dú)特工具。該基準(zhǔn)具有以下特點(diǎn):

  • 軌跡級評估:評估完整的執(zhí)行軌跡,捕捉現(xiàn)實(shí)部署中典型的長周期決策鏈。

  • 分類法接地:提供語義明確的標(biāo)簽,支持精準(zhǔn)的風(fēng)險歸因和診斷。

  • 工具級分離:ATBench使用的工具庫與訓(xùn)練數(shù)據(jù)完全隔離,用于測試模型對未見過的工具和上下文的泛化能力。


圖6展示了ATBench中不安全數(shù)據(jù)在三維分類法下的分布情況,確保了各類風(fēng)險的均衡覆蓋。

4.2 數(shù)據(jù)處理流水線

ATBench的構(gòu)建同樣遵循分類法指導(dǎo)的合成框架,并引入了嚴(yán)格的驗證機(jī)制:

  • 多智能體驗證:使用四個異構(gòu)模型(Qwen-QwQ, GPT-5.2, Gemini 3 Pro, DeepSeek-V3.2)對軌跡進(jìn)行二元判決和分類標(biāo)簽預(yù)測。通過多數(shù)投票聚合結(jié)果,對于票數(shù)持平的案例則轉(zhuǎn)交人工審核。

  • 難度分層:根據(jù)模型間的一致性將軌跡分為“簡單”和“困難”子集,優(yōu)先對困難樣本進(jìn)行人工驗證。

05

實(shí)驗評估與結(jié)果

研究團(tuán)隊在多種智能體基準(zhǔn)上對AgentDoG進(jìn)行了全面評估,包括R-judge、ASSE-Safety以及新提出的ATBench。

實(shí)驗結(jié)果表明,AgentDoG在各項指標(biāo)上均取得了顯著的性能提升:

  1. 二元安全分類:在R-Judge、ASSE-Safety和ATBench三個基準(zhǔn)上,AgentDoG(以8B參數(shù)版本為例)分別達(dá)到了91.84%、92.80%和82.00%的準(zhǔn)確率,大幅領(lǐng)先于現(xiàn)有的通用模型和護(hù)欄模型。

  2. 細(xì)粒度風(fēng)險診斷:在ATBench的細(xì)粒度分類任務(wù)中,AgentDoG在風(fēng)險來源、失效模式和現(xiàn)實(shí)危害三個維度上均表現(xiàn)優(yōu)異,準(zhǔn)確率分別達(dá)到32.40%、58.40%和顯著高于基線模型的水平。這證明了其在深層風(fēng)險理解方面的強(qiáng)大能力。

  3. 模型泛化能力:得益于大規(guī)模工具庫的訓(xùn)練,AgentDoG在面對未見過的工具時仍能保持較高的識別準(zhǔn)確率,展現(xiàn)了良好的泛化性。

05

可解釋性分析

除了安全評估,AgentDoG還引入了一個可解釋性AI(XAI)模塊,用于歸因分析。


該模塊采用層次化的智能體歸因方法,能夠追蹤特定不安全動作的根本原因,將其歸因于具體的規(guī)劃步驟、工具選擇或上下文誤解。通過這種方式,AgentDoG不僅告訴開發(fā)者“出了什么問題”,還能解釋“為什么會出現(xiàn)這個問題”,從而為智能體的對齊和優(yōu)化提供有力支持。

07

結(jié)論與展望

AgentDoG的提出標(biāo)志著智能體安全研究從單一的輸出審核邁向了軌跡級的全鏈路診斷。通過構(gòu)建統(tǒng)一的三維安全分類體系、合成大規(guī)模高質(zhì)量數(shù)據(jù)以及開發(fā)診斷式護(hù)欄模型,該工作為解決智能體在復(fù)雜交互環(huán)境中的安全問題提供了新的思路。

盡管如此,研究團(tuán)隊也指出了未來的改進(jìn)方向,例如進(jìn)一步擴(kuò)展風(fēng)險分類體系以涵蓋更邊緣的案例,以及優(yōu)化模型在超長軌跡上的推理效率。隨著智能體技術(shù)的廣泛應(yīng)用,AgentDoG及其衍生的開源模型和數(shù)據(jù)集將為構(gòu)建安全、可靠、透明的AI系統(tǒng)奠定堅實(shí)基礎(chǔ)。

----- END -----

wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實(shí)驗室、大企業(yè)研究團(tuán)隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
龐麥郎轉(zhuǎn)發(fā)李榮浩維權(quán)微博并提及華晨宇,疑似重提《我的滑板鞋》版權(quán)糾紛,華晨宇工作室發(fā)布?xì)v史聲明:冷飯又炒,不再回應(yīng)

龐麥郎轉(zhuǎn)發(fā)李榮浩維權(quán)微博并提及華晨宇,疑似重提《我的滑板鞋》版權(quán)糾紛,華晨宇工作室發(fā)布?xì)v史聲明:冷飯又炒,不再回應(yīng)

瀟湘晨報
2026-03-30 13:42:12
6月1號起,車管所跟你關(guān)系不大了

6月1號起,車管所跟你關(guān)系不大了

音樂時光的娛樂
2026-03-30 15:57:27
為什么年輕人不愛繳社保?陸銘:要理解他們的現(xiàn)實(shí)需求

為什么年輕人不愛繳社保?陸銘:要理解他們的現(xiàn)實(shí)需求

中國經(jīng)濟(jì)網(wǎng)
2026-03-30 15:07:08
曝托納利提出加盟曼聯(lián)條件!不會為轉(zhuǎn)會施壓紐卡,最少也要7000萬

曝托納利提出加盟曼聯(lián)條件!不會為轉(zhuǎn)會施壓紐卡,最少也要7000萬

羅米的曼聯(lián)博客
2026-03-30 11:45:33
張雪峰生前最后一瓶水有問題!?

張雪峰生前最后一瓶水有問題?。?/a>

八卦瘋叔
2026-03-27 11:25:06
特朗普宣布訪華新日期,不到48小時,中方不留情面,連續(xù)反制

特朗普宣布訪華新日期,不到48小時,中方不留情面,連續(xù)反制

知鑒明史
2026-03-29 13:23:26
快訊!以色列傳來新消息!

快訊!以色列傳來新消息!

做個平凡的軒友
2026-03-30 13:47:37
差6093分!韋德斷言杜蘭特必拿歷史第二,算完場次球迷懂了

差6093分!韋德斷言杜蘭特必拿歷史第二,算完場次球迷懂了

林子說事
2026-03-30 15:58:47
“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

江山揮筆
2026-03-28 16:50:15
上海這家老字號的小餛飩,我以后是不會再去吃了……

上海這家老字號的小餛飩,我以后是不會再去吃了……

阿萊美食匯
2026-03-30 16:07:42
52歲李乃文天津被偶遇,站在救護(hù)車旁神情緊張,網(wǎng)友紛紛表示擔(dān)憂

52歲李乃文天津被偶遇,站在救護(hù)車旁神情緊張,網(wǎng)友紛紛表示擔(dān)憂

樂悠悠娛樂
2026-03-30 11:17:49
32歲女生自述得艾滋病過程,原因是見了一次網(wǎng)友,如今十分后悔

32歲女生自述得艾滋病過程,原因是見了一次網(wǎng)友,如今十分后悔

千秋文化
2026-03-29 20:59:49
美媒定論:特朗普已無法恢復(fù)政治地位,他的總統(tǒng)任期實(shí)質(zhì)上已結(jié)束

美媒定論:特朗普已無法恢復(fù)政治地位,他的總統(tǒng)任期實(shí)質(zhì)上已結(jié)束

蘭妮搞笑分享
2026-03-30 13:28:47
我是廣東人,在香港打工12年,發(fā)現(xiàn)香港人愛吃這3道菜,喝這2款酒

我是廣東人,在香港打工12年,發(fā)現(xiàn)香港人愛吃這3道菜,喝這2款酒

濤哥美食匯
2026-03-30 09:10:37
張雪峰曾評價單依純翻唱的《李白》!欣賞不了,無法理解這歌能火

張雪峰曾評價單依純翻唱的《李白》!欣賞不了,無法理解這歌能火

談史論天地
2026-03-30 07:33:27
黑色星期一,原油跳空大漲,日韓股市重挫,港股大跌,A股跟跌!

黑色星期一,原油跳空大漲,日韓股市重挫,港股大跌,A股跟跌!

丁丁鯉史紀(jì)
2026-03-30 12:16:05
凈利潤暴跌90%!理想的銷量神話破滅

凈利潤暴跌90%!理想的銷量神話破滅

大佬灼見
2026-03-13 12:23:26
鄭麗文得到大陸邀請,訪陸日期已定,朱、盧傻眼,賴清德慌了

鄭麗文得到大陸邀請,訪陸日期已定,朱、盧傻眼,賴清德慌了

墜入二次元的海洋
2026-03-30 11:15:59
軍號被粉底液將軍粉絲圍攻,編劇汪海林發(fā)聲:真是無法無天

軍號被粉底液將軍粉絲圍攻,編劇汪海林發(fā)聲:真是無法無天

往史過眼云煙
2026-03-28 14:32:07
鳳凰傳奇沖上熱搜!玲花暴雨中睜不開眼,評論區(qū)都在問一個問題

鳳凰傳奇沖上熱搜!玲花暴雨中睜不開眼,評論區(qū)都在問一個問題

潮鹿逐夢
2026-03-30 11:43:44
2026-03-30 18:32:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

尹正發(fā)文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

頭條要聞

尹正發(fā)文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨(dú)立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態(tài)度原創(chuàng)

本地
數(shù)碼
旅游
親子
公開課

本地新聞

用Color Walk的方式解鎖城市春日

數(shù)碼要聞

雙塔合一,酷凜推出FROZN A620 SLK風(fēng)冷散熱器

旅游要聞

德州寶藏露營地!超市、外賣、公廁全配齊,周末就來這露營吧

親子要聞

兒科護(hù)士精準(zhǔn)控場,孩子哭得收放自如

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版