337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

智能體卷王誕生!干活自動配結項報告,1.5張截圖就把事說清了

0
分享至

Youtu-Agent團隊 投稿
量子位 | 公眾號 QbitAI

在學校里做實驗的時候,老師如何確定我們做了實驗并且達到了預期效果呢?——最常見的做法是讓學生寫一份實驗報告交上來。

現在,AI智能體拿到一個任務以后如何檢驗執行的效果有沒有達到預期呢?我們也可以讓AI在執行任務的同時主動提交一份證據鏈報告,邊做邊收集任務完成的證據,自我檢查是否符合預期,不符合就繼續做。



在LLM/VLM驅動的智能體(Agent)的強化學習(RL)研究中,一直面臨一個巨大的挑戰:

你交給智能體一個任務,它干完了,但你不知道完成度如何。



為了確認它是否真的準確完成了任務,我們不得不建立龐大的“監督系統”來復核它的每一步操作。這種“被動驗證”往往需要:

  1. 手工設計的復雜校驗機制(比如:完全匹配的輸出內容);
  2. 強大的軌跡級驗證方法(比如:LLM/VLM-as-a-Judge眾投決策)。

這兩種常見的先完成任務(task completion)再校驗軌跡(outcome verification)的機制有以下缺點:

  1. 效率較低,人工設計的準則依賴預先編寫好的評估腳本,難以簡單泛化到新的任務(比如新的APP);
  2. 軌跡帶噪且上下文冗長,將整條軌跡送給LLM/VLM來評判很容易被無關的環境信息干擾,降低評分的可靠性;
  3. 依賴持續可觀測環境的反饋信息,部分操作往往因為環境變化
  4. (如頁面刷新、操作過期)而導致驗證失敗。

針對以上問題,我們提出了一種簡單的RL訓練方法,讓智能體自己成為“質檢員”,在盡可能減少校驗器(Verifier)審核壓力的同時,讓智能體學會主動分解子目標并且留痕存證。

什么是SmartSnap?

SmartSnap的核心思想是將GUI智能體從“被動的執行者”轉變為“主動的自證者”。

簡單來說,智能體在完成任務的同時,還會主動收集、篩選并提交一份“證據快照集”。

這份證據就像是任務的“結項報告”,讓驗證者只需看一眼快照,就能確認任務是否成功。



三大核心突破:從“執行”到“自證”

1. 角色升級:雙重使命的“自證代理”

傳統的智能體只負責“做(Execute)”,而SmartSnap提出了“自證智能體”(Self-Verifying Agent),賦予了它“自我驗證(Verify)”的第二使命。

它在操作過程中會像人類一樣思考:“為了證明我已經改好了設置,我需要把對開關狀態截圖并作為證據提交?!?/strong>

2. “3C原則”:高效率的證據美學

為了避免給驗證者造成信息過載,SmartSnap提出了證據策展的3C原則

  • 完整性(Completeness)
  • 證據必須足以證明任務已閉環。
  • 簡潔性(Conciseness)
  • 不要冗長的視頻,只要最關鍵的幾張“定格”瞬間。
  • 創造性(Creativity)
  • 為了拿到證據,智能體甚至會主動執行“額外操作”。例如,訂完票后主動跳回訂單頁截圖。

3. 強化學習驅動:GRPO+內在獎勵反饋

我們利用GRPO算法對智能體進行了訓練。通過精心設計的獎勵機制(Intrinsic Reward Shaping),引導智能體在保證任務成功率的同時,不斷提升證據的質量,盡可能減少獎勵黑客行為(reward hacking)。

戰績顯赫:小模型也不錯

SmartSnap的表現令人驚艷,它在AndroidLab等復雜的任務上提升顯著:



  • 性能飛躍
  • 在不同規模的模型上,均實現了顯著的性能提升(最高提升達26.08%)。
  • 以小博大
  • 經過SmartSnap訓練的中等參數模型(如Qwen3-32B),在自證能力的加持下,其表現甚至持平DeepSeek-V3/Qwen3-235B等開源大模型

通過感性分析,我們還觀察到以下特點:

  • 舉證效率
  • 平均每個任務只需提交1.5張快照證據,極大地降低了后端的驗證成本。
  • 高效交互
  • 智能體在訓練過程中由于擬合少量的訓練集而變得游刃有余,交互輪數不斷減少。
  • 知識欠缺
  • 在部分APP上,我們觀察到智能體存在反復、沒有顯著增益的表現,其領域知識的欠缺導致無法收斂到有效的解決方案(比如地圖APP的各項復雜路徑規劃任務)。這表明模型需要依賴更多知識注入來指導探索。

為什么這簡化了智能體RL訓練的準備工作?

在手機端、OS端這類環境的操作中,由于其時效性特點,傳統的外部驗證器很難精準捕捉瞬時的成功信號。

SmartSnap就像是給智能體配上了一臺取證相機。它不再需要事先對環境所有狀態有一個預期的變化感知來撰寫校驗腳本,或者讓裁判員模型盯著全程軌跡來仔細推敲,而是讓智能體自己邊做邊收集必要的證據。

這允許我們基于合成的任務輕松拓展其訓練場景,并針對有限的證據鏈來判斷成功與否,讓RL訓練更加便捷。

面向未來

SmartSnap的出現,標志著GUI智能體正從“蠻力執行”走向“認知協同”。這種主動尋找證據的能力,不僅提升了AI的可靠性,更為未來大規模、低成本的AI部署鋪平了道路。

未來的AI,不僅要“能干”,更要“可信”。

論文標題:

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
論文地址:

https://arxiv.org/abs/2512.22322
代碼地址:

https://github.com/TencentYoutuResearch/SmartSnap

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
瘋狂甩賣球員種惡果!CBA一隊入座率不夠一成,球館上面空空蕩蕩

瘋狂甩賣球員種惡果!CBA一隊入座率不夠一成,球館上面空空蕩蕩

南海浪花
2026-03-27 09:31:56
美伊一戰,“打醒”3個亞洲國家,中國已經不用再多說啥了!

美伊一戰,“打醒”3個亞洲國家,中國已經不用再多說啥了!

健身狂人
2026-03-27 18:42:09
Lisa曬生日照,穿泳衣大膽露屁股,表情夸張扭曲,面相都變了

Lisa曬生日照,穿泳衣大膽露屁股,表情夸張扭曲,面相都變了

秋姐居
2026-03-27 14:39:01
熱播劇《逐玉》霸榜臺灣Netflix,對話臺灣追劇青年:我們有著共同的文化基因

熱播劇《逐玉》霸榜臺灣Netflix,對話臺灣追劇青年:我們有著共同的文化基因

揚子晚報
2026-03-27 21:35:12
人不會無緣無故患癌癥!研究發現:得癌癥的人,離不開這6點

人不會無緣無故患癌癥!研究發現:得癌癥的人,離不開這6點

醫學原創故事會
2026-03-07 21:55:05
女子線上預定酒店 下單后對方遲遲不確認且將訂單取消 再次下單發現價格從322元漲到3307元

女子線上預定酒店 下單后對方遲遲不確認且將訂單取消 再次下單發現價格從322元漲到3307元

閃電新聞
2026-03-27 18:40:21
比賴清德更狂的人出現了,如果她當臺灣地區領導人,我軍該怎么辦

比賴清德更狂的人出現了,如果她當臺灣地區領導人,我軍該怎么辦

聽風喃
2026-03-27 17:40:05
鐵證面前,還能撤案?深扒無果、信息全封,路虎車主背景有多硬?

鐵證面前,還能撤案?深扒無果、信息全封,路虎車主背景有多硬?

世界圈
2026-03-24 12:52:50
我做風水先生40年,如今金盆洗手,有些實話不說,到死都閉不上眼

我做風水先生40年,如今金盆洗手,有些實話不說,到死都閉不上眼

千秋文化
2026-03-20 20:36:55
洪永時回香港看藝術展,一身土豪裝引人注目,與妻子摟腰旁若無人

洪永時回香港看藝術展,一身土豪裝引人注目,與妻子摟腰旁若無人

丁丁鯉史紀
2026-03-27 13:10:47
笑死我了!一位三年級小朋友趁媽媽洗澡的縫隙時間,和豆包的對話

笑死我了!一位三年級小朋友趁媽媽洗澡的縫隙時間,和豆包的對話

夜深愛雜談
2026-03-21 19:50:42
中國打撈沉于威海的英國海神號潛艇,卡梅倫指責中方竊取其技術

中國打撈沉于威海的英國海神號潛艇,卡梅倫指責中方竊取其技術

嘮叨說歷史
2026-03-13 18:27:10
20.95米!男子鉛球全國紀錄!

20.95米!男子鉛球全國紀錄!

98跑
2026-03-27 17:49:50
一代香港美人,感覺不是很開心的樣子,大家還記得她的名字嗎?

一代香港美人,感覺不是很開心的樣子,大家還記得她的名字嗎?

動物奇奇怪怪
2026-03-26 08:35:16
明天起高速規矩大變!這些行為直接扣光12分

明天起高速規矩大變!這些行為直接扣光12分

據說說娛樂
2026-03-28 01:37:36
你有沒有發現:同學那么多,真正常聯系的,只有初中和高中同學

你有沒有發現:同學那么多,真正常聯系的,只有初中和高中同學

夢醉為紅顏一笑
2026-03-26 13:59:08
武元甲晚年坦言:要不是黎筍固執,中國和越南本可攜手發展幾十年

武元甲晚年坦言:要不是黎筍固執,中國和越南本可攜手發展幾十年

磊子講史
2026-03-17 16:45:26
采耳變賣淫?女技師可變裝,躺采色誘客人,有反應了就直接脫褲子

采耳變賣淫?女技師可變裝,躺采色誘客人,有反應了就直接脫褲子

烏娛子醬
2025-03-19 10:27:30
匈牙利總理歐爾班:中國不可戰勝

匈牙利總理歐爾班:中國不可戰勝

魯中晨報
2026-03-27 14:41:02
祁東女教師的瓜

祁東女教師的瓜

皮蛋兒電影
2026-03-23 15:30:40
2026-03-28 04:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12356文章數 176426關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

頭條要聞

男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

時尚
藝術
旅游
手機
房產

推廣中獎名單-更新至2026年3月11日推廣

藝術要聞

投資9000萬!奶茶巨頭益禾堂的總部大樓,坐標武漢!

旅游要聞

日照嵐山“打飛的”賞春成新時尚

手機要聞

蘋果iOS 26.4導致《生化危機》游戲崩潰,官方回應“正在調查”

房產要聞

6.8萬方!天河員村再征地,金融城西區開發全面提速

無障礙瀏覽 進入關懷版