337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

紅杉xbench 最新報告:104 項日常任務,Agent 可處理 60+%

0
分享至

現在 Agent 產品很多,Claude Code、ChatGPT Agent、Manus、Genspark...還有各種各樣的

對于大家的干活靠譜程度,紅杉中國的 xbench 團隊,整了新評測,叫 AgentIF-OneDay
(倆周,發了倆評測集了,另一個是 ,然后xiaobo 跟我說,他上個月全在整這個)

大概就是:一堆真實的日常任務,帶著 Excel、PPT、PDF 這些附件,能不能幫我搞定

結論:頭部 Agent 大約 62-65%


https://xbench.org/agi/agentif

先說在前面:這個榜單目前啥也不代表,看 insight 就行

能同時跑通所有附件格式的 Agent 其實很少,xbench 測了一圈,只有四家能完整跑完

Claude Code 因為各種原因沒測出來,Cowork 測的時候還沒發布,其他很多 Agent 要么不支持 PPT,要么不支持 Excel,反正就是跑不通

所以這次的價值不在排名,在方向

順便一提,雖然大家都是混合模型,但 Manus 和 Minimax-Agent 的基礎模型更偏 Claude,Genspark 和 ChatGPT-Agent 更偏 GPT

為什么要做這個評測

xbench 之前發過 ScienceQA 和 DeepSearch,都是分鐘級的集中推理任務,模型表現已經從 human-average 逐漸到了 PhD-level

但他們發現一個問題:一旦任務突破一般人一小時可處理的復雜度,Agent 的整體完成度就會出現明顯下降

短程任務表現驚艷,長程任務顯乏力


所以 xbench 提了一個新視角來理解 Agent 能力邊界:任務復雜度

這里的復雜度,指的是完成一個任務所需的人類時間投入

Agent 能力的演進會沿著兩條線展開:

Scaling Context
任務在時間維度上延展,從分鐘級到一天級、甚至一周級。Agent 需要在更長的執行周期中維護上下文狀態,跟蹤中間目標,保持一致性

Scaling Domain
任務類型上的擴展。現實世界的工作往往橫跨多個領域,不同任務在目標表述、隱含約束、工具使用上差異很大

AgentIF-OneDay 就是沿著這兩個方向推進的第一步:以人類一天內可完成的任務復雜度作為基準

這個評測在測什么

AgentIF-OneDay 的核心是指令遵循,它要求 Agent 處理真實的附件:Excel、PPT、PDF、圖片,然后輸出可交付的文件,任務分三類:

場景一:你知道該怎么做,但執行太繁瑣

用戶已知完整流程并明確給出操作步驟,Agent 只需精確執行。這類任務叫工作流執行(Workflow Execution)

例題 我計劃去 NeurIPS 2025,幫我規劃一個好的行程方案。請你先去官網確認 NeurIPS 2025 會議的主會場位置(San Diego Convention Center, San Diego)是否準確,然后用另一個可靠來源交叉驗證這個信息,確保萬無一失 接下來,幫我收集基本信息,比如會議時間、地點和論文提交截止日期 還要確認完整的會議日程是否已經發布,如果還沒發布,請明確告訴我 最后,從紐約出發給我兩套去圣地亞哥的行程方案:一個最便宜的 Cheap Plan,一個最快的 Fast Plan

當 Agent 能夠在整個流程中保持一致性、逐步完成步驟、并在長上下文中保持狀態,就具備幫你把事情做完的潛力

這也是大量用戶希望 Agent 能真正替代重復性勞動的原因

場景二:你不知道規則,只能給個參考

用戶不明確知道完整的工作流或者條件約束,只提供若干案例或參考資料。這類任務叫隱式指令推理(Latent Instruction Inference)

例題 我現在用的是 iPhone 13 Pro Max,AT&T 套餐每月 20 美元預付費。我想換 iPhone 17 Pro Max 基于附件里的購機方案和運營商優惠,幫我找出總成本最低的方式

這是人類最自然的工作方式,人們不會每次都從零寫起

Agent 需要從提供的示例文件中挖掘出潛在的意圖,同時滿足用戶的顯式指令與附件的隱式指令

如果具備這種能力,Agent 就能真正參與內容生產、報告生成、數據整理等職業型任務

場景三:需求本身是動態的,要邊做邊看

人類的工作普遍呈現多輪迭代結構,在工作的開始并不知道完整解法、也沒有參考示例,需要在與 Agent 多輪交互中逐漸提出新需求。這類任務叫迭代式編輯(Iterative Refinement)

例題 拿著這個 SVG 平面圖(venue_layout.svg)和 Excel 約束表(venue_constraints.xlsx),更新會場布局以滿足所有約束條件,同時保持設計的可讀性和可行走性

Agent 必須具備在不斷變化的約束下維持上下文一致性并穩定推進任務的能力

評測細節

總共 104 道任務,覆蓋工作、生活(游戲攻略、旅游規劃)和學習,其中 62 道由文件驅動的合成任務用于補充長尾場景

覆蓋 PDF、PPT、Excel、圖像、代碼文件在內的 15 種以上格式,模擬真實工作流程中跨格式、跨來源的模式

每道任務都帶有一套細粒度的評判標準,總計 767 個評分點,分為正向指標(格式一致性、結構復現、步驟完整)與負向指標(誤刪內容、越界生成、錯誤操作)

評測系統采用 LLM 作為裁判,值得一提的是 Gemini 3-pro 的出現讓 rubrics 打分的準確性提升到可用的程度

Agent 的得分不僅取決于最終是否完成任務,還包括流程是否干凈、是否出現誤操作、是否正確解析附件、是否能在迭代過程中保持一致性

幾個有意思的發現

發現一:不同框架,拉不開差距

Manus、Genspark 與 ChatGPT-Agent 都集中在 0.62-0.65 區間,構成當下能力最強的第一梯隊

不管是模型原生訓練出來的 Agent,還是基于 API 的工具鏈集成,在完成一套真實任務鏈時,用戶側感受到的能力是比較接近的

這印證了一個判斷:基礎 Agent 能力已經商品化了


底層模型能力不變的情況下,不同多智能體框架本身難以拉開數量級上的性能差異。基座模型會逐步集成 agentic 能力,下游基于 API 的 Agent 產品,在能力表現上也會體現出 Agent RL 的能力

發現二:分場景各有所長

工作場景:ChatGPT-Agent 72.18,Genspark 71.86,Manus 70.27

生活場景:Manus 73.40,ChatGPT-Agent 69.67,Genspark 67.85

學習場景:Genspark 71.19,Manus 64.41,ChatGPT-Agent 59.29

三個產品迭代方向不同。ChatGPT-Agent 重點關注 GDPval,聚焦專業工作場景的體驗;Manus 與 Genspark 更側重用戶反饋

xbench 的觀點是:優秀的通用 Agent 應當兼顧最多樣的任務,而不側重一方

發現三:分能力維度看

Genspark 在隱式指令推斷上表現最優,Manus 在開放工作流執行最優,Minimax-Agent 具有最好的迭代式編輯能力

隱式條件推斷是目前 Agent 普遍最薄弱的能力項

比如讓 Agent 從 PPT 模板中抽取頁眉頁腳結構或引用標注方式,再遷移到新內容生成中


即便是整體表現最好的系統,在這類任務中也很難做到完全正確。要么格式復現正確但覆蓋不足,要么內容理解到位但無法保持結構一致

綜合來看,穩定性、文件處理鏈路、隱式結構理解能力,乃至跨工具的狀態管理,都是決定 Agent 能否真正承擔一天工作量的關鍵環節

展望:從 OneDay 到 OneWeek

xbench 已經開始著手構建 OneWeek 評測集

他們的判斷是:當一個 Agent 能夠在一周尺度的工作量上保持穩定高質量的產出,它就具備了承擔真實崗位的能力

這個過程有點像自動駕駛,從有限路段走向通用路段,從頻繁人工干預走向長時無干預


有效的數據積累可以帶來高可靠 Agent 系統的出現,優先轉起數據飛輪的公司將率先實現通用 Agent 的 FSD 時刻

xbench 的節奏

xbench 是紅杉中國 2025 年 5 月發的 AI 評測基準,設計思路是 Evergreen Evaluation,持續維護、動態更新

這兩周,他們連發兩篇:上周是 ,測多模態的純視覺能力,這周 AgentIF-OneDay 測 Agent 的日常任務能力

BabyVision 的結論是模型的視覺能力普遍低于 3 歲兒童

AgentIF-OneDay 的結論是最強 Agent 在日常任務上大約 65%

所以嘛,模型的「看」和「做」,都還有很大空間

開源地址

Paper Link
https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

Website
https://xbench.org/

GitHub
https://github.com/xbench-ai/AgentIF-OneDay

HuggingFace
https://huggingface.co/datasets/xbench/AgentIF-OneDay

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
以色列何去何從,歷史驚人的相似,猶太人在打中國的主意。

以色列何去何從,歷史驚人的相似,猶太人在打中國的主意。

安安說
2026-03-16 11:27:27
男子持原副縣長之子名下土地證主張拆遷賠償,一審被駁回

男子持原副縣長之子名下土地證主張拆遷賠償,一審被駁回

澎湃新聞
2026-03-25 09:24:27
牛逼!15投13中狂砍31分,正負值全場第1,網友:國內最強2號位!

牛逼!15投13中狂砍31分,正負值全場第1,網友:國內最強2號位!

金山話體育
2026-03-25 07:00:49
霍爾木茲海峽,大消息!特朗普最新發聲!原油暴跌!黃金、白銀直線爆發!

霍爾木茲海峽,大消息!特朗普最新發聲!原油暴跌!黃金、白銀直線爆發!

證券時報e公司
2026-03-25 07:56:50
你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
重磅!6000 萬葡萄牙巨星渴望加盟曼聯,門德斯親自操盤

重磅!6000 萬葡萄牙巨星渴望加盟曼聯,門德斯親自操盤

瀾歸序
2026-03-25 04:28:05
剛開后門就被炸,微信這波龍蝦自助收攤了?

剛開后門就被炸,微信這波龍蝦自助收攤了?

差評XPIN
2026-03-25 00:22:50
震驚!河北35歲女子征婚,不上班不做飯,要求每個月給一萬生活費

震驚!河北35歲女子征婚,不上班不做飯,要求每個月給一萬生活費

火山詩話
2026-03-23 07:28:09
中國最賺錢的“羞恥生意”有多暴利?千億市場背后的真實邏輯

中國最賺錢的“羞恥生意”有多暴利?千億市場背后的真實邏輯

流蘇晚晴
2026-03-21 15:48:26
2026倫敦世乒賽+國乒大名單出爐,樊振東無緣!日乒伊藤美誠落選

2026倫敦世乒賽+國乒大名單出爐,樊振東無緣!日乒伊藤美誠落選

開成運動會
2026-03-24 16:40:34
美團致歉:承擔全部費用和損失

美團致歉:承擔全部費用和損失

每日經濟新聞
2026-03-24 15:30:45
“沒屋頂才是有錢人標配”,大小姐跳舞視頻火了,普通人看清現實

“沒屋頂才是有錢人標配”,大小姐跳舞視頻火了,普通人看清現實

妍妍教育日記
2026-03-09 17:40:44
地鐵出口A、B、C、D藏著方向規律,記住這套方法 全國出行不繞遠路

地鐵出口A、B、C、D藏著方向規律,記住這套方法 全國出行不繞遠路

水泥土的搞笑
2026-03-17 13:38:42
謝霆鋒這也太酷了,人群中最靚的仔,多年風范依然如故

謝霆鋒這也太酷了,人群中最靚的仔,多年風范依然如故

手工制作阿殲
2026-03-24 08:48:18
張雪峰猝然離世,留給女兒8億財產,最后一次直播早有征兆

張雪峰猝然離世,留給女兒8億財產,最后一次直播早有征兆

可樂談情感
2026-03-25 01:41:54
重傷!擔架抬走!骨頭外凸!全場球員都哭了....

重傷!擔架抬走!骨頭外凸!全場球員都哭了....

柚子說球
2026-03-24 12:57:11
科學家發現:腳下的地球快沒電了,今天的火星就是明天的地球

科學家發現:腳下的地球快沒電了,今天的火星就是明天的地球

觀察宇宙
2026-03-23 18:58:44
出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

霹靂炮
2026-03-14 22:49:47
兄弟倆聯手創辦蘇寧,如今弟弟千億資產清零,哥哥卻走上另一條路

兄弟倆聯手創辦蘇寧,如今弟弟千億資產清零,哥哥卻走上另一條路

鯨探所長
2026-03-24 14:38:04
善惡到頭終有報,如今73歲的唐國強,已經走上了一條不歸路!

善惡到頭終有報,如今73歲的唐國強,已經走上了一條不歸路!

吳蒂旅行ing
2026-03-20 05:20:46
2026-03-25 11:03:01
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
342文章數 50關注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關停

頭條要聞

浙江海島被指打響"取消中考第一槍" 有學生心態松懈

頭條要聞

浙江海島被指打響"取消中考第一槍" 有學生心態松懈

體育要聞

NBA最強左手射手,是個右撇子

娛樂要聞

張雪峰經搶救無效不幸去世 年僅41歲

財經要聞

張雪峰的多面人生:從寒門導師到教育商人

汽車要聞

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

健康
教育
時尚
本地
公開課

轉頭就暈的耳石癥,能開車上班嗎?

教育要聞

今年考研復試線暴漲,部分專業漲幅超150分,湘雅醫學院為何下降

當年輕女性,闖入電競圈

本地新聞

春日吃花第二站——陜西

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版