337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

走出 MMLU 的高分幻覺:AI Agent 的「斯坦利時刻」與職場生存法則

0
分享至


Trainee-Bench:揭秘為什么很能打的大模型們在工作場景中依然只是個‘職場巨嬰’。

01


序章:穿越數字世界的“莫哈韋沙漠”

把時鐘撥回 2005 年,內華達州的莫哈韋沙漠。

那是美國國防部高級研究計劃局(DARPA)舉辦的無人駕駛挑戰賽現場。不同于平整的封閉賽道,DARPA 給出的考題殘酷而簡單:沒有高精地圖輔助,沒有人類遠程接管,車輛必須依靠自身的感知決策系統,穿越數百公里的荒漠。

最初的嘗試是慘烈的,無數車輛在起步后不久就撞向巖石、陷入溝壑。直到一輛名為“斯坦利(Stanley)”的賽車,依靠在非結構化環境中的自主決策能力沖過終點。那一刻,被公認為自動駕駛的“斯坦利時刻”——它證明了機器智能的價值不在于實驗室里的理想參數,而在于能在充滿未知的物理世界中“活下來”并完成任務。

今天,在通往通用人工智能(AGI)的道路上,我們正站在這一時刻的數字鏡像前。

在多模態大模型(MLLMs)狂飆突進的今天,MMLU、GSM8K 等基準測試的分數每隔幾個月就被刷新。然而,企業和開發者卻面臨著一個共同的困惑:為什么這些在考卷上接近滿分的 AI,一旦放入真實的業務流程中,往往就變成了需要人類時刻照看的“巨嬰”?

02


繁榮下的隱憂:高分低能的“執行鴻溝”

現有的 Agent 評測大多像是在“無菌室”里做題:環境是靜態的,任務是單一的,信息是全知的。我們正在用測試“大腦”的考卷,來評估“手腳”的靈活性。

近日,來自復旦大學、上海 AI Lab、浙江大學等機構的研究團隊發表了論文 。研究團隊指出,現在的 Agent 之所以難用于實際生產環境,是因為它們存在顯著的“執行鴻溝”

? 現有的測試benchmark是“全知視角”的(Oracle-based):我們給模型完美的上下文,要求它輸出完美的答案。

? 真實的職場是“迷霧模式”的(Partially Observable):任務說明書里可能沒有密碼,需求是模糊的,環境里充滿了老板突然交辦的任務 B 和臨時插進來的會議。

為了打破這種“高分低能”的幻覺,研究團隊造了一個高度仿真的“職場模擬器”——Trainee-Bench。他們拉來了包括 GPT-5.1、Gemini-3-Flash、Claude-4-Sonnet 在內的頂尖模型,進行了一場殘酷的“入職第一天”壓力測試。

論文標題:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

項目地址:https://github.com/KnowledgeXLab/EvoEnv

03


Trainee-Bench:AI 實習生的“受難日”

Trainee-Bench 不再關注單一能力的上限,而是考察 Agent 在復雜動態環境中的“生存策略”。它模擬了一個新員工入職時的真實困境——缺乏“上帝視角”的輔助,一切靠自己。研究從三個硬核的技術維度,重新定義了 Agent 的能力邊界:

維度一:從“線性推理”到“動態調度”

職場充滿了異步性。當 Agent 正在處理一份報表時,突然收到緊急郵件。它能否展現出類似操作系統的調度能力?

? 優先級判斷:能分清輕重緩急嗎?

? 掛起與恢復:處理完緊急任務后,能無損地回到剛才的進度嗎?


維度二:從“全知地圖”到“主動探索”

在真實環境中,信息往往是碎片化且隱蔽的。Trainee-Bench 構建了一個“無圖(Mapless)”環境,Agent 不會被告知“文件在哪里”或“工具怎么用”。它必須像人類實習生一樣,通過ls、grep探測目錄,自主閱讀文檔理解參數,并在探索中逐步構建起對環境的“認知地圖”。


維度三:從“單次完成”到“持續學習”

一個合格的數字員工,必須具備“長記性”的能力。Trainee-Bench 設置了長程的時間跨度,考察 Agent 能否利用前一天的環境反饋和執行歷史,在第二天避開同樣的坑。


04


核心解密:如何構建一個“無限流”職場?

Trainee-Bench 的構造流程精妙地模擬了現實世界的復雜性。整個環境的構建分為三個關鍵步驟:

? 第一步:拒絕死記硬背的“任務實例化”:為了防止Agent“背題”或過度擬合,Trainee-Bench 引入了 元任務(Meta-Task) 的概念。團隊精心設計了181個元任務規則,這些元任務規則就像Rogue-like游戲一樣,通過隨機種子生成不同的NPC性格、文件路徑、數據分布等。此外,這些元任務會刻意隱藏部分關鍵線索,讓 agent 必須主動探索環境和向外部尋求幫助才能繼續推進任務。

? 第二步:還原真實的“動態復合場景”:真實工作從來不是單線程的。Trainee-Bench 將多個獨立的任務實例,按照時間軸編排進一個動態復合場景中。這些任務具有不同的優先級,也可能存在先后依賴,考驗 智能體的多任務規劃能力。

? 第三步:像導師一樣的“自動驗證機制”:系統不僅看最終結果,更關注過程。通過預埋的 Checkpoints(檢查點),環境能夠自動評估Agent每一步做對了沒有,并給出細粒度的自然語言反饋。


05


評測結果:頂尖模型的集體“滑鐵盧”

研究團隊測試了包括Gemini-3-Flash、GPT-5.1、GPT-4o、Claude-4-Sonnet等在內的7款頂尖模型,測試結果有些“扎心”。即便面對目前地表最強的 7 款模型,Trainee-Bench 依然像是一道難以逾越的墻。

洞察一:成功率的“天花板”極低

在綜合測試中,表現最好的Gemini-3-Flash成功率也僅為35%,而備受期待的GPT-5.1Claude-4-Sonnet成功率僅在23%左右。這說明,面對非結構化的動態職場,SOTA 模型離“獨立上崗”還有極遠的距離。


洞察二:任務一多,立刻“顧頭不顧尾”

實驗發現,當并發任務數量從2 個增加到 6 個時,除了 Claude-4 和 GPT-5.1 表現相對平穩外,其他模型的性能都出現了斷崖式下降。多線程工作的調度能力,依然是 AI 邁向高級助理的致命軟肋。


洞察三:最扎心的發現:Agent 竟然“記吃不記打”?

Trainee-Bench最獨特的設計之一是引入了“持續學習”的評估。研究者讓Agent先工作一天(Day 1),根據反饋總結經驗,讓智能體在Day 2再次執行和第一天類似的任務。理論上,有了經驗總結,第二天應該干得更好對吧?

結果恰恰相反!結果顯示:使用了經驗后,Agent 的整體表現反而下降了(得分從 0.42 降至 0.36)。原因在于,當前大模型總結的“經驗”往往非常膚淺或過度擬合。面對動態變化的新環境,生搬硬套昨天的教條反而成了執行的累贅。


06


智能體商業價值的重構:用“人類時間”丈量技術

技術范式的轉移,必然伴隨著商業邏輯的重構。AI Agent 的核心價值不在于算力消耗,而在于“解放”人類的時間。

在移動互聯網時代,商業的核心是“注意力經濟APP 恨不得占有你每一分鐘。而 AI Agent 時代的邏輯恰恰相反:Agent 本質上是 "Service-as-Software"(服務即軟件),它的核心價值在于“解放”人類的時間。

本篇論文提出的測試結果,實際上指向了一個可以直接與 投資回報率(ROI)掛鉤的終極指標:等價人類時間(Equivalent Human Time),即:

價 值 人 類 自 主 完 成 時 間 耗 時 人 類 監 工 與 修 正 時 間

如果一個 Agent 需要人類頻繁介入去糾錯、去喂數據,該指標可能為負——這意味著它不僅沒有生產力,反而在浪費算力。只有當 Agent 在“探索、調度、學習”三個環節實現零接管,它才真正具備了商業上的“長青”價值。

《The Agent's First Day》的實驗數據給出了一個令人振奮的側面:當人類在關鍵時刻給出少量指導(Human Guidance)時,GPT-4o 的得分能從0.24飆升至0.83。這證明了:模型本身的推理能力其實已經足夠強,它真正匱乏的是像人類一樣的主動探索意識和對環境的敏銳感知。


07


結語:尋找數字職場的“斯坦利”

20 年前,莫哈韋沙漠揚起的沙塵,開啟了物理世界自動駕駛的黃金時代。

今天,《The Agent's First Day》在數字世界里構建的這座“職場迷宮”,或許正是 AI Agent 走向 AGI 所必須跨越的荒漠。它向行業揭示了一個樸素的洞察:停止單純卷模型的參數,開始卷 Agent 的自主學習性。

因為,只有那些能夠獨自處理復雜任務、讓用戶真正敢于放手、在“無圖”環境中生存下來的 Agent,才能在未來的職場中獲得一張正式的工牌。

想要挑戰一下你的 Agent 嗎?Trainee-Bench 的數據與代碼已正式開源,歡迎全球開發者帶著Agent前來應聘!

? 論文標題:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

? 項目地址:https://github.com/KnowledgeXLab/EvoEnv

? arXiv 地址:https://arxiv.org/abs/2601.08173

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
牛!烏克蘭英雄在地下掩體里堅持作戰了471天

牛!烏克蘭英雄在地下掩體里堅持作戰了471天

老馬拉車莫少裝
2026-03-21 00:10:44
浙江一車主崩潰求救:車上有只“超兇大老鼠”!消防員苦戰20分鐘發現竟是……

浙江一車主崩潰求救:車上有只“超兇大老鼠”!消防員苦戰20分鐘發現竟是……

臺州交通廣播
2026-03-22 00:25:57
回大陸后我才敢講:真正的臺灣省,和網上說的根本不是一回事

回大陸后我才敢講:真正的臺灣省,和網上說的根本不是一回事

番外行
2026-03-21 13:43:52
復婚二胎傳聞真相大白7個月,趙麗穎近況曝光,出現令人作嘔一幕

復婚二胎傳聞真相大白7個月,趙麗穎近況曝光,出現令人作嘔一幕

日不西沉
2026-03-22 04:04:31
海南陵水警方通報一起交通事故:司機肇事致2死5傷后逃逸,涉嫌酒駕

海南陵水警方通報一起交通事故:司機肇事致2死5傷后逃逸,涉嫌酒駕

澎湃新聞
2026-03-21 18:57:04
10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

孤單是寂寞的毒
2026-03-04 15:38:03
4中3!絕殺東部新貴!湖人年度最佳交易誕生

4中3!絕殺東部新貴!湖人年度最佳交易誕生

籃球實戰寶典
2026-03-22 09:51:35
克拉拉F1賽車現場太耀眼了!新中式紅裙外搭撞色毛絨外套,美炸了

克拉拉F1賽車現場太耀眼了!新中式紅裙外搭撞色毛絨外套,美炸了

明星私服穿搭daily
2026-03-21 11:50:06
懸念不大了!西部能進季后賽的球隊,大概率這8支,勇士基本出局

懸念不大了!西部能進季后賽的球隊,大概率這8支,勇士基本出局

籃球掃地僧
2026-03-21 15:23:42
伊方:擊中F-16戰機,已摧毀200多架飛行器!伊朗投入全新進攻戰術和更現代化系統,發動大規模打擊!伊朗先進導彈有多難攔?專家解讀

伊方:擊中F-16戰機,已摧毀200多架飛行器!伊朗投入全新進攻戰術和更現代化系統,發動大規模打擊!伊朗先進導彈有多難攔?專家解讀

每日經濟新聞
2026-03-21 22:28:34
阿司匹林走下神壇:一個長達40年的錯誤,FDA改變了態度;柳葉刀都說了,你的阿司匹林得按胖瘦來吃

阿司匹林走下神壇:一個長達40年的錯誤,FDA改變了態度;柳葉刀都說了,你的阿司匹林得按胖瘦來吃

醫脈圈
2026-03-20 20:37:21
火箭123-122險勝熱火,阿門補籃絕殺&24+18,杜蘭特27分,阿德巴約32+21

火箭123-122險勝熱火,阿門補籃絕殺&24+18,杜蘭特27分,阿德巴約32+21

懂球帝
2026-03-22 10:30:19
日媒:中國車企全球銷量20多年來首次超日本

日媒:中國車企全球銷量20多年來首次超日本

第一財經資訊
2026-03-22 00:19:34
河北男子發現1米高奇怪大鳥,在田里瞎逛,網友:我國不足200只!

河北男子發現1米高奇怪大鳥,在田里瞎逛,網友:我國不足200只!

貍貓之一的動物圈
2026-03-18 10:41:02
哪有報不報的?我村有個老頭八十五歲。做了一輩缺德事,壞事做盡

哪有報不報的?我村有個老頭八十五歲。做了一輩缺德事,壞事做盡

三農雷哥
2026-03-21 17:57:45
特朗普:當美國想結束與伊朗沖突時,以色列也會同步

特朗普:當美國想結束與伊朗沖突時,以色列也會同步

界面新聞
2026-03-21 07:18:17
島國業界九位盛世美顏女老師,誰是你心中的永恒?

島國業界九位盛世美顏女老師,誰是你心中的永恒?

碧波萬覽
2026-03-22 00:24:17
監控曝光:廣東一男子在翡翠批發檔口假裝問價,趁店主低頭瞬間將翡翠放入口中離去;店主:已報警,為方便客戶挑選,翡翠擺在桌上未加柜子

監控曝光:廣東一男子在翡翠批發檔口假裝問價,趁店主低頭瞬間將翡翠放入口中離去;店主:已報警,為方便客戶挑選,翡翠擺在桌上未加柜子

瀟湘晨報
2026-03-21 16:13:12
52歲北京炒股冠軍罕見發聲:洗盤如果洗不掉散戶,莊家會怎么辦?

52歲北京炒股冠軍罕見發聲:洗盤如果洗不掉散戶,莊家會怎么辦?

股經縱橫談
2026-03-20 21:45:04
廣東3消息!杜鋒離隊參加活動,陳老板態度曝光,徐昕回歸沒戲

廣東3消息!杜鋒離隊參加活動,陳老板態度曝光,徐昕回歸沒戲

多特體育說
2026-03-21 23:47:41
2026-03-22 10:52:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7136文章數 20742關注度
往期回顧 全部

科技要聞

OpenAI開啟“人海戰術” 沖刺8000人規模

頭條要聞

八國已就霍爾木茲海峽發聲 英核動力潛艇抵達阿拉伯海

頭條要聞

八國已就霍爾木茲海峽發聲 英核動力潛艇抵達阿拉伯海

體育要聞

鄭欽文兩盤橫掃前美網冠軍 迎邁阿密站開門紅

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

睡夢中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

14.28萬元起 吉利銀河星耀8遠航家開啟預售

態度原創

教育
游戲
房產
藝術
時尚

教育要聞

“這真是玩手機玩的”,8歲女孩吃飯姿勢怪異,網友都看不下去了

《紅色沙漠》按鍵反人類 官方回應正開發解決補丁

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

藝術要聞

張春橋的字藏多少心機?看似簡單卻暗藏玄機!

這些才是適合普通人借鑒的穿搭!衣服疊穿、多穿襯衫,好耐看

無障礙瀏覽 進入關懷版