337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海AI Lab InternLM團隊WildClawBench 60題,把龍蝦AI打回原形

0
分享至



OpenClaw 生態(tài)放出了一道難題:WildClawBench,專門用來驗收「龍蝦」AI 的實戰(zhàn)功力!

這 60 道題全是「打工人」的真實活兒:整理發(fā)布會錄像做海報、分類 arXiv 論文找 Baseline,全是多模態(tài) + 多步驟的硬核挑戰(zhàn)。

測試結(jié)果很扎心,連目前地表最強的 Claude Opus 4.6,在 WildClawBench 上也只拿了 51.6%。

我們真的在衡量 AI Agent 的能力嗎?

縱觀過去一年的各類 Benchmark,大多聚焦于模型是否能準確完成一次函數(shù)調(diào)用。然而,真實場景下的任務(wù)并非單點的格式對齊,而是一場長跑。AI 需要跨越多種模態(tài)理解信息,在動態(tài)環(huán)境中判斷工具序列,并實時處理預料之外的錯誤。

這種端到端的閉環(huán)交付能力,才是 Agent 的核心價值。

為了填補這一評測空白,上海人工智能實驗室 InternLM 團隊近日推出了全面且硬核的 WildClawBench。它不再關(guān)注碎片化的正確率,而是通過極高難度的任務(wù)場景,對大模型的 Agency 智能進行一場全方位的實戰(zhàn)校檢。



圖 1:WildClawBench 評測框架圖。基于 Docker 的真實操作系統(tǒng)環(huán)境,AI 智能體可獨立操作瀏覽器、終端等工具。

  • GitHub:github.com/InternLM/WildClawBench
  • HuggingFace 數(shù)據(jù)集:huggingface.co/datasets/internlm/WildClawBench
  • 在線排行榜:internlm.github.io/WildClawBench
  • 完整評測軌跡:drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link

WildClawBench:在真實助手環(huán)境里端到端評測

WildClawBench 把 Agent 丟進一個真實的 OpenClaw 環(huán)境,具備一套完整的工具集:瀏覽器、終端、文件系統(tǒng)、日歷,跟真實用戶日常使用的環(huán)境一模一樣。

60 道任務(wù)全部手工原創(chuàng)設(shè)計,覆蓋中英雙語,分布在 6 個類別中。每道任務(wù)運行在獨立的 Docker 容器里,評分用的 ground truth 和打分腳本在 Agent 執(zhí)行結(jié)束后才注入容器,整個執(zhí)行過程中完全不可見,從根源上杜絕數(shù)據(jù)泄露。

換句話說,每一分都是 Agent 真刀真槍掙來的。

6 大類別,60 道題,到底在考什么?

  • 生產(chǎn)力流程(10 題)

研究者和知識工作者每天都在做、但希望有人代勞的事。比如前面提到的 ArXiv 論文審計:Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個方向自動分類;對「多模態(tài)」類別的每一篇,逐篇打開 PDF 或 HTML,核對完整的作者名單,數(shù)清正文有幾張圖、幾張表,附錄又有幾張圖、幾張表,記錄附錄的起始章節(jié)標題;再根據(jù)用戶是 CapRL 作者這一身份信息,從幾十篇論文中挑出最相關(guān)的推薦,并把以 CapRL 為 baseline 的 benchmark 對比表原樣抽取出來。

這不是「幫我總結(jié)一下摘要」——Agent 必須真的去逐篇讀論文的正文內(nèi)容,一張圖一張表地數(shù)。



圖 2 : 生產(chǎn)力類任務(wù)展示。Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個方向自動分類,并根據(jù)用戶信息(CapRL 作者)完成個性化推送。

  • 代碼智能(12 題)

給 Agent 一個完全沒有文檔的代碼倉庫,讓它自己讀源碼、裝依賴、寫推理腳本跑通。比如從 SAM3 的源碼出發(fā)寫出可運行的推理代碼,或者解視覺謎題(拼圖、連線、Link-a-Pix),要求生成像素級精確的解。

  • 社交互動(6 題)

多輪溝通和上下文追蹤。Agent 需要通過多輪郵件來回協(xié)商一個多人都有空的會議時間,或者掃一遍聊天記錄把所有待辦事項、deadline、負責人整理成結(jié)構(gòu)化清單。

  • 搜索檢索(11 題)

當網(wǎng)上搜到的信息和本地數(shù)據(jù)對不上時,Agent 要交叉驗證、判斷誰對誰錯。比如多個來源給出矛盾的財務(wù)數(shù)據(jù),Agent 需要追溯原始出處并給出有依據(jù)的結(jié)論。



圖 3:搜索檢索類任務(wù)展示。Agent 要根據(jù)提供的谷歌學術(shù)主頁,確定兩位學者之間的最短關(guān)系鏈條,相鄰的學者對之間均需要有合作論文。

  • 創(chuàng)意合成(11 題)

這一類最考驗「全棧」能力。前面提到的產(chǎn)品發(fā)布會任務(wù)就是其中之一:在斷網(wǎng)條件下看完一段完整的發(fā)布會錄像,識別全部 8 款硬件產(chǎn)品,提取名稱、芯片、配色、起售價等結(jié)構(gòu)化信息存成 JSON,再從視頻中截取產(chǎn)品畫面,排版成一份 5 頁 A4 的專業(yè)宣傳 PDF。評測不僅檢查數(shù)據(jù)是否精確(價格必須和 ground truth 完全一致),還讓 VLM 對 PDF 的排版美感、圖文一致性打分 —— 做出來的東西不僅要「對」,還要「好看」。



圖 4:創(chuàng)意合成類任務(wù)展示。Agent 要根據(jù)提供的球賽完整視頻,剪輯一段巴塞羅那 7 號球員費蘭?托雷斯上半場的精彩進球集錦。

  • 安全對齊(10 題)

最隱蔽也最關(guān)鍵的一類。惡意指令被深埋在一份看起來完全正常的文檔中間,Agent 要能識別出來并拒絕執(zhí)行;API Key 散落在一個大型項目上百條 Git commit 的歷史里,Agent 要像安全審計員一樣逐一排查并報告泄露風險,而不是無視它們繼續(xù)干活。

排行榜:最強模型剛過半,國產(chǎn)模型擠進前三

截至 2026 年 4 月 1 日,WildClawBench 已評測 14 個前沿模型,結(jié)果如下:



圖 5:Leaderboard。我們評測了國內(nèi)外共 14 個前沿模型

幾個值得注意的發(fā)現(xiàn):

  • 分數(shù)天花板很低:排名第一的 Claude Opus 4.6 剛過 51 分,可見雖然日常的任務(wù)但是真實的環(huán)境還是讓 AI Agent 為難的,這個 benchmark 短期內(nèi)不會被「刷爆」,分數(shù)的區(qū)分度很高;
  • 性價比差異懸殊:Claude Opus 4.6 跑一次的平均花費超過 80 美元,GPT-5.4 只要 20 美元但只落后 1.3 個百分點。在成本敏感的場景下,「最貴的」未必是最優(yōu)選擇;
  • 國產(chǎn)模型集體亮相,智譜 GLM 5 拿下探花:14 個參評模型中有 9 個來自中國團隊,智譜 AI 的 GLM 5 以 42.6% 拿下總榜第三,是唯一進入前三的國產(chǎn)模型,力壓 Google DeepMind 的 Gemini 3.1 Pro,而且花費僅 $11.39—— 不到 Claude Opus 4.6 的七分之一。小米 MiMo V2 Pro(40.2%)緊隨其后排名第五,同樣超過了 Gemini。國產(chǎn)模型在 Agent 端到端能力上的追趕速度,比很多人預想的要快。



圖 6:子類別雷達圖。我們展示了六個類別下模型的得分,發(fā)現(xiàn)不同模型有各自不同的擅長領(lǐng)域。

「養(yǎng)龍蝦」排行榜:你的 AI 助手比我的強嗎?

WildClawBench 還有一個有趣的延伸:個人 OpenClaw 排行榜。

在 OpenClaw 社區(qū)里,「養(yǎng)龍蝦」已經(jīng)成了一種現(xiàn)象:用戶持續(xù)給自己的 AI 助手教新技能、定制人格、積累長期記憶。一個自然而然的問題是:誰的龍蝦更厲害?

WildClawBench 允許用戶把自己精心調(diào)教的 OpenClaw 工作區(qū)(包括 SOUL.md、MEMORY.md、自定義技能等)提交到同一套 60 道題上跑分。跑完把結(jié)果發(fā)到指定郵箱,就能上排行榜。

這不僅僅是比個高低,它能幫助社區(qū)理解,在同一個底座模型上,哪些 harness,技能組合、人格設(shè)定和記憶策略真的能提升 Agent 的任務(wù)完成率。

開源,可復現(xiàn),歡迎貢獻

WildClawBench 采用 MIT 開源協(xié)議,全部 60 道任務(wù)的 markdown 定義、評分代碼、Docker 鏡像和數(shù)據(jù)集均已公開。

項目還提供了任務(wù)模板,社區(qū)可以按照統(tǒng)一格式貢獻新任務(wù)。每道任務(wù)自帶自動評分腳本,支持一鍵批量評測。

當最強 AI Agent 的最高分還不到 60 分,我們離真正可靠的 AI 助手還有多遠?至少現(xiàn)在有了一把刻度清晰的尺子。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新加坡已經(jīng)成功預測中美沖突,一旦爆發(fā),美稱中國不能攻打美本土

新加坡已經(jīng)成功預測中美沖突,一旦爆發(fā),美稱中國不能攻打美本土

起喜電影
2026-04-16 01:05:59
人民日報聯(lián)合工信部緊急預警:全體iPhone用戶,請立刻升級系統(tǒng)!

人民日報聯(lián)合工信部緊急預警:全體iPhone用戶,請立刻升級系統(tǒng)!

小柱解說游戲
2026-04-19 20:52:59
長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

西昆侖Bruce
2026-04-19 19:52:58
負債60億!年銷8.4萬臺豪車的百億巨頭破產(chǎn),浙商大佬全被套牢

負債60億!年銷8.4萬臺豪車的百億巨頭破產(chǎn),浙商大佬全被套牢

青眼財經(jīng)
2026-04-16 22:01:48
皇馬啟動穆帥回歸談判!老佛爺約見門德斯,5月28日定最終結(jié)果

皇馬啟動穆帥回歸談判!老佛爺約見門德斯,5月28日定最終結(jié)果

佳佳說奇事故事
2026-04-18 21:16:18
正大光明官宣!中國艦艇編隊過航橫當水道

正大光明官宣!中國艦艇編隊過航橫當水道

武器縱論
2026-04-19 21:56:32
多納魯馬快哭了!爭冠天王山超巨失誤,奪冠27天后“致敬”凱帕

多納魯馬快哭了!爭冠天王山超巨失誤,奪冠27天后“致敬”凱帕

奧拜爾
2026-04-20 00:11:14
烏度卡:杜蘭特訓練時不慎與隊友膝蓋相撞,導致髕腱區(qū)域受傷

烏度卡:杜蘭特訓練時不慎與隊友膝蓋相撞,導致髕腱區(qū)域受傷

懂球帝
2026-04-19 08:20:27
摸景甜胸側(cè),抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒分寸感

摸景甜胸側(cè),抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒分寸感

草莓解說體育
2026-04-15 04:23:51
男子爬上泰山“五岳獨尊”石刻拍照,景區(qū):將核查其身份進行處理

男子爬上泰山“五岳獨尊”石刻拍照,景區(qū):將核查其身份進行處理

揚子晚報
2026-04-17 12:09:40
輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊真的太冤了

輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊真的太冤了

兵哥籃球故事
2026-04-19 15:21:32
普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

卷史
2026-04-19 11:41:35
為了留住非洲最后一根救命稻草,賴清德拼了!結(jié)果大陸早布好了局

為了留住非洲最后一根救命稻草,賴清德拼了!結(jié)果大陸早布好了局

軒逸阿II
2026-04-20 01:05:31
113-102!尼克斯開門紅,唐斯爆發(fā)哈特立功系列賽或變天

113-102!尼克斯開門紅,唐斯爆發(fā)哈特立功系列賽或變天

愛情畢業(yè)了
2026-04-20 00:04:17
廣西欽州一女子后悔砌墻,多次舉報自己違建,當事人:70多歲了上下樓吃力,想在樓后加裝電梯,但因左右建了墻,根本無法施工

廣西欽州一女子后悔砌墻,多次舉報自己違建,當事人:70多歲了上下樓吃力,想在樓后加裝電梯,但因左右建了墻,根本無法施工

觀威海
2026-04-19 14:28:11
網(wǎng)友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應(yīng):正常回訪,但電話沒接通

網(wǎng)友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應(yīng):正常回訪,但電話沒接通

瀟湘晨報
2026-04-18 22:04:11
河南三地被曝巨額數(shù)據(jù)造假后續(xù)!河南問責25人

河南三地被曝巨額數(shù)據(jù)造假后續(xù)!河南問責25人

看看新聞Knews
2026-04-19 20:40:06
深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

牛鍋巴小釩
2026-04-17 13:18:03
教育部剛通知!9月起上學新規(guī)全覆蓋,普通家庭孩子上學迎公平

教育部剛通知!9月起上學新規(guī)全覆蓋,普通家庭孩子上學迎公平

復轉(zhuǎn)這些年
2026-04-18 11:43:46
李想怒噴日產(chǎn)的背后,藏著“增程帝國”崩塌的無能為力

李想怒噴日產(chǎn)的背后,藏著“增程帝國”崩塌的無能為力

少數(shù)派報告Report
2026-04-19 09:17:16
2026-04-20 02:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

房產(chǎn)
親子
教育
家居
本地

房產(chǎn)要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

親子要聞

孩子總打噴嚏、起疹子,時過敏嗎?

教育要聞

655家單位、1.29萬個崗位,湖南用心幫大學生找工作

家居要聞

法式線條 時光靜淌

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

無障礙瀏覽 進入關(guān)懷版