![]()
OpenClaw 生態放出了一道難題:WildClawBench,專門用來驗收「龍蝦」AI 的實戰功力!
這 60 道題全是「打工人」的真實活兒:整理發布會錄像做海報、分類 arXiv 論文找 Baseline,全是多模態 + 多步驟的硬核挑戰。
測試結果很扎心,連目前地表最強的 Claude Opus 4.6,在 WildClawBench 上也只拿了 51.6%。
我們真的在衡量 AI Agent 的能力嗎?
縱觀過去一年的各類 Benchmark,大多聚焦于模型是否能準確完成一次函數調用。然而,真實場景下的任務并非單點的格式對齊,而是一場長跑。AI 需要跨越多種模態理解信息,在動態環境中判斷工具序列,并實時處理預料之外的錯誤。
這種端到端的閉環交付能力,才是 Agent 的核心價值。
為了填補這一評測空白,上海人工智能實驗室 InternLM 團隊近日推出了全面且硬核的 WildClawBench。它不再關注碎片化的正確率,而是通過極高難度的任務場景,對大模型的 Agency 智能進行一場全方位的實戰校檢。
![]()
圖 1:WildClawBench 評測框架圖。基于 Docker 的真實操作系統環境,AI 智能體可獨立操作瀏覽器、終端等工具。
- GitHub:github.com/InternLM/WildClawBench
- HuggingFace 數據集:huggingface.co/datasets/internlm/WildClawBench
- 在線排行榜:internlm.github.io/WildClawBench
- 完整評測軌跡:drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link
WildClawBench:在真實助手環境里端到端評測
WildClawBench 把 Agent 丟進一個真實的 OpenClaw 環境,具備一套完整的工具集:瀏覽器、終端、文件系統、日歷,跟真實用戶日常使用的環境一模一樣。
60 道任務全部手工原創設計,覆蓋中英雙語,分布在 6 個類別中。每道任務運行在獨立的 Docker 容器里,評分用的 ground truth 和打分腳本在 Agent 執行結束后才注入容器,整個執行過程中完全不可見,從根源上杜絕數據泄露。
換句話說,每一分都是 Agent 真刀真槍掙來的。
6 大類別,60 道題,到底在考什么?
- 生產力流程(10 題)
研究者和知識工作者每天都在做、但希望有人代勞的事。比如前面提到的 ArXiv 論文審計:Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個方向自動分類;對「多模態」類別的每一篇,逐篇打開 PDF 或 HTML,核對完整的作者名單,數清正文有幾張圖、幾張表,附錄又有幾張圖、幾張表,記錄附錄的起始章節標題;再根據用戶是 CapRL 作者這一身份信息,從幾十篇論文中挑出最相關的推薦,并把以 CapRL 為 baseline 的 benchmark 對比表原樣抽取出來。
這不是「幫我總結一下摘要」——Agent 必須真的去逐篇讀論文的正文內容,一張圖一張表地數。
![]()
圖 2 : 生產力類任務展示。Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個方向自動分類,并根據用戶信息(CapRL 作者)完成個性化推送。
- 代碼智能(12 題)
給 Agent 一個完全沒有文檔的代碼倉庫,讓它自己讀源碼、裝依賴、寫推理腳本跑通。比如從 SAM3 的源碼出發寫出可運行的推理代碼,或者解視覺謎題(拼圖、連線、Link-a-Pix),要求生成像素級精確的解。
- 社交互動(6 題)
多輪溝通和上下文追蹤。Agent 需要通過多輪郵件來回協商一個多人都有空的會議時間,或者掃一遍聊天記錄把所有待辦事項、deadline、負責人整理成結構化清單。
- 搜索檢索(11 題)
當網上搜到的信息和本地數據對不上時,Agent 要交叉驗證、判斷誰對誰錯。比如多個來源給出矛盾的財務數據,Agent 需要追溯原始出處并給出有依據的結論。
![]()
圖 3:搜索檢索類任務展示。Agent 要根據提供的谷歌學術主頁,確定兩位學者之間的最短關系鏈條,相鄰的學者對之間均需要有合作論文。
- 創意合成(11 題)
這一類最考驗「全棧」能力。前面提到的產品發布會任務就是其中之一:在斷網條件下看完一段完整的發布會錄像,識別全部 8 款硬件產品,提取名稱、芯片、配色、起售價等結構化信息存成 JSON,再從視頻中截取產品畫面,排版成一份 5 頁 A4 的專業宣傳 PDF。評測不僅檢查數據是否精確(價格必須和 ground truth 完全一致),還讓 VLM 對 PDF 的排版美感、圖文一致性打分 —— 做出來的東西不僅要「對」,還要「好看」。
![]()
圖 4:創意合成類任務展示。Agent 要根據提供的球賽完整視頻,剪輯一段巴塞羅那 7 號球員費蘭?托雷斯上半場的精彩進球集錦。
- 安全對齊(10 題)
最隱蔽也最關鍵的一類。惡意指令被深埋在一份看起來完全正常的文檔中間,Agent 要能識別出來并拒絕執行;API Key 散落在一個大型項目上百條 Git commit 的歷史里,Agent 要像安全審計員一樣逐一排查并報告泄露風險,而不是無視它們繼續干活。
排行榜:最強模型剛過半,國產模型擠進前三
截至 2026 年 4 月 1 日,WildClawBench 已評測 14 個前沿模型,結果如下:
![]()
圖 5:Leaderboard。我們評測了國內外共 14 個前沿模型
幾個值得注意的發現:
- 分數天花板很低:排名第一的 Claude Opus 4.6 剛過 51 分,可見雖然日常的任務但是真實的環境還是讓 AI Agent 為難的,這個 benchmark 短期內不會被「刷爆」,分數的區分度很高;
- 性價比差異懸殊:Claude Opus 4.6 跑一次的平均花費超過 80 美元,GPT-5.4 只要 20 美元但只落后 1.3 個百分點。在成本敏感的場景下,「最貴的」未必是最優選擇;
- 國產模型集體亮相,智譜 GLM 5 拿下探花:14 個參評模型中有 9 個來自中國團隊,智譜 AI 的 GLM 5 以 42.6% 拿下總榜第三,是唯一進入前三的國產模型,力壓 Google DeepMind 的 Gemini 3.1 Pro,而且花費僅 $11.39—— 不到 Claude Opus 4.6 的七分之一。小米 MiMo V2 Pro(40.2%)緊隨其后排名第五,同樣超過了 Gemini。國產模型在 Agent 端到端能力上的追趕速度,比很多人預想的要快。
![]()
圖 6:子類別雷達圖。我們展示了六個類別下模型的得分,發現不同模型有各自不同的擅長領域。
「養龍蝦」排行榜:你的 AI 助手比我的強嗎?
WildClawBench 還有一個有趣的延伸:個人 OpenClaw 排行榜。
在 OpenClaw 社區里,「養龍蝦」已經成了一種現象:用戶持續給自己的 AI 助手教新技能、定制人格、積累長期記憶。一個自然而然的問題是:誰的龍蝦更厲害?
WildClawBench 允許用戶把自己精心調教的 OpenClaw 工作區(包括 SOUL.md、MEMORY.md、自定義技能等)提交到同一套 60 道題上跑分。跑完把結果發到指定郵箱,就能上排行榜。
這不僅僅是比個高低,它能幫助社區理解,在同一個底座模型上,哪些 harness,技能組合、人格設定和記憶策略真的能提升 Agent 的任務完成率。
開源,可復現,歡迎貢獻
WildClawBench 采用 MIT 開源協議,全部 60 道任務的 markdown 定義、評分代碼、Docker 鏡像和數據集均已公開。
項目還提供了任務模板,社區可以按照統一格式貢獻新任務。每道任務自帶自動評分腳本,支持一鍵批量評測。
當最強 AI Agent 的最高分還不到 60 分,我們離真正可靠的 AI 助手還有多遠?至少現在有了一把刻度清晰的尺子。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.