337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

上海AI Lab InternLM團隊WildClawBench 60題,把龍蝦AI打回原形

0
分享至



OpenClaw 生態放出了一道難題:WildClawBench,專門用來驗收「龍蝦」AI 的實戰功力!

這 60 道題全是「打工人」的真實活兒:整理發布會錄像做海報、分類 arXiv 論文找 Baseline,全是多模態 + 多步驟的硬核挑戰。

測試結果很扎心,連目前地表最強的 Claude Opus 4.6,在 WildClawBench 上也只拿了 51.6%。

我們真的在衡量 AI Agent 的能力嗎?

縱觀過去一年的各類 Benchmark,大多聚焦于模型是否能準確完成一次函數調用。然而,真實場景下的任務并非單點的格式對齊,而是一場長跑。AI 需要跨越多種模態理解信息,在動態環境中判斷工具序列,并實時處理預料之外的錯誤。

這種端到端的閉環交付能力,才是 Agent 的核心價值。

為了填補這一評測空白,上海人工智能實驗室 InternLM 團隊近日推出了全面且硬核的 WildClawBench。它不再關注碎片化的正確率,而是通過極高難度的任務場景,對大模型的 Agency 智能進行一場全方位的實戰校檢。



圖 1:WildClawBench 評測框架圖。基于 Docker 的真實操作系統環境,AI 智能體可獨立操作瀏覽器、終端等工具。

  • GitHub:github.com/InternLM/WildClawBench
  • HuggingFace 數據集:huggingface.co/datasets/internlm/WildClawBench
  • 在線排行榜:internlm.github.io/WildClawBench
  • 完整評測軌跡:drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link

WildClawBench:在真實助手環境里端到端評測

WildClawBench 把 Agent 丟進一個真實的 OpenClaw 環境,具備一套完整的工具集:瀏覽器、終端、文件系統、日歷,跟真實用戶日常使用的環境一模一樣。

60 道任務全部手工原創設計,覆蓋中英雙語,分布在 6 個類別中。每道任務運行在獨立的 Docker 容器里,評分用的 ground truth 和打分腳本在 Agent 執行結束后才注入容器,整個執行過程中完全不可見,從根源上杜絕數據泄露。

換句話說,每一分都是 Agent 真刀真槍掙來的。

6 大類別,60 道題,到底在考什么?

  • 生產力流程(10 題)

研究者和知識工作者每天都在做、但希望有人代勞的事。比如前面提到的 ArXiv 論文審計:Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個方向自動分類;對「多模態」類別的每一篇,逐篇打開 PDF 或 HTML,核對完整的作者名單,數清正文有幾張圖、幾張表,附錄又有幾張圖、幾張表,記錄附錄的起始章節標題;再根據用戶是 CapRL 作者這一身份信息,從幾十篇論文中挑出最相關的推薦,并把以 CapRL 為 baseline 的 benchmark 對比表原樣抽取出來。

這不是「幫我總結一下摘要」——Agent 必須真的去逐篇讀論文的正文內容,一張圖一張表地數。



圖 2 : 生產力類任務展示。Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個方向自動分類,并根據用戶信息(CapRL 作者)完成個性化推送。

  • 代碼智能(12 題)

給 Agent 一個完全沒有文檔的代碼倉庫,讓它自己讀源碼、裝依賴、寫推理腳本跑通。比如從 SAM3 的源碼出發寫出可運行的推理代碼,或者解視覺謎題(拼圖、連線、Link-a-Pix),要求生成像素級精確的解。

  • 社交互動(6 題)

多輪溝通和上下文追蹤。Agent 需要通過多輪郵件來回協商一個多人都有空的會議時間,或者掃一遍聊天記錄把所有待辦事項、deadline、負責人整理成結構化清單。

  • 搜索檢索(11 題)

當網上搜到的信息和本地數據對不上時,Agent 要交叉驗證、判斷誰對誰錯。比如多個來源給出矛盾的財務數據,Agent 需要追溯原始出處并給出有依據的結論。



圖 3:搜索檢索類任務展示。Agent 要根據提供的谷歌學術主頁,確定兩位學者之間的最短關系鏈條,相鄰的學者對之間均需要有合作論文。

  • 創意合成(11 題)

這一類最考驗「全棧」能力。前面提到的產品發布會任務就是其中之一:在斷網條件下看完一段完整的發布會錄像,識別全部 8 款硬件產品,提取名稱、芯片、配色、起售價等結構化信息存成 JSON,再從視頻中截取產品畫面,排版成一份 5 頁 A4 的專業宣傳 PDF。評測不僅檢查數據是否精確(價格必須和 ground truth 完全一致),還讓 VLM 對 PDF 的排版美感、圖文一致性打分 —— 做出來的東西不僅要「對」,還要「好看」。



圖 4:創意合成類任務展示。Agent 要根據提供的球賽完整視頻,剪輯一段巴塞羅那 7 號球員費蘭?托雷斯上半場的精彩進球集錦。

  • 安全對齊(10 題)

最隱蔽也最關鍵的一類。惡意指令被深埋在一份看起來完全正常的文檔中間,Agent 要能識別出來并拒絕執行;API Key 散落在一個大型項目上百條 Git commit 的歷史里,Agent 要像安全審計員一樣逐一排查并報告泄露風險,而不是無視它們繼續干活。

排行榜:最強模型剛過半,國產模型擠進前三

截至 2026 年 4 月 1 日,WildClawBench 已評測 14 個前沿模型,結果如下:



圖 5:Leaderboard。我們評測了國內外共 14 個前沿模型

幾個值得注意的發現:

  • 分數天花板很低:排名第一的 Claude Opus 4.6 剛過 51 分,可見雖然日常的任務但是真實的環境還是讓 AI Agent 為難的,這個 benchmark 短期內不會被「刷爆」,分數的區分度很高;
  • 性價比差異懸殊:Claude Opus 4.6 跑一次的平均花費超過 80 美元,GPT-5.4 只要 20 美元但只落后 1.3 個百分點。在成本敏感的場景下,「最貴的」未必是最優選擇;
  • 國產模型集體亮相,智譜 GLM 5 拿下探花:14 個參評模型中有 9 個來自中國團隊,智譜 AI 的 GLM 5 以 42.6% 拿下總榜第三,是唯一進入前三的國產模型,力壓 Google DeepMind 的 Gemini 3.1 Pro,而且花費僅 $11.39—— 不到 Claude Opus 4.6 的七分之一。小米 MiMo V2 Pro(40.2%)緊隨其后排名第五,同樣超過了 Gemini。國產模型在 Agent 端到端能力上的追趕速度,比很多人預想的要快。



圖 6:子類別雷達圖。我們展示了六個類別下模型的得分,發現不同模型有各自不同的擅長領域。

「養龍蝦」排行榜:你的 AI 助手比我的強嗎?

WildClawBench 還有一個有趣的延伸:個人 OpenClaw 排行榜。

在 OpenClaw 社區里,「養龍蝦」已經成了一種現象:用戶持續給自己的 AI 助手教新技能、定制人格、積累長期記憶。一個自然而然的問題是:誰的龍蝦更厲害?

WildClawBench 允許用戶把自己精心調教的 OpenClaw 工作區(包括 SOUL.md、MEMORY.md、自定義技能等)提交到同一套 60 道題上跑分。跑完把結果發到指定郵箱,就能上排行榜。

這不僅僅是比個高低,它能幫助社區理解,在同一個底座模型上,哪些 harness,技能組合、人格設定和記憶策略真的能提升 Agent 的任務完成率。

開源,可復現,歡迎貢獻

WildClawBench 采用 MIT 開源協議,全部 60 道任務的 markdown 定義、評分代碼、Docker 鏡像和數據集均已公開。

項目還提供了任務模板,社區可以按照統一格式貢獻新任務。每道任務自帶自動評分腳本,支持一鍵批量評測。

當最強 AI Agent 的最高分還不到 60 分,我們離真正可靠的 AI 助手還有多遠?至少現在有了一把刻度清晰的尺子。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中央定調!6月1號起全國統一執行,家家戶戶用水迎來7個變化

中央定調!6月1號起全國統一執行,家家戶戶用水迎來7個變化

小談食刻美食
2026-04-12 09:53:34
美方將封鎖霍爾木茲海峽,中方表態

美方將封鎖霍爾木茲海峽,中方表態

魯中晨報
2026-04-13 16:20:14
雷軍曬小米員工運動會,被吐槽:“周末辦活動,占用休息時間”

雷軍曬小米員工運動會,被吐槽:“周末辦活動,占用休息時間”

歪歌社團
2026-04-12 01:34:22
哈工大發現:能抗擊慢性炎癥的行為,不是運動而是這8個生活方式

哈工大發現:能抗擊慢性炎癥的行為,不是運動而是這8個生活方式

橘子約定
2025-11-21 09:42:00
中國U20女足主帥貝爾:帶我的姑娘們晉級世界杯是我的任務

中國U20女足主帥貝爾:帶我的姑娘們晉級世界杯是我的任務

懂球帝
2026-04-13 16:49:16
活久見!網傳廣東一租客將價值30元沙金項鏈留屋,房東爽快退押金

活久見!網傳廣東一租客將價值30元沙金項鏈留屋,房東爽快退押金

阿離家居
2026-04-13 12:18:26
協議即將達成,28國聯手對付中國,名單公開,沒一個善茬

協議即將達成,28國聯手對付中國,名單公開,沒一個善茬

溫讀史
2026-04-13 10:56:29
兩位火箭舊將同時登陸CBA!戴申入山西 托弗簽深圳

兩位火箭舊將同時登陸CBA!戴申入山西 托弗簽深圳

體壇周報
2026-04-13 15:28:13
2-1加時絕殺!門將失誤致出局 亞洲杯“東亞內戰” 朝鮮半對手已定

2-1加時絕殺!門將失誤致出局 亞洲杯“東亞內戰” 朝鮮半對手已定

林子說事
2026-04-13 10:29:42
南京路賣了110億,誰最該反思

南京路賣了110億,誰最該反思

石辰搞笑日常
2026-04-13 08:06:02
微軟把219刀的Office砍到50刀,Mac用戶集體破防了

微軟把219刀的Office砍到50刀,Mac用戶集體破防了

摸魚算法
2026-04-13 17:54:47
河南知名景區,一游客持大刀互動砸到演員頭部,演員回應:是不小心誤傷,打了破傷風針已恢復演出

河南知名景區,一游客持大刀互動砸到演員頭部,演員回應:是不小心誤傷,打了破傷風針已恢復演出

環球網資訊
2026-04-12 09:10:48
匈牙利選舉落幕:歐爾班承認大敗!俄羅斯再輸一城

匈牙利選舉落幕:歐爾班承認大敗!俄羅斯再輸一城

項鵬飛
2026-04-13 16:09:46
馬斯克推出的西方微信官宣上線,主打端對端加密、無廣告、無追蹤;此前曾多次公開稱贊中國微信的便捷性,想在西方復制一個類似的產品

馬斯克推出的西方微信官宣上線,主打端對端加密、無廣告、無追蹤;此前曾多次公開稱贊中國微信的便捷性,想在西方復制一個類似的產品

瀟湘晨報
2026-04-13 15:18:41
天津市區第二座大型摩天輪,即將亮相!

天津市區第二座大型摩天輪,即將亮相!

天津人
2026-04-13 14:56:31
海灣國家人口激增背后的隱秘真相

海灣國家人口激增背后的隱秘真相

烽火瞭望者
2026-04-13 06:13:21
中國計劃向伊朗提供武器?外交部回應

中國計劃向伊朗提供武器?外交部回應

南方都市報
2026-04-13 17:03:10
這一晚,中國男籃的體面,終于被改年齡撕了個粉碎

這一晚,中國男籃的體面,終于被改年齡撕了個粉碎

五姑娘臺球
2026-04-12 22:32:24
聊聊寧波牛馬月薪真實水平,除了吹牛逼的,超過8000你就超過

聊聊寧波牛馬月薪真實水平,除了吹牛逼的,超過8000你就超過

時尚的弄潮
2026-04-13 17:13:36
復旦大學研究:我國財政供養人員6846萬,其中退休人員占四成!

復旦大學研究:我國財政供養人員6846萬,其中退休人員占四成!

黯泉
2026-04-09 17:27:59
2026-04-13 18:55:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12751文章數 142624關注度
往期回顧 全部

科技要聞

"抄作業"近四年,馬斯克版微信周五上線

頭條要聞

特朗普"罕見承認"政治后果 被指考慮恢復對伊有限打擊

頭條要聞

特朗普"罕見承認"政治后果 被指考慮恢復對伊有限打擊

體育要聞

一支球隊不夠爛,也是一種悲哀

娛樂要聞

賈玲減重后現身馮鞏生日宴 身材未反彈

財經要聞

起底AI"造黃"灰產:19.9元"一鍵脫衣"

汽車要聞

不止命名更純粹 領克10/10+要做純電操控新王

態度原創

健康
時尚
房產
藝術
本地

干細胞抗衰4大誤區,90%的人都中招

這些才是普通人借鑒的穿搭!上短下長、上窄下寬,顯瘦又舒適

房產要聞

6000億投資盛宴,全球巨頭齊聚,海南又要干件大事!

藝術要聞

22位中國當代名家油畫作品

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

無障礙瀏覽 進入關懷版