337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司

<dd id="8uuuu"><optgroup id="8uuuu"></optgroup></dd>

<tfoot id="8uuuu"><dd id="8uuuu"></dd></tfoot>

<nav id="8uuuu"><sup id="8uuuu"></sup></nav>

<nav id="8uuuu"></nav>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI 開始打工了：最新“龍蝦排行榜”，誰最會干活？

2026-03-11 22:33:39　來源: 科技狐

廣東舉報

0

分享至

過去兩年，AI 圈討論最多的一件事，其實很簡單：哪個模型更聰明。

誰的推理更強，誰的考試分數(shù)更高，誰又刷新了哪個榜單。

但到了 2026 年，大家不太關(guān)心誰更聰明了，反而開始問一個更現(xiàn)實的問題：哪個模型更會干活？

隨著 OpenClaw 這類 Agent 框架開始爆火，越來越多開發(fā)者不再只是和 AI 聊天，而是讓大模型真正接管任務(wù)。

寫代碼、查資料、處理郵件、整理文件、調(diào)用 API，甚至自己拆解復雜流程，一步一步把事情做完。

在開發(fā)者圈子里，這事還有個特別形象的說法：養(yǎng)龍蝦。

把模型接進 Agent 框架，就像往水箱里放一只龍蝦，讓它自己在里面跑任務(wù)、調(diào)工具、折騰工作流，看它到底能不能把活干明白。

那到底哪款大模型，最適合拿來“養(yǎng)龍蝦”？

最近，OpenClaw創(chuàng)始人 Peter Steinberger 發(fā)布了一份名為 PinchBench 的基準測試榜單。

一口氣實測了 32 個主流大模型，從成功率、速度和成本三個維度做了完整對比。

這也成了目前第一份專門針對 Agent 任務(wù)的，“龍蝦大模型排行榜”。

而榜單一出來，很多人第一反應(yīng)都是：這排名，好像有點出乎意料。

從成功率來看，榜單第一名并不是大家常提到的“新模型”，而是 Anthropic 的旗艦?zāi)Ｐ?Claude Opus 4.6 。

它在 PinchBench 里的任務(wù)成功率達到了 82.5%。

緊隨其后的，是 Claude Opus 4.5 ，成功率 81.3%。第三名則是谷歌的 Gemini 3.1 Pro Preview ，成功率 81.1%。

前三名基本都處在 80% 以上的成功率區(qū)間，差距非常小。

但更有意思的是接下來的排名，第四名是 Claude Sonnet 4 ，成功率 80.5%。

第五名則是國產(chǎn)模型 Kimi K2.5 ，成功率 80.1%。第六名是另一款國產(chǎn)模型 MiniMax M2.1 ，成功率 79.5%。

換句話說，在最核心的成功率指標里，國產(chǎn)模型已經(jīng)穩(wěn)穩(wěn)進入第一梯隊。

但有些模型的排名就有點出人意料了。例如 OpenAI 的新模型 GPT-5.4，成功率只有 78%，排在榜單第九。

而不少開發(fā)者平時常用的 GPT-4o ，成功率甚至只有 56.3%，排在榜單倒數(shù)。

這其實說明了一件很重要的事情：傳統(tǒng)的大模型排行榜，并不能很好預測 AI 在 Agent 任務(wù)里的表現(xiàn)。

過去很多榜單本質(zhì)上是“考試模式”，比如知識問答、數(shù)學推理、代碼題，只要模型給出正確答案就算完成任務(wù)。

但在 Agent 系統(tǒng)里，AI 要做的事情完全不同，它不僅要理解指令，還要自己拆解任務(wù)、調(diào)用工具、讀取文件、生成中間結(jié)果、執(zhí)行多步驟操作。

如果中間任何一步出錯，整個任務(wù)就可能失敗。

換句話說，Agent 任務(wù)測試的不是模型“會不會答題”，而是它能不能真的像一個數(shù)字員工一樣把事情一步一步做完。

從 PinchBench 的結(jié)果來看，還有一個非常明顯的趨勢：在 Agent 場景里，模型越大并不一定越好。

很多中型模型反而更穩(wěn)定，因為它們推理速度更快、思考路徑更短，在多步驟工作流中不容易“迷路”。

比如排名靠前的 Claude Sonnet 4 和 MiniMax M2.1 ，其實都不是各家公司體量最大的模型版本，但在真實任務(wù)中表現(xiàn)非常穩(wěn)。

這也意味著大模型正在出現(xiàn)一種新的分工：旗艦?zāi)Ｐ拓撠熣故緲O限能力，而中型模型開始承擔真正的生產(chǎn)任務(wù)。

當然，說到養(yǎng)龍蝦，還有一個所有開發(fā)者都繞不開的問題“成本”。

因為 Agent 系統(tǒng)遠比普通聊天更燒 Token，模型需要反復思考、生成中間步驟、調(diào)用工具，一次完整任務(wù)的 Token 消耗可能是普通對話的幾倍甚至十幾倍。

之前在一次 OpenClaw 開發(fā)者聚會上，就有人分享過自己的使用賬單：每個月光 Token 費用就要 1000 到 2000 美元，還有一位更夸張的玩家每天消耗 10 億 Token。

所以現(xiàn)在開發(fā)者圈里流行一句玩笑話：安裝 OpenClaw 很便宜，養(yǎng)龍蝦很貴。

不過說到底，PinchBench 這份榜單最大的價值，其實也不只是排個名次。

它等于是第一次比較系統(tǒng)地回答了一個 Agent 時代很現(xiàn)實的問題：當AI真的開始出來打工了，我們到底該給它配哪種“大腦”？

更有意思的是，這背后其實反映出 AI 行業(yè)正在發(fā)生的一點小變化。以前大家評價 AI，很像在看考試成績，誰分數(shù)高、誰榜單第一、誰又刷新紀錄。

但現(xiàn)在慢慢不一樣了，大家開始看的是另一件事：它到底能不能把活干完。

換句話說，AI 不再只是一個會聊天、會寫幾段文字的工具，而是越來越像一個可以被安排任務(wù)的數(shù)字員工。

所以現(xiàn)在開發(fā)者見面寒暄，很多時候都不是在問“你用哪個模型”，而是換成了一句更接地氣的話：

你現(xiàn)在養(yǎng)了幾只龍蝦？

參考資料：

OpenClaw、X、新智元等等

編輯： 不吃麥芽糖

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

從能力到商品：Skills市場正在重塑開發(fā)者的生產(chǎn)方式

36氪 2026-03-20 10:24:05
12 跟貼 12
OpenAI閃電吞下Astral！Python開發(fā)者工具鏈淪陷，AI要住進你的終端

新智元 2026-03-20 12:05:13
0 跟貼 0

對話易點天下：Agent與過去有本質(zhì)區(qū)別，安全風險不在于模型微調(diào)，而在于模型選擇

鈦媒體APP 2026-03-20 14:27:07
0 跟貼 0

2026 奇點智能技術(shù)大會重磅專題內(nèi)容揭曉！

鈦媒體APP 2026-03-20 18:30:16
0 跟貼 0
這款上海產(chǎn)的龍蝦，最容易上手，一手體驗來了

智東西 2026-03-20 11:50:44
0 跟貼 0

“龍蝦熱”的背后，技術(shù)民主化與風險并存

鈦媒體APP 2026-03-11 11:50:14
0 跟貼 0

VLMgineer讓大模型自己「發(fā)明工具」，從設(shè)計到使用全自動

機器之心Pro 2026-03-20 14:15:17
0 跟貼 0
MoGraphGPT：基于模塊化大模型與圖形控制的2D交互場景創(chuàng)作

機器之心Pro 2026-03-20 17:17:16
0 跟貼 0

華為云CEO周躍峰：模型競爭的核心勝負手已然轉(zhuǎn)向“后訓練”

華爾街見聞官方 2026-03-20 18:37:01
0 跟貼 0
“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權(quán)，山西壺口瀑布景區(qū)：事發(fā)地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
38938 跟貼 38938
官方文件公布養(yǎng)老金調(diào)整，1960年前出生真的能漲更多嗎

慧眼看世界哈哈 2026-03-19 05:29:16
0 跟貼 0
重慶市市長胡衡華，被查

新京報政事兒 2026-03-20 14:09:55
329 跟貼 329
Cursor自研模型反超Opus 4.6！價格腳踝斬，氛圍編程沸騰了

量子位 2026-03-20 12:07:45
3 跟貼 3
MiniMax M2.7國服第一！龍蝦自我進化，海外開發(fā)者瘋狂刷屏

新智元 2026-03-20 17:09:14
0 跟貼 0
搞不懂Skills？看看Claude Code內(nèi)部工程師們是怎么玩的

機器之心Pro 2026-03-20 14:21:04
0 跟貼 0
當紅女星熱度排行榜看看上榜的都有誰？

層層迷霧 2026-03-20 01:43:30
0 跟貼 0
偶遇前男友！妻子送文件意外重逢，領(lǐng)導竟不知情

霧以淚聚i 2026-03-20 06:52:32
0 跟貼 0
AWE2026專題總結(jié)欄目上線！悟空10分鐘生成，歡迎訪問

雷科技 2026-03-20 11:54:56
0 跟貼 0
真14厘米？896線的問界M9極限實測，誰被打臉了？

車壹圈 2026-03-19 15:44:34
7 跟貼 7
養(yǎng)蝦不踩坑：斷網(wǎng)也能跑的真·本地龍蝦來了

智東西 2026-03-19 16:52:14
0 跟貼 0
上海百年老店官宣閉店！曾經(jīng)去吃頓飯可要一大早就排長隊，承載了幾代人的記憶，不少阿姨爺叔的“第一次”

上觀新聞 2026-03-18 17:41:49
919 跟貼 919
湘雅醫(yī)院，緊急召開研究生導師會議

第一財經(jīng)資訊 2026-03-19 23:45:04
635 跟貼 635
如何早期發(fā)現(xiàn)腎臟損傷？記住這3個指標#女神健康守護計劃

賈帥軍醫(yī)生 2026-03-19 08:04:23
0 跟貼 0
制作的廢油爐模型超級省錢

制造科技 2026-03-19 12:31:03
0 跟貼 0
眼睛最小的10位男明星排行榜意外的是他們還都非常的帥氣！

聚焦光輝與陰暗 2026-03-20 06:17:47
1 跟貼 1
小云雀短劇Agent上線：讓人眼前一亮又一亮

短劇內(nèi)行人 2026-03-20 15:28:33
0 跟貼 0
才播6集，就沖上榜單第一，終于又有好劇可以追了！

小彭美識 2026-03-18 20:14:29
0 跟貼 0
目標是干掉美版特斯拉？智己開辟整車智能新路線

中安在線 2026-03-20 17:50:26
0 跟貼 0
2月轎車銷量排行榜出爐！日系下滑，新能源遇冷！

卑微在線求錘 2026-03-20 10:23:59
0 跟貼 0
想玩機械模型？這個能發(fā)動！#金屬拼裝 #V12發(fā)動機

制造科技 2026-03-19 23:00:29
0 跟貼 0
血壓高、血管狹窄，每天吃6種藥，“指標正常，病情一點沒好轉(zhuǎn)”

中醫(yī)內(nèi)科周立華 2026-03-19 17:15:25
0 跟貼 0
OpenClaw將在B站進行中國首次直播，現(xiàn)場演示十萬只小龍蝦模型集群

量子位 2026-03-20 04:40:54
0 跟貼 0
智己發(fā)布IM Ultra Agent讓你擁有專屬AI司機助理

車視界科技 2026-03-19 09:42:20
3 跟貼 3
實測小云雀短劇Agent：一鍵成片將如何重塑行業(yè)生產(chǎn)模式？

文娛價值官 2026-03-20 17:09:46
0 跟貼 0
智己汽車發(fā)布AI超級智能體“IM Ultra Agent”

界面新聞 2026-03-19 19:00:08
0 跟貼 0
有人造夢，有人做連接，追覓做什么？

虎嗅APP 2026-03-20 17:08:25
0 跟貼 0
本世紀僅有三次！春分巧遇“龍?zhí)ь^”，這些事別忘了做

齊魯壹點 2026-03-20 06:49:31
916 跟貼 916
這顆星能吞下整個太陽系！科學家發(fā)現(xiàn)宇宙尺寸極限

黑科技在身邊 2026-03-18 19:04:56
6 跟貼 6
男子等紅燈時遇到車禍，回頭瞬間極限走位躲避

970水果糖 2026-03-20 04:17:20
0 跟貼 0
午評：創(chuàng)業(yè)板指半日漲超3% 儲能、算力硬件方向集體走強

財聯(lián)社 2026-03-20 11:32:19
226 跟貼 226

75歲張紀中四胎再當?shù)?44歲杜星霖曾直言體力太好,晚上根本睡不好

75歲張紀中四胎再當?shù)?44歲杜星霖曾直言體力太好,晚上根本睡不好

八卦王者

2026-03-20 14:08:31

震撼！樓下潮汕夫妻生三胎，現(xiàn)備戰(zhàn)第四胎！網(wǎng)友發(fā)帖，引爆評論區(qū)

震撼！樓下潮汕夫妻生三胎，現(xiàn)備戰(zhàn)第四胎！網(wǎng)友發(fā)帖，引爆評論區(qū)

火山詩話

2026-03-20 07:42:42

一圖看懂｜為何美軍害怕伊朗布設(shè)水雷？

一圖看懂｜為何美軍害怕伊朗布設(shè)水雷？

澎湃新聞

2026-03-14 07:32:27

“一半中國男性活不過67.7歲”刷屏，真相比數(shù)字更荒誕！

“一半中國男性活不過67.7歲”刷屏，真相比數(shù)字更荒誕！

網(wǎng)絡(luò)辟謠

2026-03-19 13:45:03

江西情侶分手引爆全網(wǎng)！男生怒曬2.8萬PPT，連私密記錄都公開了

江西情侶分手引爆全網(wǎng)！男生怒曬2.8萬PPT，連私密記錄都公開了

行者聊官

2026-03-19 16:44:44

以方：伊朗權(quán)力核心人物被擊斃！

以方：伊朗權(quán)力核心人物被擊斃！

Nee看

2026-03-17 16:48:23

字節(jié)超60億美元出售沐瞳科技，進一步聚焦AI戰(zhàn)略

字節(jié)超60億美元出售沐瞳科技，進一步聚焦AI戰(zhàn)略

界面新聞

2026-03-20 15:39:54

商務(wù)部部長會見蘋果CEO庫克，庫克稱中國對蘋果重要性不言而喻

商務(wù)部部長會見蘋果CEO庫克，庫克稱中國對蘋果重要性不言而喻

PChome電腦之家

2026-03-20 18:29:32

四川省紀委監(jiān)委：2人主動投案接受審查調(diào)查

四川省紀委監(jiān)委：2人主動投案接受審查調(diào)查

金臺資訊

2026-03-20 15:49:28

背靠背三雙又刷6紀錄！41歲詹皇19+15+10蓋世里程碑復出5戰(zhàn)全勝

背靠背三雙又刷6紀錄！41歲詹皇19+15+10蓋世里程碑復出5戰(zhàn)全勝

顏小白的籃球夢

2026-03-20 10:48:51

別再交有線電視費了2026年國家免費電視覆蓋98.2%家里有這根線看

別再交有線電視費了2026年國家免費電視覆蓋98.2%家里有這根線看

另子維愛讀史

2026-03-16 22:16:43

手表保值率排行榜，這6個品牌竟然越戴越值錢！

手表保值率排行榜，這6個品牌竟然越戴越值錢！

錯過美好

2026-03-20 14:27:11

315過去剛3天，又一大品牌暴雷，國家出手重罰，根本不配得到同情

315過去剛3天，又一大品牌暴雷，國家出手重罰，根本不配得到同情

興史興談

2026-03-19 17:06:15

暴跌93%，理想失控了！

財經(jīng)三分鐘pro

2026-03-18 19:04:41

注意！這種“毒王”已出現(xiàn)，1朵就能毒死1個成年人

注意！這種“毒王”已出現(xiàn)，1朵就能毒死1個成年人

番禺臺

2026-03-20 12:41:20

一夜?jié)q超20%，有商家暫停接單！很多人慌了：大漲幅要來了？最近正是剛需

一夜?jié)q超20%，有商家暫停接單！很多人慌了：大漲幅要來了？最近正是剛需

上觀新聞

2026-03-20 10:28:17

美財長直言：伊朗政權(quán)要崩潰！內(nèi)部叛逃、資金外逃，已從根上爛透

美財長直言：伊朗政權(quán)要崩潰！內(nèi)部叛逃、資金外逃，已從根上爛透

老馬拉車莫少裝

2026-03-20 11:01:21

中央公布重要文件，養(yǎng)老金調(diào)整方向明確，工齡30年以上多漲錢嗎？

中央公布重要文件，養(yǎng)老金調(diào)整方向明確，工齡30年以上多漲錢嗎？

有范又有料

2026-03-20 10:34:36

“民警全程都在憋笑”，6歲男孩報警抓媽媽，4個民警上門了解情況

“民警全程都在憋笑”，6歲男孩報警抓媽媽，4個民警上門了解情況

江山揮筆

2026-03-20 12:17:14

西甲盛世！10年后再現(xiàn)一奇觀：6隊殺入歐戰(zhàn)8強英超5隊自嘆不如

西甲盛世！10年后再現(xiàn)一奇觀：6隊殺入歐戰(zhàn)8強英超5隊自嘆不如

風過鄉(xiāng)

2026-03-20 07:26:02

一家專注科技互聯(lián)網(wǎng)領(lǐng)域，每日分享科技、數(shù)碼、汽車、商業(yè)、TMT、AI 的新媒體。

5424文章數(shù) 70867關(guān)注度

往期回顧全部

科技要聞

新SU7只漲4千！雷軍：真怕交車慢挨罵

頭條要聞

母親帶1歲兒子看病如廁時把娃交人照看兒子失蹤36年

頭條要聞

母親帶1歲兒子看病如廁時把娃交人照看兒子失蹤36年

體育要聞

6年前的一場悲劇，造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典，“沈馬”CP再合體

財經(jīng)要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局：每月3億的“慌”與通向L4的堅定

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

健康

時尚

房產(chǎn)

家居要聞

時空交織空間綺夢

奶棕撞色輕法輕奢風
復古格紋輕法森系風
侘寂美學無用之美

教育要聞

專家建議：別讓虛擬朋友取代真實陪伴

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

想買能穿十年的衣服？可以看看她們構(gòu)建衣櫥的思路

房產(chǎn)要聞

三亞安居房，悄悄爆了！

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關(guān)懷版

<noscript id="uuuuu"><dd id="uuuuu"></dd></noscript>

<nav id="uuuuu"><delect id="uuuuu"></delect></nav>

<noscript id="uuuuu"><dd id="uuuuu"></dd></noscript>