337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 開始打工了:最新“龍蝦排行榜”,誰最會干活?

0
分享至


過去兩年,AI 圈討論最多的一件事,其實很簡單:哪個模型更聰明。

誰的推理更強,誰的考試分數(shù)更高,誰又刷新了哪個榜單。

但到了 2026 年,大家不太關(guān)心誰更聰明了,反而開始問一個更現(xiàn)實的問題:哪個模型更會干活?


隨著 OpenClaw 這類 Agent 框架開始爆火,越來越多開發(fā)者不再只是和 AI 聊天,而是讓大模型真正接管任務(wù)。

寫代碼、查資料、處理郵件、整理文件、調(diào)用 API,甚至自己拆解復雜流程,一步一步把事情做完。

在開發(fā)者圈子里,這事還有個特別形象的說法:養(yǎng)龍蝦

把模型接進 Agent 框架,就像往水箱里放一只龍蝦,讓它自己在里面跑任務(wù)、調(diào)工具、折騰工作流,看它到底能不能把活干明白。


那到底哪款大模型,最適合拿來“養(yǎng)龍蝦”?

最近,OpenClaw創(chuàng)始人 Peter Steinberger 發(fā)布了一份名為 PinchBench 的基準測試榜單。


一口氣實測了 32 個主流大模型,從成功率、速度和成本三個維度做了完整對比。


這也成了目前第一份專門針對 Agent 任務(wù)的,“龍蝦大模型排行榜”。

而榜單一出來,很多人第一反應(yīng)都是:這排名,好像有點出乎意料。

從成功率來看,榜單第一名并不是大家常提到的“新模型”,而是 Anthropic 的旗艦?zāi)P?Claude Opus 4.6 。

它在 PinchBench 里的任務(wù)成功率達到了 82.5%


緊隨其后的,是 Claude Opus 4.5 ,成功率 81.3%。第三名則是谷歌的 Gemini 3.1 Pro Preview ,成功率 81.1%

前三名基本都處在 80% 以上的成功率區(qū)間,差距非常小。

但更有意思的是接下來的排名,第四名是 Claude Sonnet 4 ,成功率 80.5%

第五名則是國產(chǎn)模型 Kimi K2.5 ,成功率 80.1%。第六名是另一款國產(chǎn)模型 MiniMax M2.1 ,成功率 79.5%

換句話說,在最核心的成功率指標里,國產(chǎn)模型已經(jīng)穩(wěn)穩(wěn)進入第一梯隊

但有些模型的排名就有點出人意料了。例如 OpenAI 的新模型 GPT-5.4,成功率只有 78%,排在榜單第九。


而不少開發(fā)者平時常用的 GPT-4o ,成功率甚至只有 56.3%,排在榜單倒數(shù)。

這其實說明了一件很重要的事情:傳統(tǒng)的大模型排行榜,并不能很好預測 AI 在 Agent 任務(wù)里的表現(xiàn)。

過去很多榜單本質(zhì)上是“考試模式”,比如知識問答、數(shù)學推理、代碼題,只要模型給出正確答案就算完成任務(wù)。

但在 Agent 系統(tǒng)里,AI 要做的事情完全不同,它不僅要理解指令,還要自己拆解任務(wù)、調(diào)用工具、讀取文件、生成中間結(jié)果、執(zhí)行多步驟操作。


如果中間任何一步出錯,整個任務(wù)就可能失敗。

換句話說,Agent 任務(wù)測試的不是模型“會不會答題”,而是它能不能真的像一個數(shù)字員工一樣把事情一步一步做完。

從 PinchBench 的結(jié)果來看,還有一個非常明顯的趨勢:在 Agent 場景里,模型越大并不一定越好。

很多中型模型反而更穩(wěn)定,因為它們推理速度更快、思考路徑更短,在多步驟工作流中不容易“迷路”。

比如排名靠前的 Claude Sonnet 4 和 MiniMax M2.1 ,其實都不是各家公司體量最大的模型版本,但在真實任務(wù)中表現(xiàn)非常穩(wěn)。

這也意味著大模型正在出現(xiàn)一種新的分工:旗艦?zāi)P拓撠熣故緲O限能力,而中型模型開始承擔真正的生產(chǎn)任務(wù)。

當然,說到養(yǎng)龍蝦,還有一個所有開發(fā)者都繞不開的問題“成本”。


因為 Agent 系統(tǒng)遠比普通聊天更燒 Token,模型需要反復思考、生成中間步驟、調(diào)用工具,一次完整任務(wù)的 Token 消耗可能是普通對話的幾倍甚至十幾倍。


之前在一次 OpenClaw 開發(fā)者聚會上,就有人分享過自己的使用賬單:每個月光 Token 費用就要 1000 到 2000 美元,還有一位更夸張的玩家每天消耗 10 億 Token。


所以現(xiàn)在開發(fā)者圈里流行一句玩笑話:安裝 OpenClaw 很便宜,養(yǎng)龍蝦很貴。

不過說到底,PinchBench 這份榜單最大的價值,其實也不只是排個名次。


它等于是第一次比較系統(tǒng)地回答了一個 Agent 時代很現(xiàn)實的問題:當AI真的開始出來打工了,我們到底該給它配哪種“大腦”?

更有意思的是,這背后其實反映出 AI 行業(yè)正在發(fā)生的一點小變化。以前大家評價 AI,很像在看考試成績,誰分數(shù)高、誰榜單第一、誰又刷新紀錄。

但現(xiàn)在慢慢不一樣了,大家開始看的是另一件事:它到底能不能把活干完。

換句話說,AI 不再只是一個會聊天、會寫幾段文字的工具,而是越來越像一個可以被安排任務(wù)的數(shù)字員工。

所以現(xiàn)在開發(fā)者見面寒暄,很多時候都不是在問“你用哪個模型”,而是換成了一句更接地氣的話:

你現(xiàn)在養(yǎng)了幾只龍蝦?

參考資料:

OpenClaw、X、新智元等等

編輯: 不吃麥芽糖


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
75歲張紀中四胎再當?shù)?44歲杜星霖曾直言體力太好,晚上根本睡不好

75歲張紀中四胎再當?shù)?44歲杜星霖曾直言體力太好,晚上根本睡不好

八卦王者
2026-03-20 14:08:31
震撼!樓下潮汕夫妻生三胎,現(xiàn)備戰(zhàn)第四胎!網(wǎng)友發(fā)帖,引爆評論區(qū)

震撼!樓下潮汕夫妻生三胎,現(xiàn)備戰(zhàn)第四胎!網(wǎng)友發(fā)帖,引爆評論區(qū)

火山詩話
2026-03-20 07:42:42
一圖看懂|為何美軍害怕伊朗布設(shè)水雷?

一圖看懂|為何美軍害怕伊朗布設(shè)水雷?

澎湃新聞
2026-03-14 07:32:27
“一半中國男性活不過67.7歲”刷屏,真相比數(shù)字更荒誕!

“一半中國男性活不過67.7歲”刷屏,真相比數(shù)字更荒誕!

網(wǎng)絡(luò)辟謠
2026-03-19 13:45:03
江西情侶分手引爆全網(wǎng)!男生怒曬2.8萬PPT,連私密記錄都公開了

江西情侶分手引爆全網(wǎng)!男生怒曬2.8萬PPT,連私密記錄都公開了

行者聊官
2026-03-19 16:44:44
以方:伊朗權(quán)力核心人物被擊斃!

以方:伊朗權(quán)力核心人物被擊斃!

Nee看
2026-03-17 16:48:23
字節(jié)超60億美元出售沐瞳科技,進一步聚焦AI戰(zhàn)略

字節(jié)超60億美元出售沐瞳科技,進一步聚焦AI戰(zhàn)略

界面新聞
2026-03-20 15:39:54
商務(wù)部部長會見蘋果CEO庫克,庫克稱中國對蘋果重要性不言而喻

商務(wù)部部長會見蘋果CEO庫克,庫克稱中國對蘋果重要性不言而喻

PChome電腦之家
2026-03-20 18:29:32
四川省紀委監(jiān)委:2人主動投案接受審查調(diào)查

四川省紀委監(jiān)委:2人主動投案接受審查調(diào)查

金臺資訊
2026-03-20 15:49:28
背靠背三雙又刷6紀錄!41歲詹皇19+15+10蓋世里程碑 復出5戰(zhàn)全勝

背靠背三雙又刷6紀錄!41歲詹皇19+15+10蓋世里程碑 復出5戰(zhàn)全勝

顏小白的籃球夢
2026-03-20 10:48:51
別再交有線電視費了2026年國家免費電視覆蓋98.2%家里有這根線看

別再交有線電視費了2026年國家免費電視覆蓋98.2%家里有這根線看

另子維愛讀史
2026-03-16 22:16:43
手表保值率排行榜,這6個品牌竟然越戴越值錢!

手表保值率排行榜,這6個品牌竟然越戴越值錢!

錯過美好
2026-03-20 14:27:11
315過去剛3天,又一大品牌暴雷,國家出手重罰,根本不配得到同情

315過去剛3天,又一大品牌暴雷,國家出手重罰,根本不配得到同情

興史興談
2026-03-19 17:06:15
暴跌93%,理想失控了!

暴跌93%,理想失控了!

財經(jīng)三分鐘pro
2026-03-18 19:04:41
注意!這種“毒王”已出現(xiàn),1朵就能毒死1個成年人

注意!這種“毒王”已出現(xiàn),1朵就能毒死1個成年人

番禺臺
2026-03-20 12:41:20
一夜?jié)q超20%,有商家暫停接單!很多人慌了:大漲幅要來了?最近正是剛需

一夜?jié)q超20%,有商家暫停接單!很多人慌了:大漲幅要來了?最近正是剛需

上觀新聞
2026-03-20 10:28:17
美財長直言:伊朗政權(quán)要崩潰!內(nèi)部叛逃、資金外逃,已從根上爛透

美財長直言:伊朗政權(quán)要崩潰!內(nèi)部叛逃、資金外逃,已從根上爛透

老馬拉車莫少裝
2026-03-20 11:01:21
中央公布重要文件,養(yǎng)老金調(diào)整方向明確,工齡30年以上多漲錢嗎?

中央公布重要文件,養(yǎng)老金調(diào)整方向明確,工齡30年以上多漲錢嗎?

有范又有料
2026-03-20 10:34:36
“民警全程都在憋笑”,6歲男孩報警抓媽媽,4個民警上門了解情況

“民警全程都在憋笑”,6歲男孩報警抓媽媽,4個民警上門了解情況

江山揮筆
2026-03-20 12:17:14
西甲盛世!10年后再現(xiàn)一奇觀:6隊殺入歐戰(zhàn)8強 英超5隊自嘆不如

西甲盛世!10年后再現(xiàn)一奇觀:6隊殺入歐戰(zhàn)8強 英超5隊自嘆不如

風過鄉(xiāng)
2026-03-20 07:26:02
2026-03-20 18:56:49
科技狐 incentive-icons
科技狐
一家專注科技互聯(lián)網(wǎng)領(lǐng)域,每日分享科技、數(shù)碼、汽車、商業(yè)、TMT、AI 的新媒體。
5424文章數(shù) 70867關(guān)注度
往期回顧 全部

科技要聞

新SU7只漲4千!雷軍:真怕交車慢挨罵

頭條要聞

母親帶1歲兒子看病如廁時把娃交人照看 兒子失蹤36年

頭條要聞

母親帶1歲兒子看病如廁時把娃交人照看 兒子失蹤36年

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典,“沈馬”CP再合體

財經(jīng)要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅定

態(tài)度原創(chuàng)

家居
教育
健康
時尚
房產(chǎn)

家居要聞

時空交織 空間綺夢

教育要聞

專家建議:別讓虛擬朋友取代真實陪伴

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

想買能穿十年的衣服?可以看看她們構(gòu)建衣櫥的思路

房產(chǎn)要聞

三亞安居房,悄悄爆了!

無障礙瀏覽 進入關(guān)懷版