![]()
過去兩年,AI 圈討論最多的一件事,其實很簡單:哪個模型更聰明。
誰的推理更強,誰的考試分數(shù)更高,誰又刷新了哪個榜單。
但到了 2026 年,大家不太關(guān)心誰更聰明了,反而開始問一個更現(xiàn)實的問題:哪個模型更會干活?
![]()
隨著 OpenClaw 這類 Agent 框架開始爆火,越來越多開發(fā)者不再只是和 AI 聊天,而是讓大模型真正接管任務(wù)。
寫代碼、查資料、處理郵件、整理文件、調(diào)用 API,甚至自己拆解復雜流程,一步一步把事情做完。
在開發(fā)者圈子里,這事還有個特別形象的說法:養(yǎng)龍蝦。
把模型接進 Agent 框架,就像往水箱里放一只龍蝦,讓它自己在里面跑任務(wù)、調(diào)工具、折騰工作流,看它到底能不能把活干明白。
![]()
那到底哪款大模型,最適合拿來“養(yǎng)龍蝦”?
最近,OpenClaw創(chuàng)始人 Peter Steinberger 發(fā)布了一份名為 PinchBench 的基準測試榜單。
![]()
一口氣實測了 32 個主流大模型,從成功率、速度和成本三個維度做了完整對比。
![]()
這也成了目前第一份專門針對 Agent 任務(wù)的,“龍蝦大模型排行榜”。
而榜單一出來,很多人第一反應(yīng)都是:這排名,好像有點出乎意料。
從成功率來看,榜單第一名并不是大家常提到的“新模型”,而是 Anthropic 的旗艦?zāi)P?Claude Opus 4.6 。
它在 PinchBench 里的任務(wù)成功率達到了 82.5%。
![]()
緊隨其后的,是 Claude Opus 4.5 ,成功率 81.3%。第三名則是谷歌的 Gemini 3.1 Pro Preview ,成功率 81.1%。
前三名基本都處在 80% 以上的成功率區(qū)間,差距非常小。
但更有意思的是接下來的排名,第四名是 Claude Sonnet 4 ,成功率 80.5%。
第五名則是國產(chǎn)模型 Kimi K2.5 ,成功率 80.1%。第六名是另一款國產(chǎn)模型 MiniMax M2.1 ,成功率 79.5%。
換句話說,在最核心的成功率指標里,國產(chǎn)模型已經(jīng)穩(wěn)穩(wěn)進入第一梯隊。
但有些模型的排名就有點出人意料了。例如 OpenAI 的新模型 GPT-5.4,成功率只有 78%,排在榜單第九。
![]()
而不少開發(fā)者平時常用的 GPT-4o ,成功率甚至只有 56.3%,排在榜單倒數(shù)。
這其實說明了一件很重要的事情:傳統(tǒng)的大模型排行榜,并不能很好預測 AI 在 Agent 任務(wù)里的表現(xiàn)。
過去很多榜單本質(zhì)上是“考試模式”,比如知識問答、數(shù)學推理、代碼題,只要模型給出正確答案就算完成任務(wù)。
但在 Agent 系統(tǒng)里,AI 要做的事情完全不同,它不僅要理解指令,還要自己拆解任務(wù)、調(diào)用工具、讀取文件、生成中間結(jié)果、執(zhí)行多步驟操作。
![]()
如果中間任何一步出錯,整個任務(wù)就可能失敗。
換句話說,Agent 任務(wù)測試的不是模型“會不會答題”,而是它能不能真的像一個數(shù)字員工一樣把事情一步一步做完。
從 PinchBench 的結(jié)果來看,還有一個非常明顯的趨勢:在 Agent 場景里,模型越大并不一定越好。
很多中型模型反而更穩(wěn)定,因為它們推理速度更快、思考路徑更短,在多步驟工作流中不容易“迷路”。
比如排名靠前的 Claude Sonnet 4 和 MiniMax M2.1 ,其實都不是各家公司體量最大的模型版本,但在真實任務(wù)中表現(xiàn)非常穩(wěn)。
這也意味著大模型正在出現(xiàn)一種新的分工:旗艦?zāi)P拓撠熣故緲O限能力,而中型模型開始承擔真正的生產(chǎn)任務(wù)。
當然,說到養(yǎng)龍蝦,還有一個所有開發(fā)者都繞不開的問題“成本”。
![]()
因為 Agent 系統(tǒng)遠比普通聊天更燒 Token,模型需要反復思考、生成中間步驟、調(diào)用工具,一次完整任務(wù)的 Token 消耗可能是普通對話的幾倍甚至十幾倍。
![]()
之前在一次 OpenClaw 開發(fā)者聚會上,就有人分享過自己的使用賬單:每個月光 Token 費用就要 1000 到 2000 美元,還有一位更夸張的玩家每天消耗 10 億 Token。
![]()
所以現(xiàn)在開發(fā)者圈里流行一句玩笑話:安裝 OpenClaw 很便宜,養(yǎng)龍蝦很貴。
不過說到底,PinchBench 這份榜單最大的價值,其實也不只是排個名次。
![]()
它等于是第一次比較系統(tǒng)地回答了一個 Agent 時代很現(xiàn)實的問題:當AI真的開始出來打工了,我們到底該給它配哪種“大腦”?
更有意思的是,這背后其實反映出 AI 行業(yè)正在發(fā)生的一點小變化。以前大家評價 AI,很像在看考試成績,誰分數(shù)高、誰榜單第一、誰又刷新紀錄。
但現(xiàn)在慢慢不一樣了,大家開始看的是另一件事:它到底能不能把活干完。
換句話說,AI 不再只是一個會聊天、會寫幾段文字的工具,而是越來越像一個可以被安排任務(wù)的數(shù)字員工。
所以現(xiàn)在開發(fā)者見面寒暄,很多時候都不是在問“你用哪個模型”,而是換成了一句更接地氣的話:
你現(xiàn)在養(yǎng)了幾只龍蝦?
參考資料:
OpenClaw、X、新智元等等
編輯: 不吃麥芽糖
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.