![]()
今天你「養(yǎng)蝦」了嗎?
開源Agent工具OpenClaw,上線4個(gè)月迅速斬獲26.2萬星標(biāo),超越Linux登頂GitHub星標(biāo)榜首。「養(yǎng)蝦」浪潮更是熱到破圈,連上門代裝這種段子都來了:
![]()
這波OpenClaw的破圈,其實(shí)正在悄悄改變大家對LLM的使用方式:過去兩年,大多數(shù)人對AI產(chǎn)品的認(rèn)知都停留在一個(gè)形態(tài)上:對話框。用戶問問題,模型回答問題。
而OpenClaw的出現(xiàn),把這個(gè)模式往前推了一步。它讓AI不再只是“聊天”,而是變成了一個(gè)可以調(diào)用工具、跨應(yīng)用執(zhí)行任務(wù)的Agent。但也因此,OpenClaw完成任務(wù)的性能表現(xiàn),會(huì)受到“后端”基座模型,和Skill技能文件的極大影響。
所以,如何「科學(xué)喂蝦」?
賽博養(yǎng)蝦指南
在OpenClaw的生態(tài)里,Agent的能力主要由兩部分決定:Skill(技能)和基座模型。因此這波潑天的流量,首先砸在了OpenClaw的核心Skill平臺(tái)ClawHub上。超過5000個(gè)社區(qū)貢獻(xiàn)的Agent Skills匯集于此,從自動(dòng)寫代碼、網(wǎng)頁操作,到數(shù)據(jù)抓取、系統(tǒng)管理,應(yīng)有盡有,瞬間成為全球AI開發(fā)者的「技能批發(fā)市場」。
![]()
國內(nèi)也有一個(gè)類似的平臺(tái)「水產(chǎn)市場」嶄露頭角。安裝甚至更為簡易:不需要你掌握命令行操作,只要復(fù)制prompt,讓已部署的OpenClaw實(shí)例自己執(zhí)行即可。
![]()
AI時(shí)代,「水產(chǎn)市場」又何嘗不是一種App Store呢?
![]()
誰是最受歡迎的「蝦腦」?
如果說Skill是OpenClaw的「觸手」,那作為后端基座的模型,就是它的「大腦」。
由于Agent任務(wù)往往擁有超長的上下文和執(zhí)行時(shí)間,這類任務(wù)對模型性能的考驗(yàn),也就尤為重度而特殊。并且用過的人都知道,它對token量的消耗,也是相當(dāng)巨大的。
Agent 和普通聊天模型最大的不同,是任務(wù)通常具備幾個(gè)特點(diǎn):
- 上下文很長
- 執(zhí)行時(shí)間很長
- 需要頻繁tool call
- token消耗巨大
![]()
作為全球最大的模型聚合平臺(tái),OpenRouter匯集了大量真實(shí)API調(diào)用數(shù)據(jù),某種程度上反映了開發(fā)者在真實(shí)任務(wù)中的模型選擇。而其中的OpenClaw作為最受歡迎的Agent,其調(diào)用排行榜更是全球龍蝦用戶在真實(shí)世界任務(wù)里,真刀真槍投票出來的「靠譜度排行」。在這個(gè)榜單里,一個(gè)來自中國的大模型團(tuán)隊(duì)——階躍星辰,用新發(fā)布的Step 3.5 Flash,穩(wěn)穩(wěn)接住了這一波又一波的「逮蝦戶」。
OpenRouter平臺(tái)數(shù)據(jù)顯示,3月4日-3月5日 ,Step 3.5 Flash持續(xù)登頂全球 OpenClaw用戶調(diào)用日榜,霸榜 “小龍蝦”全球第一!
![]()
階躍星辰 CTO朱亦博在Reddit上交了個(gè)底:這個(gè)結(jié)果并不是官方合作推動(dòng)的,更沒出現(xiàn)在OpenClaw默認(rèn)預(yù)裝的推薦模型list里——換句話說,這個(gè)成績,完全是一個(gè)個(gè)用戶手動(dòng)配置,一個(gè)個(gè)token「喂」出來的結(jié)果,是無投流動(dòng)作下用戶的自然選擇。
![]()
蝦農(nóng)老哥,在線PK
這場發(fā)生在reddit的對話,其實(shí)是階躍CEO、CTO、首席科學(xué)家等11人核心團(tuán)隊(duì),在r/LocalLLaMA板塊做的一次技術(shù)社區(qū)實(shí)時(shí)AMA(有問必答)。如果用國內(nèi)互聯(lián)網(wǎng)語境類比,大概相當(dāng)于:公司核心團(tuán)隊(duì)直接下場,和開源社區(qū)直播連麥。沒有PR稿,沒有準(zhǔn)備好的問題。開發(fā)者想問什么,就問什么。
![]()
因此,這場溝通的尺度相當(dāng)之大:有不少用戶進(jìn)來上演「大型真香現(xiàn)場」:128G內(nèi)存Mac可做本地部署,速度、性能都令人滿意。
![]()
但也有不少“尖銳的問題”。面對用戶在tool call方面遇到的問題,CTO朱亦博直接回復(fù):是我們的內(nèi)部測試用例覆蓋不足,推理框架支持方面的經(jīng)驗(yàn)也不夠,態(tài)度相當(dāng)誠懇。
![]()
在「如何讓模型保持世界知識」這種涉及到模型細(xì)節(jié)的問題上,團(tuán)隊(duì)也毫無保留地分享了他們面臨的難題和假設(shè):對于類似規(guī)模的中尺寸推理模型而言,是預(yù)訓(xùn)練階段形成的,相對封閉、缺乏知識的亞空間,在對齊階段引發(fā)了世界知識受損。
![]()
階躍研發(fā)團(tuán)隊(duì)開誠布公的態(tài)度,在此前Step 3.5 Flash詳盡的技術(shù)報(bào)告中就可以窺見,高達(dá)65頁,涵蓋模型架構(gòu)、訓(xùn)練過程中的診斷和修復(fù)機(jī)制等諸多細(xì)節(jié),甚至是模型目前仍然有待優(yōu)化的主要性能指標(biāo),和未來的技術(shù)演進(jìn)方向。
這種不回避問題、將技術(shù)細(xì)節(jié)和演進(jìn)方向“掰開揉碎”的溝通方式,有助于在硬核開發(fā)者群體中建立長期的技術(shù)信任,這也是構(gòu)建穩(wěn)固開源生態(tài)的關(guān)鍵一環(huán)。
![]()
開發(fā)者模式,啟動(dòng)!
更重磅的是,你不僅可以本地部署,甚至還能利用官方工具,在自己的數(shù)據(jù)上繼續(xù)訓(xùn)練Step 3.5 Flash,甚至,更改它的訓(xùn)練管線和模型結(jié)構(gòu)。
他們在3月4日的一次官方開源動(dòng)作中,幾乎向全世界開發(fā)者,開放了Step 3.5 Flash的「開發(fā)者模式」:與此前行業(yè)內(nèi)普遍僅公開推理權(quán)重的做法不同,階躍星辰此次開放了預(yù)訓(xùn)練/中訓(xùn)練權(quán)重,以及完整的Steptron訓(xùn)練框架,讓開發(fā)者可以真正上手打造屬于自己的Agent。
![]()
放眼整個(gè)大模型社區(qū),此次開源力度可以說相當(dāng)?shù)轿弧T谶^去的大模型開源浪潮中,絕大多數(shù)開源內(nèi)容往往只是:
?后訓(xùn)練成品模型權(quán)重
?推理示例代碼
?推理集成說明
而真正將預(yù)訓(xùn)練權(quán)重(Base)+ 中訓(xùn)練權(quán)重(mid-train)+ Steptron 全套訓(xùn)練框架(含訓(xùn)練配置、pipeline) 全面開放的案例,十分稀有。
回顧過去兩年的大模型開源浪潮,絕大多數(shù)開源項(xiàng)目主要提供的是后訓(xùn)練成品模型權(quán)重,幾乎無法二次微調(diào)(SFT),對于希望深入模型底層進(jìn)行架構(gòu)創(chuàng)新或預(yù)訓(xùn)練研究的開發(fā)者而言,依然面臨著巨大的“黑盒”壁壘。
同時(shí),由于近幾年大模型尺寸和訓(xùn)練成本的急劇膨脹,就算開放這些更深層的模型細(xì)節(jié),真正有能力和意愿去復(fù)現(xiàn)的,可能也只是競爭對手。因此在開源社區(qū)中,開放訓(xùn)練階段的權(quán)重和全套框架,是個(gè)十分少見的選擇。
從預(yù)訓(xùn)練權(quán)重到訓(xùn)練框架的全棧開源,無疑體現(xiàn)了開放協(xié)作的開源精神,社區(qū)反響熱烈,甚至有一些用戶直呼「源神」。階躍技術(shù)團(tuán)隊(duì)此舉,有望吸引更多開發(fā)者加入階躍的技術(shù)生態(tài),這也恰好呼應(yīng)了此前階躍星辰「邀請開發(fā)者共建Step 4」的承諾。
![]()
能玩能打,戰(zhàn)績可查
Step 3.5 Flash的產(chǎn)品定位,也與當(dāng)前的行業(yè)趨勢高度吻合。作為一個(gè)在設(shè)計(jì)之初就側(cè)重于 Agent 應(yīng)用的基座模型,它在極高并發(fā)(峰值可達(dá)350 TPS)和復(fù)雜任務(wù)解析上做了針對性優(yōu)化。這一特性,使它恰好切中了近期爆發(fā)的OpenClaw等現(xiàn)象級開源Agent框架的實(shí)際需求。
模型智力層面,Step 3.5 Flash同樣「戰(zhàn)績可查」,在多項(xiàng)測試中均取得了不俗成績。
benchmark
測試內(nèi)容
成績
SWE-bench Verified
修復(fù)真實(shí) GitHub bug
74.4
Terminal-Bench 2.0
操作終端完成任務(wù)
51.0
τ2-Bench
agent推理
88.2
對于 Agent 開發(fā)者來說,選擇基座模型的核心訴求,便是“低延遲、高指令遵從度和工具調(diào)用的準(zhǔn)確率”。Step 3.5 Flash 既強(qiáng)且快、便于本地部署的特性,在開源社區(qū)迅速與OpenClaw 等框架結(jié)合,爆發(fā)出了一波強(qiáng)勁的熱潮。這也證明了在真實(shí)世界任務(wù)里,模型能力與生態(tài)工具的互補(bǔ),比跑分刷榜,要更有含金量。
![]()
誰能成為「源神」?
需求是用出來的。大模型領(lǐng)域的競爭態(tài)勢,已從規(guī)模、跑分,轉(zhuǎn)移到「誰更能幫助用戶完成真實(shí)任務(wù)」這一技能和生態(tài)之爭。
隨著硬件算力不可阻擋的持續(xù)進(jìn)步,個(gè)人用戶的端側(cè)AI,正在爆發(fā)出日益增長的想象空間。業(yè)內(nèi)也早有人提出“訓(xùn)推一體”,讓模型能力不斷適應(yīng)用戶數(shù)據(jù),或是未來大模型演進(jìn)的方向之一。
![]()
階躍星辰 Step 3.5 Flash 此次的開放策略,或許能推動(dòng)「深度開源」,成為未來開源大模型新寵——學(xué)術(shù)界可以基于其訓(xùn)練框架研究 Scaling Law 的邊界,工業(yè)界可以基于其中訓(xùn)練權(quán)重開發(fā)垂直領(lǐng)域模型,愛好者則可以探索更有趣的微調(diào)玩法。
這種“基礎(chǔ)設(shè)施化”的開源,相比單純的模型開源,或許更具長遠(yuǎn)價(jià)值。
更重要的是,在整個(gè)AI和開源社區(qū),「信譽(yù)」和「真誠」,可能是和「技術(shù)力」同等重要的硬通貨。
以O(shè)penClaw為例,開源世界的諸多案例反復(fù)證明:真正長期繁榮的生態(tài),很少僅僅建立在性能優(yōu)勢之上。
![]()
開發(fā)者愿不愿意參與、社區(qū)能否持續(xù)積累、項(xiàng)目是否能夠不斷被接力推進(jìn),往往取決于另一件更樸素的事情——項(xiàng)目發(fā)起者是否足夠坦誠,是否愿意把核心能力真正交到社區(qū)手中。
當(dāng)權(quán)重、訓(xùn)練細(xì)節(jié)乃至技術(shù)路線都被擺上臺(tái)面,Step 3.5 Flash的「開發(fā)者模式」,也被真正交到了全球開源AI社區(qū)的開發(fā)者手中。開源,不再只是“發(fā)布代碼”的姿態(tài),而是一份與全球開發(fā)者「共同進(jìn)化」的契約。而這份契約的基礎(chǔ),正是信任。
在這個(gè)意義上,“源神”或許并不只是參數(shù)規(guī)模更大、跑分更高的模型,而是那個(gè)敢于把底層能力完全打開、也愿意接受社區(qū)持續(xù)檢驗(yàn)的項(xiàng)目。技術(shù)可以追趕,玩法可以復(fù)制,但真誠,很難偽裝。
而真正的“源神”,往往誕生在這種真誠之中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.