![]()
![]()
智譜GLM-5驗(yàn)證了Agentic Engineering的可行性,但成本正在變得更顯性。
作者|周悅
編輯|王博
今天,智譜上線并開源GLM-5,其在Coding與Agent能力上,取得開源SOTA表現(xiàn),在真實(shí)編程場(chǎng)景的使用體感逼近 Claude Opus 4.5,擅長(zhǎng)復(fù)雜系統(tǒng)工程與長(zhǎng)程Agent任務(wù)。
![]()
在全球權(quán)威的Artificial Analysis榜單中,GLM-5位居全球第四、開源第一,圖片來源:智譜
這一發(fā)布直接刺激了資本市場(chǎng),智譜股價(jià)一度漲超41%。截至收盤,智譜股價(jià)報(bào)402港元/股,漲幅為28.68%,市值為1792.3億港元。
值得注意的是,智譜稱GLM-5為“Agentic Engineering時(shí)代最好的開源模型”。
什么是Agentic Engineering?為什么智譜要強(qiáng)調(diào)這個(gè)概念呢?
1.從“氛圍”到“工程”
如果說AI行業(yè)需要尋找一位能精準(zhǔn)捕捉技術(shù)風(fēng)向的觀測(cè)者,特斯拉前AI總監(jiān)、OpenAI創(chuàng)始成員Andrej Karpathy無疑是最佳人選。
2025年2月,他提出Vibe Coding(氛圍編碼)概念。開發(fā)者不再逐行寫代碼,而是用自然語(yǔ)言描述意圖,讓模型在一種更像即興創(chuàng)作的狀態(tài)里生成實(shí)現(xiàn)。這種體驗(yàn)帶來了一段明顯的“編程蜜月期”:生成更快、試錯(cuò)更便宜、上手更輕松。
但一年后,Karpathy拋出了一個(gè)更現(xiàn)實(shí)的概念:Agentic Engineering(代理工程)。他的關(guān)注點(diǎn)不再是單純地追求生成代碼,而是試圖讓AI交付完整的工程閉環(huán)。
從“氛圍”到“工程”的轉(zhuǎn)變,折射出一個(gè)更直觀的行業(yè)變化:寫代碼的門檻在降低,但讓模型跑完工程的門檻并沒有同步下降。
在「甲子光年」看來,要讓Agentic Engineering真的跑起來,需要滿足兩個(gè)條件:模型能力強(qiáng),成本可接受。
我們把它粗略概括為一個(gè)便于理解的表達(dá):Agentic Engineering的擴(kuò)散性 ≈ 能力閾值 × 成本閾值。
前者決定可行性,后者決定普及率。沒有足夠的智能,循環(huán)會(huì)放大錯(cuò)誤;能力足夠時(shí),成本會(huì)變成新的瓶頸。這種范式往往會(huì)更早落在預(yù)算更充足、對(duì)收斂速度更敏感的團(tuán)隊(duì)里。
今天,智譜GLM-5的發(fā)布與GLM Coding Plan價(jià)格體系調(diào)整,讓這兩個(gè)變量在同一個(gè)時(shí)間點(diǎn)上顯得更清晰。
![]()
Andrej Karpathy發(fā)布博文,圖片來源:X平臺(tái)
理解這次轉(zhuǎn)變,需要還原開發(fā)者的真實(shí)工作流。
在Vibe Coding時(shí)代,一個(gè)后端開發(fā)者使用Cursor等編程工具時(shí),典型循環(huán)往往是:人類輸入—模型輸出—人類驗(yàn)證—模型修改——人類確認(rèn)。它提高了生成效率,但沒有消除人工介入的難題。
Karpathy對(duì)此的總結(jié)很精準(zhǔn):“很好、很有趣,而且幾乎能行得通。(It was good and fun and it almost worked)”
關(guān)鍵就在“幾乎”。
當(dāng)任務(wù)開始變長(zhǎng)、上下文變復(fù)雜、回歸測(cè)試變多時(shí),人類介入的頻率并不會(huì)下降,開發(fā)者依然需要反復(fù)確認(rèn)。瓶頸逐漸從代碼生成速度轉(zhuǎn)向開發(fā)者的驗(yàn)證速度。
Agentic Engineering試圖打破的,正是這種線性依賴,讓模型把“找—改—測(cè)—再改—再測(cè)”的閉環(huán)盡量跑完,人類更多在關(guān)鍵節(jié)點(diǎn)介入,最終對(duì)結(jié)果負(fù)責(zé)。開發(fā)者的角色也隨之變化,從寫代碼的人變成更像“監(jiān)督者”。
在這樣的語(yǔ)境下,GLM-5之所以值得被討論,是因?yàn)?strong>它為開源模型能否更接近代碼代理工作流,提供了一個(gè)可觀察樣本,也就是把公式左側(cè)的變量(能力閾值)推到了一個(gè)更高的位置。
根據(jù)智譜披露的結(jié)果,在衡量AI解決真實(shí)GitHub問題能力的權(quán)威榜單SWE-bench Verified上,GLM-5取得了77.8的成績(jī),這一數(shù)據(jù)逼近了閉源模型的第一梯隊(duì)。與此同時(shí),在部分第三方公開榜單下,GLM-5也處于開源模型的前列。
這些分?jǐn)?shù)當(dāng)然不是全部意義,但它們至少指向一個(gè)變化:在給定代碼倉(cāng)庫(kù)、給定驗(yàn)證條件的任務(wù)設(shè)定下,開源模型完成更長(zhǎng)程的規(guī)劃、反思與自我修正,正在變得更可行。
![]()
大模型評(píng)估結(jié)果,圖片來源:智譜
從智譜披露的技術(shù)路徑來看,GLM-5在幾個(gè)關(guān)鍵維度上做了面向長(zhǎng)流程任務(wù)的強(qiáng)化:
參數(shù)規(guī)模擴(kuò)展:參數(shù)規(guī)模擴(kuò)展至744B(激活40B),預(yù)訓(xùn)練數(shù)據(jù)量提升,增強(qiáng)了通用智能;
異步強(qiáng)化學(xué)習(xí):引入“Slime”框架和異步智能體強(qiáng)化學(xué)習(xí)算法,使模型能夠從長(zhǎng)程交互中持續(xù)學(xué)習(xí);
稀疏注意力機(jī)制:集成DeepSeek Sparse Attention,保證了在處理長(zhǎng)上下文時(shí)的效果無損,提升token效率。
更值得注意的是,智譜表示,GLM-5已完成與華為昇騰、摩爾線程、寒武紀(jì)、昆侖芯、沐曦、燧原、海光等多家國(guó)產(chǎn)算力平臺(tái)的深度推理適配與優(yōu)化。這說明,在部署路徑上,它正在探索一種更可落地的工程組合方式。
這共同指向了一個(gè)結(jié)論:開源模型在“更接近工程閉環(huán)”這一維度上,正在跨過更高的能力門檻。
2.現(xiàn)實(shí)的成本問題
當(dāng)能力門檻被抬上去之后,公式右側(cè)的變量“成本閾值”會(huì)更快變成現(xiàn)實(shí)問題。
Agentic Engineering的核心邏輯是“循環(huán)”。一次真實(shí)的修復(fù)任務(wù)往往并不是一問一答,而是多輪定位、修改、測(cè)試與復(fù)盤。在這種模式下,Token消耗與推理時(shí)長(zhǎng)通常會(huì)顯著高于普通對(duì)話。
換句話說,它不是“更省錢地寫代碼”,而是用更密集的算力去置換人類的時(shí)間。
2月12日,智譜發(fā)布價(jià)格調(diào)整說明,宣布 GLM Coding Plan取消首購(gòu)優(yōu)惠,整體價(jià)格上調(diào),漲幅自30%起,將原因歸于需求增長(zhǎng)與高負(fù)載下的穩(wěn)定性與服務(wù)質(zhì)量保障。
這些信息共同指向一個(gè)更明確的現(xiàn)實(shí):當(dāng)模型開始被更頻繁地當(dāng)作生產(chǎn)力工具使用,成本會(huì)更早變成賬單。
因此,“漲價(jià)”本身不必被簡(jiǎn)化為單一結(jié)論。更準(zhǔn)確的說法是:能力閾值在上升,成本閾值也更顯性。
GLM-5的案例一定程度說明,未來的軟件工程可能會(huì)呈現(xiàn)出一種分層態(tài)勢(shì):
在Vibe Coding層,對(duì)于日常、短程的輔助開發(fā),低成本、快響應(yīng)的模型依然是主流;
在Agentic Engineering層,面向關(guān)鍵任務(wù)、復(fù)雜架構(gòu)調(diào)整或必須快速收斂的問題,更強(qiáng)的代理工程能力,更像一種需要付費(fèi)的“加速券”——用更高的推理預(yù)算,換取更快的工程收斂。
對(duì)大公司和追求極致效率的團(tuán)隊(duì)來說,這是一筆算得過來的投入;而對(duì)于更廣泛的個(gè)人開發(fā)者,這或許意味著需要更精細(xì)地計(jì)算 ROI(投資回報(bào)率)。
我們或許已經(jīng)看到了一個(gè)更接近現(xiàn)實(shí)的結(jié)論:模型能力決定Agentic Engineering正在走向現(xiàn)實(shí);成本,決定它能擴(kuò)散到多遠(yuǎn)。
(封面圖來源:AI生成)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.