大模型實現(xiàn)“8小時工作制” ！智譜GLM-5.1大幅提升長程任務(wù)能力

2026-04-10 09:39:08　來源: 財聯(lián)社

上海舉報

分享至

《科創(chuàng)板日報》4月10日訊（記者李明明）智譜發(fā)布其迄今最智能的模型。

近日，智譜發(fā)布并開源新一代旗艦?zāi)Ｐ虶LM-5.1。據(jù)介紹，其是唯一達到8小時級持續(xù)工作的開源模型，在最接近真實軟件開發(fā)的SWE-bench Pro基準(zhǔn)測試中，GLM-5.1實現(xiàn)國產(chǎn)模型首次超越Opus 4.6。

OpenRouter顯示，伴隨此次發(fā)布，智譜GLM再度提價10%。

《科創(chuàng)板日報》記者從相關(guān)方獲悉，與過去一年行業(yè)主旋律“降價”截然相反，智譜本次提價，編碼場景定價首次追平海外頭部廠商Anthropic。這也寓示著國產(chǎn)大模型從價格戰(zhàn)、低價換量轉(zhuǎn)向性能溢價。

實測GLM-5.1

關(guān)于GLM-5.1的智能水平，智譜團隊告訴《科創(chuàng)板日報》記者，GLM-5.1提高了代碼能力，在完成長程任務(wù)方面提升尤為顯著。和此前分鐘級交互的模型不同，它能夠在一次任務(wù)中獨立、持續(xù)工作超過8小時，期間自主規(guī)劃、執(zhí)行、自我進化，最終交付完整的工程級成果。

代碼能力是模型智能水平進一步提升的關(guān)鍵。據(jù)悉，在業(yè)內(nèi)最具代表性的三個代碼評測基準(zhǔn)的平均結(jié)果中，包括衡量模型專業(yè)軟件開發(fā)工作的SWE-Bench Pro、操作命令行解決問題的Terminal-Bench 2.0、從零構(gòu)建完整代碼倉庫的NL2Repo，GLM-5.1取得全球模型第三、國產(chǎn)模型第一、開源模型第一。

這也代表了大模型演進到現(xiàn)在的趨勢之一，過去兩年，行業(yè)用Benchmark衡量模型有多智能。上述智譜團隊向《科創(chuàng)板日報》記者判斷，下一階段的衡量標(biāo)準(zhǔn)應(yīng)該是“能工作多久”，即模型在Long-Horizon Task中的表現(xiàn)，能獨立完成多長時間的人類任務(wù)。

業(yè)內(nèi)也形成了共識，2025年3月，AI安全研究機構(gòu)METR提出了一個改變行業(yè)認知的指標(biāo)：任務(wù)完成時間線（Task-Completion Time Horizon）——不再衡量模型"多聰明"，而是衡量它能獨立完成多長時間的人類任務(wù)。研究顯示，前沿模型的時間線每7個月翻一倍。這條指數(shù)曲線被MIT Technology Review稱為"AI領(lǐng)域最重要的一張圖"，Sequoia Capital據(jù)此在2026年初宣告"這就是AGI"。

在長程任務(wù)中保持穩(wěn)定輸出，模型面對的不只是更大代碼量，而是一連串復(fù)雜的工程決策點：主動跑benchmark、定位瓶頸、修改方案、再跑測試。這對模型提出更高的要求，需要像人類工程師一樣，形成“實驗→分析→優(yōu)化”的完整閉環(huán)，而不是寫完代碼停下來等人打分。

《科創(chuàng)板日報》記者用開發(fā)者工具實測了GLM-5.1，測試案例如下：有一個專門考驗AI編程能力的測試，任務(wù)是讓AI做出一個能快速檢索海量數(shù)據(jù)的系統(tǒng)，當(dāng)時最強的成績是Claude Opus 4.6創(chuàng)造的。

實測顯示，智譜GLM-5.1在持續(xù)進行六百多次優(yōu)化、六千多次操作后，性能還在不斷提升，最終速度達到了之前最好成績的6倍。

據(jù)了解，GLM-5.1也刷新了國產(chǎn)開源模型的成績。

長期以來，全球大模型賽道始終存在一條難以逾越的鴻溝：開源模型與頂尖閉源模型之間存在肉眼可見的能力代差，而中國開源模型更是長期被貼上追趕者的標(biāo)簽，在國際公認的通用能力榜單上，始終與Claude、GPT系列的頂級閉源產(chǎn)品有明顯差距。

而在最貼近真實軟件開發(fā)場景的SWE-bench Pro基準(zhǔn)測試中，GLM-5.1實現(xiàn)國產(chǎn)模型對Claude Opus 4.6的首次超越。

智譜GLM再度提價10%

性能提升的同時，智譜在價格層面也與海外廠商看齊，這也是國產(chǎn)模型價格首次對齊海外，模型聚合平臺OpenRouter顯示，智譜GLM再度提價10%。調(diào)價后，GLM-5.1在Coding場景的緩存命中Token價格已接近Anthropic旗下Claude Sonnet 4.6。

這不是智譜第一次漲價，此前，智譜2月12日發(fā)布GLM Coding Plan 價格調(diào)整函稱， GLM Coding Plan市場需求持續(xù)強勁增長，用戶規(guī)模與調(diào)用量快速提升。公司決定對GLM Coding Plan套餐價格進行結(jié)構(gòu)性調(diào)整，整體漲幅自30%起。

《科創(chuàng)板日報》記者此前獨家獲悉，海外版GLM-5定價漲幅高于國內(nèi)：Coding plan訂閱價格提高30%-60%，API調(diào)用價格提升67%-100%。

此舉為國產(chǎn)大模型2026年以來首次大幅提價。

一年前，行業(yè)還深陷“價格戰(zhàn)”，普遍降價九成以上爭奪份額。智譜為何敢于反向操作？

從核心動因看，需求端爆發(fā)是直接推手。GLM Coding Plan聚焦開發(fā)者代碼生成、編程輔助場景，市場需求持續(xù)旺盛，用戶規(guī)模、接口調(diào)用量雙雙快速攀升，平臺長期處于高負載運行狀態(tài)，對算力調(diào)度、服務(wù)穩(wěn)定性、響應(yīng)效率的要求顯著提高，需求增速超出原有資源規(guī)劃與承載能力。

在智譜2025年業(yè)績說明會上，智譜CEO張鵬對《科創(chuàng)板日報》記者介紹，一季度智譜的API調(diào)用定價提升83%，即便如此，市場依然呈現(xiàn)出供不應(yīng)求的情況，調(diào)用量增長400%。當(dāng)前，智譜已成為國內(nèi)付費Token消耗量最高的廠商之一。

關(guān)于漲價，張鵬此前在中關(guān)村論壇上回應(yīng)稱，長期依賴低價競爭不利于行業(yè)發(fā)展，調(diào)價旨在將價格拉回正常的商業(yè)價值區(qū)間。“完成一個長程任務(wù)所需要的Token量可能是回答一個簡單問題時的十倍甚至百倍，價格調(diào)整本質(zhì)上是價值變化的自然結(jié)果。”

據(jù)張鵬介紹，智譜已經(jīng)實現(xiàn)了Token在全球范圍內(nèi)的價值變現(xiàn)。目前，GLM模型已全面部署于Google Vertex AI、AWS Bedrock等全球云服務(wù)商，并入駐OpenRouter、Vercel等國際主流模型聚合平臺。

智譜MaaS商業(yè)化方面，MaaS API平臺實現(xiàn)ARR 約17億元（約2.5億美金），同比提升60倍。

此外，《科創(chuàng)板日報》記者注意到，2026年開年以來，國內(nèi)AI行業(yè)已從過去的“價格戰(zhàn)”轉(zhuǎn)向“價值定價”，一些底層算力與模型服務(wù)集體調(diào)價，主要包括：

騰訊云：3月11日對自研混元HY2.0系列模型大幅調(diào)價， 4月9日再次宣布5月9日起AI算力、容器服務(wù)等產(chǎn)品統(tǒng)一上調(diào)5%。

阿里云：3月18日宣布4月18日起，AI算力相關(guān)產(chǎn)品價格上調(diào)5%-34%，智算版存儲產(chǎn)品上漲30%。

百度智能云：3月18日發(fā)布AI算力、存儲等產(chǎn)品調(diào)價公告，AI算力相關(guān)產(chǎn)品服務(wù)上調(diào)5%-30%，并行文件存儲價格上調(diào)約30%。

（科創(chuàng)板日報記者李明明）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.