337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源模型首超Opus4.6!智譜GLM-5.1登場,14小時后CUDA專家被沖了

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

優(yōu)化CUDA Kernel這件事,剛剛被AI狠狠地沖擊了一波。

因為現(xiàn)在,給AI十四個小時,它就能幫你把CUDA Kernel優(yōu)化,加速比從2.6×推至35.7×!

什么概念?

以前人類資深CUDA工程師要完成這個任務(wù),需要數(shù)月反復(fù)測試、調(diào)優(yōu)、推翻重來才行;但現(xiàn)在,AI在你睡覺的時候就能解決掉。

而且AI在這個過程中還展現(xiàn)出了專家級的直覺

例如在優(yōu)化初期,它嘗試在現(xiàn)有高層框架內(nèi)尋找解法,但很快通過自主跑測試發(fā)現(xiàn)性能觸及了天花板,然后它便做出了人類專家才有的決策——

自主判斷放棄高層框架,直接轉(zhuǎn)向底層C++進行硬核重寫。

整整14個小時里,這個AI主打一個全自動:AI自己發(fā)現(xiàn)瓶頸,自己改變技術(shù)棧,自己重新編譯,自己測試。

那這到底是何許AI是也?

不賣關(guān)子,正是大家熟悉的,來自智譜的開源模型——GLM-5.1



隨著這次長程任務(wù)(Long Horizon Task)能力的提升,智譜官方也宣布了一個重要的突破:

首次解鎖了開源模型與當(dāng)前全球最頂尖閉源模型Claude Opus 4.6的全面對齊!

嗯,是妥妥穩(wěn)坐全球最強開源模型寶座的感覺了。

而且,從更多的權(quán)威評測榜單中來看,也是印證了這一點。

在被稱為“軟件工程能力試金石”的SWE-bench Pro基準測試中,GLM-5.1刷新了全球最佳成績,直接超越Claude Opus 4.6、GPT-5.4等一眾頭部模型,拿下全球第一:



甚至在海外網(wǎng)友們的圈子中,已經(jīng)吹起了棄用Claude Max的風(fēng)了:

它的手感和Opus一模一樣,使用額度是Claude Code的3倍,成本卻只有1/3。



HuggingFace CEO也出面站臺,稱SWE-Bench Pro中性能最強的模型開源了:



而這一切成績的背后,正是智譜面向小時級的長程任務(wù)能力。

給AI幾個小時,一切都不一樣了

當(dāng)前主流的大模型,可以說大多數(shù)還是處于“分鐘級交互”的階段。

但到了GLM-5.1這邊,它的交付單位就不同了——一個完整的項目

接下來,我們就通過實測的方式,來看下GLM-5.1的實力到底幾何。

調(diào)用工具1000輪,優(yōu)化真實機器學(xué)習(xí)模型負載

第一個實測,我們順著前面的CUDA的例子,繼續(xù)讓GLM-5.1進行一場考驗:

KernelBench Level 3優(yōu)化基準,這一基準涵蓋50個真實機器學(xué)習(xí)計算負載,主打一個還原真實工業(yè)場景,考驗的是端到端的完整優(yōu)化能力而非單一算子調(diào)試。

在超過24小時的不間斷迭代中,GLM-5.1全程自主發(fā)力,無需人類專家干預(yù),一遍遍完成“編譯—測試—分析—重寫”的閉環(huán)循環(huán),最終交出了這樣的結(jié)果——

3.6倍幾何平均加速比,而作為對比,torch.compile max-autotune模式僅能達到1.49倍,差距直接翻倍不止!



從這個過程中可以看到,GLM-5.1能夠自主編寫定制Triton Kernel和CUDA Kernel,運用cuBLASLt epilogue融合并實施shared memory tiling與CUDA Graph優(yōu)化。

這些優(yōu)化策略覆蓋了從高層算子融合到微架構(gòu)級調(diào)優(yōu)的完整技術(shù)棧,每一步都是模型的自主決策。

結(jié)果再次表明,在GPU內(nèi)核優(yōu)化這一傳統(tǒng)上高度依賴專家經(jīng)驗的領(lǐng)域,AI模型已經(jīng)展現(xiàn)出從問題分析、方案設(shè)計到迭代調(diào)優(yōu)的端到端自主工作能力。

1小時從零構(gòu)建MacOS桌面環(huán)境

在這個實測中,我們給GLM-5.1扔了一份3000字的PRD,核心要求只有一個:

從0開始復(fù)刻MacOS核心UI與交互,不僅要前端殼子,還必須包含窗口管理器、Dock欄調(diào)度、以及模擬的底層文件系統(tǒng)。



這是一個標準的前端工程團隊至少需要數(shù)天才能打磨出原型的任務(wù),但在GLM-5.1這里,時間被壓縮到了小時級別。

瞧,待它分析完任務(wù)之后,自己就開始唰唰地編程了:



1個小時之后,在沒有任何人工參與的情況下,一個MacOS的桌面環(huán)境,就這么水靈靈地誕生了!



視頻地址:
https://mp.weixin.qq.com/s/p6-WvVNnJum_y7T10yHkNw

可以看到,更改桌面背景、放大縮小Docker、終端命令執(zhí)行、系統(tǒng)自帶的截圖功能等,統(tǒng)統(tǒng)都能實現(xiàn)。

而在智譜官方的demo中,展示了GLM-5.1耗時8小時實現(xiàn)的更加復(fù)雜的Linux系統(tǒng):



視頻地址:
https://mp.weixin.qq.com/s/p6-WvVNnJum_y7T10yHkNw

執(zhí)行了1200多步,完整的桌面、窗口管理器、狀態(tài)欄、應(yīng)用程序、VPN管理器、中文字體支持、游戲庫等……相當(dāng)于一個4人團隊一周的開發(fā)工作量。

不得不說,現(xiàn)在GLM-5.1的每一次提交,都是具有實質(zhì)意義的系統(tǒng)級演進。

全自動重寫屎山代碼

寫代碼的人都知道,比從零寫一個新項目更痛苦的,是重構(gòu)別人留下的屎山代碼

但現(xiàn)在有了GLM-5.1,我們可以把這個任務(wù)交給它來處理了。

例如這段代碼就堪稱是屎山中的經(jīng)典:變量名完全無意義、五層嵌套if、重復(fù)計算總和三遍、全局變量到處亂改、函數(shù)幾百行不拆分……



能運行嗎?能運行;惡心嗎?也是真惡心。

而在GLM-5.1只需半小時的自動重寫之后,一份注釋清晰、符合標準的代碼就誕生了:



655次迭代,打破向量數(shù)據(jù)庫性能瓶頸

如果說重構(gòu)代碼還只是把已有的東西做好,那向量數(shù)據(jù)庫優(yōu)化,考驗的就是AI自主迭代、持續(xù)突破的能力。

這也或許正是人類資深工程師最核心的價值。

在這項測試中,GLM-5.1的需求是優(yōu)化現(xiàn)有向量數(shù)據(jù)庫的查詢性能,盡可能提升QPS。

隨后,它開啟了完全自主的“測試-分析-優(yōu)化-再測試”閉環(huán)。

每一輪優(yōu)化后,它都會主動跑完整的Benchmark,獲取QPS、延遲、內(nèi)存占用等核心數(shù)據(jù),自主分析性能瓶頸。



視頻地址:
https://mp.weixin.qq.com/s/p6-WvVNnJum_y7T10yHkNw

最終,在655輪迭代之后,GLM-5.1把向量數(shù)據(jù)庫的查詢吞吐從初次交付的3108 QPS一路推到21472 QPS,提升到初始正式版本的6.9倍。

AI能獨立工作多久,成了新標準

之所以GLM-5.1這次能夠炸場,本質(zhì)上是它踩中了AI行業(yè)的下一個核心賽點:長程任務(wù)(Long Horizon Task)能力

2025年3月,全球頂尖的AI安全研究機構(gòu)METR(Model Evaluation and Threat Research)便提出了一個徹底改變行業(yè)認知的新指標,叫做Task-Completion Time Horizon(任務(wù)完成時間線)。

這個指標的核心思想是,不再用做題的準確率來衡量模型有多聰明,而是用時間來衡量它能獨立完成多長時間的人類專家任務(wù)

研究顯示,前沿模型的時間線每7個月就會翻一倍,這條指數(shù)曲線,被MIT Technology Review稱為“AI領(lǐng)域最重要的一張圖”。紅杉資本更是在2026年初直接宣告:“這就是AGI的核心方向”,并直言:2023-2024年的AI,是只會對話的“talker”,而2026-2027年的AI,將成為能真正落地做事的“doer”。

而GLM-5.1,是全球第一個在真實工程任務(wù)中,驗證了8小時持續(xù)工作能力的開源模型。

它能在單次任務(wù)中,持續(xù)、自主地工作長達8小時,過程中自主規(guī)劃、自主執(zhí)行、自主測試,碰壁時主動切換策略,出錯后自行修復(fù),最終交付完整的工程級成果。

GLM-5.1之所以能做到這一點,核心源于三個維度的系統(tǒng)性技術(shù)突破:

第一,更強的長程規(guī)劃與目標保持能力。

它能把一個復(fù)雜的大目標,拆解為可執(zhí)行的多階段計劃,并且在長達十幾小時、上千步的執(zhí)行鏈路中,始終圍繞最終交付目標推進。簡單來說,就是干到第十步,還記得第二步定的規(guī)矩。

第二,更穩(wěn)的自適應(yīng)糾錯與持續(xù)執(zhí)行能力。

它實現(xiàn)了代碼編寫、工具調(diào)用、環(huán)境調(diào)試、API對接等多個環(huán)節(jié)的穩(wěn)定銜接,中途出錯時,不會停下來等人工介入,而是會自主查看錯誤日志、定位問題根源、修復(fù)bug,甚至自己寫回歸測試用例驗證修復(fù)效果。

第三,更好的狀態(tài)延續(xù)與上下文整合能力。

面對長時間跨度、多輪反饋和百萬級token的上下文信息,它能穩(wěn)定追蹤已完成的工作、當(dāng)前所處的階段和下一步的核心動作,持續(xù)整合新的信息,保持整個執(zhí)行鏈路的一致性。

開源模型看中國,更得看智譜

GLM-5.1的出現(xiàn),不僅是模型能力的升級,更改寫了全球大模型行業(yè)的敘事邏輯。

長久以來,中國開源模型始終帶著追趕者的標簽,與美國頂尖閉源模型存在差距,而GLM-5.1徹底打破這一局面:

它在權(quán)威榜單上對齊Claude Opus 4.6,在SWE-bench Pro等核心工程指標上實現(xiàn)反超,讓中國開源AI在核心工程能力上與全球前沿并駕齊驅(qū)。

更重要的是,它的變革遠超模型本身,正重構(gòu)萬億級IT服務(wù)市場的底層邏輯。

AI Coding的進化有清晰路徑:從程序員提效工具,到降低代碼門檻,再到能自主做事的初級工程師,而GLM-5.1的Long Horizon能力,直接將AI推向能持續(xù)工作數(shù)小時、交付完整項目的新階段。

當(dāng)AI的交付單位從一行代碼變?yōu)橐粋€完整項目,便沖擊了整個軟件工程的生產(chǎn)關(guān)系——4人團隊一周的工作量、資深工程師數(shù)月的優(yōu)化任務(wù),它數(shù)小時就能完成,這將重構(gòu)多個行業(yè)的定價與人力配置邏輯。

當(dāng)然,我們不必陷入AI會替代程序員的無謂焦慮。就像當(dāng)年計算機的普及,沒有淘汰會計這個職業(yè),只是淘汰了不會用計算機的會計;AI的到來,也不會淘汰開發(fā)者,只會淘汰不會駕馭AI的開發(fā)者。

GLM-5.1的出現(xiàn),真正給整個行業(yè)拋出的核心問題是:當(dāng)AI已經(jīng)能自主完成長達數(shù)小時的復(fù)雜長程任務(wù),實現(xiàn)從規(guī)劃、執(zhí)行、糾錯到完整項目交付的全閉環(huán)時,人類的不可替代性到底在哪里?

答案或許就是定義問題、創(chuàng)造價值、做出核心決策的能力,畢竟這是AI暫時無法替代的核心護城河。

而對中國AI行業(yè)而言,GLM-5.1只是開始,當(dāng)開源模型達到全球頂尖工程能力、AI從對話者變?yōu)閳?zhí)行者,行業(yè)必將迎來更徹底、更深刻的變革。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
在韓國遭日籍男子騷擾的中國女生最新發(fā)聲:涉事者被警方限期返韓接受調(diào)查,韓國警方已就前期處置疏漏致歉,并將對涉事警務(wù)人員開展調(diào)查

在韓國遭日籍男子騷擾的中國女生最新發(fā)聲:涉事者被警方限期返韓接受調(diào)查,韓國警方已就前期處置疏漏致歉,并將對涉事警務(wù)人員開展調(diào)查

大風(fēng)新聞
2026-04-19 15:49:08
歐爾班威脅:下周恢復(fù)油運我們就解凍90億歐元援助

歐爾班威脅:下周恢復(fù)油運我們就解凍90億歐元援助

桂系007
2026-04-19 23:49:10
我國摧毀特大假酒網(wǎng)絡(luò)

我國摧毀特大假酒網(wǎng)絡(luò)

新京報
2026-04-19 12:47:09
山東各地2026年1-2月財政收入排行:青島微跌3.4%,濟寧突破百億

山東各地2026年1-2月財政收入排行:青島微跌3.4%,濟寧突破百億

水又木二
2026-04-19 11:07:32
23年前拯救中國男籃!禁賽3年終于復(fù)出,這次別再犯錯...

23年前拯救中國男籃!禁賽3年終于復(fù)出,這次別再犯錯...

左右為籃
2026-04-17 12:34:06
秦始皇死亡之謎被揭開?郭沫若:被人用條3寸長的鐵釘活活釘死的

秦始皇死亡之謎被揭開?郭沫若:被人用條3寸長的鐵釘活活釘死的

健康快樂丁
2025-04-13 18:09:33
毫不掩飾!歐盟化工巨頭竟聯(lián)手“阻擊”中企

毫不掩飾!歐盟化工巨頭竟聯(lián)手“阻擊”中企

觀察者網(wǎng)
2026-04-19 21:05:34
金像獎/擊敗章子怡!她首入圍就封后 臺上落淚「險忘謝重要1人」

金像獎/擊敗章子怡!她首入圍就封后 臺上落淚「險忘謝重要1人」

達達哥
2026-04-19 23:19:14
堂姐讓我擔(dān)保388萬,拒絕后被全家罵,銀行上門見擔(dān)保書全家傻眼

堂姐讓我擔(dān)保388萬,拒絕后被全家罵,銀行上門見擔(dān)保書全家傻眼

刺頭體育
2026-04-19 02:37:31
落戶反降!上海不搶人了,改挑人了

落戶反降!上海不搶人了,改挑人了

愛看劇的阿峰
2026-04-19 21:42:06
美國封鎖伊朗海上貿(mào)易,石油出口暴跌,儲油僅16天見底

美國封鎖伊朗海上貿(mào)易,石油出口暴跌,儲油僅16天見底

時光在作祟
2026-04-19 23:04:25
新空腹血糖標準已調(diào)整,不再6.1mmol/L,糖前期者,早知早管控

新空腹血糖標準已調(diào)整,不再6.1mmol/L,糖前期者,早知早管控

醫(yī)學(xué)科普匯
2026-04-19 15:20:09
為什么那么多酒店都倒閉了?網(wǎng)友:酒店很多需要被高鐵替代了

為什么那么多酒店都倒閉了?網(wǎng)友:酒店很多需要被高鐵替代了

另子維愛讀史
2026-04-12 13:01:06
凱夫倫-圖拉姆:下賽季爭意甲冠軍?目前我們只專注于歐冠資格

凱夫倫-圖拉姆:下賽季爭意甲冠軍?目前我們只專注于歐冠資格

懂球帝
2026-04-20 06:03:07
目標改變,美軍越打伊朗越慌,抓緊增兵,關(guān)鍵時刻又收新噩耗

目標改變,美軍越打伊朗越慌,抓緊增兵,關(guān)鍵時刻又收新噩耗

近史閣
2026-04-20 02:17:25
蘇州大學(xué)一佳人太漂亮了,身高165厘米,五官精致到無懈可

蘇州大學(xué)一佳人太漂亮了,身高165厘米,五官精致到無懈可

解說阿洎
2026-04-20 05:08:15
不到24小時戰(zhàn)火再起,以色列炮擊,內(nèi)塔要求特朗普交代

不到24小時戰(zhàn)火再起,以色列炮擊,內(nèi)塔要求特朗普交代

淚之魂y
2026-04-20 00:32:36
難怪能成為大明星,小時候居然這么漂亮!大家看出來她是誰了嗎?

難怪能成為大明星,小時候居然這么漂亮!大家看出來她是誰了嗎?

阿廢冷眼觀察所
2026-04-19 22:13:42
社保迎來第六險!繳費標準公布

社保迎來第六險!繳費標準公布

新浪財經(jīng)
2026-04-18 22:37:58
普通家庭存款到這個數(shù),已經(jīng)是天花板級別,以前不信,現(xiàn)在很肯定

普通家庭存款到這個數(shù),已經(jīng)是天花板級別,以前不信,現(xiàn)在很肯定

平說財經(jīng)
2026-04-19 14:17:19
2026-04-20 06:27:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12497文章數(shù) 176455關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

教育
時尚
親子
家居
軍事航空

教育要聞

南昌縣全民閱讀活動在斗柏路小學(xué)開展

裝修“精神角落”,就是這么上癮

親子要聞

孩子總打噴嚏、起疹子,時過敏嗎?

家居要聞

法式線條 時光靜淌

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進入關(guān)懷版