337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

GLM-4.5技術報告揭秘:如何圍繞Agent構建一個模型

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

智譜GLM-4.5的發布,在近期的AI開源社區中引發了不小的討論。模型放出后,它在Hugging Face社區的趨勢榜單上表現亮眼,綜合性能也在多個基準測試中位列前茅。其原生Agent能力的提法和頗具競爭力的定價,都成為了開發者們關注和討論的焦點。

在模型獲得了一波社區的實踐和反饋之后,智譜緊接著發布了長達25頁的詳盡技術報告。這份報告同樣獲得了很高的關注度,登上了Hugging Face Daily Papers的熱度榜首。


這份報告的價值在于,它系統性地闡述了其模型的設計思路,明確將Agent、Reasoning(推理)和Coding(代碼)三種能力的統一,即ARC,作為衡量通才模型的核心標準。


報告鏈接:https://github.com/zai-org/GLM-4.5/blob/main/resources/GLM_4_5_technical_report.pdf

ARC三位一體

GLM-4.5的設計哲學的核心聚焦于Agent、推理和代碼三者的原生統一。報告在開篇就明確提出了這個主張。它認為,大語言模型(LLM)正從通用知識庫演變為通用問題解決者,一個真正的通才模型,需要統一掌握三項相互關聯的核心能力:

Agentic abilities (Agent能力):與外部工具和真實世界進行交互。

complex Reasoning (復雜推理能力):解決數學、科學等多步驟問題。

advanced Coding (高級代碼技能):處理真實的軟件工程任務。

這三者之間存在著緊密的內在邏輯。一個強大的Agent,必須具備調用工具的能力,而代碼(Coding)正是與數字世界交互的終極工具;同時,要完成一個復雜任務,例如根據用戶需求去修復一個GitHub倉庫里的Bug,必然需要嚴密的邏輯推理(Reasoning)能力來規劃步驟和理解依賴關系。

因此,GLM-4.5的設計目標就是將這三者進行原生集成,讓Agent能夠基于優秀的推理和代碼能力,去思考和行動,后續大量的技術細節,都是圍繞這個目標展開。

為Agent打造的技術路徑

一個清晰的目標,需要一條嚴謹的技術路徑來實現。GLM-4.5的技術報告用大量篇幅介紹了其如何從模型架構、數據處理、訓練流程到最終的強化學習,一步步地將Agent能力注入到模型中。

模型架構:更深、更專的MoE設計

GLM-4.5采用了當前大模型領域主流的混合專家(MoE)架構,以在保證性能的同時提升計算效率。報告揭示了其在具體實現上的一些獨特設計選擇,例如“瘦高”結構。與一些模型追求更“寬”(更多的專家數量、更大的隱藏層維度)不同,GLM-4.5團隊選擇了減少寬度,但增加模型深度的結構。報告提到,他們發現更深的模型在推理能力上表現更出色,這直接服務于ARC能力中的推理基礎。此外,報告還提到了一些為增強推理能力而做的精細調整,例如模型使用了倍數于常規模型的注意力頭,并引入QK-Norm技術來穩定訓練。這些改動共同為模型打下了堅實的推理和代碼功底。


GLM-4.5與DeepSeek-V3 與 Kimi K2的模型架構對比

訓練流程:從“廣積糧”到“中場強攻”

一個好的模型架構需要海量且優質的數據來喂養。報告詳細介紹了其復雜的多階段訓練流程,清晰地展示了從通用到專精的演進過程。在兩階段預訓練中,模型先在15T Tokens的通用語料上進行學習,可以理解為“廣積糧”。隨后,則在一個7T Tokens的數據集上繼續訓練,這個數據集會重點上采樣與代碼和推理相關的高質量內容,相當于開始為ARC能力“定向施肥”。

報告中一個非常有趣的環節是獨特的中期訓練(Mid-training)。在完成大規模預訓練后,模型會進入一個專門的“中期訓練”階段,針對性地“強攻”特定能力。這個階段主要包含三類數據:一是代碼倉庫級數據,將同一個代碼庫的多個文件拼接訓練,讓模型學習跨文件的依賴關系;二是合成推理數據,利用已有模型生成大量帶有推理過程的問答數據;三是長上下文與Agent軌跡數據。這是最關鍵的一步,模型開始接觸并學習大量的、由機器合成的Agent任務軌跡,同時訓練的序列長度也從預訓練時的4K,一路擴展至最終的128K。


Pre-training和Mid-training的多階段流

后訓練:RL注入Agent靈魂

如果說預訓練和中期訓練是為模型打造了強健的“軀體”,那么后訓練,特別是強化學習,則是為其注入“靈魂”的關鍵。正如一位社區開發者評論的那樣,這份報告的大部分篇幅都在講述一個復雜的后訓練策略。

報告中的RL訓練設計,處處體現出為Agent服務的思想。例如,Agentic RL的訓練聚焦于兩類可以被程序自動驗證結果的任務:基于信息檢索的問答和軟件工程,因為這類任務有明確的成功或失敗信號,便于模型進行高效的強化學習。報告中一個值得注意的細節,是為模型的工具調用設計了一套新的XML格式模板,旨在解決常見JSON格式在參數包含代碼時需要大量轉義字符的痛點,直接提升了Agent最核心的工具調用環節的穩定性和效率。

另一個例子體現在模型的交互式解決問題能力上。如下圖所示,在網頁瀏覽這類典型的Agent任務中,模型的準確率會隨著與環境交互輪次的增多而穩步提升。這說明模型學會的不是一次性地給出答案,而是通過持續的探索、試錯和信息整合來逼近正確解,這正是Agent模式的核心價值所在。


BrowseComp模型的準確率隨交互輪次(測試時計算量)的增加而變化。

為了支撐如此復雜的RL訓練,智譜還專門設計并開源了名為slime的RL訓練框架。根據報告描述,這個框架的核心設計(如異步、解耦的訓練架構)就是為了高效處理Agent任務中常見的數據生成慢、交互耗時長的痛點,體現了其構建開發者生態的意圖。

總體來看,GLM-4.5的技術報告用詳盡的數據,對其以Agent為核心的設計理念進行了驗證。

報告的評測部分體現了模型綜合性能。在涵蓋Agent、推理、代碼的12項基準測試中,GLM-4.5的綜合得分位列全球第三,Agent能力單項排名全球第二。


報告還提供了更深入的Agent能力評測細節。例如,在一個名為CC-Bench的真實編程任務測試中,GLM-4.5的工具調用成功率達到了90.6%,超過了多個強有力的競爭對手。這種在實際任務中表現出的高可靠性,也讓一些海外開發者評價其為“當今最精通工具、最原生的Agent模型”。


不同模型在 CC-Bench 上的平均工具調用成功率與單輪交互的平均 Token 消耗對比。

社區的討論也指向了另一個維度:性價比。有用戶評論認為,“性價比才是大模型落地的真正核心指標”。這一點與GLM-4.5的技術選型不謀而合。其采用的MoE架構本身就是一種平衡效果與成本的高效方案,這種技術效率也反映在了它的市場策略上,使其能以一個普惠的價格,鼓勵更多開發者進行調用和嘗試,形成生態的正向循環。

這份技術報告,本質上是智譜將其以Agent為核心的設計思路,完整地攤在了桌面上。當模型權重、技術報告、以及RL訓練框架slime三者同時被推向社區,其意義就不再只是發布一個供人調用的工具。這更像是一種開放的邀請,開發者不僅可以“用”這個模型,更可以深入地“學”它的實現方法,甚至“改”它的訓練流程。這或許是更深層的價值所在。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一個也不該拋棄---不僅救自己大兵,也救中國漁民

一個也不該拋棄---不僅救自己大兵,也救中國漁民

通往遠方的路
2026-04-07 15:54:35
令人驚訝!那些喜歡嫖娼的男性,竟在某些方面存在這幾個共同特征

令人驚訝!那些喜歡嫖娼的男性,竟在某些方面存在這幾個共同特征

皓皓情感說
2026-04-07 23:33:28
突發!伊朗“石油命脈”發生爆炸,橋梁和輸電線路也被炸!伊朗:克制已結束;卡塔爾:中東局勢接近失控

突發!伊朗“石油命脈”發生爆炸,橋梁和輸電線路也被炸!伊朗:克制已結束;卡塔爾:中東局勢接近失控

每日經濟新聞
2026-04-07 21:54:07
85歲富商陳麗華去世,和老公互稱董事長遲先生,百億遺產早有安排

85歲富商陳麗華去世,和老公互稱董事長遲先生,百億遺產早有安排

新金牌娛樂觀察家
2026-04-07 11:30:32
39歲男子考研落榜后舉報復試第一,考生候考時,該考生曾被工作人員叫離座位,返回后手中持有文件夾并翻閱,華東師大回應:調查小組正在調查

39歲男子考研落榜后舉報復試第一,考生候考時,該考生曾被工作人員叫離座位,返回后手中持有文件夾并翻閱,華東師大回應:調查小組正在調查

觀威海
2026-04-07 16:39:02
曝陳麗華已負債,連工資都發不起,但早已為遲重瑞鋪好路!

曝陳麗華已負債,連工資都發不起,但早已為遲重瑞鋪好路!

古希臘掌管松餅的神
2026-04-07 13:23:58
零緩沖!全國一刀切!6月1日起,車主自己去車管所“橫著走”!

零緩沖!全國一刀切!6月1日起,車主自己去車管所“橫著走”!

混沌錄
2026-04-07 22:00:19
NASA團隊:三峽大壩造成地球自轉軸位移,極點位置移動了2公分

NASA團隊:三峽大壩造成地球自轉軸位移,極點位置移動了2公分

心中的麥田
2026-04-07 19:09:35
重慶一業主40萬賣房,買家重裝后69.8萬售出,第二買家以天花板有排污管道泄漏起訴,一審判業主擔責近80萬

重慶一業主40萬賣房,買家重裝后69.8萬售出,第二買家以天花板有排污管道泄漏起訴,一審判業主擔責近80萬

瀟湘晨報
2026-04-07 08:41:11
不裝了,攤牌了!日本18歲新星承認,乒超練1年,頂在日本打10年

不裝了,攤牌了!日本18歲新星承認,乒超練1年,頂在日本打10年

萌蘭聊個球
2026-04-07 20:33:11
伊朗民眾組成人鏈保護發電廠和橋梁

伊朗民眾組成人鏈保護發電廠和橋梁

界面新聞
2026-04-07 22:42:24
身價千億的陳麗華女士走了。
她不是因為年紀太大

身價千億的陳麗華女士走了。 她不是因為年紀太大

果媽聊娛樂
2026-04-07 15:10:46
俄已經有三支主要的反俄武裝了  最大的一支有數萬人

俄已經有三支主要的反俄武裝了 最大的一支有數萬人

律法刑道
2026-04-07 11:00:43
重磅!慢特病新規4月1日實施:13種病報銷比例高達95%

重磅!慢特病新規4月1日實施:13種病報銷比例高達95%

老特有話說
2026-04-07 20:47:38
越南已被逼入絕境,總理臨卸任死磕中國,賭上國運也要換掉米軌

越南已被逼入絕境,總理臨卸任死磕中國,賭上國運也要換掉米軌

生活魔術專家
2026-04-07 17:55:47
鄭麗文剛抵滬,沉默8天的賴清德重申愿和大陸交流,但有一個前提

鄭麗文剛抵滬,沉默8天的賴清德重申愿和大陸交流,但有一個前提

李健政觀察
2026-04-07 18:22:06
比失業更可怕的是工資倒退,深圳的工資已經降到了10年前

比失業更可怕的是工資倒退,深圳的工資已經降到了10年前

細說職場
2026-04-07 11:32:47
陳麗華去世僅2天,小11歲老公遲重瑞過往被扒,他和翁帆處境一樣

陳麗華去世僅2天,小11歲老公遲重瑞過往被扒,他和翁帆處境一樣

一娛三分地
2026-04-07 18:37:11
老照片(3654): 90年代,年輕時的陳麗華與朋友留影時已經初顯富豪之態。

老照片(3654): 90年代,年輕時的陳麗華與朋友留影時已經初顯富豪之態。

可樂談情感
2026-04-07 21:02:57
降維打擊!61比0?。?!這紀錄沒人能破了吧!

降維打擊!61比0?。?!這紀錄沒人能破了吧!

柚子說球
2026-04-07 19:49:53
2026-04-08 04:28:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
265文章數 17關注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

特朗普:伊朗人愿為自由承受轟炸

頭條要聞

特朗普:伊朗人愿為自由承受轟炸

體育要聞

斯洛特:去年我們在巴黎配得上輸個0-4,比上周六踢曼城更配

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產

財經要聞

10萬億財政轉移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

房產
本地
手機
數碼
公開課

房產要聞

重磅!三亞擬出安居房新政!

本地新聞

跟著歌聲游安徽,聽古村回響

手機要聞

Ultra取消,Pro Max上位,華為Nova 16系列產線大調整!

數碼要聞

賤驢NV60磁軸鍵盤上市:顯卡主題造型設計,899元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版