網易首頁 > 網易號 > 正文申請入駐

行業(yè)標準過時了？楊植麟首次披露Kimi技術路徑

2026-03-19 11:33:51　來源: 壹覽商業(yè)官方

浙江舉報

分享至

出品/未來科技界

作者/李彥

編輯/楊宇

大模型的底層架構，過時了？

過去幾年，行業(yè)對“Scaling”的理解幾乎等同于算力堆砌與參數擴張。但在今年的技術交流中，一個更清晰的共識正在形成：單純依賴資源線性投入，已經難以持續(xù)推高模型能力的上限。如何在效率、結構與系統(tǒng)協(xié)同中尋找新的“規(guī)模紅利”，成為新的命題。

北京時間3月18日凌晨，月之暗面創(chuàng)始人楊植麟在英偉達 GTC 2026大會上首次系統(tǒng)披露了Kimi K2.5的技術路線圖，其核心指向“更有效率的規(guī)模化”。

他將Kimi的演進總結為三個維度的協(xié)同：Token效率、長上下文能力，以及智能體集群（Agent Swarms）。這三個方向并非獨立優(yōu)化，而是試圖形成乘數效應——即通過效率提升降低計算成本，通過長上下文提升推理能力，再通過多智能體協(xié)作放大任務處理能力，從而整體抬升模型智能水平。

這一技術路線的落腳點，在于對既有基礎架構的重構。

以優(yōu)化器為例，自2014年以來，Adam系列幾乎成為行業(yè)標準。但在超大規(guī)模訓練中，其Tokenl效率與穩(wěn)定性問題逐漸暴露。Kimi團隊在實踐中引入Muon優(yōu)化器，并進一步開發(fā)出MuonClip機制，通過數值穩(wěn)定性改進解決Logits爆炸問題，在效率上實現對AdamW約2倍的提升。這意味著，在相同算力條件下，模型可以完成更多有效訓練，從源頭提升“性價比”。

針對 2017 年誕生的全注意力機制（Full Attention），楊植麟展示了基于KDA架構的 Kimi Linear。這是一種混合線性注意力架構，它挑戰(zhàn)了“所有層必須使用全注意力”的慣例，通過優(yōu)化遞歸存儲管理，在128K甚至1M的超長上下文中，將解碼速度提升了5到6倍，且在不同長度的場景下均保持了優(yōu)異性能。

與此同時，針對殘差連接這一長期被忽視的基礎組件，Kimi提出了Attention Residuals方案。通過用注意力機制替代傳統(tǒng)的逐層累加，模型可以更有選擇性地利用歷史信息，從而避免深層網絡中信息被稀釋的問題。這類改進雖然不如新模型架構“顯眼”，卻直接作用于模型表達能力的上限。

如果說上述優(yōu)化仍停留在單模型層面，那么Kimi更進一步的探索，則指向“多模型協(xié)作”。

在演講中，楊植麟提出，未來的AI形態(tài)將不再是單一智能體，而是由多個Agent動態(tài)組成的協(xié)作系統(tǒng)。Kimi K2.5中的Orchestrator機制，能夠將復雜任務拆解為多個子任務，并分配給不同Agent并行執(zhí)行。同時，通過專門設計的強化學習獎勵函數，避免多Agent系統(tǒng)退化為串行流程，從而真正實現并行效率提升。

這一思路，實質上將“Scaling”從單模型擴展為“系統(tǒng)級Scaling”。當任務復雜度不斷提高，僅依賴單一模型能力已難以覆蓋全部場景，分布式智能體協(xié)作可能成為新的主流范式。

此外，Kimi在跨模態(tài)方向上的實驗也提供了一個值得注意的信號：視覺強化學習不僅提升視覺能力，還能夠反向增強文本推理能力。在相關基準測試中，這種訓練方式帶來了約2.1%的文本性能提升。這表明，不同模態(tài)之間的能力并非孤立，而是存在可以被利用的遷移關系。

從更宏觀的角度看，這場演講所傳遞的信息，或許比具體技術細節(jié)更重要。

一方面，大模型的發(fā)展正在從“資源驅動”轉向“效率驅動”。當算力供給逐漸成為瓶頸，誰能在單位算力中挖掘出更高價值，誰就擁有更強的競爭力。

另一方面，AI的競爭邊界也在外擴。從模型本身，到訓練方法，再到多智能體系統(tǒng)，技術演進正在向更復雜的系統(tǒng)工程演化。

楊植麟在最后提到，過去受限于算力，很多技術想法難以通過大規(guī)模實驗驗證，而現在，隨著“Scaling Ladder”的建立，研究者可以在不同規(guī)模上反復驗證假設，從而讓那些曾被忽視的“舊技術”重新煥發(fā)生命力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.