3月18日凌晨,Kimi創始人楊植麟將會在英偉達2026年度技術大會GTC上發表主題演講,詳細解讀Kimi的技術發展路線及下一代模型架構的設計理念。
早在3月16日,月之暗面(Moonshot AI)正式發布技術論文《Attention Residuals》,首次系統披露其下一代大語言模型的核心架構創新——注意力殘差技術。該技術針對傳統殘差連接結構的固有局限提出突破性解決方案,在顯著提升訓練效率的同時有效降低計算成本,論文發布后迅速引發國際人工智能研究社區的廣泛討論與關注。
特斯拉、SpaceX創始人埃隆·馬斯克于論文發布當日即在社交平臺X發聲,以"Impressive work from Kimi"(令人印象深刻的工作)表達肯定。
![]()
前OpenAI研究副總裁、o1系列推理模型的核心貢獻者Jerry Tworek在深入研讀論文后指出,Kimi的這項技術突破"可能推動深度學習架構的重要演進",其創新理念有望對未來AI行業發展產生深遠影響。
![]()
前OpenAI聯合創始人Andrej Karpathy亦在社交媒體發文感慨,認為該研究"深化了對注意力機制的理解,為大模型輕量化、高效化發展提供了全新路徑"。
![]()
這項技術的突破核心,在于對大模型底層架構中殘差連接結構的根本性重構。
過去十年間,主流大規模深度學習模型普遍采用"統一求和"的傳統殘差連接模式。這一模式雖然能夠在一定程度上提升深度網絡訓練的穩定性,但隨著模型層數持續增加,淺層關鍵信息容易被稀釋或丟失,造成算力資源的浪費,并導致訓練效率下降、穩定性不足等突出問題。針對上述行業共性難題,Kimi研發團隊提出的注意力殘差方案實現了精準破解:通過讓模型每一層選擇性關注此前各層的輸出,替代傳統模式中"盲目統一求和"的信息處理方式,從而實現"按需篩選信息"的精準高效運算。
實測數據驗證了該技術的顯著成效。
將注意力殘差技術應用于Kimi Linear 48B參數模型后,訓練效率實現1.25倍的提升,這意味著在達到同等性能表現的前提下,可節省約20%的計算量;與此同時,模型在復雜推理場景中的表現亦獲得顯著提升,而推理延遲的增幅被控制在不足2%的范圍內。這一"降本增效"的技術特性,與當前全球AI大模型領域追求高效化、輕量化的發展趨勢高度契合。
這項重要技術成果的背后,是月之暗面團隊長期的潛心攻關與協同創新。該研究由Kimi三位聯合創始人楊植麟、吳育昕、周昕宇共同帶隊,數十名研究員參與推進。
值得關注的是,這篇引發國際熱議的論文中,共同第一作者名單里出現了一位17歲研究者陳廣宇的名字,他與RoPE旋轉位置編碼提出者蘇劍林、Kimi Linear架構第一作者張宇并列署名。
![]()
一年前,陳廣宇剛開始了解大模型的,是從北京的一場黑客松開始,一路走向硅谷的。
2025年2月,他在此展示“人類第三只機械輔助手”ThirdArm項目,結識評委董科含,后者成為他的創業導師。在董科含指引下,他放棄跨境電商、短視頻運營,轉向深耕底層技術。彼時不懂Transformer的他,在DeepSeek研究員袁境陽的指導下,借助Gemini研讀論文、追蹤開源項目,逐步建立認知。
他在社交媒體上分享博客反思時,意外被硅谷一家AI初創公司CEO關注,且通過一項限時通宵實驗測試獲得錄用,暑假前往舊金山實習七周。實習結束后,他回國并在11月加入月之暗面。實際上,正是GitHub上的Flash Linear Attention項目,吸引了他對機器學習的興趣并被邀請加入Kimi團隊。
此次的論文發表讓Kimi在經歷發展周期的起伏后,重新回歸行業焦點中心。早期因戰略調整中過早轉向C端規模化擴張,相對忽視了基礎技術的持續迭代,疊加行業競爭格局的急劇變化,Kimi一度陷入發展低谷。2025年中期,月之暗面完成全面的內部戰略復盤,及時調整發展方向,將核心重心重新聚焦于基礎模型的研發創新。
經過近一年的技術沉淀與積累,公司于2026年1月發布的Kimi K2.5模型成功登頂Artificial Analysis開源榜,提前向外界彰顯了其技術實力的回歸;而此次3月發布的注意力殘差技術論文,則進一步推動Kimi重回全球AI行業的聚光燈下。
來源:星河商業觀察
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.