網易首頁 > 網易號 > 正文申請入駐

kimi17歲研究員，讓馬斯克印象深刻

2026-03-18 18:23:05　來源: ZAKER新聞

廣東舉報

分享至

3月18日凌晨，Kimi創始人楊植麟將會在英偉達2026年度技術大會GTC上發表主題演講，詳細解讀Kimi的技術發展路線及下一代模型架構的設計理念。

早在3月16日，月之暗面（Moonshot AI）正式發布技術論文《Attention Residuals》，首次系統披露其下一代大語言模型的核心架構創新——注意力殘差技術。該技術針對傳統殘差連接結構的固有局限提出突破性解決方案，在顯著提升訓練效率的同時有效降低計算成本，論文發布后迅速引發國際人工智能研究社區的廣泛討論與關注。

特斯拉、SpaceX創始人埃隆·馬斯克于論文發布當日即在社交平臺X發聲，以"Impressive work from Kimi"（令人印象深刻的工作）表達肯定。

前OpenAI研究副總裁、o1系列推理模型的核心貢獻者Jerry Tworek在深入研讀論文后指出，Kimi的這項技術突破"可能推動深度學習架構的重要演進"，其創新理念有望對未來AI行業發展產生深遠影響。

前OpenAI聯合創始人Andrej Karpathy亦在社交媒體發文感慨，認為該研究"深化了對注意力機制的理解，為大模型輕量化、高效化發展提供了全新路徑"。

這項技術的突破核心，在于對大模型底層架構中殘差連接結構的根本性重構。

過去十年間，主流大規模深度學習模型普遍采用"統一求和"的傳統殘差連接模式。這一模式雖然能夠在一定程度上提升深度網絡訓練的穩定性，但隨著模型層數持續增加，淺層關鍵信息容易被稀釋或丟失，造成算力資源的浪費，并導致訓練效率下降、穩定性不足等突出問題。針對上述行業共性難題，Kimi研發團隊提出的注意力殘差方案實現了精準破解：通過讓模型每一層選擇性關注此前各層的輸出，替代傳統模式中"盲目統一求和"的信息處理方式，從而實現"按需篩選信息"的精準高效運算。

實測數據驗證了該技術的顯著成效。

將注意力殘差技術應用于Kimi Linear 48B參數模型后，訓練效率實現1.25倍的提升，這意味著在達到同等性能表現的前提下，可節省約20%的計算量；與此同時，模型在復雜推理場景中的表現亦獲得顯著提升，而推理延遲的增幅被控制在不足2%的范圍內。這一"降本增效"的技術特性，與當前全球AI大模型領域追求高效化、輕量化的發展趨勢高度契合。

這項重要技術成果的背后，是月之暗面團隊長期的潛心攻關與協同創新。該研究由Kimi三位聯合創始人楊植麟、吳育昕、周昕宇共同帶隊，數十名研究員參與推進。

值得關注的是，這篇引發國際熱議的論文中，共同第一作者名單里出現了一位17歲研究者陳廣宇的名字，他與RoPE旋轉位置編碼提出者蘇劍林、Kimi Linear架構第一作者張宇并列署名。

一年前，陳廣宇剛開始了解大模型的，是從北京的一場黑客松開始，一路走向硅谷的。

2025年2月，他在此展示“人類第三只機械輔助手”ThirdArm項目，結識評委董科含，后者成為他的創業導師。在董科含指引下，他放棄跨境電商、短視頻運營，轉向深耕底層技術。彼時不懂Transformer的他，在DeepSeek研究員袁境陽的指導下，借助Gemini研讀論文、追蹤開源項目，逐步建立認知。

他在社交媒體上分享博客反思時，意外被硅谷一家AI初創公司CEO關注，且通過一項限時通宵實驗測試獲得錄用，暑假前往舊金山實習七周。實習結束后，他回國并在11月加入月之暗面。實際上，正是GitHub上的Flash Linear Attention項目，吸引了他對機器學習的興趣并被邀請加入Kimi團隊。

此次的論文發表讓Kimi在經歷發展周期的起伏后，重新回歸行業焦點中心。早期因戰略調整中過早轉向C端規模化擴張，相對忽視了基礎技術的持續迭代，疊加行業競爭格局的急劇變化，Kimi一度陷入發展低谷。2025年中期，月之暗面完成全面的內部戰略復盤，及時調整發展方向，將核心重心重新聚焦于基礎模型的研發創新。

經過近一年的技術沉淀與積累，公司于2026年1月發布的Kimi K2.5模型成功登頂Artificial Analysis開源榜，提前向外界彰顯了其技術實力的回歸；而此次3月發布的注意力殘差技術論文，則進一步推動Kimi重回全球AI行業的聚光燈下。

來源：星河商業觀察

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.