網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

馬斯克點(diǎn)贊！深圳17歲高中生破解AI難題

2026-03-18 21:33:24　來源: 廣東發(fā)布

廣東舉報(bào)

分享至

3月16日

埃隆·馬斯克在社交平臺發(fā)文稱

Kimi這項(xiàng)工作“令人印象深刻”

（Impressive work from Kimi）

將中國人工智能公司月之暗面

（Moonshot AI）Kimi團(tuán)隊(duì)一項(xiàng)新近公開的

技術(shù)成果帶入更多公眾視野

隨后

這篇同日發(fā)布的技術(shù)論文中

排在作者名單第一位的“Guangyu Chen”

因其“17歲高中生”身份

引發(fā)社交平臺關(guān)注

經(jīng)聯(lián)系核實(shí)得知，這位作者即陳廣宇，來自深圳，目前仍是一名在讀高中生。陳廣宇在接受采訪時表示，希望外界少寫個人、多寫技術(shù)和團(tuán)隊(duì)，不要為了熱點(diǎn)突出個人，這項(xiàng)工作是團(tuán)隊(duì)共同完成的成果。

公開論文附錄顯示，Guangyu Chen、Yu Zhang、Jianlin Su前三位作者均被標(biāo)注為“同等貢獻(xiàn)”（Equal contribution），其余34位作者姓名后均未見這一標(biāo)注。與陳廣宇并列共同一作的另外兩人，分別是張宇和蘇劍林。前者是Kimi高效模型架構(gòu)的重要研究者，后者則是大模型領(lǐng)域知名研究者，其提出的旋轉(zhuǎn)位置編碼（RoPE）已成為主流大模型廣泛采用的位置編碼方法之一。

這項(xiàng)成果受到關(guān)注，不僅因?yàn)樽髡呙麊沃谐霈F(xiàn)了一名高中生，且位列共同一作，也因?yàn)樗|及了大模型一塊長期沿用、卻較少進(jìn)入公眾視野的底層結(jié)構(gòu)。

今天主流大模型大多建立在Transformer架構(gòu)之上。可以說，沒有2017年提出的Transformer，就很難有后來這一輪生成式人工智能的快速發(fā)展。它改變了文本內(nèi)部的信息處理方式，但模型層與層之間如何傳遞信息，長期仍沿用較為固定的辦法。包括OpenAI聯(lián)合創(chuàng)始人伊爾亞·蘇茨克維在內(nèi)，一些研究者都曾思考，這種連接方式是否還能被改寫。

過去常用的是“殘差連接”。簡單說，就是每算完一層，就把前面的信息直接加到下一層。這樣做簡單有效，但層數(shù)一深，真正重要的信息也容易被不斷累加的內(nèi)容沖淡。

Kimi團(tuán)隊(duì)這次提出的“注意力殘差”（Attention Residuals），就是想解決這個問題。它不再讓每一層無差別接收前面所有層的信息，而是由當(dāng)前層按需選擇更值得參考的內(nèi)容再加以聚合。通俗地說，過去像把所有資料整包往后傳，現(xiàn)在更像先翻一遍，再挑出最有用的幾頁帶走。

傳統(tǒng)殘差連接與注意力殘差結(jié)構(gòu)對比圖。

這項(xiàng)工作的意義在于，它提供了另一條思路：大模型能力提升，未必只能靠堆參數(shù)、堆算力，也可以從底層結(jié)構(gòu)入手，提高信息利用效率。公開材料顯示，這一方法已在Kimi Linear 48B模型上完成驗(yàn)證，在相近效果下訓(xùn)練計(jì)算量可減少約20%，相當(dāng)于約1.25倍效率優(yōu)勢，推理延遲增加不到2%，且可直接替換標(biāo)準(zhǔn)殘差連接。相關(guān)解讀認(rèn)為，引入“注意力殘差”后，模型設(shè)計(jì)可能重新關(guān)注“加深深度”這一路徑，而不只是繼續(xù)向更大參數(shù)規(guī)模擴(kuò)展。

陳廣宇真正深入接觸人工智能研究，是近一年的事。起步階段，他通過研讀經(jīng)典論文、追蹤GitHub開源項(xiàng)目等方式補(bǔ)上基礎(chǔ)認(rèn)知。后來，他因在社交平臺上分享對技術(shù)博客的反思，引起一家硅谷AI初創(chuàng)公司CEO關(guān)注，并在通過一項(xiàng)限時實(shí)驗(yàn)測試后獲得實(shí)習(xí)機(jī)會。暑假期間，他前往美國實(shí)習(xí)七周，回國后于去年11月到Kimi團(tuán)隊(duì)實(shí)習(xí)。

陳廣宇個人網(wǎng)站，列有其參與的多個項(xiàng)目。

論文發(fā)布后，他在朋友圈回顧這段經(jīng)歷時，特別提到同等貢獻(xiàn)作者（Equal contribution）以及從事模型擴(kuò)展與基礎(chǔ)設(shè)施（scaling、infra）工作的同事，稱這項(xiàng)工作“缺一不可”。

在接受采訪時，陳廣宇多次重復(fù)同樣的意思：不要“造神”，不希望被寫成突出個人的故事。對這名來自深圳的17歲少年而言，比起被寫成“天才”，他更希望外界看到的，是一項(xiàng)團(tuán)隊(duì)共同完成的研究，以及它試圖解決的大模型底層難題。

17歲的年紀(jì)

一作的成果，謙虛的態(tài)度

為陳廣宇點(diǎn)贊

News

來源 | 深圳發(fā)布

編輯 | 卓映紫

校對 | 王睿

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.