3月16日
埃隆·馬斯克在社交平臺發(fā)文稱
Kimi這項(xiàng)工作“令人印象深刻”
(Impressive work from Kimi)
將中國人工智能公司月之暗面
(Moonshot AI)Kimi團(tuán)隊(duì)一項(xiàng)新近公開的
技術(shù)成果帶入更多公眾視野
![]()
隨后
這篇同日發(fā)布的技術(shù)論文中
排在作者名單第一位的“Guangyu Chen”
因其“17歲高中生”身份
引發(fā)社交平臺關(guān)注
![]()
經(jīng)聯(lián)系核實(shí)得知,這位作者即陳廣宇,來自深圳,目前仍是一名在讀高中生。陳廣宇在接受采訪時表示,希望外界少寫個人、多寫技術(shù)和團(tuán)隊(duì),不要為了熱點(diǎn)突出個人,這項(xiàng)工作是團(tuán)隊(duì)共同完成的成果。
公開論文附錄顯示,Guangyu Chen、Yu Zhang、Jianlin Su前三位作者均被標(biāo)注為“同等貢獻(xiàn)”(Equal contribution),其余34位作者姓名后均未見這一標(biāo)注。與陳廣宇并列共同一作的另外兩人,分別是張宇和蘇劍林。前者是Kimi高效模型架構(gòu)的重要研究者,后者則是大模型領(lǐng)域知名研究者,其提出的旋轉(zhuǎn)位置編碼(RoPE)已成為主流大模型廣泛采用的位置編碼方法之一。
這項(xiàng)成果受到關(guān)注,不僅因?yàn)樽髡呙麊沃谐霈F(xiàn)了一名高中生,且位列共同一作,也因?yàn)樗|及了大模型一塊長期沿用、卻較少進(jìn)入公眾視野的底層結(jié)構(gòu)。
今天主流大模型大多建立在Transformer架構(gòu)之上。可以說,沒有2017年提出的Transformer,就很難有后來這一輪生成式人工智能的快速發(fā)展。它改變了文本內(nèi)部的信息處理方式,但模型層與層之間如何傳遞信息,長期仍沿用較為固定的辦法。包括OpenAI聯(lián)合創(chuàng)始人伊爾亞·蘇茨克維在內(nèi),一些研究者都曾思考,這種連接方式是否還能被改寫。
過去常用的是“殘差連接”。簡單說,就是每算完一層,就把前面的信息直接加到下一層。這樣做簡單有效,但層數(shù)一深,真正重要的信息也容易被不斷累加的內(nèi)容沖淡。
Kimi團(tuán)隊(duì)這次提出的“注意力殘差”(Attention Residuals),就是想解決這個問題。它不再讓每一層無差別接收前面所有層的信息,而是由當(dāng)前層按需選擇更值得參考的內(nèi)容再加以聚合。通俗地說,過去像把所有資料整包往后傳,現(xiàn)在更像先翻一遍,再挑出最有用的幾頁帶走。
![]()
傳統(tǒng)殘差連接與注意力殘差結(jié)構(gòu)對比圖。
這項(xiàng)工作的意義在于,它提供了另一條思路:大模型能力提升,未必只能靠堆參數(shù)、堆算力,也可以從底層結(jié)構(gòu)入手,提高信息利用效率。公開材料顯示,這一方法已在Kimi Linear 48B模型上完成驗(yàn)證,在相近效果下訓(xùn)練計(jì)算量可減少約20%,相當(dāng)于約1.25倍效率優(yōu)勢,推理延遲增加不到2%,且可直接替換標(biāo)準(zhǔn)殘差連接。相關(guān)解讀認(rèn)為,引入“注意力殘差”后,模型設(shè)計(jì)可能重新關(guān)注“加深深度”這一路徑,而不只是繼續(xù)向更大參數(shù)規(guī)模擴(kuò)展。
陳廣宇真正深入接觸人工智能研究,是近一年的事。起步階段,他通過研讀經(jīng)典論文、追蹤GitHub開源項(xiàng)目等方式補(bǔ)上基礎(chǔ)認(rèn)知。后來,他因在社交平臺上分享對技術(shù)博客的反思,引起一家硅谷AI初創(chuàng)公司CEO關(guān)注,并在通過一項(xiàng)限時實(shí)驗(yàn)測試后獲得實(shí)習(xí)機(jī)會。暑假期間,他前往美國實(shí)習(xí)七周,回國后于去年11月到Kimi團(tuán)隊(duì)實(shí)習(xí)。
![]()
陳廣宇個人網(wǎng)站,列有其參與的多個項(xiàng)目。
論文發(fā)布后,他在朋友圈回顧這段經(jīng)歷時,特別提到同等貢獻(xiàn)作者(Equal contribution)以及從事模型擴(kuò)展與基礎(chǔ)設(shè)施(scaling、infra)工作的同事,稱這項(xiàng)工作“缺一不可”。
![]()
在接受采訪時,陳廣宇多次重復(fù)同樣的意思:不要“造神”,不希望被寫成突出個人的故事。對這名來自深圳的17歲少年而言,比起被寫成“天才”,他更希望外界看到的,是一項(xiàng)團(tuán)隊(duì)共同完成的研究,以及它試圖解決的大模型底層難題。
17歲的年紀(jì)
一作的成果,謙虛的態(tài)度
為陳廣宇點(diǎn)贊
News
來源 | 深圳發(fā)布
編輯 | 卓映紫
校對 | 王睿
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.