#3月·每日幸運簽#
3月16日晚上,馬斯克在社交平臺上發了句話:Kimi這項工作令人印象深刻。
![]()
他說的是一項剛公開的AI技術成果。論文發表當天,作者名單里排第一的名字是Guangyu Chen。很快有人發現,這是個17歲的高中生,來自深圳,目前還在讀高三。
陳廣宇。這個名字一夜之間出現在無數人的手機上。
他做了什么?簡單說,他和Kimi團隊的同事們一起,動了一個很多年沒人動過的地方。
現在所有大模型都建立在一種叫Transformer的架構上。這個架構2017年提出來,之后這些年,模型越做越大,參數越堆越多,但層與層之間怎么傳信息,一直用的是一種叫殘差連接的辦法。打個比方,就像每一層算完后,把前面所有的資料整包往后傳。層數淺的時候沒問題,但一深到上百層,真正重要的信息反而被不斷累加的內容沖淡了。
OpenAI的聯合創始人伊爾亞·蘇茨克維都琢磨過這事,覺得這里頭還有文章可做。
Kimi團隊這次提的叫注意力殘差。不再是整包傳,而是讓每一層自己挑,哪些信息值得帶走,哪些可以放下。過去像搬整箱書,現在更像先翻一遍,挑有用的幾頁拿走。
效果呢?在48B參數的模型上試過,訓練計算量能省20%左右,推理延遲增加不到2%。效率提升了1.25倍。
這事有意思的地方在于,它給了AI圈一個提醒:想提升模型能力,不一定非拼誰算力多、誰參數大,從底層結構入手也是一條路。
但真正讓人好奇的是,一個17歲的高中生,怎么坐到這個位置上的?
陳廣宇真正深入接觸AI,是近一年的事。起步靠讀論文、刷GitHub開源項目,一點點補基礎。后來他在社交平臺上分享對技術博客的反思,被一個硅谷AI公司的CEO注意到。對方給他出了個限時實驗測試,他過了。去年暑假,他飛去舊金山實習了七周,回國后11月加入Kimi團隊。
他不是那種突然冒出來的天才。他有競技編程背景,參加過美國計算機奧林匹克競賽鉑金組比賽,在Kimi內部拿過48小時黑客馬拉松冠軍。入選過羅德信托的高潛力未來領袖計劃,那是面向全球15到17歲青少年的選拔。
但論文出來之后,他說得最多的一句話是:不要造神。
他在朋友圈復盤時,特意感謝了三位同等貢獻作者,還有做模型擴展和基礎設施的同事。說這項工作缺一不可。接受采訪時反復強調,希望外界少寫個人、多寫技術和團隊,這是大家共同完成的成果。
有網友評論說,這小孩厲害的不只是腦子,還有情商。
還有評論說,17歲的年紀,這么清醒,比技術本身更難得。
其實仔細看論文附錄,前三位作者Guangyu Chen、Yu Zhang、Jianlin Su都被標注了同等貢獻。張宇是Kimi高效模型架構的核心研發,蘇劍林是大模型圈子里很知名的人,旋轉位置編碼RoPE就是他提的。陳廣宇和他們并列共同一作,背后是真正參與、真正貢獻,不是掛名。
這件事最觸動人的,可能不是天才敘事,而是另一個事實:一個17歲的深圳高中生,用一年時間,從零基礎走到AI研究最前沿,在頂級的團隊里和頂尖的同行一起,動手改變了一個沿用近十年的底層結構。
有媒體寫他時用了小孩哥這個稱呼。但陳廣宇自己顯然不想被架到那個位置上。他說得很清楚,這是團隊的事,不是個人的事。
對他而言,比起被當成天才,更想被看到的,是那個需要幾十個人一起使勁才能解決的問題,以及它試圖打開的那條路。
17歲,排第一位作者,馬斯克點贊。這些標簽足夠讓一個人被反復書寫。但真正讓這件事值得記住的,可能不是這些標簽,而是那個站在流量中心卻反復說不要造神的人。
深圳那塊土地上,每年都有很多孩子冒出來。有的因為解題,有的因為發明,有的因為一篇文章。陳廣宇是其中一個。他讓人看到的不是神話,而是一個路徑:自學,實習,進團隊,做實事,然后安靜地站在成果后面。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.