![]()
智東西
編譯 劉煜
編輯 陳駿達(dá)
智東西4月14日?qǐng)?bào)道,4月12號(hào),在智能電動(dòng)汽車(chē)發(fā)展高層論壇上,第三方智能駕駛解決方案供應(yīng)商元戎啟行CEO周光首次證實(shí),DeepSeek多模態(tài)核心研究員阮翀已加盟該公司,并擔(dān)其首席科學(xué)家。周光稱(chēng),阮翀將在2026年的北京車(chē)展首次公開(kāi)發(fā)表演講。
早在今年1月份,騰訊汽車(chē)媒體就曾援引獨(dú)立信源消息,稱(chēng)阮翀已正式加盟元戎啟行。不過(guò)彼時(shí)元戎啟行并未對(duì)此作出官方回應(yīng)。
元戎啟行的新成員阮翀,他于2018年從北京大學(xué)畢業(yè),并且同時(shí)擁有計(jì)算機(jī)科學(xué)學(xué)士學(xué)位和計(jì)算語(yǔ)言學(xué)碩士學(xué)位。其中屬于計(jì)算語(yǔ)言學(xué)范疇的自然語(yǔ)言處理(NLP)是他碩士期間的研究方向。
![]()
▲阮翀的學(xué)歷(圖源:領(lǐng)英)
本科期間,阮翀以訪問(wèn)學(xué)者身份赴美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)交流,歷時(shí)約4個(gè)月。在CMU時(shí)他師從Victor Adamchik教授,圍繞格羅比納基(Groebner Basis)開(kāi)展研究,成功實(shí)現(xiàn)用最少數(shù)量的多項(xiàng)式方程對(duì)數(shù)獨(dú)規(guī)則進(jìn)行代數(shù)建模,其相關(guān)成果是計(jì)算代數(shù)相關(guān)領(lǐng)域的原創(chuàng)性突破。
![]()
▲阮翀?jiān)贑MU的訪學(xué)交流經(jīng)歷(圖源:領(lǐng)英)
據(jù)領(lǐng)英公開(kāi)信息查證,從2017年3月開(kāi)始,阮翀?jiān)谧鲋悄茌斎敕āI語(yǔ)言技術(shù)的公司Kika Tech(觸寶)實(shí)習(xí),實(shí)習(xí)共計(jì)約4個(gè)月。
在Kika Tech實(shí)習(xí)期間,他以第一作者身份在2018年計(jì)算語(yǔ)言學(xué)國(guó)際會(huì)議(CICLING)發(fā)表論文《Sparse Word Representation for RNN Language Models on Cellphones》,完成了口頭報(bào)告。
![]()
▲阮翀?jiān)贙ika的實(shí)習(xí)經(jīng)歷(圖源:領(lǐng)英)
結(jié)束上一段實(shí)習(xí)之后,阮翀接著去到網(wǎng)易有道信息技術(shù)(北京)有限公司開(kāi)始了其5個(gè)月的實(shí)習(xí)。實(shí)習(xí)期間,他參與實(shí)現(xiàn)iPhone 6及以上設(shè)備端0.1秒/句的離線翻譯性能,該成果最終集成至有道翻譯官APP的離線翻譯功能,成功完成了產(chǎn)品化落地。
![]()
▲阮翀?jiān)诰W(wǎng)易有道公司的實(shí)習(xí)經(jīng)歷(圖源:領(lǐng)英)
阮翀于2023年加入了DeepSeek擔(dān)任研究員,他曾參與了DeepSeek-VL/VL2以及Janus系列等多模態(tài)模型的研發(fā)。
據(jù)DBLP(計(jì)算機(jī)科學(xué)文獻(xiàn)數(shù)字圖書(shū)館)記錄,他與DeepSeek創(chuàng)始人梁文鋒共同署名發(fā)表了9篇論文。阮翀發(fā)表的這些論文為Deepseek大模型推理、高效注意力機(jī)制等核心技術(shù)突破作出了關(guān)鍵貢獻(xiàn)。
阮翀以DeepSeek-VL模型研究負(fù)責(zé)人的身份參與了題為《DeepSeek-VL: Towards Real-World Vision-Language Understanding》的論文研究。
該研究聚焦真實(shí)場(chǎng)景下的視覺(jué)與語(yǔ)言理解難題,針對(duì)文檔、圖表、OCR以及網(wǎng)頁(yè)截圖等復(fù)雜實(shí)際場(chǎng)景,實(shí)現(xiàn)了DeepSeek-VL細(xì)粒度圖文理解能力,同時(shí)通過(guò)優(yōu)化訓(xùn)練策略,一定程度上避免了多模態(tài)模型常見(jiàn)的語(yǔ)言能力退化問(wèn)題。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
之后,阮翀亦以負(fù)責(zé)人的身份參與了《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》一文的研究工作。
該研究面向高階多模態(tài)理解任務(wù),提出了混合專(zhuān)家(MoE)架構(gòu)的視覺(jué)語(yǔ)言模型DeepSeek-VL2,通過(guò)動(dòng)態(tài)分塊視覺(jué)編碼與高效MoE語(yǔ)言主干設(shè)計(jì),在DeepSeek-VL基礎(chǔ)上進(jìn)一步提升DeepSeek-VL2在真實(shí)場(chǎng)景下的理解能力與推理效率,在主流多模態(tài)基準(zhǔn)上取得了一定程度上的領(lǐng)先性能。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
同時(shí),阮翀還作為作者之一,發(fā)表了題為《Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation》的Janus模型相關(guān)論文。
該研究提出了一套解耦視覺(jué)編碼的統(tǒng)一多模態(tài)框架Janus,通過(guò)分別構(gòu)建面向理解與面向生成的獨(dú)立視覺(jué)編碼通路,在同一自回歸架構(gòu)下同時(shí)實(shí)現(xiàn)了強(qiáng)大的多模態(tài)理解與高質(zhì)量圖像生成能力,有效解決了單一編碼器難以兼顧兩類(lèi)任務(wù)的技術(shù)瓶頸。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
在阮翀發(fā)表的多篇論文中,他參與撰寫(xiě)的一篇題為《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的論文,獲得了2025年NLP與計(jì)算語(yǔ)言學(xué)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議ACL的最佳論文獎(jiǎng)。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
而后,他參與撰寫(xiě)的另一篇論文《DeepSeek-R1: Incentivizing Reasoning in LLMs through Reinforcement Learning》,于同年9月刊登于國(guó)際權(quán)威期刊《自然》(Nature),并登上當(dāng)期封面。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
除上述研究外,阮翀還以第三作者身份,撰寫(xiě)了題為《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》的文章。
從論文內(nèi)容可見(jiàn),阮翀深度參與了DeepSeek-V3面向H800集群的整體方案設(shè)計(jì),圍繞計(jì)算、內(nèi)存與通信等關(guān)鍵硬件瓶頸開(kāi)展架構(gòu)優(yōu)化工作。
他不僅參與MoE混合專(zhuān)家架構(gòu)的工程化落地,解決大規(guī)模訓(xùn)練中計(jì)算與通信的效率平衡問(wèn)題,還在MLA等新型注意力機(jī)制的設(shè)計(jì)與實(shí)現(xiàn)中承擔(dān)核心工作,為突破模型硬件協(xié)同瓶頸、提升大模型規(guī)模化訓(xùn)練與推理效率提供了關(guān)鍵技術(shù)支撐。
![]()
▲圖為阮翀發(fā)表的論文和作者名單(圖源:DBLP)
可見(jiàn),阮翀?jiān)贏I大模型底層技術(shù)領(lǐng)域擁有寶貴的技術(shù)開(kāi)發(fā)經(jīng)驗(yàn)。
阮翀此次加入的元戎啟行公司成立于2019年,主要為車(chē)企設(shè)計(jì)智駕系統(tǒng)。
元戎啟行已與多家車(chē)企建立合作,現(xiàn)已有25萬(wàn)輛搭載其城市領(lǐng)航輔助駕駛方案的車(chē)輛進(jìn)入消費(fèi)者市場(chǎng),覆蓋長(zhǎng)城、吉利以及smart等多個(gè)品牌。
截至目前,元戎啟行已完成6輪融資,累計(jì)融資金額超7億美元(約合人民幣47.82億元)。今年4月初,據(jù)36氪汽車(chē)報(bào)道,元戎啟行已向港交所秘密遞交上市材料,計(jì)劃于今年年內(nèi)在港交所掛牌上市。
結(jié)語(yǔ):大模型人才跨界合作,打通AI與自動(dòng)駕駛技術(shù)壁壘
目前,傳統(tǒng)智能駕駛多采用感知、預(yù)測(cè)、規(guī)劃、控制分模塊獨(dú)立優(yōu)化的技術(shù)路線,存在信息割裂、迭代效率偏低、數(shù)據(jù)利用率不高等痛點(diǎn)。
阮翀作為AI大模型領(lǐng)域核心人才加盟元戎啟行,或可憑借其在多模態(tài)對(duì)齊、大模型推理效率優(yōu)化及稀疏架構(gòu)設(shè)計(jì)等方面的深厚積累,在一定程度上為該公司VLA基座模型的規(guī)模化量產(chǎn)落地提供技術(shù)支撐,從而增強(qiáng)其產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.