![]()
三星發布MeKi,用手機ROM擴容大模型,性能媲美更大模型。
隨著三星最新一代旗艦手機 Samsung Galaxy S26 的正式發布,移動端AI體驗迎來了質的飛躍。新機集成了多種創新AI功能以及多款AI智能體。這些AI應用極大地豐富了用戶的日常體驗,也標志著智能手機正逐步轉型為高度智能化的個人助理平臺。然而,支撐這些復雜功能的背后,是對端側大模型性能與效率的極致追求。
最近,三星研究院在上月發布了題為《MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling》的端側大模型架構,提出一種全新的大模型擴展思路——通過存儲空間來擴展模型容量、提升LLM的性能,而非依賴激活參數量和計算量的提升,這種新范式為在邊緣設備部署高性能LLM提供了新的解決方案。
與傳統的部署方式不同,MeKi架構巧妙地利用了手機上豐富的ROM存儲空間,而非僅僅受限于RAM。在移動端 SoC 上,從ROM進行查找讀取的操作相對廉價且能效高,且ROM帶寬在大模型推理期間通常處于閑置狀態,MeKi利用這一特性將ROM轉化為模型知識的擴展存儲庫,從而緩解了內存(RAM)的壓力。這種設計在不增加計算量(FLOPs)和推理時延的前提下,實現了模型容量與性能的顯著提升。
文章地址:https://www.arxiv.org/pdf/2602.03359
項目主頁:https://github.com/ningding-o/MeKi
![]()
01
核心痛點:邊緣部署的計算與內存困境
當前大模型的主流擴展路徑(增大參數量、提升推理時計算量)在數據中心表現優異,但在智能手機等邊緣設備上面臨致命瓶頸:
- 稠密模型參數量增加會導致浮點運算(FLOPs)激增,帶來不可接受的延遲和功耗;
- 混合專家(MoE)架構雖通過稀疏激活降低單token計算量,但頻繁加載離散專家權重會造成嚴重的內存訪問延遲,成為邊緣設備的主要性能瓶頸;
- 邊緣設備的RAM和NPU資源有限,而ROM帶寬在推理過程中大量閑置,現有方案未充分利用這一資源優勢。
據此,研究團隊提出了本文的核心動機:能否在不增加推理延遲和計算量的前提下,通過利用存儲空間實現模型容量的有效擴展?
![]()
02
MeKi:將存儲內容注入推理過程的LLM架構
MeKi(Memory-based Expert Knowledge Injection)通過"存儲替代計算"的設計思路,實現模型容量與計算成本的解耦,其核心架構包含三大關鍵組件:
1. token級專家知識:靜態與動態知識融合
MeKi為每個Transformer層配備專屬的知識庫,將其視為token級專家的集合,用來存儲在預訓練階段學習到的語義知識。每個token的專家向量由兩部分融合而成:
- 靜態知識:通過token ID從一個靜態的詞嵌入矩陣中直接查詢,存儲基礎語義知識;
- 動態知識:在訓練階段通過非線性投影從全局詞嵌入中合成特定的特征向量,增強表示能力;
兩者經過歸一化處理后,由逐層可學習的系數進行加權調節,形成最終的專家知識向量。
模型每層所用的專家知識庫的大小為 ,為了控制ROM空間的占用,我們控制知識向量的維度 遠小于模型的hidden size ( )。
2. 低秩門控融合:高效的知識注入機制
為了將專家知識高效率的注入到Transformer的前向傳播過程中,MeKi采用了一種低秩空間下的加法門控融合策略:
首先利用低秩線性投影和激活函數利用輸入FFN模塊的token hidden state來生成與上下文相關的低維門控信號(維度為 ),門控信號與檢索到的專家知識向量相加,從而實現了hidden state與知識的動態融合;融合后的embedding(維度為 )經過升維的線性投影被映射回模型維度( ),最終通過殘差連接融入主數據流。
該設計使得MeKi模塊可以與FFN模塊并行運行,實現模型容量的隱式擴展,且低秩空間下的融合操作擁有很少的FLOPs開銷,幾乎不會增加額外計算量。
3. 重參數化策略:訓練復雜度與推理效率的平衡
為解決訓練階段的計算復雜與推理階段需要高效部署的矛盾,MeKi提出使用重參數化技術來進一步降低推理階段的FLOPs開銷。
在訓練階段,MeKi保留動態的非線性投影等復雜結構,最大化模型的表征學習能力;部署之前,將MeKi模塊中的動態投影和歸一化層等操作進行預先計算、并融合成為統一的靜態查找表,形成緊湊的ROM存儲結構;在推理時,MeKi僅需通過token ID進行查找,其I/O過程以及輕量級特征融合可以實現幾乎零延遲的極低額外開銷。
03
實驗驗證:端側性能與推理效率的雙重突破
研究團隊在基于Qualcomm Snapdragon 8 Elite的安卓移動平臺上,對激活參數量為0.6B、1.7B、4B三個規模的MeKi模型進行了全面驗證,核心結果如下:
1.性能對標更大參數量的模型:MeKi-1.7B模型在10個下游基準測試中平均得分59.7,與4B稠密模型(60.5)性能相當;
2.推理效率保持最優水平:MeKi通過將知識權重卸載到ROM空間,保持與同參數量稠密模型一致的推理速度:MeKi-1.7B模型在端側的解碼速度達13.7 token/s,是4B稠密模型(6.1 token/s)的2.26倍;
![]()
3.極低的ROM帶寬需求:重參數化之后的推理階段僅需少量的內存查找操作,對于28層的Transformer模型,每個token所需的ROM數據傳輸量僅為14KB,完全適配移動設備的存儲帶寬。
4.超越同期其他基于存儲的LLM架構: MeKi-1.7B在10項下游任務上的平均得分為59.7,與DeepMind的PLE(57.0分)和DeepSeek的Engram(57.9分)等ROM擴展方案相比,分別超出了2.7和1.8個百分點,驗證了本方法在融合ROM知識的機制上的優越性。
![]()
04
關鍵洞察:架構設計消融分析
研究團隊通過一系列的消融實驗進一步揭示了MeKi架構性能優勢的核心來源:
?靜態知識+動態知識的融合:作者在0.6B參數量的模型上實驗了兩種知識來源的協同作用,與只使用單一知識來源的變體相比,兩種知識互補之后分別提升了0.7和0.8個點,驗證了知識互補的價值;
![]()
?最優的知識注入位置:作者實驗了將MeKi模塊插入到模型中的不同位置上,其中MeKi與FFN并行的部署方式效果最佳,較其他位置(例如與Attention并行、放在FFN之后)平均提升0.4-0.8個百分點;
![]()
![]()
?最優的融合方式:在對token 的hidden state和ROM專家知識進行融合時,作者提出了 “相乘后Sigmoid”、“相加后Sigmoid”、“相乘后SiLU”、“相加后SiLU”四種門控融合策略,其中相加后Sigmoid方案的Training Loss最低,實驗得到的模型性能最優;
![]()
![]()
?知識庫容量的擴展定律:作者通過實驗證明了MeKi架構的模型性能會隨著ROM中存儲的知識容量呈對數線性增長,通過改變預訓練階段的知識向量維度( )即可調整模型的知識容量。為了實現性能與存儲成本的平衡,作者將MeKi-0.6B模型的 設置為128,MeKi-1.7B模型的 設置為256。
![]()
05
總結與展望
MeKi架構打破了"性能提升依賴計算量增加"的傳統認知,通過"ROM替代RAM"的內存化擴展范式,首次實現了邊緣設備上"零延遲開銷+大模型性能"的雙重目標。,為智能手機、物聯網設備等邊緣場景部署高性能LLM提供了全新思路。
對于深度集成AI功能的手機產品,MeKi架構意味著用戶可以運行性能更強大的本地大模型,在保護隱私的前提下,享受更精準的智能體服務和更流暢的影像處理體驗,而無需擔心網絡延遲導致的體驗割裂,這手機真正地成為了懂知識、懂場景的“私人口袋專家”。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.