網易首頁 > 網易號 > 正文申請入駐

三星研究院發布手機端側大模型MeKi：基于Memory的LLM擴展新范式，支持旗艦手機端側部署

2026-03-04 23:38:18　來源: AI科技評論

廣東舉報

分享至

三星發布MeKi，用手機ROM擴容大模型，性能媲美更大模型。

隨著三星最新一代旗艦手機 Samsung Galaxy S26 的正式發布，移動端AI體驗迎來了質的飛躍。新機集成了多種創新AI功能以及多款AI智能體。這些AI應用極大地豐富了用戶的日常體驗，也標志著智能手機正逐步轉型為高度智能化的個人助理平臺。然而，支撐這些復雜功能的背后，是對端側大模型性能與效率的極致追求。

最近，三星研究院在上月發布了題為《MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling》的端側大模型架構，提出一種全新的大模型擴展思路——通過存儲空間來擴展模型容量、提升LLM的性能，而非依賴激活參數量和計算量的提升，這種新范式為在邊緣設備部署高性能LLM提供了新的解決方案。

與傳統的部署方式不同，MeKi架構巧妙地利用了手機上豐富的ROM存儲空間，而非僅僅受限于RAM。在移動端 SoC 上，從ROM進行查找讀取的操作相對廉價且能效高，且ROM帶寬在大模型推理期間通常處于閑置狀態，MeKi利用這一特性將ROM轉化為模型知識的擴展存儲庫，從而緩解了內存（RAM）的壓力。這種設計在不增加計算量（FLOPs）和推理時延的前提下，實現了模型容量與性能的顯著提升。

文章地址：https://www.arxiv.org/pdf/2602.03359

項目主頁：https://github.com/ningding-o/MeKi

核心痛點：邊緣部署的計算與內存困境

當前大模型的主流擴展路徑（增大參數量、提升推理時計算量）在數據中心表現優異，但在智能手機等邊緣設備上面臨致命瓶頸：

- 稠密模型參數量增加會導致浮點運算（FLOPs）激增，帶來不可接受的延遲和功耗；

- 混合專家（MoE）架構雖通過稀疏激活降低單token計算量，但頻繁加載離散專家權重會造成嚴重的內存訪問延遲，成為邊緣設備的主要性能瓶頸；

- 邊緣設備的RAM和NPU資源有限，而ROM帶寬在推理過程中大量閑置，現有方案未充分利用這一資源優勢。

據此，研究團隊提出了本文的核心動機：能否在不增加推理延遲和計算量的前提下，通過利用存儲空間實現模型容量的有效擴展？

MeKi：將存儲內容注入推理過程的LLM架構

MeKi（Memory-based Expert Knowledge Injection）通過"存儲替代計算"的設計思路，實現模型容量與計算成本的解耦，其核心架構包含三大關鍵組件：

1. token級專家知識：靜態與動態知識融合

MeKi為每個Transformer層配備專屬的知識庫，將其視為token級專家的集合，用來存儲在預訓練階段學習到的語義知識。每個token的專家向量由兩部分融合而成：

- 靜態知識：通過token ID從一個靜態的詞嵌入矩陣中直接查詢，存儲基礎語義知識；

- 動態知識：在訓練階段通過非線性投影從全局詞嵌入中合成特定的特征向量，增強表示能力；

兩者經過歸一化處理后，由逐層可學習的系數進行加權調節，形成最終的專家知識向量。

模型每層所用的專家知識庫的大小為，為了控制ROM空間的占用，我們控制知識向量的維度遠小于模型的hidden size ( )。

2. 低秩門控融合：高效的知識注入機制

為了將專家知識高效率的注入到Transformer的前向傳播過程中，MeKi采用了一種低秩空間下的加法門控融合策略：

首先利用低秩線性投影和激活函數利用輸入FFN模塊的token hidden state來生成與上下文相關的低維門控信號（維度為），門控信號與檢索到的專家知識向量相加，從而實現了hidden state與知識的動態融合；融合后的embedding（維度為）經過升維的線性投影被映射回模型維度( )，最終通過殘差連接融入主數據流。

該設計使得MeKi模塊可以與FFN模塊并行運行，實現模型容量的隱式擴展，且低秩空間下的融合操作擁有很少的FLOPs開銷，幾乎不會增加額外計算量。

3. 重參數化策略：訓練復雜度與推理效率的平衡

為解決訓練階段的計算復雜與推理階段需要高效部署的矛盾，MeKi提出使用重參數化技術來進一步降低推理階段的FLOPs開銷。

在訓練階段，MeKi保留動態的非線性投影等復雜結構，最大化模型的表征學習能力；部署之前，將MeKi模塊中的動態投影和歸一化層等操作進行預先計算、并融合成為統一的靜態查找表，形成緊湊的ROM存儲結構；在推理時，MeKi僅需通過token ID進行查找，其I/O過程以及輕量級特征融合可以實現幾乎零延遲的極低額外開銷。

實驗驗證：端側性能與推理效率的雙重突破

研究團隊在基于Qualcomm Snapdragon 8 Elite的安卓移動平臺上，對激活參數量為0.6B、1.7B、4B三個規模的MeKi模型進行了全面驗證，核心結果如下：

1.性能對標更大參數量的模型：MeKi-1.7B模型在10個下游基準測試中平均得分59.7，與4B稠密模型（60.5）性能相當；

2.推理效率保持最優水平：MeKi通過將知識權重卸載到ROM空間，保持與同參數量稠密模型一致的推理速度：MeKi-1.7B模型在端側的解碼速度達13.7 token/s，是4B稠密模型（6.1 token/s）的2.26倍；

3.極低的ROM帶寬需求：重參數化之后的推理階段僅需少量的內存查找操作，對于28層的Transformer模型，每個token所需的ROM數據傳輸量僅為14KB，完全適配移動設備的存儲帶寬。

4.超越同期其他基于存儲的LLM架構： MeKi-1.7B在10項下游任務上的平均得分為59.7，與DeepMind的PLE（57.0分）和DeepSeek的Engram（57.9分）等ROM擴展方案相比，分別超出了2.7和1.8個百分點，驗證了本方法在融合ROM知識的機制上的優越性。

關鍵洞察：架構設計消融分析

研究團隊通過一系列的消融實驗進一步揭示了MeKi架構性能優勢的核心來源：

?靜態知識+動態知識的融合：作者在0.6B參數量的模型上實驗了兩種知識來源的協同作用，與只使用單一知識來源的變體相比，兩種知識互補之后分別提升了0.7和0.8個點，驗證了知識互補的價值；

?最優的知識注入位置：作者實驗了將MeKi模塊插入到模型中的不同位置上，其中MeKi與FFN并行的部署方式效果最佳，較其他位置（例如與Attention并行、放在FFN之后）平均提升0.4-0.8個百分點；

?最優的融合方式：在對token 的hidden state和ROM專家知識進行融合時，作者提出了 “相乘后Sigmoid”、“相加后Sigmoid”、“相乘后SiLU”、“相加后SiLU”四種門控融合策略，其中相加后Sigmoid方案的Training Loss最低，實驗得到的模型性能最優；

?知識庫容量的擴展定律：作者通過實驗證明了MeKi架構的模型性能會隨著ROM中存儲的知識容量呈對數線性增長，通過改變預訓練階段的知識向量維度（）即可調整模型的知識容量。為了實現性能與存儲成本的平衡，作者將MeKi-0.6B模型的設置為128，MeKi-1.7B模型的設置為256。

總結與展望

MeKi架構打破了"性能提升依賴計算量增加"的傳統認知，通過"ROM替代RAM"的內存化擴展范式，首次實現了邊緣設備上"零延遲開銷+大模型性能"的雙重目標。，為智能手機、物聯網設備等邊緣場景部署高性能LLM提供了全新思路。

對于深度集成AI功能的手機產品，MeKi架構意味著用戶可以運行性能更強大的本地大模型，在保護隱私的前提下，享受更精準的智能體服務和更流暢的影像處理體驗，而無需擔心網絡延遲導致的體驗割裂，這手機真正地成為了懂知識、懂場景的“私人口袋專家”。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.