337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

三星研究院發布手機端側大模型MeKi:基于Memory的LLM擴展新范式,支持旗艦手機端側部署

0
分享至


三星發布MeKi,用手機ROM擴容大模型,性能媲美更大模型。

隨著三星最新一代旗艦手機 Samsung Galaxy S26 的正式發布,移動端AI體驗迎來了質的飛躍。新機集成了多種創新AI功能以及多款AI智能體。這些AI應用極大地豐富了用戶的日常體驗,也標志著智能手機正逐步轉型為高度智能化的個人助理平臺。然而,支撐這些復雜功能的背后,是對端側大模型性能與效率的極致追求。

最近,三星研究院在上月發布了題為《MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling》的端側大模型架構,提出一種全新的大模型擴展思路——通過存儲空間來擴展模型容量、提升LLM的性能,而非依賴激活參數量和計算量的提升,這種新范式為在邊緣設備部署高性能LLM提供了新的解決方案。

與傳統的部署方式不同,MeKi架構巧妙地利用了手機上豐富的ROM存儲空間,而非僅僅受限于RAM。在移動端 SoC 上,從ROM進行查找讀取的操作相對廉價且能效高,且ROM帶寬在大模型推理期間通常處于閑置狀態,MeKi利用這一特性將ROM轉化為模型知識的擴展存儲庫,從而緩解了內存(RAM)的壓力。這種設計在不增加計算量(FLOPs)和推理時延的前提下,實現了模型容量與性能的顯著提升。

文章地址:https://www.arxiv.org/pdf/2602.03359

項目主頁:https://github.com/ningding-o/MeKi


01


核心痛點:邊緣部署的計算與內存困境

當前大模型的主流擴展路徑(增大參數量、提升推理時計算量)在數據中心表現優異,但在智能手機等邊緣設備上面臨致命瓶頸:

- 稠密模型參數量增加會導致浮點運算(FLOPs)激增,帶來不可接受的延遲和功耗;

- 混合專家(MoE)架構雖通過稀疏激活降低單token計算量,但頻繁加載離散專家權重會造成嚴重的內存訪問延遲,成為邊緣設備的主要性能瓶頸;

- 邊緣設備的RAM和NPU資源有限,而ROM帶寬在推理過程中大量閑置,現有方案未充分利用這一資源優勢。

據此,研究團隊提出了本文的核心動機:能否在不增加推理延遲和計算量的前提下,通過利用存儲空間實現模型容量的有效擴展?


02


MeKi:將存儲內容注入推理過程的LLM架構

MeKi(Memory-based Expert Knowledge Injection)通過"存儲替代計算"的設計思路,實現模型容量與計算成本的解耦,其核心架構包含三大關鍵組件:

1. token級專家知識:靜態與動態知識融合

MeKi為每個Transformer層配備專屬的知識庫,將其視為token級專家的集合,用來存儲在預訓練階段學習到的語義知識。每個token的專家向量由兩部分融合而成:

- 靜態知識:通過token ID從一個靜態的詞嵌入矩陣中直接查詢,存儲基礎語義知識;

- 動態知識:在訓練階段通過非線性投影從全局詞嵌入中合成特定的特征向量,增強表示能力;

兩者經過歸一化處理后,由逐層可學習的系數進行加權調節,形成最終的專家知識向量。

模型每層所用的專家知識庫的大小為 ,為了控制ROM空間的占用,我們控制知識向量的維度 遠小于模型的hidden size ( )。

2. 低秩門控融合:高效的知識注入機制

為了將專家知識高效率的注入到Transformer的前向傳播過程中,MeKi采用了一種低秩空間下的加法門控融合策略:

首先利用低秩線性投影和激活函數利用輸入FFN模塊的token hidden state來生成與上下文相關的低維門控信號(維度為 ),門控信號與檢索到的專家知識向量相加,從而實現了hidden state與知識的動態融合;融合后的embedding(維度為 )經過升維的線性投影被映射回模型維度( ),最終通過殘差連接融入主數據流。

該設計使得MeKi模塊可以與FFN模塊并行運行,實現模型容量的隱式擴展,且低秩空間下的融合操作擁有很少的FLOPs開銷,幾乎不會增加額外計算量。

3. 重參數化策略:訓練復雜度與推理效率的平衡

為解決訓練階段的計算復雜與推理階段需要高效部署的矛盾,MeKi提出使用重參數化技術來進一步降低推理階段的FLOPs開銷。

在訓練階段,MeKi保留動態的非線性投影等復雜結構,最大化模型的表征學習能力;部署之前,將MeKi模塊中的動態投影和歸一化層等操作進行預先計算、并融合成為統一的靜態查找表,形成緊湊的ROM存儲結構;在推理時,MeKi僅需通過token ID進行查找,其I/O過程以及輕量級特征融合可以實現幾乎零延遲的極低額外開銷。

03


實驗驗證:端側性能與推理效率的雙重突破

研究團隊在基于Qualcomm Snapdragon 8 Elite的安卓移動平臺上,對激活參數量為0.6B、1.7B、4B三個規模的MeKi模型進行了全面驗證,核心結果如下:

1.性能對標更大參數量的模型:MeKi-1.7B模型在10個下游基準測試中平均得分59.7,與4B稠密模型(60.5)性能相當;

2.推理效率保持最優水平:MeKi通過將知識權重卸載到ROM空間,保持與同參數量稠密模型一致的推理速度:MeKi-1.7B模型在端側的解碼速度達13.7 token/s,是4B稠密模型(6.1 token/s)的2.26倍;


3.極低的ROM帶寬需求:重參數化之后的推理階段僅需少量的內存查找操作,對于28層的Transformer模型,每個token所需的ROM數據傳輸量僅為14KB,完全適配移動設備的存儲帶寬。

4.超越同期其他基于存儲的LLM架構: MeKi-1.7B在10項下游任務上的平均得分為59.7,與DeepMind的PLE(57.0分)和DeepSeek的Engram(57.9分)等ROM擴展方案相比,分別超出了2.7和1.8個百分點,驗證了本方法在融合ROM知識的機制上的優越性。


04


關鍵洞察:架構設計消融分析

研究團隊通過一系列的消融實驗進一步揭示了MeKi架構性能優勢的核心來源:

?靜態知識+動態知識的融合:作者在0.6B參數量的模型上實驗了兩種知識來源的協同作用,與只使用單一知識來源的變體相比,兩種知識互補之后分別提升了0.7和0.8個點,驗證了知識互補的價值;


?最優的知識注入位置:作者實驗了將MeKi模塊插入到模型中的不同位置上,其中MeKi與FFN并行的部署方式效果最佳,較其他位置(例如與Attention并行、放在FFN之后)平均提升0.4-0.8個百分點;



?最優的融合方式:在對token 的hidden state和ROM專家知識進行融合時,作者提出了 “相乘后Sigmoid”、“相加后Sigmoid”、“相乘后SiLU”、“相加后SiLU”四種門控融合策略,其中相加后Sigmoid方案的Training Loss最低,實驗得到的模型性能最優;



?知識庫容量的擴展定律:作者通過實驗證明了MeKi架構的模型性能會隨著ROM中存儲的知識容量呈對數線性增長,通過改變預訓練階段的知識向量維度( )即可調整模型的知識容量。為了實現性能與存儲成本的平衡,作者將MeKi-0.6B模型的 設置為128,MeKi-1.7B模型的 設置為256。


05


總結與展望

MeKi架構打破了"性能提升依賴計算量增加"的傳統認知,通過"ROM替代RAM"的內存化擴展范式,首次實現了邊緣設備上"零延遲開銷+大模型性能"的雙重目標。,為智能手機、物聯網設備等邊緣場景部署高性能LLM提供了全新思路。

對于深度集成AI功能的手機產品,MeKi架構意味著用戶可以運行性能更強大的本地大模型,在保護隱私的前提下,享受更精準的智能體服務和更流暢的影像處理體驗,而無需擔心網絡延遲導致的體驗割裂,這手機真正地成為了懂知識、懂場景的“私人口袋專家”。

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗稱成功打擊以色列及美國海軍第五艦隊目標

伊朗稱成功打擊以色列及美國海軍第五艦隊目標

財聯社
2026-03-21 23:48:05
前員工發帖吐槽海底撈工作制度,疑遭四川簡陽警方跨省要求配合核查

前員工發帖吐槽海底撈工作制度,疑遭四川簡陽警方跨省要求配合核查

大風新聞
2026-03-20 17:01:11
克拉拉F1賽車現場太耀眼了!新中式紅裙外搭撞色毛絨外套,美炸了

克拉拉F1賽車現場太耀眼了!新中式紅裙外搭撞色毛絨外套,美炸了

明星私服穿搭daily
2026-03-21 11:50:06
“伊朗沖突后,中國電動汽車在亞太賣爆”

“伊朗沖突后,中國電動汽車在亞太賣爆”

觀察者網
2026-03-20 12:29:03
一拉一燒!不用骨灰盒,裝膠袋扔掉,一廣東博主交代后事,引熱議

一拉一燒!不用骨灰盒,裝膠袋扔掉,一廣東博主交代后事,引熱議

火山詩話
2026-03-20 15:19:13
離那些張口閉口不離宏大敘事的人遠點

離那些張口閉口不離宏大敘事的人遠點

廖保平
2026-03-20 10:14:56
為什么國家衛健委不建立一個統一電子病歷系統?網友回答真相了!

為什么國家衛健委不建立一個統一電子病歷系統?網友回答真相了!

另子維愛讀史
2026-03-20 19:19:48
硬漢!方鏡淇手指錯位經包扎后復位,復位后連做關鍵撲救

硬漢!方鏡淇手指錯位經包扎后復位,復位后連做關鍵撲救

懂球帝
2026-03-21 20:10:08
明十三陵被挖后,怪異之事接連不斷的發生,至今都無法合理地解釋

明十三陵被挖后,怪異之事接連不斷的發生,至今都無法合理地解釋

歷史甄有趣
2026-03-19 16:55:08
狂賺18億!比愛馬仕還狠的運動奢侈品,正在掏空中產的錢包

狂賺18億!比愛馬仕還狠的運動奢侈品,正在掏空中產的錢包

青眼財經
2026-03-17 16:03:09
臘肉先泡水還是先煮?10年大廚:第1步錯了,難怪臘肉又咸又硬!

臘肉先泡水還是先煮?10年大廚:第1步錯了,難怪臘肉又咸又硬!

思思夜話
2026-03-18 12:11:32
杜蘭特只差26分超喬丹!本人回應:我想像MJ那樣讓防守者心生恐懼

杜蘭特只差26分超喬丹!本人回應:我想像MJ那樣讓防守者心生恐懼

羅說NBA
2026-03-21 21:30:36
沒想到!寧波市一棟別墅降價第二次拍賣,被人145萬競得

沒想到!寧波市一棟別墅降價第二次拍賣,被人145萬競得

說故事的阿襲
2026-03-21 17:58:05
你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

帶你感受人間冷暖
2025-11-26 00:10:06
狂飆9記三分轟60分6助!男籃雙后衛殺紅眼:趙睿砍34分斬殺遼籃

狂飆9記三分轟60分6助!男籃雙后衛殺紅眼:趙睿砍34分斬殺遼籃

籃球快餐車
2026-03-22 00:02:16
伊朗無人機指揮官被斬首,美國曾懸賞1000萬美元的人物

伊朗無人機指揮官被斬首,美國曾懸賞1000萬美元的人物

桂系007
2026-03-21 22:34:18
南航一客機起飛后遭鳥擊返航上海,機頭雷達罩疑受損嚴重

南航一客機起飛后遭鳥擊返航上海,機頭雷達罩疑受損嚴重

新京報
2026-03-21 17:53:16
他接受紀律審查和監察調查

他接受紀律審查和監察調查

錫望
2026-03-21 22:23:21
你干過最舒服的工作是啥?網友:姐,你們公司還招人嗎

你干過最舒服的工作是啥?網友:姐,你們公司還招人嗎

帶你感受人間冷暖
2026-03-19 22:37:39
被斬首的那些人,手上滿是人民的鮮血

被斬首的那些人,手上滿是人民的鮮血

黔有虎
2026-03-21 22:00:55
2026-03-22 00:39:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7134文章數 20742關注度
往期回顧 全部

數碼要聞

華為Atlas 350加速卡上市,搭載全新昇騰950PR處理器

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

健康
數碼
旅游
房產
公開課

轉頭就暈的耳石癥,能開車上班嗎?

數碼要聞

炸鍋!國產存儲芯片再突破!手機固態價格大跳水,內存自由要來了

旅游要聞

【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版