網易首頁 > 網易號 > 正文申請入駐

DeepSeek 凌晨開源：給 Transformer 加個「查字典」的能力

2026-01-13 01:34:40　來源: 賽博禪心

北京舉報

分享至

對于問題「北京是中國的首都」，需要推理嗎？
應該是不需要，地球人都知道

但現在，Transformer 只有一種處理方式：全靠算

DeepSeek 大半夜的，發布了一篇新論文
Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

https://github.com/deepseek-ai/Engram

這篇論文中，做了一個新方法 Engram，并給到觀點：
該查表的查表，該算的算，兩件事分開處理

對此，他們 Engram 的模塊，專門負責「查」，和負責「算」的 MoE 配合使用

結果就是，Engram-27B 在等參數、等算力條件下，全面超越純 MoE baseline

代碼已開源：
https://github.com/deepseek-ai/Engram

一個具體的例子

論文里有個很直觀的案例

模型處理「Diana, Princess of Wales」這個實體時，內部發生了什么：

層數

模型此時「認為」這是什么

第 1-2 層

Wales，一個國家

第 3 層

Wales，歐洲的一個國家

第 4 層

Princess of Wales，一個頭銜

第 5 層

Princess of Wales，威爾士親王的妻子

第 6 層

Diana, Princess of Wales，戴安娜王妃

六層網絡，才把這個實體識別出來

但「戴安娜王妃」這個知識是固定的，不會因為上下文變化而變化。模型花六層來「算」出這個結果，本質上是在用計算重建一個靜態的查找表

這六層深度，本可以用來處理更復雜的推理任務

Engram 怎么做

技術方案不復雜：用連續幾個 token（N-gram）作為「查詢詞」，從一個大表里查出對應的向量，融合到模型的中間狀態里

幾個關鍵設計：

詞表壓縮

標準分詞器會給「Apple」和「apple」分配不同的 ID，但它們語義上是同一個東西。Engram 先做一層歸并，把這類 token 映射到同一個規范化 ID

實測 128k 詞表壓縮了 23%

多頭哈希

不可能真的存下所有 N-gram 組合，那是天文數字。用哈希函數把 N-gram 映射到有限大小的表里，犧牲一點精度換存儲空間

上下文門控

查出來的向量是「靜態先驗」，可能和當前上下文不匹配。比如「蘋果」在討論水果時和討論手機時含義不同

解決方案：用當前位置的隱藏狀態（已經通過 Attention 聚合了上下文信息）作為「裁判」，給查出來的向量打分。語義不匹配時，把這個向量的權重壓低

放在哪一層

Engram 不是每層都加。放太淺，隱藏狀態還沒積累足夠上下文，「裁判」不準；放太深，錯過了分擔早期層負擔的時機

實驗發現：放在第 2 層效果最好。如果要放兩個，第 2 層和第 15 層的組合最優

參數怎么分配

這里有個核心問題：給定固定的參數預算，多少給 MoE，多少給 Engram？

論文定義了一個分配比例 ρ

? ρ = 100%：全給 MoE，沒有 Engram
? ρ = 0%：全給 Engram，沒有 MoE 的路由專家

實驗掃了一遍，結果是 U 型曲線：

這兩個極端，都不好

全給 MoE（ρ = 100%）：沒有專門的記憶模塊，模型被迫用計算來重建靜態知識

全給 Engram（ρ → 0%）：失去了動態計算能力，復雜推理做不了

最優點在 75%-80%

也就是說，把 20-25% 的稀疏參數從 MoE 轉給 Engram，效果最好

這個比例在不同的計算預算下都穩定，有一定的普適性

效果數據

四個模型對比：

? Dense-4B：稠密模型，基線
? MoE-27B：純 MoE 架構
? Engram-27B：把 MoE-27B 的 72 個路由專家減到 55 個，省出的參數給 5.7B 的 Engram
? Engram-40B：進一步擴大 Engram 到 18.5B

全部訓練 262B tokens，激活參數都是 3.8B（等算力）

挑幾個關鍵數據：

任務類型

具體任務

MoE-27B

Engram-27B

提升

知識

MMLU

57.4

60.4

+3.0

知識

CMMLU（中文）

57.9

61.9

+4.0

推理

BBH

50.9

55.9

+5.0

推理

ARC-Challenge

70.1

73.8

+3.7

代碼

HumanEval

37.8

40.8

+3.0

數學

MATH

28.3

30.7

+2.4

知識類任務提升在預期內，畢竟加了個「記憶」模塊

但推理類任務提升更大，這就有意思了

一個「記憶」模塊，怎么讓「推理」能力變強？

為什么推理也變強了

這是論文最有價值的部分

他們用了兩個分析工具

LogitLens：看每一層輸出的預測置信度

結果：Engram 模型在早期層就達到了高置信度，預測收斂速度明顯更快

CKA：看不同層之間的表示相似度

結果：Engram 模型第 5 層的表示，和 MoE 模型第 12 層的表示最相似

這說明什么？

Engram 等效于增加了網絡的有效深度

邏輯是這樣的：有了 Engram 分擔靜態知識的檢索，早期層不用再花深度做這件事。省出來的深度，可以用于更復雜的推理

Attention 的容量也被釋放了。本來要處理局部依賴（比如識別「張仲景」是一個人名）的注意力頭，現在可以專注于全局上下文

長上下文任務上這個效果更明顯：

任務

MoE-27B

Engram-27B

Multi-Query NIAH

84.2

97.0

Variable Tracking

77.0

89.0

Engram 到底存了什么

做了個消融實驗：把 Engram 的輸出完全屏蔽，看各類任務的性能保留多少

? 事實問答（TriviaQA）：只剩 29%
? 閱讀理解（C3）：保留 93%
? 推理任務：居中

結論很清晰：

事實知識主要存在 Engram 里，屏蔽后崩得厲害

閱讀理解依賴上下文，答案就在文章里，Engram 幫不上忙

推理任務的提升是間接的，來自 Engram 釋放的網絡深度，而不是 Engram 直接提供推理能力

門控可視化

紅色表示門控激活（采納了查表結果），顏色越深激活越強

規律很明顯：

? 多 token 實體觸發高激活：「Alexander the Great」「Milky Way」「Princess of Wales」
? 固定搭配觸發高激活：「By the way」
? 中文也能識別：「四大發明」「張仲景」「醫圣」「傷寒雜病論」

需要結合上下文理解的 token，門控會壓低

工程：offload 效率

這部分對開發者有參考價值

Engram 的查表索引是確定的。知道輸入是什么 token，就知道要查哪些行，不依賴中間計算結果

MoE 不一樣，路由決策要等隱藏狀態算出來才能做

這個區別讓 Engram 可以做預取：模型在計算前幾層的時候，同時從主機內存異步加載 Engram 需要的數據，兩邊并行

實測結果：

配置

吞吐量

Dense-4B

9,031 tok/s

Dense-4B + 100B

Engram（CPU offload）

8,858 tok/s

Dense-8B

6,315 tok/s

Dense-8B + 100B

Engram（CPU offload）

6,140 tok/s

100B 參數的 Engram 表完全放主機內存，吞吐量下降不到 3%

N-gram 的訪問還符合 Zipf 分布，少數高頻模式占了絕大多數訪問量。可以做多級緩存：熱門的放 GPU 顯存，長尾的放主機內存甚至 SSD

組件消融

哪些設計貢獻最大：

? 多分支集成：重要
? 上下文門控：重要
? Tokenizer 壓縮：重要
? 輕量卷積：影響不大
? 4-gram：在當前參數預算下不如 2-gram + 3-gram 組合

Engram 放在第 2 層效果最好，越往深層放效果越差

跑起來

                                                           pip install torch numpy transformers sympy
python engram_demo_v1.py

GitHub 上的 demo 是演示版，mock 了 Attention/MoE 等標準組件，用于展示 Engram 的數據流

總結一下：
MoE 管算，Engram 管查，兩種機制處理兩類任務

代碼：
https://github.com/deepseek-ai/Engram

論文：
https://raw.githubusercontent.com/deepseek-ai/Engram/refs/heads/main/Engram_paper.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
38938 跟貼 38938
重慶市市長胡衡華，被查

新京報政事兒 2026-03-20 14:09:55
570 跟貼 570

漲瘋了有商家暫停接單上海人慌了：最近正是剛需

上觀新聞 2026-03-20 15:10:07
341 跟貼 341

上海市中心知名醫院要“沒了”？網友感嘆曾經“早上5點去排隊搶號”；醫生發文“世上再無”，最新情況→

新民晚報 2026-03-20 19:27:19
676 跟貼 676
1101套房只有1人選房，深圳一安居房項目屢戰屢“冷”

南方都市報 2026-03-20 22:14:18
30 跟貼 30

油價將迎“史詩級漲幅”！加滿一箱95號汽油要花近500元

大象新聞 2026-03-20 14:44:06
388 跟貼 388

本世紀僅有三次！春分巧遇“龍抬頭”，這些事別忘了做

齊魯壹點 2026-03-20 06:49:31
996 跟貼 996
漲價！浙江姑娘腸子悔青，去年沒下單今年貴5000元！老板：可能還要漲

浙江之聲 2026-03-20 13:26:35
383 跟貼 383

老撾多地鬧"油荒" 萬象華人:九成加油站無油可加

極目新聞 2026-03-20 19:05:14
720 跟貼 720
殲-20、殲-16、殲-10C“三龍”聚首，云端亮劍！

環球網資訊 2026-03-20 10:56:00
158 跟貼 158
山姆爆款三文魚，讓全國網友“破防”！專家：是享受還是“引蟲入室”，看包裝這串代碼

都市快報橙柿互動 2026-03-20 20:15:26
60 跟貼 60
上海科技館一展板現多個錯別字？館方回應：屬實，已撤下重新制作

上游新聞 2026-03-20 14:04:10
225 跟貼 225
7只狗被偷走后掉在公路上，結伴而行跨越17公里走回家，志愿者回應：幾只狗狗是鄰居，一直在一起玩耍，已安全到家

揚子晚報 2026-03-20 07:44:08
1292 跟貼 1292
第二艘國產大型郵輪“愛達·花城號”出塢

央視新聞客戶端 2026-03-20 13:06:26
350 跟貼 350
浙江一咖啡店推出"童子尿蛋咖啡" 店家:周末日售百杯

紅星新聞 2026-03-16 22:18:18
1280 跟貼 1280
女子機場豪邁喝酒微醺上飛機：扔了可惜，喝的時候旁邊的人都驚了

星視頻 2026-03-20 12:58:28
98 跟貼 98
道路運輸從業人員年齡上限今起放寬至63歲

央視新聞客戶端 2026-03-20 09:39:20
929 跟貼 929
美國或向中東增派數千名士兵

新華社 2026-03-20 22:31:09
732 跟貼 732
男子在店里吃飯遇粘人貍花貓反復靠腿

江西晨報 2026-03-20 11:16:58
121 跟貼 121
應縣木塔即將全部拆卸落地大修？官方回應（2026·03·20）

今日辟謠 2026-03-20 17:58:08
78 跟貼 78
40多萬買游戲裝備，暴跌成8萬！男子哭訴是父母給他結婚的血汗錢

火山詩話 2026-03-21 05:54:08
39 跟貼 39
踏青賞花享春光

環球網資訊 2026-03-18 07:45:54
1307 跟貼 1307
六國發表聯合聲明：準備采取措施保障霍爾木茲海峽安全

財聯社 2026-03-19 23:54:08
0 跟貼 0
商場被指張貼不雅標語項城市監局：已要求整改

板扎在線NEWS 2026-03-21 05:25:05
0 跟貼 0
別讓不文明行為“搶戲”（信息服務臺）

金臺資訊 2026-03-21 06:18:13
0 跟貼 0

小米su7 10 萬銷量算拉胯，發布半小時無銷量戰報

小柱解說游戲

2026-03-20 14:43:20

鄭智談隊內傷病：李昊輕微骨裂，彭欣力、張修維都在康復中

懂球帝

2026-03-21 00:21:11

Opta預測歐冠1/4決賽晉級概率：拜仁59.4%，皇馬40.6%

懂球帝

2026-03-21 04:04:24

古巴能源供應被切斷，垃圾堆積如山

昊軒看世界

2026-01-14 10:15:12

淺色系穿搭！這個組合讓你在健身房瞬間吸引眼球！

獨角showing

2025-12-31 21:08:57

特斯拉官宣重磅新車來了，真的很猛！

花果科技

2026-03-19 16:50:16

別信什么“瘦了就好”，看看蔣欣，瘦了20多斤，代價是臉垮了

西樓知趣雜談

2026-03-18 11:48:25

一歲幼童在高鐵上哭鬧，男子吆喝乘警介入，要求一家三口離開

一盅情懷

2026-02-27 14:04:00

天啊！看到陳紅1996年新婚的閨房照，才懂陳凱歌為啥說一見鐘情

好賢觀史記

2026-03-02 16:47:20

伊朗軍方威脅要毀滅性打擊美以“邪惡官員”

新華社

2026-03-20 22:06:05

你遇到過哪些驚為天人的人物？網友：啟動一小時休眠一整天

夜深愛雜談

2026-03-20 19:32:42

特斯拉 FSD 要涼！官方點名安全隱患，自動駕駛要被禁？

新浪財經

2026-03-21 01:09:11

《好好的時光》大結局：莊家21人團圓，元媛遺憾天天贏麻

君笙的拂兮

2026-03-21 03:34:03

奧沙利文、羅伯遜等名將參賽，中國臺球職業俱樂部聯賽正式啟動

懂球帝

2026-03-20 22:56:42

娛樂圈第一惡女，被洗白了

地理三體說

2026-03-20 22:52:25

一張整容臉連累整部劇？《你好1983》女二號，臉腫僵硬的讓人出戲

不似少年游

2026-03-19 10:15:41

西班牙新一期大名單身價榜：亞馬爾2億歐第1，巴薩占據前4位

懂球帝

2026-03-21 03:42:18

43歲韓寒近況曝光！娶制片人生2個孩子，如今跨界做導演身家過億

代軍哥哥談娛樂

2026-03-18 19:45:08

打臉！伊朗革命衛隊總部遇襲，對手全身而退，守軍只會對百姓逞兇

老馬拉車莫少裝

2026-03-20 09:05:28

中美談完，貝森特松開中方的手，只求辦3件事，中方深夜通報結果

通文知史

2026-03-21 04:00:03

賽博禪心

拜AI古佛，修賽博禪心

336文章數 49關注度

往期回顧全部

科技要聞

宇樹招股書拆解，人形機器人出貨量第一！

頭條要聞

英國授權美軍用其基地打伊朗伊外長:將行使自衛權回應

頭條要聞

英國授權美軍用其基地打伊朗伊外長:將行使自衛權回應

體育要聞

6年前的一場悲劇，造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典，“沈馬”CP再合體

財經要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局：每月3億的“慌”與通向L4的堅定

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

教育

游戲

公開課

軍事航空

房產要聞

全城狂送1000杯咖啡！網易房產【早C計劃】，即刻啟動！

教育要聞

留學還意味著延遲就業嗎？中國高端家庭的留學決策有多扎心？

Xbox新AI游戲助手翻車玩家媒體紛紛表示:令人失望

公開課

手機 / 數碼

房產 / 家居

DeepSeek 凌晨開源 ：給 Transformer 加個「查字典」的能力

宇樹招股書拆解，人形機器人出貨量第一！

英國授權美軍用其基地打伊朗 伊外長:將行使自衛權回應

英國授權美軍用其基地打伊朗 伊外長:將行使自衛權回應

6年前的一場悲劇，造就了“法國瓦爾迪”

總臺首屆電影盛典，“沈馬”CP再合體

金融法草案向社會公開征求意見

何小鵬坦白局：每月3億的“慌”與通向L4的堅定

態度原創

全城狂送1000杯咖啡！網易房產【早C計劃】，即刻啟動！

留學還意味著延遲就業嗎？中國高端家庭的留學決策有多扎心？

Xbox新AI游戲助手翻車 玩家媒體紛紛表示:令人失望

特朗普會晤高市早苗 把美國襲擊伊朗比作偷襲珍珠港

DeepSeek 凌晨開源：給 Transformer 加個「查字典」的能力

英國授權美軍用其基地打伊朗伊外長:將行使自衛權回應

英國授權美軍用其基地打伊朗伊外長:將行使自衛權回應

Xbox新AI游戲助手翻車玩家媒體紛紛表示:令人失望

特朗普會晤高市早苗把美國襲擊伊朗比作偷襲珍珠港