337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

早于DeepSeek Engram!用「查表」重置Transformer記憶 | ICLR

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】ICLR論文STEM架構(gòu)率先提出「查表式記憶」架構(gòu),早于DeepSeek Engram三個月。它將Transformer的FFN從動態(tài)計算改為靜態(tài)查表,用token索引的embedding表直接讀取記憶,徹底解耦記憶容量與計算開銷。

近年來,隨著大模型規(guī)模與知識密度的持續(xù)爆發(fā),研究人員開始重新審視一個底層問題:模型的參數(shù)究竟該如何組織,才能最高效地承擔(dān)「記憶」的功能?

在傳統(tǒng)的Transformer架構(gòu)中,前饋神經(jīng)網(wǎng)絡(luò)(FFN)的知識通常隱式地埋藏在up-projection等密集矩陣內(nèi) 。這種通過輸入進行動態(tài)激活的矩陣乘法,雖然保證了表達能力,卻在參數(shù)的可尋址性、后期可編輯性以及系統(tǒng)計算效率上存在著天然的局限 。

為了突破這一瓶頸,學(xué)術(shù)界和工業(yè)界逐漸轉(zhuǎn)向更離散、更結(jié)構(gòu)化的參數(shù)組織路徑

近期DeepSeek推出的engram機制成功引爆了業(yè)內(nèi)對「查表式記憶(lookup-based memory)」的關(guān)注 。但令人矚目的是,早于engram問世約三個月前,一篇入選 ICLR 的論文就已經(jīng)對該方向進行了極其系統(tǒng)的探索 。


項目主頁: https://infini-ai-lab.github.io/STEM/

與傳統(tǒng)的混合專家模型(MoE)在現(xiàn)有稀疏路由上做修補不同,STEM(Scaling Transformers with Embedding Modules)選擇直接對 FFN 結(jié)構(gòu)「動刀」:它摒棄了動態(tài)運行時的路由機制,將 up-projection 替換為按token索引的層級 embedding 表,以一種純靜態(tài)的方式重構(gòu)了 Transformer 的記憶訪問路徑 。

從「算地址」到「查地址」

如果用「鍵值對記憶(key-value memory)」的視角來審視標準 Transformer,像 SwiGLU 這樣的 FFN 結(jié)構(gòu),本質(zhì)上是通過一次 up-projection 將輸入映射到高維空間,從而生成一個能被 gate 調(diào)制的「地址向量」 。這一過程極其依賴輸入相關(guān)的密集矩陣乘法,不僅計算昂貴,而且參數(shù)高度耦合 。

STEM 團隊提出了一個靈魂拷問:如果 FFN 的核心作用只是「按token訪問記憶」,我們真的需要每次都動態(tài)計算這些地址向量嗎?

基于此,STEM給出了一種極致簡單直接的解法:

  • 徹底移除up-projection,不再動態(tài)計算地址向量 。

  • 為模型的每一層單獨維護一個按token索引的embedding表

  • 在前向傳播時,直接根據(jù)token id 「查表」,提取對應(yīng)的靜態(tài)向量 作為原先的 。

  • 完整保留gate與down-projection模塊,用于對查表得到的向量進行上下文的壓縮與調(diào)制 。

這一看似輕量的模塊替換,實現(xiàn)了一個極其本質(zhì)的架構(gòu)跨越:模型的「記憶容量」終于與「單token的計算量」實現(xiàn)了徹底解耦


連鎖效應(yīng)

四大維度的全面躍升

雖然僅僅替換了FFN的一個子模塊,STEM 卻在實驗中展現(xiàn)出了驚人的全方位優(yōu)勢 :

1. 即插即用的「知識編輯」

這是STEM最硬核的特性之一 。因為每一層的embedding都與特定token id強綁定,研究人員甚至不需要重新訓(xùn)練,只需替換特定token的STEM向量,就能直接修改模型輸出的事實 。

例如,僅通過互換「Spain」與「Germany」的向量,模型在回答首都問題時就會發(fā)生相應(yīng)的改變 。這為未來的模型內(nèi)部機制理解與知識編輯打開了全新大門 。


2. 訓(xùn)練極度穩(wěn)定(告別動態(tài)路由的煩惱)

與依賴運行時路由的MoE不同,STEM是一種靜態(tài)稀疏架構(gòu) 。由于每個token在每一層訪問的 embedding 都是恒定確定的,它完美避開了MoE訓(xùn)練中令人頭疼的負載傾斜(load skew)和損失突刺(loss spike)問題,且不需要任何all-to-all通信 。


3. 更寬廣的「記憶空間」

從幾何空間分布來看,STEM 的 embedding 表展現(xiàn)出了更大的角度散布(large angular spread) 。這意味著不同token 的向量更趨近于正交,大幅減少了參數(shù)間的相互干擾(cross-talk) 。在同等算力下,模型能塞下更多「可尋址的記憶槽位」 。

4. 計算與I/O雙重減負

砍掉up-projection后,每一層都能省下龐大的矩陣乘法開銷(約級別) 。更妙的是,龐大的embedding表完全可以離載(offload)到 CPU 內(nèi)存中,配合異步預(yù)取(prefetch)和緩存策略高效運行 。

實驗與落地

長上下文表現(xiàn)亮眼

團隊在350M和1B規(guī)模的模型上對 STEM 進行了嚴密的消融實驗 。數(shù)據(jù)表明,STEM 相比于 dense 架構(gòu)基線,整體平均性能提升了約3–4%,在部分知識密集型任務(wù)上,提升幅度甚至飆升至9–10% 。特別是在大海撈針(Needle-in-a-Haystack)和LongBench等長文本評測中,上下文越長,STEM的優(yōu)勢就越顯著。

對于工程落地,論文也給出了避坑指南:

  • 替換講究位置:核心在于替換up-projection,如果盲目替換gate-projection,反而會破壞模型的上下文調(diào)制能力 。

  • 優(yōu)化存儲與顯存:embedding表可放在CPU,但在訓(xùn)練時需注意將梯度寫回對應(yīng)的優(yōu)化器狀態(tài) 。在追求極致性價比時,還可以采用「部分層替換」或混合變體策略來平衡顯存壓力 。


結(jié)語

STEM架構(gòu)向我們清晰地傳達了一個信號:在無腦堆疊算力和參數(shù)量之外,通過巧妙重構(gòu)參數(shù)的「組織方式」,我們依然能夠榨取巨大的性能紅利。 在當前基座大模型越發(fā)龐大復(fù)雜的語境下,STEM這種簡潔、優(yōu)雅且工程友好的設(shè)計,無疑是下一代模型演進路線上的一座重要燈塔

作者介紹

論文第一作者Ranajoy Sadhukhan為卡內(nèi)基梅隆大學(xué)(CMU)InfiniAI Lab 博士生,師從陳貝迪教授。該工作完成于其在 Meta AI 實習(xí)期間,實習(xí)導(dǎo)師包括劉澤春、曹晟(Rick Cao)與田淵棟等研究人員。

InfiniAI Lab 由陳貝迪教授創(chuàng)立,致力于模型、系統(tǒng)與硬件協(xié)同設(shè)計,研究高效且可擴展的 AI 算法與系統(tǒng),重點方向包括長上下文多模態(tài)建模、突破傳統(tǒng) scaling laws 的新一代模型架構(gòu),以及基礎(chǔ)模型的理解與推理能力增強,同時推動算法與系統(tǒng)層面的效率優(yōu)化,以促進 AI 技術(shù)的普及化。

劉澤春為Meta AI 研究科學(xué)家,研究方向涵蓋基座模型訓(xùn)練,大模型壓縮、稀疏化與端側(cè)部署優(yōu)化,專注于模型高效推理與系統(tǒng)協(xié)同設(shè)計。

曹晟(Rick Cao)為 Meta AI 研究員,主要研究大模型系統(tǒng)優(yōu)化與高效推理架構(gòu)設(shè)計,關(guān)注大規(guī)模模型在真實系統(tǒng)環(huán)境中的部署與加速問題。

田淵棟為 Meta AI 資深研究科學(xué)家,長期從事強化學(xué)習(xí)與大模型研究,曾參與 AlphaZero 等強化學(xué)習(xí)系統(tǒng)研發(fā),并關(guān)注基礎(chǔ)模型的推理與決策能力。

參考資料:

https://infini-ai-lab.github.io/STEM/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張雪峰遺產(chǎn)風(fēng)波落幕?女兒將繼承股權(quán)接班,前任悼念現(xiàn)任低調(diào)

張雪峰遺產(chǎn)風(fēng)波落幕?女兒將繼承股權(quán)接班,前任悼念現(xiàn)任低調(diào)

魔都姐姐雜談
2026-03-30 19:20:17
難怪咸豐帝31歲去世,你看他逃往熱河干了啥?每天都做4件致命事

難怪咸豐帝31歲去世,你看他逃往熱河干了啥?每天都做4件致命事

銘記歷史呀
2026-03-21 17:44:21
世上有兩個國家,一個誰也打不過,一個誰也不敢打

世上有兩個國家,一個誰也打不過,一個誰也不敢打

近史談
2026-03-28 23:06:25
46歲湯唯二胎,再添實錘?與老公逛街腹部隆起,倪妮意外說漏嘴

46歲湯唯二胎,再添實錘?與老公逛街腹部隆起,倪妮意外說漏嘴

一盅情懷
2026-03-28 18:34:42
中藥缺席世衛(wèi)組織基本藥物清單,一定是美國搞的鬼

中藥缺席世衛(wèi)組織基本藥物清單,一定是美國搞的鬼

廖保平
2026-03-29 14:10:20
最令大齡剩女崩潰的瞬間是什么?網(wǎng)友扎心評論:萬家燈火與我無關(guān)

最令大齡剩女崩潰的瞬間是什么?網(wǎng)友扎心評論:萬家燈火與我無關(guān)

夜深愛雜談
2025-11-29 07:34:02
年度最像撞臉!譚詠麟拍視頻澄清:“那是我異父異母的兄弟”

年度最像撞臉!譚詠麟拍視頻澄清:“那是我異父異母的兄弟”

動物奇奇怪怪
2026-03-31 00:00:04
中國科學(xué)院院士、C9大學(xué)黨委書記,有重要職務(wù)!

中國科學(xué)院院士、C9大學(xué)黨委書記,有重要職務(wù)!

雙一流高校
2026-03-31 00:12:43
14歲男生殺害15歲女同學(xué)案未當庭宣判,律師:被告人稱出獄后贍養(yǎng)女生家屬遭拒

14歲男生殺害15歲女同學(xué)案未當庭宣判,律師:被告人稱出獄后贍養(yǎng)女生家屬遭拒

蓬勃新聞
2026-03-30 23:41:09
事關(guān)中朝關(guān)系,金正恩做出一個前所未有的表態(tài)

事關(guān)中朝關(guān)系,金正恩做出一個前所未有的表態(tài)

近史博覽
2026-03-30 09:48:04
快訊!菲律賓外長宣布了!

快訊!菲律賓外長宣布了!

達文西看世界
2026-03-30 15:52:01
李平康:王鈺棟在國家隊訓(xùn)練場外和球迷禮貌互動,這態(tài)度挺好

李平康:王鈺棟在國家隊訓(xùn)練場外和球迷禮貌互動,這態(tài)度挺好

懂球帝
2026-03-30 15:41:07
鄭麗文訪陸!盧秀燕緊急切割,賴清德提要求,趙少康說了一句狠話

鄭麗文訪陸!盧秀燕緊急切割,賴清德提要求,趙少康說了一句狠話

共工之錨
2026-03-31 00:16:37
壞消息,掘金隊在116-93戰(zhàn)勝勇士隊比賽中卡姆·約翰遜因傷離場

壞消息,掘金隊在116-93戰(zhàn)勝勇士隊比賽中卡姆·約翰遜因傷離場

好火子
2026-03-31 00:16:52
順豐控股:2025年營收首破3000億元,同比增8.37%,歸母凈利潤111億元,同比增9.31%

順豐控股:2025年營收首破3000億元,同比增8.37%,歸母凈利潤111億元,同比增9.31%

澎湃新聞
2026-03-30 21:08:28
太原高層大樓起火26死傷:官方三次更新傷亡人數(shù),一畫面信息量大

太原高層大樓起火26死傷:官方三次更新傷亡人數(shù),一畫面信息量大

博士觀察
2026-03-29 14:54:04
俄羅斯不賣油了!普京禁令一下,最慘的不是歐洲,而是兩個鄰國

俄羅斯不賣油了!普京禁令一下,最慘的不是歐洲,而是兩個鄰國

策略述
2026-03-30 15:08:13
浙江國資押注!張雪機車WSBK奪冠,估值站上10.9億

浙江國資押注!張雪機車WSBK奪冠,估值站上10.9億

藍鯨新聞
2026-03-30 16:31:05
內(nèi)存條價格出現(xiàn)斷崖式下跌,16G內(nèi)存條1天跌了上百元,專家:未來將持續(xù)降價

內(nèi)存條價格出現(xiàn)斷崖式下跌,16G內(nèi)存條1天跌了上百元,專家:未來將持續(xù)降價

極目新聞
2026-03-29 22:53:03
難怪特朗普不想打了,五角大樓公開真實傷亡,美軍終付血的代價?

難怪特朗普不想打了,五角大樓公開真實傷亡,美軍終付血的代價?

探源歷史
2026-03-29 16:59:24
2026-03-31 00:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14853文章數(shù) 66724關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

媒體:鄭麗文受邀訪大陸核心原因 從當前局勢看不難猜

頭條要聞

媒體:鄭麗文受邀訪大陸核心原因 從當前局勢看不難猜

體育要聞

想進世界杯,意大利還要過他這一關(guān)

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態(tài)度原創(chuàng)

數(shù)碼
家居
藝術(shù)
手機
教育

數(shù)碼要聞

Omdia:美國PC市場2025Q4逆轉(zhuǎn)連續(xù)下滑勢頭,今年將衰退13%

家居要聞

東方法式美學(xué) 現(xiàn)代簡約

藝術(shù)要聞

這個62歲大爺厲害了!他畫的超寫實美女騙了多少人?.....

手機要聞

4999元起!vivo發(fā)布雙旗艦:雙長焦+400mm巨炮太強了!

教育要聞

靜待花開:一位母親與青春期兒子的“破冰”之旅——林亭亭家教好故事

無障礙瀏覽 進入關(guān)懷版