![]()
機器之心編譯
前些天,著名 AI 技術作家 Sebastian Raschka 發布了一份「LLM 架構畫廊」,獲得了 AI 社區的高度關注和贊揚,參閱《DeepSeek、GPT、Qwen,所有大模型架構圖都有,Karpathy:寶藏畫廊!》。
![]()
圖 1 :LLM 架構圖庫及其視覺模型卡片概覽。
這個 LLM 架構畫廊是如此受歡迎,也讓 Raschka 找到了合作伙伴開始生產實體海報。目前來看,銷量還很不錯。
![]()
圖 2 :帶有用于對比大小的隨機物體的架構圖庫海報版本。
現在,時間才剛過去一周多,Raschka 又放出了另一篇重磅博客《現代 LLM 中注意力變體的可視化指南》。在這篇文章中,他回顧了近年來開發的并在著名的開放權重架構中使用的所有注意力變體。他表示: 「我的目標是使這個集合既能作為參考資料,又能作為輕量級的學習資源。」
![]()
博客地址:https://magazine.sebastianraschka.com/p/visual-attention-variants
機器之心編譯了這篇出色的博客,以饗讀者:
1. 多頭注意力 (MHA)
自注意力機制允許每個 token 查看序列中其他可見的 token ,為它們分配權重,并利用這些權重構建一個新的具有上下文感知的輸入表示。
多頭注意力 (MHA) 是該理念在 Transformer 中的標準版本。它并行運行多個具有不同學習投影的自注意力頭,然后將它們的輸出組合成一個更豐富的表示。
![]()
圖 3 :以 Olmo 2 為例的 MHA 架構。
下面的部分首先快速介紹自注意力機制以解釋 MHA。這主要是作為一個快速概述,為相關的注意力概念(如分組查詢注意力、滑動窗口注意力等)奠定基礎。如果你對更長、更詳細的自注意力機制內容感興趣,你可能會喜歡我的一篇較長的文章《理解并編寫 LLM 中的自注意力、多頭注意力、因果注意力與交叉注意力》。
地址: https://magazine.sebastianraschka.com/p/understanding-and-coding-self-attention
示例架構:GPT-2、OLMo 2 7B 和 OLMo 3 7B
1.2 歷史趣聞以及發明注意力機制的原因
注意力機制的出現早于 Transformer 和 MHA。它的直接背景是用于翻譯的編碼器和解碼器 RNN。
在那些較舊的系統中,編碼器 RNN 會逐個 token 地讀取源句子,并將其壓縮為隱藏狀態序列,或者在最簡單的版本中壓縮為一個最終狀態。然后,解碼器 RNN 必須從這個有限的摘要中生成目標句子。這在簡短和簡單的情況下是有效的,但是一旦下一個輸出詞的相關信息位于輸入句子中的其他位置,它就會產生明顯的瓶頸。
簡而言之,局限性在于隱藏狀態無法存儲無限多的信息或上下文,有時直接回顧整個輸入序列會非常有用。
下面的翻譯示例展示了這種想法的一個局限性。例如,當模型將問題過度視為逐詞映射時,句子可能保留了許多局部合理的詞匯選擇,但翻譯仍然會失敗。(頂部面板顯示了一個夸張的示例,我們逐詞翻譯句子;顯然,結果句子中的語法是錯誤的。)實際上,正確的下一個單詞取決于句子級別的結構以及在該步驟中哪些早期的源單詞起作用。當然,使用 RNN 仍然可以很好地進行翻譯,但在處理較長序列或知識檢索任務時它會遇到困難,正如前面提到的,隱藏狀態只能存儲有限的信息。
![]()
圖 4 :即使許多單獨的詞匯選擇看起來很合理,翻譯也可能失敗,因為句子級別的結構仍然很重要。
下圖更直接地展示了這種變化。當解碼器生成一個輸出 token 時,它不應受限于單一的壓縮內存路徑。它應該能夠直接追溯到更相關的輸入 token。
![]()
圖 5 :注意力機制通過讓當前輸出位置回顧整個輸入序列,打破了 RNN 的瓶頸,其機制拋棄了僅依賴單一壓縮狀態的做法。
Transformer 保留了上述改進版注意力 RNN 的核心思想,同時移除了循環結構。在經典的《Attention Is All You Need》論文中,注意力機制本身成為了主要的序列處理機制,它取代了以往僅作為 RNN 編碼器和解碼器一部分的角色。
在 Transformer 中,這種機制被稱為自注意力,序列中的每個 token 會計算所有其他 token 的權重,并利用這些權重將來自這些 token 的信息混合成一個新的表示。多頭注意力是并行運行多次的相同機制。
1.3 掩碼注意力矩陣
對于一個包含 T 個 token 的序列,注意力機制需要為每個 token 提供一行權重,因此總體上我們得到一個 TxT 矩陣。
每一行回答一個簡單的問題。在更新這個 token 時,每個可見的 token 應該有多重要?在僅包含解碼器的 LLM 中,未來的位置會被掩碼遮蔽,這就是為什么下圖中矩陣的右上部分被置灰的原因。
自注意力的本質是在因果掩碼下學習這些 token 到 token 的權重模式,然后利用它們來構建具有上下文感知的 token 表示。
![]()
圖 6 :一個具體的掩碼注意力矩陣,其中每一行屬于一個 token ,每個條目是一個注意力權重,未來 token 的條目被因果掩碼移除
1.4 自注意力內部機制
下圖展示了 Transformer 如何從輸入嵌入 X 計算注意力矩陣(A),然后將其用于生成轉換后的輸入(Z)。
這里的 Q、K 和 V 代表查詢、鍵和值。一個 token 的查詢代表該 token 正在尋找的內容,鍵代表每個 token 提供用于匹配的內容,而值代表在計算出注意力權重后混合到輸出中的信息。
步驟如下:
- Wq、Wk 和 Wv 是將輸入嵌入投影到 Q、K 和 V 的權重矩陣
- QK^T 生成原始的 token 到 token 的相關性得分
- softmax 將這些得分轉換為我們在上一節中討論的歸一化注意力矩陣 A
- 將 A 應用于 V 以生成輸出矩陣 Z
請注意,注意力矩陣并非單獨手動編寫的對象,它產生自 Q、K 和 softmax 過程。
![]()
圖 7 :完整的單頭流水線,從輸入嵌入 X 到歸一化的注意力矩陣 A 和輸出表示 Z。
下圖展示了與上圖相同的概念,區別在于注意力矩陣的計算隱藏在「縮放點積注意力」框中,并且我們僅針對一個輸入 token 執行計算,不再針對所有輸入 token。這是為了展示單頭自注意力的緊湊形式,隨后在下一節中將其擴展為多頭注意力。
![]()
圖 8 :一個注意力頭已經是一個完整的機制。一組學習到的投影會生成一個注意力矩陣和一個具備上下文感知的輸出流。
1.5 從單頭到多頭注意力
一組 Wq/Wk/Wv 矩陣為我們提供了一個注意力頭,這意味著一個注意力矩陣和一個輸出矩陣 Z。(此概念在上一節中已說明。)
多頭注意力只需使用不同的學習投影矩陣并行運行幾個這樣的頭。
這是很有用的做法,因為不同的頭可以專門處理不同的 token 關系。一個頭可能專注于短暫的局部依賴關系,另一個頭關注更廣泛的語義鏈接,還有一個頭關注位置或句法結構。
![]()
圖 9 :多頭注意力保持相同的基本注意力方法,但在多個頭之間并行重復該方法,以便模型可以同時學習多個 token 到 token 的模式。
2. 分組查詢注意力 (GQA)
分組查詢注意力是源自標準 MHA 的注意力變體。它由 Joshua Ainslie 及其同事在 2023 年的論文《GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints》中提出。
它的做法讓幾個查詢頭共享相同的鍵值投影,摒棄了為每個查詢頭提供各自鍵和值的做法。這使得 KV 緩存的成本更低(主要是減少了內存),同時也沒有對整體解碼器方案進行太大的改變。
![]()
圖 10 :GQA 保持與 MHA 相同的整體注意力模式,但通過跨多個查詢頭共享它們來減少鍵值頭的數量。
示例架構
- 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B、SmolLM3 3B 和 Tiny Aya 3.35B。
- 稀疏模型(混合專家):Llama 4 Maverick、Qwen3 235B-A22B、Step 3.5 Flash 196B 和 Sarvam 30B。
2.1 為什么 GQA 變得受歡迎
在我的架構比較文章中,我將 GQA 定位為經典多頭注意力 (MHA) 的新標準替代方案。原因是標準 MHA 為每個頭提供了自己的鍵和值,從建模的角度來看這是更優的,但在推理過程中一旦我們必須將所有這些狀態保留在 KV 緩存中,成本就會很高。
在 GQA 中,我們保留較大的一組查詢頭,但我們減少了鍵值頭的數量并讓多個查詢共享它們。這降低了參數數量和 KV 緩存流量,并且無需像稍后將討論的多頭潛在注意力 (MLA) 那樣進行大幅度的實現更改。
在實踐中,這使其成為并保持為那些希望找到比 MHA 更便宜但比 MLA 等較新的重度壓縮替代方案更易于實現的實驗室的非常受歡迎的選擇。
2.2 GQA 內存節省
GQA 在 KV 存儲方面節省了大量空間,因為每層我們保留的鍵值頭越少,每個 token 所需的緩存狀態就越少。這就是為什么隨著序列長度的增加,GQA 變得更有用的原因。
GQA 也是一個光譜。如果我們一路減少到一個共享的 K/V 組,我們就實際上進入了多查詢注意力的領域,它甚至更便宜,但可能會更明顯地損害建模質量。最佳平衡點通常在多查詢注意力( 1 個共享組)和 MHA(其中 K/V 組等于查詢的數量)之間的某個位置,在這個位置,緩存節省量很大,但相對于 MHA 的建模性能下降保持在適度范圍內。
![]()
圖 11 :越低越好。一旦上下文窗口擴大,KV 緩存的節省就會變得更加明顯。
2.3 為什么 GQA 在 2026 年仍然重要
諸如 MLA 等更高級的變體正變得越來越受歡迎,因為它們可以在相同的 KV 效率水平下提供更好的建模性能(例如,如 DeepSeek-V2 論文的消融研究所討論的那樣),但它們也涉及更復雜的實現和更復雜的注意力堆棧。
GQA 仍然具有吸引力,因為它具有穩健性,更容易實現,并且更容易訓練(根據我的經驗,需要調整的超參數更少)。
這就是為什么一些較新的發布版本仍在此處刻意保持經典設計的原因。例如,在我的春季架構文章中,我提到 MiniMax M2.5 和 Nanbeige 4.1 是保持非常經典設計的模型,僅使用分組查詢注意力,而沒有堆砌其他效率技巧。Sarvam 也是一個非常有用的比較對象: 30B 模型保留了經典的 GQA ,而 105B 版本則切換到了 MLA。
![]()
圖 12 :105B Sarvam(使用 MLA)與 30B Sarvam(使用 GQA)以及使用普通 MHA 的總 KV 緩存大小對比。
3. 多頭潛在注意力 (MLA)
多頭潛在注意力 (MLA) 背后的動機與分組查詢注意力 (GQA) 相似。兩者都是用于降低 KV 緩存內存需求的解決方案。GQA 和 MLA 之間的區別在于,MLA 通過壓縮存儲的內容來縮小緩存,它拋棄了通過共享頭來減少存儲的 K/V 數量的方式。
![]()
圖 13 :與 GQA 不同,MLA 并非通過對頭進行分組來降低 KV 成本。它通過緩存壓縮的潛在表示來降低成本。請注意,它也應用于查詢,為簡單起見未顯示
MLA 最初在 DeepSeek-V2 論文中提出,成為 DeepSeek 時代標志性的理念(特別是在 DeepSeek-V3 和 R1 之后)。它比 GQA 的實現更復雜,服務部署也更復雜,但如今,一旦模型大小和上下文長度變得足夠大以至于緩存流量開始占據主導地位,它通常也會變得更具吸引力,因為在相同的內存減少率下,它可以保持更好的建模性能(稍后會詳細介紹)。
示例架構:DeepSeek V3、Kimi K2、GLM-5、Ling 2.5、Mistral Large 3 和 Sarvam 105B
3.1 壓縮機制
放棄像 MHA 和 GQA 中那樣緩存全分辨率的鍵和值張量,MLA 選擇存儲一種潛在表示,并在需要時重建可用狀態。從本質上講,這是一種嵌入在注意力機制中的緩存壓縮策略,如上圖所示。
下圖顯示了與常規 MHA 相比節省的空間。
![]()
圖 14 :一旦上下文長度增加,與緩存全張量 K/V 相比,緩存潛在表示所帶來的節省變得非常明顯
3.2 MLA 消融實驗
DeepSeek-V2 論文提供了一些消融實驗結果,其中 GQA 在建模性能方面表現得比 MHA 差,而 MLA 表現得更好,如果在仔細調整的情況下,甚至可以超越 MHA。這比「它(也)節省了內存」是一個強有力的多得多的理由。
換句話說,MLA 之所以成為 DeepSeek 更受青睞的注意力機制,除去其本身的高效,它在大規模下看起來也是一種保持質量的效率舉措。(但同事們也告訴我,MLA 只有在特定尺寸下效果良好。對于較小的模型,比方說小于 100B ,GQA 似乎效果更好,或者至少更容易調整和完善。)
![]()
圖 15 :在這里,GQA 降至 MHA 以下,而 MLA 保持競爭力甚至略微超越 MHA。底層論文:DeepSeek-V2。
下面又是 30B Sarvam 中的 GQA 與 105B Sarvam 中的 MLA 之間的比較。
![]()
圖 16 :GQA 和 MLA 正在從不同方向解決同一個瓶頸。其權衡點在于簡單性與大型模型更好的建模性能之間的取舍。
3.3 MLA 在 DeepSeek 之后如何傳播
自從 DeepSeek V3/R1、V3.1 等版本在 V2 中引入該設計并將其標準化后,它開始出現在第二波架構中。Kimi K2 保留了 DeepSeek 的方案并對其進行了擴展。GLM-5 采用了 MLA 連同 DeepSeek 稀疏注意力(來自 DeepSeek V3.2 )。Ling 2.5 將 MLA 與線性注意力混合架構結合在一起。Sarvam 發布了兩個模型,其中 30B 模型保留了經典的 GQA,而 105B 模型切換到了 MLA。
最后一對特別有用,因為它將技術復雜性的討論放在了一邊。即,Sarvam 團隊實現了這兩種變體,并刻意選擇在一個變體中使用 GQA ,而在另一個變體中使用 MLA。因此,在某種意義上,這使得 MLA 給人的感覺少了一點理論上的替代方案的意味,多了一點家族模型擴展后具體的架構升級路徑的意味。
4. 滑動窗口注意力 (SWA)
滑動窗口注意力通過限制每個位置可以關注的先前 token 數量,來降低長上下文推理的內存和計算成本。這里摒棄了關注整個前綴的做法,每個 token 僅關注其位置周圍近期 token 的固定窗口。由于注意力被限制在局部的 token 鄰域,這種機制通常被稱為局部注意力。
一些架構將這些局部層與偶爾的全局注意力層結合在一起,以便信息仍然可以在整個序列中傳播。
![]()
圖 17 :概念上的轉變很簡單。常規注意力是全局注意力,而滑動窗口注意力是局部注意力。全局注意力讓每個 token 都能看到完整的前綴;SWA 將許多這樣的層轉變為局部注意力層
示例架構:Gemma 3 27B、OLMo 3 32B、Xiaomi MiMo-V2-Flash、Arcee Trinity、Step 3.5 Flash 和 Tiny Aya
4.1 以 Gemma 3 作為參考點
Gemma 3 仍然是最近最清晰的 SWA 示例之一,因為它很容易與 Gemma 2 進行比較。Gemma 2 已經使用了一種混合注意力設置,局部層與全局層的比例為 1:1 ,并具有 4096 個 token 的窗口。Gemma 3 將這一比例進一步推至 5:1 ,并將窗口大小減小到 1024。
關鍵發現并不在于局部注意力更便宜,因為這已經是眾所周知的。從 Gemma 3 的消融研究中得出的更有趣的結論是,更激進地使用這種方法似乎對建模性能的影響微乎其微。
![]()
Gemma 消融研究表明,較小的窗口和更激進的局部與全局比例對困惑度的影響很小。底層論文:Gemma 3
4.2 比例與窗口大小
在實踐中,說一個模型「使用 SWA」并不意味著它僅依賴于 SWA。通常重要的是局部到全局的層模式和注意力窗口大小。例如:
- Gemma 3 和 Xiaomi 使用 5:1 的局部到全局模式。
- OLMo 3 和 Arcee Trinity 使用 3:1 的模式。
- Xiaomi 還使用 128 的窗口大小,這比 Gemma 的 1024 小得多,因此也更加激進。
- SWA 本質上是一個旋鈕,可以對其進行不同程度的激進調整。
![]()
圖 18 :長上下文的節省來自于將許多全注意力層轉變為局部注意力層,這減少了這些層需要考慮的緩存上下文的數量
4.3 將 SWA 與 GQA 結合
SWA 經常與 GQA 一起出現,因為這兩個想法解決了同一個推理問題的不同部分。SWA 減少了局部層必須考慮的上下文數量。GQA 減少了每個 token 貢獻給緩存的鍵值狀態的數量。
這就是為什么許多最近的稠密模型會同時使用兩者,摒棄了將它們視為替代方案的做法。Gemma 3 在這里又是一個很好的參考點,因為它在同一個架構中結合了滑動窗口注意力和分組查詢注意力。
5. DeepSeek 稀疏注意力 (DSA)
DeepSeek 稀疏注意力是出現在 DeepSeek V3.2 系列中,并隨后在 GLM-5 中再次出現的架構變化之一。
具體來說,DeepSeek V3.2 將其與多頭潛在注意力 (MLA) 結合使用,而 GLM-5 采用相同組合的大致原因也相同,即在上下文長度變大時降低推理成本。
示例架構:DeepSeek V3.2 和 GLM-5
5.1 相對于滑動窗口注意力的變化
在滑動窗口注意力中,當前 token 放棄關注完整的前綴,它只關注固定的局部窗口。這也是 DeepSeek 稀疏注意力背后相同的廣義概念,即每個 token 也只關注先前 token 的一個子集。
然而,所選取的 token 并沒有由固定寬度的局部窗口決定。作為替代,DeepSeek 稀疏注意力使用了一種學習到的稀疏模式。簡而言之,它使用了一種索引器加選擇器的設置,其中閃電索引器計算相關性得分,而 token 選擇器僅保留一小部分得分較高的過去位置。
選取 token 子集的方式是與滑動窗口注意力的主要區別。滑動窗口注意力將局部性硬編碼。DeepSeek 稀疏注意力仍然將注意力限制在一個子集上,但它讓模型決定哪些先前的 token 值得回顧。
![]()
圖 19 :與滑動窗口注意力類似,DeepSeek 稀疏注意力也將每個 token 限制在先前 token 的一個子集內,只不過它沒有通過固定的局部窗口來實現這一點
5.2 DeepSeek 稀疏注意力與 MLA
DeepSeek V3.2 同時使用了多頭潛在注意力 (MLA) 和 DeepSeek 稀疏注意力。MLA 通過壓縮存儲的內容來降低 KV 緩存成本。DeepSeek 稀疏注意力減少了模型必須回顧的先前上下文數量。換句話說,一個優化了緩存表示,另一個在其基礎上優化了注意力模式。
![]()
圖 20 :DeepSeek V3.2 是明顯的參考點,因為這是與稀疏注意力理念聯系最緊密的模型家族。
稀疏模式并不隨機。第一階段是一個閃電索引器,它為每個新的查詢 token 對之前的 token 進行評分。它利用 MLA 的壓縮 token 表示,并在先前的上下文中計算一個學習到的相似度得分,因此模型可以對哪些早期位置值得回顧進行排名。
第二階段是 token 選擇器。它僅保留一個較小的、得分較高的子集,例如過去位置的 top-k 集合,并將該子集轉換為稀疏注意力掩碼。因此,重點在于 DeepSeek 稀疏注意力避開了硬編碼稀疏模式的做法,它會去學習保留哪些過去的 token。
![]()
圖 21 :該機制由一個為先前 token 評分的閃電索引器和一個僅保留較小子集用于注意力的選擇器組成
DeepSeek 稀疏注意力相對較新且實現起來相對復雜,這也是為什么它尚未像分組查詢注意力 (GQA) 那樣被廣泛采用的原因。
6. 門控注意力 (Gated Attention)
將門控注意力理解為一個經過修改的全注意力塊最為妥當,它脫離了作為一個獨立注意力家族的范疇。
它通常出現在混合堆棧中,這些堆棧仍然保留偶爾的全注意力層用于精確的內容檢索,但在原本熟悉的縮放點積注意力塊之上添加了一些以穩定性為導向的更改。
![]()
圖 22 :Trinity Large 是一個有用的對比對象,因為門控注意力并不僅僅是 Qwen 的想法(稍后會詳細介紹)。在這里,在一個不同的長上下文架構中,門控出現在縮放點積注意力輸出之后,并在輸出投影之前
6.1 門控注意力的應用位置
Qwen3-Next 和 Qwen3.5 架構表明,最近的混合架構(在下一節中介紹)并沒有在所有地方取代注意力。作為一種妥協,它們用更便宜的替代方案取代了大多數注意力層,并在堆棧中保留了較少數量的全注意力層。
那些保留下來的全注意力層通常就是門控注意力出現的地方。Qwen3-Next 和 Qwen3.5 將其與 Gated DeltaNet 一起以 3:1 的模式使用。
撇開混合架構不談,Trinity 在一個更傳統的注意力堆棧中使用了相關的門控理念,如上圖所示。
6.2 門控注意力與標準注意力的比較
Qwen 風格的混合架構或 Trinity(非混合架構)中的門控注意力塊,本質上是標準縮悉點積注意力在之上加上了一些修改。在最初的門控注意力論文中,這些修改被視作一種方法,用于使保留在混合堆棧中的全注意力層的行為更具可預測性。
該塊看起來仍然像標準的(全)注意力,但它增加了:
- 一個輸出門,用于在將注意力結果加回殘差之前對其進行縮放;
- 一種中心為零的 QK-Norm 變體,取代了用于 q 和 k 的標準 RMSNorm ;
- 局部 RoPE。
這些修改未達到 MLA 或線性注意力的規模,它們純粹是應用于一個本來就熟悉的注意力塊的穩定性和控制修改。
![]()
圖 23 :在 Qwen3-Next 和 Qwen3.5 中,門控注意力作為全注意力層出現,它定期地阻斷連續運行的 Gated DeltaNet 塊。
請注意,上圖還包含了 Gated DeltaNet ,我們將在下面的小節中對其進行介紹。
7. 混合注意力 (Hybrid Attention)
混合注意力是一種更廣泛的設計模式,它超越了單一的特定機制。總體思路是保留類似 Transformer 的堆棧,但使用更便宜的線性或狀態空間序列模塊來替換大多數昂貴的全注意力層。
其動機在于長上下文效率。全注意力隨序列長度呈二次方增長,因此一旦模型轉向 128k 、 256k 或 1M token 這樣的上下文,注意力的內存和計算成本就會變得非常高昂,以至于在大多數層中使用更便宜的序列模塊,同時僅保留少量更繁重的檢索層變得更加合理。(請注意,不過這會帶來一些建模性能方面的權衡。)
在 Qwen3-Next 中,這種模式表現為 Gated DeltaNet 和門控注意力塊的 3:1 混合。Gated DeltaNet 也與 Mamba-2 密切相關(例如,請參閱《Gated Delta Networks: Improving Mamba2 with Delta Rule》論文),并且該機制可以被理解為 DeltaNet 風格的快速權重更新與 Mamba 風格門控的結合。后來的架構保留了相同的整體思路,但換成了其他的輕量級序列混合器,例如 Kimi Delta Attention 、Lightning Attention 或標準的 Mamba-2。
![]()
圖 24 :基本的混合模式,其中大多數塊是更便宜的序列混合器,每四個塊恢復一個繁重的注意力層
7.1 Qwen3-Next 中的 Gated DeltaNet
據我所知,首個采用混合注意力的接近旗艦級 LLM 的顯著例子是 2025 年的 Qwen3-Next ,它并未完全移除注意力機制,其做法是將三個 Gated DeltaNet 塊與一個門控注意力塊混合。
在這里,輕量級的 Gated DeltaNet 塊承擔了大部分長上下文的工作,并使內存增長比全注意力平緩得多。保留較重的門控注意力層是因為 DeltaNet 在基于內容的檢索方面不夠精確。
在 Gated DeltaNet 塊內,模型連同兩個學習到的門(α,β)一起計算查詢、鍵和值向量。它使用 delta 規則更新寫入一個小的快速權重內存,擺脫了形成通常的 token 到 token 注意力矩陣的步驟。粗略地說,內存存儲了過去信息的壓縮運行摘要,而門控制了添加多少新信息以及保留多少先驗狀態。
這使得 Gated DeltaNet 成為一種線性注意力或循環風格的機制,它絕不僅僅是對 MHA 的又一次微調。相對于 Mamba-2 ,兩者的密切聯系在于它們都屬于線性時間門控序列模型家族,但 Gated DeltaNet 使用的是 DeltaNet 風格的快速權重內存更新,這取代了 Mamba 的狀態空間更新。
![]()
圖 25 :混合架構背后的實際動機在內存曲線中顯示。使用 Gated DeltaNet 的混合堆棧隨著上下文長度的增長比普通的全注意力緩慢得多
Qwen3.5 將之前的 Qwen3-Next 混合架構引入了 Qwen 的主打旗艦系列,這是一個有趣的舉動。這基本上標志著混合策略取得了成功,并且我們將來可能會看到更多采用這種架構的模型。
![]()
圖 26 :Qwen3.5 展示了 Qwen 團隊將之前的 Qwen3-Next 側支提升到了主要模型線中,擺脫了將其作為一次性效率變體的地位
7.2 Kimi Linear 與改進的 Delta Attention
Kimi Linear 保留了相同的廣泛 Transformer 骨架和相同的 3:1 模式,但它改變了配方的兩半。
在輕量級方面,Kimi Delta Attention 是 Gated DeltaNet 的改進版。Qwen3-Next 為每個頭使用標量門來控制內存衰減,Kimi 則使用通道級門控,這賦予了其對內存更新的更精細控制。在重量級方面,Kimi 用門控 MLA 層替換了 Qwen3-Next 的門控注意力層。
因此,這仍然是與 Qwen3-Next 和 Qwen3.5 相同的更廣泛的模式,但這兩個成分都發生了(輕微的)變化。即,大多數層仍然由更便宜的線性風格機制處理,并且仍然保留周期性的重型層以實現更強的檢索能力。
![]()
圖 27 :Kimi Linear 保持了相同的整體混合模式,同時改變了堆棧的輕量級部分和較重的注意力部分
7.3 Ling 2.5 與 Lightning Attention
Ling 2.5 展示了在輕量級方面的另一種替換。Ling 放下了 Gated DeltaNet ,使用了一種稱為 Lightning Attention 的稍微簡單一些的循環線性注意力變體。在重量級方面,它保留了來自 DeepSeek 的 MLA。
大多數序列混合發生在更便宜的線性注意力塊中,同時保留了少量較重的層以維持更強的檢索。不同之處在于特定的輕量級機制現在是 Lightning Attention ,脫離了對 DeltaNet 或 Kimi Delta Attention 的依賴。
![]()
圖 28 :Ling 2.5 和 Qwen3.5 都是線性注意力混合架構,盡管 Ling 采用了 Lightning Attention 和 MLA,避開了 Qwen 的方案
Ling 2.5 更多地針對長上下文效率,其目標并非絕對的基準測試領先地位。根據 Ling 團隊的說法,據報道它在處理 32k token 時比 Kimi K2 快得多,這正是這些混合架構所追求的實際回報。
![]()
圖 29 :Ling 2.5 作為一個強大的效率升級版推出,在同樣的 1 萬億參數規模下,其 32k-token 的吞吐量遠高于 Kimi K2
Nemotron 與 Mamba-2
Nemotron 將該模式進一步推離了 Transformer 基線。Nemotron 3 Nano 是一個 Mamba-Transformer 混合架構,它將 Mamba-2 序列建模塊與稀疏 MoE 層交錯排列,并且僅在一小部分層中使用自注意力。
這是上述相同基本權衡的更極端版本。在這里,輕量級序列模塊是一個 Mamba-2 狀態空間塊,這取代了 DeltaNet 風格的快速權重更新,但基本的權衡是相似的。
![]()
圖 30 :Nemotron 3 Nano 使用 Mamba-2 完成大部分序列建模工作,自注意力僅出現在一小部分層中
更大的 Nemotron 3 Super 保留了 Mamba-2 混合注意力方法,并添加了其他以效率為導向的更改,例如潛在 MoE 和用于推測解碼的共享權重多 token 預測 (MTP)。
![]()
圖 31 :Nemotron 3 Super 保留了 Mamba-2 混合注意力模式,同時在其基礎上添加了潛在 MoE 和共享權重 MTP
結論
當然,在大量文獻中還有更多(主要是小眾的)注意力變體我在這里沒有介紹。本文的重點集中于目前在最先進的(開放權重)模型中使用的那些變體。
我特別期待 (1) 看到全新的Mamba-3層被集成到上述混合架構中(替換 Gated DeltaNet ),以及 (2)注意力殘差 (attention residuals)被廣泛使用。
在實踐中,你可能還會想知道目前「最好」的架構是什么。這很難回答,因為沒有公開的實驗在相同的訓練數據上訓練不同的架構等。
因此,我們目前只能回答對于給定問題最佳(經過訓練的)模型選擇是什么。在我看來,混合架構仍然是一個新奇事物,其主要賣點主要是(長上下文)效率,它在一定程度上拋棄了單純強調建模性能的追求。因此,我認為它們是智能體上下文(如 OpenClaw )的絕佳選擇。
就我個人而言,我認為混合架構的問題也在于推理堆棧尚未得到充分優化,我發現當使用更經典的設置(如帶有分組查詢注意力的 GPT-OSS )在本地運行 LLM 時,我獲得了更好的 tok/sec 吞吐量。
無論如何,我很好奇DeepSeek V4會帶來什么,因為在過去的 2 年里,DeepSeek 一直是非常可靠的趨勢引領者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.