網易首頁 > 網易號 > 正文申請入駐

馬斯克驚嘆！DeepSeek和Kimi先后出手，捅破了Transformer的「潛規則」！

2026-03-16 23:51:52　來源: AI進化論花生

北京舉報

分享至

晚上突然看到馬斯克發了一條推：「Impressive work from Kimi」。

去查了下，想看看咋咋唬唬的老馬又是被啥震驚到了。

然后，發現原來是Kimi發了篇論文

特意幫你們去認真讀了讀被老馬夸nb的論文是怎么回事。然后我發現這篇論文的主角我居然還挺熟悉的——殘差連接。

我的第一反應是：咦，這不是DeepSeek去年底剛動過的東西嗎？

今年1月份的時候，我寫過一篇我迄今為止閱讀量最高的解讀DeepSeek的mHC論文的文章。核心是：DeepSeek找到了一個大家覺得不需要改的東西——殘差連接，然后改了它。

現在Kimi也在殘差連接上動刀，而且馬斯克說impressive。我帶著困惑把論文讀了一遍。

結論是：兩家實驗室發現了同一個問題，但解法的出發點完全不同，深度也不同。

DeepSeek發現了什么問題，怎么解的

先快速回顧一下DeepSeek那篇，如果已經讀過可以直接跳過這節。

標準殘差連接長這樣：

h_l = h_{l-1} + f_{l-1}(h_{l-1})

每一層的輸出 = 上一層輸出 + 這一層學到的新東西。固定權重，均勻累加。2015年ResNet提出，所有大模型沿用至今。

DeepSeek的問題意識是：固定權重是不是太死板了？每一層對之前所有層都一視同仁，合理嗎？

他們的第一個嘗試是Hyper-Connections（HC）：把殘差流從1條擴展到4條，每條的權重可學習，讓模型自己決定怎么混合信號。

效果好，但有個致命問題：訓練不穩定。可學習的權重矩陣沒有任何約束，經過60層累乘之后，信號被放大了3000倍。實測損失曲線在訓練到一半時突然飆升。

最終版本mHC的解法：把權重矩陣約束在「雙隨機矩陣」上——滿足每行之和=1、每列之和=1的矩陣。這個約束的數學性質保證了矩陣的譜范數≤1，多層連乘之后信號不會爆炸。訓練穩定了，性能也超過了原始殘差連接。代價只有6.7%的額外訓練時間。

DeepSeek的解法可以用一句話總結：讓連接權重從固定變成可學習，同時用數學約束保證穩定性。

Kimi發現了什么，為什么看起來一樣

Kimi的論文開頭也在講殘差連接的問題。我讀到這里，真的困惑了一下——這不就是DeepSeek mHC做的事情嗎？

但繼續往下讀，Kimi的問題定義和DeepSeek不在同一個層面。

DeepSeek問的是：權重能不能更靈活？

Kimi問的是：更根本的問題在哪？就算權重可以學習，整個設計里還有什么沒解決？

他們找到了三個答案。

第一，不能點菜。

每一層只能看到上一層傳下來的「混合狀態」——所有前面層的輸出被攪在一起的結果。但不同類型的層需要的東西是不一樣的：有些層可能更需要早期的原始語義，有些層可能更需要最近幾層剛算出來的特征。現在它們只能吃同一份混合好的東西，沒辦法說「我要第3層的輸出」。

mHC讓混合的方式更靈活了，但本質上每條路拿到的還是混合過的狀態，沒法回頭單獨取某一層的輸出。

第二，信息找不回來。

某一層學到了一個很有價值的東西，但一旦被混進累積狀態，就和其他層的輸出攪在一起了。隨著后面的層不斷疊加新輸出，這個信息越來越淡，最終被淹沒。不可逆的。

第三，后面的層越來越難產生影響。

想象你在一間越來越吵的房間里說話。前面的層已經積累了很大的信號，后面的層必須喊得比所有前輩加起來更大聲，才能被聽到。論文測量了這個效應：到了模型最后幾層，信號量級是最開始的十多倍。后面的層要產生同等影響，需要付出十倍以上的「音量」。

mHC解決了訓練穩定性，但這三個根本問題還在——因為mHC的權重雖然可學習，但訓練完就固定了。不管輸入是什么，權重都一樣。

Kimi的解法：把時間維度的方案搬到深度維度

找到了問題，Kimi的解法來自一個很漂亮的類比。

這三個問題——不能點菜、信息找不回來、后面的層越來越難發聲——是不是很眼熟？

如果你了解深度學習的歷史，會發現這和2017年之前處理文本序列時遇到的問題一模一樣。

當時用的是RNN，處理一段話時，也是把所有歷史信息壓縮進一個狀態，每一步更新。同樣信息找不回來，同樣不能選擇性地回頭看早期內容。

2017年，《Attention Is All You Need》那篇劃時代的論文提出了Transformer，用注意力機制解決了這個問題：處理一段話時，每個位置不再只能看到上一步壓縮后的狀態，而是可以直接回頭看所有歷史位置，根據當前內容動態決定關注哪里。

但有意思的是，《Attention Is All You Need》升級了文本處理的信息流，卻沒有動層與層之間的信息流——殘差連接依然是2015年的固定累加。

Kimi的問題是：處理文本時，我們已經用注意力替代了「壓縮傳遞」；那層與層之間，為什么還在用「壓縮傳遞」？

這就是AttnRes的核心洞察：把注意力機制用到層與層之間的連接上。某種意義上，這是《Attention Is All You Need》在深度方向上的續集。

簡單說，改完之后每一層可以「回頭看」所有之前層的輸出，然后根據當前處理的內容，動態決定最需要參考哪幾層的結果。這個「回頭看」的過程就是注意力機制——和Transformer處理文本時做的事情一樣，只不過方向從「回頭看之前的文字」變成了「回頭看之前的層」。

參數代價幾乎可以忽略：每一層只多了一個向量。

最關鍵的一點：這個「回頭看誰」的權重不是固定的。同樣一個模型，處理不同的輸入，每一層對之前各層的關注程度是不同的——完全根據當前內容實時決定。這是和mHC最本質的區別：mHC的權重訓練完就定了，AttnRes的權重是活的。

這讓我想到普魯斯特。《追憶似水年華》里Marcel嘗到瑪德蓮蛋糕浸在茶里的味道，童年的貢布雷整個涌上來——不是模糊的印象，而是精確的感知，繞過了所有中間的敘事鏈條。普魯斯特管這叫「非自愿記憶」：不是你主動去回憶，而是被某個感覺直接觸發，直接抵達。

標準殘差更像正常人的有意識回憶——細節在層層傳遞中被壓縮、混合，你只能拿到一個抽象過的狀態，原來的精確感知找不回來了。AttnRes給每一層裝上了一種工程化的普魯斯特能力：被當前內容觸發，直接跳到任意前驅層的精確輸出，不經過中間的壓縮鏈。

不過普魯斯特的非自愿記憶是不受控的，你不知道哪塊瑪德蓮蛋糕會觸發什么。AttnRes用softmax加了方向——根據當前內容，決定最需要回頭取哪一層的東西。這是普魯斯特沒有給Marcel的：有方向的精確記憶。

兩種方案的本質差異

把兩個方案放在一起，差異很直觀：

DeepSeek mHC

Kimi AttnRes

改的是什么

連接權重的學習方式

信息流的結構

權重是活的還是死的

訓練完就固定

每次處理不同輸入都不同

能看到什么

只能看到上一層的混合狀態

可以直接看所有之前層的原始輸出

解決了什么

權重太死板

不能點菜 + 后面層越來越難發聲

論文里有一個消融實驗特別直接：如果讓模型能看到所有之前層的輸出，但權重是固定的（訓練完就不變），效果和原來幾乎一樣，沒有提升。但換成動態權重（根據當前內容實時決定），性能就明顯提升了。

結論很清楚：光是「能回頭看」不夠，必須是「根據內容動態地回頭看」才有價值。

Block AttnRes：工程上怎么落地

理想狀態下，每一層都能直接回頭看所有之前層的輸出（Full AttnRes）。但對于100多層的模型，這意味著要把所有層的輸出都存著，內存吃不消。

Kimi的工程方案是Block AttnRes：把所有層分成大約8個「塊」，塊內還是用標準殘差做累加，塊與塊之間用注意力。

這樣需要記住的東西從「每一層的輸出」縮減到「每個塊的匯總」，內存占用大幅下降。

性能損失多少？幾乎可以忽略。大約8個塊就能恢復絕大部分收益。而且工程代價比mHC還低——訓練額外開銷不超過4%，推理延遲增加不超過2%。

效果怎么樣

實驗在Kimi自家的48B參數模型上驗證。

先說最直觀的一個數字：用同樣的算力，AttnRes達到了標準方法需要多燒25%算力才能達到的性能。換句話說，不加機器、不加數據，只改信息流的結構，就能白賺25%的算力效果。

下游任務的提升也很顯著，尤其是推理類任務：

GPQA-Diamond（研究生級別的科學推理）：36.9 → 44.4，提了7.5個點
數學：53.5 → 57.1
代碼：59.1 → 62.2
中文理解（C-Eval）：79.6 → 82.5

推理任務提升最大，這說得通——多步推理需要不同層之間緊密協作，正是信息流改善受益最大的場景。

訓練過程也更健康了。之前說的「越來越吵的房間」問題，在AttnRes下被明顯緩解：每層的信號量級不再單調遞增，而是保持在一個有界的范圍內。每一層都能得到合理的學習信號，不再出現「前面的層學得好，后面的層被淹沒」的情況。

模型自己學到了什么

訓練好之后，Kimi可視化了模型「回頭看」的模式——每一層到底在關注哪些前面的層。

三個有意思的發現：

大部分時候，還是看最近的鄰居。 標準殘差的「只看上一層」并不是完全錯的，模型自己學出來的結果也是以鄰近層為主。

但最原始的輸入一直沒被忘掉。 即使到了模型最深的層，對最開頭輸入的注意力權重都不是零。標準殘差下這個原始輸入早就被稀釋得找不到了，AttnRes讓深層可以隨時回頭翻看它。

模型自己發明了「捷徑」。 某些層會跳過中間，直接關注很早期的某些層。這不是人工設計的，是訓練中模型自己發現的信息通路。

還有一個細節：模型里不同類型的層，「回頭看」的習慣明顯不同。有些層看得遠，有些層只看最近幾層。AttnRes讓它們各自找到了最適合自己的信息來源——這在標準殘差下是不可能的，因為所有層拿到的都是同一份混合狀態。

往大了說

兩家發現了同一個被忽視的方向，但出發點不同，解法不同，解決的東西也不完全重疊。

mHC的核心是：讓連接權重可學習，并且穩定。但每一層拿到的信息源還是混合過的，而且權重訓練完就固定了。

AttnRes的核心是：讓每一層可以直接回頭看所有前面層的原始輸出，根據當前內容實時決定看哪里。解決的是更根本的問題。

論文結論里說：現在的Block AttnRes是工程折中，隨著硬件進步，最終會走向每層都能回頭看所有層的Full AttnRes。

還有一個實驗我覺得最值得關注：Kimi測試了25種不同的模型架構配置，發現用了AttnRes之后，最優的模型設計從「寬而淺」變成了「窄而深」。之前模型不敢做太深，因為深了之后后面的層越來越難學到東西。AttnRes解決了這個問題，讓「加深度」重新變成了有效的手段。

這不只是給現有架構加了個性能插件，而是重新開放了模型設計的一個維度。

想想大多數團隊在做什么：更好的訓練數據、更長的上下文、更大的MoE、更聰明的推理策略。這些都有價值，但都是在「層間連接就是固定累加」這個前提下做優化。選擇回到最底層的基礎結構去找根本性突破，需要兩個條件同時滿足——技術判斷力（看出哪些「默認配置」其實可以改），和工程實力（在大規模訓練上證明它真的有效，不是玩具實驗）。這兩個條件同時具備的團隊，全球范圍內都是稀缺的。

過去幾年大模型的架構創新主要發生在上層模塊——Attention機制的各種變體、MoE的路由策略、位置編碼的改進。殘差連接一直待在最底層，被當作「默認配置」，沒人覺得需要碰它。現在DeepSeek和Kimi先后在這里找到了突破口，說明一個趨勢：架構優化的前沿已經從上層模塊深入到了最基礎的信號傳遞結構。

《Attention Is All You Need》當年把序列維度從遞推升級到了注意力。但那篇論文里的殘差連接——深度維度上的信息流——依然用的是2015年的固定累加。這個未完成的工作等了九年。

馬斯克的「Impressive work」不只是一句客套。當這個級別的人公開點贊一篇基礎架構論文，釋放的信號是：深度學習的底層范式本身在發生變化，值得關注的不只是論文里的具體數字，而是它指向的方向。

殘差連接被當作默認配置用了十年。三個月內，兩家中國實驗室先后在這個最基礎的地方找到了根本性突破。

參考資料：

Attention Residuals技術報告：https://github.com/MoonshotAI/Attention-Residuals
DeepSeekmHC論文：https://arxiv.org/abs/2512.24880
Kimi Linear架構報告：https://arxiv.org/abs/2510.26692
Attention Is All You Need：https://arxiv.org/abs/1706.03762

@Kimi 用我奶奶也能懂的語言解釋下這篇論文：

大模型就像一棟100層的大樓，每一層的工人干完活，把成果交給下一層。過去十年，傳遞方式都是「流水賬」——每一層只能看到上一層遞過來的一份混合文件，前面誰寫了什么、寫得好不好，全攪在一起了，找不回來。 Kimi做的事情是給每一層裝了一部電話。現在第100層的工人如果覺得「第3層當時算的那個數據我現在要用」，可以直接打電話回去查，不用再翻那份被改了97遍的混合文件。而且每個工人會根據自己手頭的任務，自己決定打給誰——不是固定的，是看情況來的。就這么一個改動，同樣的機器、同樣的數據，模型性能白賺了25%。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.