網易首頁 > 網易號 > 正文申請入駐

大模型架構的下半場

2026-04-19 18:11:02　來源: 量子位

北京舉報

分享至

華中科技大學王興剛團隊投稿
量子位 | 公眾號 QbitAI

研究者們花了十年去擴展層內的計算能力，卻忘了擴展層間的通信能力。

這件事亟需被改變。

過去十年，深度學習領域取得進展的方式出奇地一致：什么都往大了整。更多參數(shù)、更多數(shù)據(jù)、更長上下文。而且確實管用：loss在降，能力在漲，scaling law（擴展定律）精確地告訴研究團隊還需要投入多少。

但擴展的方向不同，差異也是巨大的。序列長度的擴展需要真正的創(chuàng)新，也確實催生了一整套機制研究和系統(tǒng)工程。數(shù)據(jù)的擴展則直截了當：數(shù)據(jù)越多，loss越低。讓模型變得更寬、更深，這看起來也和數(shù)據(jù)的擴展一樣簡單。

但寬度和深度真的在同等地發(fā)揮作用嗎？

并非如此。深度在數(shù)量上增長了，但在質量上卻沒有。層與層之間的通信機制幾乎沒有變化。接下來本文將解釋這一點為什么重要，這不僅關乎網絡的深度本身，更關于研究團隊設計神經網絡架構時的一個集體盲區(qū)。

上半場

要看清上半場做對了什么，就看看什么被成功地擴展了，以及是怎么做到的。

先看序列長度。早期Transformer只能處理幾百個token。要達到128K+，需要多個方向上的持續(xù)創(chuàng)新：新的注意力模式（稀疏、線性、混合）、系統(tǒng)工程（FlashAttention）、位置編碼的進步（RoPE scaling）。研究者和工程師們共同建造了一整個生態(tài)，持續(xù)改進token之間的通信方式。而回報頗豐，研究團隊不止能夠處理極其長的文檔，還為OpenAI-O1和DeepSeek-R1的長鏈推理奠定了堅實的基礎。這就是當研究團隊認真投資于“信息在序列維度上的流動方式時”，所收獲的斐然成果。

△現(xiàn)代LLM中的參數(shù)與數(shù)據(jù)規(guī)模迅速增長

參數(shù)和數(shù)據(jù)的擴展是最符合人類直覺的部分。從深度學習的最早期開始，每本教科書都在教授同一套配方：更多數(shù)據(jù)、更寬的層、更深的網絡，自然帶來更好的表征。從GPT-2的15億參數(shù)到如今的數(shù)萬億，這套配方一直管用。這似乎說明大模型團隊不需要引入新機制，只需要持續(xù)拓展這些被驗證了的方向。

只不過，對網絡而言，更寬和更深往往并不是一回事。寬度的擴展是自然而然的：現(xiàn)代GPU天生擅長處理更寬的矩陣乘法，注意力機制的演進越來越高效，這使得更寬的網絡可以無縫接入現(xiàn)有架構。

而深度則是另一個故事。模型確實變深了：研究團隊將模型加到32層、64層、甚至100層以上。但層間通信的機制本質上還是ResNet在2015年引入的深度殘差，“x + F(x)”。自它誕生以來，圍繞它有過不少改良（歸一化位置、殘差縮放、跨層連接），但沒有任何改良真正取代過那個深度殘差中“+”的決定性地位。

殘差連接可以說是深度學習中最重要的基石。沒有它，就沒有100層的Transformer，沒有現(xiàn)代LLM，沒有scaling law。但基礎性方案有一個特點：它們有時會變得太過隱形，以至于沒人再去質疑它到底是最優(yōu)解，還是僅僅是研究團隊探索出的第一個能用的方案。

打個比方，想象一個有特殊規(guī)則的傳話游戲。在標準版本里，第1個人對第2個人耳語，第2個人再對第3個人耳語。到第18個人的時候，消息已經面目全非了。這就是沒有殘差連接的深層網絡：每一層只能看到上一層的輸出。

殘差連接修復了這個問題：每個人在傳達自己的理解的同時，也把之前積累的原始信息原封不動地往下傳。第3個人既能聽到第2個人的新解讀，也能聽到之前的所有內容。原始信號始終被保留，它成為了不斷壯大的合唱中的一個聲部。

但到了第152個人，你同時在聽152個聲音：原始信息加上151層疊加上去的內容，全部混在一句耳語里。理論上，前面那些人的聲音依然存在，但它們已經被淹沒了。如果第152個人需要知道第3個人具體說了什么，他得費力地從這首宏大的合唱聲中把它挑出來。

△消息累加的傳話游戲中，靠后的人依然難以分辨出所需的內容

通常而言，第152個人是做不到這一點的。

這就是信息稀釋。每一層都面臨兩難：倘若該層貢獻新信息就可能會掩蓋之前的內容，但保守不動則能保留之前層傳過來的已有信息。這種狀況下，很多層學會了保守不動，它們幾乎不往殘差流里寫入任何東西。這樣的深度網絡在紙面上很深，實際上卻很淺。研究團隊堆了152層，但其中很多層卻只學會了保持沉默。

這里的瓶頸不在于152層網絡所需求的算力，而在于信息穿過這些層的通信能力。CPU的發(fā)展在幾十年前就撞過同樣的墻：處理器越來越快，直到內存帶寬跟不上了，逼得整個行業(yè)轉向緩存和通信。組織管理也一樣：一群聰明人所能發(fā)揮出的創(chuàng)造力，也受限于他們之間的溝通、組織方式。深度學習正在經歷自己的版本：十年來不斷增強每一層的能力，而層與層之間的通道始終是2015年那條單車道公路。

那么，有沒有更好的機制？

配方

在本文所介紹的研究之前已經有很多研究者注意到了深度瓶頸。多年來，修補方案越來越巧妙：獲評CVPR best paper的DenseNet保留了每一層的輸出，但代價是平方級的開銷。使用可學習加權的方案DenseFormer、LIMe降低了成本，但訓練完成后權重就固定了，每個token、每套上下文都用同樣的權重。

字節(jié)跳動的Hyper-Connections和DeepSeek的mHC另辟蹊徑，它們把管道拓寬到N個通道，層間用混合矩陣連接，這相當于信息高速公路上同時多了好幾條車道。但壞消息是，信息仍然在逐層流動，第152層沒有辦法直接回溯到第3層。

彩云公司的MUDDFormer讓混合每層輸出這件事變成動態(tài)的，它會根據(jù)每個token的表征來生成權重。這在根本方向上是對的：從每一層汲取多少信息本就應該取決于你正在處理的內容。但同樣有個壞消息，第152層在決定從第3層汲取多少時，只依賴第152層本身的狀態(tài)，它并不知道第3層實際包含了什么。它是在預測哪些層有用，而不是在查看。

以上的每一步都修復了一個真實存在的缺陷，但卻鮮有哪一個方法質疑過深度殘差的框架本身。

不難發(fā)現(xiàn)，這些方法都有著一個共同點。從DenseNet到Hyper-Connections，每個方法都在回答同一個隱含的問題：“如何才能更好地混合各層的輸出？”更好的系數(shù)，更多的通道，自適應的權重。但自始至終都是混合，自始至終都是累加。ELMo早就表明，不同的層編碼的是截然不同的信息：淺層編碼句法，深層編碼語義。所有人得出的結論都是“學習更好的混合權重用來平衡句法和語義”。但還有一條被主流忽視的道路：如果不同層持有不同信息，也許每一層應該能夠根據(jù)內容而非位置，從持有所需信息的那一層直接檢索。

這就是范疇謬誤：把層間通信當作累加（用學習到的或生成的系數(shù)來組合信號）而非檢索（通過基于內容的匹配來選擇信息）。在累加框架下，即使是動態(tài)方法也只從當前層的狀態(tài)生成混合權重，而不去查看信息的來源層實際包含了什么。在檢索框架下，Query（查詢）編碼的是“我需要什么”，Key（鍵）編碼的是“我有什么”，而它們之間的運算決定了相關性。Query和Key雙方都應該有發(fā)言權。

回到傳話游戲。之前所有的方法都在試圖產生一個更清晰的合唱：更好的發(fā)音、更多的中繼通道、自適應的音量。沒有一個質疑過這個根本約束：所有聲音必須累加成一個聲音嗎？也沒有人問過：咱是否可以直接走回去，跟之前的任何一個人當面對話呢？

研究團隊認為這種范疇謬誤在架構設計中無處不在。當某個東西足夠好用的時候，你不會去質疑它的概念框架，而只會在框架內改進。經歷了多年越來越巧妙的修補之后，研究者才明白：深度維度的殘差連接需要的不是更好的系數(shù)，而是被一種根本不同的操作所替代：

一種在序列維度上已經成功解決了同樣問題的操作。

△ 因果注意力機制在序列維度（橫向）上聚合信息

下半場

一旦研究團隊把層間的通信理解為檢索而非累加，一個很自然的答案就是在深度維度上引入注意力機制。包括研究者團隊在內的很多團隊都獨立地收斂到了這個想法：谷歌提出的 DCA、華為的MRLA、Hessian.AI的 Dreamer、Kimi的AttnRes、以及研究者團隊提出的Flash Depth Attention & MoDA，大家都嘗試在層間應用點積注意力。這種獨立趨同本身就是一個信號：方向走對了！

△ 深度注意力機制在深度維度（縱向）上聚合信息

但找對方向和做出成品是兩回事。研究者自述：“第一次用Pytorch實現(xiàn)運行深度注意力的時候，前向和反向傳播共計耗時達到了44,924 ms。44秒啊！朋友們！這個時間都夠我喝完一瓶500毫升的冰紅茶了！”
也就是說，在深度維度上應用注意力機制的想法本身沒問題，但工程現(xiàn)實卻殘酷到了極點。現(xiàn)代GPU為大規(guī)模的矩陣乘法做了大量優(yōu)化，卻不擅長數(shù)千個跨深度的極小規(guī)模的注意力操作。深度注意力作為一個計算量不大的算法，跑起來卻可能慢得要命。

△Pytorch實現(xiàn)的深度注意力（DepthRef）很慢；Flash Depth Attention（FDA）很快。

至此，之前的方法都陷入了兩難：要么簡化深度注意力來換速度，這種方式丟掉了完整的選擇性檢索這一核心價值；要么保持完整的表達能力，但運算代價變得不可接受。研究者團隊找到了一條出路：不是簡化算法，而是重新組織參與計算的數(shù)據(jù)布局，從而適配GPU硬件。Flash Depth Attention（
https://github.com/hustvl/MoDA）讓具備完整表達能力的深度檢索快到可以參與實際訓練。

△混合深度注意力機制同時在序列維度（橫向）和深度維度（縱向）上聚合信息

常規(guī)的大模型主干流水線是：殘差連接→序列注意力→殘差連接→FFN（前饋網絡）。

有了高效的深度檢索之后，研究團隊注意到網絡的主干流水線變成了：深度注意力→序列注意力→深度注意力→FFN（前饋網絡）。這三個連續(xù)的注意力操作作用于不同的Key（鍵，縮寫作K）和Value（值，縮寫作V），卻共享著近乎相同的Query（查詢）。一個很自然的做法就是把它們融合。

研究者團隊提出了混合深度注意力（Mixture-of-depths Attention，MoDA）將深度檢索和序列檢索合并到一個統(tǒng)一的softmax中。每個注意力頭同時關注當前層的序列KV對（鍵值對）和所有前序層的深度KV對（鍵值對）。在同一個softmax 下，模型可以自由決定何時關注序列中的其他token，何時跨層檢索自身的歷史信息。通過一次操作，MoDA完成了兩個維度的檢索。

△左側區(qū)域是序列KV，右側區(qū)域是深度KV。顏色越黃，注意力越強。

回到傳話游戲。在殘差連接的版本里，第152個人費力地從累加的合唱中辨認第3個人的聲音。有了深度檢索，第152個人拍拍第3個人的肩膀直接問：“你剛才說了什么？”沒有中間人，沒有累積的噪音。

可視化的實驗結果也印證了這個類比所預測的現(xiàn)象：當模型獲得了通過深度KV從特定層進行選擇性檢索的能力時，它會持續(xù)且主動地使用這種能力。之前困擾模型架構研究員們的Attention Sink（注意力沉沒）現(xiàn)象，即模型把概率質量堆積在少數(shù)固定token上的行為，也隨之減弱。這就是當研究者團隊嘗試發(fā)展層之間而非僅僅層之內的信息流動時，所取得的有趣成果。

△引入深度注意力后，傳話游戲允許每個人用手機查看群聊記錄。

大模型架構的上半場是關于擴展組件的。研究者們擴展出更長的序列，更多的數(shù)據(jù)，更大的模型。這個階段最關鍵的問題是“怎么把一切都做大？”。在上半場，這是正確且關鍵的問題，它把整個領域從GPT-2帶到了GPT-4時代。下半場是關于擴展通信的。新的問題是：“組件之間的通信質量如何？”

△引入混合深度注意力后，在主流的開源基線（OLMo2）上全面提升了模型能力。

深度是最明顯的例子，因為現(xiàn)有方案（累加）和可能的方案（選擇性檢索）之間的差距是巨大的。研究者團隊相信這個原則是可以推廣的。凡是神經網絡使用靜態(tài)的、與數(shù)據(jù)無關的通道來傳遞信息的地方，包括層與層之間、模態(tài)與模態(tài)之間、時間步與時間步之間等等，很可能都會有一個檢索機制等著替代那個累加操作。

全世界的研究者們花了十年掌握token之間如何對話，現(xiàn)在是時候掌握層與層之間如何對話了。而最終，研究者們將掌握神經網絡中每個組件如何與其他任意組件對話。

深度殘差的“+”帶我們跑過了一段極為精彩的旅程，但現(xiàn)在，是時候升級這座階梯了。

歡迎來到大模型架構的下半場。

Flash Depth Attention & MoDA論文鏈接：

https://arxiv.org/abs/2603.15619

Flash Depth Attention & MoDA代碼鏈接：

https://github.com/hustvl/MoDA

實驗室主頁：

https://github.com/hustvl

論文主要作者來自于華中科技大學（HUST）電子信息與通信學院視覺實驗室（Vision Lab）。HUST Vision Lab研究主要集中在計算機視覺和深度學習領域，尤其關注以下方向：多模態(tài)基礎模型、視覺表征學習、目標檢測、分割與跟蹤、端到端自動駕駛、新型神經網絡架構。

HUST Vision Lab致力于不斷突破視覺智能的邊界，代表性工作包括：CCNet（TPAMI 2020，4300+引用，1.5K Star）、Mask Scoring R-CNN（CVPR 2019，1400+引用，1.9K Star）、FairMOT（IJCV 2021，2200+引用，4.2K Star）、ByteTrack（ECCV 2022，3400+引用，6.2K Star）、EVA（CVPR 2023，1100+引用，2.7K Star）、MapTR（ICLR 2023，400+引用，1.5K Star）、Vectorized Autonomous Driving (VAD)（ICCV 2023，600+引用，1.3K Star）、DiffusionDrive（CVPR 2025，200+引用，1.3K Star）、Vision Mamba (Vim)（ICML 2024，3100+引用，3.8K Star）、4D Gaussian Splatting (4DGS)（CVPR 2024，1400+引用，3.5K Star）、YOLOS（NeurIPS 2021，500+引用，900+ Star）、YOLO-World（CVPR 2024，1000+引用，6.3K Star），以及 LightningDiT & VA-VAE（CVPR 2025，200+引用，1.4K Star）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.