華中科技大學王興剛團隊 投稿
量子位 | 公眾號 QbitAI
研究者們花了十年去擴展層內的計算能力,卻忘了擴展層間的通信能力。
這件事亟需被改變。
![]()
過去十年,深度學習領域取得進展的方式出奇地一致:什么都往大了整。更多參數(shù)、更多數(shù)據(jù)、更長上下文。而且確實管用:loss在降,能力在漲,scaling law(擴展定律)精確地告訴研究團隊還需要投入多少。
但擴展的方向不同,差異也是巨大的。序列長度的擴展需要真正的創(chuàng)新,也確實催生了一整套機制研究和系統(tǒng)工程。數(shù)據(jù)的擴展則直截了當:數(shù)據(jù)越多,loss越低。讓模型變得更寬、更深,這看起來也和數(shù)據(jù)的擴展一樣簡單。
但寬度和深度真的在同等地發(fā)揮作用嗎?
并非如此。深度在數(shù)量上增長了,但在質量上卻沒有。層與層之間的通信機制幾乎沒有變化。接下來本文將解釋這一點為什么重要,這不僅關乎網絡的深度本身,更關于研究團隊設計神經網絡架構時的一個集體盲區(qū)。
上半場
要看清上半場做對了什么,就看看什么被成功地擴展了,以及是怎么做到的。
先看序列長度。早期Transformer只能處理幾百個token。要達到128K+,需要多個方向上的持續(xù)創(chuàng)新:新的注意力模式(稀疏、線性、混合)、系統(tǒng)工程(FlashAttention)、位置編碼的進步(RoPE scaling)。研究者和工程師們共同建造了一整個生態(tài),持續(xù)改進token之間的通信方式。而回報頗豐,研究團隊不止能夠處理極其長的文檔,還為OpenAI-O1和DeepSeek-R1的長鏈推理奠定了堅實的基礎。這就是當研究團隊認真投資于“信息在序列維度上的流動方式時”,所收獲的斐然成果。
![]()
△現(xiàn)代LLM中的參數(shù)與數(shù)據(jù)規(guī)模迅速增長
參數(shù)和數(shù)據(jù)的擴展是最符合人類直覺的部分。從深度學習的最早期開始,每本教科書都在教授同一套配方:更多數(shù)據(jù)、更寬的層、更深的網絡,自然帶來更好的表征。從GPT-2的15億參數(shù)到如今的數(shù)萬億,這套配方一直管用。這似乎說明大模型團隊不需要引入新機制,只需要持續(xù)拓展這些被驗證了的方向。
只不過,對網絡而言,更寬和更深往往并不是一回事。寬度的擴展是自然而然的:現(xiàn)代GPU天生擅長處理更寬的矩陣乘法,注意力機制的演進越來越高效,這使得更寬的網絡可以無縫接入現(xiàn)有架構。
而深度則是另一個故事。模型確實變深了:研究團隊將模型加到32層、64層、甚至100層以上。但層間通信的機制本質上還是ResNet在2015年引入的深度殘差,“x + F(x)”。自它誕生以來,圍繞它有過不少改良(歸一化位置、殘差縮放、跨層連接),但沒有任何改良真正取代過那個深度殘差中“+”的決定性地位。
殘差連接可以說是深度學習中最重要的基石。沒有它,就沒有100層的Transformer,沒有現(xiàn)代LLM,沒有scaling law。但基礎性方案有一個特點:它們有時會變得太過隱形,以至于沒人再去質疑它到底是最優(yōu)解,還是僅僅是研究團隊探索出的第一個能用的方案。
打個比方,想象一個有特殊規(guī)則的傳話游戲。在標準版本里,第1個人對第2個人耳語,第2個人再對第3個人耳語。到第18個人的時候,消息已經面目全非了。這就是沒有殘差連接的深層網絡:每一層只能看到上一層的輸出。
殘差連接修復了這個問題:每個人在傳達自己的理解的同時,也把之前積累的原始信息原封不動地往下傳。第3個人既能聽到第2個人的新解讀,也能聽到之前的所有內容。原始信號始終被保留,它成為了不斷壯大的合唱中的一個聲部。
但到了第152個人,你同時在聽152個聲音:原始信息加上151層疊加上去的內容,全部混在一句耳語里。理論上,前面那些人的聲音依然存在,但它們已經被淹沒了。如果第152個人需要知道第3個人具體說了什么,他得費力地從這首宏大的合唱聲中把它挑出來。
![]()
△消息累加的傳話游戲中,靠后的人依然難以分辨出所需的內容
通常而言,第152個人是做不到這一點的。
這就是信息稀釋。每一層都面臨兩難:倘若該層貢獻新信息就可能會掩蓋之前的內容,但保守不動則能保留之前層傳過來的已有信息。這種狀況下,很多層學會了保守不動,它們幾乎不往殘差流里寫入任何東西。這樣的深度網絡在紙面上很深,實際上卻很淺。研究團隊堆了152層,但其中很多層卻只學會了保持沉默。
這里的瓶頸不在于152層網絡所需求的算力,而在于信息穿過這些層的通信能力。CPU的發(fā)展在幾十年前就撞過同樣的墻:處理器越來越快,直到內存帶寬跟不上了,逼得整個行業(yè)轉向緩存和通信。組織管理也一樣:一群聰明人所能發(fā)揮出的創(chuàng)造力,也受限于他們之間的溝通、組織方式。深度學習正在經歷自己的版本:十年來不斷增強每一層的能力,而層與層之間的通道始終是2015年那條單車道公路。
那么,有沒有更好的機制?
配方
在本文所介紹的研究之前已經有很多研究者注意到了深度瓶頸。多年來,修補方案越來越巧妙:獲評CVPR best paper的DenseNet保留了每一層的輸出,但代價是平方級的開銷。使用可學習加權的方案DenseFormer、LIMe降低了成本,但訓練完成后權重就固定了,每個token、每套上下文都用同樣的權重。
字節(jié)跳動的Hyper-Connections和DeepSeek的mHC另辟蹊徑,它們把管道拓寬到N個通道,層間用混合矩陣連接,這相當于信息高速公路上同時多了好幾條車道。但壞消息是,信息仍然在逐層流動,第152層沒有辦法直接回溯到第3層。
彩云公司的MUDDFormer讓混合每層輸出這件事變成動態(tài)的,它會根據(jù)每個token的表征來生成權重。這在根本方向上是對的:從每一層汲取多少信息本就應該取決于你正在處理的內容。但同樣有個壞消息,第152層在決定從第3層汲取多少時,只依賴第152層本身的狀態(tài),它并不知道第3層實際包含了什么。它是在預測哪些層有用,而不是在查看。
以上的每一步都修復了一個真實存在的缺陷,但卻鮮有哪一個方法質疑過深度殘差的框架本身。
不難發(fā)現(xiàn),這些方法都有著一個共同點。從DenseNet到Hyper-Connections,每個方法都在回答同一個隱含的問題:“如何才能更好地混合各層的輸出?”更好的系數(shù),更多的通道,自適應的權重。但自始至終都是混合,自始至終都是累加。ELMo早就表明,不同的層編碼的是截然不同的信息:淺層編碼句法,深層編碼語義。所有人得出的結論都是“學習更好的混合權重用來平衡句法和語義”。但還有一條被主流忽視的道路:如果不同層持有不同信息,也許每一層應該能夠根據(jù)內容而非位置,從持有所需信息的那一層直接檢索。
這就是范疇謬誤:把層間通信當作累加(用學習到的或生成的系數(shù)來組合信號)而非檢索(通過基于內容的匹配來選擇信息)。在累加框架下,即使是動態(tài)方法也只從當前層的狀態(tài)生成混合權重,而不去查看信息的來源層實際包含了什么。在檢索框架下,Query(查詢)編碼的是“我需要什么”,Key(鍵)編碼的是“我有什么”,而它們之間的運算決定了相關性。Query和Key雙方都應該有發(fā)言權。
回到傳話游戲。之前所有的方法都在試圖產生一個更清晰的合唱:更好的發(fā)音、更多的中繼通道、自適應的音量。沒有一個質疑過這個根本約束:所有聲音必須累加成一個聲音嗎?也沒有人問過:咱是否可以直接走回去,跟之前的任何一個人當面對話呢?
研究團隊認為這種范疇謬誤在架構設計中無處不在。當某個東西足夠好用的時候,你不會去質疑它的概念框架,而只會在框架內改進。經歷了多年越來越巧妙的修補之后,研究者才明白:深度維度的殘差連接需要的不是更好的系數(shù),而是被一種根本不同的操作所替代:
一種在序列維度上已經成功解決了同樣問題的操作。
![]()
△ 因果注意力機制在序列維度(橫向)上聚合信息
下半場
一旦研究團隊把層間的通信理解為檢索而非累加,一個很自然的答案就是在深度維度上引入注意力機制。包括研究者團隊在內的很多團隊都獨立地收斂到了這個想法:谷歌提出的 DCA、華為的MRLA、Hessian.AI的 Dreamer、Kimi的AttnRes、以及研究者團隊提出的Flash Depth Attention & MoDA,大家都嘗試在層間應用點積注意力。這種獨立趨同本身就是一個信號:方向走對了!
![]()
△ 深度注意力機制在深度維度(縱向)上聚合信息
但找對方向和做出成品是兩回事。研究者自述:“第一次用Pytorch實現(xiàn)運行深度注意力的時候,前向和反向傳播共計耗時達到了44,924 ms。44秒啊!朋友們!這個時間都夠我喝完一瓶500毫升的冰紅茶了!”
也就是說,在深度維度上應用注意力機制的想法本身沒問題,但工程現(xiàn)實卻殘酷到了極點。現(xiàn)代GPU為大規(guī)模的矩陣乘法做了大量優(yōu)化,卻不擅長數(shù)千個跨深度的極小規(guī)模的注意力操作。深度注意力作為一個計算量不大的算法,跑起來卻可能慢得要命。
![]()
△Pytorch實現(xiàn)的深度注意力(DepthRef)很慢;Flash Depth Attention(FDA)很快。
至此,之前的方法都陷入了兩難:要么簡化深度注意力來換速度,這種方式丟掉了完整的選擇性檢索這一核心價值;要么保持完整的表達能力,但運算代價變得不可接受。研究者團隊找到了一條出路:不是簡化算法,而是重新組織參與計算的數(shù)據(jù)布局,從而適配GPU硬件。Flash Depth Attention(
https://github.com/hustvl/MoDA)讓具備完整表達能力的深度檢索快到可以參與實際訓練。
![]()
△混合深度注意力機制同時在序列維度(橫向)和深度維度(縱向)上聚合信息
常規(guī)的大模型主干流水線是:殘差連接→序列注意力→殘差連接→FFN(前饋網絡)。
有了高效的深度檢索之后,研究團隊注意到網絡的主干流水線變成了:深度注意力→序列注意力→深度注意力→FFN(前饋網絡)。這三個連續(xù)的注意力操作作用于不同的Key(鍵,縮寫作K)和Value(值,縮寫作V),卻共享著近乎相同的Query(查詢)。一個很自然的做法就是把它們融合。
研究者團隊提出了混合深度注意力(Mixture-of-depths Attention,MoDA)將深度檢索和序列檢索合并到一個統(tǒng)一的softmax中。每個注意力頭同時關注當前層的序列KV對(鍵值對)和所有前序層的深度KV對(鍵值對)。在同一個softmax 下,模型可以自由決定何時關注序列中的其他token,何時跨層檢索自身的歷史信息。通過一次操作,MoDA完成了兩個維度的檢索。
![]()
△左側區(qū)域是序列KV,右側區(qū)域是深度KV。顏色越黃,注意力越強。
回到傳話游戲。在殘差連接的版本里,第152個人費力地從累加的合唱中辨認第3個人的聲音。有了深度檢索,第152個人拍拍第3個人的肩膀直接問:“你剛才說了什么?”沒有中間人,沒有累積的噪音。
可視化的實驗結果也印證了這個類比所預測的現(xiàn)象:當模型獲得了通過深度KV從特定層進行選擇性檢索的能力時,它會持續(xù)且主動地使用這種能力。之前困擾模型架構研究員們的Attention Sink(注意力沉沒)現(xiàn)象,即模型把概率質量堆積在少數(shù)固定token上的行為,也隨之減弱。這就是當研究者團隊嘗試發(fā)展層之間而非僅僅層之內的信息流動時,所取得的有趣成果。
![]()
△引入深度注意力后,傳話游戲允許每個人用手機查看群聊記錄。
大模型架構的上半場是關于擴展組件的。研究者們擴展出更長的序列,更多的數(shù)據(jù),更大的模型。這個階段最關鍵的問題是“怎么把一切都做大?”。在上半場,這是正確且關鍵的問題,它把整個領域從GPT-2帶到了GPT-4時代。下半場是關于擴展通信的。新的問題是:“組件之間的通信質量如何?”
![]()
△引入混合深度注意力后,在主流的開源基線(OLMo2)上全面提升了模型能力。
深度是最明顯的例子,因為現(xiàn)有方案(累加)和可能的方案(選擇性檢索)之間的差距是巨大的。研究者團隊相信這個原則是可以推廣的。凡是神經網絡使用靜態(tài)的、與數(shù)據(jù)無關的通道來傳遞信息的地方,包括層與層之間、模態(tài)與模態(tài)之間、時間步與時間步之間等等,很可能都會有一個檢索機制等著替代那個累加操作。
全世界的研究者們花了十年掌握token之間如何對話,現(xiàn)在是時候掌握層與層之間如何對話了。而最終,研究者們將掌握神經網絡中每個組件如何與其他任意組件對話。
深度殘差的“+”帶我們跑過了一段極為精彩的旅程,但現(xiàn)在,是時候升級這座階梯了。
歡迎來到大模型架構的下半場。
Flash Depth Attention & MoDA論文鏈接:
https://arxiv.org/abs/2603.15619
Flash Depth Attention & MoDA代碼鏈接:
https://github.com/hustvl/MoDA
實驗室主頁:
https://github.com/hustvl
論文主要作者來自于華中科技大學(HUST)電子信息與通信學院視覺實驗室(Vision Lab)。HUST Vision Lab研究主要集中在計算機視覺和深度學習領域,尤其關注以下方向:多模態(tài)基礎模型、視覺表征學習、目標檢測、分割與跟蹤、端到端自動駕駛、新型神經網絡架構。
HUST Vision Lab致力于不斷突破視覺智能的邊界,代表性工作包括:CCNet(TPAMI 2020,4300+引用,1.5K Star)、Mask Scoring R-CNN(CVPR 2019,1400+引用,1.9K Star)、FairMOT(IJCV 2021,2200+引用,4.2K Star)、ByteTrack(ECCV 2022,3400+引用,6.2K Star)、EVA(CVPR 2023,1100+引用,2.7K Star)、MapTR(ICLR 2023,400+引用,1.5K Star)、Vectorized Autonomous Driving (VAD)(ICCV 2023,600+引用,1.3K Star)、DiffusionDrive(CVPR 2025,200+引用,1.3K Star)、Vision Mamba (Vim)(ICML 2024,3100+引用,3.8K Star)、4D Gaussian Splatting (4DGS)(CVPR 2024,1400+引用,3.5K Star)、YOLOS(NeurIPS 2021,500+引用,900+ Star)、YOLO-World(CVPR 2024,1000+引用,6.3K Star),以及 LightningDiT & VA-VAE(CVPR 2025,200+引用,1.4K Star)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.