337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

馬斯克驚嘆!DeepSeek和Kimi先后出手,捅破了Transformer的「潛規則」!

0
分享至

晚上突然看到馬斯克發了一條推:「Impressive work from Kimi」。


去查了下,想看看咋咋唬唬的老馬又是被啥震驚到了。

然后,發現原來是Kimi發了篇論文


特意幫你們去認真讀了讀被老馬夸nb的論文是怎么回事。然后我發現這篇論文的主角我居然還挺熟悉的——殘差連接。

我的第一反應是:咦,這不是DeepSeek去年底剛動過的東西嗎?

今年1月份的時候,我寫過一篇我迄今為止閱讀量最高的解讀DeepSeek的mHC論文的文章。核心是:DeepSeek找到了一個大家覺得不需要改的東西——殘差連接,然后改了它。


現在Kimi也在殘差連接上動刀,而且馬斯克說impressive。我帶著困惑把論文讀了一遍。

結論是:兩家實驗室發現了同一個問題,但解法的出發點完全不同,深度也不同。

DeepSeek發現了什么問題,怎么解的

先快速回顧一下DeepSeek那篇,如果已經讀過可以直接跳過這節。

標準殘差連接長這樣:

h_l = h_{l-1} + f_{l-1}(h_{l-1})

每一層的輸出 = 上一層輸出 + 這一層學到的新東西。固定權重,均勻累加。2015年ResNet提出,所有大模型沿用至今。

DeepSeek的問題意識是:固定權重是不是太死板了?每一層對之前所有層都一視同仁,合理嗎?

他們的第一個嘗試是Hyper-Connections(HC):把殘差流從1條擴展到4條,每條的權重可學習,讓模型自己決定怎么混合信號。

效果好,但有個致命問題:訓練不穩定。可學習的權重矩陣沒有任何約束,經過60層累乘之后,信號被放大了3000倍。實測損失曲線在訓練到一半時突然飆升。

最終版本mHC的解法:把權重矩陣約束在「雙隨機矩陣」上——滿足每行之和=1、每列之和=1的矩陣。這個約束的數學性質保證了矩陣的譜范數≤1,多層連乘之后信號不會爆炸。訓練穩定了,性能也超過了原始殘差連接。代價只有6.7%的額外訓練時間。

DeepSeek的解法可以用一句話總結:讓連接權重從固定變成可學習,同時用數學約束保證穩定性。

Kimi發現了什么,為什么看起來一樣

Kimi的論文開頭也在講殘差連接的問題。我讀到這里,真的困惑了一下——這不就是DeepSeek mHC做的事情嗎?

但繼續往下讀,Kimi的問題定義和DeepSeek不在同一個層面。

DeepSeek問的是:權重能不能更靈活?

Kimi問的是:更根本的問題在哪?就算權重可以學習,整個設計里還有什么沒解決?

他們找到了三個答案。

第一,不能點菜。

每一層只能看到上一層傳下來的「混合狀態」——所有前面層的輸出被攪在一起的結果。但不同類型的層需要的東西是不一樣的:有些層可能更需要早期的原始語義,有些層可能更需要最近幾層剛算出來的特征。現在它們只能吃同一份混合好的東西,沒辦法說「我要第3層的輸出」。

mHC讓混合的方式更靈活了,但本質上每條路拿到的還是混合過的狀態,沒法回頭單獨取某一層的輸出。

第二,信息找不回來。

某一層學到了一個很有價值的東西,但一旦被混進累積狀態,就和其他層的輸出攪在一起了。隨著后面的層不斷疊加新輸出,這個信息越來越淡,最終被淹沒。不可逆的。

第三,后面的層越來越難產生影響。

想象你在一間越來越吵的房間里說話。前面的層已經積累了很大的信號,后面的層必須喊得比所有前輩加起來更大聲,才能被聽到。論文測量了這個效應:到了模型最后幾層,信號量級是最開始的十多倍。后面的層要產生同等影響,需要付出十倍以上的「音量」。


mHC解決了訓練穩定性,但這三個根本問題還在——因為mHC的權重雖然可學習,但訓練完就固定了。不管輸入是什么,權重都一樣。

Kimi的解法:把時間維度的方案搬到深度維度

找到了問題,Kimi的解法來自一個很漂亮的類比。

這三個問題——不能點菜、信息找不回來、后面的層越來越難發聲——是不是很眼熟?

如果你了解深度學習的歷史,會發現這和2017年之前處理文本序列時遇到的問題一模一樣。

當時用的是RNN,處理一段話時,也是把所有歷史信息壓縮進一個狀態,每一步更新。同樣信息找不回來,同樣不能選擇性地回頭看早期內容。

2017年,《Attention Is All You Need》那篇劃時代的論文提出了Transformer,用注意力機制解決了這個問題:處理一段話時,每個位置不再只能看到上一步壓縮后的狀態,而是可以直接回頭看所有歷史位置,根據當前內容動態決定關注哪里。

但有意思的是,《Attention Is All You Need》升級了文本處理的信息流,卻沒有動層與層之間的信息流——殘差連接依然是2015年的固定累加。

Kimi的問題是:處理文本時,我們已經用注意力替代了「壓縮傳遞」;那層與層之間,為什么還在用「壓縮傳遞」?

這就是AttnRes的核心洞察:把注意力機制用到層與層之間的連接上。某種意義上,這是《Attention Is All You Need》在深度方向上的續集。


簡單說,改完之后每一層可以「回頭看」所有之前層的輸出,然后根據當前處理的內容,動態決定最需要參考哪幾層的結果。這個「回頭看」的過程就是注意力機制——和Transformer處理文本時做的事情一樣,只不過方向從「回頭看之前的文字」變成了「回頭看之前的層」。

參數代價幾乎可以忽略:每一層只多了一個向量。

最關鍵的一點:這個「回頭看誰」的權重不是固定的。同樣一個模型,處理不同的輸入,每一層對之前各層的關注程度是不同的——完全根據當前內容實時決定。這是和mHC最本質的區別:mHC的權重訓練完就定了,AttnRes的權重是活的。

這讓我想到普魯斯特。《追憶似水年華》里Marcel嘗到瑪德蓮蛋糕浸在茶里的味道,童年的貢布雷整個涌上來——不是模糊的印象,而是精確的感知,繞過了所有中間的敘事鏈條。普魯斯特管這叫「非自愿記憶」:不是你主動去回憶,而是被某個感覺直接觸發,直接抵達。

標準殘差更像正常人的有意識回憶——細節在層層傳遞中被壓縮、混合,你只能拿到一個抽象過的狀態,原來的精確感知找不回來了。AttnRes給每一層裝上了一種工程化的普魯斯特能力:被當前內容觸發,直接跳到任意前驅層的精確輸出,不經過中間的壓縮鏈。

不過普魯斯特的非自愿記憶是不受控的,你不知道哪塊瑪德蓮蛋糕會觸發什么。AttnRes用softmax加了方向——根據當前內容,決定最需要回頭取哪一層的東西。這是普魯斯特沒有給Marcel的:有方向的精確記憶。

兩種方案的本質差異

把兩個方案放在一起,差異很直觀:

DeepSeek mHC

Kimi AttnRes

改的是什么

連接權重的學習方式

信息流的結構

權重是活的還是死的

訓練完就固定

每次處理不同輸入都不同

能看到什么

只能看到上一層的混合狀態

可以直接看所有之前層的原始輸出

解決了什么

權重太死板

不能點菜 + 后面層越來越難發聲

論文里有一個消融實驗特別直接:如果讓模型能看到所有之前層的輸出,但權重是固定的(訓練完就不變),效果和原來幾乎一樣,沒有提升。但換成動態權重(根據當前內容實時決定),性能就明顯提升了。

結論很清楚:光是「能回頭看」不夠,必須是「根據內容動態地回頭看」才有價值。

Block AttnRes:工程上怎么落地

理想狀態下,每一層都能直接回頭看所有之前層的輸出(Full AttnRes)。但對于100多層的模型,這意味著要把所有層的輸出都存著,內存吃不消。

Kimi的工程方案是Block AttnRes:把所有層分成大約8個「塊」,塊內還是用標準殘差做累加,塊與塊之間用注意力。

這樣需要記住的東西從「每一層的輸出」縮減到「每個塊的匯總」,內存占用大幅下降。

性能損失多少?幾乎可以忽略。大約8個塊就能恢復絕大部分收益。而且工程代價比mHC還低——訓練額外開銷不超過4%,推理延遲增加不超過2%。

效果怎么樣

實驗在Kimi自家的48B參數模型上驗證。

先說最直觀的一個數字:用同樣的算力,AttnRes達到了標準方法需要多燒25%算力才能達到的性能。換句話說,不加機器、不加數據,只改信息流的結構,就能白賺25%的算力效果。


下游任務的提升也很顯著,尤其是推理類任務:

  • GPQA-Diamond(研究生級別的科學推理):36.9 → 44.4,提了7.5個點

  • 數學:53.5 → 57.1

  • 代碼:59.1 → 62.2

  • 中文理解(C-Eval):79.6 → 82.5

推理任務提升最大,這說得通——多步推理需要不同層之間緊密協作,正是信息流改善受益最大的場景。

訓練過程也更健康了。之前說的「越來越吵的房間」問題,在AttnRes下被明顯緩解:每層的信號量級不再單調遞增,而是保持在一個有界的范圍內。每一層都能得到合理的學習信號,不再出現「前面的層學得好,后面的層被淹沒」的情況。

模型自己學到了什么

訓練好之后,Kimi可視化了模型「回頭看」的模式——每一層到底在關注哪些前面的層。


三個有意思的發現:

大部分時候,還是看最近的鄰居。 標準殘差的「只看上一層」并不是完全錯的,模型自己學出來的結果也是以鄰近層為主。

但最原始的輸入一直沒被忘掉。 即使到了模型最深的層,對最開頭輸入的注意力權重都不是零。標準殘差下這個原始輸入早就被稀釋得找不到了,AttnRes讓深層可以隨時回頭翻看它。

模型自己發明了「捷徑」。 某些層會跳過中間,直接關注很早期的某些層。這不是人工設計的,是訓練中模型自己發現的信息通路。

還有一個細節:模型里不同類型的層,「回頭看」的習慣明顯不同。有些層看得遠,有些層只看最近幾層。AttnRes讓它們各自找到了最適合自己的信息來源——這在標準殘差下是不可能的,因為所有層拿到的都是同一份混合狀態。

往大了說

兩家發現了同一個被忽視的方向,但出發點不同,解法不同,解決的東西也不完全重疊。

mHC的核心是:讓連接權重可學習,并且穩定。但每一層拿到的信息源還是混合過的,而且權重訓練完就固定了。

AttnRes的核心是:讓每一層可以直接回頭看所有前面層的原始輸出,根據當前內容實時決定看哪里。解決的是更根本的問題。

論文結論里說:現在的Block AttnRes是工程折中,隨著硬件進步,最終會走向每層都能回頭看所有層的Full AttnRes。

還有一個實驗我覺得最值得關注:Kimi測試了25種不同的模型架構配置,發現用了AttnRes之后,最優的模型設計從「寬而淺」變成了「窄而深」。之前模型不敢做太深,因為深了之后后面的層越來越難學到東西。AttnRes解決了這個問題,讓「加深度」重新變成了有效的手段。

這不只是給現有架構加了個性能插件,而是重新開放了模型設計的一個維度。

想想大多數團隊在做什么:更好的訓練數據、更長的上下文、更大的MoE、更聰明的推理策略。這些都有價值,但都是在「層間連接就是固定累加」這個前提下做優化。選擇回到最底層的基礎結構去找根本性突破,需要兩個條件同時滿足——技術判斷力(看出哪些「默認配置」其實可以改),和工程實力(在大規模訓練上證明它真的有效,不是玩具實驗)。這兩個條件同時具備的團隊,全球范圍內都是稀缺的。

過去幾年大模型的架構創新主要發生在上層模塊——Attention機制的各種變體、MoE的路由策略、位置編碼的改進。殘差連接一直待在最底層,被當作「默認配置」,沒人覺得需要碰它。現在DeepSeek和Kimi先后在這里找到了突破口,說明一個趨勢:架構優化的前沿已經從上層模塊深入到了最基礎的信號傳遞結構。

《Attention Is All You Need》當年把序列維度從遞推升級到了注意力。但那篇論文里的殘差連接——深度維度上的信息流——依然用的是2015年的固定累加。這個未完成的工作等了九年。

馬斯克的「Impressive work」不只是一句客套。當這個級別的人公開點贊一篇基礎架構論文,釋放的信號是:深度學習的底層范式本身在發生變化,值得關注的不只是論文里的具體數字,而是它指向的方向。

殘差連接被當作默認配置用了十年。三個月內,兩家中國實驗室先后在這個最基礎的地方找到了根本性突破。

參考資料:

  • Attention Residuals技術報告:https://github.com/MoonshotAI/Attention-Residuals

  • DeepSeekmHC論文:https://arxiv.org/abs/2512.24880

  • Kimi Linear架構報告:https://arxiv.org/abs/2510.26692

  • Attention Is All You Need:https://arxiv.org/abs/1706.03762

@Kimi 用我奶奶也能懂的語言解釋下這篇論文:

大模型就像一棟100層的大樓,每一層的工人干完活,把成果交給下一層。 過去十年,傳遞方式都是「流水賬」——每一層只能看到上一層遞過來的一份混合文件,前面誰寫了什么、寫得好不好,全攪在一起了,找不回來。 Kimi做的事情是給每一層裝了一部電話。現在第100層的工人如果覺得「第3層當時算的那個數據我現在要用」,可以直接打電話回去查,不用再翻那份被改了97遍的混合文件。 而且每個工人會根據自己手頭的任務,自己決定打給誰——不是固定的,是看情況來的。 就這么一個改動,同樣的機器、同樣的數據,模型性能白賺了25%。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
財務自由后的感覺是怎樣?網友講述實際體驗 感嘆只有羨慕的份

財務自由后的感覺是怎樣?網友講述實際體驗 感嘆只有羨慕的份

侃神評故事
2026-03-24 18:00:10
高盛:市場悲觀情緒接近極限 一旦戰爭局勢降溫股市或大幅反彈

高盛:市場悲觀情緒接近極限 一旦戰爭局勢降溫股市或大幅反彈

財聯社
2026-03-30 18:45:05
張雪峰搶救細節曝光:副院長參與搶救,心血管狹窄90%,太可惜

張雪峰搶救細節曝光:副院長參與搶救,心血管狹窄90%,太可惜

談史論天地
2026-03-30 13:43:18
中國國航一架從北京飛往平壤的客機抵達平壤

中國國航一架從北京飛往平壤的客機抵達平壤

新京報
2026-03-30 09:50:06
史無前例,全世界的有錢人正在瘋狂涌入上海。

史無前例,全世界的有錢人正在瘋狂涌入上海。

流蘇晚晴
2026-03-30 18:09:33
釋新聞|被中方制裁的日眾議員古屋圭司:高市早苗心腹,多次參拜靖國神社

釋新聞|被中方制裁的日眾議員古屋圭司:高市早苗心腹,多次參拜靖國神社

澎湃新聞
2026-03-30 13:50:26
昔日網紅品牌被曝大幅關店,很多人曾排隊幾小時就為這一口!跌出頭部梯隊后“斷臂求生”

昔日網紅品牌被曝大幅關店,很多人曾排隊幾小時就為這一口!跌出頭部梯隊后“斷臂求生”

新民晚報
2026-03-30 18:14:45
美被曝正討論派軍進入伊朗提取約450公斤高濃縮鈾

美被曝正討論派軍進入伊朗提取約450公斤高濃縮鈾

界面新聞
2026-03-30 20:29:31
真不打球了!生涯狂賺2億,如今瘋狂釣魚,妥妥的人生大贏家啊

真不打球了!生涯狂賺2億,如今瘋狂釣魚,妥妥的人生大贏家啊

球童無忌
2026-03-30 14:39:34
李榮浩公開討伐不到48小時,單依純過往被扒,身體隱疾是冰山一角

李榮浩公開討伐不到48小時,單依純過往被扒,身體隱疾是冰山一角

阿纂看事
2026-03-30 17:35:47
約80層樓高的神女大扶梯,把巫山縣城推向了臺前

約80層樓高的神女大扶梯,把巫山縣城推向了臺前

新京報
2026-03-30 16:45:46
兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

離離言幾許
2026-03-28 16:40:22
女子舉報“亡母被偽造身份嫁給親舅舅、遺產遭侵占”,官方通報

女子舉報“亡母被偽造身份嫁給親舅舅、遺產遭侵占”,官方通報

極目新聞
2026-03-30 19:04:32
單依純發長文致歉“錯誤全在我”, 李榮浩:不要賠償,早點休息

單依純發長文致歉“錯誤全在我”, 李榮浩:不要賠償,早點休息

韓小娛
2026-03-30 05:40:11
哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

黯泉
2026-03-29 12:00:55
中央政法委發布2026年第一季度見義勇為勇士榜

中央政法委發布2026年第一季度見義勇為勇士榜

澎湃新聞
2026-03-30 09:37:05
單依純舞臺上歇斯底里的表演,不停高喊“好想談戀愛”

單依純舞臺上歇斯底里的表演,不停高喊“好想談戀愛”

爆角追蹤
2026-03-30 07:15:45
廣東通報:李禾根被查

廣東通報:李禾根被查

南方都市報
2026-03-30 17:27:29
從楊主席訪伊朗受怠慢,聊聊如今為何有伊朗人稱我們“秦腔窮”?

從楊主席訪伊朗受怠慢,聊聊如今為何有伊朗人稱我們“秦腔窮”?

阿胡
2026-03-30 12:52:29
驚訝!伊朗大捷!用一場標志性大勝,讓美軍創下戰后最大戰損記錄

驚訝!伊朗大捷!用一場標志性大勝,讓美軍創下戰后最大戰損記錄

軍機Talk
2026-03-30 11:02:14
2026-03-30 21:12:49
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
169文章數 83關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

中國向能源緊缺的東南亞國家出口柴油等燃料 官方回應

頭條要聞

中國向能源緊缺的東南亞國家出口柴油等燃料 官方回應

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

健康
數碼
旅游
游戲
公開課

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

三星Buds4 Pro評測:全能交互+沉浸式音質,安卓旗艦耳機新標桿

旅游要聞

怒江上罕見“雙虹凌空”,它就是永昌古驛道保存最好的雙孔鐵索橋

四月PS新會免游戲爆料!類魂與二次元雙大作領銜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版