337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

估值1200億!Kimi新架構爆改Transformer,算力成本直降

0
分享至



在AI技術迭代的浪潮里,總有一些基礎設計像空氣一樣,重要卻被長期忽視。2015年何愷明提出的殘差連接,就是這樣的存在——它支撐著從ResNet到Transformer的所有深度模型,讓AI能堆到幾十上百層而不 “訓練崩潰”。可就在2026年初,DeepSeek與Kimi先后對它動刀,連馬斯克、Andrej Karpathy都紛紛點贊,一場關于AI信息流動的底層革命,正在悄然發生。



一、殘差連接:AI的 “信息高速公路”,藏著十年頑疾

要讀懂這場革命,得先搞懂殘差連接到底是什么。

你可以把大模型的Transformer架構,想象成一支幾十人排成的 “傳話小組”:每個人(對應模型的一層)聽完前面所有人的話,自己加工一句,再原封不動傳給下一個人。傳統殘差連接的規則很簡單:輸出=上一層輸入 + 本層加工結果(數學式:hl=hl?1+f(hl?1))。

它的偉大之處,在于解決了深度網絡的 “梯度消失” 難題 —— 就像給信息和糾錯信號修了一條 “高速公路”,讓梯度能直接從輸出層傳回輸入層,不用在層層計算中衰減,讓深層模型訓練成為可能。從ResNet到GPT、Claude,再到國內所有主流大模型,這套設計沿用了整整十年,成了深度學習的 “公理”。

但這套 “等權累加” 的規則,藏著三個致命問題,隨著模型層數越來越多,問題愈發凸顯:

不能挑著聽:每一層只能全盤接收前面所有層的信息,不管有用沒用,無法自主篩選重點;

信息被稀釋:層數越多,前面的關鍵信息越容易被后面的新內容“淹沒”,AI聊著聊著就忘了最初的需求,做復雜推理時更是抓不住核心;

內容越堆越亂:后面的層必須不斷疊加信息,才能讓自己的貢獻被看到,導致信息冗余、訓練容易失控。

過去十年,不是沒人想改。有人調整層歸一化順序(PreNorm),有人嘗試復雜連接(MRLA),但要么沒觸碰到 “等權累加” 的核心,要么設計太復雜、AI跑不動,始終沒能解決根本問題。直到DeepSeek和Kimi先后出手,才真正捅破了這層“窗戶紙”。

二、兩條破局之路:DeepSeek拓寬通道,Kimi賦予篩選權

面對殘差連接的 “稀釋困境”,DeepSeek 和 Kimi 給出了完全不同的解法,一個走 “拓寬通道” 的路線,一個走 “智能篩選” 的路線,卻都戳中了痛點。

1. DeepSeek mHC:多流并行,用數學約束穩住訓練

DeepSeek的思路很直接:信息主干道太擠,那就拓寬多條并行專線。

它提出的mHC(流形約束超連接),把傳統單條殘差流,擴展成多條并行的 “信息專線”,讓模型自己學習每條專線的權重,靈活混合信息。但問題很快出現:無約束的權重矩陣會導致信號爆炸——在270億參數模型中,信號放大倍數可達3000倍,訓練直接崩潰。

于是DeepSeek用了一個精妙的數學解法:雙隨機矩陣約束。通過Sinkhorn-Knop 算法,把權重矩陣限制在 “每行之和為1、每列之和為 1” 的幾何空間里,既保留了多流并行的優勢,又保證信號不會無限放大,徹底解決了深層模型的訓練穩定性問題。

mHC的優勢很明確:主打訓練穩定,基礎能力全面提升。在語言理解、日常閑聊等基礎場景,效果穩定且模型能做得更深。但它的短板也很突出:只能聽到 “混合后的二手信息”,無法直接回溯早期關鍵步驟,在數學推理、代碼生成、長文本理解等復雜任務上,提升非常有限。而且它是 “傷筋動骨” 的大改造,需要把單流架構改成多流并行,老模型幾乎無法直接升級,適配成本極高。

2. Kimi AttnRes:注意力賦能,即插即用的 “智能篩選器”

Kimi的解法更顛覆:信息亂不是因為通道窄,而是因為不能挑重點,那就給每一層 “篩選權”。

它提出的注意力殘差(AttnRes),把注意力機制引入殘差連接 —— 相當于給每個 “傳話工人” 配了一個智能篩選器:不再全盤接收前面的信息,而是能直接聽到前面所有層的 “原聲”,并給每個信息打分,分數高的多聽、分數低的少聽,最后按權重融合,再加工傳遞。

簡單說,傳統殘差是 “一股腦全加”,AttnRes是 “按需挑選、加權融合”。處理數學題時,模型會多聽負責邏輯推理的層;處理聊天時,會多聽負責語氣理解的層,靈活度大幅提升。為了落地,Kimi還推出了 “分塊注意力殘差(Block AttnRes)”,把層分成小組,既保證效果,又控制算力開銷。



AttnRes的優勢堪稱 “全能”:兼顧訓練穩定與復雜推理,長上下文、邏輯題提升碾壓傳統方案。實驗顯示,它在研究生級專業考試、高等數學推理、代碼生成等硬核任務上,直接實現3-7.5個點的暴漲;還能節約1.25倍算力,訓練額外開銷不到4%,推理延遲增加不到2%。更關鍵的是,它是 “即插即用” 的替換件 —— 只需要把傳統殘差模塊換成Block AttnRes,其他結構、參數全不用動,老模型直接升級就能受益,適配成本極低。



三、性價比對決:Kimi AttnRes 的工程優勢更突出

從性能到落地,兩家方案的差距一目了然:

能力邊界:mHC擅長基礎場景與訓練穩定,復雜推理乏力;AttnRes兼顧穩定與復雜任務,長上下文、精準回溯能力更強;

落地成本:mHC是 “拆房重蓋”,架構重構、參數重調,適配難度大;AttnRes是 “換門鎖”,即插即用,老模型無縫升級;

算力效率:Kimi的Block AttnRes性能與mHC相當,但讀寫數據量僅為mHC的 1/6,在大規模工程部署中,性價比優勢明顯。

這也是為什么Kimi的方案能獲得馬斯克、Andrej Karpathy的高度認可 —— 它不僅解決了技術問題,更貼合大模型規?;涞氐默F實需求。

四、底層革命的信號:AI 競爭從 “堆算力” 轉向 “管信息”

DeepSeek與Kimi的先后突破,釋放了一個關鍵信號:當數據紅利逐漸見頂,大模型的競爭邏輯正在改變。

過去十年,AI比拼的是 “誰能堆更多參數、更多算力、更多數據”;而現在,創新開始回歸底層架構與信息流動效率。殘差連接作為Transformer的 “根基”,被重新審視和改造,意味著AI開始從 “粗放式堆規?!?,轉向 “精細化管信息”—— 讓每一層信息都能被高效利用,讓模型在有限算力下,實現能力的指數級提升。

這場革命才剛剛開始。Andrej Karpathy已經開始思考:注意力機制還能運用到Transformer的哪些角落?業內也在熱議:那些長期沿用的 “默認配置”,是不是都該被重新審視?

對于普通用戶來說,這場底層革命的影響會逐漸顯現:未來的AI會更 “聰明”—— 記得住長文本、解得了復雜題、寫得出精準代碼,同時訓練和推理成本更低,AI服務會更普惠、更強大。

從何愷明的殘差連接,到DeepSeek的mHC,再到Kimi的AttnRes,AI底層架構的每一次微小突破,都在推動整個行業向前。這場關于 “信息流動” 的革命,或許就是下一代大模型的核心競爭力所在。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一張吳彥祖發的,一張賈玲助理發的

一張吳彥祖發的,一張賈玲助理發的

小椰的奶奶
2026-03-27 11:04:17
最快護士張水華辭職后,靠比賽拿名次、一年廣告費能拿200-400萬

最快護士張水華辭職后,靠比賽拿名次、一年廣告費能拿200-400萬

魔都姐姐雜談
2026-03-24 20:50:19
4月1日起醫??ㄐ乱幷铰涞兀∵@6種行為別再碰,官方已明確嚴查

4月1日起醫保卡新規正式落地!這6種行為別再碰,官方已明確嚴查

貓叔東山再起
2026-03-27 10:30:08
春天,這堿性菜再貴也要多吃,殺菌強免疫,補鈣補鉀兩不誤,好吃

春天,這堿性菜再貴也要多吃,殺菌強免疫,補鈣補鉀兩不誤,好吃

阿龍美食記
2026-03-25 10:38:40
蕭旭岑辭職震動藍營,馬英九基金會何去何從?

蕭旭岑辭職震動藍營,馬英九基金會何去何從?

生活魔術專家
2026-03-27 10:36:05
曝張雪峰早有求死之心,一頓狂吃73根雪糕,飲食太雜還不舍得浪費

曝張雪峰早有求死之心,一頓狂吃73根雪糕,飲食太雜還不舍得浪費

古希臘掌管松餅的神
2026-03-26 15:17:25
拔出蘿卜帶出泥!釋永信“開光”內幕曝光,這4位女星被流言害慘

拔出蘿卜帶出泥!釋永信“開光”內幕曝光,這4位女星被流言害慘

潮鹿逐夢
2026-03-24 12:44:49
48歲男子陰莖癌晚期,私生活干凈,妻子痛心:1件事,他改不了

48歲男子陰莖癌晚期,私生活干凈,妻子痛心:1件事,他改不了

全球軍事記
2026-03-02 10:15:12
28球41助攻 巴薩看上天才帶刀后衛 只要1500萬歐 須防兩豪門截胡

28球41助攻 巴薩看上天才帶刀后衛 只要1500萬歐 須防兩豪門截胡

零度眼看球
2026-03-27 07:43:46
卡爾森:壞了!原來小丑不是特朗普,而是我自己

卡爾森:壞了!原來小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
廈門一女子長期遭家暴離家不敢歸,丈夫向法院申請宣告其死亡,十多年后決心離婚才知道自己“死了”!

廈門一女子長期遭家暴離家不敢歸,丈夫向法院申請宣告其死亡,十多年后決心離婚才知道自己“死了”!

環球網資訊
2026-03-26 14:44:08
一位32歲健身女教練,自述感染艾滋病經歷:太痛心,真的悔不當初

一位32歲健身女教練,自述感染艾滋病經歷:太痛心,真的悔不當初

千秋文化
2026-03-23 20:23:11
周邊國家要求伊拉克阻止其境內親伊朗武裝發動襲擊

周邊國家要求伊拉克阻止其境內親伊朗武裝發動襲擊

參考消息
2026-03-26 11:13:06
宋清輝:于東來勢力逼近政治權力邊界,市場還能否自由發聲?

宋清輝:于東來勢力逼近政治權力邊界,市場還能否自由發聲?

宋清輝
2026-03-27 07:39:12
iPhone4回收價從5元暴漲到400元

iPhone4回收價從5元暴漲到400元

都市快報橙柿互動
2026-03-27 00:31:22
美容院老板娘大實話:55歲后臉再光也沒用,脫了衣服見真章!

美容院老板娘大實話:55歲后臉再光也沒用,脫了衣服見真章!

距離距離
2026-03-25 16:53:55
曼聯標價700萬賣滕哈格愛將!2次出租英冠均重傷,實力平庸還倒霉

曼聯標價700萬賣滕哈格愛將!2次出租英冠均重傷,實力平庸還倒霉

羅米的曼聯博客
2026-03-26 11:16:06
親身跑完500公里高速,才懂電車和油車差距有多大,選錯車太糟心

親身跑完500公里高速,才懂電車和油車差距有多大,選錯車太糟心

老特有話說
2026-03-24 15:07:23
騎士獲108-129大禮,綠凱危機解除,哈登添三敵

騎士獲108-129大禮,綠凱危機解除,哈登添三敵

凡人說體育
2026-03-27 11:17:27
四川盆地將迎大雨、暴雨!

四川盆地將迎大雨、暴雨!

掌上金牛
2026-03-27 09:22:04
2026-03-27 12:08:49
魏家東 incentive-icons
魏家東
一個人的營銷商學院!
2560文章數 12216關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產力

頭條要聞

男孩被搶走17年后找到生母 對"命好"的弟弟感情微妙

頭條要聞

男孩被搶走17年后找到生母 對"命好"的弟弟感情微妙

體育要聞

近29戰23勝!這支黃蜂有多強?

娛樂要聞

張雪峰靈堂內景曝光,四周擺滿了鮮花

財經要聞

很反常!油價向上,黃金向下

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

本地
數碼
藝術
旅游
軍事航空

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

數碼要聞

口袋里的135英寸HDR巨幕!雷鳥Air 4 Pro蝙蝠俠圖賞

藝術要聞

2025“殊相”——中國油畫學會創作研修作品展 | 作品選刊(一)

旅游要聞

“周末不忙,來趟宜良” ,春光爛漫,一起出門踏青去~

軍事要聞

擔心特朗普突然停戰 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版