337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

融資 1200億后 Kimi 再扔王牌,新架構爆改 Transformer 老配件,比 DeepSeek 同款還省錢

0
分享至


作者 | 允毅

連馬斯克、Andrej Karpathy 都紛紛點贊,DeepSeek 和 Kimi 前后腳都盯上的“殘差連接”,到底是什么?


最近,Kimi 放出一篇重磅新論文,瞄準一個過去十年幾乎沒人動過的 Transformer 底層根基:殘差連接(Residual Connection)。殘差連接由何愷明于 2015 年在 ResNet 論文中提出,此后便成為深度學習領域的標配。

簡單來說,可以把大模型的 Transformer 架構,想象成一支幾十人排成長隊的“傳話小組”,那么殘差連接就像一條規定:每個工人聽完前面所有人的話后,都往里面再補一句,然后原封不動往后傳。

這套規則長這樣:


但這會帶來一個麻煩:隊尾的工人收到的話,是前面幾十個工人的內容全堆在一起的,越往后話越亂、越長,前面工人說的重點被埋住了,后面工人加的內容也沒人聽得清,AI 就變笨了。這叫“稀釋問題”。

于是,Kimi 想到把“注意力機制”引進來解決這一問題,它提出一個新的規則:“注意力殘差”(Attention Residuals)。如同給工人們配備了“智能篩選器”,不用再全盤收下前面堆出來的大雜燴,可以選擇重點聽前面自己關心的內容。

結果,AI 變得更聰明了。不僅實現了全場景的穩定提升,在研究生級專業考試、高等數學推理、代碼生成、超長文本理解這類真正考驗 AI 硬實力的高難度任務上,更是直接實現了 3-7.5 個點的暴漲。


而且更省錢了。在 Kimi 自家的大模型架構上驗證顯示可以節約1.25 倍算力,而訓練端到端額外開銷不到 4%,推理延遲增加不到 2%,基本沒什么額外負擔。


而且它完全適配大模型的縮放定律,模型規模越大,這套規則的優勢越明顯。

Kimi 論文里的精彩關注點

殘差連接之所以能存在這么久,是因為它為 AI 信息的流動開了一條“主干道”,把教 AI 的糾錯信號一路傳下去,從而讓深層網絡更容易訓練,不會把前面的好東西丟掉。

但這有三個致命問題改不了,分別是:


  1. 不能挑著聽:不管是負責“抓重點”的工人,還是負責“整理內容”的工人,都只能聽前面堆成一團的話,不能自己選聽誰的

  2. 丟了的內容找不回來:前面工人說的重點,一旦被后面的內容蓋住,就再也挖不出來了,AI 聊著聊著就忘了您最開始說的話

  3. 內容越堆越多:越往后的工人,必須扯著嗓子喊、加更多內容,才能讓隊尾聽到,不然就被前面的內容蓋住了,教 AI 的時候很容易教亂套


之前也有不少人想要改善這些頑疾,比如 PreNorm 這種,只是調整內容整理的順序,完全不改變殘差的固定累加規則,完全沒改到根子上;或者 MRLA 這類,確實動了規則,但設計太復雜,AI 根本跑不動。

而 Kimi 的靈感,來自于他們發現,“序列維度上的時間問題和深度維度上的曾問題,本質是同一件事”。

當年 AI 讀長句子,只能一個詞一個詞往后傳,前面的內容記不住,后來發明了注意力機制,讓 AI 能自己選句子里哪個詞重要,一下子就解決了。而這和“工人隊伍里傳話的先后順序”,本質上是一樣的。

注意力殘差鏈接的具體做法就是:

1. 每個工人,都能直接聽到前面所有工人的原聲,還能打分,分數高就多聽,分數低就少聽,最后把所有話按分數合起來,再自己加工,傳給下一個人

2. 打分是不固定的:處理數學題的時候,就多聽負責邏輯的工人的話;處理聊天的時候,就多聽負責語氣的工人的話,特別靈活。

而公式也變成了這樣,其中α就是前面所說,智能篩選器給前面每個工人打的“重要性分數”。


為了讓這一套機制真正落地,Kimi 推出了“省力好用版”的注意力殘差,即“分塊注意力殘差”(Block AttnRes)。

它會把工人分成幾個小組,每個小組內部用標準殘差連接做累加,類似于“小組總結”,而組與組之間再用 Attention 來做選擇性收聽。這樣一來,大大節省了成本開支。

為了進一步優化成本,Kimi 團隊還做了兩項針對性優化:

  • 面向訓練過程的“跨階段緩存”:已經傳過的舊內容直接存在本地不用反復來回發,每次只傳新生成的內容,大幅節省算力、提升訓練效率。

  • 面向推理過程的“兩階段計算策略”:將 AI 生成回復前,先把要用到的歷史內容一次性找齊,再一步步算結果,不用每算一個字都重新翻一遍歷史,響應更快,用戶幾乎感知不到任何延遲。


最后,Kimi 實際測試了 5 種不同大小的 AI,從 194M 到 528M,分對比了傳統殘差連接、注意力殘差連接和分塊注意力殘差的實際效果。

結果發現:

  • 不管 AI 是大是小,注意力殘差連接都比傳統殘差連接犯錯更少、更聰明

  • 分塊注意力殘差連接,花同樣的錢,能達到傳統殘差連接 1.25 倍算力才能達到的效果

  • AI 規模越大,分塊版和完整無損版的注意力殘差連接效果越接近,超大 AI 里,兩者幾乎一模一樣


Kimi 還做了一系列消融實驗,證明注意力殘差連接中的每個設計,都必不可少:

  • 必須用“隨內容變的打分”,如果用固定的分數,效果就很差,甚至不如傳統殘差連接

  • 必須用 softmax 打分,不然 AI 就不會果斷選重點,效果變差

  • 必須先把內容整理通順再打分,不然信息容易蓋住其他人,效果變差

  • 分成 8 個左右的小組,效果最好

Kimi 的新設計給了 OpenAI 大神 Andrej Karpathy 不少啟發,他忍不住深思,“注意力機制”是不是可以運用到更多的地方去?


有網友直接指出,或許 Transformer 中不少“長期沿用的配置”,都可以動一動了。


還有網友激動地將 Kimi 奉為“新的 DeepSeek”。


DeepSeek 與 Kimi 的

解法有什么不同?

雖然都是對殘差連接進行創新,但 DeepSeek 推出的 mHC 卻和 Kimi 的 AttnRes 走出了兩條路。

如果把殘差連接理解成 AI 內部的一套“傳話機制”,那兩家的分歧,首先來自于它們對“問題到底出在哪”的判斷不同。

DeepSeek 的思路是,信息主干道太擠,信息才會亂,那就拓寬多條并行專線,用學習好的規則在專線之間混合、傳遞。

Kimi 的思路則是,信息主干道不能挑重點才會亂,那就給篩選權。

這也帶來了兩者在能力邊界上的關鍵差別,DeepSeek 的做法只能聽到 “混合后的二手內容”,聽不到原版原話,而 Kimi 的做法能直接聽到 “所有前面的原版原話”,想找誰的就找誰的。

兩者都能提升基礎效果,但擅長的領域完全不同,差距主要在復雜任務上。

  • mHC:主打 “訓練穩定性”,基礎能力有提升,復雜任務乏力

它的核心價值是能把模型做的更深,訓練的時候不會亂套,解決了深層模型訓練崩潰的問題,在基礎的語言理解、閑聊場景有穩定提升。但在需要多步推理、長上下文記憶、精準邏輯回溯的任務上,比如數學、代碼、專業考試、長上下文問答,提升非常有限 。原因正在于它不擅長讓模型“精準找回某個早期關鍵步驟”。

  • AttnRes:兼顧穩定性 + 復雜推理,長上下文 、邏輯題提升碾壓

它不僅解決了深層模型的訓練穩定性問題,更擅長需要精準回溯、多步推理的高難度任務。

兩者在落地適配性上天差地別。

DeepSeek 的 mHC 更像傷筋動骨的大改造,得把現有 AI 的單流架構完全改成多流并行架構,每層都要加新的流處理模塊,還要重調全套訓練參數,沒法直接替換傳統殘差連接,老模型基本沒法直接升級,跟拆房重蓋沒兩樣,適配成本極高。

而 Kimi 的 AttnRes 是即插即用的替換件,只需要把模型里原來的殘差連接模塊換成 Block AttnRes,其他模型結構、訓練參數全都不用動,老模型直接升級就能拿到效果提升,就像給房子換個好門鎖不用拆墻,適配成本極低。

從已有對比看,Kimi 似乎拿到了更好的“性價比”。

有網友將 Kimi 的 AttnRes 將與 DeepSeek 的 mHC 進行了性能對比,發現在 Kimi 的消融實驗中,Kimi 完整無損版本的 Full AttnRes 性能始終優于 mHC,而 Block AttnRes 的性能與之相當,但 Kimi 的方案需要讀寫的數據量,只有 DeepSeek mHC 的 1/6。

這意味著,在大模型真正走向大規模工程部署的語境下,Kimi 的路線可能具備更強的現實吸引力。

過去十年,Transformer 的大部分創新都集中在注意力、FFN、MoE、位置編碼和訓練數據上。殘差連接則像空氣一樣存在,重要,但過于基礎,以至于幾乎沒人認真去動它。

而現在,DeepSeek 和 Kimi 先后出手,或許正釋放一個信號:當數據紅利逐漸到頂,過去的大模型比拼的是“誰能堆更多算力,那么下一代大模型,或許要開始學會“管信息”來拉開差距。

https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

會議推薦

OpenClaw 出圈,“養蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

針對這一系列挑戰,在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態實踐」專題,將聚焦一線實踐與踩坑復盤,分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
重磅!我國臺辦正式宣布,鄭麗文訪問大陸行程確定,盧秀燕不裝了

重磅!我國臺辦正式宣布,鄭麗文訪問大陸行程確定,盧秀燕不裝了

奇思妙想生活家
2026-03-30 13:48:00
俄羅斯4人團隊做的VPN,成了中國用戶的救命稻草

俄羅斯4人團隊做的VPN,成了中國用戶的救命稻草

薛定諤的BUG
2026-03-28 11:13:03
伊朗的地面戰,可能要開始了

伊朗的地面戰,可能要開始了

夷門王生
2026-03-30 12:25:06
男子CT報告顯示“子宮形態密度正常”,山西長治醫學院附屬和平醫院發布情況說明

男子CT報告顯示“子宮形態密度正常”,山西長治醫學院附屬和平醫院發布情況說明

界面新聞
2026-03-30 17:14:36
兩“虎”任上被查,正部級老虎被開除黨籍!受賄6.13億,譚瑞松被判死緩

兩“虎”任上被查,正部級老虎被開除黨籍!受賄6.13億,譚瑞松被判死緩

上觀新聞
2026-03-30 15:17:05
小米汽車代言人翻車?舒淇竟無駕照!雷軍:我預判了你的預判!

小米汽車代言人翻車?舒淇竟無駕照!雷軍:我預判了你的預判!

品牌新
2026-03-30 12:08:31
歌手吳向飛喊話李榮浩道歉:未取得授權公開演唱其歌曲;李榮浩回應:并未在個人演唱會或音樂節晚會唱過,請列明場次,若侵權一定賠償道歉

歌手吳向飛喊話李榮浩道歉:未取得授權公開演唱其歌曲;李榮浩回應:并未在個人演唱會或音樂節晚會唱過,請列明場次,若侵權一定賠償道歉

極目新聞
2026-03-29 18:56:41
4-1大冷門,世界第85掀翻世界第55,新西蘭大爆發,大勝南美勁旅

4-1大冷門,世界第85掀翻世界第55,新西蘭大爆發,大勝南美勁旅

側身凌空斬
2026-03-30 16:06:06
新華社快訊:中國國航一架從北京飛往平壤的客機抵達平壤

新華社快訊:中國國航一架從北京飛往平壤的客機抵達平壤

新華社
2026-03-30 09:40:11
4月1日醫保新政:家有高血壓、糖尿病、心臟病的,抓緊辦

4月1日醫保新政:家有高血壓、糖尿病、心臟病的,抓緊辦

小談食刻美食
2026-03-30 08:26:34
跨國藥企密集發聲聚焦支付體系!鎂信健康加速創新藥價值落地

跨國藥企密集發聲聚焦支付體系!鎂信健康加速創新藥價值落地

智藥局
2026-03-30 17:16:19
事關中朝關系,金正恩做出一個前所未有的表態

事關中朝關系,金正恩做出一個前所未有的表態

近史博覽
2026-03-30 09:48:04
伊朗女足球員:澳方承諾給我們房子、車子和永居權,來說服我們留下

伊朗女足球員:澳方承諾給我們房子、車子和永居權,來說服我們留下

懂球帝
2026-03-30 13:45:07
兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

離離言幾許
2026-03-28 16:40:22
驚訝!伊朗大捷!用一場標志性大勝,讓美軍創下戰后最大戰損記錄

驚訝!伊朗大捷!用一場標志性大勝,讓美軍創下戰后最大戰損記錄

軍機Talk
2026-03-30 11:02:14
哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

黯泉
2026-03-29 12:00:55
楊瀚森復出6+4+1帽吃生涯首T!開拓者3人20+大勝奇才 阿夫20+7

楊瀚森復出6+4+1帽吃生涯首T!開拓者3人20+大勝奇才 阿夫20+7

醉臥浮生
2026-03-30 08:30:08
“讓公務員先獻血”的時候,就不談“自愿”了?

“讓公務員先獻血”的時候,就不談“自愿”了?

走讀新生
2026-03-30 15:41:47
1979年計劃生育,一家只準生一個,陳云:搞不好要被罵斷子絕孫

1979年計劃生育,一家只準生一個,陳云:搞不好要被罵斷子絕孫

觀史搜尋著
2026-03-19 06:44:44
心源性猝死的人越來越多?醫生強調:寧可打打牌,建議別做這7事

心源性猝死的人越來越多?醫生強調:寧可打打牌,建議別做這7事

醫學原創故事會
2026-03-29 23:50:13
2026-03-30 18:08:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1397文章數 143關注度
往期回顧 全部

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

科技要聞

一句謊言引發的硅谷血案

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

藝術
健康
數碼
親子
教育

藝術要聞

600 年前的「產亡孤魂」,藏著中國女性最痛的記憶

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

雙塔合一,酷凜推出FROZN A620 SLK風冷散熱器

親子要聞

兒科護士精準控場,孩子哭得收放自如

教育要聞

五年級狀元題,求面積,會的不多

無障礙瀏覽 進入關懷版