337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepSeek 把人工智能的下水道打通了

0
分享至

25年最后一天, deepseek 奉上了新年禮物 mHC,又是新的網絡結構

如果不負責任地猜一下,這種對底層架構的深度魔改,加上他們之前MoE的積累,沒準DeepSeek V4真的要搞個大新聞。

DeepSeek是真的厲害,要搞就搞底層創新,搞完MoE,現在盯上Transformer最基礎的下水道:殘差連接(Residual Connection)。



1、為什么要搞mHC

自從ResNet出來以后,殘差連接就是深度學習的標配。Identity Mapping(恒等映射)保證了信號能無損傳到深層,模型才能堆得深。

24年字節搞了個Hyper-Connections,覺得原來的殘差流太細,信息不夠跑。于是把殘差流寬度擴大n倍(比如4倍),還加了各種可學習的線性映射矩陣(HH)來混合不同流的信息。這就好比把原來的單車道擴建成了四車道高速公路,不僅寬,車還能變道。

問題來了: 路是寬了,但車速控制不住了。原來那套完美的Identity Mapping屬性被破壞了。當你層數一深,這些不受約束的矩陣乘起來,信號要么消失要么爆炸。圖里HC跑到12k步loss直接起飛,梯度亂跳。顯存訪問開銷也因為通道變寬暴增,撞上了Memory Wall。



2、核心思路:把矩陣關進“流形”里(Manifold Constraint)

這部分是論文的理論高光。DeepSeek這次的做法,給混合矩陣加約束,強制它必須是雙隨機矩陣(Doubly Stochastic Matrix)。

妙在哪里?1??從幾何角度,這相當于把信號的傳遞變成了一種“凸組合”。你可以把它想象成一種能量守恒系統,信號在層與層之間傳遞時,總量被嚴格控制住了,既不會憑空放大也不會莫名衰減。2?? 雙隨機矩陣的譜范數≤1,意味著不會放大信號,梯度爆炸的風險大大降低。3??多個雙隨機矩陣連乘,結果還是雙隨機矩陣,所以深層網絡也能保持穩定

實現上用經典的Sinkhorn-Knopp算法,反復做行列歸一化,迭代20次就夠了。



3、工程優化

mHC顯然需要大量對應的工程優化才能 work, 而且DeepSeek顯然是要在實際生產環境里用這東西的,所以花了不少篇幅講工程實現。

幾個關鍵優化:Kernel Fusion(算子融合)、Recomputing(重計算)、DualPipe通信重疊(dualpipe 是 v3提的) 等等。

最終效果:在n=4時,mHC只增加6.7%的訓練時間開銷。這個數字對于大規模訓練來說是可以接受的。

主要看27B模型的結果:

loss比baseline降0.021,比HC穩

梯度范數平穩,HC則劇烈波動

BBH、DROP、GSM8K等benchmark全面超baseline,多數超HC

信號增益幅度從HC的約3000降到約1.6,三個數量級

在 scaling實驗中還做了3B、9B的模型,說明這套方法在大模型上是通用的,且隨著算力增加優勢依然存在,期待在百 b 甚至 T 以上的模型效果

感覺又要搞一波大的(是不是今年春節,DeepSeek V4要來了?)

作者:AI Dance

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
知名大V再曝戴琳狠料,稱靠身體吃飯,隨身帶香水,疑似跨界賭球

知名大V再曝戴琳狠料,稱靠身體吃飯,隨身帶香水,疑似跨界賭球

體壇風之子
2026-03-29 07:00:06
大反轉!美官員痛批馬斯克:中國電車占全球70%份額,都是你的錯

大反轉!美官員痛批馬斯克:中國電車占全球70%份額,都是你的錯

大衛聊科技
2026-03-28 12:11:00
好消息傳來!綠牌特權取消在即,燃油車春天來了!

好消息傳來!綠牌特權取消在即,燃油車春天來了!

三農老歷
2026-03-30 00:30:57
每一口都可能傷害心臟!JACC最新:過量攝入這些食品,心血管風險恐增67%

每一口都可能傷害心臟!JACC最新:過量攝入這些食品,心血管風險恐增67%

醫諾維
2026-03-29 16:14:51
別不信,78歲想活過98歲,關鍵在兩性關系!這六句長壽密碼要牢記

別不信,78歲想活過98歲,關鍵在兩性關系!這六句長壽密碼要牢記

牛鍋巴小釩
2026-03-26 13:23:25
心臟決定壽命!建議:別太節儉,多吃這3種食物,讓心臟變年輕

心臟決定壽命!建議:別太節儉,多吃這3種食物,讓心臟變年輕

阿龍美食記
2026-03-23 20:16:13
退休以后,提醒大家:盡量別讓任何人知道你的狀態,尤其這5件事

退休以后,提醒大家:盡量別讓任何人知道你的狀態,尤其這5件事

小談食刻美食
2026-03-28 09:42:18
南京男子回家迫不及待抱住妻子,結果家中鸚鵡一開口,讓他崩潰!

南京男子回家迫不及待抱住妻子,結果家中鸚鵡一開口,讓他崩潰!

白云故事
2025-03-14 19:05:07
張雪峰追悼會!媽媽痛哭被攙扶,沒見女兒,員工磕頭,親友三鞠躬

張雪峰追悼會!媽媽痛哭被攙扶,沒見女兒,員工磕頭,親友三鞠躬

潮鹿逐夢
2026-03-28 11:27:42
金特羅:我見過梅西,但從未見過像登貝萊這樣的球員

金特羅:我見過梅西,但從未見過像登貝萊這樣的球員

懂球帝
2026-03-30 01:20:06
日本民眾舉行抗議集會:高市道歉!小泉道歉!中國對不起!

日本民眾舉行抗議集會:高市道歉!小泉道歉!中國對不起!

環球時報國際
2026-03-29 14:02:23
為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

侃神評故事
2026-03-10 18:50:04
一天被毀21臺梅卡瓦!美媒:以軍遭遇40年來最大損失,瀕臨崩潰!

一天被毀21臺梅卡瓦!美媒:以軍遭遇40年來最大損失,瀕臨崩潰!

軍機Talk
2026-03-29 14:03:41
國臺辦重磅發聲,統一后建京臺高速,誰敢擋路就要消滅誰

國臺辦重磅發聲,統一后建京臺高速,誰敢擋路就要消滅誰

劉振起觀點
2026-03-29 21:33:44
放棄保級專家!熱刺鎖定失業主帥,只為激活 6000 萬水貨標王

放棄保級專家!熱刺鎖定失業主帥,只為激活 6000 萬水貨標王

奶蓋熊本熊
2026-03-30 03:18:52
32歲生日無人問津,娛樂圈的“看人下菜碟”,在王嘉爾身上應驗了

32歲生日無人問津,娛樂圈的“看人下菜碟”,在王嘉爾身上應驗了

八斗小先生
2026-03-29 18:25:34
戶外一姐唐藝驚現意外走光,粉絲為何越看越上頭?

戶外一姐唐藝驚現意外走光,粉絲為何越看越上頭?

娛樂領航家
2026-03-12 22:00:04
日本從“深表遺憾”,升級為“正式道歉”,中國態度告訴世界事實

日本從“深表遺憾”,升級為“正式道歉”,中國態度告訴世界事實

踏青云看世界
2026-03-26 17:23:32
克雷桑聚餐遭質疑!京媒:職業球員能喝這個?澤卡、馬德魯加在列

克雷桑聚餐遭質疑!京媒:職業球員能喝這個?澤卡、馬德魯加在列

建哥說體育
2026-03-29 18:58:38
郭麒麟白嫖網紅外賣媛!

郭麒麟白嫖網紅外賣媛!

八卦瘋叔
2026-03-28 09:58:03
2026-03-30 06:00:50
知識圈 incentive-icons
知識圈
全球熱點新聞資訊
213文章數 317141關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現!李榮浩喊話單依純侵權

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

教育
親子
手機
時尚
旅游

教育要聞

建議給家長放春秋假,否則的話,學生放春秋假就失去意義

親子要聞

罕見五胞胎全保住,20多名醫護深夜齊上陣

手機要聞

驍龍8 Elite Gen6系列規格大揭秘:LPDDR6、Adreno 850,都來了!

來到1980的周也,好毛利蘭

旅游要聞

2026上海旅游產業博覽會開幕,一城三館聯動書寫文商旅體展消費新篇章

無障礙瀏覽 進入關懷版