網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek悄悄更新：Mega MoE、FP4 Indexer來(lái)了

2026-04-17 11:12:13　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心編輯部

昨天下午，沉寂許久的 DeepSeek 又有新動(dòng)作了！

不過正如 DeepSeek 自己在 PR 中強(qiáng)調(diào)的，和模型沒關(guān)系，更新了一下 DeepGEMM 代碼庫(kù)。

不過，此次更新，我們看到了一個(gè)新東西：Mega MoE

鏈接：https://github.com/deepseek-ai/DeepGEMM/pull/304

Mega MoE 項(xiàng)目貢獻(xiàn)者來(lái)自 DeepSeek 基礎(chǔ)設(shè)施團(tuán)隊(duì)的 Chenggang Zhao 等人。

Mega MoE 是什么？

如何理解 Mega MoE？先來(lái)看看 X 網(wǎng)友思維怪怪的解讀：

來(lái)源：https://x.com/0xLogicrw/status/2044720884066451645

簡(jiǎn)單來(lái)說(shuō)，Mega MoE 干的事情是把原本支離破碎的一整套 MoE 計(jì)算流程，揉成了一坨，一次性在 GPU 上跑完

過去的 MoE，有點(diǎn)像一個(gè)被拆成很多工位的流水線。token 先被分發(fā)（dispatch）到不同專家，然后做一層線性變換，再過激活函數(shù)（SwiGLU），再來(lái)一層線性，最后再把結(jié)果拼回去。聽起來(lái)沒問題，但現(xiàn)實(shí)是，每一步都要單獨(dú)起一個(gè) kernel，中間還夾雜著 GPU 之間的數(shù)據(jù)通信。

于是你會(huì)看到一種很典型的低效：算一會(huì)兒，等一會(huì)兒；傳一會(huì)兒，再算一會(huì)兒。

Mega MoE 想做的是把這條流水線直接焊死：它把 dispatch、兩層線性、SwiGLU、combine 這些步驟全部 fuse 到一個(gè) mega-kernel 里。更關(guān)鍵的是，它不只是「合并步驟」，還在做一件更狠的事情：讓數(shù)據(jù)通信和計(jì)算同時(shí)發(fā)生

也就是說(shuō)，一邊在 Tensor Core 上算，一邊在 NVLink 上傳，不再是你等我、我等你。

此做法的影響很直接：GPU 不再頻繁停頓，利用率更高，尤其是在多卡、大規(guī)模 MoE 場(chǎng)景下，這種優(yōu)化能被直接感受到。有點(diǎn)像把原來(lái)一群人在接力搬磚，變成了一臺(tái)連續(xù)運(yùn)轉(zhuǎn)的傳送帶。

當(dāng)然，DeepSeek 這次也沒打算只做一個(gè)「更快的 kernel」。你能明顯感覺到，他們是在往一個(gè)方向死磕：把 MoE 的效率壓到極限

比如他們開始嘗試 FP8 × FP4 這樣的組合精度，還搞了一個(gè) FP4 的 indexer，用在 MQA logits 上。這種操作基本是在逼近「還能不能再省一點(diǎn)算力」的邊界。再加上一些 GEMM 的重構(gòu)、JIT 編譯加速，似乎是想要把 DeepSeek 的 AI 打磨得更加強(qiáng)勁。

還有一個(gè)細(xì)節(jié)挺有意思：他們明確說(shuō)，Mega MoE 還在開發(fā)中，性能數(shù)據(jù)「之后再說(shuō)」。看起來(lái)，這種級(jí)別的優(yōu)化，往往不是一版代碼就能定型的，而是要在不同規(guī)模、不同拓?fù)洹⒉煌?workload 下反復(fù)調(diào)。現(xiàn)在放出來(lái)，更像是在給社區(qū)一個(gè)信號(hào)：方向已經(jīng)定了，我們開始往這條路狂奔了。

在此基礎(chǔ)上，DeepSeek 也對(duì) DeepGEMM 的描述進(jìn)行了一些調(diào)整：

DeepGEMM 是一個(gè)統(tǒng)一的高性能 Tensor Core 內(nèi)核庫(kù)，將現(xiàn)代大語(yǔ)言模型的關(guān)鍵計(jì)算原語(yǔ)整合在一起，包括 GEMM（FP8、FP4、BF16）、具備通信重疊的融合 MoE（Mega MoE）、用于 lightning indexer 的 MQA 打分、HyperConnection（HC）等，全部匯聚到一個(gè)統(tǒng)一且一致的 CUDA 代碼庫(kù)中。所有內(nèi)核通過一個(gè)輕量級(jí)的即時(shí)編譯（JIT）模塊在運(yùn)行時(shí)編譯，安裝過程中無(wú)需進(jìn)行 CUDA 編譯。

所以如果一定要給這次更新一個(gè)定位，大概可以這么說(shuō)：這是一次基礎(chǔ)設(shè)施層的重構(gòu)嘗試。DeepSeek 正在把 MoE 從一種「理論上很美好，但工程上很折騰」的架構(gòu)，往「可以被大規(guī)模、高效率跑起來(lái)」的方向推進(jìn)。

而 Mega MoE，很可能只是第一塊拼圖；就是不知道這塊拼圖是不是 DeepSeek-V4 的一部分？

根據(jù) X 網(wǎng)友 St4r 的解讀，這也可能暗示了 DeepSeek 所使用的訓(xùn)練卡還是包含了英偉達(dá) AI 加速卡，還是最新、最頂級(jí)的 B 系列（而非幾個(gè)月以來(lái)一直傳言的，使用國(guó)產(chǎn) AI 訓(xùn)練卡）。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.