337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不加算力,只改一個(gè)算法:Muon在萬億MoE模型中最高2倍加速

0
分享至



機(jī)器之心編輯部

在數(shù)值分析領(lǐng)域,Newton-Schulz 及其相關(guān)方法已被研究多年,但大多數(shù)工作關(guān)注的是高精度計(jì)算、CPU 優(yōu)化或方陣輸入。

就在昨天,普林斯頓大學(xué)、紐約大學(xué)的四位研究者提出 Gram Newton-Schulz,通過重構(gòu) Newton-Schulz,使其更適配 GPU 和大模型訓(xùn)練場景,在萬億參數(shù) MoE 模型中可將優(yōu)化器時(shí)間降低 40–50%



我們用一句話來總結(jié) Gram Newton-Schulz 的核心思想:

不再直接在矩陣 X∈R^n×m 上迭代,而是在更小的 Gram 矩陣 X X^?∈R^n×n 上迭代,從而降低計(jì)算量并利用對稱矩陣計(jì)算優(yōu)化。

核心貢獻(xiàn)包括如下:

  • 將標(biāo)準(zhǔn) Newton-Schulz 重寫為數(shù)學(xué)等價(jià)形式,主要作用在 n×n 空間;
  • 提出 Naive Gram Newton-Schulz(基礎(chǔ)版本);
  • 分析半精度下的不穩(wěn)定性,并提出重啟策略(Stabilized 版本);
  • 實(shí)現(xiàn)對稱矩陣乘法 GPU kernel;
  • 構(gòu)建 GramMuon,在實(shí)際訓(xùn)練中實(shí)現(xiàn) 40–50% 加速且精度無損。

下圖 1 為基于 NVIDIA B300 平臺,AdamW 與 Muon 在 LLaMA 不同模型規(guī)模下的優(yōu)化器步驟耗時(shí)(實(shí)際墻鐘時(shí)間)對比。



作者之一、普林斯頓大學(xué)本科生 Jack Zhang 表示,「我們讓 Muon 在幾乎不增加額外成本的情況下,運(yùn)行速度最高提升 2 倍!Gram Newton-Schulz 可以作為 Muon 中 Newton-Schulz 的即插即用替代方案:我們觀察到驗(yàn)證集困惑度幾乎沒有變化,誤差在 0.01 以內(nèi)。同時(shí),我們也分享了在這一算法穩(wěn)定化過程中的大量探索,確保在任何情況下都不犧牲訓(xùn)練質(zhì)量。」



作者之一、普林斯頓大學(xué)助理教授、Together AI 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Tri Dao 表示,「這是我最喜歡的一類工作 —— 線性代數(shù)洞察 + 高性能算子。我們花了幾個(gè)月時(shí)間,深入研究 Muon 中間過程里這些矩陣的特征值和特征向量,最終提出了一種簡單而優(yōu)雅的算法,讓這一思路真正落地。」



接下來我們來看 Gram Newton-Schulz 相較于標(biāo)準(zhǔn) Newton-Schulz 方法的優(yōu)勢。在此之前,有必要先回顧一下 Muon 優(yōu)化器。

Muon 可以理解為在譜范數(shù)下的最速下降法:



其中:μ 表示動量系數(shù),η 表示學(xué)習(xí)率,polar 表示極分解。

極分解定義:若 X=UΣV^?,則:



由于精確計(jì)算昂貴,Muon 使用 Newton-Schulz 進(jìn)行近似。

標(biāo)準(zhǔn) Newton-Schulz 的迭代形式如下:



本質(zhì)上是對奇異值進(jìn)行逐步歸一化,使其趨向 1。不過,標(biāo)準(zhǔn) Newton-Schulz 存在計(jì)算瓶頸。每輪迭代包含三次矩陣乘法:

  • XX^?:2mn^2
  • A^2:2n^3
  • BX:2mn^2

總 FLOPs 如下:



這就導(dǎo)致了一些問題,包括大量矩形矩陣乘法(GPU 效率低) 、未利用對稱性,并成為優(yōu)化器瓶頸。

因此,本文 Gram Newton-Schulz 核心思想是:將迭代從 X 轉(zhuǎn)移到 Gram 矩陣



關(guān)鍵變換:任何奇數(shù)多項(xiàng)式



可寫為



這樣一來,就將問題轉(zhuǎn)為了 1)對 R 進(jìn)行矩陣多項(xiàng)式迭代、 本質(zhì)是近似 Y^-1/2。優(yōu)勢在于:維度從 n × m → n × n、可用對稱矩陣乘法 kernel 以及 減少矩形 GEMM 次數(shù)。

不過,Naive Gram Newton-Schulz在 float16 下不穩(wěn)定,Gram 矩陣可能產(chǎn)生負(fù)特征值,也會出現(xiàn) loss spike 和 Inf。



下圖為 Llama-430M 上的 Naive Gram Newton-Schulz:



因此有了穩(wěn)定版的 Stabilized Gram Newton-Schulz



核心改進(jìn)在于使用float16 加速



并在第 2 步后重啟:



以及重新初始化 Gram。

結(jié)果顯示,在保持穩(wěn)定性的同時(shí),仍然比原算法更快。

標(biāo)準(zhǔn) Newton-Schulz、Naive Gram 與 Stabilized Gram 的復(fù)雜度對比如下:



結(jié)果表明,當(dāng) α>1(常見情況),Gram 方法明顯更便宜,F(xiàn)LOPs 降低最高約 42%–58%。

最后來看下 Gram Newton-Schulz 在 Kimi K2 中的耗時(shí):

Kimi K2 是一個(gè)萬億參數(shù)級的稀疏、細(xì)粒度 MoE 模型,每一層包含 384 個(gè)專家,隱藏層維度為 7168,專家的中間層維度為 2048。由于模型正朝著更細(xì)粒度的 MoE 架構(gòu)發(fā)展,且 Kimi K2 使用 Muon 進(jìn)行訓(xùn)練,因此這是一個(gè)評測 Gram Newton-Schulz 的理想場景。

團(tuán)隊(duì)將 Kimi K2 一次全局訓(xùn)練步驟中暴露出來的 Newton-Schulz 的墻鐘時(shí)間,近似為以下部分的總和:

  • 216 個(gè)專家的 up/gate/down 權(quán)重,形狀為 2048 × 7168;
  • 1 個(gè) dense 的 up/gate/down 權(quán)重,形狀為 7168 × 18432。

下圖為 NVIDIA H100 Hopper 硬件上,在 Kimi K2 的流水線并行配置中,Gram Newton-Schulz 的速度是標(biāo)準(zhǔn) Newton-Schulz 的 2 倍



下圖為 NVIDIA B300 Blackwell 硬件上,在 Kimi K2 的流水線并行配置中,Gram Newton-Schulz 的速度同樣是標(biāo)準(zhǔn) Newton-Schulz 的 2 倍。



更多細(xì)節(jié)內(nèi)容請參閱原博客。

博客地址:https://dao-lab.ai/blog/2026/gram-newton-schulz/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
絕了!100%命中率!湖人效率王,竟是他……

絕了!100%命中率!湖人效率王,竟是他……

體育新角度
2026-03-31 14:49:10
任意球之王?梅西71球超貝利 距榜首只差6球!C羅已被徹底甩開

任意球之王?梅西71球超貝利 距榜首只差6球!C羅已被徹底甩開

體壇八點(diǎn)半的那些事兒
2026-03-31 17:31:15
終身追殺令生效,什葉派出終極殺招,特朗普與內(nèi)塔尼亞胡無處可逃

終身追殺令生效,什葉派出終極殺招,特朗普與內(nèi)塔尼亞胡無處可逃

小舟談歷史
2026-03-08 08:00:04
政壇“首席”

政壇“首席”

香港經(jīng)濟(jì)導(dǎo)報(bào)
2026-02-27 10:58:46
涉事人員已停職!三甲醫(yī)院緊急道歉

涉事人員已停職!三甲醫(yī)院緊急道歉

梅斯醫(yī)學(xué)
2026-03-30 18:36:15
案例:復(fù)旦博士姜文華判處死刑,女學(xué)生曝光其習(xí)慣,有一點(diǎn)很奇怪

案例:復(fù)旦博士姜文華判處死刑,女學(xué)生曝光其習(xí)慣,有一點(diǎn)很奇怪

清茶淺談
2025-01-18 15:14:28
天津一醫(yī)院突發(fā)危急事件

天津一醫(yī)院突發(fā)危急事件

天津族
2026-03-31 07:32:37
三只新股上市首日集體大漲

三只新股上市首日集體大漲

每日經(jīng)濟(jì)新聞
2026-03-31 09:44:07
突然拉升!霍爾木茲海峽,大消息

突然拉升!霍爾木茲海峽,大消息

新浪財(cái)經(jīng)
2026-03-31 10:20:49
特斯拉FSD被刷機(jī)

特斯拉FSD被刷機(jī)

鞭牛士
2026-03-31 10:23:08
一路走好!僅1天又傳出3位名人去世,有2位不到50歲,令人唏噓!

一路走好!僅1天又傳出3位名人去世,有2位不到50歲,令人唏噓!

八斗小先生
2026-03-30 15:22:52
RAC1:巴薩將向萊萬提供一份低薪合同,頭號目標(biāo)是阿爾瓦雷斯

RAC1:巴薩將向萊萬提供一份低薪合同,頭號目標(biāo)是阿爾瓦雷斯

懂球帝
2026-03-31 05:50:27
扎心!夫妻過了六十歲,盡量要“同居”!不是情,是“命”別不聽

扎心!夫妻過了六十歲,盡量要“同居”!不是情,是“命”別不聽

周哥一影視
2026-03-31 17:34:10
美國國務(wù)卿魯比奧:伊朗戰(zhàn)爭結(jié)束后或重新評估與北約關(guān)系

美國國務(wù)卿魯比奧:伊朗戰(zhàn)爭結(jié)束后或重新評估與北約關(guān)系

新浪財(cái)經(jīng)
2026-03-31 04:17:38
巴基斯坦的尷尬:面子丟盡,里子空空,不得不轉(zhuǎn)身向伊朗示好

巴基斯坦的尷尬:面子丟盡,里子空空,不得不轉(zhuǎn)身向伊朗示好

民間胡扯老哥
2026-03-29 20:26:24
6分鐘直播砸半塊招牌!峰學(xué)未來換掌門,丟了最值錢的草根魂

6分鐘直播砸半塊招牌!峰學(xué)未來換掌門,丟了最值錢的草根魂

魔都姐姐雜談
2026-03-31 05:47:40
突發(fā)!長鑫科技IPO中止!

突發(fā)!長鑫科技IPO中止!

芯智訊
2026-03-31 18:02:31
貝殼史上最大規(guī)模調(diào)整,50萬經(jīng)紀(jì)人怎么辦?

貝殼史上最大規(guī)模調(diào)整,50萬經(jīng)紀(jì)人怎么辦?

深水財(cái)經(jīng)社
2026-03-31 12:14:06
馬筱梅產(chǎn)后一個(gè)月瘦到47公斤!害怕像大S當(dāng)年胖到79公斤被汪嫌棄

馬筱梅產(chǎn)后一個(gè)月瘦到47公斤!害怕像大S當(dāng)年胖到79公斤被汪嫌棄

觀魚聽雨
2026-03-28 18:54:07
太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

魔都姐姐雜談
2026-03-28 04:04:21
2026-03-31 18:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12647文章數(shù) 142600關(guān)注度
往期回顧 全部

科技要聞

尚未正式宣發(fā),國行蘋果AI半夜"意外閃現(xiàn)"

頭條要聞

時(shí)隔7年美國重開駐委內(nèi)瑞拉大使館:辦公樓霉菌滋生

頭條要聞

時(shí)隔7年美國重開駐委內(nèi)瑞拉大使館:辦公樓霉菌滋生

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

絲芭傳媒舉報(bào)鞠婧祎:瞞報(bào)收入竟達(dá)85%

財(cái)經(jīng)要聞

油價(jià)暴漲 我們的生活成本會飆升多少?

汽車要聞

騰勢Z9GT到底GT在哪?

態(tài)度原創(chuàng)

家居
房產(chǎn)
本地
公開課
軍事航空

家居要聞

新婚愛巢 甜蜜情趣拉滿

房產(chǎn)要聞

14億!電競巨頭出手,海棠灣“超級運(yùn)動綜合體”來了!

本地新聞

用Color Walk的方式解鎖城市春日

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:即使霍爾木茲海峽仍關(guān)閉 也愿意結(jié)束戰(zhàn)爭

無障礙瀏覽 進(jìn)入關(guān)懷版