337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

復(fù)旦&通義萬(wàn)相提出ProMoE,顯式路由引導(dǎo)打破DiT MoE scaling瓶頸

0
分享至



混合專家架構(gòu)(Mixture-of-Experts,MoE)在擴(kuò)展模型容量的同時(shí)保持了計(jì)算效率,在大語(yǔ)言模型(LLM)的發(fā)展中發(fā)揮了巨大作用。然而,現(xiàn)有方法將 MoE 應(yīng)用于 Diffusion Transformer(DiT)時(shí),卻發(fā)現(xiàn)收益非常有限,無法復(fù)刻 MoE 在 LLM 中的成功。

為什么同樣的架構(gòu),跨界到視覺生成領(lǐng)域就「水土不服」了?

近期,來自復(fù)旦大學(xué)、阿里通義萬(wàn)相Wan Team、浙江大學(xué)和香港大學(xué)的研究團(tuán)隊(duì)指出,視覺 Token 的高度冗余性和功能異質(zhì)性阻礙了視覺 MoE 中專家的專業(yè)化(specialization)。為此,他們提出了 ProMoE,一種帶有顯式路由引導(dǎo)的兩步路由 MoE 框架。相關(guān)論文已被 ICLR2026 接收,第一作者為復(fù)旦大學(xué)博士衛(wèi)昱杰。



  • 論文標(biāo)題:Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance
  • 論文地址:
  • https://arxiv.org/abs/2510.24711
  • 代碼:
  • https://github.com/ali-vilab/ProMoE

視覺 Token 與語(yǔ)言 Token 的差異

為了探究 MoE 在 DiT 中收益不明顯的原因,研究團(tuán)隊(duì)發(fā)現(xiàn),視覺 Token 具有兩個(gè)獨(dú)特的屬性,導(dǎo)致傳統(tǒng)的隱式路由分配策略產(chǎn)生次優(yōu)的效果:

  • 高度空間冗余性(High Spatial Redundancy):離散的文本 Token 語(yǔ)義高度濃縮且差異明顯,而連續(xù)的圖像 Patch(視覺 Token)在空間上高度耦合,存在大量的冗余信息,導(dǎo)致視覺 MoE 中的專家往往學(xué)到同質(zhì)化的特征。

  • 功能異質(zhì)性(Functional Heterogeneity):擴(kuò)散模型普遍依賴無分類器引導(dǎo)(CFG)技術(shù)。這就導(dǎo)致輸入 Token 天然分為兩派:條件 Token 和無條件 Token。標(biāo)準(zhǔn) MoE 范式對(duì)它們一視同仁、同時(shí)分配,忽略了它們不同的功能角色。

圖 1:(a)我們從 110 個(gè) ImageNet 類別中隨機(jī)抽取 1k 個(gè)中間層 Token,進(jìn)行 10 簇 k-means 聚類(以顏色區(qū)分)。以類別名稱 / 標(biāo)簽作為輸入時(shí),LLM Token 形成緊湊、分離良好的簇,語(yǔ)義密度高,而視覺 Token 則較為分散。這種差異可以用類間距離與類內(nèi)距離的比值來量化(19.283 ? 0.748)。(b)我們對(duì)每個(gè) MoE 層的專家權(quán)重矩陣進(jìn)行奇異值分解,并計(jì)算由其左前 k 個(gè)奇異向量張成的子空間的平均相似度來衡量專家間的多樣性。引入路由引導(dǎo)(我們的方法)可以增強(qiáng)專家間的多樣性。

ProMoE:兩步路由與顯式語(yǔ)義路由引導(dǎo)

MoE 的核心原則是專家專業(yè)化(Expert Specialization),即確保每個(gè)專家都能獲取集中且不重疊的知識(shí)。為了在視覺模型中實(shí)現(xiàn)「專家內(nèi)一致」和「專家間多樣」,ProMoE 引入了兩步路由器(Two-Step Router)和路由對(duì)比學(xué)習(xí)(Routing Contrastive Learning)。

兩步路由器

  • 第一步:條件路由(Conditional Routing)

路由器首先根據(jù) Token 的功能角色進(jìn)行硬路由分配。無條件圖像 Token(來源于 null conditioning 下的圖像 Patch)被直接分配給專門的無條件專家(Unconditional Experts)進(jìn)行處理。而條件圖像 Token 則進(jìn)入下一步,交由標(biāo)準(zhǔn)的路由專家(Routed Experts)進(jìn)行處理。這種機(jī)制實(shí)現(xiàn)了專家的功能隔離。

  • 第二步:原型路由(Prototypical Routing)

對(duì)于條件圖像 Token,ProMoE 引入了一組可學(xué)習(xí)的「原型」(Prototypes),每個(gè)原型對(duì)應(yīng)一個(gè)特定專家。原型路由在隱空間中計(jì)算 Token 與各個(gè) Prototype 之間的余弦相似度,并選擇 identity function 作為激活函數(shù)得到路由分?jǐn)?shù),分?jǐn)?shù)較高的 Token 會(huì)被分配給對(duì)應(yīng)的專家。

顯式語(yǔ)義路由引導(dǎo):路由對(duì)比學(xué)習(xí)(Routing Contrastive Learning)

為了顯式增強(qiáng)原型路由的語(yǔ)義引導(dǎo),ProMoE 提出了一種無需手動(dòng)標(biāo)注的路由對(duì)比損失(Routing Contrastive Loss,RCL)。在訓(xùn)練過程中,RCL 會(huì)產(chǎn)生兩種影響:

  • 拉近:將 Prototype 拉向分配給它的 Token 集合的質(zhì)心,確保同一個(gè)專家處理的 Token 是語(yǔ)義相似的。

  • 將 Prototype 推離其他專家處理的 Token 集合的質(zhì)心,鼓勵(lì)不同專家之間形成差異化,增強(qiáng)多樣性。

同時(shí),實(shí)驗(yàn)發(fā)現(xiàn) RCL 中的「推開」操作在語(yǔ)義層面上天然起到了負(fù)載均衡的作用,比傳統(tǒng)的負(fù)載均衡損失更加靈活且有效。



圖 2:ProMoE 架構(gòu)概覽。輸入 Token 通過條件路由被分為無條件 Token 子集和條件 Token 子集。無條件圖像 Token 由無條件專家處理。條件圖像 Token 通過基于可學(xué)習(xí)原型的原型路由進(jìn)行分配。路由對(duì)比學(xué)習(xí)顯式增強(qiáng)了原型路由中的語(yǔ)義引導(dǎo)。

算法偽代碼如下:



實(shí)驗(yàn)結(jié)果

模型配置



與 Dense Model 的對(duì)比

ProMoE 在各種規(guī)模和設(shè)置下均穩(wěn)定超越了稠密模型。亮眼的是,參數(shù)量?jī)H 1.063B 的 ProMoE-L-Flow,憑借更少的激活參數(shù),超越了計(jì)算量更大的 Dense-DiT-XL-Flow。





與 SOTA MoE Model 的對(duì)比

ProMoE 超越現(xiàn)有的視覺 MoE 方案。特別是,用 1.063B 超越了擁有 16 個(gè)專家,1.846B 的 DiffMoE。



Text-to-Image 驗(yàn)證

在 GenEval bench 中,ProMoE 在所有子任務(wù)上優(yōu)于標(biāo)準(zhǔn)的 Token-Choice MoE 模型,展現(xiàn)出一定的泛化能力。



可視化結(jié)果

Class-to-image generation



Text-to-image generation



收斂性分析

訓(xùn)練曲線顯示,ProMoE 的收斂速度明顯快于稠密模型和現(xiàn)有 MoE 模型。



Scaling 實(shí)驗(yàn)

ProMoE 展現(xiàn)出一定的擴(kuò)展?jié)摿?。隨著模型尺寸從 Base 擴(kuò)展至 XL,以及專家數(shù)量從 4 逐步增加到 16,ProMoE 的生成性能均呈現(xiàn)出穩(wěn)定的提升。



消融實(shí)驗(yàn)



總結(jié)

通過分析語(yǔ)言和視覺 Token 之間的差異,ProMoE 提出了一種帶有顯式路由引導(dǎo)的 MoE 框架。通過巧妙設(shè)計(jì)的條件路由、原型路由以及路由對(duì)比學(xué)習(xí)機(jī)制,ProMoE 用更少的激活參數(shù)超越了 Dense Model 以及現(xiàn)有 MoE 方法。這為如何在大規(guī)模擴(kuò)散模型中高效引入 MoE 架構(gòu)提供了一套可能的開源范式。

更多技術(shù)與實(shí)驗(yàn)細(xì)節(jié),歡迎閱讀原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
湖人大勝曝3大怪象!詹姆斯斬最老三雙,雙中鋒13中13太驚艷

湖人大勝曝3大怪象!詹姆斯斬最老三雙,雙中鋒13中13太驚艷

林子說事
2026-03-31 17:30:39
辣目洋子回應(yīng)參加浪姐后變瘦:身體上是疲憊的,心靈上是非常開心

辣目洋子回應(yīng)參加浪姐后變瘦:身體上是疲憊的,心靈上是非常開心

韓小娛
2026-03-29 10:59:45
上海電信發(fā)生大范圍故障

上海電信發(fā)生大范圍故障

最通信
2026-03-31 17:11:52
這是我能看的嗎?中國(guó)054B大曝光,EODAS裝上了054B型護(hù)衛(wèi)艦?還有哪些細(xì)節(jié)值得振奮

這是我能看的嗎?中國(guó)054B大曝光,EODAS裝上了054B型護(hù)衛(wèi)艦?還有哪些細(xì)節(jié)值得振奮

軍武速遞
2026-03-30 20:13:29
大S去小玥兒學(xué)校照曝光 托腮看女兒上課慈愛溫柔

大S去小玥兒學(xué)校照曝光 托腮看女兒上課慈愛溫柔

TVB的四小花
2026-03-31 11:39:03
51歲這身材居然是純天然的,修圖都修不出這種自然線條

51歲這身材居然是純天然的,修圖都修不出這種自然線條

小光侃娛樂
2026-03-31 12:20:03
你家里有鐵皮茶葉盒嗎?趕緊回家找出來,作用太厲害花錢都難買!

你家里有鐵皮茶葉盒嗎?趕緊回家找出來,作用太厲害花錢都難買!

妙招酷
2026-02-26 23:48:36
一個(gè)扎心的真相:廣東江蘇很多工廠已經(jīng)不招35歲以上的工人了

一個(gè)扎心的真相:廣東江蘇很多工廠已經(jīng)不招35歲以上的工人了

搗蛋窩
2026-03-30 11:46:27
我做兇宅試睡員10年,我見過上百套兇宅,最終栽在了一套江景房里

我做兇宅試睡員10年,我見過上百套兇宅,最終栽在了一套江景房里

千秋文化
2026-03-28 21:31:38
祝賀!重醫(yī)附二院劉曦副教授榮登中央政法委2026年第一季度見義勇為勇士榜

祝賀!重醫(yī)附二院劉曦副教授榮登中央政法委2026年第一季度見義勇為勇士榜

上游新聞
2026-03-31 12:54:11
騙了全球半世紀(jì)!智利萬(wàn)年遺址“塌房”,美洲人類史迎來驚天反轉(zhuǎn)

騙了全球半世紀(jì)!智利萬(wàn)年遺址“塌房”,美洲人類史迎來驚天反轉(zhuǎn)

老謝談史
2026-03-22 22:46:57
3月31日俄烏:連續(xù)七天襲擊的效果

3月31日俄烏:連續(xù)七天襲擊的效果

山河路口
2026-03-31 19:26:26
一定要大量讀書:經(jīng)常讀書的人,一眼就能看出來

一定要大量讀書:經(jīng)常讀書的人,一眼就能看出來

欣辰讀書
2026-03-29 22:35:04
邵佳一:隊(duì)員表現(xiàn)堪稱滿分,球隊(duì)后80分鐘發(fā)揮完美

邵佳一:隊(duì)員表現(xiàn)堪稱滿分,球隊(duì)后80分鐘發(fā)揮完美

北青網(wǎng)-北京青年報(bào)
2026-03-31 18:34:28
西方正制造一個(gè)可怕的共識(shí):對(duì)華戰(zhàn)爭(zhēng),可無視道德底線和倫理原則

西方正制造一個(gè)可怕的共識(shí):對(duì)華戰(zhàn)爭(zhēng),可無視道德底線和倫理原則

老范談史
2026-03-31 18:35:14
客廳財(cái)位別亂擺!這10個(gè)禁忌,正在悄悄“漏光”你的家財(cái)

客廳財(cái)位別亂擺!這10個(gè)禁忌,正在悄悄“漏光”你的家財(cái)

吃青菜長(zhǎng)高
2026-03-31 11:23:16
上海警方通報(bào):駕駛員王某,涉6項(xiàng)違法,記20分,拘留15日!

上海警方通報(bào):駕駛員王某,涉6項(xiàng)違法,記20分,拘留15日!

新民晚報(bào)
2026-03-31 14:17:52
美高層曾提議:中國(guó)可以用1萬(wàn)多億美債,從美國(guó)手中“贖回”臺(tái)灣

美高層曾提議:中國(guó)可以用1萬(wàn)多億美債,從美國(guó)手中“贖回”臺(tái)灣

樂享人生風(fēng)雨
2026-03-22 22:43:16
納斯達(dá)克指數(shù)期貨擴(kuò)大至0.6%

納斯達(dá)克指數(shù)期貨擴(kuò)大至0.6%

每日經(jīng)濟(jì)新聞
2026-03-31 08:29:04
中方禁止入境后,不到24小時(shí),古屋圭司說了3句話,態(tài)度極其囂張

中方禁止入境后,不到24小時(shí),古屋圭司說了3句話,態(tài)度極其囂張

小小科普員
2026-03-31 18:15:55
2026-03-31 20:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12647文章數(shù) 142600關(guān)注度
往期回顧 全部

科技要聞

華為2025年銷售收入8809億,凈利潤(rùn)680億元

頭條要聞

騎張雪機(jī)車奪冠的"邊緣人" 告別主流摩托賽事長(zhǎng)達(dá)10年

頭條要聞

騎張雪機(jī)車奪冠的"邊緣人" 告別主流摩托賽事長(zhǎng)達(dá)10年

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

《月鱗綺紀(jì)》空降 鞠婧祎卻被舉報(bào)偷稅

財(cái)經(jīng)要聞

油價(jià)暴漲 我們的生活成本會(huì)飆升多少?

汽車要聞

騰勢(shì)Z9GT到底GT在哪?

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
手機(jī)
家居
數(shù)碼

房產(chǎn)要聞

重磅!海南城市更新擬出新政!

藝術(shù)要聞

石濤『野色冊(cè)』

手機(jī)要聞

vivo專訪:更清晰的定位,值得更高期待

家居要聞

新婚愛巢 甜蜜情趣拉滿

數(shù)碼要聞

機(jī)構(gòu):現(xiàn)貨貿(mào)易拋盤低端資源承壓 渠道低容量DDR4內(nèi)存條價(jià)格下跌逾20%

無障礙瀏覽 進(jìn)入關(guān)懷版