337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

清華&巨人網絡打破數據壁壘,首創MoE多方言TTS框架

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

無論是中文的粵語、閩南話、吳語,還是歐洲的荷蘭比爾茨語方言、法國奧克語,亦或是非洲和南美的地方語言,方言都承載著獨特的音系與文化記憶,是人類語言多樣性的重要組成部分。然而,許多方言正在快速消失,語音技術如果不能覆蓋這些語言,勢必加劇數字鴻溝與文化失聲。

在當今大模型引領的語音合成時代,通用 TTS 系統已展現出令人驚嘆的能力,但方言 TTS 依然是相關從業者難以觸及的「灰色地帶」。現有的工業級模型往往依賴巨量專有數據,這讓方言 TTS 從業者和研究者幾乎無從下手:缺乏統一的語料構建方法,更缺乏一個可實現多語言的端到端開源框架。

為此,來自巨人網絡 AI Lab 與清華大學電子工程系 SATLab的研究團隊聯合首創了DiaMoe-TTS,一個在一定程度上媲美工業級方言 TTS 模型的開源全套解決方案。他們基于語言學家的專業經驗,構建了一個統一的 IPA 表達體系,并且在僅依賴開源方言 ASR 數據的前提下提出這一方案。

在推出中文方言版本之前,研究團隊已在英語、法語、德語、荷蘭比爾茨語等多語種場景中進行過驗證,確保該方法具備全球范圍內多語言的可擴展性與穩健性。DiaMoe-TTS已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


模型、數據集和代碼地址

https://wisemodel.cn/organization/Giant_AILab


DiaMoE-TTS 不僅僅是一個單點模型,而是一個面向學術界與開源社區的全鏈路貢獻:

  • 全開源的數據預處理流程:讓研究者能夠從原始方言語音數據構建 TTS-ready 方言語音語料;

  • 統一的 IPA 標注與對齊方法:解決跨方言建模的一致性問題;

  • 完整的訓練與推理代碼:降低復現與擴展的門檻;

  • 方言感知 MoE 架構與低資源適配策略:為研究者提供穩定、靈活且可拓展的建模方法。

巨人網絡 AI Lab 與清華大學電子工程系 SATLab 希望借此推動方言語音合成的公平與普惠:讓任何研究者、開發者乃至語言文化保護工作者都能自由使用、改進與擴展這一框架;讓小眾語言與方言的聲音不再被淹沒在通用大模型的洪流中,而能通過開源的力量被更廣泛地聽見與傳承。

01.

生成demo

成都話:祝福大家前程似錦,順水順風。

鄭州話:祝你前途大好,成就非凡!

石家莊話:好的開始,等于成功的一半兒。

西安話:祝愿大家前程似錦,夢想成真。

粵語:我系鐘意廣州嘅春天。

02.

模型設計


統一IPA前端

在多方言語音合成中,使用拼音或字符輸入常常帶來嚴重的歧義與不一致問題,例如相同字符在不同方言中可能對應完全不同的發音。

DiaMoE-TTS 在前端設計中引入了國際音標(IPA)作為統一的輸入體系,將所有方言的語音映射到同一音素空間。這種方式消除了跨方言間的差異性,使得模型能夠在統一的表征體系下進行訓練,保證了建模的一致性與泛化能力。



方言感知Mixture-of-Experts(MoE)架構

在聲學建模部分,DiaMoE-TTS 設計了方言感知的 Mixture-of-Experts (MoE) 架構。傳統的單一建模網絡在多方言任務下容易出現「風格平均化」,導致各地方言的特色被弱化。MoE 結構通過引入多個專家網絡,讓不同的專家專注于學習不同方言的特征;同時,動態門控機制會根據輸入 IPA 自動選擇最合適的專家路由,從而保證了每種方言的音色和韻律特點得以保留。

為了增強門控的區分能力,我們還加入了方言分類輔助損失,使專家網絡在訓練時能夠更有針對性地建模方言特征。



低資源方言適配(PEFT)

許多方言面臨極端的數據稀缺問題,甚至僅有數小時的錄音語料。DiaMoE-TTS 提出了參數高效遷移 (PEFT) 策略,分別在 text embedding 層和 DiT 的注意力層中融入了Conditioning Adapter 與 LoRA,僅需微調少量參數即可完成方言擴展,主干與 MoE 模塊保持凍結,從而避免對已有知識的遺忘。

此外,研究團隊還采用了音高擾動與語速擾動等數據增強手段,即便在超低資源條件下,模型也能合成自然、流暢且風格鮮明的方言語音。


多階段訓練方法

DiaMoE-TTS 的訓練過程分為多個階段,以逐步提升模型性能并適應方言多樣性:


  • IPA 遷移初始化


在 F5-TTS 原始 checkpoint 的基礎上,引入經過 IPA 音素轉換的 Emilia 部分數據,對模型進行預熱訓練,從而實現輸入形式從拼音字符到 IPA 的平滑遷移。


  • 多方言聯合訓練

在統一 IPA 表達下,利用多個開源方言數據(CommonVoice 和 KeSpeech)進行聯合建模,同時激活 MoE 結構,使模型能夠學習共享特征并區分不同方言的發音模式。

  • 方言專家強化


通過動態門控機制與方言分類輔助損失,進一步優化 MoE 的分流效果,讓各專家更好地捕捉不同方言的獨特特征。


  • 低資源快速適配

針對僅有數小時語料的新方言,采用 PEFT 策略(LoRA + Conditioning Adapter),結合音高 / 語速擾動等數據增強,實現高效遷移并保持已有知識不被遺忘。

這種多階段、漸進式訓練的方法,使 DiaMoE-TTS 能夠在保證穩定性的同時,兼顧跨方言泛化與低資源適配能力。

03.

研究成果

通過圖表可以看到,在訓練數據量較為充足(百小時)的粵語上,DiaMoE-TTS 在WER、MOS 和 UTMOS三個指標上均取得了接近工業界語音大模型的表現。而在上海話、成都話、西安話、鄭州話、天津話等其他方言(幾小時到幾十小時不等)的對比實驗中,受限于開源方言 ASR 數據在「質量」與「規模」上的不足,模型整體表現略遜于部分工業級大模型。

但值得強調的是,DiaMoE-TTS 支持的方言范圍更廣,甚至可以擴展到介于語音合成(TTS)與歌聲合成之間的特殊類型,如京劇韻白,并能在僅有極少量數據的情況下實現快速建模,這為方言保護與文化傳承提供了新的可能性。


在消融實驗中,研究團隊選擇了成都話、西安話、鄭州話、石家莊話四種方言,對比了三種不同配置:僅使用 IPA 的版本(w/o MoE)、僅使用 MoE 且輸入為拼音的版本(w/o IPA)、以及完整的 IPA + MoE 方法(Ours)。

實驗結果表明,IPA 統一前端是性能提升的關鍵,將輸入由拼音替換為 IPA 后,WER 從 90% 以上顯著下降到 30%~40% 區間,MOS 評分也提升了 1~2 分。同時,Dialect-aware MoE 架構能夠進一步增強方言風格,以西安話為例,WER 從 41.09% 降至 33.00%,MOS 從 2.33 提升到 3.15,表現出明顯的改進。

最終,完整方案(MoE + IPA)在所有方言上都取得了最佳效果,不僅顯著降低了錯誤率,也大幅提升了語音的自然度。這充分證明了 IPA 前端在解決跨方言發音歧義方面的有效性,以及 MoE 在強化方言建模上的重要作用,兩者結合成為 DiaMoE-TTS 的核心優勢。



一句話總結

DiaMoE-TTS = IPA 前端統一化 + MoE 方言建模 + PEFT 低資源適配

在開放數據驅動下,實現低成本、低門檻、可擴展的多方言語音合成方案。

通俗易懂版本:不用海量數據,也不用復雜流程,DiaMoE-TTS 就能讓更多方言在數字世界開口說話。

DiaMoE-TTS 的全面開源只是一個起點。未來,研究團隊將持續擴展更多方言與小語種的語料,完善 IPA 對齊與數據預處理流程,并探索更高效的低資源建模方法,讓方言語音合成的研究與應用更加低門檻、更易復現。

同時,研究團隊希望這一框架能夠讓全球的研究者與開發者更便捷地參與到方言與小語種的語音技術研究中,讓它們不僅停留在實驗室里被探索,更能在教育、文化保護、虛擬人、數字文旅與跨境交流等實際場景中發揮價值。他們相信,方言不應在數字時代被遺忘,每一種語言都值得在數字世界被聽見。

編輯:成蘊年

----- END -----

wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
62歲老人查出陰莖癌!他的壞習慣為所有人敲響警鐘!值得借鑒

62歲老人查出陰莖癌!他的壞習慣為所有人敲響警鐘!值得借鑒

路醫生健康科普
2026-03-27 17:42:19
中方絞殺開始!首條百噸級KrF光刻膠產線投產,日本手里再無底牌

中方絞殺開始!首條百噸級KrF光刻膠產線投產,日本手里再無底牌

瘋狂小菠蘿
2026-03-30 14:41:08
何潤東15年前談項羽的采訪火了,他的侃侃而談,夠小鮮肉學一輩子

何潤東15年前談項羽的采訪火了,他的侃侃而談,夠小鮮肉學一輩子

大鐵貓娛樂
2026-03-27 14:20:03
定了!公安部正式官宣,6月1日起全國推行10項便民新措施

定了!公安部正式官宣,6月1日起全國推行10項便民新措施

混沌錄
2026-03-28 20:14:21
北漂張雪峰:六郎莊的2500元月薪,藏著普通人逆襲最狠的真相

北漂張雪峰:六郎莊的2500元月薪,藏著普通人逆襲最狠的真相

十為先生
2026-03-30 16:17:29
騎士消息:字母哥有望加盟,名宿力挺哈登,戰爵士出場更新

騎士消息:字母哥有望加盟,名宿力挺哈登,戰爵士出場更新

冷月小風風
2026-03-30 12:09:56
10股派70元!比茅臺還猛的A股分紅土豪全曝光,真金白銀撒不停!

10股派70元!比茅臺還猛的A股分紅土豪全曝光,真金白銀撒不停!

慧眼看世界哈哈
2026-03-30 12:59:28
中南大學鄭傳均去世,死因是過度勞累,曾救落水女童被央視報道

中南大學鄭傳均去世,死因是過度勞累,曾救落水女童被央視報道

180視角
2026-03-30 10:13:48
30日中午世界杯:國乒2連勝蒯曼3-2,日乒2勝1負,伊藤苦戰5局!

30日中午世界杯:國乒2連勝蒯曼3-2,日乒2勝1負,伊藤苦戰5局!

林子說事
2026-03-30 12:54:41
伊朗高超音速導彈突襲迪拜:21名烏克蘭軍事專家被一鍋端

伊朗高超音速導彈突襲迪拜:21名烏克蘭軍事專家被一鍋端

音樂時光的娛樂
2026-03-30 15:40:42
雀巢12噸巧克力被盜

雀巢12噸巧克力被盜

界面新聞
2026-03-29 18:55:09
1996年, 施瓦辛格在家中無事,和35歲200斤女傭發生不當關系

1996年, 施瓦辛格在家中無事,和35歲200斤女傭發生不當關系

南權先生
2026-01-20 15:49:53
誰偷送伊朗情報?伊朗擊毀美軍E-3預警機時,在跑道上正要起飛

誰偷送伊朗情報?伊朗擊毀美軍E-3預警機時,在跑道上正要起飛

藍星雜談
2026-03-30 12:02:16
郭麒麟方不忍了!公開回應組團商K聚會傳聞,這下真相終于大白

郭麒麟方不忍了!公開回應組團商K聚會傳聞,這下真相終于大白

娛說瑜悅
2026-03-30 16:15:33
決戰今夜!3月30日晚上20:00比賽!中央5套CCTV5、CCTV5+直播表

決戰今夜!3月30日晚上20:00比賽!中央5套CCTV5、CCTV5+直播表

皮皮觀天下
2026-03-30 13:22:23
張雪峰離世,巨額遺產分配浮出水面

張雪峰離世,巨額遺產分配浮出水面

銷售與管理
2026-03-26 17:41:53
電池不耐用,2026 年 iPhone14系列能趕上換電池399活動嗎?

電池不耐用,2026 年 iPhone14系列能趕上換電池399活動嗎?

朱笑川
2026-03-28 21:35:18
打得一拳開免得百拳來,生涯首次技犯后,楊瀚森到底該如何回應

打得一拳開免得百拳來,生涯首次技犯后,楊瀚森到底該如何回應

兵哥籃球故事
2026-03-30 15:39:16
74年李先念找到李德生,沉默半晌后說:要你辭職,是毛主席的建議

74年李先念找到李德生,沉默半晌后說:要你辭職,是毛主席的建議

鶴羽說個事
2026-03-27 22:49:42
霍爾木茲海峽全面封鎖,中國船只也不能通過,海灣國家坐不住了

霍爾木茲海峽全面封鎖,中國船只也不能通過,海灣國家坐不住了

滄海旅行家
2026-03-30 16:08:04
2026-03-30 16:55:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

數碼
旅游
本地
房產
公開課

數碼要聞

小米米家吸頂燈Pro超薄版上架:可選方/圓款,849元起

旅游要聞

赴泰旅游價格或上漲,泰國擬向外國游客收300泰銖

本地新聞

用Color Walk的方式解鎖城市春日

房產要聞

32億,三開三罄!誰在硬控海口樓市高端局?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版