337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

YingMusic-Singer突破“改詞擠字”難題,強化學習落地SVS

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

歌聲合成(SVS)指的是給定歌詞和旋律,系統自動“唱”出一段完整的歌聲。歌聲合成在音樂制作與互動娛樂中極具潛力,但要實現真正的“任意歌詞配任意旋律”,仍然有很多工作需要做:

  • 依賴高成本強對齊數據:傳統 SVS 系統普遍依賴精確的音素級時長對齊和人工標注的 MIDI 信息,這不僅制作成本極高,限制了數據規模,也導致模型難以泛化。

  • 歌詞-旋律不匹配難題:現有模型通常只能在“固定歌詞對應固定旋律”的場景下工作。當用戶嘗試更改歌詞(尤其是字數改變)時,由于音素數量與原始旋律節拍不匹配,模型容易出現發音生硬、節奏錯位或“擠字”現象 。

  • 缺乏 Zero-shot 能力:大多數系統難以在未見過的音色或復雜的韻律結構下保持穩定,生成效果往往伴隨音質退化,且推理時仍需依賴外部 MIDI 輸入 。

針對上述痛點,巨人網絡 AI Lab、西工大 ASLP-lab聯合推出了 YingMusic-Singer,這是一套無需精確旋律標注、支持任意歌詞與旋律自由組合的 SVS 模型 。現已上線始智AI-wisemodel開源社區,同時支持部署在線體驗和API,歡迎使用。


模型地址

https://wisemodel.cn/models/Giant_AILab/YingMusic-Singer

01.

結構化旋律引導與GRPO強化學習


圖1:YingMusic-Singer 模型整體架構圖

1、基于DiT的無需標注的旋律引導

為了擺脫對人工強標注的依賴,同時確保歌詞發音的可理解性,團隊在原有 DiT 生成框架上引入了無需標注的旋律建模模塊,并設計了相應的弱對齊機制,其核心設計包括:

  • 在線旋律提取與聯合優化:設計了一個參數可學的旋律編碼器,直接從參考音頻中提取幀級旋律表征,并與基于 DiT 的生成模型進行端到端聯合訓練 。通過引入教師模型的蒸餾約束,確保提取的表征既包含準確的旋律語義,又能自適應下游生成任務。

  • CKA 表示層對齊約束:為了確保生成歌聲遵循參考旋律的走向,團隊引入了中心核對齊(CKA)損失 。該機制顯式地最大化旋律表征與 DiT 模型預測流(predicted flow)特征之間的相關性,使模型在優化中顯示的關注輸入特征中的旋律對齊關系,使模型可以精準復現參考音頻中的旋律結構。


圖2 :句級歌詞處理邏輯

2、句級時長建模:

傳統 SVS 系統往往難以在 不依賴精確音素標注的前提下,同時支持 靈活調整歌詞結構與長度。為解決這一限制,我們的模型基于十萬條僅帶句級時間戳的弱標注數據進行訓練,在無需精確音素對齊的情況下,仍能學習歌詞音節在旋律中的合理布局。由此,系統在“改詞”等高自由度場景中也能保持與目標旋律的穩定契合,從根本上降低了對昂貴標注和嚴格音素時長對齊的依賴。


圖 3:YingMusic-Singer GRPO 實現方式圖

3、基于 Flow-GRPO 的強化學習后訓練

這是首次將強化學習引入 基于 DiT的SVS 任務 。為了進一步提升發音清晰度與旋律效果,使模型可以自適應的權衡內容生成準確度與旋律遵循度,團隊進行了如下研究:

  • 構建多維獎勵函數:融合了內容準確度(Content Accuracy)和旋律準確性(Melody Similarity)作為獎勵信號 。

  • Flow-GRPO 策略優化:采用組相對策略優化(GRPO)算法對模型網絡進行微調 ,通過在生成空間中探索更優解,模型在保持多樣性的同時,提升了在復雜歌詞下的咬字清晰度和旋律還原度。

02.

實驗效果


為評估YingMusic-Singer在內容與旋律控制方面的性能,我們完成了零樣本歌聲合成及歌聲編輯(含結構與歌詞修改)實驗。在零樣本音色轉換任務中,模型通過目標歌詞、樂譜符號(如MIDI)和參考音頻,生成既符合目標內容與音符要求、又保留參考音色的歌聲。本模型的獨特性在于將類樂譜信息轉化為參考演唱旋律,實現從旋律到歌聲的端到端合成。

  • 實驗指標顯示,經過后訓練的 YingMusic-Singer 在多數任務中表現優異:其歌詞轉錄錯誤率(WER)最低,音高相關性(FPC)達到競爭水平。此外,在主觀評估中本模型的自然度評分更高,雖然客觀旋律相似度指標 FPC 略低于 Vevo 但仍超過80% 閾值,且 WER 顯著更低,說明其在保持旋律輪廓的同時實現了更優的內容還原。這印證了后訓練策略能有效平衡內容準確度、自然度與旋律跟隨這三個常相互制約的目標。

  • 在改變歌詞與句子結構的編輯任務中,Vevo 與本模型均保持低 WER 與高 F0 相關性,表明對于歌聲編輯而言,保持音素單元的旋律走向比嚴格遵循原始歌詞結構更為關鍵。

03.

結論

YingMusic-Singer 通過無需精確標注的旋律引導Flow-GRPO 強化學習,擺脫了傳統 SVS 技術對高成本的標注數據的依賴 。該系統在很大程度上緩解了歌詞替換中“清晰度”與“旋律死板對齊”的矛盾,在大幅降低詞錯誤率的同時保持了自然的音樂表現力。這一進步為大眾用戶提供了更自由、低門檻的音樂創作能力,推動 SVS 技術從“可用”向“好用、易用”邁出了關鍵一步。

04.

在線體驗/API

wisemodel社區—鏡像上線 了“巨人網絡AI LAB/ YingMusic-Singer ” 的鏡像 ,支持一鍵創建在線體驗或者API服務, 選中該鏡像,點擊部署在線體驗或者創建開發環境。


進入后,根據需要填寫相應的信息,點擊“提交訂單”按鈕,體驗進入后臺的啟動階段。大概等待1分鐘左右,體驗進入運行中的狀態。


公開狀態的在線體驗可以在wisemodel社區-體驗與API”的頁面上點擊相應的體驗,進入體驗的頁面;私有狀態的在線體驗需要前往“用戶中心-我的資源-體驗”進入體驗的頁面。



巨人網絡 AI Lab 成立于 2022 年,是隸屬于巨人網絡的人工智能技術落地與研究機構。今年以來,團隊多項人工智能研究成果入選ACM MM、ICASSP、Interspeech等國際頂級學術會議,覆蓋多模態生成、音視頻合成及多智能體等技術方向。

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核?、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普:與伊朗“可能”很快達成停火協議

特朗普:與伊朗“可能”很快達成停火協議

新華社
2026-03-30 08:38:09
1952年,打了大敗仗的王近山,對彭德懷怒拍桌子:你這是什么打法

1952年,打了大敗仗的王近山,對彭德懷怒拍桌子:你這是什么打法

浩渺青史
2026-03-30 13:22:44
當不成總統了?美國迎三大噩耗,百萬人逼宮,他承認對中國上頭了

當不成總統了?美國迎三大噩耗,百萬人逼宮,他承認對中國上頭了

知法而形
2026-03-29 11:53:37
媽媽肺癌晚期5年,我用80萬買來的教訓,希望你千萬別踩

媽媽肺癌晚期5年,我用80萬買來的教訓,希望你千萬別踩

千秋文化
2026-03-30 20:49:24
“沉睡”的10萬億元公積金

“沉睡”的10萬億元公積金

吳曉波頻道
2026-03-28 08:33:28
男人的生理需求能有多難忍?網友:我對我老公只有動物本能

男人的生理需求能有多難忍?網友:我對我老公只有動物本能

帶你感受人間冷暖
2026-02-07 03:58:56
中國將在長江水下開高鐵,沿江高鐵總投資超5000億元

中國將在長江水下開高鐵,沿江高鐵總投資超5000億元

界面新聞
2026-03-30 11:58:26
離譜!阿森納11人集體退出本期國家隊 球迷質疑詐傷:為3冠王蓄力

離譜!阿森納11人集體退出本期國家隊 球迷質疑詐傷:為3冠王蓄力

我愛英超
2026-03-29 23:07:36
兄弟倆聯手創辦蘇寧,如今弟弟千億資產清零,哥哥卻走上另一條路

兄弟倆聯手創辦蘇寧,如今弟弟千億資產清零,哥哥卻走上另一條路

鯨探所長
2026-03-24 14:38:04
轟動全美!杜克大學被絕殺!三大狀元熱門全部淘汰

轟動全美!杜克大學被絕殺!三大狀元熱門全部淘汰

籃球教學論壇
2026-03-30 09:32:08
人老了,想多活幾年,先管住自己這10點:1、不摔倒,2、不勞累…

人老了,想多活幾年,先管住自己這10點:1、不摔倒,2、不勞累…

荷蘭豆愛健康
2026-03-28 09:28:48
杉杉集團家族內斗失控

杉杉集團家族內斗失控

地產微資訊
2026-03-27 10:10:55
為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

侃神評故事
2026-03-10 18:50:04
果然越不體面小生意往往悶聲發大財!網友:一年不低于50萬

果然越不體面小生意往往悶聲發大財!網友:一年不低于50萬

夜深愛雜談
2026-03-23 20:05:31
在中東損兵折將的美軍,在亞太還有什么資格談“震懾”?

在中東損兵折將的美軍,在亞太還有什么資格談“震懾”?

溫讀史
2026-03-30 20:53:34
里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

素衣讀史
2025-11-19 16:09:14
韓媒:洪明甫年薪約20億韓元,0-4慘敗后在國內引發激烈批評

韓媒:洪明甫年薪約20億韓元,0-4慘敗后在國內引發激烈批評

懂球帝
2026-03-30 12:52:38
博主曝光西安328元自助餐,備餐不足卻甩鍋客人吃得多,網友炸鍋

博主曝光西安328元自助餐,備餐不足卻甩鍋客人吃得多,網友炸鍋

潮鹿逐夢
2026-03-30 14:37:13
再傳噩耗?蔡磊病情惡化,時常窒息、4人攙扶無法行走

再傳噩耗?蔡磊病情惡化,時常窒息、4人攙扶無法行走

攬星河的筆記
2026-03-30 15:53:33
新型出軌正在蔓延,啥也不干,比婚外情更傷人

新型出軌正在蔓延,啥也不干,比婚外情更傷人

十點讀書
2026-03-29 18:36:35
2026-03-30 21:32:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

中國向能源緊缺的東南亞國家出口柴油等燃料 官方回應

頭條要聞

中國向能源緊缺的東南亞國家出口柴油等燃料 官方回應

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

數碼
親子
旅游
本地
公開課

數碼要聞

三星Buds4 Pro評測:全能交互+沉浸式音質,安卓旗艦耳機新標桿

親子要聞

孩子眼睛出現這些現象,一定要警惕!

旅游要聞

怒江上罕見“雙虹凌空”,它就是永昌古驛道保存最好的雙孔鐵索橋

本地新聞

用Color Walk的方式解鎖城市春日

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版