金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
終于,郭德綱最難的貫口——《莽撞人》,被免費的2B國產AI給復刻出來了!
來,展示~
![]()
△圖片和音頻均為AI生成
視頻地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
這段《莽撞人》是被公認的難度頂尖,甚至成為北影臺詞課的教科書范本,很多專業演員面對它也是望而卻步。
而之前AI語音模型要復刻這段貫口,要么速度不夠快,要么咬字、節奏錯誤,要么就是莫得感情。
但這一次,AI“無中生有”自行音色設計出來的女聲版貫口,不僅把節奏拿捏到位,甚至連百(bē)戰百(bē)勝、白(bē)盔白(bē)甲白(bē)旗靠……這些特殊發音也是讀對了!
包括這兩天在網上包括的沈陽翻譯片段,這個免費國產AI也是分分鐘能復刻出來男聲版:
![]()
△圖片和音頻均為AI生成
視頻地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
那幾個被網友們笑瘋了的小詞兒:“音樂會兒”、“害有”、啊,國產AI把大姨東北話的靈魂給抓得穩穩的。
不止是東北話,這個語言模型已經可以cover九種方言,像四川話版《大話西游》經典名場面,是這樣的:
(注:九種方言分別是四川話、粵語、吳語、東北話、河南話、陜西話、山東話、天津話、閩南語。)
![]()
△圖片和音頻均為AI生成
視頻地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
“巴適得板”、“悔得摳腳”、“女娃兒”……
這小味兒確實有點滿級四川方言的味道了,而且還把周星馳原配音的聲色給保住了。
除了方言啊,這個國產2B模型還有一技——同一段語音可以用不同國家的語言來演繹!
例如這段原先是中文的《甄嬛傳》滴血驗親的名片段,就秒變成了韓語版:
![]()
△圖片和音頻均為AI生成
視頻地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
不論是語氣還是人聲,都有點中文原版的那個味道了。
當然,泰語版和西語版,也是手拿把掐:
![]()
△圖片和音頻均為AI生成
視頻地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
不僅如此啊,這個語音模型是直接可以cover三十門外語的那種。
來聽一下30種不同風格的“你好”:
![]()
如此好玩,還免費開源的國產語音模型,到底是何許AI是也?
不賣關子,它正是面壁智能聯合OpenBMB開源社區、清華大學人機語音交互實驗室新升級的VoxCPM 2。
整體看下來,除了多語種、多方言之外,VoxCPM 2在音色設計、音色可控和高表現力方面也是較為亮眼。
不少歪果仁在VoxCPM 2發布之后就立馬去嘗了下鮮,紛紛表示“自家語言的效果針不戳!”
![]()
而且在音質方面,市面一般是24000Hz,但VoxCPM 2這次直接拔高到了48000Hz(CD音質)!
這下子,游戲、動畫、影視、有聲書等領域的人可以說是有福了。
生成只需1秒鐘的語音模型
開源的VoxCPM 2,我們現在就可以在在線體驗的網站上體驗了(地址見文末):
![]()
接下來,我們就一起手把手,搓一個東北話版的《火影忍者》。
首先在界面的左上角,我們上傳一段宋小寶的原聲片段,大概20秒左右:
![]()
然后在它的下方,我們填一個“東北話”的指令,再把臺詞寫進要合成的文本里,例如:
擱這兒用穢土轉生跟我嘮嗑,可真夠損的奧。
![]()
最后點擊下面的“Generate Speech”按鈕,不到一秒鐘的時間,宋小寶味兒的《火影》宇智波斑的臺詞就誕生了:
![]()
接下來,我們只需要配上一小段視頻,齊活兒:
細心的小伙伴可能發現了,剛才宋小寶音頻的demo里其實是有背景雜音的,但到視頻里就沒有了。
這其實是VoxCPM 2的參考音頻降噪功能,只要勾選一下,聲音就會變得清晰:
![]()
還有值得注意的是,視頻里二代土影的聲音,是沒有上傳任何參考音頻的情況下生成。
如果你找不到合適的靈感,大可以讓VoxCPM 2自由發揮。
然后如果想克隆聲音的質量有保證,建議上傳的參考音頻盡量大于等于5秒;以及你還可以在“Control Instruction”里面添加提示詞,改變參考聲音的情緒和語速等等。
(但克隆聲音的時候,是不能改變性別的哦~)
除此之外,還有3個小細節:
![]()
第一個是文本規范化,這是在你輸入的臺詞里有日期、符號、阿拉伯數字等AI讀不明白的內容時,你就可以點它,讓AI讀得規范起來。
第二個CFG Value,它的作用是用來控制AI的聽話程度,數值越高就越聽你的要求,反之,AI會自由發揮。
第三個就是LocDiT,設置它的步數越高,音頻效果就會越好,但生成的速度就會變慢。
除此之外,臺詞中間停頓的音效,現在可以用[laughing](笑聲)、[sigh](嘆氣)、[Uhm](嗯……)這些標簽來控制:
![]()
總而言之,現在要玩兒逼真、有趣的聲音,簡直太簡單了。
怎么做到的?
看到這里,肯定有不少的小伙伴要問了:
只有2B大小,還免費開源的語音模型,到底是怎么做到的?
來,咱們這就扒一波。
首先就是VoxCPM 2走了一條跟市面上大多數模型不太一樣的路線——采用擴散自回歸連續表征(Diffusion Autoregressive Continuous Representation)。
和市面上主流的Token-based傳統方案不同的是,它是基于Tokenizer-Free的TTS系統來做的設計,通過端到端擴散自回歸架構直接生成連續語音表征,實現了隱式語義-聲學的解耦。
簡單來說,傳統方案在語音轉換時極易出現信息損失,而這套技術能最大程度保留原始聲音的聲學細節、情感基調和方言特色。
這也就是它既能完美復刻周星馳配音的聲色,又能把東北話、四川話說得地道入味的核心原因。
與此同時,這款模型的底氣,還來自面壁智能深耕多年的高密度小模型技術壁壘。VoxCPM 2完全基于面壁智能自研的MiniCPM基座打造,延續了系列模型“小身板、大能量”的特質。
此前VoxCPM系列就已經在Hugging Face斬獲超千點贊、5.5k+下載量,這次升級更是把多語種、高保真、音色可控等核心能力拉到了行業新高度。
更難得的是,VoxCPM 2不止開源了完整的模型權重,更提供了從一鍵上手到大規模部署的全套工具鏈,支持原生Torch推理、LoRA及全參數微調,還適配了多端UI擴展,上手使用變得超簡單。
最后回到國產這個點。
放眼全球范圍內,目前除了基座大模型牢牢占據了開源領先地位,在小模型、端側模型上,中國公司也在持續領先。
體驗地址:
https://voxcpm.modelbest.cn/
GtiHub地址:
https://github.com/OpenBMB/VoxCPM/
HuggingFace地址:
https://huggingface.openbmb.com/model/openbmb/VoxCPM2
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.