![]()
新智元報道
編輯:好困 Aeneas
【新智元導讀】面壁智能2B小模型VoxCPM 2驚艷開源,一眾外國網友瘋狂了!30種語言與9大方言它是信手拈來,復刻的賀煒激昂解說與徐志勝脫口秀,相似度簡直直擊靈魂。這哪是工具,分明是降維打擊的生產力核武器!
最近,這個AI直接讓我們瘋狂了!
事情是這樣的。
我們寫了段脫口秀,上傳了一段徐志勝的錄音,讓AI用他的聲音念出來。
音頻一出,編輯部安靜了三秒,然后集體炸了。
那個山東味兒的換氣聲,那個冤種氣質,連說到一半突然卡殼的停頓都一模一樣。
但這真不是徐志勝。
干這事的叫VoxCPM 2,面壁智能聯合OpenBMB開源社區、清華大學人機語音交互實驗室開發的2B小模型,4月剛剛開源。
體驗鏈接:
https://voxcpm.modelbest.cn/
GitHub開源鏈接:
https://github.com/OpenBMB/VoxCPM/
Hugging Face鏈接:
https://huggingface.openbmb.com/model/openbmb/VoxCPM2
而且,不只我們瘋了。前天VoxCPM 2首發時,X推文的瀏覽量分分鐘飆到30多萬。
![]()
官方放出的demo,直接把一眾網友震了。
只見「硅谷鋼鐵俠」馬斯克化身Q版數字人,周游了十幾個國家。每到一個國家,他都用極度地道的當地語言,結合當地文化和自家公司瘋狂吐槽。
在法國,他會用法語吐槽「8月份在這里等一封郵件,比殖民火星還難」;在意大利,他又用意大利語嚴正聲明:「披薩上放菠蘿,簡直比炸毀一枚火箭還要罪惡」。
在中國,他用字正腔圓的中文感慨:「這里開源模型的發布頻率,簡直比我發射星鏈還要密集」;在泰國,他被辣到懷疑人生,「這木瓜沙拉辣得把我大腦都重啟了,Neuralink趕緊記下來!」
評論區里,網友們瘋狂夸贊說:VoxCPM 2又一次提高了開源TTS的標準,它可能會徹底改變我們創作音頻的方式!
![]()
![]()
能接得住梗,只是VoxCPM 2的基本功而已。
它包含30種語言,9種方言,有48kHz的CD級音質。對于聲音克隆、情緒控制,它樣樣能打,還有一招更絕的「音色設計」,能無中生有,憑空創造一種從未存在過的聲音。
別家要好幾個模型疊起來干的活,它一個全包。開源,免費,工具鏈全套附送。
這個AI真的不是來參加比賽的,而是直接把桌子都掀了!
五場實測,拆解AI語音能力上限
一段錄音喂進去,賀煒直接復刻
音色克隆,是VoxCPM 2的一大殺手锏,屬于人無我有的功能。它實現了業界領先的克隆相似度,真正做到了聲臨其境。
最近,所有人都被張雪機車的熱血故事刷屏了。在WSBK葡萄牙站,張雪憑一己之力,干掉了杜卡迪川崎雅馬哈,打破了歐日的百年壟斷,一戰封神!
那讓我們試一試,模仿賀煒的解說風格,用激情澎湃、熱淚盈眶、驕傲自豪的聲音有節奏感、有停頓地解說下面這段話:
比賽結束了!冠軍!張雪和他的國產機車,在葡萄牙,在WSBK的賽場上,創造了歷史!
此時此刻,波爾蒂芒賽道的空氣仿佛都凝固了。我們看到張雪機車的賽車手在最后一個彎道壓低了身姿,那不是簡單的傾斜,那是理想主義者在向地心引力發起的最后沖鋒!
賀煒這直擊靈魂深處的激昂怒吼,已經被一比一完美復刻,這穿透屏幕的聲浪,讓全世界都聽到:中國智造,已經走到了世界巔峰。
一個字,絕。
方言一響,AI瞬間有了人味
AI說中文不奇怪,但它能說出那種帶著大蒜味、火鍋味、甚至臘汁肉夾饃味的家鄉話嗎?
VoxCPM 2支持9種中國方言,四川話、粵語、吳語、東北話、河南話、陜西話、山東話、天津話、閩南話。光看名單沒感覺,得聽。
為了試出它的底牌,我們請出《武林外傳》里的經典人物。
首先,我們先給模型喂了一段佟掌柜的經典臺詞。原本擔心AI會把陜西方言念成「標準普通話帶口音」,結果音頻一出,全辦公室都沉默了。
佟湘玉(陜西話): 「額錯咧,額真滴錯咧,額從一開始就不該嫁到這兒來……」
簡直了,這個微微上揚的尾音,把那種風情萬種又委屈巴巴的勁兒掐得死死的。
山東方言里獨特的重音位置和喜感,粵語里的文藝腔和江湖氣,VoxCPM 2全接住了。
燕小六(山東話): 「給俺照看好俺七舅姥爺!」(幫我照顧好我七舅老爺)
無雙(粵語):「有啲人天生血脈帶風,注定一世都要漂泊。」 (有些人血里有風,注定是要漂泊的)
最后,再來幾段有故事感的。
我們給VoxCPM 2下了一道指令,「閩南語,女性,語氣又兇又心疼」,讓它演一個叫孫子回來吃飯的閩南阿嬤。
死囡仔!叫你緊來食飯你就裝無聽著!菜攏冷去矣!你若閣無來,碗筷我就收起來,今仔暗你去食風就好!......好啦好啦,緊來坐,我共你留一碗雞湯。
閩南阿嬤管你吃飯,廣東老師傅管你吃好。
我們讓VoxCPM 2用粵語念了一段干炒牛河的旁白,控制指令只寫了一句「像紀錄片旁白,渾厚從容」。
一碟好嘅干炒牛河,鑊氣系靈魂。猛火燒鑊,牛油落鑊嘅一刻,成間廚房都系香味。河粉要炒到條條分明,牛肉要滑而唔韌。老師傅講,干炒牛河唔系炒出嚟嘅,系「拋」出嚟嘅。
不緊不慢地講述節奏,聽完想立刻下樓找大排檔。
上海話也不甘示弱。
先來一段上海阿姨吐槽鄰居裝修,語速快、嗲中帶刺,每個字都在翻白眼。
儂曉得伐,阿拉隔壁鄰居又開始裝修了。禮拜六一大早就叮叮咚咚,我整個人困在床浪向,感覺自家屋里廂就像住在拆遷現場。我發消息過去講,能不能輕一點?人家回我一句,「快了快了」。快了快了講了三個號頭了!
同樣是上海話,這次換成低沉威嚴的中年男聲,像老克勒靠在沙發上跟晚輩講規矩。
我信過交情,也吃過生活。到如今我想通了,這個世界浪向,第一樁事體就是勿要讓別人曉得儂心里廂到底想啥。儂今朝來尋我,我幫儂這個忙,但是將來總有一日,我要儂幫我做一樁事體。這樁事體,儂勿好推脫。
同一種方言,一個嗲到骨頭酥,一個冷到脊背涼。VoxCPM 2的駕馭,已經不是「能說」的問題了,是「能演」。
為什么效果這么好?因為模型抓住了方言里的語氣詞、頓挫感和情緒顆粒度,方言不再是幾種發音規律的組合,而是一種情感的復刻。
對于自媒體短視頻、文化出海團隊來說,這簡直是核武器級的生產力。
憑空捏出一個聲優,還能千人千面
VoxCPM 2的另一大突出能力,就是音色設計。
現在市面上多數模型只能對固定音色進行情感或風格控制,但VoxCPM 2卻能支持任意音色的生成。
因此,我們可以先用文字創造一個理想聲音,精確控制它的情感和風格,這就為內容創作打開了無限空間。
比如下面這個武俠短劇的配音,無論是浪子俠客、活潑少女還是江湖老者,角色的貼合度都到了毛孔級別。
它不再是那種錄音棚里冷冰冰的、毫無波瀾的對白,而是帶上了呼吸聲、帶上了情緒的起伏。
這就是核彈級的降維打擊,從此再也不需要滿世界去找配音演員了,VoxCPM 2一個AI就能生成千變萬化的音色。
另外,我們還試著讓VoxCPM 2設計了一段《戀與深空》男主沈星移對女主的表白。
設計細節如下。
音色:清澈男中音,偏冷調但非冰冷,類似「月光落在雪地上」的質感
語速:日常語速偏慢,約每分鐘130-150字;內心戲時更緩
氣息:句尾常有極輕的吸氣或嘆息感,表現隱忍
果然,VoxCPM 2分分鐘復現了一個乙女游戲男主的音色,像是在克制情緒,卻又無法藏住那份對女主那份壓抑隱忍的深情,簡直滿分!
溫柔能設計,冷也能。
我們用控制指令寫了一段人設,「中年男性,聲音干澀發緊,語速很慢,每說完一句就停下來,音量始終很低,像是自言自語」,讓它念一段魯迅體吐槽。
我翻開朋友圈一查,滿屏都寫著兩個字,副業。橫豎睡不著,仔細看了半夜,才從字縫里看出字來,割韭菜。
沒有參考音頻,沒有克隆對象,這個聲音是VoxCPM 2憑一段文字描述從零生成的。
浪子俠客、深情男主、冷面文人,音色設計的上限取決于你的想象力。
李白痛飲,七句詩七種情緒
甚至,我們還能通過指令,讓每一句話都擁有不同的情緒。
「棄我去者,昨日之日不可留」,指令寫「聲音沉緩,咬著字尾,像酒后吐郁氣」。模型給出了每個字都頓一下的沉悶感,透著力。
「長風萬里送秋色」,指令寫「像深吸一口氣往外放,暢快激動」。「秋色」二字被明顯拉長,聲音一下子打開了。
「抽刀斷水水更流,舉杯銷愁愁更愁」,指令寫「語速放慢,音調降低,尾音拖長」。「愁更愁」三個字幾乎是嘆氣,但又帶著一股不服氣。
從郁悶到豪邁,從悲傷到釋然,每一句的情緒走向都精確跟著控制指令在轉。
30種語言覆蓋全球,哪吒出海不用找翻譯
除了音色克隆和設計,這一次,VoxCPM 2還給出了跨語種的降維打擊。
它不僅30種全球主流語言,而且尤其強化了東南亞八國的語種,包括泰語、越南語、印尼語、馬來語、菲律賓語等。
要知道,這些語種全是出海團隊盯得最緊的賽道,現在一個模型全包了。
說到這兒,那就少不了我們國產電影和電視劇的東南亞出海了。
狂攬159億票房的《哪吒之魔童鬧海》中,哪吒有一段經典臺詞:「我命由我不由天,是魔是仙,我自己說了算!」
VoxCPM 2給出的泰語、越南語版本,都呈現出極其自然的原聲質感。哪吒那種混不吝的狠勁兒,都在異國語境里被完美顯現出來。
曾經出海配音需要面對的文化隔閡、口音偏差和昂貴的人力成本,現在在 VoxCPM 2面前,都徹底失去了屏障!
接下來,我們做一個東南亞語言的真實商業場景測試。
我們寫了一條15秒帶貨廣告腳本,用VoxCPM 2分別輸出泰語、越南語、印尼語、馬來語、菲律賓語五個版本。
控制指令統一設定為「年輕女性,清亮活潑,像電商直播主播推薦產品」。
早上好!新到的冰椰拿鐵,椰香濃郁,入口絲滑。現在下單第二杯半價,今天喝過的朋友都回來復購了。別猶豫,點下面鏈接直接拍!
結果讓人大為驚喜:五個語種切下來,發音原汁原味,是我們的東南亞朋友都聽不出破綻的程度了。
成本呢?如果是用那些按字符收費的閉源平臺,五種語言一天跑30條,一個月下來光賬單就得好幾千美金,讓老板們肉疼。
但如果是VoxCPM 2上場,成本也就是一張4090顯卡的幾度電費的錢,大大利好跨境電商團隊!
五場測試跑完,克隆、方言、設計、情緒、多語種,沒有一個場景讓它露怯。
中國小模型全家桶獨一份
開發者瘋狂用腳投票
在AI開源界,好用是一方面,配套全不全才是決定開發者用不用腳投票的關鍵。
這次,面壁智能提供的是全家桶級的工具箱,真正做到了讓用戶上手即用。
部署層面,原生Torch推理、LoRA微調、全參數微調都支持。高吞吐場景有專門的VoxCPM-NanoVLLM做GPU推理。
生態層面,ComfyUI、WebUI插件一應俱全,甚至為性能狂魔準備了Rust語言重構版本。
從MiniCPM到VoxCPM,面壁智能一直押注「高知識密度」路線,用更小的參數量(2B)打出超越百億級的性能。
對開發者來說,部署成本更低,推理速度更快,端側應用更靈活。
而它的開源路線,更是讓人瘋狂打call。
要知道,現在語音模型的頭部閉源平臺ElevenLabs,光Pro套餐就要99刀一個月,而這只有50萬字符額度,超了另算。
相比之下,VoxCPM 2完全是開源的,不收一分錢,可以隨意拿去修改和商用。
目前,VoxCPM 2的體驗鏈接已經上線,GitHub開源倉庫在OpenBMB/VoxCPM,模型權重開放下載。
技術理想主義
讓中國AGI更有「聲音」
VoxCPM 2能做到以上這些,底層是技術路線的選擇。
目前開源TTS領域的主流技術路線是Token-based。把連續的語音信號先切成離散的聲學Token,再用語言模型逐個預測。這個過程不可避免會丟失聲學信息和情感細節。
VoxCPM 2走的是另一條路,擴散自回歸連續表征。
用個類比來解釋。
Token-based的方法像是先把一幅油畫拍成馬賽克照片,再試圖從馬賽克還原油畫。每次「打馬賽克」都會丟失一些色彩過渡的細節。
VoxCPM 2的方法是在連續的顏色空間里作畫,不經過馬賽克這一步。聲音的細膩紋理天然保留得更完整。
落到聽感上,差異很明顯。
你去聽VoxCPM 2克隆出來的聲音,氣息感、齒音、喉嚨的震動,這些微妙的聲學細節保留度好得多。
開頭那段魯迅的冷諷之所以能做到「不靠音量靠氣息」,底層就是這條技術路線在撐著。
至此,AI語音的「暴力美學」時代正式結束,VoxCPM 2開啟的是一個更細膩、更普惠的新時代。
這場比賽,已經被徹底殺死了。
參考資料:
https://voxcpm.modelbest.cn/
https://github.com/OpenBMB/VoxCPM/
https://huggingface.openbmb.com/model/openbmb/VoxCPM2
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.