網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Google把音樂(lè)AI藏了3年，Lyria 3終于攤牌了

2026-03-26 00:32:52　來(lái)源: 報(bào)錯(cuò)免疫體

北京舉報(bào)

分享至

2023年，Google DeepMind悄悄放出一款能寫(xiě)歌的AI，當(dāng)時(shí)只給音樂(lè)人小范圍試用。兩年后，這套系統(tǒng)迭代到第三代，今天正式向全球開(kāi)發(fā)者開(kāi)放——不是實(shí)驗(yàn)室玩具，是帶API的商業(yè)級(jí)工具。

Lyria 3的核心賣(mài)點(diǎn)很直白：能寫(xiě)帶人聲的完整歌曲，從主歌到副歌結(jié)構(gòu)不亂，還能用自然語(yǔ)言精準(zhǔn)控制情緒走向。

Google這次放出了兩個(gè)版本。Lyria 3 Clip主打低延遲，適合實(shí)時(shí)交互場(chǎng)景；Lyria 3 Pro追求音質(zhì)上限，給專業(yè)制作留空間。兩者都支持多語(yǔ)言人聲和跨流派生成，從流行到放克到摩城風(fēng)格都能碰。

從"能響"到"能用"，中間隔著一個(gè)音樂(lè)科班

音樂(lè)生成AI的痛點(diǎn)從來(lái)不是"有沒(méi)有聲音"，而是結(jié)構(gòu)能不能聽(tīng)。早期模型生成的片段像隨機(jī)播放的短視頻合集——15秒驚艷，2分鐘后不知道在干嘛。

Lyria 3的解法是把"音樂(lè)意識(shí)"寫(xiě)進(jìn)模型。具體來(lái)說(shuō)，它理解曲式結(jié)構(gòu)：前奏該多長(zhǎng)、副歌怎么進(jìn)、橋段放哪不突兀。開(kāi)發(fā)者用自然語(yǔ)言描述"一段憂郁的鋼琴前奏，過(guò)渡到激昂的電子副歌，最后淡出"，模型能按這個(gè)敘事線走。

控制粒度也細(xì)了。情緒強(qiáng)度、樂(lè)器配置、人聲表現(xiàn)力都能調(diào)。Google的演示里有個(gè)例子：同一首歌詞，先讓AI用"克制、壓抑"唱一遍，再換成"爆發(fā)、撕裂"——同一把合成嗓子，兩種人格。

API之外，Google還搭了個(gè)"試衣間"

開(kāi)發(fā)者拿到Key之后，除了調(diào)接口，還能進(jìn)Google AI Studio的新音樂(lè)專區(qū)。這個(gè)Playground提供兩種模式：文本直接生成，或者上傳圖片讓AI"看畫(huà)面寫(xiě)配樂(lè)"。

后者是Lyria 3的新功能。給一張雨夜霓虹的街景，AI輸出氛圍電子；換一張草原日落，可能變成弦樂(lè)鋪底。這個(gè)鏈路把視覺(jué)-聽(tīng)覺(jué)的通感自動(dòng)化了，做短視頻配樂(lè)的人應(yīng)該能省不少找歌時(shí)間。

Google沒(méi)有公開(kāi)技術(shù)細(xì)節(jié)，但從輸出規(guī)格看，Lyria 3 Pro的音質(zhì)已經(jīng)逼近商業(yè)發(fā)行門(mén)檻。水印系統(tǒng)SynthID是強(qiáng)制嵌入的，改采樣率、加混響、甚至重新編碼都抹不掉——這是Google應(yīng)對(duì)版權(quán)爭(zhēng)議的標(biāo)配動(dòng)作。

音樂(lè)人的態(tài)度，比技術(shù)更值得看

Lyria 3不是突然冒出來(lái)的。Google從2023年開(kāi)始就和唱片公司、制作人、詞曲作者密集開(kāi)會(huì)，核心議題只有一個(gè)：怎么讓AI不砸人飯碗。

目前的妥協(xié)方案是"附加性"定位——AI負(fù)責(zé)草稿和靈感，人做最終決策。Google產(chǎn)品負(fù)責(zé)人曾在閉門(mén)交流中表示，「我們測(cè)試過(guò)完全自動(dòng)化的工作流，結(jié)果音樂(lè)人普遍反饋'少了點(diǎn)什么'。」

這個(gè)"什么"很難量化。可能是微分音的呼吸感，可能是副歌前那半拍的故意遲疑。Lyria 3的Pro版本保留了這些"瑕疵"的控制權(quán)，開(kāi)發(fā)者可以關(guān)閉某些"修正"，讓輸出更野生。

多語(yǔ)言支持是另一個(gè)隱蔽的戰(zhàn)場(chǎng)。Lyria 3能生成英語(yǔ)、西班牙語(yǔ)、中文等語(yǔ)種的演唱，但非英語(yǔ)語(yǔ)料的訓(xùn)練質(zhì)量直接決定"像不像人"。Google沒(méi)有公布各語(yǔ)種的表現(xiàn)差異，但從行業(yè)慣例看，小語(yǔ)種可能是短板。

水印和溯源，是信任的基礎(chǔ)設(shè)施

每段Lyria 3生成的音頻都嵌有SynthID水印。這個(gè)系統(tǒng)2023年就在圖像領(lǐng)域上線，音頻版原理類似：把人耳不可聞的標(biāo)識(shí)信號(hào)織進(jìn)波形，任何修改都會(huì)留下指紋。

對(duì)平臺(tái)方來(lái)說(shuō)，這是過(guò)濾AI內(nèi)容的工具；對(duì)誠(chéng)實(shí)使用者來(lái)說(shuō)，這是自證清白的憑證。Google把水印作為默認(rèn)開(kāi)啟項(xiàng)，沒(méi)有給關(guān)閉選項(xiàng)——這個(gè)設(shè)計(jì)本身就在表態(tài)。

但水印解決不了所有問(wèn)題。如果音樂(lè)人用Lyria 3生成草稿，再找人重錄、重新編曲，最終作品的"AI含量"怎么算？版權(quán)歸屬怎么定？這些灰色地帶，Google選擇留給行業(yè)慢慢吵。

Lyria 3的定價(jià)策略也還沒(méi)公布。參考Google其他AI產(chǎn)品的路線，預(yù)覽期可能免費(fèi)或低價(jià)，正式商用后按token或時(shí)長(zhǎng)計(jì)費(fèi)。對(duì)獨(dú)立開(kāi)發(fā)者來(lái)說(shuō)，成本會(huì)不會(huì)比買(mǎi)罐頭音樂(lè)更劃算，還得算賬。

一個(gè)值得注意的細(xì)節(jié)：Google把Lyria 3和Gemini API綁在一起賣(mài)，而不是單獨(dú)拆成音樂(lè)垂直服務(wù)。這個(gè)打包策略暗示，多模態(tài)融合才是長(zhǎng)期方向——文本、圖像、音頻的生成能力最終會(huì)打通。

現(xiàn)在回到那個(gè)老問(wèn)題：當(dāng)AI能寫(xiě)出結(jié)構(gòu)完整、人聲自然的歌曲，音樂(lè)人還有什么不可替代？Lyria 3的預(yù)覽文檔里埋了一句產(chǎn)品團(tuán)隊(duì)的觀察——「測(cè)試期間，專業(yè)用戶最常見(jiàn)的反饋不是'再像一點(diǎn)'，而是'能不能更奇怪一點(diǎn)'。」

這個(gè)需求，AI能接得住嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.