337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話ACE Studio:做AI音樂、月收入200萬美元,我們選了一條和Suno截然不同的路

0
分享至

內(nèi)容轉(zhuǎn)載自播客節(jié)目「Alphaist Partners」。Alphaist Partners 關(guān)注 AI、機(jī)器人和硬件領(lǐng)域的早期創(chuàng)業(yè)者。

過去一年,AI 音樂可能是生成式 AI 領(lǐng)域最出圈的 ToC 應(yīng)用賽道之一。Suno 剛剛完成了 2.5 億美金的融資,年化收入超過 2 億美金,吸引了千萬級用戶。

與 Suno 不同的是,AI 音樂平臺 ACE Studio 選擇了一條截然不同的路徑,從制作人、電影配樂者等專業(yè)用戶切入 AI 音樂市場,幫助他們更快速地把 idea 變成 release ready 的作品。

不到一年的時間,ACE Studio 實現(xiàn)了超千萬美元的 ARR。25 年 12 月初,2.0 版本上線,3 個月時間月收入翻了三倍,達(dá)到 200 萬美元。

近期,Alphaist Partners 合伙人陳哲(Peter)對話了 ACE 的創(chuàng)始人 Joe(郭靖),聊了聊 7 年艱難創(chuàng)業(yè)經(jīng)歷、如何在 Suno 這座「大山」的存在下成功打入 AI 音樂市場,以及他對于 AI 音樂的一些思考。

為了方便閱讀,F(xiàn)ounder Park 對原對話內(nèi)容進(jìn)行了適當(dāng)調(diào)整。

??關(guān)注 Founder Park,最及時最干貨的創(chuàng)業(yè)分享

超 22000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應(yīng)用。

邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

進(jìn)群后,你有機(jī)會得到:

  • 最新、最值得關(guān)注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準(zhǔn)的 AI 產(chǎn)品曝光渠道

01ACE Studio,更像是音樂人的「Cursor」

Peter:ACE Studio 跟 Suno 最大的區(qū)別是什么?

Joe:大家如果關(guān)注 AI 可能會想,Cursor 跟 Lovart 的區(qū)別是什么?Lovart 更偏向于一句話讓你一鍵生成你想要的項目,Cursor 更多的是一個 human in the loop 的 IDE,只不過被 AI 加持了。今天的 ACE Studio 更像是 Cursor——完全基于 AI 的新能力,重新創(chuàng)造工作流、重新塑形創(chuàng)作環(huán)境的音樂人的 IDE。而 Suno 更偏向于一鍵生成的 model as a product,用戶輸入一個 prompt 就生成一首音樂,門檻很低,但很難編輯。

我們跟 Suno 正好反過來——先從 professionals 切入,用更好的對音樂創(chuàng)作工作流的理解去打造更好的模型、更好的專家反饋,再賦能 consumer 端。我們的模型也比 Suno 更輕、更快,可以在 3090 上幾秒鐘就能生成一首完整歌曲。今天世界上所有的 AI 音樂模型,開源和閉源的,都做不到我們這樣的速度,或者在同樣速度下有我們這樣的 quality。

Peter:在專業(yè)級市場,ACE Studio 發(fā)布之前其實并沒有什么競爭對手?

Joe:對,用 AI 的方式重塑專業(yè)音樂創(chuàng)作的工作流,這件事幾乎是我們首創(chuàng)的,目前也是我們比較領(lǐng)先的。

Peter:AI 在打破專業(yè)和非專業(yè)用戶之間的壁壘上,有哪些例子?

Joe:國內(nèi)有一個非常有名的頭部音樂教育機(jī)構(gòu)在用我們來教學(xué)。他的一個徒弟是三線城市的音樂老師,開了一個兩個月的培訓(xùn)班讓小朋友學(xué)會寫 prompt、生成歌曲。結(jié)果很神奇——他教的初中、高中小朋友在兩個月內(nèi)創(chuàng)作出非常有趣的歌曲。然后一個震撼的事情發(fā)生了——他把其中一些比較好的作品代理到版權(quán)公司放到流媒體平臺,其中一首歌在 QQ 音樂上連續(xù)好幾周是 number one,最終版權(quán)分成接近 500 萬人民幣。

你可以想象這個震撼的程度——一個高中小朋友跟媽媽說給我報個興趣班,399 塊錢,學(xué)了兩個月后拿了 500 萬人民幣回家。這個信號已經(jīng)非常強(qiáng)烈。一部分人還在懷疑 AI 是不是有靈魂,但另一部分 underdog 已經(jīng)在用 AI 做的音樂系統(tǒng)性地賺到很大的錢了。

這讓我們看到 AI 音樂可能甚至是一個大于音樂本身的事情,因為它會徹底讓人類幾千年來都長期需要的內(nèi)容模式真正實現(xiàn)普惠化。音樂是一個很獨特的東西,代表人類情緒的延伸。所有人都有情緒,每個人的情緒都不一樣,但不是所有人都有能力用音樂去表達(dá)。今天主流的現(xiàn)象是人們在別人的音樂上 echo 自己的情緒,用別人的歌作為情緒抒發(fā)的代餐。如果能真的讓你用自己的音樂去表達(dá)自己的情緒,是不是一個 ten times better 的事情?是不是一個更大的市場?

Peter:做一款專業(yè)工具,最大的門檻或者困難點是什么?

Joe:我們會發(fā)現(xiàn)一個很有趣的現(xiàn)象——如果你做 C 端產(chǎn)品,想象一下今天抖音把所有功能都干掉,沒有本地生活、沒有加好友、沒有點贊評論,只有上下滑和推薦算法,抖音可能短時間內(nèi) DAU 都不會下降,因為對于 C 端產(chǎn)品,主 use case 占用戶 90% 以上的注意力和價值。

但專業(yè)產(chǎn)品正好反過來。專業(yè)產(chǎn)品要盡可能覆蓋更多的 corner case,又 somehow 整合在一個優(yōu)雅的工作流里,這需要你對專業(yè)人士創(chuàng)作的工作流有非常深刻的理解。比如我們跟 Suno Studio 有一個巨大區(qū)別——Suno Studio 是網(wǎng)頁版產(chǎn)品,因為它從 consumer 做起,天然想法是 producer 端也整合在 webapp 里。但網(wǎng)頁端產(chǎn)品有很多需求對專業(yè)用戶來講是滿足不了的,比如插件。專業(yè)創(chuàng)作者需要連接到自己的 workstation 里面,這個插件很難用網(wǎng)頁端實現(xiàn)。而 ACE Studio 雖然自己是獨立的 IDE,但同時也做了插件,可以橋接到傳統(tǒng)音樂創(chuàng)作者的 workstation 里面,讓他們可以無縫接入到已有 workflow 中。

在模型能力上,Suno 偏向于全部都是 end to end 的 generative model,我們也有一套 end to end generative 的 model 跟 Suno 能力不相上下。但同時我們有很多專家模型——可以輸入音符輸出高質(zhì)量的歌聲,輸入音符輸出高質(zhì)量的樂器。音符的語言是專業(yè)用戶經(jīng)常 speak 的語言,專業(yè)用戶最大的需求在于精準(zhǔn)表達(dá)自己的想法。

不僅僅是質(zhì)量問題。今天大家能看到 AI 生成的音樂在質(zhì)量上對普通人來講已經(jīng)跟專業(yè)人士做出來的沒有區(qū)別了,但為什么今天 Suno 或者所有 AI 生成的音樂在互聯(lián)網(wǎng)上還沒有打造出一個超級明星、一個創(chuàng)作者為中心的 IP?因為 AI 是一個相對黑盒的隨機(jī)事件,即使一個創(chuàng)作者把歌曲做好了,他如何保持自己獨特的個性化、獨特的風(fēng)格是很難的。

02AI 音樂,是最接近可直接消費的 AI 生成內(nèi)容

Peter:ACE Studio 作為專業(yè)級工具,對音樂的基礎(chǔ)單元——音符有完整的控制和創(chuàng)作能力,本質(zhì)上也是一種 human in the loop 的創(chuàng)作方法?

Joe:對。音符之于代碼確實是音樂底層邏輯和技術(shù)世界底層邏輯的對應(yīng)。我覺得未來音樂創(chuàng)作的顆粒度即使在專業(yè)工具之內(nèi)也會逐漸提升。為什么內(nèi)容持續(xù)有 human in the loop 的價值?因為內(nèi)容沒有標(biāo)準(zhǔn)答案,沒有 verifiable 的 reward。你喜歡什么、我喜歡什么,這很難通過確定一個目標(biāo)來解決。比如搖滾樂剛被發(fā)明的時候,什么 AI 可以幫助發(fā)明搖滾樂這樣偉大的劃時代的音樂類型?沒有任何 AI 能做到,因為類型被發(fā)明之前訓(xùn)練數(shù)據(jù)里沒有這個類型,AI 無法學(xué)習(xí)。而一個類型剛被發(fā)明出來的時候,用戶對它的評價也是褒貶不一、有巨大爭議的,所以強(qiáng)化學(xué)習(xí)也沒辦法在早期獎勵一個真正革命性的發(fā)明。

End to end 的 AI approach 可以很好地讓人 involve 到內(nèi)容創(chuàng)作里邊,但很難幫助人真正探索出劃時代的、改變?nèi)祟惖膬?nèi)容形式。所以長期來講 end to end 跟 human in the loop 是結(jié)合的——end to end 可以快速讓人進(jìn)入創(chuàng)作的心流,當(dāng)所有人都能幾秒鐘上手、創(chuàng)作質(zhì)量都差不多的時候,競爭的維度就變成誰能夠更可控地創(chuàng)造出自己想要表達(dá)的精確 idea、精確感覺,而不僅僅是比質(zhì)量。

Peter:所以,更獨特的、更有創(chuàng)造力的內(nèi)容一直是被獎勵和傳播的。

Joe:對。拿照相機(jī)來舉例——照相機(jī)出現(xiàn)之前,畫師最大的價值是把人畫得更真實。但照相機(jī)出來后,人們開始思考繪畫到底是什么、藝術(shù)到底是什么,開始出現(xiàn)現(xiàn)代主義、抽象主義。

Peter:你前邊提到,AI 音樂不只是效率工具升級,甚至有可能大于音樂本身。AI 音樂市場到底有多大?

Joe:這件事今天沒辦法算清楚,只能有一些定性判斷。當(dāng) AI 視頻出現(xiàn)時,所有人的想象都是每個人都可以做自己的電影——如果每個人能創(chuàng)造自己的電影,這個市場遠(yuǎn)大于電影行業(yè)本身。但問題在于今天 AI video 離普通人可以消費的電影還有很大距離,因為電影有太多元素——鏡頭節(jié)奏、表演、劇情設(shè)計。

但你會發(fā)現(xiàn)今天 AI 音樂好像是最接近 AI 直出的內(nèi)容能夠直接讓終端消費者消費的。今天 AI 音樂的問題反而不是沒有供給,而是消費端的平臺在打壓這樣的供給——因為跟傳統(tǒng)既得利益產(chǎn)生了沖突。騰訊音樂也好、Spotify 也好,你上傳 AI 音樂它對你是歧視的,會貼上 AI 生成的標(biāo)簽。但這個勢頭已經(jīng)擋不住了,AI 出來的大量作品已經(jīng)超過人類的效果,能夠批量產(chǎn)生 hit song、過億播放。

Peter:從終端消費者角度,大家并不在乎它是不是 AI 生成的?

Joe:對,消費者 always 是不在乎的。一個普通人去聽 AI 音樂平臺的 playlist,你很難區(qū)別它到底是 AI 的還是人類的。大家可以想想看這件事有多可怕——AI 直出的內(nèi)容已經(jīng)能直接讓消費者消費了,哪個領(lǐng)域今天接近這一點?

03自建專家模型矩陣,不止一個模型

Peter:Studio 2.0 發(fā)布三個月,你觀察的用戶是怎么使用和擁抱新一代產(chǎn)品的?

Joe:隨著我們給用戶在 Studio 2.0 里面開放的不同模型能力的多樣性和質(zhì)量提升,形成了一種明顯的涌現(xiàn)感——每一個能力是一個原子,用戶在這些原子中排列組合會產(chǎn)生出很多連我們自己都意想不到的 workflow。比如有人通過自己哼唱一個 idea,獲得大概的想法,然后通過我們的 vocal to MIDI 模型把哼唱變成樂譜,再把樂譜通過 AI instrument 變成小提琴的聲音,再通過 music enhancer 把音樂 idea 直接生成出品級的完整歌曲——整個 workflow 全部在 ACE Studio 里面完成。做出了好萊塢史詩級的弦樂配樂作品。

今天沒有一個 AI 工具能獨立達(dá)到這樣的效果。這里面不乏好萊塢的音樂制作人、格萊美獲獎?wù)哌@些行業(yè)頂端的人,他們也在用這樣的 workflow。

Peter:在模型能力方面展開介紹下?其他通用大模型公司有辦法復(fù)現(xiàn)或超越你們的模型能力嗎?

Joe:首先我們不止一個模型。剛才的 workflow 里就有旋律識別模型、樂器合成模型、基于音頻 prompt 的端到端音樂生成模型,還有跟 Suno 類似的輸入 prompt 直接生成音樂的模型、音頻分軌的模型、對音樂進(jìn)行續(xù)寫或在下面加一個軌道的 stem generation 模型。

所有這些模型,理論上在一個產(chǎn)品公司里我們不應(yīng)該自己 train,但音樂領(lǐng)域第三方或開源模型很少,所以反而倒逼我們做成了自己 train 模型、自己擁有模型壁壘的產(chǎn)品公司,這是我們比較獨特的地方。大廠如果想做這件事,需要沉下心來在音樂產(chǎn)業(yè)里不斷理解和思考用戶需求,不斷構(gòu)建每一個專有模型,這些模型可能都需要專有的數(shù)據(jù)、專有的標(biāo)注,是一個極耗時的成本。目前完全沒有可見的路徑是大模型會內(nèi)生地長出音樂創(chuàng)作能力,仍然需要調(diào)用外部的音樂創(chuàng)作模型。

Peter:訓(xùn)練自己一系列專用模型需要什么樣的數(shù)據(jù)?

Joe:千差萬別。比如我們的歌聲模型,數(shù)據(jù)就是在錄音棚里精致采集的專業(yè)歌手的錄音級數(shù)據(jù),由專業(yè)音樂家去標(biāo)注,量級可能也就 1 萬小時左右。而端到端的音樂生成模型,可能就會用到上百萬小時甚至更多的完整音樂數(shù)據(jù)。我們通過版權(quán)公司買到音樂授權(quán),加上開源社區(qū)捐贈的數(shù)據(jù),通過內(nèi)部的合成數(shù)據(jù)生成管線再排列組合,最終達(dá)到了兩三千萬首、一兩百萬小時的數(shù)據(jù)集。

我們是用 Audio LLM 做預(yù)標(biāo)注,然后用人來清洗數(shù)據(jù)、調(diào)出更精的標(biāo)注,再去強(qiáng)化學(xué)習(xí)這個 Audio LLM 讓它更精準(zhǔn)。那么問題來了——今天如果給你聽一段音樂,上面有個描述說"這是一個典型的 drum and bass 風(fēng)格的律動",普通人你是否能判斷這個標(biāo)注是正確還是錯誤的?如果對一個沒有音樂 knowhow 的團(tuán)隊來做這件事,就相當(dāng)于瞎子在做圖片生成的模型,很難評估。

04Flux 式商業(yè)模式:免費是漏斗,閉源是變現(xiàn)

Peter:2.0 產(chǎn)品發(fā)布以來,你們在用戶群跟用戶畫像上有什么變化?

Joe:ACE Music 是 for consumer 的,ACE Studio 是 for professional 的,但即使在 ACE Studio 上,我們發(fā)現(xiàn)引入更多端到端音樂生成模型后,"professional"的定義發(fā)生了一種彌散效果。原先我們認(rèn)為的 professional 是 music producer——這些人可以啟動制作軟件,有各種硬核設(shè)備。但音樂制作人和懂音樂的人之間還有巨大的人數(shù) gap。比如音樂老師,全中國幾千萬的琴童,學(xué)琴、學(xué)唱歌、會彈吉他、業(yè)余時間玩樂隊,這些人我們理解都是今天的 new professionals,但他們并不都是 music producer。

在 ACE Studio 2.0 上我們看到大量這些跟音樂相關(guān)的人——他們懂一些音樂,會彈鋼琴,也把自己當(dāng)做 new professionals,已經(jīng)在認(rèn)真創(chuàng)作音樂了。比如有一個在馬來西亞的用戶,他用 ACE Studio 做的歌已經(jīng)在跟劉德華的電影合作了,但他之前不是音樂制作人,也不會用傳統(tǒng)制作軟件,他只是一個從小喜歡唱歌、會彈琴、有很好音樂審美的人,就用 ACE Studio 做出了非常專業(yè)的作品。所以即使"專業(yè)"這個定義在 AI 加持下也在發(fā)生變化——當(dāng)更輕的門檻和更強(qiáng)大的能力出現(xiàn)時,哪些人是專業(yè)人士這個定義本身也在變化。

Peter:ACE Music 作為市場后進(jìn)者,怎么跟 Suno 競爭?

Joe:很多 Suno-like 的產(chǎn)品其實很難殺出血路。因為 Suno 有全世界最好的模型,你的模型接近但差一點點,這很難構(gòu)建增長——用戶花一份錢,有更好的為什么要用差一點的?所以我想了很久。

短期的答案是開源和免費。Suno 今天是云端自持的封閉生態(tài),沒有第三方 API。如果跟用戶說"我們有個類似 Suno 的產(chǎn)品,模型比他差一點但便宜",用戶不會感興趣。但如果說"我們有一個跟 Suno 差不多的模型,完全免費,且你可以下載到自己電腦上在本地運行和訓(xùn)練,用自己的音樂把模型訓(xùn)練成你想要的樣子和審美"——這是一個巨大的賣點。所以我們把模型做得極快,在一張 3090 GPU 上 11 秒可以生成一首完整的音樂,在 A100 上兩秒就可以。端側(cè)的運行和訓(xùn)練成為了可能性,這是我們短期去跟 Suno 競爭、撕開口子的手段。

但長期來講開源只是手段,真正在戰(zhàn)略上有可能讓我們?nèi)俚牟皇情_源,而是開放生態(tài)。這就是為什么我說 ACE 是全球首個開放生態(tài)的 AI 音樂平臺——我們應(yīng)該不遺余力地利用這個世界上現(xiàn)存的所有音樂相關(guān)模型:我們自己的開源模型、別的開源模型、甚至閉源但可以提供 API 的音樂模型。比如 OpenAI 在做 AI 音樂模型,ElevenLabs 已經(jīng)做了,千問也在做,MiniMax 的音樂模型效果也非常好。

Suno 一直在走封閉生態(tài)的路線,它跟版權(quán)公司的和解造成了平臺上只允許它自己的模型存在。但你看任何一個領(lǐng)域,哪怕是資源集中度大到像大語言模型這樣的領(lǐng)域,今天都已經(jīng)出現(xiàn)了百花齊放的趨勢——開源跟閉源很接近,不同廠商的模型各有千秋,在此之上構(gòu)建 agent 的產(chǎn)品才能受到系統(tǒng)性賦能。我們想做的事情完全一樣:我們相信所有音樂模型加在一起肯定能打敗 Suno。

Peter:過去兩三年在 Studio 產(chǎn)品上的工作,對今天推出 Music 有什么直接幫助?

Joe:因為我們先從專業(yè)用戶切入,專業(yè)用戶在創(chuàng)作過程中給了很多對模型、對音樂質(zhì)量的反饋和洞見。就像 Midjourney 在強(qiáng)化學(xué)習(xí)過程中有一個 300 人的頂端 artist 用戶池,只用這些人的反饋來進(jìn)行強(qiáng)化學(xué)習(xí),所以它能打造出全世界審美最好的圖片社區(qū)。同樣,ACE Studio 的切入點就是跟最頂級音樂人提供工具,這些人的反饋無論對模型還是對 feature 的建議,都幫助我們構(gòu)建更好的 AI 音樂平臺。

Peter:ACE Music 使用開源和免費模型的模式,靠什么賺錢?

Joe:我在開源這件事上研究了挺多,發(fā)現(xiàn)一個很有趣的現(xiàn)象——Flux 在圖片領(lǐng)域的開源上建構(gòu)了很好的商業(yè)模式。首先開源一個小模型,然后半開源一個中模型——效果更好也是開源但商用需要授權(quán)許可,再做一個閉源的大模型提供 API。小模型因為開源,大量開發(fā)者會替你傳播,在各種場景里構(gòu)建用戶習(xí)慣。當(dāng)用戶習(xí)慣和模型的聲量被構(gòu)建起來后,真正有付費能力的用戶不介意花更多錢使用更好的閉源版本。

在 ACE Music 上直接使用這一版模型還是免費的——這是漏斗最上層,讓更多人被 involve 進(jìn)來、對這事情感興趣,最終形成付費轉(zhuǎn)化。

Peter:按照 Studio 現(xiàn)在的增長趨勢,今年全年可能做到 3000 萬美元的收入?,F(xiàn)在 Studio 的毛利是什么情況?

Joe:推理成本很低,因為模型都是自建的,有很好的推理優(yōu)化框架——每掙 100 塊錢大概花五六塊錢做推理。營銷上大概花 20 塊錢,因為要持續(xù)找到用戶來 onboard,也是持續(xù)教育用戶的過程。年費是 200 美金,還有一檔 264 美金。我們還會賣兩年訂閱,因為這個領(lǐng)域用戶的消費習(xí)慣更傾向于買更長周期的產(chǎn)品。

Peter:專業(yè)市場天花板在什么高度?

Joe:24 年整個音樂專業(yè)市場的軟硬件售賣加在一起是 150 億美金,單說軟件將近 80 億美金——各種效果器、音源、插件,加在一起就干一件事:讓創(chuàng)作者最終創(chuàng)作出那個 3 分 45 秒的 MP3 音頻。而這個過程為什么需要這么復(fù)雜的工具鏈?比如今天用傳統(tǒng)數(shù)字音樂工作站,光環(huán)境 setup 對一個小白來講可能就花一周時間。這些所有東西加在一起一年能賣 150 億美金,ACE Studio 未來是否至少可以吃下這個市場的 10%、20%?這是我們看到專業(yè)市場的保底天花板。

05在創(chuàng)業(yè)最艱難時,看著 Suno 從 day one 做到了世界級水平

Peter:我們認(rèn)識快 7 年了,從 19 年天使輪剛開始做 ACE 虛擬歌姬的時候就認(rèn)識。這些年看到你經(jīng)歷了非常多,是什么讓你一直在做這件事情?

Joe:一種畫面感。從 day one 我就看到了——音樂不應(yīng)該是少數(shù)人壟斷的高級形式,而應(yīng)該是每一個人表達(dá)自己的方式,自古以來就是這樣。原始人在發(fā)明語言之前就已經(jīng)發(fā)明了音樂了,創(chuàng)作音樂本質(zhì)上就是自己情緒的表達(dá),是根植在人的基因里的本能。

那是什么讓音樂創(chuàng)作變成高門檻的事情?不是音樂本身,而是技術(shù)發(fā)展的形態(tài)——以數(shù)字信號處理為基礎(chǔ)的技術(shù)底層建構(gòu)出來的軟硬件生態(tài),倒逼創(chuàng)作者必須先學(xué)幾年的音樂制作技術(shù)和樂理。如果能發(fā)明一種全新的方式,讓普通人把自己的情緒注入進(jìn)去,創(chuàng)造出其他人也能欣賞和消費的音樂,這就是會徹底改變的正確的事情。這句話一直在我心里,從來沒有變過。

Peter:過往創(chuàng)業(yè)經(jīng)歷中有哪些特別痛苦或至暗的時刻?

Joe:我們在 22 年初完成了一筆融資,那時候整個 AIGC 的勢頭還沒有起來。我們有一段時間不夠 focus——也做過 agent 項目、聲音的語音生成、聲音陪伴。事后反思,我們做的所有其他決定本質(zhì)上都是在回避 AI 音樂這個核心問題——是否能用 AI 真正創(chuàng)作出可消費性的音樂。做到 22 年的時候我們已經(jīng)開始自我懷疑,因為一直做一直沒做出來。但那個時候恰恰是這件事情開始 work 的時候——22 年 Suno 第一個版本發(fā)布了。

但在那個過程中我們被太多東西分散精力,被牽扯在國內(nèi)一個相對井底之蛙的狀態(tài)里,技術(shù) vision 不夠豐富。我們既誤判了 Suno 訓(xùn)練的成本,又誤判了這件事的潛力——看著它一路從名不見經(jīng)傳慢慢一點點突破,變成今天這個樣子。那個時候?qū)ξ襾碇v極度痛苦——我看到公司有好幾個項目在同時做,每一個都很難 100% 投入。同時我反過來問自己到底相信什么,conviction 到底是什么,為什么在做這些事情。我發(fā)現(xiàn)它其實是一種恐懼或回避。

在 24 年初,我跟兩個合伙人第一次去美國參加一個音樂展,在飛機(jī)上討論了十幾個小時,得到一個結(jié)論——我們應(yīng)該把所有項目都砍掉,all in AI music。那個對話和決定非常重要也非常艱難,但做完之后坦白講從 24 年中開始我們才進(jìn)入了增長軌道。

這是我最大的成長——可能出發(fā)過早、長期沒有技術(shù)變量、長期做不出 traction,從其他路徑找出路,但最終發(fā)現(xiàn)只是沒等到那個技術(shù)變量,而別人在你眼前把你的愿景、夢想做到了世界級水平。我們在 24 年才開始反應(yīng)過來要追趕模型,開始訓(xùn)練自己的音樂大模型。25 年初做了第一次開源,那個模型當(dāng)時是開源領(lǐng)域的 SOTA,但跟 Suno 最好的模型還有巨大差距。再到今天 26 年初我們第二版開源模型達(dá)到了很接近 Suno 的水平。

Peter:如果回到兩年前,你會對當(dāng)時的自己或者想做同樣事情的人有什么建議?

Joe:第一盡快出海,第二盡快跟世界上最優(yōu)秀、最前沿的一幫人混在一起。跟你的用戶、跟你的技術(shù)領(lǐng)先者離得越快越近越好。

06對于 AI 音樂來說,個性化才是最重要的競爭要素

Joe:今天大家能看到 AI 生成的音樂在質(zhì)量上對普通人來講已經(jīng)跟專業(yè)人士做出來的沒有區(qū)別了,但為什么今天 Suno 或者所有 AI 生成的音樂在互聯(lián)網(wǎng)上還沒有打造出一個超級明星、一個創(chuàng)作者為中心的 IP?

Joe:比如像土搖滾 94 年紅磡那種風(fēng)格——竇唯、張楚、唐朝樂隊的那種感覺,今天用 AI 能生成嗎?生成不了。生成出來的東西可能過于完美和統(tǒng)一了,一個模型它最終會去擬合一個分布,但人類喜歡的東西的分布是極度多樣性的。

我前段時間刷 Instagram,看到一個很火的網(wǎng)紅歌手參加美國達(dá)人秀。他的歌是一個非常機(jī)器、有點 hiphop 的 beat,然后唱的就是說話一樣的念詞——非常尷尬地站在舞臺上說話,也不是激昂的 rap。但他在 Instagram 上有幾百萬粉絲,內(nèi)容在 Spotify 上銷量都非常好。這就是典型的個性化內(nèi)容,今天讓任何一個 AI 音樂模型不去進(jìn)行專門的微調(diào)都很難生成出來。

所以我們想在基模型上構(gòu)建大量 Lora,每個人可以把自己的個性引入進(jìn)來。長期來講 AI 賦能音樂一定走向 personalized,而不是所有人都統(tǒng)一聽 Suno 生成出來的那種全部很華麗的東西。

Peter:對于傳統(tǒng)音樂分發(fā)渠道,核心價值會不會因為 AI 音樂的普及而被顛覆?

Joe:一定會的。音樂流媒體平臺的巨大成本來自版權(quán),而這個版權(quán)是存量市場——人類的心智面積就這么多,占領(lǐng)了心智面積就可以持續(xù)產(chǎn)生收入。但這也意味著行業(yè)迭代更新相對緩慢、創(chuàng)新更難、普通人參與方式更少。AI 完全可以打破這一點——比如它可以讓老 IP 被重演。今天 AI Remix,你可以把任何一個名人的歌送進(jìn)去模型 Remix 成你喜歡的樣子,消費音樂的方式已經(jīng)變了,創(chuàng)作也是一種消費了。傳統(tǒng)流媒體平臺要不要重新定義人跟音樂的交互方式?要不要重塑產(chǎn)品形態(tài)或商業(yè)模式?如果重塑了,是否會得罪已有的版權(quán)方?這就是老商業(yè)模式很難轉(zhuǎn)型的原因。

Peter:你自己會去涉及內(nèi)容分發(fā)環(huán)節(jié)嗎?

Joe:一定會的。ACE Music day one 就是一個創(chuàng)作跟消費的社區(qū),會逐漸跟 ACE Studio 打通。我們認(rèn)為未來的 AI 音樂創(chuàng)作跟消費是一體化的,從 day one 就應(yīng)該做在一起。

Peter:對于 AI 音樂來說,長期來看最重要的競爭要素是什么?

Joe:我覺得是某種形式的用戶 IP 或用戶的個性化資產(chǎn)。比如聲音——我們聽了那么多歌,問周圍普通人最喜歡的音樂為什么喜歡,可能 90% 是關(guān)注歌手的演唱,聲音構(gòu)建了音樂一致性的個性或風(fēng)格。如何保有音樂里的個性化資產(chǎn)——保有聲音、vocal,持續(xù)創(chuàng)造統(tǒng)一唱腔、統(tǒng)一風(fēng)格的內(nèi)容,在互聯(lián)網(wǎng)上構(gòu)建長期 IP 和粉絲忠誠度——這件事長期來講肯定是最重要的競爭要素。

Peter:你們?yōu)槭裁催x擇在 LA 而不是硅谷?

Joe:首先市場在美國或歐洲,所以我們一定要跟市場離得更近。當(dāng)時在選灣區(qū)還是洛杉磯,其實就是靠近資本更多還是靠近用戶更多。對我們來講,靠近用戶這件事更本質(zhì)。洛杉磯是全球音樂制作的中心,格萊美在這里,我們所在的位置名字就叫 Studio City——大量的影視、音樂 studio 都在這。搬過來后在這個房子里接待用戶,很多格萊美獲獎?wù)叨家呀?jīng)接待了不下十次,他們過來坐坐聊一下,我們給他看新功能、問他使用體驗,大家非常近。

Peter:在 2026 年,對于 ACE 來說最重要的幾件事情是什么?

Joe:最重要的事情是把 ACE Music 跟 ACE Studio 的完整生態(tài)打通,變成一個統(tǒng)一的開放的 AI 音樂生產(chǎn)平臺——真正形成每個人都能創(chuàng)造出自己個性化音樂的產(chǎn)品,而不僅僅是所有人都創(chuàng)作統(tǒng)一的、好聽但沒有個性的音樂。

這里面有很多手段——比如用 agent 去創(chuàng)作音樂,用 agent 幫你 plan 創(chuàng)作 idea,到每一個環(huán)節(jié)應(yīng)該用什么模型去排列組合;比如模型的自主訓(xùn)練,每個人都可以 fine tune 自己的模型,host 自己的模型甚至分享;比如音樂的多模態(tài)化——我們認(rèn)為未來的音樂一定是視頻的,每個音樂都應(yīng)該有一個對應(yīng)的視頻,對已有視頻配上合理的音樂也是目前沒被解決的問題。

Peter:如果 ACE 成功了,10 年以后行業(yè)會是什么樣子?

Joe:AI 會徹頭徹尾地改變音樂產(chǎn)業(yè)——音樂如何被消費、如何被生產(chǎn)、如何在線下場景里跟人互動、你和偶像如何互動、如何社交——所有方方面面都會被 AI 全部重構(gòu)。如果 ACE 有幸成為這里面最重要的生態(tài)系統(tǒng),來接管音樂的產(chǎn)生、分發(fā)、消費甚至線下演藝,那么它將是一個至少幾千億美金以上的基礎(chǔ)設(shè)施。


轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
手機(jī)放床頭輻射傷身?央視實驗給出答案:這樣放手機(jī),輻射降10倍

手機(jī)放床頭輻射傷身?央視實驗給出答案:這樣放手機(jī),輻射降10倍

天氣觀察站
2026-03-24 19:02:53
2-3爆大冷!樊振東獨得2分,連轟兩場3-0,賽后一個舉動太暖心了

2-3爆大冷!樊振東獨得2分,連轟兩場3-0,賽后一個舉動太暖心了

體育就你秀
2026-03-28 09:10:19
羅技中國就不當(dāng)廣告內(nèi)容致歉背后:公司CEO不久前剛稱要“贏回中國市場”,中國市場貢獻(xiàn)財年銷售額10%左右

羅技中國就不當(dāng)廣告內(nèi)容致歉背后:公司CEO不久前剛稱要“贏回中國市場”,中國市場貢獻(xiàn)財年銷售額10%左右

每日經(jīng)濟(jì)新聞
2026-03-28 04:21:49
海灣國家突然變臉,反對停戰(zhàn),特朗普徹底懵了!美媒:美國被騙了

海灣國家突然變臉,反對停戰(zhàn),特朗普徹底懵了!美媒:美國被騙了

軒逸阿II
2026-03-28 04:33:45
軍銜最高的12位開國女軍官,都是什么軍銜?

軍銜最高的12位開國女軍官,都是什么軍銜?

幽州校尉
2026-03-28 07:31:51
第三輪第五批中央生態(tài)環(huán)保督察完成督察反饋

第三輪第五批中央生態(tài)環(huán)保督察完成督察反饋

澎湃新聞
2026-03-27 22:09:14
矛盾升級,王鈺棟再發(fā)社媒硬剛球迷,稱只能再發(fā)一次再爽一次了

矛盾升級,王鈺棟再發(fā)社媒硬剛球迷,稱只能再發(fā)一次再爽一次了

體壇風(fēng)之子
2026-03-28 04:30:03
精神小妹的生活原來是這樣的!網(wǎng)友:終于知道她們?yōu)樯抖歼@么瘦了

精神小妹的生活原來是這樣的!網(wǎng)友:終于知道她們?yōu)樯抖歼@么瘦了

深度報
2026-02-11 23:35:03
特朗普最怕的來了,關(guān)鍵時刻,中國加入戰(zhàn)斗,商務(wù)部:對美調(diào)查

特朗普最怕的來了,關(guān)鍵時刻,中國加入戰(zhàn)斗,商務(wù)部:對美調(diào)查

阿離家居
2026-03-28 22:36:32
菲律賓艦艇發(fā)現(xiàn)中國054A艦,船長毫不猶豫下令:把舵打滿沖上去

菲律賓艦艇發(fā)現(xiàn)中國054A艦,船長毫不猶豫下令:把舵打滿沖上去

Ck的蜜糖
2026-03-28 17:14:54
世上最危險的關(guān)系,就是夫妻關(guān)系,夫妻生活是肉體上的生活

世上最危險的關(guān)系,就是夫妻關(guān)系,夫妻生活是肉體上的生活

加油丁小文
2026-03-11 14:00:09
廣東傳1好3壞消息!關(guān)辛談焦泊喬離隊,比輸球更可怕的麻煩出現(xiàn)了

廣東傳1好3壞消息!關(guān)辛談焦泊喬離隊,比輸球更可怕的麻煩出現(xiàn)了

后仰大風(fēng)車
2026-03-28 07:10:11
伊朗就國際原子能機(jī)構(gòu)總干事不當(dāng)言論發(fā)出嚴(yán)正警告

伊朗就國際原子能機(jī)構(gòu)總干事不當(dāng)言論發(fā)出嚴(yán)正警告

新京報
2026-03-27 17:32:06
中日若開戰(zhàn):不打則已,一打必定百年格局

中日若開戰(zhàn):不打則已,一打必定百年格局

安安說
2026-03-27 11:59:52
人不會無緣無故患癌癥!研究發(fā)現(xiàn):得癌癥的人,離不開這6點

人不會無緣無故患癌癥!研究發(fā)現(xiàn):得癌癥的人,離不開這6點

醫(yī)學(xué)原創(chuàng)故事會
2026-03-07 21:55:05
抗美援朝罕見一幕,云山之戰(zhàn)主力團(tuán)3個營干部逃了,結(jié)果如何?

抗美援朝罕見一幕,云山之戰(zhàn)主力團(tuán)3個營干部逃了,結(jié)果如何?

微史紀(jì)
2026-03-28 12:58:19
魯比奧指責(zé)澤連斯基“撒謊”

魯比奧指責(zé)澤連斯基“撒謊”

參考消息
2026-03-28 14:26:04
德約科維奇退賽!連續(xù)十三年參賽紀(jì)錄終結(jié)

德約科維奇退賽!連續(xù)十三年參賽紀(jì)錄終結(jié)

網(wǎng)球之家
2026-03-28 23:02:40
iPhone4回收價從5元暴漲到400元

iPhone4回收價從5元暴漲到400元

都市快報橙柿互動
2026-03-27 00:31:22
商家你睡著了嗎?網(wǎng)友:我穿你家的衣服有點兒想死了

商家你睡著了嗎?網(wǎng)友:我穿你家的衣服有點兒想死了

夜深愛雜談
2026-03-16 21:23:11
2026-03-29 01:43:00
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
1184文章數(shù) 160關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

旅游
親子
時尚
教育
軍事航空

旅游要聞

泰安市岱岳區(qū):賞梨花 看村晚 萬畝梨園迎客來

親子要聞

小孩子能口無遮攔到什么程度!網(wǎng)友:恨不得當(dāng)場找個地縫鉆進(jìn)去

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

教育要聞

7萬就可直錄高中?多所學(xué)校發(fā)布“違規(guī)招生”警示

軍事要聞

美軍中東基地?fù)p失最新披露

無障礙瀏覽 進(jìn)入關(guān)懷版