網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從“抖音同款”到“豆包同款”：AI時(shí)代，視頻云正在有了新表達(dá)

2025-12-26 11:13:09　來(lái)源: 產(chǎn)業(yè)家

北京舉報(bào)

分享至

伴隨著AI云原生時(shí)代的來(lái)臨，視頻這種介質(zhì)正在有全新的演繹，不論是內(nèi)容效率的提升、媒體價(jià)值的放大，還是基于實(shí)時(shí)互動(dòng)的更新交互形態(tài)，其全新的生產(chǎn)力價(jià)值也更在出現(xiàn)。

火山引擎，通過“路+車+人+海”的智能視頻云體系，構(gòu)建的恰是基于這種新介質(zhì)的規(guī)范化操作界面。

作者|皮爺

出品|產(chǎn)業(yè)家

1895年，巴黎卡普辛大道14號(hào)，盧米埃爾兄弟的《火車進(jìn)站》讓觀眾驚慌四散——一束穿透黑暗的光影，第一次讓靜態(tài)圖像擁有了流動(dòng)的生命，但同時(shí)也留下了時(shí)代局限：?jiǎn)午R頭、無(wú)剪輯、僅50秒時(shí)長(zhǎng)，更遑論對(duì)內(nèi)容的精細(xì)操控。

以視頻為介質(zhì)的表達(dá)，由此而始。

但在AI時(shí)代的2025年，人們對(duì)這個(gè)以盧米埃爾兄弟為起點(diǎn)的表達(dá)體系有了新“質(zhì)疑”。在最近的3年時(shí)間里，關(guān)于音視頻，一些更新的標(biāo)簽也在悄然出現(xiàn)。

比如在今年下半年大火的AI漫劇，比如游戲圈中頻繁破圈的豆包視頻指導(dǎo)策略陪玩，再比如在今年釜山電影節(jié)上出現(xiàn)的一系列AI短片等等。

這些新熱議的話題主題仍然是視頻，但對(duì)這個(gè)形態(tài)恒定超100年的介質(zhì)而言，它的新使用方式卻不是傳統(tǒng)的“拍攝-制作-發(fā)布”管道體系，在這些新表達(dá)里，“Agent智能體”、“可交互對(duì)話”、“可編輯二創(chuàng)”、“一句話/一段話生成”在成為新的標(biāo)簽，這些標(biāo)簽在給C端創(chuàng)作人群帶來(lái)不同以往的創(chuàng)作方式之外，也更在給一眾產(chǎn)業(yè)帶來(lái)看得見的生產(chǎn)力增量。

AI時(shí)代，視頻到底在經(jīng)歷怎樣的變化？以及在視頻這個(gè)介質(zhì)的主陣地上，全新的管道到底應(yīng)該是怎樣的？又或者說(shuō)，被重新定義的“視頻”應(yīng)該具備怎樣的工程化加持，才能實(shí)現(xiàn)它新形態(tài)下的更好表達(dá)？

今年的冬季FORCE原動(dòng)力大會(huì)上，火山引擎交出了一張新答卷。這個(gè)答卷的主題是音視頻的AI進(jìn)化，也更是一個(gè)全新的、從實(shí)踐里趟出來(lái)的AI音視頻價(jià)值新思考。

AI云原生的視頻時(shí)代，正在到來(lái)。

一、“AI+視頻”，被重構(gòu)的三年

今年9月，韓國(guó)釜山電影節(jié)現(xiàn)場(chǎng)，幾部由火山引擎和即夢(mèng)AI共同帶來(lái)的特殊參展短片引起了現(xiàn)場(chǎng)觀眾和行業(yè)大咖們的注意，它們中有面向心理學(xué)主題的《小怪物》，也更有取材古典志怪、以黑白版畫格調(diào)呈現(xiàn)的《一目五先生》，同時(shí)還有一眾來(lái)自中國(guó)香港和韓國(guó)本土的影片。

這些短片有一個(gè)共同的標(biāo)簽：AI電影。影視圈對(duì)于AI技術(shù)的應(yīng)用不單純是C端人群感知的AI視頻生成，其對(duì)應(yīng)是基于AI對(duì)視頻的更深度改造，比如工業(yè)級(jí)影視制作，比如基于IP的視頻二次創(chuàng)作，再比如從劇本小樣到微型影片demo的生成。

如果把視角放大，則是不難發(fā)現(xiàn)，AI帶給視頻的變化不僅在產(chǎn)出流程本身，更在視頻這個(gè)介質(zhì)的更大價(jià)值表達(dá)，比如視頻的“屬性定位”不僅是內(nèi)容的表達(dá)者，在游戲陪玩等場(chǎng)景中，它也更在成為一個(gè)工具的前端入口，完成從被動(dòng)呈現(xiàn)到主動(dòng)表達(dá)甚至交互的角色變遷，同樣的現(xiàn)象也更出現(xiàn)在教育場(chǎng)景，如視頻開始成為“學(xué)習(xí)交互”的新載體等等。

“過去三年，我們見證了一個(gè)歷史性時(shí)刻。當(dāng)大模型技術(shù)遇上視頻技術(shù)，我們熟悉的那個(gè)「視頻視界」正在被重構(gòu)。”火山引擎視頻與邊緣產(chǎn)品負(fù)責(zé)人杜佑在這次大會(huì)現(xiàn)場(chǎng)這樣表示。

誠(chéng)然如此。如果從產(chǎn)業(yè)視角來(lái)看，伴隨著AI浪潮的來(lái)襲，視頻正在迎來(lái)“路、車、人、海”四個(gè)層面的立體式變化，這四個(gè)變化正在推動(dòng)視頻從靜態(tài)走向動(dòng)態(tài)，從表達(dá)走向新交互，也更推動(dòng)其從云原生真正邁進(jìn)AI云原生。

首先是“路”的變化，其對(duì)應(yīng)的是底層基建側(cè)的變化，即AI時(shí)代信息交互方式正在發(fā)生改變，從單純的文字交互變成自然語(yǔ)言、音頻、視頻等多模態(tài)交互，以及交互對(duì)象也從固定的人與人交互變成人和智能體（或包含智能體的終端）交互，信息的形態(tài)、密度等都在發(fā)生變化，與之對(duì)應(yīng)的則是對(duì)傳輸系統(tǒng)有了更高要求。

其次是“車”，即在新的基建道路之上，如何保證視頻能夠完成新形態(tài)下的價(jià)值表達(dá)，“車”恰是其中的關(guān)鍵，比如不論是對(duì)于多模態(tài)數(shù)據(jù)的AI理解，還是一系列基于多模態(tài)理解后高效率的視頻生成、加工、二創(chuàng)、搜索等等更大程度、更多維度的媒體價(jià)值釋放，這些都需要專業(yè)的“車”來(lái)保證整個(gè)流程的通暢。

以及“人”和“海”。前者對(duì)應(yīng)的是視頻的新式價(jià)值屬性，即交互——和之前視頻僅有的內(nèi)容表達(dá)屬性不同，基于AI的加持，音視頻智能體可以具備主動(dòng)交互的屬性，讓音視頻成為應(yīng)用和人建立連接的第一道工序。

“海“則對(duì)應(yīng)的是基于這些全新的視頻介質(zhì)表達(dá)，不論是電影制作，還是游戲動(dòng)漫，以及跨境電商、陪伴應(yīng)用等等，肉眼可見的是，在過去一兩年時(shí)間里，以新式AI音視頻為陣地的一眾中國(guó)AI產(chǎn)品和企業(yè)在出海已經(jīng)嶄露頭角。

從更大的視角來(lái)看，大模型為以視頻為形態(tài)的產(chǎn)品或者產(chǎn)業(yè)帶來(lái)的是一輪全新重構(gòu)，這種重構(gòu)不單純基于視頻更低門檻生成鏈所對(duì)應(yīng)的效率本身，也更在于視頻開始從靜態(tài)內(nèi)容價(jià)值的基礎(chǔ)上新增了“能聽會(huì)說(shuō)可理解”的新價(jià)值形態(tài)。

豆包就是一個(gè)最鮮明的例子。

從當(dāng)下來(lái)看，過去3年時(shí)間里，豆包有兩次“破圈”事件尤為引發(fā)行業(yè)矚目。一次為2024年9月，豆包視頻生成模型（Seedance系列模型）首次亮相火山AI創(chuàng)新巡展，4個(gè)月后，AI視頻功能全量上線豆包；另一次為2025年1月20日，豆包App升級(jí)至7.2.0新春版，全量上線實(shí)時(shí)語(yǔ)音通話。

前者對(duì)應(yīng)的價(jià)值是，豆包在行業(yè)內(nèi)掀起一個(gè)AI生成視頻的熱潮，其本身從一個(gè)AIGC產(chǎn)品正式升級(jí)為一個(gè)集合音視頻能力的綜合AIGC產(chǎn)品。

而后者帶來(lái)的正向反饋著力點(diǎn)也恰是豆包自身。即在語(yǔ)音交互和對(duì)話功能發(fā)布后，不論是國(guó)內(nèi)的媒體平臺(tái)還是國(guó)外等平臺(tái)，“用豆包當(dāng)家庭教師”、“用豆包實(shí)時(shí)指導(dǎo)做菜”等等熱門AI產(chǎn)品交互視頻開始不斷破圈，這個(gè)新的交互形式也恰悄然轉(zhuǎn)化為豆包用戶增長(zhǎng)的更進(jìn)一步飛輪。

那么，到底應(yīng)該如何打造一個(gè)豆包同款的應(yīng)用呢？又或者說(shuō)，不論是對(duì)電影、動(dòng)漫等內(nèi)容產(chǎn)業(yè)的低成本、強(qiáng)智能的AI視頻需求而言，還是對(duì)如游戲玩具、社交應(yīng)用以及陪伴類產(chǎn)品等視頻交互屬性的需求來(lái)說(shuō)，怎樣的智能視頻云基礎(chǔ)設(shè)施才能保證視頻生產(chǎn)力的足夠可控、可用？

二、火山引擎，搭建了一個(gè)新的智能視頻云“骨架”

在這次大會(huì)上，一份AI音視頻的答卷被火山引擎正式放到臺(tái)前。或者更可以說(shuō)，火山引擎把“支撐豆包的核心智能視頻能力”整合成全新的方案，正式推向市場(chǎng)。

首先是最底層，也就是“路”的層面，一個(gè)必須要知道的事實(shí)是，相較于人和AI的文字交互方式，不論是多模態(tài)數(shù)據(jù)的理解、傳輸、生成，還是人和智能體基于音頻/視頻等形態(tài)的交互，其中對(duì)應(yīng)的都是有足夠差異化的底層環(huán)境，比如大并發(fā)的數(shù)據(jù)計(jì)算量，比如更高的網(wǎng)絡(luò)帶寬、比如交互中需要做到的實(shí)時(shí)響應(yīng)。

火山引擎的做法是，把保障豆包信息傳遞和交互通暢底層關(guān)鍵能力之一的「AIGC傳輸」正式放到臺(tái)前，即基于AIGC傳輸系統(tǒng)，其可以和豆包一樣，做到為智能體應(yīng)用提供穩(wěn)定、實(shí)時(shí)、可擴(kuò)展的多模態(tài)數(shù)據(jù)傳輸能力，同時(shí)也更可以覆蓋足夠多樣化的實(shí)時(shí)交互場(chǎng)景，強(qiáng)化前端用戶體驗(yàn)。

其次是中間層，火山引擎把既有的音視頻經(jīng)典能力進(jìn)行了AI化升級(jí)，也就是被放到臺(tái)前的AI MediaKit。

從能力來(lái)看，AI MediaKit更等同于為企業(yè)提供了一套完備的媒體處理原子能力“工具箱”，即從視頻內(nèi)容的生產(chǎn)端，到內(nèi)容的分析端，再到最終的消費(fèi)端，基于AI MediaKit企業(yè)可以獲得全鏈條的流程加持。

比如在生產(chǎn)端，從之前的純?nèi)斯ぶ鲗?dǎo)可以進(jìn)化到“人機(jī)協(xié)同”，將內(nèi)容生產(chǎn)效率提高至原來(lái)的5-10倍；在消費(fèi)端，基于AI MediaKit，在單一的視頻內(nèi)容表達(dá)基礎(chǔ)上，一系列視頻AI搜推、內(nèi)容二創(chuàng)（如短劇高光生成、AI漫劇）、多模態(tài)翻譯（文字轉(zhuǎn)化為視頻）等等方式可以為其賦予更多元的內(nèi)容生產(chǎn)加持，進(jìn)而讓其實(shí)現(xiàn)“一魚多吃”的價(jià)值最大化；以及在消費(fèi)端，相較于傳統(tǒng)的音視頻模式，AI MediaKit可以幫助媒體實(shí)現(xiàn)更細(xì)顆粒度的數(shù)據(jù)結(jié)果分析，進(jìn)而幫助其優(yōu)化前端策略。

從更大的角度來(lái)看，和固有音視頻原子交付、工作流交付不同的是，AI MediaKit將更新的AI視頻編輯范式（生成、編輯、分析、多模態(tài)轉(zhuǎn)化）封裝成一個(gè)豐富的AI視頻工具箱，基于這個(gè)工具箱的一系列工具，一方面媒體可以構(gòu)建新的視頻表達(dá)形態(tài)，實(shí)現(xiàn)從生產(chǎn)端到消費(fèi)端的每個(gè)環(huán)節(jié)的效率提升，另一方面也更可以基于其中的大模型降低內(nèi)容思想表達(dá)的工程操作門檻，進(jìn)而更輕松、更豐富地表達(dá)傳遞自身思考。

此外，也更值得一提的是，相較于直接調(diào)用大模型能力，AI MediaKit中預(yù)設(shè)的是一系列可配置的AI工作流，這些來(lái)自最佳實(shí)踐的場(chǎng)景化工作流編排，可以幫助企業(yè)做到更好地落地效果；同時(shí)，最上層的Agent也更可以通過配置直接調(diào)用AI MediaKit的一系列能力，幫助企業(yè)更好地構(gòu)建上層智能體應(yīng)用。

如果說(shuō)AI MediaKit的著力點(diǎn)更多是視頻固有產(chǎn)業(yè)鏈的AI進(jìn)化，幫助媒體做到更大的價(jià)值表達(dá)，那么音視頻互動(dòng)智能體則可以賦能企業(yè)做到基于音視頻介質(zhì)的新交互形態(tài)。

“在支持各行各業(yè)那么多客戶需求的過程中，我們發(fā)現(xiàn)傳統(tǒng)的音視頻對(duì)話式AI方案越來(lái)越不足以滿足業(yè)務(wù)上飛速增長(zhǎng)的需求。一方面大家希望對(duì)面的AI在各種感官的表現(xiàn)上更大程度的趨近于真人的感覺，另一方面大家也希望對(duì)面的AI能夠擁有自己各行各業(yè)一些更加專業(yè)的知識(shí)和特定的業(yè)務(wù)功能。”火山引擎智能互動(dòng)產(chǎn)品負(fù)責(zé)人楊若揚(yáng)表示。

誠(chéng)然如此。即在過去的幾年時(shí)間里，一系列AI實(shí)時(shí)互動(dòng)的場(chǎng)景如火如荼出現(xiàn)，但盡管各家都在宣稱自身實(shí)現(xiàn)了基于大模型的升級(jí)，但其中的兩個(gè)核心問題仍然存在——一個(gè)是真人感，一個(gè)是“產(chǎn)業(yè)know-how”能力。

這也恰是火山引擎音視頻互動(dòng)智能體的核心著力點(diǎn)所在。首先來(lái)看真人感，即在火山引擎音視頻互動(dòng)智能體的設(shè)定里，一系列如“口語(yǔ)感對(duì)話”、“情緒與聲線”設(shè)定、感知與承接等特點(diǎn)都經(jīng)過特殊的設(shè)計(jì)，這種從音色到音質(zhì)，再到情緒的工程設(shè)定一定程度上會(huì)強(qiáng)化產(chǎn)品真人感的屬性。

而另一方面，通過多類型的視覺理解、長(zhǎng)期記憶、知識(shí)庫(kù)等工程強(qiáng)化，可以保證音視頻互動(dòng)智能體能識(shí)別多種場(chǎng)景并且基于長(zhǎng)期數(shù)據(jù)形成穩(wěn)定的技能，如游戲陪玩、工業(yè)質(zhì)檢、AI教學(xué)、陪伴類場(chǎng)景等等。

這種“真人感+場(chǎng)景技能”的設(shè)定同時(shí)配合AIGC傳輸系統(tǒng)的低時(shí)延，也恰可以為企業(yè)提供一眾AI音視頻實(shí)時(shí)活動(dòng)的能力加持。

從整體視角來(lái)看，在火山引擎智能視頻云的方案中，其一方面通過AIGC傳輸系統(tǒng)完成AI時(shí)代音視頻流通的底層“路”的建設(shè)，如帶寬、時(shí)延等等，保障信息傳遞的通暢，另一方面通過AI MediaKit這個(gè)“車”的角色完成內(nèi)容的AI表達(dá)和更新的AI內(nèi)容生產(chǎn)，最后基于音視頻互動(dòng)智能體完成“人”層面交互的重塑。

即通過“路+車+人”的復(fù)合體系，其可以幫助企業(yè)以足夠立體且體系化的模式，把“豆包同款”的音視頻能力真實(shí)嵌入到企業(yè)的相關(guān)業(yè)務(wù)中，幫助企業(yè)構(gòu)建出適配自身的視頻應(yīng)用或智能體。

三、大模型時(shí)代，我們需要怎樣的AI音視頻基建？

實(shí)際上，從另一個(gè)角度來(lái)看，在火山引擎智能視頻云的方案背后，其對(duì)應(yīng)的也恰是中國(guó)當(dāng)下的最佳的AI音視頻實(shí)踐產(chǎn)品樣本——豆包。

根據(jù)三方統(tǒng)計(jì)顯示，截止11月，豆包國(guó)內(nèi)DAU約5670萬(wàn)、MAU約1.76億，到年底其MAU預(yù)計(jì)接近1.9億，用戶量和使用頻次均位列中國(guó)AI應(yīng)用市場(chǎng)第一。在這些日活和月活用戶中，有一大批使用者調(diào)用的是豆包的AI視頻功能和AI實(shí)時(shí)語(yǔ)音通話等能力。

而保障這些能力被順利調(diào)用和使用的，正是如今被火山引擎放到臺(tái)前的智能云視頻解決方案。實(shí)際上，不論是AIGC傳輸系統(tǒng)，還是AI MediaKit，抑或是音視頻互動(dòng)智能體，在一眾企業(yè)案例的落地中，豆包自身恰可以看作是“難度和復(fù)雜度最大的標(biāo)桿客戶”。

比如AIGC傳輸系統(tǒng)，其本身支撐的就是豆包這類大規(guī)模AI應(yīng)用的數(shù)據(jù)傳輸；再比如音視頻互動(dòng)智能體，其對(duì)應(yīng)的是把豆包每天數(shù)以億次被調(diào)用的絲滑AI音視頻互動(dòng)能力封裝成一個(gè)完備的智能體方案，賦能給一眾游戲、陪伴應(yīng)用、工業(yè)質(zhì)檢以及需要強(qiáng)RTC能力的企業(yè)，幫助其實(shí)現(xiàn)真正的音視頻實(shí)時(shí)互動(dòng)。

以及出海場(chǎng)景的全套體系加持，在本次大會(huì)上，火山引擎智能視頻云也更發(fā)布了面向海外場(chǎng)景的方案全景圖，其以智能媒體處理平臺(tái)、AIGC傳輸系統(tǒng)、全球?qū)崟r(shí)傳輸分發(fā)等技術(shù)為底座，同時(shí)Conversational AI、AI Media Studio（一站式AI視頻處理方案）分別面向海外實(shí)時(shí)互動(dòng)場(chǎng)景（如陪伴類應(yīng)用）、本地化內(nèi)容生產(chǎn)等需求，同時(shí)結(jié)合對(duì)應(yīng)的營(yíng)銷方案，共同服務(wù)出海企業(yè)。

實(shí)際上，這個(gè)“路+車+人”的智能視頻云體系如今已經(jīng)有所落地。以短劇賽道的麥芽傳媒為例，如今不論是基于本土劇的海外翻譯，還是基于每個(gè)IP劇的高光片段自動(dòng)生成，都已經(jīng)跑在火山引擎上，基于智能視頻云的AI MediaKit組件能力進(jìn)行更高效地推進(jìn)，極大提高企業(yè)效率。

據(jù)了解，后續(xù)雙方還將就AI漫劇和AI審片等場(chǎng)景進(jìn)行更為深入的合作。

以及在音視頻交互場(chǎng)景，以TapTap游戲平臺(tái)為例，作為定位游戲分發(fā)平臺(tái)和玩家社區(qū)的企業(yè)，如今基于火山的音視頻互動(dòng)智能體等能力，其專門構(gòu)建了一系列AI能力，以為專門適配游戲場(chǎng)景的AI游戲助手，后者通過對(duì)火山引擎RTC的能力的調(diào)用，集合自身在大模型上“大模型+小模型”的探索，進(jìn)而為玩家構(gòu)建出真正的AI游戲陪玩，其可以識(shí)別玩家的具體動(dòng)作并實(shí)時(shí)交互給出策略。

從某種程度來(lái)看，伴隨著AI云原生時(shí)代的來(lái)臨，視頻這種介質(zhì)正在有全新的演繹，不論是內(nèi)容效率的提升、媒體價(jià)值的放大，還是基于實(shí)時(shí)互動(dòng)的更新交互形態(tài)，其全新的生產(chǎn)力價(jià)值也更在出現(xiàn)。

火山引擎，通過“路+車+人+海”的智能視頻云體系，構(gòu)建的恰是基于這種新介質(zhì)的規(guī)范化操作界面。

也更可以說(shuō)，從抖音同款到豆包同款背后，火山引擎智能視頻云對(duì)應(yīng)交付的不僅是能夠幫助企業(yè)構(gòu)建Agent和視頻應(yīng)用的底層視頻云技術(shù)和工具，從更大角度來(lái)看，其賦能企業(yè)的也更是一個(gè)被清晰界定的新生產(chǎn)力形態(tài)和擁有AI云原生視頻工程實(shí)踐的體系模型。

有理由相信，未來(lái)的幾年時(shí)間里，無(wú)數(shù)個(gè)豆包或?qū)⒃谇邪贅I(yè)里出現(xiàn)，帶給人們不一樣的AI新世界。到時(shí)候或許可以真的說(shuō)：AGI時(shí)代，真的來(lái)了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.