![]()
伴隨著AI云原生時(shí)代的來(lái)臨,視頻這種介質(zhì)正在有全新的演繹,不論是內(nèi)容效率的提升、媒體價(jià)值的放大,還是基于實(shí)時(shí)互動(dòng)的更新交互形態(tài),其全新的生產(chǎn)力價(jià)值也更在出現(xiàn)。
火山引擎,通過“路+車+人+海”的智能視頻云體系,構(gòu)建的恰是基于這種新介質(zhì)的規(guī)范化操作界面。
作者|皮爺
出品|產(chǎn)業(yè)家
1895年,巴黎卡普辛大道14號(hào),盧米埃爾兄弟的《火車進(jìn)站》讓觀眾驚慌四散——一束穿透黑暗的光影,第一次讓靜態(tài)圖像擁有了流動(dòng)的生命,但同時(shí)也留下了時(shí)代局限:?jiǎn)午R頭、無(wú)剪輯、僅50秒時(shí)長(zhǎng),更遑論對(duì)內(nèi)容的精細(xì)操控。
以視頻為介質(zhì)的表達(dá),由此而始。
![]()
但在AI時(shí)代的2025年,人們對(duì)這個(gè)以盧米埃爾兄弟為起點(diǎn)的表達(dá)體系有了新“質(zhì)疑”。在最近的3年時(shí)間里,關(guān)于音視頻,一些更新的標(biāo)簽也在悄然出現(xiàn)。
比如在今年下半年大火的AI漫劇,比如游戲圈中頻繁破圈的豆包視頻指導(dǎo)策略陪玩,再比如在今年釜山電影節(jié)上出現(xiàn)的一系列AI短片等等。
這些新熱議的話題主題仍然是視頻,但對(duì)這個(gè)形態(tài)恒定超100年的介質(zhì)而言,它的新使用方式卻不是傳統(tǒng)的“拍攝-制作-發(fā)布”管道體系,在這些新表達(dá)里,“Agent智能體”、“可交互對(duì)話”、“可編輯二創(chuàng)”、“一句話/一段話生成”在成為新的標(biāo)簽,這些標(biāo)簽在給C端創(chuàng)作人群帶來(lái)不同以往的創(chuàng)作方式之外,也更在給一眾產(chǎn)業(yè)帶來(lái)看得見的生產(chǎn)力增量。
AI時(shí)代,視頻到底在經(jīng)歷怎樣的變化?以及在視頻這個(gè)介質(zhì)的主陣地上,全新的管道到底應(yīng)該是怎樣的?又或者說(shuō),被重新定義的“視頻”應(yīng)該具備怎樣的工程化加持,才能實(shí)現(xiàn)它新形態(tài)下的更好表達(dá)?
今年的冬季FORCE原動(dòng)力大會(huì)上,火山引擎交出了一張新答卷。這個(gè)答卷的主題是音視頻的AI進(jìn)化,也更是一個(gè)全新的、從實(shí)踐里趟出來(lái)的AI音視頻價(jià)值新思考。
AI云原生的視頻時(shí)代,正在到來(lái)。
一、“AI+視頻”,被重構(gòu)的三年
今年9月,韓國(guó)釜山電影節(jié)現(xiàn)場(chǎng),幾部由火山引擎和即夢(mèng)AI共同帶來(lái)的特殊參展短片引起了現(xiàn)場(chǎng)觀眾和行業(yè)大咖們的注意,它們中有面向心理學(xué)主題的《小怪物》,也更有取材古典志怪、以黑白版畫格調(diào)呈現(xiàn)的《一目五先生》,同時(shí)還有一眾來(lái)自中國(guó)香港和韓國(guó)本土的影片。
這些短片有一個(gè)共同的標(biāo)簽:AI電影。影視圈對(duì)于AI技術(shù)的應(yīng)用不單純是C端人群感知的AI視頻生成,其對(duì)應(yīng)是基于AI對(duì)視頻的更深度改造,比如工業(yè)級(jí)影視制作,比如基于IP的視頻二次創(chuàng)作,再比如從劇本小樣到微型影片demo的生成。
如果把視角放大,則是不難發(fā)現(xiàn),AI帶給視頻的變化不僅在產(chǎn)出流程本身,更在視頻這個(gè)介質(zhì)的更大價(jià)值表達(dá),比如視頻的“屬性定位”不僅是內(nèi)容的表達(dá)者,在游戲陪玩等場(chǎng)景中,它也更在成為一個(gè)工具的前端入口,完成從被動(dòng)呈現(xiàn)到主動(dòng)表達(dá)甚至交互的角色變遷,同樣的現(xiàn)象也更出現(xiàn)在教育場(chǎng)景,如視頻開始成為“學(xué)習(xí)交互”的新載體等等。
“過去三年,我們見證了一個(gè)歷史性時(shí)刻。當(dāng)大模型技術(shù)遇上視頻技術(shù),我們熟悉的那個(gè)「視頻視界」正在被重構(gòu)。”火山引擎視頻與邊緣產(chǎn)品負(fù)責(zé)人杜佑在這次大會(huì)現(xiàn)場(chǎng)這樣表示。
誠(chéng)然如此。如果從產(chǎn)業(yè)視角來(lái)看,伴隨著AI浪潮的來(lái)襲,視頻正在迎來(lái)“路、車、人、海”四個(gè)層面的立體式變化,這四個(gè)變化正在推動(dòng)視頻從靜態(tài)走向動(dòng)態(tài),從表達(dá)走向新交互,也更推動(dòng)其從云原生真正邁進(jìn)AI云原生。
首先是“路”的變化,其對(duì)應(yīng)的是底層基建側(cè)的變化,即AI時(shí)代信息交互方式正在發(fā)生改變,從單純的文字交互變成自然語(yǔ)言、音頻、視頻等多模態(tài)交互,以及交互對(duì)象也從固定的人與人交互變成人和智能體(或包含智能體的終端)交互,信息的形態(tài)、密度等都在發(fā)生變化,與之對(duì)應(yīng)的則是對(duì)傳輸系統(tǒng)有了更高要求。
其次是“車”,即在新的基建道路之上,如何保證視頻能夠完成新形態(tài)下的價(jià)值表達(dá),“車”恰是其中的關(guān)鍵,比如不論是對(duì)于多模態(tài)數(shù)據(jù)的AI理解,還是一系列基于多模態(tài)理解后高效率的視頻生成、加工、二創(chuàng)、搜索等等更大程度、更多維度的媒體價(jià)值釋放,這些都需要專業(yè)的“車”來(lái)保證整個(gè)流程的通暢。
以及“人”和“海”。前者對(duì)應(yīng)的是視頻的新式價(jià)值屬性,即交互——和之前視頻僅有的內(nèi)容表達(dá)屬性不同,基于AI的加持,音視頻智能體可以具備主動(dòng)交互的屬性,讓音視頻成為應(yīng)用和人建立連接的第一道工序。
“海“則對(duì)應(yīng)的是基于這些全新的視頻介質(zhì)表達(dá),不論是電影制作,還是游戲動(dòng)漫,以及跨境電商、陪伴應(yīng)用等等,肉眼可見的是,在過去一兩年時(shí)間里,以新式AI音視頻為陣地的一眾中國(guó)AI產(chǎn)品和企業(yè)在出海已經(jīng)嶄露頭角。
![]()
從更大的視角來(lái)看,大模型為以視頻為形態(tài)的產(chǎn)品或者產(chǎn)業(yè)帶來(lái)的是一輪全新重構(gòu),這種重構(gòu)不單純基于視頻更低門檻生成鏈所對(duì)應(yīng)的效率本身,也更在于視頻開始從靜態(tài)內(nèi)容價(jià)值的基礎(chǔ)上新增了“能聽會(huì)說(shuō)可理解”的新價(jià)值形態(tài)。
豆包就是一個(gè)最鮮明的例子。
從當(dāng)下來(lái)看,過去3年時(shí)間里,豆包有兩次“破圈”事件尤為引發(fā)行業(yè)矚目。一次為2024年9月,豆包視頻生成模型(Seedance系列模型)首次亮相火山AI創(chuàng)新巡展,4個(gè)月后,AI視頻功能全量上線豆包;另一次為2025年1月20日,豆包App升級(jí)至7.2.0新春版,全量上線實(shí)時(shí)語(yǔ)音通話。
前者對(duì)應(yīng)的價(jià)值是,豆包在行業(yè)內(nèi)掀起一個(gè)AI生成視頻的熱潮,其本身從一個(gè)AIGC產(chǎn)品正式升級(jí)為一個(gè)集合音視頻能力的綜合AIGC產(chǎn)品。
而后者帶來(lái)的正向反饋著力點(diǎn)也恰是豆包自身。即在語(yǔ)音交互和對(duì)話功能發(fā)布后,不論是國(guó)內(nèi)的媒體平臺(tái)還是國(guó)外等平臺(tái),“用豆包當(dāng)家庭教師”、“用豆包實(shí)時(shí)指導(dǎo)做菜”等等熱門AI產(chǎn)品交互視頻開始不斷破圈,這個(gè)新的交互形式也恰悄然轉(zhuǎn)化為豆包用戶增長(zhǎng)的更進(jìn)一步飛輪。
那么,到底應(yīng)該如何打造一個(gè)豆包同款的應(yīng)用呢?又或者說(shuō),不論是對(duì)電影、動(dòng)漫等內(nèi)容產(chǎn)業(yè)的低成本、強(qiáng)智能的AI視頻需求而言,還是對(duì)如游戲玩具、社交應(yīng)用以及陪伴類產(chǎn)品等視頻交互屬性的需求來(lái)說(shuō),怎樣的智能視頻云基礎(chǔ)設(shè)施才能保證視頻生產(chǎn)力的足夠可控、可用?
二、火山引擎,搭建了一個(gè)新的智能視頻云“骨架”
在這次大會(huì)上,一份AI音視頻的答卷被火山引擎正式放到臺(tái)前。或者更可以說(shuō),火山引擎把“支撐豆包的核心智能視頻能力”整合成全新的方案,正式推向市場(chǎng)。
首先是最底層,也就是“路”的層面,一個(gè)必須要知道的事實(shí)是,相較于人和AI的文字交互方式,不論是多模態(tài)數(shù)據(jù)的理解、傳輸、生成,還是人和智能體基于音頻/視頻等形態(tài)的交互,其中對(duì)應(yīng)的都是有足夠差異化的底層環(huán)境,比如大并發(fā)的數(shù)據(jù)計(jì)算量,比如更高的網(wǎng)絡(luò)帶寬、比如交互中需要做到的實(shí)時(shí)響應(yīng)。
火山引擎的做法是,把保障豆包信息傳遞和交互通暢底層關(guān)鍵能力之一的「AIGC傳輸」正式放到臺(tái)前,即基于AIGC傳輸系統(tǒng),其可以和豆包一樣,做到為智能體應(yīng)用提供穩(wěn)定、實(shí)時(shí)、可擴(kuò)展的多模態(tài)數(shù)據(jù)傳輸能力,同時(shí)也更可以覆蓋足夠多樣化的實(shí)時(shí)交互場(chǎng)景,強(qiáng)化前端用戶體驗(yàn)。
![]()
其次是中間層,火山引擎把既有的音視頻經(jīng)典能力進(jìn)行了AI化升級(jí),也就是被放到臺(tái)前的AI MediaKit。
從能力來(lái)看,AI MediaKit更等同于為企業(yè)提供了一套完備的媒體處理原子能力“工具箱”,即從視頻內(nèi)容的生產(chǎn)端,到內(nèi)容的分析端,再到最終的消費(fèi)端,基于AI MediaKit企業(yè)可以獲得全鏈條的流程加持。
比如在生產(chǎn)端,從之前的純?nèi)斯ぶ鲗?dǎo)可以進(jìn)化到“人機(jī)協(xié)同”,將內(nèi)容生產(chǎn)效率提高至原來(lái)的5-10倍;在消費(fèi)端,基于AI MediaKit,在單一的視頻內(nèi)容表達(dá)基礎(chǔ)上,一系列視頻AI搜推、內(nèi)容二創(chuàng)(如短劇高光生成、AI漫劇)、多模態(tài)翻譯(文字轉(zhuǎn)化為視頻)等等方式可以為其賦予更多元的內(nèi)容生產(chǎn)加持,進(jìn)而讓其實(shí)現(xiàn)“一魚多吃”的價(jià)值最大化;以及在消費(fèi)端,相較于傳統(tǒng)的音視頻模式,AI MediaKit可以幫助媒體實(shí)現(xiàn)更細(xì)顆粒度的數(shù)據(jù)結(jié)果分析,進(jìn)而幫助其優(yōu)化前端策略。
從更大的角度來(lái)看,和固有音視頻原子交付、工作流交付不同的是,AI MediaKit將更新的AI視頻編輯范式(生成、編輯、分析、多模態(tài)轉(zhuǎn)化)封裝成一個(gè)豐富的AI視頻工具箱,基于這個(gè)工具箱的一系列工具,一方面媒體可以構(gòu)建新的視頻表達(dá)形態(tài),實(shí)現(xiàn)從生產(chǎn)端到消費(fèi)端的每個(gè)環(huán)節(jié)的效率提升,另一方面也更可以基于其中的大模型降低內(nèi)容思想表達(dá)的工程操作門檻,進(jìn)而更輕松、更豐富地表達(dá)傳遞自身思考。
此外,也更值得一提的是,相較于直接調(diào)用大模型能力,AI MediaKit中預(yù)設(shè)的是一系列可配置的AI工作流,這些來(lái)自最佳實(shí)踐的場(chǎng)景化工作流編排,可以幫助企業(yè)做到更好地落地效果;同時(shí),最上層的Agent也更可以通過配置直接調(diào)用AI MediaKit的一系列能力,幫助企業(yè)更好地構(gòu)建上層智能體應(yīng)用。
![]()
如果說(shuō)AI MediaKit的著力點(diǎn)更多是視頻固有產(chǎn)業(yè)鏈的AI進(jìn)化,幫助媒體做到更大的價(jià)值表達(dá),那么音視頻互動(dòng)智能體則可以賦能企業(yè)做到基于音視頻介質(zhì)的新交互形態(tài)。
“在支持各行各業(yè)那么多客戶需求的過程中,我們發(fā)現(xiàn)傳統(tǒng)的音視頻對(duì)話式AI方案越來(lái)越不足以滿足業(yè)務(wù)上飛速增長(zhǎng)的需求。一方面大家希望對(duì)面的AI在各種感官的表現(xiàn)上更大程度的趨近于真人的感覺,另一方面大家也希望對(duì)面的AI能夠擁有自己各行各業(yè)一些更加專業(yè)的知識(shí)和特定的業(yè)務(wù)功能。”火山引擎智能互動(dòng)產(chǎn)品負(fù)責(zé)人楊若揚(yáng)表示。
誠(chéng)然如此。即在過去的幾年時(shí)間里,一系列AI實(shí)時(shí)互動(dòng)的場(chǎng)景如火如荼出現(xiàn),但盡管各家都在宣稱自身實(shí)現(xiàn)了基于大模型的升級(jí),但其中的兩個(gè)核心問題仍然存在——一個(gè)是真人感,一個(gè)是“產(chǎn)業(yè)know-how”能力。
這也恰是火山引擎音視頻互動(dòng)智能體的核心著力點(diǎn)所在。首先來(lái)看真人感,即在火山引擎音視頻互動(dòng)智能體的設(shè)定里,一系列如“口語(yǔ)感對(duì)話”、“情緒與聲線”設(shè)定、感知與承接等特點(diǎn)都經(jīng)過特殊的設(shè)計(jì),這種從音色到音質(zhì),再到情緒的工程設(shè)定一定程度上會(huì)強(qiáng)化產(chǎn)品真人感的屬性。
而另一方面,通過多類型的視覺理解、長(zhǎng)期記憶、知識(shí)庫(kù)等工程強(qiáng)化,可以保證音視頻互動(dòng)智能體能識(shí)別多種場(chǎng)景并且基于長(zhǎng)期數(shù)據(jù)形成穩(wěn)定的技能,如游戲陪玩、工業(yè)質(zhì)檢、AI教學(xué)、陪伴類場(chǎng)景等等。
這種“真人感+場(chǎng)景技能”的設(shè)定同時(shí)配合AIGC傳輸系統(tǒng)的低時(shí)延,也恰可以為企業(yè)提供一眾AI音視頻實(shí)時(shí)活動(dòng)的能力加持。
從整體視角來(lái)看,在火山引擎智能視頻云的方案中,其一方面通過AIGC傳輸系統(tǒng)完成AI時(shí)代音視頻流通的底層“路”的建設(shè),如帶寬、時(shí)延等等,保障信息傳遞的通暢,另一方面通過AI MediaKit這個(gè)“車”的角色完成內(nèi)容的AI表達(dá)和更新的AI內(nèi)容生產(chǎn),最后基于音視頻互動(dòng)智能體完成“人”層面交互的重塑。
即通過“路+車+人”的復(fù)合體系,其可以幫助企業(yè)以足夠立體且體系化的模式,把“豆包同款”的音視頻能力真實(shí)嵌入到企業(yè)的相關(guān)業(yè)務(wù)中,幫助企業(yè)構(gòu)建出適配自身的視頻應(yīng)用或智能體。
三、大模型時(shí)代,我們需要怎樣的AI音視頻基建?
實(shí)際上,從另一個(gè)角度來(lái)看,在火山引擎智能視頻云的方案背后,其對(duì)應(yīng)的也恰是中國(guó)當(dāng)下的最佳的AI音視頻實(shí)踐產(chǎn)品樣本——豆包。
根據(jù)三方統(tǒng)計(jì)顯示,截止11月,豆包國(guó)內(nèi)DAU約5670萬(wàn)、MAU約1.76億,到年底其MAU預(yù)計(jì)接近1.9億,用戶量和使用頻次均位列中國(guó)AI應(yīng)用市場(chǎng)第一。在這些日活和月活用戶中,有一大批使用者調(diào)用的是豆包的AI視頻功能和AI實(shí)時(shí)語(yǔ)音通話等能力。
而保障這些能力被順利調(diào)用和使用的,正是如今被火山引擎放到臺(tái)前的智能云視頻解決方案。實(shí)際上,不論是AIGC傳輸系統(tǒng),還是AI MediaKit,抑或是音視頻互動(dòng)智能體,在一眾企業(yè)案例的落地中,豆包自身恰可以看作是“難度和復(fù)雜度最大的標(biāo)桿客戶”。
比如AIGC傳輸系統(tǒng),其本身支撐的就是豆包這類大規(guī)模AI應(yīng)用的數(shù)據(jù)傳輸;再比如音視頻互動(dòng)智能體,其對(duì)應(yīng)的是把豆包每天數(shù)以億次被調(diào)用的絲滑AI音視頻互動(dòng)能力封裝成一個(gè)完備的智能體方案,賦能給一眾游戲、陪伴應(yīng)用、工業(yè)質(zhì)檢以及需要強(qiáng)RTC能力的企業(yè),幫助其實(shí)現(xiàn)真正的音視頻實(shí)時(shí)互動(dòng)。
以及出海場(chǎng)景的全套體系加持,在本次大會(huì)上,火山引擎智能視頻云也更發(fā)布了面向海外場(chǎng)景的方案全景圖,其以智能媒體處理平臺(tái)、AIGC傳輸系統(tǒng)、全球?qū)崟r(shí)傳輸分發(fā)等技術(shù)為底座,同時(shí)Conversational AI、AI Media Studio(一站式AI視頻處理方案)分別面向海外實(shí)時(shí)互動(dòng)場(chǎng)景(如陪伴類應(yīng)用)、本地化內(nèi)容生產(chǎn)等需求,同時(shí)結(jié)合對(duì)應(yīng)的營(yíng)銷方案,共同服務(wù)出海企業(yè)。
實(shí)際上,這個(gè)“路+車+人”的智能視頻云體系如今已經(jīng)有所落地。以短劇賽道的麥芽傳媒為例,如今不論是基于本土劇的海外翻譯,還是基于每個(gè)IP劇的高光片段自動(dòng)生成,都已經(jīng)跑在火山引擎上,基于智能視頻云的AI MediaKit組件能力進(jìn)行更高效地推進(jìn),極大提高企業(yè)效率。
據(jù)了解,后續(xù)雙方還將就AI漫劇和AI審片等場(chǎng)景進(jìn)行更為深入的合作。
以及在音視頻交互場(chǎng)景,以TapTap游戲平臺(tái)為例,作為定位游戲分發(fā)平臺(tái)和玩家社區(qū)的企業(yè),如今基于火山的音視頻互動(dòng)智能體等能力,其專門構(gòu)建了一系列AI能力,以為專門適配游戲場(chǎng)景的AI游戲助手,后者通過對(duì)火山引擎RTC的能力的調(diào)用,集合自身在大模型上“大模型+小模型”的探索,進(jìn)而為玩家構(gòu)建出真正的AI游戲陪玩,其可以識(shí)別玩家的具體動(dòng)作并實(shí)時(shí)交互給出策略。
從某種程度來(lái)看,伴隨著AI云原生時(shí)代的來(lái)臨,視頻這種介質(zhì)正在有全新的演繹,不論是內(nèi)容效率的提升、媒體價(jià)值的放大,還是基于實(shí)時(shí)互動(dòng)的更新交互形態(tài),其全新的生產(chǎn)力價(jià)值也更在出現(xiàn)。
火山引擎,通過“路+車+人+海”的智能視頻云體系,構(gòu)建的恰是基于這種新介質(zhì)的規(guī)范化操作界面。
也更可以說(shuō),從抖音同款到豆包同款背后,火山引擎智能視頻云對(duì)應(yīng)交付的不僅是能夠幫助企業(yè)構(gòu)建Agent和視頻應(yīng)用的底層視頻云技術(shù)和工具,從更大角度來(lái)看,其賦能企業(yè)的也更是一個(gè)被清晰界定的新生產(chǎn)力形態(tài)和擁有AI云原生視頻工程實(shí)踐的體系模型。
有理由相信,未來(lái)的幾年時(shí)間里,無(wú)數(shù)個(gè)豆包或?qū)⒃谇邪贅I(yè)里出現(xiàn),帶給人們不一樣的AI新世界。到時(shí)候或許可以真的說(shuō):AGI時(shí)代,真的來(lái)了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.