![]()
編輯|+0
話(huà)不多說(shuō),先來(lái)看一段短片。
![]()
大家覺(jué)得效果如何?以上短片的視聽(tīng)內(nèi)容幾乎都由生數(shù)科技最新發(fā)布的視頻大模型 Vidu Q3 生成。
4 月 13 日,Vidu Q3 正式上線了「參考生視頻」。值得注意的是,在全球首個(gè)參考生榜單 SuperClue 榜單上,Vidu Q3 斷層登頂!多圖/單圖參考任務(wù)雙榜第一。
![]()
過(guò)去一個(gè)月,如果你刷過(guò)短視頻平臺(tái),大概率已經(jīng)見(jiàn)過(guò)一種越來(lái)越「怪」的內(nèi)容:劇情很抓人、更新很快,但仔細(xì)一看,演員不太對(duì)勁。
有新聞熱議未來(lái)可能有短劇除了主角,配角全部由 AI 生成;有的公司,甚至已經(jīng)開(kāi)始「簽約 AI 演員」,批量生產(chǎn)內(nèi)容;還有最近爆火的「AI 漫劇」,用極低成本實(shí)現(xiàn)日更甚至多更,播放量動(dòng)輒破百萬(wàn)。
![]()
紅果漫劇界面。
一邊是效率狂飆,一邊是爭(zhēng)議不斷。
有人覺(jué)得這是內(nèi)容工業(yè)化的下一步,把演員、場(chǎng)景、鏡頭全部模塊化,內(nèi)容可以像流水線一樣生產(chǎn);也有人批評(píng),這樣的作品「沒(méi)有靈魂」,甚至在侵蝕創(chuàng)作者和演員的空間。
但不管立場(chǎng)如何,有一個(gè)變化已經(jīng)很明確:AI 正在從「幫你做一段視頻」,變成「替你完成一整段內(nèi)容」。
而這,恰恰也是視頻大模型這半年最關(guān)鍵的一次轉(zhuǎn)向,行業(yè)不再只關(guān)心「生成得像不像」,而開(kāi)始關(guān)心一件更現(xiàn)實(shí)的事:這些內(nèi)容,能不能直接拿去用?
在這個(gè)背景下,Vidu Q3 的這次升級(jí),是一次順勢(shì)而為的迭代。它并沒(méi)有停留在單鏡頭質(zhì)量的優(yōu)化上,而是把重點(diǎn)放在了更長(zhǎng)時(shí)間跨度里的穩(wěn)定性,包括畫(huà)面的一致性、邏輯的連貫性,以及多鏡頭之間的銜接。
這些能力,正好對(duì)應(yīng)的是內(nèi)容生產(chǎn)里最「難自動(dòng)化」的那一段。
也因此,這次發(fā)布傳遞的信息很明確:Vidu Q3 不再只是一個(gè)「生成視頻」的工具,而是開(kāi)始試圖嵌入到完整的內(nèi)容生產(chǎn)流程中。
某種程度上,它正在從「素材生成器」,變成「最小化的劇組單元」。這種深度的生產(chǎn)力進(jìn)化,正是 Vidu Q3 「為劇而生」的終極奧義。
從「生成視頻」到「萬(wàn)物可參,聲畫(huà)同出」,
Vidu Q3 在改什么?
如果把生成式視頻的發(fā)展過(guò)程拆開(kāi)來(lái)看,本質(zhì)上是在做一件事:把人類(lèi)的視覺(jué)語(yǔ)言和敘事邏輯,一點(diǎn)點(diǎn)拆解出來(lái),再變成可以被模型調(diào)用的能力。
放到 Vidu 的演進(jìn)路徑里,這個(gè)過(guò)程也很清晰,可以大致分成三個(gè)階段:
- Q1:重新定義敘事(生成能力建立)
這是打基礎(chǔ)的一步。模型完成了從「圖像」到「視頻」的跨越,開(kāi)始具備對(duì)時(shí)間維度的基本理解。換句話(huà)說(shuō),它第一次能把「動(dòng)起來(lái)」這件事做對(duì)。
- Q2:看 AI 演戲(演技生成出現(xiàn))
在「能動(dòng)」的基礎(chǔ)上,重點(diǎn)開(kāi)始轉(zhuǎn)向「怎么動(dòng)更像人」。人物的表情、肢體、情緒變化被進(jìn)一步刻畫(huà),早期那種明顯的僵硬感被大幅削弱,也讓「看 AI 演戲」這件事第一次變得有點(diǎn)成立。 但問(wèn)題也在這里:會(huì)演戲,并不等于能拍一整段戲。
- Q3:為劇而生(進(jìn)入內(nèi)容生產(chǎn)階段)
到了這一階段,目標(biāo)不再是單個(gè)片段,而是「能不能講完整一段內(nèi)容」。模型開(kāi)始同時(shí)處理時(shí)長(zhǎng)、連貫性和鏡頭之間的關(guān)系,輸出的不再只是素材,而是已經(jīng)具備基本敘事結(jié)構(gòu)的片段,可以直接進(jìn)入實(shí)際制作流程。
具體到這次 Q3 的更新,可以把它理解為兩個(gè)方向上的進(jìn)一步推進(jìn):
「參考生成」從功能點(diǎn)變成生產(chǎn)方式
在實(shí)際內(nèi)容制作中,一個(gè)長(zhǎng)期存在的問(wèn)題是:同一個(gè)人、同一個(gè)場(chǎng)景,能不能一直長(zhǎng)得一樣。
Vidu Q3 在這里做的,不只是「優(yōu)化一致性」,而是把「參考生成」這件事,往更接近生產(chǎn)流程的方向推進(jìn)了一步。
現(xiàn)在,人物、場(chǎng)景、服裝這些元素,可以被當(dāng)作「參考錨點(diǎn)」固定下來(lái)。創(chuàng)作者不需要每次都從頭生成,而是可以把這些形象當(dāng)作可復(fù)用的「資產(chǎn)」,在不同鏡頭、不同動(dòng)作里反復(fù)調(diào)用。
更關(guān)鍵的是,這種「參考」正在被進(jìn)一步泛化,從「參考一個(gè)角色」,擴(kuò)展為「參考一切可被復(fù)用的內(nèi)容要素」。人物可以參、場(chǎng)景可以參、鏡頭構(gòu)圖可以參,甚至連一段情緒、一種風(fēng)格,都可以被抽象成可調(diào)用的「生產(chǎn)條件」。
換句話(huà)說(shuō),Vidu Q3 想做的,不只是「讓畫(huà)面一致」,而是把「萬(wàn)物可參」變成一種新的內(nèi)容生產(chǎn)范式。
這背后帶來(lái)的變化是:AI 視頻不再是一次性的隨機(jī)產(chǎn)出,而開(kāi)始具備穩(wěn)定復(fù)現(xiàn)、持續(xù)迭代的「可控生產(chǎn)」能力。
從「畫(huà)面」走向「視聽(tīng)場(chǎng)」的整體升級(jí)
前一階段回答的是「誰(shuí)在演」,接下來(lái)要解決的,是「怎么拍、怎么聽(tīng),像不像一段完整內(nèi)容」。如果說(shuō)前者實(shí)現(xiàn)了「萬(wàn)物可參」,那么這一階段,真正落地的是「聲畫(huà)同出」
這一輪升級(jí)的核心,是把「畫(huà)面 + 聲音 + 鏡頭調(diào)度」打包成一個(gè)統(tǒng)一的視聽(tīng)系統(tǒng)。
特效層面,更貼近物理邏輯:不只是好看,而是開(kāi)始考慮水流、碰撞、光影這些變化如何和畫(huà)面節(jié)奏對(duì)上,讓特效不再是「貼上去」的,而是在時(shí)序上與動(dòng)作同步、在邏輯上自然地融入畫(huà)面。
音效層面,更接近同步生成:聲音不再完全依賴(lài)后期補(bǔ)充,環(huán)境音、動(dòng)作音、氛圍音可以和畫(huà)面一起生成,甚至能做到基本的唇形對(duì)齊,讓「畫(huà)面完成但聲音缺席」的割裂感明顯減少,減少了后期制作的負(fù)擔(dān)。
場(chǎng)景層面,更貼近實(shí)際制作習(xí)慣:針對(duì)短劇、廣告等常見(jiàn)場(chǎng)景,模型內(nèi)置了一些接近「導(dǎo)播邏輯」的處理方式,比如鏡頭切換和機(jī)位調(diào)度,讓生成結(jié)果更容易直接進(jìn)入剪輯流程。
如果放在整個(gè)制作流程中來(lái)看,這意味著模型開(kāi)始接管一部分原本屬于「后期 + 導(dǎo)演調(diào)度」的工作,而不只是生成素材本身。
實(shí)測(cè):用 Vidu Q3
導(dǎo)一出好戲,總共分幾步?
回到剛剛的短片,這段視頻具體是如何做出來(lái)的呢?
我們選擇了一個(gè)最近比較熱門(mén)的話(huà)題:大廠們紛紛將 token 用量作為員工的工作評(píng)價(jià)指標(biāo)之一,以及隨著人形機(jī)器人的發(fā)展,甚囂塵上的關(guān)于「打工人被替代」的擔(dān)憂(yōu)。基于此,我們構(gòu)思了這出賽博短片來(lái)調(diào)侃一下。
首先,我們根據(jù)設(shè)定的劇情框架,生成了主要角色的設(shè)定圖。
![]()
![]()
然后,把這幾張?jiān)O(shè)定圖直接放進(jìn) Vidu 的「主體庫(kù)」中,同時(shí)可以給角色選擇專(zhuān)屬的音色。這也是 Vidu 「參考生」的核心功能之一,它能保證后續(xù)畫(huà)面的高度一致性。這直接解決了業(yè)內(nèi)最頭疼的問(wèn)題之一:同一個(gè)人能不能一直長(zhǎng)得一樣?
![]()
準(zhǔn)備就緒,我們來(lái)到第一個(gè)畫(huà)面:主角因?yàn)?token 使用量不達(dá)標(biāo)被大廠開(kāi)除。在這里,我們使用「參考生視頻」功能,直接選擇剛剛?cè)霂?kù)的主角作為主體,然后輸入提示詞。
![]()
來(lái)看實(shí)際效果:
![]()
可以看到,畫(huà)面整體不僅與我們預(yù)設(shè)的美術(shù)畫(huà)風(fēng)完全一致,高度貼合了提示詞中的動(dòng)作內(nèi)容,并且還自帶了平滑的運(yùn)鏡。也就是說(shuō),人物一致性、基礎(chǔ)運(yùn)鏡自動(dòng)化都不再是問(wèn)題。
這就引出了我們的第二個(gè)問(wèn)題:同一個(gè)場(chǎng)景能不能一直長(zhǎng)得一樣?
以?xún)啥萎?huà)面的銜接為例,這里我們使用了 Vidu Q3 的「圖生視頻」功能。直接選取上一段畫(huà)面的最后一幀,以及下一段畫(huà)面的首幀,將它們作為首尾參考幀,然后輸入提示詞。
![]()
出來(lái)的效果非常絲滑,場(chǎng)景的空間結(jié)構(gòu)也十分穩(wěn)定:
![]()
在這里,跨鏡頭的空間一致性也得到保證。
當(dāng)然,除了參考主體,我們還可以直接參考設(shè)定的環(huán)境。
![]()
在這個(gè)畫(huà)面里,Vidu Q3 「視聽(tīng)場(chǎng)」的整體升級(jí)得到了全面體現(xiàn)。不只是畫(huà)面的穩(wěn)定,包括環(huán)境中其他背景人物的活動(dòng)、主人公的腳步聲、推門(mén)而入的開(kāi)門(mén)聲等環(huán)境音效,都匹配得非常準(zhǔn)確,直接省去了大量后期擬音的工作。
![]()
下面這個(gè)鏡頭難度升級(jí):畫(huà)面中同時(shí)存在兩個(gè)角色主體,并且還指定了「鏡頭上搖」這樣的復(fù)雜運(yùn)鏡,Vidu Q3 參考生表現(xiàn)如何呢?
![]()
實(shí)測(cè)證明,這對(duì) Vidu Q3 來(lái)說(shuō)也不在話(huà)下。兩個(gè)角色的特征依然清晰沒(méi)有混淆,機(jī)位運(yùn)動(dòng)也精準(zhǔn)執(zhí)行了指令:
![]()
開(kāi)頭的整支短片,都是按照上述步驟一步步制作完成的。下面的操作就不多贅述了,從實(shí)際體驗(yàn)來(lái)看,整個(gè)工作流的操作非常簡(jiǎn)單,且易用性很高。
當(dāng)然,除了制作這類(lèi)動(dòng)漫短片,Vidu Q3 在其他商業(yè)內(nèi)容賽道上的表現(xiàn)同樣亮眼。我們看下面這段短片:
![]()
在廣告與電商營(yíng)銷(xiāo)方面:品牌方可以將核心產(chǎn)品或模特固化在「主體庫(kù)」中,快速生成適配不同背景、不同創(chuàng)意的多版本營(yíng)銷(xiāo)短片。不僅人物與風(fēng)格統(tǒng)一可控,還能極大提升 A/B 測(cè)試素材的跑量效率。
而在真人短劇方面:
![]()
Vidu Q3 內(nèi)置的導(dǎo)播邏輯能很好地適應(yīng)劇集高頻機(jī)位切換的需求。基于多鏡頭連貫生成能力,它能幫助制作團(tuán)隊(duì)大幅降低拍攝成本,將更新周期從「月更」極限壓縮至「日更」,真正實(shí)現(xiàn) AI 驅(qū)動(dòng)的內(nèi)容工業(yè)化生產(chǎn)。
更實(shí)在的是,目前如果與 Vidu 企業(yè)合作 AI 真人劇,團(tuán)隊(duì)還有機(jī)會(huì)獲得積分投資及共同宣發(fā)等生態(tài)權(quán)益,相當(dāng)于直接從工具層幫創(chuàng)作者打通了商業(yè)閉環(huán)。某種程度上,它正在從工具,延伸到內(nèi)容生產(chǎn)生態(tài)的一部分。
另外,此次 Q3 在視聽(tīng)能力上的系統(tǒng)性升級(jí),也貫穿了整個(gè)生成過(guò)程。
基于內(nèi)建的6 大特效引擎(粒子、流體、動(dòng)力學(xué)、運(yùn)鏡、轉(zhuǎn)場(chǎng)、光影)與 5 大音效矩陣(環(huán)境、動(dòng)態(tài)、氛圍、擬音、情緒),模型能夠更自然地表達(dá)情緒變化與劇情推進(jìn)。
![]()
結(jié)語(yǔ)
綜合來(lái)看,Vidu Q3 的這輪升級(jí),并不只是參數(shù)或效果層面的提升,而是一次更關(guān)鍵的位置遷移:大模型,正在從內(nèi)容生產(chǎn)的「靈感工具」,走向真正進(jìn)入生產(chǎn)鏈路的「工業(yè)工具」。
這種變化,已經(jīng)在多個(gè)內(nèi)容賽道中變得非常具體:
正如我們?cè)谇懊娴膶?shí)測(cè)與場(chǎng)景演示中所看到的,無(wú)論是短劇的高頻迭代,還是廣告的批量規(guī)模化產(chǎn)出,這種變化已經(jīng)可以用實(shí)實(shí)在在的「算賬」來(lái)衡量商業(yè)價(jià)值。而更深遠(yuǎn)的影響在于,Vidu Q3 正在把影視內(nèi)容工業(yè)里最昂貴的「試錯(cuò)成本」無(wú)限前置。
以傳統(tǒng)影視制作為例,文本劇本現(xiàn)在可以被快速、低成本地轉(zhuǎn)化為高視聽(tīng)表現(xiàn)力的動(dòng)態(tài)分鏡。導(dǎo)演和主創(chuàng)團(tuán)隊(duì)能夠在正式砸下重金開(kāi)機(jī)之前,就對(duì)光影基調(diào)、鏡頭語(yǔ)言與場(chǎng)景氛圍形成直觀判斷,這不僅大幅降低了后期的返工成本,也在重塑跨部門(mén)協(xié)作的溝通標(biāo)準(zhǔn)。
為了讓這些能力真正做到「即插即用」,生數(shù)科技這次不僅升級(jí)了模型,更直接端出了「Q3 全家桶」。
Vidu Q3 已完整覆蓋文生、圖生與參考生三大能力,以 Q3 模型為核心底座,Vidu SaaS(Vidu Agent、Vidu Claw)、Vidu MaaS(Vidu AI 開(kāi)放平臺(tái),Vidu.API)全面接入核心能力,形成了一個(gè)覆蓋多場(chǎng)景創(chuàng)作、生產(chǎn)與交付的一體化服務(wù)體系。Vidu MaaS 服務(wù)具備 0 門(mén)檻接入、極致性?xún)r(jià)比、切鏡自然合理、生成速度快等優(yōu)勢(shì),同時(shí)支持提示詞調(diào)優(yōu)、工作流適配及專(zhuān)項(xiàng)培訓(xùn)服務(wù),在高峰期也能保持穩(wěn)定流暢的使用體驗(yàn)。無(wú)論你是想快速做個(gè)創(chuàng)意驗(yàn)證,還是直接投入工業(yè)化制作,都可以在這套統(tǒng)一的能力底座上獲得更完整、更高效的使用體驗(yàn)。
視頻大模型正在逐漸褪去「玩具」屬性,向著具備高確定性的生產(chǎn)基礎(chǔ)設(shè)施邁進(jìn)。而那個(gè)「參考生之王」 Vidu,顯然已經(jīng)做好了全面落地的準(zhǔn)備。
目前,最新的 Q3 參考生功能已正式上線。歡迎登陸 Vidu.cn 或通過(guò) Vidu.API 快速體驗(yàn)(注冊(cè)時(shí)可輸入邀請(qǐng)碼:JQZXN3,即可獲得 500 積分),開(kāi)啟你的「為劇而生」之旅。
文中視頻鏈接:https://mp.weixin.qq.com/s/H7X6TGLLiBUFenEsC_lPzA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.