網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)參考生之王Vidu Q3:這已經(jīng)不叫AI生成了,這叫AI驅(qū)動(dòng)整個(gè)劇組

2026-04-15 14:16:19　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜+0

話(huà)不多說(shuō)，先來(lái)看一段短片。

大家覺(jué)得效果如何？以上短片的視聽(tīng)內(nèi)容幾乎都由生數(shù)科技最新發(fā)布的視頻大模型 Vidu Q3 生成。

4 月 13 日，Vidu Q3 正式上線了「參考生視頻」。值得注意的是，在全球首個(gè)參考生榜單 SuperClue 榜單上，Vidu Q3 斷層登頂！多圖/單圖參考任務(wù)雙榜第一。

過(guò)去一個(gè)月，如果你刷過(guò)短視頻平臺(tái)，大概率已經(jīng)見(jiàn)過(guò)一種越來(lái)越「怪」的內(nèi)容：劇情很抓人、更新很快，但仔細(xì)一看，演員不太對(duì)勁。

有新聞熱議未來(lái)可能有短劇除了主角，配角全部由 AI 生成；有的公司，甚至已經(jīng)開(kāi)始「簽約 AI 演員」，批量生產(chǎn)內(nèi)容；還有最近爆火的「AI 漫劇」，用極低成本實(shí)現(xiàn)日更甚至多更，播放量動(dòng)輒破百萬(wàn)。

紅果漫劇界面。

一邊是效率狂飆，一邊是爭(zhēng)議不斷。

有人覺(jué)得這是內(nèi)容工業(yè)化的下一步，把演員、場(chǎng)景、鏡頭全部模塊化，內(nèi)容可以像流水線一樣生產(chǎn)；也有人批評(píng)，這樣的作品「沒(méi)有靈魂」，甚至在侵蝕創(chuàng)作者和演員的空間。

但不管立場(chǎng)如何，有一個(gè)變化已經(jīng)很明確：AI 正在從「幫你做一段視頻」，變成「替你完成一整段內(nèi)容」。

而這，恰恰也是視頻大模型這半年最關(guān)鍵的一次轉(zhuǎn)向，行業(yè)不再只關(guān)心「生成得像不像」，而開(kāi)始關(guān)心一件更現(xiàn)實(shí)的事：這些內(nèi)容，能不能直接拿去用？

在這個(gè)背景下，Vidu Q3 的這次升級(jí)，是一次順勢(shì)而為的迭代。它并沒(méi)有停留在單鏡頭質(zhì)量的優(yōu)化上，而是把重點(diǎn)放在了更長(zhǎng)時(shí)間跨度里的穩(wěn)定性，包括畫(huà)面的一致性、邏輯的連貫性，以及多鏡頭之間的銜接。

這些能力，正好對(duì)應(yīng)的是內(nèi)容生產(chǎn)里最「難自動(dòng)化」的那一段。

也因此，這次發(fā)布傳遞的信息很明確：Vidu Q3 不再只是一個(gè)「生成視頻」的工具，而是開(kāi)始試圖嵌入到完整的內(nèi)容生產(chǎn)流程中。

某種程度上，它正在從「素材生成器」，變成「最小化的劇組單元」。這種深度的生產(chǎn)力進(jìn)化，正是 Vidu Q3 「為劇而生」的終極奧義。

從「生成視頻」到「萬(wàn)物可參，聲畫(huà)同出」，

Vidu Q3 在改什么？

如果把生成式視頻的發(fā)展過(guò)程拆開(kāi)來(lái)看，本質(zhì)上是在做一件事：把人類(lèi)的視覺(jué)語(yǔ)言和敘事邏輯，一點(diǎn)點(diǎn)拆解出來(lái)，再變成可以被模型調(diào)用的能力。

放到 Vidu 的演進(jìn)路徑里，這個(gè)過(guò)程也很清晰，可以大致分成三個(gè)階段：

Q1：重新定義敘事（生成能力建立）

這是打基礎(chǔ)的一步。模型完成了從「圖像」到「視頻」的跨越，開(kāi)始具備對(duì)時(shí)間維度的基本理解。換句話(huà)說(shuō)，它第一次能把「動(dòng)起來(lái)」這件事做對(duì)。

Q2：看 AI 演戲（演技生成出現(xiàn)）

在「能動(dòng)」的基礎(chǔ)上，重點(diǎn)開(kāi)始轉(zhuǎn)向「怎么動(dòng)更像人」。人物的表情、肢體、情緒變化被進(jìn)一步刻畫(huà)，早期那種明顯的僵硬感被大幅削弱，也讓「看 AI 演戲」這件事第一次變得有點(diǎn)成立。但問(wèn)題也在這里：會(huì)演戲，并不等于能拍一整段戲。

Q3：為劇而生（進(jìn)入內(nèi)容生產(chǎn)階段）

到了這一階段，目標(biāo)不再是單個(gè)片段，而是「能不能講完整一段內(nèi)容」。模型開(kāi)始同時(shí)處理時(shí)長(zhǎng)、連貫性和鏡頭之間的關(guān)系，輸出的不再只是素材，而是已經(jīng)具備基本敘事結(jié)構(gòu)的片段，可以直接進(jìn)入實(shí)際制作流程。

具體到這次 Q3 的更新，可以把它理解為兩個(gè)方向上的進(jìn)一步推進(jìn)：

「參考生成」從功能點(diǎn)變成生產(chǎn)方式

在實(shí)際內(nèi)容制作中，一個(gè)長(zhǎng)期存在的問(wèn)題是：同一個(gè)人、同一個(gè)場(chǎng)景，能不能一直長(zhǎng)得一樣。

Vidu Q3 在這里做的，不只是「優(yōu)化一致性」，而是把「參考生成」這件事，往更接近生產(chǎn)流程的方向推進(jìn)了一步。

現(xiàn)在，人物、場(chǎng)景、服裝這些元素，可以被當(dāng)作「參考錨點(diǎn)」固定下來(lái)。創(chuàng)作者不需要每次都從頭生成，而是可以把這些形象當(dāng)作可復(fù)用的「資產(chǎn)」，在不同鏡頭、不同動(dòng)作里反復(fù)調(diào)用。

更關(guān)鍵的是，這種「參考」正在被進(jìn)一步泛化，從「參考一個(gè)角色」，擴(kuò)展為「參考一切可被復(fù)用的內(nèi)容要素」。人物可以參、場(chǎng)景可以參、鏡頭構(gòu)圖可以參，甚至連一段情緒、一種風(fēng)格，都可以被抽象成可調(diào)用的「生產(chǎn)條件」。

換句話(huà)說(shuō)，Vidu Q3 想做的，不只是「讓畫(huà)面一致」，而是把「萬(wàn)物可參」變成一種新的內(nèi)容生產(chǎn)范式。

這背后帶來(lái)的變化是：AI 視頻不再是一次性的隨機(jī)產(chǎn)出，而開(kāi)始具備穩(wěn)定復(fù)現(xiàn)、持續(xù)迭代的「可控生產(chǎn)」能力。

從「畫(huà)面」走向「視聽(tīng)場(chǎng)」的整體升級(jí)

前一階段回答的是「誰(shuí)在演」，接下來(lái)要解決的，是「怎么拍、怎么聽(tīng)，像不像一段完整內(nèi)容」。如果說(shuō)前者實(shí)現(xiàn)了「萬(wàn)物可參」，那么這一階段，真正落地的是「聲畫(huà)同出」

這一輪升級(jí)的核心，是把「畫(huà)面 + 聲音 + 鏡頭調(diào)度」打包成一個(gè)統(tǒng)一的視聽(tīng)系統(tǒng)。

特效層面，更貼近物理邏輯：不只是好看，而是開(kāi)始考慮水流、碰撞、光影這些變化如何和畫(huà)面節(jié)奏對(duì)上，讓特效不再是「貼上去」的，而是在時(shí)序上與動(dòng)作同步、在邏輯上自然地融入畫(huà)面。

音效層面，更接近同步生成：聲音不再完全依賴(lài)后期補(bǔ)充，環(huán)境音、動(dòng)作音、氛圍音可以和畫(huà)面一起生成，甚至能做到基本的唇形對(duì)齊，讓「畫(huà)面完成但聲音缺席」的割裂感明顯減少，減少了后期制作的負(fù)擔(dān)。

場(chǎng)景層面，更貼近實(shí)際制作習(xí)慣：針對(duì)短劇、廣告等常見(jiàn)場(chǎng)景，模型內(nèi)置了一些接近「導(dǎo)播邏輯」的處理方式，比如鏡頭切換和機(jī)位調(diào)度，讓生成結(jié)果更容易直接進(jìn)入剪輯流程。

如果放在整個(gè)制作流程中來(lái)看，這意味著模型開(kāi)始接管一部分原本屬于「后期 + 導(dǎo)演調(diào)度」的工作，而不只是生成素材本身。

實(shí)測(cè)：用 Vidu Q3

導(dǎo)一出好戲，總共分幾步？

回到剛剛的短片，這段視頻具體是如何做出來(lái)的呢？

我們選擇了一個(gè)最近比較熱門(mén)的話(huà)題：大廠們紛紛將 token 用量作為員工的工作評(píng)價(jià)指標(biāo)之一，以及隨著人形機(jī)器人的發(fā)展，甚囂塵上的關(guān)于「打工人被替代」的擔(dān)憂(yōu)。基于此，我們構(gòu)思了這出賽博短片來(lái)調(diào)侃一下。

首先，我們根據(jù)設(shè)定的劇情框架，生成了主要角色的設(shè)定圖。

然后，把這幾張?jiān)O(shè)定圖直接放進(jìn) Vidu 的「主體庫(kù)」中，同時(shí)可以給角色選擇專(zhuān)屬的音色。這也是 Vidu 「參考生」的核心功能之一，它能保證后續(xù)畫(huà)面的高度一致性。這直接解決了業(yè)內(nèi)最頭疼的問(wèn)題之一：同一個(gè)人能不能一直長(zhǎng)得一樣？

準(zhǔn)備就緒，我們來(lái)到第一個(gè)畫(huà)面：主角因?yàn)?token 使用量不達(dá)標(biāo)被大廠開(kāi)除。在這里，我們使用「參考生視頻」功能，直接選擇剛剛?cè)霂?kù)的主角作為主體，然后輸入提示詞。

來(lái)看實(shí)際效果：

可以看到，畫(huà)面整體不僅與我們預(yù)設(shè)的美術(shù)畫(huà)風(fēng)完全一致，高度貼合了提示詞中的動(dòng)作內(nèi)容，并且還自帶了平滑的運(yùn)鏡。也就是說(shuō)，人物一致性、基礎(chǔ)運(yùn)鏡自動(dòng)化都不再是問(wèn)題。

這就引出了我們的第二個(gè)問(wèn)題：同一個(gè)場(chǎng)景能不能一直長(zhǎng)得一樣？

以?xún)啥萎?huà)面的銜接為例，這里我們使用了 Vidu Q3 的「圖生視頻」功能。直接選取上一段畫(huà)面的最后一幀，以及下一段畫(huà)面的首幀，將它們作為首尾參考幀，然后輸入提示詞。

出來(lái)的效果非常絲滑，場(chǎng)景的空間結(jié)構(gòu)也十分穩(wěn)定：

在這里，跨鏡頭的空間一致性也得到保證。

當(dāng)然，除了參考主體，我們還可以直接參考設(shè)定的環(huán)境。

在這個(gè)畫(huà)面里，Vidu Q3 「視聽(tīng)場(chǎng)」的整體升級(jí)得到了全面體現(xiàn)。不只是畫(huà)面的穩(wěn)定，包括環(huán)境中其他背景人物的活動(dòng)、主人公的腳步聲、推門(mén)而入的開(kāi)門(mén)聲等環(huán)境音效，都匹配得非常準(zhǔn)確，直接省去了大量后期擬音的工作。

下面這個(gè)鏡頭難度升級(jí)：畫(huà)面中同時(shí)存在兩個(gè)角色主體，并且還指定了「鏡頭上搖」這樣的復(fù)雜運(yùn)鏡，Vidu Q3 參考生表現(xiàn)如何呢？

實(shí)測(cè)證明，這對(duì) Vidu Q3 來(lái)說(shuō)也不在話(huà)下。兩個(gè)角色的特征依然清晰沒(méi)有混淆，機(jī)位運(yùn)動(dòng)也精準(zhǔn)執(zhí)行了指令：

開(kāi)頭的整支短片，都是按照上述步驟一步步制作完成的。下面的操作就不多贅述了，從實(shí)際體驗(yàn)來(lái)看，整個(gè)工作流的操作非常簡(jiǎn)單，且易用性很高。

當(dāng)然，除了制作這類(lèi)動(dòng)漫短片，Vidu Q3 在其他商業(yè)內(nèi)容賽道上的表現(xiàn)同樣亮眼。我們看下面這段短片：

在廣告與電商營(yíng)銷(xiāo)方面：品牌方可以將核心產(chǎn)品或模特固化在「主體庫(kù)」中，快速生成適配不同背景、不同創(chuàng)意的多版本營(yíng)銷(xiāo)短片。不僅人物與風(fēng)格統(tǒng)一可控，還能極大提升 A/B 測(cè)試素材的跑量效率。

而在真人短劇方面：

Vidu Q3 內(nèi)置的導(dǎo)播邏輯能很好地適應(yīng)劇集高頻機(jī)位切換的需求。基于多鏡頭連貫生成能力，它能幫助制作團(tuán)隊(duì)大幅降低拍攝成本，將更新周期從「月更」極限壓縮至「日更」，真正實(shí)現(xiàn) AI 驅(qū)動(dòng)的內(nèi)容工業(yè)化生產(chǎn)。

更實(shí)在的是，目前如果與 Vidu 企業(yè)合作 AI 真人劇，團(tuán)隊(duì)還有機(jī)會(huì)獲得積分投資及共同宣發(fā)等生態(tài)權(quán)益，相當(dāng)于直接從工具層幫創(chuàng)作者打通了商業(yè)閉環(huán)。某種程度上，它正在從工具，延伸到內(nèi)容生產(chǎn)生態(tài)的一部分。

另外，此次 Q3 在視聽(tīng)能力上的系統(tǒng)性升級(jí)，也貫穿了整個(gè)生成過(guò)程。

基于內(nèi)建的6 大特效引擎（粒子、流體、動(dòng)力學(xué)、運(yùn)鏡、轉(zhuǎn)場(chǎng)、光影）與 5 大音效矩陣（環(huán)境、動(dòng)態(tài)、氛圍、擬音、情緒），模型能夠更自然地表達(dá)情緒變化與劇情推進(jìn)。

結(jié)語(yǔ)

綜合來(lái)看，Vidu Q3 的這輪升級(jí)，并不只是參數(shù)或效果層面的提升，而是一次更關(guān)鍵的位置遷移：大模型，正在從內(nèi)容生產(chǎn)的「靈感工具」，走向真正進(jìn)入生產(chǎn)鏈路的「工業(yè)工具」。

這種變化，已經(jīng)在多個(gè)內(nèi)容賽道中變得非常具體：

正如我們?cè)谇懊娴膶?shí)測(cè)與場(chǎng)景演示中所看到的，無(wú)論是短劇的高頻迭代，還是廣告的批量規(guī)模化產(chǎn)出，這種變化已經(jīng)可以用實(shí)實(shí)在在的「算賬」來(lái)衡量商業(yè)價(jià)值。而更深遠(yuǎn)的影響在于，Vidu Q3 正在把影視內(nèi)容工業(yè)里最昂貴的「試錯(cuò)成本」無(wú)限前置。

以傳統(tǒng)影視制作為例，文本劇本現(xiàn)在可以被快速、低成本地轉(zhuǎn)化為高視聽(tīng)表現(xiàn)力的動(dòng)態(tài)分鏡。導(dǎo)演和主創(chuàng)團(tuán)隊(duì)能夠在正式砸下重金開(kāi)機(jī)之前，就對(duì)光影基調(diào)、鏡頭語(yǔ)言與場(chǎng)景氛圍形成直觀判斷，這不僅大幅降低了后期的返工成本，也在重塑跨部門(mén)協(xié)作的溝通標(biāo)準(zhǔn)。

為了讓這些能力真正做到「即插即用」，生數(shù)科技這次不僅升級(jí)了模型，更直接端出了「Q3 全家桶」。

Vidu Q3 已完整覆蓋文生、圖生與參考生三大能力，以 Q3 模型為核心底座，Vidu SaaS（Vidu Agent、Vidu Claw）、Vidu MaaS（Vidu AI 開(kāi)放平臺(tái)，Vidu.API）全面接入核心能力，形成了一個(gè)覆蓋多場(chǎng)景創(chuàng)作、生產(chǎn)與交付的一體化服務(wù)體系。Vidu MaaS 服務(wù)具備 0 門(mén)檻接入、極致性?xún)r(jià)比、切鏡自然合理、生成速度快等優(yōu)勢(shì)，同時(shí)支持提示詞調(diào)優(yōu)、工作流適配及專(zhuān)項(xiàng)培訓(xùn)服務(wù)，在高峰期也能保持穩(wěn)定流暢的使用體驗(yàn)。無(wú)論你是想快速做個(gè)創(chuàng)意驗(yàn)證，還是直接投入工業(yè)化制作，都可以在這套統(tǒng)一的能力底座上獲得更完整、更高效的使用體驗(yàn)。

視頻大模型正在逐漸褪去「玩具」屬性，向著具備高確定性的生產(chǎn)基礎(chǔ)設(shè)施邁進(jìn)。而那個(gè)「參考生之王」 Vidu，顯然已經(jīng)做好了全面落地的準(zhǔn)備。

目前，最新的 Q3 參考生功能已正式上線。歡迎登陸 Vidu.cn 或通過(guò) Vidu.API 快速體驗(yàn)（注冊(cè)時(shí)可輸入邀請(qǐng)碼：JQZXN3，即可獲得 500 積分），開(kāi)啟你的「為劇而生」之旅。

文中視頻鏈接：https://mp.weixin.qq.com/s/H7X6TGLLiBUFenEsC_lPzA

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.