網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓 AI 視頻學(xué)會(huì)配音，學(xué)術(shù)界花了十年｜Vidu Q3 發(fā)布的背后

2026-02-03 23:22:44　來(lái)源: 賽博禪心

北京舉報(bào)

分享至

先看這個(gè)，一起背背單詞，Ambition，俺必勝

俺必勝 = Ambition

prompt

趣味單詞助記視頻，中國(guó)古代戰(zhàn)爭(zhēng)大片風(fēng)格（類似《三國(guó)演義》），千軍萬(wàn)馬的戰(zhàn)場(chǎng)，陰沉的天空，戰(zhàn)旗飄揚(yáng)

一位身穿重甲、滿臉胡渣的將軍緩緩拔出寶劍，舉劍指天，眼神狂熱，嘶吼：「俺！必！勝！！」

天空一道閃電劈下，畫(huà)面驟暗。黑幕中金色火焰字體燃燒而出：AMBITION，下方浮現(xiàn)中文「雄心」。渾厚男聲旁白同步朗讀：「Ambition，雄心」

Vidu 剛剛發(fā)布了 Q3，支持上了聲畫(huà)同出、文字渲染、自動(dòng)切鏡，

官網(wǎng)在這：https://www.vidu.cn/

開(kāi)發(fā)者平臺(tái)在這：https://platform.vidu.cn/

而諧音記單詞，也是把 Vidu Q3 的能力全用上了，再來(lái)一個(gè)

拍死它 = Pest

prompt

趣味單詞助記視頻，4K高清美食紀(jì)錄片風(fēng)格，極度清晰的微距鏡頭，明亮的米其林餐廳后廚 ，古典音樂(lè)舒緩

蒼蠅嗡嗡聲漸近，音樂(lè)戛然而止，蒼蠅飛入畫(huà)面降落在食物最頂端，大廚舉起巴掌，用中文大吼：「拍死它！」 手掌即將拍下瞬間，畫(huà)面定格震動(dòng)

紅色印章風(fēng)格猛然蓋上：PEST，下方顯示中文「害蟲(chóng)」

清脆女聲同步朗讀：「Pest，害蟲(chóng)」

Vidu Q3 是生數(shù)科技 1 月 30 日發(fā)布的視頻生成模型，全球首個(gè)支持 16 秒音視頻直出

在 Artificial Analysis 最新榜單中，Vidu Q3 排名中國(guó)第一，全球第二，超過(guò) Runway Gen-4.5、Google Veo 3.1 和 OpenAI Sora 2

AA text to video 榜單：2月3日截圖拍短劇視角

以前用 AI 做短劇的流程是這樣的：生成畫(huà)面，配音，配音效，剪輯

Q3 把這幾步合成一步：一次生成出視頻 + 對(duì)話 + 音效 + 背景音樂(lè)，口型自動(dòng)對(duì)上

讓我們先來(lái)看看這個(gè)搞砸了的廚師

搞砸了的廚師

prompt


Static camera from inside the oven, looking outward through the slightly fogged glass door. Warm golden light glows around freshly baked cookies. The baker’s face fills the frame, eyes wide with focus, his breath fogging the glass as he leans in. Subtle reflections move across the glass as steam rises.
Baker (whispering dramatically): “Today… I achieve perfection.”
He leans even closer, nose nearly touching the glass.
“Golden edges. Soft center...”
Baker: “Wait—”
(beat)
“Did I… forget the chocolate chips?”
Cut to side view — coworker pops into frame, chewing casually.
Coworker (mouth full): “Nope. You forgot the sugar.”
Quick zoom back to the baker’s horrified face, pressed against the oven door, as cookies deflate behind the glass. Steam drifts upward in slow motion.
pixar style acting and timing

Pixar 風(fēng)格，烤箱內(nèi)視角，兩個(gè)人一來(lái)一回的對(duì)話，表情、節(jié)奏、喜劇 timing 全在里面

一次生成，裝下一個(gè)完整的戲劇沖突

再看這個(gè)父子棒球場(chǎng)的案例，4 個(gè)鏡頭自動(dòng)切換

父子棒球場(chǎng)

prompt

Shot 1 (Establishing wide shot, 3s): The baseball field, crowd cheering, scoreboard in the distance.

Shot 2 (Medium shot, 5s): Father leans closer to his son. Father: "Which team do you think will win today?"

Shot 3 (Close-up on son, 4s): The son watches the field seriously. Son: "I think the new team they just brought in will surprise everyone."

Shot 4 (Cut back to two-shot, 3s): The father smiles and nods.

全景、中景、特寫(xiě)、雙人鏡頭，一段提示詞搞定

圖生音視頻

不只文生視頻，圖生也能聲畫(huà)同出

上傳一張圖，寫(xiě)上提示詞，完整視頻就有了，嘴型對(duì)得上，語(yǔ)氣也對(duì)，還有運(yùn)鏡

比如，讓我們先看看下面的這個(gè)

所給到的參考圖，就是下面這個(gè)

臺(tái)詞、動(dòng)作、特效、運(yùn)鏡、配樂(lè)，一次出完

說(shuō)到配樂(lè)...沒(méi)錯(cuò)，Vidu 是支持讓人物唱出來(lái)的，比如下面這個(gè)，把非洲老哥的照片丟進(jìn)去，讓他 Rap....

就真特么成了

還可以玩點(diǎn)更花里胡哨的，比如：多張分鏡圖輸入，一段完整視頻輸出，就像下面這個(gè)一樣

下面這個(gè)就是成品

分鏡變視頻

prompt


節(jié)奏：由慢到快；
1. [極特寫(xiě)] 黑色背景中，大塊可可豆被金屬磨盤(pán)碾碎，粉塵飛舞。
2. [慢動(dòng)作特寫(xiě)] 濃稠的黑巧克力漿像絲綢一樣倒入攪拌碗。
3. [特寫(xiě)] 攪拌器高速旋轉(zhuǎn)，帶起巧克力漩渦。
4. [中景加速] 蛋糕在烤箱中快速膨脹（Time-lapse 延時(shí)攝影感）。
5. [特寫(xiě)] 剛出爐的蛋糕表面撒上一層細(xì)密的糖粉。
6. [極特寫(xiě)] 銀色勺子挖開(kāi)蛋糕，內(nèi)部熱氣騰騰的巧克力巖漿流出，填滿畫(huà)面。```

我覺(jué)得，最牛逼的還是這個(gè)，Q3 還支持中、英、日三語(yǔ)對(duì)話。同一段內(nèi)容，換個(gè)語(yǔ)言標(biāo)簽就能出不同語(yǔ)種版本

然后...人物的神態(tài)，真的就分別像中國(guó)人、美國(guó)人、日本人

特么的絕了...要知道，說(shuō)不同語(yǔ)言的時(shí)候，面部肌肉到動(dòng)作是不一樣的，這里竟然能仿到很真

吃或不吃，三語(yǔ)版

prompt

中文：少女保持姿勢(shì)不變，略帶疑惑地對(duì)著鏡頭說(shuō)：吃，或者不吃。這是個(gè)很嚴(yán)肅的問(wèn)題

英文：The girl remained in the same position, looking slightly puzzled at the camera, and said: "Eat, or not eat. This is a very serious question."

日文：少女は同じ姿勢(shì)のまま、少し困惑した様子でカメラを見(jiàn)つめ、「食べるか、食べないか。これは非常に深刻な問(wèn)題です」と言った

文字渲染

Q3 可以在視頻中生成精準(zhǔn)的中、英、日文字，不會(huì)變形

prompt


水下第一視角，魚(yú)眼鏡頭，陽(yáng)光從水面斜斜射下，一道道光柱在幽藍(lán)水體中漂浮。五彩斑斕的魚(yú)群從四周聚攏，在正前方排成一排，銀光閃爍地拼出漂浮的字母：“DEEP BLUE”。字母輕輕晃動(dòng)，仿佛懸在水中發(fā)光。下方的珊瑚泛著熒光，沙地上焦散光影在流動(dòng)中扭曲。

還記得開(kāi)頭的「諧音記單詞」么？這是相同的原因：畫(huà)面里的 AMBITION 和 PEST 都是模型直接渲染出來(lái)的

聲畫(huà)同出

視頻生成模型能配音這件事，學(xué)術(shù)界研究了快十年

2016 年 MIT 做了個(gè)實(shí)驗(yàn)：給模型看敲擊不同材質(zhì)物體的視頻，讓它預(yù)測(cè)敲擊聲音。這是視覺(jué)引導(dǎo)音頻生成的起點(diǎn)

2017 年牛津 VGG 團(tuán)隊(duì)提出了一個(gè)任務(wù)：給一段視頻和一段音頻，判斷它們是不是來(lái)自同一來(lái)源。聽(tīng)起來(lái)簡(jiǎn)單，但這個(gè)自監(jiān)督目標(biāo)成了后續(xù)大量研究的基礎(chǔ)

2020 年，擴(kuò)散模型開(kāi)始崛起。DDPM 提出通過(guò)逐步去噪從隨機(jī)噪聲生成高質(zhì)量圖像，這個(gè)框架很快被擴(kuò)展到音頻領(lǐng)域

2022 年 12 月，MM-Diffusion 論文發(fā)布，學(xué)術(shù)界第一個(gè)聯(lián)合音視頻擴(kuò)散框架。核心思路是讓音頻和視頻分支共享去噪過(guò)程，同時(shí)保持各自的特征提取。這篇論文證明了一件事：音視頻可以在同一個(gè)擴(kuò)散過(guò)程中同時(shí)生成，效果比先生成視頻再配音頻的級(jí)聯(lián)方法更好

但學(xué)術(shù)模型有個(gè)問(wèn)題：只能生成 4 秒、256×256 分辨率的短視頻。商業(yè)產(chǎn)品追求高分辨率和長(zhǎng)時(shí)長(zhǎng)，音頻生成暫時(shí)擱置

2025 年 5 月，Google Veo 3 發(fā)布，首個(gè)商用原生音視頻模型。Google 把數(shù)百萬(wàn)小時(shí)的配對(duì)音視頻數(shù)據(jù)和擴(kuò)散 Transformer 架構(gòu)結(jié)合，學(xué)術(shù)和工業(yè)之間的鴻溝被跨越

然后各家快速跟進(jìn)：

時(shí)間

模型

時(shí)長(zhǎng)

Google Veo 3

8 秒

Gaga-1

10 秒

OpenAI Sora 2

15 秒

快手 Kling 2.6

10 秒

字節(jié) Seedance 1.5 Pro

12 秒

Runway Gen-4.5

10 秒

生數(shù) Vidu Q3

16 秒

補(bǔ)充說(shuō)明 OpenAI 在啟用 StoryBoard 的時(shí)候，視頻可以最長(zhǎng) 25 秒，不過(guò)那屬于工程優(yōu)化，暫時(shí)不算在這個(gè)列表里

9 個(gè)月，原生音頻從突破性創(chuàng)新變成競(jìng)爭(zhēng)標(biāo)配。Q3 的 16 秒是目前最長(zhǎng)的單次生成時(shí)長(zhǎng)

技術(shù)路線上有兩種：聯(lián)合生成，或者級(jí)聯(lián)生成

聯(lián)合生成：跑一次，音頻視頻同時(shí)出來(lái)，二者共享潛空間，完美時(shí)間對(duì)齊，但計(jì)算成本高

級(jí)聯(lián)生成：跑兩次，先出視頻，再出音頻，可以用單模態(tài)最好的模型，但可能產(chǎn)生微妙的不對(duì)齊

現(xiàn)在的競(jìng)爭(zhēng)焦點(diǎn)是：?jiǎn)未紊蓵r(shí)長(zhǎng)、對(duì)話質(zhì)量、多語(yǔ)言支持、唇形同步準(zhǔn)確度、多人場(chǎng)景處理能力

最后

收束下全文，這次 Vidu 發(fā)布了 Q3，支持文生視頻、圖生視頻，最長(zhǎng) 16 秒，聲畫(huà)同出，為劇而生

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.