網易首頁 > 網易號 > 正文申請入駐

比「小龍蝦」更能打，中國AI視頻大模型悄悄登頂全球第一

2026-03-19 14:43:20　來源: 機器之心Pro

北京舉報

分享至

編輯｜楊文

「你是否在雪山救過一只狐貍？」

「你是那只狐貍？」

「我是那只醬板鴨！」

最近網上沖浪，刷到了大量「雪山救狐」的 AI 二創視頻。

這原本是個很老套的民間故事，樵夫大雪天救了一只快凍僵的狐貍，喂它吃的、幫它取暖，等著狐貍日后化成人形來報恩。

結果網友拿 AI 把劇情狠狠反轉，樵夫等來的不是什么漂亮狐仙，而是當時隨手留下的醬板鴨、核彈等離譜的東西，它們全都成了精找上門來復仇。

更有人將其與近來大火的 OpenClaw（江湖俗稱「小龍蝦」）聯動，吐槽「小龍蝦」聽不懂人話。

視頻來自視頻號博主「隨波逐流 3.0」

AI 視頻生成的門檻，已低到人人皆可玩梗的程度。

就在大家忙著整活時，一家中國公司的 AI 視頻模型卻悄悄打到了全球第一。

今年 2 月，昆侖萬維旗下 SkyReels-V4 Preview 版，在權威第三方評測平臺 Artificial Analysis 的全球視頻生成排行榜中登上全球第二，超越了 OpenAI 的 Sora 2 和 Google 的 Veo 3.1。

不到一個月，SkyReels-V4 在文生視頻（帶音頻) 榜單中登頂全球第一，超越 Sora 2、Veo 3.1、Seedance 2.0 等一眾國際頂尖模型，成為全球 AI 視頻生成能力最強的大模型。

圖片來源：Artificial Analysis 榜單

Artificial Analysis 是目前業內最具公信力的 AI 模型評測平臺之一，其視頻榜單采用公開競技場機制，由全球真實用戶進行盲測對比，通過大量 Elo 積分制兩兩比較計算排名，更能反映模型在真實場景中的綜合表現。

據了解，SkyReels-V4 將于 3 月 27 日在中關村論壇正式亮相

官網鏈接：https://www.skyreels.ai
API 鏈接：https://www.skyreels.ai/api-platform

出片實錄：AI 短劇的門檻又低了一截

相比于上個版本，SkyReels V4 通過全模態強化學習大幅提升了模型的語義理解和整體邏輯能力，并新增多幀參考與網格參考兩項高階任務，重點補強了角色一致性和長敘事視頻的生成穩定性。

先來看看它的基礎生成能力

這段多鏡頭戰爭戲的提示詞比較復雜，從城市天際線的航拍俯沖，到街道上的士兵沖鋒，再到不同角色的中近景和特寫，涉及 6 個鏡頭切換。

SkyReels-V4 整體完成度蠻高，鏡頭切換很有節奏，角色能在不同景別間保持外形一致，配樂和音效也隨畫面情緒自動適配。

下面這個賽博朋克飛船穿城的片段，需要攝像機始終鎖定飛船，模擬跟拍視角，同時還原飛船穿行于樓宇時的劇烈滾轉和藍色尾焰光暈。

這類場景對速度感和光影氛圍要求極高。生成結果中，飛船運動軌跡流暢，頗有科幻大片質感。

SkyReels-V4 同樣支持首幀參考（圖生視頻）

以 Hello Kitty 滑雪為例，模型既要保持角色的標志性外觀，又要完成 360 度空中旋轉、落地瞬間雪霧彌漫等復雜動作序列。

總體來看，模型對首幀的錨定能力相當穩定，角色在整段視頻中保持連貫，未出現常見的「幀間漂移」，復雜動作切換也處理得干凈。

Prompt：@圖片 - 1 中的 @Hello-Kitty 猛然蹬離雪面，沿陡坡急速滑降，粉雪在身后飛濺。鏡頭動態跟拍，捕捉她沖上天然跳臺騰空而起。此時，慢動作鏡頭中 @Hello-Kitty 在藍天下完成完美的 360 度空中旋轉，四肢舒展，滑雪板劃出優美弧線。接著，鏡頭急切至低角度地面視角，@Hello-Kitty 急速下落，滑雪板深扎粉雪，激起大片雪霧幾乎遮蔽畫面。雪霧散去，@Hello-Kitty 穩穩站立，完美落地，身后是陽光下壯麗的連綿雪山。

AI 短劇近來炒得火熱。DataEye 數據顯示，2026 年短劇春節檔 86.7 億的總播放量中，AI 漫劇占比已接近三成，不少作品播放量突破億次。

事實上，使用 SkyReels-V4 的多圖片參考功能，上傳男女主形象并寫好提示詞，便能制作一段多鏡頭對話短劇。

Prompt：這段具有沖突感的短劇畫面展現了古色古香的室內博弈。視頻建立在光影幽暗的室內空間，中景聚焦于#演員_1，她神情局促地低頭看著手中的白瓷茶盞。在她身側，# 演員_2 側頭注視著她，背景是模糊的室內木質陳設，空間內縈繞著 < bgm > 深沉壓抑且帶有急促鼓點節奏的背景音樂，營造出劍拔弩張的緊張氛圍。鏡頭隨后切換至#演員_2 的斜側面特寫，他神色冷峻，眉宇間帶著審視，語速緩慢而有力地詢問道，，緊接著補充問，。此時響起 < sfx > 衣物摩挲的細微聲響。隨后視角轉向#演員_1 的面部特寫，她不安地皺起眉頭，眼神閃爍，用略帶遲疑且顫抖的聲音回答，。緊接著畫面再次切回至#演員_2，他保持靜止，用深邃的目光鎖定對方，等待其后續說明。最后鏡頭又一次轉回#演員_1 的近景，她避開了對方的視線，神情越發慌亂，小聲辯解道，，雙手因緊張而微微收緊。

藥方中的龍骨

才幾兩

好像... 好像是二兩吧

時間太久，有點記不清

在這段古裝戲中，男主的審問語氣和女主慌亂神情通過面部微表情和手部動作得到細膩呈現，臺詞口型也完全對得上。

SkyReels-V4 還能生成多語言臺詞，英語、法語、日語乃至臺灣腔，均能駕馭。

Prompt：電影級的鏡頭語言下，場景展開于一間光影迷離、氛圍感十足的咖啡廳內。前景中是 @演員_2 的模糊背影，中景焦點對準了正在傾談的 @演員_1。@演員_1 眼神中流露出真誠，神情略帶疲憊地說道。鏡頭切換至 180 度的反向角度，視角越過 @演員_1 的肩膀，清晰展現出 @演員_2 的面部特寫。她雙手捧著一個裝有黃色檸檬片和白吸管的透明玻璃杯，目光審視而溫柔，輕聲詢問。緊接著，視角再次轉換切回 @演員_1 的近景，背景中虛化的咖啡廳燈光如光斑般點綴。他神色自若地繼續解釋，眉宇間透著一絲藝術家的矜持，。隨后，畫面再次切回反向角度的 @演員_2，她微微挑起眉毛，露出一絲意外且感興趣的神情回應道。整個序列通過精準的正反打剪輯，捕捉了兩人細膩的情緒流。

J'ai besoin d'argent et puis de toute fa?on j'adore partir sur la route alors.

Vous jouez quoi ?

De la guitare, du synthé. J'ai fait le conservatoire. Piano.

Ah bon ?

它生成的法語版短劇片段，不僅正確執行了正反打的鏡頭邏輯，法語臺詞的口型同步精度也超出預期。

運動參考測試則直接上傳一段舞蹈視頻，外加一張小男孩和白狐的圖片，讓模型把舞步遷移到兩個新角色身上。

結果顯示，動作遷移后的視頻在關鍵動作節點上與原視頻保持了同步，角色風格遷移自然，整體運動節奏也沒斷裂。

此外，SkyReels-V4 還支持視頻編輯，涵蓋局部添加、區域刪除、去臺詞、去水印等常見場景。

比如從一段電影片段中移除前景人物，同時完成背景修復。在 SkyReels-V4 的處理下，被移除區域的工作臺得到了合理補全，沒有出現明顯的殘影或拼接痕跡。

Prompt：Remove the person in a brown long-sleeve shirt seated at the workbench and the person in a black t-shirt walking toward the workbench from @video_1.

多幀或網格圖參考是此次 SkyReels-V4 新增的能力，也是最貼近短劇工業化生產場景的功能。

在多幀圖參考中，上傳三張綠色幼龍與紅色火龍的劇情關鍵幀，要求模型按照圖片順序生成。SkyReels-V4 在三個關鍵節點上忠實還原了圖片內容，并自然「腦補」出中間的過渡畫面。

多幀圖參考。Prompt：視頻開始于一只綠色幼龍和紅色火龍在篝火旁對話。隨后鏡頭切換至 @圖片 - 1，綠色幼龍從紅色火龍手中遞過一份證書；隨后鏡頭切換至 @圖片 - 2，綠色幼龍噴出火焰燒毀了證書；最后鏡頭切換至 @圖片 - 33，綠色幼龍和紅色火龍露出沮喪的表情。

或者直接上傳一張動漫四格圖，讓 SkyReels-V4 按從上到下、從左到右的順序展開成動畫短片。

模型對四格敘事節奏的理解準確，生成的短片敘事連貫，沒有把四格簡單理解成四個孤立鏡頭的拼接。

Prompt：根據 @圖片 - 1 中的動漫情節，按從上到下、從左到右的順序自然過渡展開，生成一個動畫短片。

技術解讀：兩大核心突破，撐起登頂底氣

SkyReels-V4 在 Preview 版基礎上進行了全面升級，沿用雙流架構解決音畫同步核心問題的同時，也帶來了兩大并行核心變革。

其一，全模態強化學習體系全面升級。傳統擴散模型長期存在一個行業痛點，重局部像素生成，輕整體語義邏輯、物理常識與敘事連貫性。針對這一問題，SkyReels-V4 搭建了一套完整的強化學習體系。

一方面構建全模態語義 Reward 模型，覆蓋文生視頻、圖生視頻、視頻編輯、音視頻對齊全場景，為生成提供全局精準的實時反饋；另一方面采用階梯式課程強化學習路徑，從分辨率與時長、任務復雜度、數據難度三個維度循序漸進，讓模型由簡入繁掌握復雜能力，最終實現 1080p、15 秒商用長序列生成，以及多任務大一統的能力框架。

該體系還帶來了極強的跨任務泛化性，模型習得的視頻生成底層通用規律，可在不同任務間自由遷移。

其二，新增兩大高階參考任務。本次升級新增關鍵幀參考與九宮格參考能力，全面提升視頻生成的穩定性與靈活性。關鍵幀參考能力可基于用戶給定的多節點關鍵幀，精準推演邏輯嚴密、動作連貫的中間畫面，實現極強的時空補完能力；專為短劇生成打造的九宮格參考能力，支持用戶上傳至多 9 張劇情關鍵幀，模型可穩定提取并保留角色特征與場景風格，生成邏輯完整、角色與場景全程連貫的敘事視頻，直接解決了短劇生成中角色走形、場景跳躍的行業痛點。

論文地址：https://arxiv.org/pdf/2602.21818

在架構設計上，SkyReels-V4 采用了創新的MMDiT結構。該結構包含兩個并行的分支，分別負責視頻合成與音頻生成。

為了實現音畫同步，模型在每個 Transformer 塊中都嵌入了雙向跨注意力（Cross-Attention）機制，確保音頻特征能夠感知視覺動態，反之亦然。

此外，模型共享了一個基于多模態大語言模型（MLLM）的強力文本編碼器，使其能夠理解包括文本、參考圖、參考視頻片段在內的極其復雜的組合指令。

技術上的另一大亮點，是其統一的通道連接（Channel Concatenation）公式。研發團隊巧妙地將圖像轉視頻、視頻擴展及編輯任務建模為不同配置下的「視頻補全」問題。通過將噪聲視頻潛向量、條件幀和二進制掩碼在通道維度進行拼接，模型可以在同一個界面下靈活處理多種生成工作流。

同時，模型引入了帶偏移的 3D RoPE ，不僅解決了不同時域分辨率的音視頻對齊問題，還使得模型能夠從參考視覺中進行「上下文學習」，精準捕捉人物身份特征或復雜的運動軌跡。

針對高分辨率長視頻生成帶來的計算挑戰，論文提出了一種極具工程參考價值的高效方案：基礎模型首先生成低分辨率的完整序列和高分辨率的關鍵幀，隨后由專門的超分辨率與幀插值模塊進行細節重塑。該幀插值模塊引入了視頻稀疏注意力（VSA）機制，通過分級聚合時空特征，在維持硬件運行效率的同時，將注意力計算成本降低了約 3 倍。

實驗結果顯示，SkyReels-V4 在 Artificial Analysis Arena 等公開榜單中取得了當前 SOTA 成績。在面向音視頻綜合素質的 SkyReels-VABench 人類評估中，其在指令遵循能力、運動質量以及多鏡頭敘事連貫性方面，甚至超越了部分知名閉源商業系統。

SkyReels-V4 的成功，不僅在于電影感的畫質呈現，更在于它通過統一的底層框架，為多模態內容創作提供了一套功能全面、高度可控的生產工具。

結語

一個模型能打贏榜單，證明它在評測維度上足夠強，但能不能真正產業落地，取決于它是否解決了真實生產流程里的問題。

昆侖萬維將 SkyReels-V4 直接嵌入自己的內容生產中。自 2024 年 12 月宣布 5 億美金入局海外短劇以來，僅用一年便實現跨越式突破。旗下付費平臺 DramaWave 與免費平臺 FreeReels 攜手站穩海外短劇第一梯隊，MAU 突破 8000 萬，月流水超 4000 萬美金。DramaWave 平臺漫劇模塊上線數月，累計上架近千部 AI 劇，憑借千萬級月活與數百萬美金的月收入，強勢占據海外 AI 劇市場龍頭地位。

SkyReels-V4 的能力已覆蓋短劇、影視、廣告、數字人等主流內容形態，統一的生成接口意味著同一套基礎設施可以服務不同的生產場景，無需再為每種需求單獨搭建技術棧。

從更大的視角來看，這次登頂發生的時間節點頗具意味。2 月 Preview 版全球第二、3 月升級版全球第一，前后不到一個月。背后的壓力不難想象，全球頭部 AI 實驗室都在這條賽道上高強度投入，幾乎每隔幾周就有新模型上線刷新排行。

在這樣的節奏里，中國團隊能以如此步頻持續推進，本身就是一種能力的證明。

文中視頻鏈接：https://mp.weixin.qq.com/s/FxXd3Ay8NknHuDk-QbX7GA

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.