網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中國(guó)AIGC「全家桶」來(lái)了！三箭齊發(fā)殺入全球第一梯隊(duì)

2026-03-27 21:38:23　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：好困犀牛

【新智元導(dǎo)讀】當(dāng)中國(guó)AI還常被貼著「追趕者」標(biāo)簽時(shí)，天工AI卻在中關(guān)村論壇一口氣拿出視頻、音樂(lè)、世界模型三張王牌，宣告中國(guó)AIGC正從單點(diǎn)突破邁向真正的全模態(tài)領(lǐng)跑。

天下苦AI「盲盒」久矣。

去問(wèn)問(wèn)游戲制作人，被吹上天的「世界模型」簡(jiǎn)直是重度失憶癥患者，角色跑三步地平線就扭曲，稍微轉(zhuǎn)個(gè)身旁邊的房子就會(huì)憑空消失。

去問(wèn)問(wèn)短劇操盤(pán)手，鏡頭剛切走男主角的西裝變成了夾克，生成的畫(huà)面全是「無(wú)聲默片」后期硬貼配音，爆炸火光亮起兩秒后才聽(tīng)到轟隆聲。

再去問(wèn)問(wèn)專業(yè)音樂(lè)人，AI作曲聽(tīng)著熱鬧但就是有塑料味。你既不能精準(zhǔn)地在第15秒加一段壓抑的大提琴，更沒(méi)法讓它在副歌前學(xué)會(huì)屏住呼吸。

AI游戲、AI視頻、AI音樂(lè)，三條最火的AIGC賽道，三個(gè)最深的行業(yè)頑疾。

3月27日，2026中關(guān)村論壇，一場(chǎng)發(fā)布會(huì)給出了三個(gè)解法。

游戲世界模型Matrix-Game 3.0、視頻大模型SkyReels V4、音樂(lè)大模型Mureka V9同時(shí)登場(chǎng)，全部殺入世界第一梯隊(duì)。

這一天，中國(guó)AIGC迎來(lái)了自己的「全模態(tài)時(shí)刻」！

三條賽道，三個(gè)頑疾，三劑解藥

殺入第一梯隊(duì)是結(jié)果，怎么把行業(yè)最頭疼的病治好的才是真的。

Matrix-Game 3.0

在生成的城市里走上一遭，回頭一切照舊

今年1月，圖靈獎(jiǎng)得主Yann LeCun專門(mén)為「世界模型」這個(gè)方向創(chuàng)了公司AMI，種子輪融了10.3億美元。

AMI首席科學(xué)官謝賽寧做出的全球首個(gè)多人世界模型Solaris，技術(shù)底座正是天工AI開(kāi)源的上一代Matrix-Game 2.0。

圖靈獎(jiǎng)得主創(chuàng)業(yè)選中的技術(shù)底座，來(lái)自這家中國(guó)公司。這本身就說(shuō)明了天工AI在這條賽道上的位置。

但2.0有一個(gè)沒(méi)解決的問(wèn)題：失憶癥。

你在AI生成的世界里走了一分鐘再回頭，房子消失了，路燈換了位置，整個(gè)世界面目全非。

3.0就是來(lái)治這個(gè)病的。

在這條秋意盎然的街道上，我們刻意讓視角穿過(guò)斑馬線，大范圍環(huán)顧四周，然后再折返回來(lái)。

注意看，鏡頭轉(zhuǎn)了一大圈重回原地，那棟頂著巨大青蛙雕像的綠色小樓原封不動(dòng)，墻上的粉紅燈籠還在，路口的綠色公交車(chē)也沒(méi)有憑空消失或扭曲變形。

看完效果，我們來(lái)拆一下背后的技術(shù)。

世界模型最大的瓶頸不是算法，是數(shù)據(jù)。

互聯(lián)網(wǎng)上的視頻只有畫(huà)面，缺少相機(jī)位姿和操作指令，AI沒(méi)法從中學(xué)會(huì)「我按了方向鍵，世界應(yīng)該怎么變」的因果關(guān)系。

Matrix-Game 3.0為此搭建了一套工業(yè)級(jí)的無(wú)限數(shù)據(jù)引擎，雙管線并行。

一條線基于Unreal Engine 5自動(dòng)生成覆蓋1000+場(chǎng)景的高精度交互數(shù)據(jù)，強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的AI Agent在場(chǎng)景中自主探索，每一幀都同步記錄視頻、6-DoF相機(jī)位姿和操作指令，毫秒級(jí)對(duì)齊。

另一條線則是從3A游戲里全自動(dòng)提取動(dòng)態(tài)交互數(shù)據(jù)，7×24小時(shí)無(wú)人值守，TB級(jí)數(shù)據(jù)持續(xù)產(chǎn)出。

世界模型要「記住」世界，首先得「見(jiàn)過(guò)」足夠多的世界。

在模型層面，Matrix-Game 3.0從三個(gè)維度做了系統(tǒng)性升級(jí)。

第一是記憶注入。

模型在生成當(dāng)前畫(huà)面時(shí)，不只看最近幾幀，還會(huì)根據(jù)相機(jī)位姿檢索出更早期的「記憶幀」，只取與當(dāng)前視角相關(guān)的內(nèi)容，放進(jìn)同一個(gè)注意力空間聯(lián)合建模。走過(guò)的路、看過(guò)的樓，模型都記得。

第二是Error Buffer抗漂移機(jī)制。

長(zhǎng)時(shí)序生成中模型會(huì)逐漸偏離真實(shí)狀態(tài)，3.0在訓(xùn)練時(shí)就顯式建模生成結(jié)果與真實(shí)幀之間的誤差，并把誤差作為條件重新注入，讓模型大量接觸「已經(jīng)跑偏」的狀態(tài)，逼它學(xué)會(huì)自我糾正。

第三是蒸餾加速。

要讓5B參數(shù)的模型在720P分辨率下跑到40FPS實(shí)時(shí)生成，光有好架構(gòu)不夠，還得把推理步數(shù)壓下來(lái)。

3.0用了多段自回歸蒸餾框架，在訓(xùn)練階段就讓學(xué)生模型連續(xù)生成多個(gè)視頻段，完全模擬真實(shí)長(zhǎng)視頻推理的誤差累積環(huán)境，配合模型量化和VAE解碼器蒸餾，最終實(shí)現(xiàn)了分鐘級(jí)長(zhǎng)時(shí)序一致性下的實(shí)時(shí)交互。

可交互基礎(chǔ)模型結(jié)構(gòu)示意圖

記憶增強(qiáng)基礎(chǔ)模型結(jié)構(gòu)示意圖

多段自回歸蒸餾示意圖

（左右滑動(dòng)查看）

三層技術(shù)疊滿，5B輕量模型就跑出了720P、40FPS的實(shí)時(shí)生成，分鐘級(jí)長(zhǎng)時(shí)序一致性。這在一年前是不可想象的。

更大的MoE-28B模型，則在泛化性和動(dòng)態(tài)表現(xiàn)上進(jìn)一步拉滿。它為第一人稱和第三人稱分別訓(xùn)練獨(dú)立的動(dòng)作模型，共享同一個(gè)視覺(jué)細(xì)節(jié)模型，既能做沉浸式第一人稱探索，也能跑第三人稱游戲視角，可生成時(shí)長(zhǎng)約60秒。

放眼全球，可交互世界模型這條賽道上，Google DeepMind的Genie 3是閉源標(biāo)桿，Matrix-Game 2.0是該技術(shù)范式首個(gè)開(kāi)源實(shí)現(xiàn)。3.0在記憶、分辨率和實(shí)時(shí)性上全面超越2.0，是目前與Genie齊頭并進(jìn)的方案。

主頁(yè)：https://matrix-game-v3.github.io/

代碼：https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3

模型：https://huggingface.co/Skywork/Matrix-Game-3.0

以前的世界模型是「能看不能摸」的櫥窗展品，現(xiàn)在的Matrix-Game 3.0是一個(gè)可以真正走進(jìn)去玩的虛擬世界。

世界的問(wèn)題解決了，接下來(lái)看畫(huà)面。

SkyReels V4

畫(huà)面里人開(kāi)口說(shuō)話的瞬間，聲音就跟上了

注意「聽(tīng)」，漫天黃沙里，女主開(kāi)口說(shuō)「謝謝你救了我」的瞬間，聲音是不是嚴(yán)絲合縫跟上了？男主回應(yīng)時(shí)，背景音樂(lè)的節(jié)奏是不是也剛好踩在了畫(huà)面的情緒點(diǎn)上？

這段荒涼凄美的戈壁戲，不僅演員的表情極其自然，連呼嘯的風(fēng)聲都跟畫(huà)面完美交融。

這就是SkyReels V4最炸裂的地方。

以前的AI視頻都有一個(gè)毛病，先生成畫(huà)面，再找另一個(gè)模型配音。兩套系統(tǒng)各干各的，經(jīng)常出現(xiàn)音畫(huà)對(duì)不上的情況。

SkyReels V4直接從底層把這事治了。

它自研了一套雙流MMDiT架構(gòu)，視頻和音頻不再是兩個(gè)模型各生成各的，而是在同一個(gè)模型內(nèi)部通過(guò)雙向交叉注意力同時(shí)生成，音畫(huà)從第一幀起就是鎖死同步的。

但光解決聲音還不夠。短劇操盤(pán)手的另一個(gè)噩夢(mèng)是控制失靈，鏡頭一轉(zhuǎn)主角就變臉。

SkyReels V4的解法是全模態(tài)強(qiáng)化學(xué)習(xí)加上精準(zhǔn)控制系統(tǒng)。

強(qiáng)化學(xué)習(xí)搭了一套覆蓋全場(chǎng)景的語(yǔ)義Reward模型，教AI「看大局」，不只是死磕每個(gè)像素好不好看，而是讓畫(huà)面整體在「講一個(gè)邏輯自洽的故事」。

關(guān)鍵幀參考能自動(dòng)補(bǔ)全節(jié)點(diǎn)間的畫(huà)面，網(wǎng)格圖參考更狠，上傳最多9張劇情幀，一鍵生成角色不走形、場(chǎng)景不跳躍的連貫短劇。

不僅如此，多角色對(duì)話場(chǎng)景也能跑，正反打鏡頭切換、臺(tái)詞分配、表情匹配自動(dòng)完成，中英法日多語(yǔ)種通吃。

同一套框架還覆蓋去水印、去臺(tái)標(biāo)、刪除或添加角色等后期編輯，對(duì)影視后期來(lái)說(shuō)全是剛需。

我們只需給模型喂一張靜圖加一段實(shí)拍視頻，真人演員就被無(wú)縫替換了。不僅動(dòng)作節(jié)奏分毫不差，衣服在動(dòng)態(tài)走位中不走形，而且原版海灘陽(yáng)光、漁船背景、平移運(yùn)鏡也能被完美保留。

再比如，下面這個(gè)視頻里有一個(gè)戴黑帽穿黑大衣的女人，手里拿著一瓶紫色液體。我們只需給模型一條指令「找到這個(gè)人和這瓶東西，刪掉」，人和瓶子就能干干凈凈消失，背景無(wú)縫填補(bǔ)。

視頻的問(wèn)題解決了，接下來(lái)看聲音。

Mureka V9

唱對(duì)了，混對(duì)了，該停的地方也停了

先說(shuō)一個(gè)事實(shí)。

前一代Mureka V8，已經(jīng)靠自研MusiCoT（Music Chain-of-Thought）技術(shù)在Artificial Analysis音樂(lè)模型榜單上同時(shí)拿下人聲和樂(lè)器雙料冠軍，碾壓Suno V4.5和Udio。

全球第一了，V9還升什么？

兩個(gè)字：「好控」。

過(guò)去AI音樂(lè)最讓人抓狂的不是「能不能生成」，而是生成了卻控不住，歌詞落不到對(duì)的段落，人聲唱不對(duì)重點(diǎn)，離創(chuàng)作者真正想要的總差最后一層。

V9重點(diǎn)攻克的就是這個(gè)。

段落級(jí)歌詞語(yǔ)義控制更精準(zhǔn)，人聲不只是「唱出來(lái)」而是「唱對(duì)了」，混音質(zhì)感更通透，生成速度更快，同一創(chuàng)意方向下的結(jié)果也更有新鮮度。

而且，V9還多了一個(gè)能力：知道什么時(shí)候不該唱。

換句話說(shuō)就是，不必要的哼唱和模糊唱詞大幅減少，該留白就留白，不硬加戲。

在產(chǎn)品層面，同一創(chuàng)意可以快速出多版本，支持在旋律、人聲、結(jié)構(gòu)上局部保留替換，創(chuàng)作從「寫(xiě)一首歌然后定稿」變成了版本化的迭代工作流。

一句話概括就是：從「能做出作品」走向「能穩(wěn)定做出你真正想要的作品」。

數(shù)據(jù)也印證了這個(gè)判斷。

在主觀評(píng)分中，V9在音樂(lè)旋律性（7.25）、音樂(lè)表現(xiàn)力（6.89）、編配編曲（6.98）三個(gè)維度全部拿下第一，超越Suno V5和Minimax 2.5。而漲幅最大的恰恰是精準(zhǔn)控制維度，從V8的6.93直接跳到V9的7.24。

說(shuō)完升級(jí)方向，直接聽(tīng)這首實(shí)測(cè)曲。

強(qiáng)烈建議空降1:08秒。短短20秒內(nèi)，主唱人聲在中、英、法、西四種語(yǔ)言間無(wú)縫穿梭。

不管語(yǔ)言怎么切，慵懶的民謠腔調(diào)、換氣節(jié)奏甚至咬字氣聲都保持著驚人的一致，用四種語(yǔ)言的絲滑流轉(zhuǎn)，硬是唱出了一種跨越國(guó)界的電影級(jí)浪漫。

但Mureka的野心不止于一個(gè)AI作曲工具。它瞄準(zhǔn)的是AI音樂(lè)時(shí)代的Spotify。

邏輯很簡(jiǎn)單，當(dāng)AI讓音樂(lè)創(chuàng)作從「少數(shù)專業(yè)人的低頻行為」變成「所有人的高頻表達(dá)」，音樂(lè)就不再只是被動(dòng)消費(fèi)的內(nèi)容，而是一種新的自我表達(dá)語(yǔ)言。

這種AI原生的內(nèi)容形態(tài)需要一個(gè)全新的平臺(tái)來(lái)承載，Mureka正是在這個(gè)判斷下構(gòu)建的，模型能力做底座，版本化創(chuàng)作工作流做引擎，表達(dá)與社交做飛輪，同時(shí)面向B端開(kāi)放API嵌入場(chǎng)景。

市場(chǎng)已經(jīng)在用腳投票。Mureka的ARR已經(jīng)達(dá)到競(jìng)品同類模型的10倍以上，不到兩年迭代九個(gè)大版本，是MusiCoT技術(shù)閉環(huán)一步步卷出來(lái)的系統(tǒng)能力。

在論壇現(xiàn)場(chǎng)的Mureka V9互動(dòng)展區(qū)，大家體驗(yàn)完之后的第一反應(yīng)，幾乎都是：「這……真的是AI做的？！」

大概，這就是對(duì)一個(gè)AI音樂(lè)模型最高的贊美了吧。

中國(guó)AI的「全模態(tài)時(shí)刻」

現(xiàn)在，世界能記住了，畫(huà)面能聽(tīng)見(jiàn)了，音樂(lè)能控住了。

三個(gè)行業(yè)最頭疼的病，在同一場(chǎng)發(fā)布會(huì)上同時(shí)給出了解法。

但這件事的意義，遠(yuǎn)不止于三個(gè)模型本身。

DeepSeek在大語(yǔ)言模型領(lǐng)域的突破，說(shuō)明中國(guó)AI有能力在單個(gè)賽道上挑戰(zhàn)全球最強(qiáng)。

而天工AI在游戲、視頻、音樂(lè)三條賽道上的同時(shí)登頂，指向一件更重要的事——

中國(guó)AI企業(yè)有能力構(gòu)建全模態(tài)的技術(shù)體系，而不僅僅是在某個(gè)單點(diǎn)上追趕。

從單點(diǎn)突破到全面開(kāi)花，從追趕者到領(lǐng)跑者，這就是「全模態(tài)時(shí)刻」的真正含義。

2026 AGI戰(zhàn)略：從全模態(tài)突破到AI平臺(tái)經(jīng)濟(jì)

技術(shù)登頂只是上半場(chǎng)。

在同一場(chǎng)發(fā)布會(huì)上，天工AI董事長(zhǎng)兼CEO周亞輝發(fā)布了2026 AGI戰(zhàn)略，核心是「3+1」布局——

三大場(chǎng)景大模型（Matrix-Game + SkyReels + Mureka）加上天工超級(jí)智能體。

三個(gè)模型是三把尖刀，分別插入游戲、視頻、音樂(lè)三個(gè)百億級(jí)內(nèi)容產(chǎn)業(yè)。

天工超級(jí)智能體則是串聯(lián)它們的超級(jí)平臺(tái)，面向C端用戶提供一站式AI創(chuàng)作體驗(yàn)，面向B端開(kāi)發(fā)者開(kāi)放API和生態(tài)接口。

這就是天工AI在發(fā)布會(huì)上正式亮出的「AIGC全家桶」——不是單個(gè)模型的秀技，而是一整套從生成到編輯到分發(fā)的全鏈條能力。

配合AI短劇平臺(tái)Dramawave、AI音樂(lè)平臺(tái)Mureka、AI游戲平臺(tái)貓森學(xué)園2.0等產(chǎn)品矩陣，文本、音樂(lè)、視頻、游戲四大領(lǐng)域全覆蓋。

用周亞輝的話說(shuō)，模型是引擎，平臺(tái)是工廠，創(chuàng)作者是老板。

天工AI要做的不只是模型提供商，而是AI創(chuàng)作者經(jīng)濟(jì)的平臺(tái)運(yùn)營(yíng)者，把最頂尖的能力開(kāi)放出來(lái)，讓開(kāi)發(fā)者、創(chuàng)作者和合作伙伴都能從中受益。

這套全家桶意味著什么？

想象一下，一個(gè)人加DramaWave就能出品一部短劇，加Mureka就能發(fā)行一張全球?qū)］嫞迂埳瓕W(xué)園就能創(chuàng)造一個(gè)游戲世界。

每一項(xiàng)在三年前都需要一個(gè)團(tuán)隊(duì)甚至一家公司才能完成，現(xiàn)在一個(gè)人就夠了。

這就是周亞輝所說(shuō)的「一人公司時(shí)代」。

技術(shù)不是從天上掉下來(lái)的，是一行一行代碼、一篇一篇論文磨出來(lái)的。

回過(guò)頭來(lái)看，最讓人感慨的不是某個(gè)具體參數(shù)，而是一種整體的「勢(shì)」。

2023年昆侖萬(wàn)維宣布All in AGI時(shí)，外界充滿質(zhì)疑。2023年天工大模型1.0發(fā)布，有人說(shuō)是百模大戰(zhàn)里的又一個(gè)跟風(fēng)者。2024年AIGC矩陣逐漸成型但還沒(méi)拿到?jīng)Q定性優(yōu)勢(shì)，依然有人觀望。

到了2026年3月，四年的堅(jiān)持給出了自己的答案。

全球月活近4億，海外收入占比93%，三大模型同時(shí)站到世界第一梯隊(duì)。

而這只是起點(diǎn)。

按照路線圖，2026年是基礎(chǔ)設(shè)施年，四大模型全部就位，能力鎖定全球第一梯隊(duì)。

2027年是生態(tài)爆發(fā)年，Skills生態(tài)全面開(kāi)放，創(chuàng)作者變現(xiàn)通路打通，B端API對(duì)外輸出。

2028年是平臺(tái)經(jīng)濟(jì)年，三大平臺(tái)沖各自領(lǐng)域的全球頭部，Skywork Super Agent成為創(chuàng)作者標(biāo)配。

當(dāng)「全模態(tài)」從PPT上的口號(hào)變成榜單上的排名、API接口里的能力、用戶手中可感知的產(chǎn)品，中國(guó)AIGC的「全模態(tài)時(shí)刻」，確實(shí)來(lái)了。

參考資料：

https://matrix-game-v3.github.io/

https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3

https://huggingface.co/Skywork/Matrix-Game-3.0

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.