![]()
新智元報(bào)道
編輯:好困 犀牛
【新智元導(dǎo)讀】當(dāng)中國(guó)AI還常被貼著「追趕者」標(biāo)簽時(shí),天工AI卻在中關(guān)村論壇一口氣拿出視頻、音樂(lè)、世界模型三張王牌,宣告中國(guó)AIGC正從單點(diǎn)突破邁向真正的全模態(tài)領(lǐng)跑。
天下苦AI「盲盒」久矣。
去問(wèn)問(wèn)游戲制作人,被吹上天的「世界模型」簡(jiǎn)直是重度失憶癥患者,角色跑三步地平線就扭曲,稍微轉(zhuǎn)個(gè)身旁邊的房子就會(huì)憑空消失。
去問(wèn)問(wèn)短劇操盤(pán)手,鏡頭剛切走男主角的西裝變成了夾克,生成的畫(huà)面全是「無(wú)聲默片」后期硬貼配音,爆炸火光亮起兩秒后才聽(tīng)到轟隆聲。
再去問(wèn)問(wèn)專業(yè)音樂(lè)人,AI作曲聽(tīng)著熱鬧但就是有塑料味。你既不能精準(zhǔn)地在第15秒加一段壓抑的大提琴,更沒(méi)法讓它在副歌前學(xué)會(huì)屏住呼吸。
AI游戲、AI視頻、AI音樂(lè),三條最火的AIGC賽道,三個(gè)最深的行業(yè)頑疾。
![]()
3月27日,2026中關(guān)村論壇,一場(chǎng)發(fā)布會(huì)給出了三個(gè)解法。
游戲世界模型Matrix-Game 3.0、視頻大模型SkyReels V4、音樂(lè)大模型Mureka V9同時(shí)登場(chǎng),全部殺入世界第一梯隊(duì)。
這一天,中國(guó)AIGC迎來(lái)了自己的「全模態(tài)時(shí)刻」!
![]()
三條賽道,三個(gè)頑疾,三劑解藥
殺入第一梯隊(duì)是結(jié)果,怎么把行業(yè)最頭疼的病治好的才是真的。
Matrix-Game 3.0
在生成的城市里走上一遭,回頭一切照舊
今年1月,圖靈獎(jiǎng)得主Yann LeCun專門(mén)為「世界模型」這個(gè)方向創(chuàng)了公司AMI,種子輪融了10.3億美元。
AMI首席科學(xué)官謝賽寧做出的全球首個(gè)多人世界模型Solaris,技術(shù)底座正是天工AI開(kāi)源的上一代Matrix-Game 2.0。
圖靈獎(jiǎng)得主創(chuàng)業(yè)選中的技術(shù)底座,來(lái)自這家中國(guó)公司。這本身就說(shuō)明了天工AI在這條賽道上的位置。
![]()
但2.0有一個(gè)沒(méi)解決的問(wèn)題:失憶癥。
你在AI生成的世界里走了一分鐘再回頭,房子消失了,路燈換了位置,整個(gè)世界面目全非。
3.0就是來(lái)治這個(gè)病的。
在這條秋意盎然的街道上,我們刻意讓視角穿過(guò)斑馬線,大范圍環(huán)顧四周,然后再折返回來(lái)。
注意看,鏡頭轉(zhuǎn)了一大圈重回原地,那棟頂著巨大青蛙雕像的綠色小樓原封不動(dòng),墻上的粉紅燈籠還在,路口的綠色公交車(chē)也沒(méi)有憑空消失或扭曲變形。
看完效果,我們來(lái)拆一下背后的技術(shù)。
世界模型最大的瓶頸不是算法,是數(shù)據(jù)。
互聯(lián)網(wǎng)上的視頻只有畫(huà)面,缺少相機(jī)位姿和操作指令,AI沒(méi)法從中學(xué)會(huì)「我按了方向鍵,世界應(yīng)該怎么變」的因果關(guān)系。
Matrix-Game 3.0為此搭建了一套工業(yè)級(jí)的無(wú)限數(shù)據(jù)引擎,雙管線并行。
一條線基于Unreal Engine 5自動(dòng)生成覆蓋1000+場(chǎng)景的高精度交互數(shù)據(jù),強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的AI Agent在場(chǎng)景中自主探索,每一幀都同步記錄視頻、6-DoF相機(jī)位姿和操作指令,毫秒級(jí)對(duì)齊。
另一條線則是從3A游戲里全自動(dòng)提取動(dòng)態(tài)交互數(shù)據(jù),7×24小時(shí)無(wú)人值守,TB級(jí)數(shù)據(jù)持續(xù)產(chǎn)出。
世界模型要「記住」世界,首先得「見(jiàn)過(guò)」足夠多的世界。
![]()
![]()
![]()
![]()
在模型層面,Matrix-Game 3.0從三個(gè)維度做了系統(tǒng)性升級(jí)。
第一是記憶注入。
模型在生成當(dāng)前畫(huà)面時(shí),不只看最近幾幀,還會(huì)根據(jù)相機(jī)位姿檢索出更早期的「記憶幀」,只取與當(dāng)前視角相關(guān)的內(nèi)容,放進(jìn)同一個(gè)注意力空間聯(lián)合建模。走過(guò)的路、看過(guò)的樓,模型都記得。
第二是Error Buffer抗漂移機(jī)制。
長(zhǎng)時(shí)序生成中模型會(huì)逐漸偏離真實(shí)狀態(tài),3.0在訓(xùn)練時(shí)就顯式建模生成結(jié)果與真實(shí)幀之間的誤差,并把誤差作為條件重新注入,讓模型大量接觸「已經(jīng)跑偏」的狀態(tài),逼它學(xué)會(huì)自我糾正。
第三是蒸餾加速。
要讓5B參數(shù)的模型在720P分辨率下跑到40FPS實(shí)時(shí)生成,光有好架構(gòu)不夠,還得把推理步數(shù)壓下來(lái)。
3.0用了多段自回歸蒸餾框架,在訓(xùn)練階段就讓學(xué)生模型連續(xù)生成多個(gè)視頻段,完全模擬真實(shí)長(zhǎng)視頻推理的誤差累積環(huán)境,配合模型量化和VAE解碼器蒸餾,最終實(shí)現(xiàn)了分鐘級(jí)長(zhǎng)時(shí)序一致性下的實(shí)時(shí)交互。
![]()
可交互基礎(chǔ)模型結(jié)構(gòu)示意圖
![]()
記憶增強(qiáng)基礎(chǔ)模型結(jié)構(gòu)示意圖
![]()
多段自回歸蒸餾示意圖
(左右滑動(dòng)查看)
三層技術(shù)疊滿,5B輕量模型就跑出了720P、40FPS的實(shí)時(shí)生成,分鐘級(jí)長(zhǎng)時(shí)序一致性。這在一年前是不可想象的。
更大的MoE-28B模型,則在泛化性和動(dòng)態(tài)表現(xiàn)上進(jìn)一步拉滿。它為第一人稱和第三人稱分別訓(xùn)練獨(dú)立的動(dòng)作模型,共享同一個(gè)視覺(jué)細(xì)節(jié)模型,既能做沉浸式第一人稱探索,也能跑第三人稱游戲視角,可生成時(shí)長(zhǎng)約60秒。
放眼全球,可交互世界模型這條賽道上,Google DeepMind的Genie 3是閉源標(biāo)桿,Matrix-Game 2.0是該技術(shù)范式首個(gè)開(kāi)源實(shí)現(xiàn)。3.0在記憶、分辨率和實(shí)時(shí)性上全面超越2.0,是目前與Genie齊頭并進(jìn)的方案。
![]()
主頁(yè):https://matrix-game-v3.github.io/
代碼:https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
模型:https://huggingface.co/Skywork/Matrix-Game-3.0
以前的世界模型是「能看不能摸」的櫥窗展品,現(xiàn)在的Matrix-Game 3.0是一個(gè)可以真正走進(jìn)去玩的虛擬世界。
世界的問(wèn)題解決了,接下來(lái)看畫(huà)面。
SkyReels V4
畫(huà)面里人開(kāi)口說(shuō)話的瞬間,聲音就跟上了
注意「聽(tīng)」,漫天黃沙里,女主開(kāi)口說(shuō)「謝謝你救了我」的瞬間,聲音是不是嚴(yán)絲合縫跟上了?男主回應(yīng)時(shí),背景音樂(lè)的節(jié)奏是不是也剛好踩在了畫(huà)面的情緒點(diǎn)上?
這段荒涼凄美的戈壁戲,不僅演員的表情極其自然,連呼嘯的風(fēng)聲都跟畫(huà)面完美交融。
這就是SkyReels V4最炸裂的地方。
以前的AI視頻都有一個(gè)毛病,先生成畫(huà)面,再找另一個(gè)模型配音。兩套系統(tǒng)各干各的,經(jīng)常出現(xiàn)音畫(huà)對(duì)不上的情況。
SkyReels V4直接從底層把這事治了。
它自研了一套雙流MMDiT架構(gòu),視頻和音頻不再是兩個(gè)模型各生成各的,而是在同一個(gè)模型內(nèi)部通過(guò)雙向交叉注意力同時(shí)生成,音畫(huà)從第一幀起就是鎖死同步的。
![]()
但光解決聲音還不夠。短劇操盤(pán)手的另一個(gè)噩夢(mèng)是控制失靈,鏡頭一轉(zhuǎn)主角就變臉。
SkyReels V4的解法是全模態(tài)強(qiáng)化學(xué)習(xí)加上精準(zhǔn)控制系統(tǒng)。
強(qiáng)化學(xué)習(xí)搭了一套覆蓋全場(chǎng)景的語(yǔ)義Reward模型,教AI「看大局」,不只是死磕每個(gè)像素好不好看,而是讓畫(huà)面整體在「講一個(gè)邏輯自洽的故事」。
關(guān)鍵幀參考能自動(dòng)補(bǔ)全節(jié)點(diǎn)間的畫(huà)面,網(wǎng)格圖參考更狠,上傳最多9張劇情幀,一鍵生成角色不走形、場(chǎng)景不跳躍的連貫短劇。
不僅如此,多角色對(duì)話場(chǎng)景也能跑,正反打鏡頭切換、臺(tái)詞分配、表情匹配自動(dòng)完成,中英法日多語(yǔ)種通吃。
同一套框架還覆蓋去水印、去臺(tái)標(biāo)、刪除或添加角色等后期編輯,對(duì)影視后期來(lái)說(shuō)全是剛需。
我們只需給模型喂一張靜圖加一段實(shí)拍視頻,真人演員就被無(wú)縫替換了。不僅動(dòng)作節(jié)奏分毫不差,衣服在動(dòng)態(tài)走位中不走形,而且原版海灘陽(yáng)光、漁船背景、平移運(yùn)鏡也能被完美保留。
![]()
![]()
![]()
再比如,下面這個(gè)視頻里有一個(gè)戴黑帽穿黑大衣的女人,手里拿著一瓶紫色液體。我們只需給模型一條指令「找到這個(gè)人和這瓶東西,刪掉」,人和瓶子就能干干凈凈消失,背景無(wú)縫填補(bǔ)。
![]()
![]()
![]()
視頻的問(wèn)題解決了,接下來(lái)看聲音。
Mureka V9
唱對(duì)了,混對(duì)了,該停的地方也停了
先說(shuō)一個(gè)事實(shí)。
前一代Mureka V8,已經(jīng)靠自研MusiCoT(Music Chain-of-Thought)技術(shù)在Artificial Analysis音樂(lè)模型榜單上同時(shí)拿下人聲和樂(lè)器雙料冠軍,碾壓Suno V4.5和Udio。
全球第一了,V9還升什么?
兩個(gè)字:「好控」。
過(guò)去AI音樂(lè)最讓人抓狂的不是「能不能生成」,而是生成了卻控不住,歌詞落不到對(duì)的段落,人聲唱不對(duì)重點(diǎn),離創(chuàng)作者真正想要的總差最后一層。
V9重點(diǎn)攻克的就是這個(gè)。
段落級(jí)歌詞語(yǔ)義控制更精準(zhǔn),人聲不只是「唱出來(lái)」而是「唱對(duì)了」,混音質(zhì)感更通透,生成速度更快,同一創(chuàng)意方向下的結(jié)果也更有新鮮度。
而且,V9還多了一個(gè)能力:知道什么時(shí)候不該唱。
換句話說(shuō)就是,不必要的哼唱和模糊唱詞大幅減少,該留白就留白,不硬加戲。
在產(chǎn)品層面,同一創(chuàng)意可以快速出多版本,支持在旋律、人聲、結(jié)構(gòu)上局部保留替換,創(chuàng)作從「寫(xiě)一首歌然后定稿」變成了版本化的迭代工作流。
一句話概括就是:從「能做出作品」走向「能穩(wěn)定做出你真正想要的作品」。
數(shù)據(jù)也印證了這個(gè)判斷。
在主觀評(píng)分中,V9在音樂(lè)旋律性(7.25)、音樂(lè)表現(xiàn)力(6.89)、編配編曲(6.98)三個(gè)維度全部拿下第一,超越Suno V5和Minimax 2.5。而漲幅最大的恰恰是精準(zhǔn)控制維度,從V8的6.93直接跳到V9的7.24。
![]()
說(shuō)完升級(jí)方向,直接聽(tīng)這首實(shí)測(cè)曲。
強(qiáng)烈建議空降1:08秒。短短20秒內(nèi),主唱人聲在中、英、法、西四種語(yǔ)言間無(wú)縫穿梭。
不管語(yǔ)言怎么切,慵懶的民謠腔調(diào)、換氣節(jié)奏甚至咬字氣聲都保持著驚人的一致,用四種語(yǔ)言的絲滑流轉(zhuǎn),硬是唱出了一種跨越國(guó)界的電影級(jí)浪漫。
但Mureka的野心不止于一個(gè)AI作曲工具。它瞄準(zhǔn)的是AI音樂(lè)時(shí)代的Spotify。
邏輯很簡(jiǎn)單,當(dāng)AI讓音樂(lè)創(chuàng)作從「少數(shù)專業(yè)人的低頻行為」變成「所有人的高頻表達(dá)」,音樂(lè)就不再只是被動(dòng)消費(fèi)的內(nèi)容,而是一種新的自我表達(dá)語(yǔ)言。
這種AI原生的內(nèi)容形態(tài)需要一個(gè)全新的平臺(tái)來(lái)承載,Mureka正是在這個(gè)判斷下構(gòu)建的,模型能力做底座,版本化創(chuàng)作工作流做引擎,表達(dá)與社交做飛輪,同時(shí)面向B端開(kāi)放API嵌入場(chǎng)景。
市場(chǎng)已經(jīng)在用腳投票。Mureka的ARR已經(jīng)達(dá)到競(jìng)品同類模型的10倍以上,不到兩年迭代九個(gè)大版本,是MusiCoT技術(shù)閉環(huán)一步步卷出來(lái)的系統(tǒng)能力。
在論壇現(xiàn)場(chǎng)的Mureka V9互動(dòng)展區(qū),大家體驗(yàn)完之后的第一反應(yīng),幾乎都是:「這……真的是AI做的?!」
大概,這就是對(duì)一個(gè)AI音樂(lè)模型最高的贊美了吧。
![]()
中國(guó)AI的「全模態(tài)時(shí)刻」
現(xiàn)在,世界能記住了,畫(huà)面能聽(tīng)見(jiàn)了,音樂(lè)能控住了。
三個(gè)行業(yè)最頭疼的病,在同一場(chǎng)發(fā)布會(huì)上同時(shí)給出了解法。
但這件事的意義,遠(yuǎn)不止于三個(gè)模型本身。
DeepSeek在大語(yǔ)言模型領(lǐng)域的突破,說(shuō)明中國(guó)AI有能力在單個(gè)賽道上挑戰(zhàn)全球最強(qiáng)。
而天工AI在游戲、視頻、音樂(lè)三條賽道上的同時(shí)登頂,指向一件更重要的事——
中國(guó)AI企業(yè)有能力構(gòu)建全模態(tài)的技術(shù)體系,而不僅僅是在某個(gè)單點(diǎn)上追趕。
從單點(diǎn)突破到全面開(kāi)花,從追趕者到領(lǐng)跑者,這就是「全模態(tài)時(shí)刻」的真正含義。
2026 AGI戰(zhàn)略:從全模態(tài)突破到AI平臺(tái)經(jīng)濟(jì)
技術(shù)登頂只是上半場(chǎng)。
在同一場(chǎng)發(fā)布會(huì)上,天工AI董事長(zhǎng)兼CEO周亞輝發(fā)布了2026 AGI戰(zhàn)略,核心是「3+1」布局——
三大場(chǎng)景大模型(Matrix-Game + SkyReels + Mureka)加上天工超級(jí)智能體。
![]()
三個(gè)模型是三把尖刀,分別插入游戲、視頻、音樂(lè)三個(gè)百億級(jí)內(nèi)容產(chǎn)業(yè)。
天工超級(jí)智能體則是串聯(lián)它們的超級(jí)平臺(tái),面向C端用戶提供一站式AI創(chuàng)作體驗(yàn),面向B端開(kāi)發(fā)者開(kāi)放API和生態(tài)接口。
![]()
這就是天工AI在發(fā)布會(huì)上正式亮出的「AIGC全家桶」——不是單個(gè)模型的秀技,而是一整套從生成到編輯到分發(fā)的全鏈條能力。
配合AI短劇平臺(tái)Dramawave、AI音樂(lè)平臺(tái)Mureka、AI游戲平臺(tái)貓森學(xué)園2.0等產(chǎn)品矩陣,文本、音樂(lè)、視頻、游戲四大領(lǐng)域全覆蓋。
![]()
用周亞輝的話說(shuō),模型是引擎,平臺(tái)是工廠,創(chuàng)作者是老板。
天工AI要做的不只是模型提供商,而是AI創(chuàng)作者經(jīng)濟(jì)的平臺(tái)運(yùn)營(yíng)者,把最頂尖的能力開(kāi)放出來(lái),讓開(kāi)發(fā)者、創(chuàng)作者和合作伙伴都能從中受益。
這套全家桶意味著什么?
想象一下,一個(gè)人加DramaWave就能出品一部短劇,加Mureka就能發(fā)行一張全球?qū)]嫞迂埳瓕W(xué)園就能創(chuàng)造一個(gè)游戲世界。
每一項(xiàng)在三年前都需要一個(gè)團(tuán)隊(duì)甚至一家公司才能完成,現(xiàn)在一個(gè)人就夠了。
這就是周亞輝所說(shuō)的「一人公司時(shí)代」。
![]()
技術(shù)不是從天上掉下來(lái)的,是一行一行代碼、一篇一篇論文磨出來(lái)的。
回過(guò)頭來(lái)看,最讓人感慨的不是某個(gè)具體參數(shù),而是一種整體的「勢(shì)」。
2023年昆侖萬(wàn)維宣布All in AGI時(shí),外界充滿質(zhì)疑。2023年天工大模型1.0發(fā)布,有人說(shuō)是百模大戰(zhàn)里的又一個(gè)跟風(fēng)者。2024年AIGC矩陣逐漸成型但還沒(méi)拿到?jīng)Q定性優(yōu)勢(shì),依然有人觀望。
到了2026年3月,四年的堅(jiān)持給出了自己的答案。
全球月活近4億,海外收入占比93%,三大模型同時(shí)站到世界第一梯隊(duì)。
![]()
而這只是起點(diǎn)。
按照路線圖,2026年是基礎(chǔ)設(shè)施年,四大模型全部就位,能力鎖定全球第一梯隊(duì)。
2027年是生態(tài)爆發(fā)年,Skills生態(tài)全面開(kāi)放,創(chuàng)作者變現(xiàn)通路打通,B端API對(duì)外輸出。
2028年是平臺(tái)經(jīng)濟(jì)年,三大平臺(tái)沖各自領(lǐng)域的全球頭部,Skywork Super Agent成為創(chuàng)作者標(biāo)配。
![]()
當(dāng)「全模態(tài)」從PPT上的口號(hào)變成榜單上的排名、API接口里的能力、用戶手中可感知的產(chǎn)品,中國(guó)AIGC的「全模態(tài)時(shí)刻」,確實(shí)來(lái)了。
參考資料:
https://matrix-game-v3.github.io/
https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
https://huggingface.co/Skywork/Matrix-Game-3.0
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.