編輯|杜偉
就在 27 日下午,在火熱進行中的 2026 中關村論壇上,一家國產頭部 AI 廠商引爆了全場!
昆侖萬維,這家 2022 年便已「All in AGI 與 AIGC」的實力玩家,亮出了其實現通用人工智能終極目標的最新「武器庫」。
![]()
作為兼具國家影響力和國際化視野的高規格論壇,一年一度的中關村論壇成為了匯聚國內外產業界、學術界、投資界一線代表的舞臺。本屆論壇以「科技創新與產業創新深度融合」為主題,吸引了來自 100 多個國家和地區的上千名嘉賓參與。
在會上,昆侖萬維旗下天工 AI 重磅發布了全新 AI 游戲世界模型 Matrix-Game 3.0AI 視頻大模型 SkyReels V4AI 音樂大模型 Mureka V9,在繼續強化 AIGC 理解與生成能力的同時,進一步推進 AI 對物理世界的建模與仿真。
一出手就是三大王炸,這三款大模型全都邁進了世界第一梯隊,跑分成績尤為亮眼。
其中,SkyReels V4 在 Artificial Analysis 基準測試中分別奪得「帶音頻文生視頻」和「帶音頻圖生視頻」榜單全球第一,以及圖生視頻(不帶音頻)榜單全球第二(截至 2026 年 3 月 18 日評測結果)。
![]()
在與 Suno V5、前代 Mureka V8 的較量中,Mureka V9 在音樂旋律性、音樂表現力、編配編曲等主觀指標上全面勝出
![]()
- Matrix-Game3.0 主頁:https://matrix-game-v3.github.io/
- SkyReels V4 官網:https://www.skyreels.ai/
- Mureka V9 官網:https://www.mureka.cn/
在三大新模型集中亮相之外,昆侖萬維對外公布了其2026 AGI 戰略,為完成「實現通用人工智能,讓每個人更好地塑造和表達自我」的使命給出了更清晰的路徑指引,并釋放出了一個明確的信號:未來三年,AI 發展將從全模態能力突破進入到平臺化構建階段。
![]()
天工 AI 董事長兼 CEO 周亞輝
在昆侖萬維的戰略設想中,在底層全模態基礎模型與中間層超級智能體之外,還要向上拓展應用層,探索更豐富的產品形態,包括面向內容消費與生產的短劇平臺DramaWave、面向音樂創作與分發的平臺Mureka以及面向互動娛樂的游戲世界貓森學園
當這三層實現協同運轉,AI 的形態也隨之發生變化:不再是一個個孤立的模型或工具,而是一個可以持續運轉的系統。
![]()
隨著這套體系慢慢跑起來,AI 原生的平臺經濟將開始走向落地。屆時,每一個創作者將擁有匹敵一家公司的全棧生產力。
記得住、跑得久、跑得快
世界模型補齊關鍵短板
自去年 5 月開源 Matrix-Game 系列 1.0 版本以來,昆侖萬維對交互式世界模型的探索一直沒有停歇。之后 8 月繼續開源 Matrix-Game 2.0,其被打造成為了業界首個實時長序列交互式世界模型,在鍵盤按鍵的控制下可以做到分鐘級的實時互動。
此次,Matrix-Game 3.0 補齊了世界模型存在的三大短板:記不住(記憶)、跑不久(長時程)和跑不動(實時 + 分辨率)。其核心價值在于對這些短板進行解構,貫通數據、記憶與實時生成三大環節,推動系統從生成片段邁向運行世界。
![]()
首先數據層面,構建可無限擴展的世界模型數據引擎。Matrix-Game 3.0 在數據形態、生產方式和工程層面均給出了創新性解法。
數據形態上,補上過去互聯網數據缺失的關鍵一環,從傳統的純視頻升級為同時包含視頻、位姿、動作乃至提示詞的多模態對齊數據;生產方式上,采用 Unreal Engine 合成數據 + 真實 3A 游戲采集的雙管線體系;工程上,從探索、采集到標注與質檢全流程自動化運行。
一套流程走下來,世界模型不再受限于數據獲取,而開始擁有一臺可以不斷產出「世界」的數據引擎。
其次模型架構層面,在算力效率與記憶能力之間建立起了一套協同機制,同時實現 720p 實時生成與分鐘級長時序穩定演化這兩個目標
為此,Matrix-Game 3.0 在訓練階段重構視頻生成范式之外,著力解決了「控制信號注入」和「長時序抗漂移」兩個關鍵問題。
![]()
整體架構概覽
控制層面將用戶動作顯式引入模型,其中鼠標信號通過 Self-Attention 直接作用于當前視覺生成,保證即時交互準確響應;鍵盤動作則通過 Cross-Attention 注入,負責引導整體運動趨勢,使模型在長序列中依然保持穩定的行為方向。兩者協同,實現高質量與控制性的統一。
長時序穩定性層面引入 Error Buffer 機制,顯式建模生成幀與真實幀之間的誤差,并作為條件回注模型;同時通過對歷史幀進行誤差擾動訓練,讓模型在訓練階段就習慣偏差,在推理時具備抗誤差累積能力,避免隨時間推移出現結構漂移與內容崩壞。
這套機制讓模型不只是完成生成任務,更能在持續演化過程中保持一致性與可控性,真正具備了長時間穩定運行的能力。
![]()
Memory 注入
記憶層面通過一個統一的 DiT 框架,將長期記憶、局部歷史幀以及當前預測目標進行聯合建模,從而在保證生成連續性的同時,實現跨時間的信息利用。
![]()
長時序一致性蒸餾
最后推理部署層面,讓高分辨率下的實時運行成為可能
Matrix-Game 3.0 采用具備長期記憶能力、且能夠抵抗誤差累積的基礎模型作為教師模型進行蒸餾,并利用「上一段輸出作為下一段輸入」的多段式聯合訓練,強化模型長時序連續推理能力,使其在生成過程中能夠保持記憶與穩定性。同時結合模型量化與 VAE decoder 蒸餾等優化手段,將模型壓縮至約 5B 規模,并在 720p 分辨率下實現實時生成
不僅如此,隨著模型規模繼續擴展,Matrix-Game 3.0 依然可以實現真實場景泛化、第一 / 第三人稱多視角一致性與長時序穩定運行,其中MoE-28B 模型已將生成時長推進至分鐘級
![]()
1 分鐘游戲畫面生成
與前代一樣,昆侖萬維已經開放了 Matrix-Game 3.0 的代碼與模型權重:
- GitHub 地址:https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
- Hugging Face 地址:https://huggingface.co/Skywork/Matrix-Game-3.0
告別音畫拼接
AI 視頻走向原生一體生成
其實,昆侖萬維的視頻大模型在前段時間已經在社區引發了熱議。在 Artificial Analysis 文生視頻(帶音頻) 賽道擊敗 Sora 2、Veo 3.1 之后,SkyReels V4 的能力得到了社區的高度認可。
![]()
作為 SkyReels 系列的最新版本,SkyReels V4 在 V1(短劇創作)、V2(無限時長電影生成)和 V3(多模態視頻生成)的基礎上,進化為「全模態音視頻聯合生成、修復與編輯」的大一統模型。從此,AI 視頻不只是簡單地生成一段畫面,而是像人類一樣具備基本的敘事能力。
這一變化的背后,離不開 SkyReels V4 在底層架構、全模態控制、強化學習范式、效率優化等多個層面的系統性升級。
首先也是最關鍵的變化:其從底層架構重寫音視頻生成方式,采用原生音畫一體的雙流 MMDiT 架構,替代「先畫面、后音頻」的串行方式,將音視頻在同一語義空間中聯合建模。
為此,模型采用對稱雙分支設計,音頻與視頻共享同一文本編碼器,在統一語義空間中完成理解與生成,最終實現口型、動作與聲音的精確對應。同時,引入額外的文本控制以增強視頻語義穩定性,并通過聯合訓練讓音視頻在生成階段就保持協同,而不是依賴后期對齊。
AI 視頻的生產方式,從多模態拼接走向原生一體生成。
![]()
其次,SkyReels V4實現了生成、編輯與修復的大一統,使視頻創作具備更細粒度的調度能力。
能力上支持首尾幀、多幀、多圖、運動等參考方式,覆蓋從生成到精細編輯的全流程需求,包括元素增刪、風格遷移與水印處理。同時能夠基于網格圖直接生成結構完整的敘事片段,從源頭解決角色走形與場景跳躍問題。機制上將生成、編輯與修復收斂為同一套掩碼補繪框架;同時引入參考圖像 / 視頻作為上下文,使角色特征與場景風格可以被穩定鎖定,在跨幀中持續保持一致。
接下來,SkyReels V4結合使用強化學習體系與工程優化策略來增質提效
為了使視頻內容兼具邏輯連貫性、物理合理性與美學質感,引入全模態語義 Reward 體系,對生成結果進行實時校正,減少邏輯偏差與物理錯誤;同時采用階梯式課程學習,從低分辨率、短時長任務過渡到高復雜度生成,逐步建立穩定的敘事能力與表達能力。
為了降低計算開銷,采用「低分辨率全序列 + 高分辨率關鍵幀」的聯合生成策略,再結合超分與幀插值來恢復畫質,保證整體一致性的同時降低計算壓力。同時引入 VSA 稀疏注意力,最終將計算成本降低約 3 倍,實現 1080P 分辨率、32FPS 幀率、15 秒時長的影院級內容生成
SkyReels V4 的一整套方案,不以成本為代價換取畫質,而是在兩者之間建立平衡,使高質量視頻生成具備了規模化生產的可行性。
當然,數據層面的重構也是這套體系高效運作的關鍵。SkyReels-V4 構建了一套覆蓋圖像、視頻、音頻的統一數據體系,通過「真實 + 合成」雙管線保證數據規模,配合多維質控與結構化 caption,對齊音畫與語義表達,為全模態生成提供穩定的數據基礎。
我們來看下實戰效果,提示詞是這樣的:「電影級賽博朋克風視頻:動態跟拍一艘深色流線型飛船(@ ship-1)在未來都市中高速飛行。鏡頭始終位于飛船后方,藍色尾焰明亮,穿梭于高樓峽谷之間。城市充滿紅白藍霓虹與霧靄背景,冷色調與高反差光影營造氛圍。攝像機隨飛船滾轉傾斜,光粒與光流增強速度感。一鏡到底,沉浸式高速飛行體驗。」
![]()
從生成到創作
讓好聽變成一種可控能力
自兩年前問世以來,昆侖萬維的音樂大模型一再地帶給我們驚喜。
幾天前,Mureka V8 在 Artificial Analysis 的 vocals(人聲)和 instrumental(樂器)榜單上雙雙登頂,綜合實力超越了 Suno V4.5、Udio v1.5 Allegro、Lyria 2 等國際主流 AI 音樂模型。
![]()
這也讓人更加期待,下一代 Mureka 會以怎樣的方式改寫音樂生成的邊界。剛剛亮相的 Mureka V9,果然沒有讓人失望。
![]()
此次,Mureka V9 圍繞音樂創作過程中最關鍵、最影響結果的幾大環節進行全方位優化:
- 表達更到位:歌詞、情緒與段落推進能夠更精準地對齊,想表達的點基本能落到該落的位置。
- 成品感更強:混音、音色與空間感更統一,整體聽感更接近一首完成度較高的作品。
- 人聲更克制:該唱的時候唱到位,不該出現時不過度介入,表達更干凈。
- 反饋更快:從輸入到出結果,鏈路更順暢,試錯和迭代成本明顯降低。
- 結果不易撞車:旋律與編排的重復感下降,同一方向下也能跑出更多變化。
這些能力的提升建立在MusiCoT(Music Chain-of-Thought)技術底座的持續優化之上:
模型不再停留在根據提示詞生成聲音,而是以更接近真實創作流程的方式去組織一段音樂:理解段落結構、把握表達重點,并決定每一段該唱什么、怎么唱、如何推進。
這樣一來,生成結果更少地偏離創作者原本的想法,表達更貼近預期,也更穩定。基于此,音樂也不再只是用來聽的內容,而開始變成一種拿來表達自我的語言
我們來聽下面這段旋律,提示詞為「新靈魂 / 私密爵士人聲作品。靈感:日落閣樓工作室,暖光中浮塵輕揚。核心:氣聲近距離男聲 + 溫暖 Rhodes 鋼琴。氛圍:安靜、懷舊、時光靜止 —— 復古閣樓里,金色陽光緩緩透過百葉窗褪去。」
![]()
在音樂生成能力繼續進化之外,Mureka V9 進一步的目標,是想把「好聽」從偶發結果變成一件可以穩定做出來的事情
實現方法也很直接,把「好聽」拆解開,從歌詞落點、情緒是否貼合,到結構與旋律是否順暢,一步步去校準和優化,讓整套創作過程變得可復用、可積累,而不是每次都從頭碰運氣。從長期來看,這一點比單次生成質量更加關鍵。
當「好聽」可以被拆解和控制之后,創作方式也隨之發生根本性變化:AI 音樂不再是一次性生成的結果,而變成一個可以反復嘗試、局部調整、持續迭代的過程。
傳統的創作邏輯是一次生成就直接定稿,Mureka V9 則不然,先生成多個版本進行探索,再從中篩選,對局部進行調整,然后二次或多次生成與優化。在這個過程中,創作者的主要工作也開始發生變化,將更多時間花在審美與取舍上。
可以說,Mureka V9 已經不滿足于只做一個音樂生成工具,而是在往創作平臺走。它想做的也不再是一次性的成品,而是一種可以反復修改、持續演化的版本化作品。音樂創作者用它提高效率,優化工作流;普通用戶用它表達自我。
或許,一個屬于 AI 音樂時代的「Spotify」已經出現,一邊連接創作與消費,一邊承接內容與分發。
![]()
「3+1」戰略:AGI 路徑更加清晰
當我們將天工 AI 的三大模型放在一起看,就會發現,它們不僅分別對應游戲、視頻與音樂三個賽道的單點能力升級,也在共同補齊一套更完整的能力結構:
Matrix-Game 3.0 聚焦「世界如何被建模與交互」、SkyReels V4 解決「內容如何被規模化生成」,Mureka V9 關注「情感與表達如何被精準控制」。
在這一框架下,通往 AGI 終極目標所需的能力組合更加清晰。而昆侖萬維發布的 2026 AGI 戰略,則在這些能力之上給出了路徑上的獨到思考。
我們可以用「3+1」來描述這一戰略的完整布局,其中3 指的是三大場景大模型,即游戲、視頻與音樂;1 指的是天工超級智能體
依托三大場景大模型持續突破多模態能力邊界,同時借助天工超級智能體(Skywork Super Agents)對這些 AI 能力進行統一調度。
天工超級智能體于去年 5 月發布,核心能力可以歸納為三點:一是跨任務一體化執行,二是以 Deep Research 為核心的信息處理,三是多 Agent 模塊的分工與協作。隨著今年 OpenClaw 的爆火,Skywork 推出了 SkyClaw,打造云端 AI 原生助理;同時上線首批 6 大官方 Skills,將能力封裝為可直接調用的工具。
基于此,天工超級智能體補上了「能力如何被高效調用」的關鍵一環,通過將不同能力串聯成完整的執行鏈路,使任務從理解、生成到交付,一氣呵成。
![]()
與此同時,昆侖萬維還在圍繞「平臺 + 超級智能體 + 開發者 + 創作者」,搭建一套更加開放的生態協同體系。
一方面,將多模態能力以統一入口對外開放,降低門檻,使開發者與創作者能夠更直接地調用這些能力進行開發與創作;另一方面,通過與產業伙伴的合作,將 AI 能力落地到游戲、視頻與音樂等具體場景中,逐步完成從技術到應用的轉化。
當能力、調度與場景形成閉環,AGI 的未來才更加可期。
文中視頻、音頻鏈接:https://mp.weixin.qq.com/s/g5-Y-7H1hfovmyBcB6WSqQ
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.