網易首頁 > 網易號 > 正文申請入駐

剛剛，一口氣發3個王炸模型、亮出2026年AGI戰略，昆侖萬維夯爆了

2026-03-27 22:04:09　來源: 機器之心Pro

北京舉報

分享至

編輯｜杜偉

就在 27 日下午，在火熱進行中的 2026 中關村論壇上，一家國產頭部 AI 廠商引爆了全場！

昆侖萬維，這家 2022 年便已「All in AGI 與 AIGC」的實力玩家，亮出了其實現通用人工智能終極目標的最新「武器庫」。

作為兼具國家影響力和國際化視野的高規格論壇，一年一度的中關村論壇成為了匯聚國內外產業界、學術界、投資界一線代表的舞臺。本屆論壇以「科技創新與產業創新深度融合」為主題，吸引了來自 100 多個國家和地區的上千名嘉賓參與。

在會上，昆侖萬維旗下天工 AI 重磅發布了全新 AI 游戲世界模型 Matrix-Game 3.0AI 視頻大模型 SkyReels V4AI 音樂大模型 Mureka V9，在繼續強化 AIGC 理解與生成能力的同時，進一步推進 AI 對物理世界的建模與仿真。

一出手就是三大王炸，這三款大模型全都邁進了世界第一梯隊，跑分成績尤為亮眼。

其中，SkyReels V4 在 Artificial Analysis 基準測試中分別奪得「帶音頻文生視頻」和「帶音頻圖生視頻」榜單全球第一，以及圖生視頻（不帶音頻）榜單全球第二（截至 2026 年 3 月 18 日評測結果）。

在與 Suno V5、前代 Mureka V8 的較量中，Mureka V9 在音樂旋律性、音樂表現力、編配編曲等主觀指標上全面勝出

Matrix-Game3.0 主頁：https://matrix-game-v3.github.io/
SkyReels V4 官網：https://www.skyreels.ai/
Mureka V9 官網：https://www.mureka.cn/

在三大新模型集中亮相之外，昆侖萬維對外公布了其2026 AGI 戰略，為完成「實現通用人工智能，讓每個人更好地塑造和表達自我」的使命給出了更清晰的路徑指引，并釋放出了一個明確的信號：未來三年，AI 發展將從全模態能力突破進入到平臺化構建階段。

天工 AI 董事長兼 CEO 周亞輝

在昆侖萬維的戰略設想中，在底層全模態基礎模型與中間層超級智能體之外，還要向上拓展應用層，探索更豐富的產品形態，包括面向內容消費與生產的短劇平臺DramaWave、面向音樂創作與分發的平臺Mureka以及面向互動娛樂的游戲世界貓森學園

當這三層實現協同運轉，AI 的形態也隨之發生變化：不再是一個個孤立的模型或工具，而是一個可以持續運轉的系統。

隨著這套體系慢慢跑起來，AI 原生的平臺經濟將開始走向落地。屆時，每一個創作者將擁有匹敵一家公司的全棧生產力。

記得住、跑得久、跑得快

世界模型補齊關鍵短板

自去年 5 月開源 Matrix-Game 系列 1.0 版本以來，昆侖萬維對交互式世界模型的探索一直沒有停歇。之后 8 月繼續開源 Matrix-Game 2.0，其被打造成為了業界首個實時長序列交互式世界模型，在鍵盤按鍵的控制下可以做到分鐘級的實時互動。

此次，Matrix-Game 3.0 補齊了世界模型存在的三大短板：記不住（記憶）、跑不久（長時程）和跑不動（實時 + 分辨率）。其核心價值在于對這些短板進行解構，貫通數據、記憶與實時生成三大環節，推動系統從生成片段邁向運行世界。

首先數據層面，構建可無限擴展的世界模型數據引擎。Matrix-Game 3.0 在數據形態、生產方式和工程層面均給出了創新性解法。

數據形態上，補上過去互聯網數據缺失的關鍵一環，從傳統的純視頻升級為同時包含視頻、位姿、動作乃至提示詞的多模態對齊數據；生產方式上，采用 Unreal Engine 合成數據 + 真實 3A 游戲采集的雙管線體系；工程上，從探索、采集到標注與質檢全流程自動化運行。

一套流程走下來，世界模型不再受限于數據獲取，而開始擁有一臺可以不斷產出「世界」的數據引擎。

其次模型架構層面，在算力效率與記憶能力之間建立起了一套協同機制，同時實現 720p 實時生成與分鐘級長時序穩定演化這兩個目標

為此，Matrix-Game 3.0 在訓練階段重構視頻生成范式之外，著力解決了「控制信號注入」和「長時序抗漂移」兩個關鍵問題。

整體架構概覽

控制層面將用戶動作顯式引入模型，其中鼠標信號通過 Self-Attention 直接作用于當前視覺生成，保證即時交互準確響應；鍵盤動作則通過 Cross-Attention 注入，負責引導整體運動趨勢，使模型在長序列中依然保持穩定的行為方向。兩者協同，實現高質量與控制性的統一。

長時序穩定性層面引入 Error Buffer 機制，顯式建模生成幀與真實幀之間的誤差，并作為條件回注模型；同時通過對歷史幀進行誤差擾動訓練，讓模型在訓練階段就習慣偏差，在推理時具備抗誤差累積能力，避免隨時間推移出現結構漂移與內容崩壞。

這套機制讓模型不只是完成生成任務，更能在持續演化過程中保持一致性與可控性，真正具備了長時間穩定運行的能力。

Memory 注入

記憶層面通過一個統一的 DiT 框架，將長期記憶、局部歷史幀以及當前預測目標進行聯合建模，從而在保證生成連續性的同時，實現跨時間的信息利用。

長時序一致性蒸餾

最后推理部署層面，讓高分辨率下的實時運行成為可能

Matrix-Game 3.0 采用具備長期記憶能力、且能夠抵抗誤差累積的基礎模型作為教師模型進行蒸餾，并利用「上一段輸出作為下一段輸入」的多段式聯合訓練，強化模型長時序連續推理能力，使其在生成過程中能夠保持記憶與穩定性。同時結合模型量化與 VAE decoder 蒸餾等優化手段，將模型壓縮至約 5B 規模，并在 720p 分辨率下實現實時生成

不僅如此，隨著模型規模繼續擴展，Matrix-Game 3.0 依然可以實現真實場景泛化、第一 / 第三人稱多視角一致性與長時序穩定運行，其中MoE-28B 模型已將生成時長推進至分鐘級

1 分鐘游戲畫面生成

與前代一樣，昆侖萬維已經開放了 Matrix-Game 3.0 的代碼與模型權重：

GitHub 地址：https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
Hugging Face 地址：https://huggingface.co/Skywork/Matrix-Game-3.0

告別音畫拼接

AI 視頻走向原生一體生成

其實，昆侖萬維的視頻大模型在前段時間已經在社區引發了熱議。在 Artificial Analysis 文生視頻（帶音頻) 賽道擊敗 Sora 2、Veo 3.1 之后，SkyReels V4 的能力得到了社區的高度認可。

作為 SkyReels 系列的最新版本，SkyReels V4 在 V1（短劇創作）、V2（無限時長電影生成）和 V3（多模態視頻生成）的基礎上，進化為「全模態音視頻聯合生成、修復與編輯」的大一統模型。從此，AI 視頻不只是簡單地生成一段畫面，而是像人類一樣具備基本的敘事能力。

這一變化的背后，離不開 SkyReels V4 在底層架構、全模態控制、強化學習范式、效率優化等多個層面的系統性升級。

首先也是最關鍵的變化：其從底層架構重寫音視頻生成方式，采用原生音畫一體的雙流 MMDiT 架構，替代「先畫面、后音頻」的串行方式，將音視頻在同一語義空間中聯合建模。

為此，模型采用對稱雙分支設計，音頻與視頻共享同一文本編碼器，在統一語義空間中完成理解與生成，最終實現口型、動作與聲音的精確對應。同時，引入額外的文本控制以增強視頻語義穩定性，并通過聯合訓練讓音視頻在生成階段就保持協同，而不是依賴后期對齊。

AI 視頻的生產方式，從多模態拼接走向原生一體生成。

其次，SkyReels V4實現了生成、編輯與修復的大一統，使視頻創作具備更細粒度的調度能力。

能力上支持首尾幀、多幀、多圖、運動等參考方式，覆蓋從生成到精細編輯的全流程需求，包括元素增刪、風格遷移與水印處理。同時能夠基于網格圖直接生成結構完整的敘事片段，從源頭解決角色走形與場景跳躍問題。機制上將生成、編輯與修復收斂為同一套掩碼補繪框架；同時引入參考圖像 / 視頻作為上下文，使角色特征與場景風格可以被穩定鎖定，在跨幀中持續保持一致。

接下來，SkyReels V4結合使用強化學習體系與工程優化策略來增質提效

為了使視頻內容兼具邏輯連貫性、物理合理性與美學質感，引入全模態語義 Reward 體系，對生成結果進行實時校正，減少邏輯偏差與物理錯誤；同時采用階梯式課程學習，從低分辨率、短時長任務過渡到高復雜度生成，逐步建立穩定的敘事能力與表達能力。

為了降低計算開銷，采用「低分辨率全序列 + 高分辨率關鍵幀」的聯合生成策略，再結合超分與幀插值來恢復畫質，保證整體一致性的同時降低計算壓力。同時引入 VSA 稀疏注意力，最終將計算成本降低約 3 倍，實現 1080P 分辨率、32FPS 幀率、15 秒時長的影院級內容生成

SkyReels V4 的一整套方案，不以成本為代價換取畫質，而是在兩者之間建立平衡，使高質量視頻生成具備了規模化生產的可行性。

當然，數據層面的重構也是這套體系高效運作的關鍵。SkyReels-V4 構建了一套覆蓋圖像、視頻、音頻的統一數據體系，通過「真實 + 合成」雙管線保證數據規模，配合多維質控與結構化 caption，對齊音畫與語義表達，為全模態生成提供穩定的數據基礎。

我們來看下實戰效果，提示詞是這樣的：「電影級賽博朋克風視頻：動態跟拍一艘深色流線型飛船（@ ship-1）在未來都市中高速飛行。鏡頭始終位于飛船后方，藍色尾焰明亮，穿梭于高樓峽谷之間。城市充滿紅白藍霓虹與霧靄背景，冷色調與高反差光影營造氛圍。攝像機隨飛船滾轉傾斜，光粒與光流增強速度感。一鏡到底，沉浸式高速飛行體驗。」

從生成到創作

讓好聽變成一種可控能力

自兩年前問世以來，昆侖萬維的音樂大模型一再地帶給我們驚喜。

幾天前，Mureka V8 在 Artificial Analysis 的 vocals（人聲）和 instrumental（樂器）榜單上雙雙登頂，綜合實力超越了 Suno V4.5、Udio v1.5 Allegro、Lyria 2 等國際主流 AI 音樂模型。

這也讓人更加期待，下一代 Mureka 會以怎樣的方式改寫音樂生成的邊界。剛剛亮相的 Mureka V9，果然沒有讓人失望。

此次，Mureka V9 圍繞音樂創作過程中最關鍵、最影響結果的幾大環節進行全方位優化：

表達更到位：歌詞、情緒與段落推進能夠更精準地對齊，想表達的點基本能落到該落的位置。
成品感更強：混音、音色與空間感更統一，整體聽感更接近一首完成度較高的作品。
人聲更克制：該唱的時候唱到位，不該出現時不過度介入，表達更干凈。
反饋更快：從輸入到出結果，鏈路更順暢，試錯和迭代成本明顯降低。
結果不易撞車：旋律與編排的重復感下降，同一方向下也能跑出更多變化。

這些能力的提升建立在MusiCoT（Music Chain-of-Thought）技術底座的持續優化之上：

模型不再停留在根據提示詞生成聲音，而是以更接近真實創作流程的方式去組織一段音樂：理解段落結構、把握表達重點，并決定每一段該唱什么、怎么唱、如何推進。

這樣一來，生成結果更少地偏離創作者原本的想法，表達更貼近預期，也更穩定。基于此，音樂也不再只是用來聽的內容，而開始變成一種拿來表達自我的語言

我們來聽下面這段旋律，提示詞為「新靈魂 / 私密爵士人聲作品。靈感：日落閣樓工作室，暖光中浮塵輕揚。核心：氣聲近距離男聲 + 溫暖 Rhodes 鋼琴。氛圍：安靜、懷舊、時光靜止 —— 復古閣樓里，金色陽光緩緩透過百葉窗褪去。」

在音樂生成能力繼續進化之外，Mureka V9 進一步的目標，是想把「好聽」從偶發結果變成一件可以穩定做出來的事情

實現方法也很直接，把「好聽」拆解開，從歌詞落點、情緒是否貼合，到結構與旋律是否順暢，一步步去校準和優化，讓整套創作過程變得可復用、可積累，而不是每次都從頭碰運氣。從長期來看，這一點比單次生成質量更加關鍵。

當「好聽」可以被拆解和控制之后，創作方式也隨之發生根本性變化：AI 音樂不再是一次性生成的結果，而變成一個可以反復嘗試、局部調整、持續迭代的過程。

傳統的創作邏輯是一次生成就直接定稿，Mureka V9 則不然，先生成多個版本進行探索，再從中篩選，對局部進行調整，然后二次或多次生成與優化。在這個過程中，創作者的主要工作也開始發生變化，將更多時間花在審美與取舍上。

可以說，Mureka V9 已經不滿足于只做一個音樂生成工具，而是在往創作平臺走。它想做的也不再是一次性的成品，而是一種可以反復修改、持續演化的版本化作品。音樂創作者用它提高效率，優化工作流；普通用戶用它表達自我。

或許，一個屬于 AI 音樂時代的「Spotify」已經出現，一邊連接創作與消費，一邊承接內容與分發。

「3+1」戰略：AGI 路徑更加清晰

當我們將天工 AI 的三大模型放在一起看，就會發現，它們不僅分別對應游戲、視頻與音樂三個賽道的單點能力升級，也在共同補齊一套更完整的能力結構：

Matrix-Game 3.0 聚焦「世界如何被建模與交互」、SkyReels V4 解決「內容如何被規模化生成」，Mureka V9 關注「情感與表達如何被精準控制」。

在這一框架下，通往 AGI 終極目標所需的能力組合更加清晰。而昆侖萬維發布的 2026 AGI 戰略，則在這些能力之上給出了路徑上的獨到思考。

我們可以用「3+1」來描述這一戰略的完整布局，其中3 指的是三大場景大模型，即游戲、視頻與音樂；1 指的是天工超級智能體

依托三大場景大模型持續突破多模態能力邊界，同時借助天工超級智能體（Skywork Super Agents）對這些 AI 能力進行統一調度。

天工超級智能體于去年 5 月發布，核心能力可以歸納為三點：一是跨任務一體化執行，二是以 Deep Research 為核心的信息處理，三是多 Agent 模塊的分工與協作。隨著今年 OpenClaw 的爆火，Skywork 推出了 SkyClaw，打造云端 AI 原生助理；同時上線首批 6 大官方 Skills，將能力封裝為可直接調用的工具。

基于此，天工超級智能體補上了「能力如何被高效調用」的關鍵一環，通過將不同能力串聯成完整的執行鏈路，使任務從理解、生成到交付，一氣呵成。

與此同時，昆侖萬維還在圍繞「平臺 + 超級智能體 + 開發者 + 創作者」，搭建一套更加開放的生態協同體系。

一方面，將多模態能力以統一入口對外開放，降低門檻，使開發者與創作者能夠更直接地調用這些能力進行開發與創作；另一方面，通過與產業伙伴的合作，將 AI 能力落地到游戲、視頻與音樂等具體場景中，逐步完成從技術到應用的轉化。

當能力、調度與場景形成閉環，AGI 的未來才更加可期。

文中視頻、音頻鏈接：https://mp.weixin.qq.com/s/g5-Y-7H1hfovmyBcB6WSqQ

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.