國內首個開放體驗的實時世界模型!騰訊混元發布并開源世界模型1.5.
12月17日,騰訊混元發布世界模型1.5(Tencent HY WorldPlay),用戶輸入文字描述或者圖片即可創建專屬的互動世界,通過鍵盤、鼠標或手柄實時控制虛擬相機的移動和轉向,像玩游戲一樣自由探索AI生成的世界。這是國內首個開放體驗的實時世界模型,用戶可以在騰訊混元3D官網申請使用(https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay)。
![]()
同時,混元世界模型1.5(WorldPlay) 首次開源了業界最系統、最全面的實時世界模型框架,涵蓋數據、訓練、流式推理部署等全鏈路、全環節,并提出了重構記憶力、長上下文蒸餾、基于3D的自回歸擴散模型強化學習等算法模塊。
![]()
世界建模的新突破:實時交互、前后一致
混元世界模型1.5帶來世界建模的全新可能性,用戶可以在生成的世界里隨意移動探索,離開某個區域后再次返回時,模型能夠"記住"該區域的三維結構,呈現前后一致的場景——這種空間記憶能力標志著模型在三維世界理解上的突破。此外,用戶還可以選擇將用于交互的3D場景導出為可多次使用的3D點云。混元世界模型1.5具備三大核心能力:
實時的交互生成:通過原創的Context Forcing蒸餾方案以及流式推理優化,模型可以按照24 FPS的速度生成720P的高清視頻;
長范圍的3D一致性:通過重構記憶機制(Reconstituted Memory),模型支持分鐘級內容的幾何一致性生成,可用于構建高質量的3D空間模擬器;
多樣化的交互體驗:混元世界模型可廣泛適用于不同風格的游戲或者現實場景,以及第一和第三人稱視角,也支持實時文本觸發事件和視頻續寫等功能。
![]()
游戲場景:根據首幀圖片場景生成
![]()
視頻續寫:根據首幀圖片場景生成
![]()
文本觸發場景:輸入“木頭冒煙”文字生成
業界最系統、最全面的實時世界模型訓練體系首次開源
在技術上,混元世界模型1.5首次開源了業界最系統、最全面的實時世界模型訓練體系,涵蓋數據、訓練、推理部署等全鏈路、全環節。混元團隊在技術報告中公開了模型預訓練、持續訓練、自回歸視頻模型強化學習、帶記憶力的模型蒸餾的訓練細節,并詳述模型在控制(control space),記憶(reconstituted memory),蒸餾(context forcing),強化學習后訓練幾大模塊上的思考與原創設計。
![]()
混元世界模型1.5的核心是一個叫做WorldPlay的自回歸擴散模型,它采用Next-Frames-Prediction的視覺自回歸任務進行訓練,實現了長范圍幾何一致性的實時交互式世界建模,破解了業界滿足實時性與幾何一致性的難題。
該模型依托三大核心創新:雙分支動作表征實現精準控制、上下文記憶重構機制保持幾何一致性、上下文對齊蒸餾技術增強長視頻生成的視覺質量和幾何一致性。除此之外,該工作也構建了一套新穎的基于3D獎勵的強化學習后訓練框架來進一步增強生成視頻的視覺質量和幾何一致性。數據方面,混元團隊構建的自動化3D場景渲染流程,可以獲得大量高質量的真實世界渲染數據,進一步激發核心算法的潛力。混元世界模型1.5可支持 24幀 / 秒的長時流式生成,一致性與泛化能力適用于多樣化場景。
騰訊混元團隊持續深耕世界模型技術。今年7月,騰訊混元團隊發布混元3D世界模型1.0,支持文本或單張圖片輸入生成兼容圖形學管線的3D場景;10月,混元團隊發布世界模型1.1,支持多視圖或視頻一鍵創造3D世界。 此次發布的混元世界模型1.5進一步帶來了世界建模的全新可能性。
世界模型的演進和迭代不僅是技術上的突破,也打開了“AI生成內容”的想象空間:未來的AI不只是生成文本、圖像或視頻等模態,而是創造實時探索、可交互、空間一致的完整“世界”。
這種全新的內容生成模式,可以應用在多個場景中:在AI游戲開發領域,它可以作為智能關卡生成器,根據玩家的文本描述實時創建可探索的游戲世界;在影視制作和虛擬現實(VR)領域,創作者通過簡單的文本指令,就可以快速預覽和迭代場景設計;在具身智能(Embodied AI)研究領域,混元世界模型1.5提供了一個理想的訓練和測試平臺,研究者可以通過借助這個平臺,以更高的效率、更大的規模,去探索具身智能體的感知、決策、規劃和長期交互能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.