![]()
AI應用風向標(公眾號:ZhidxcomAI)
作者|江宇
編輯|漠影
智東西4月16日報道,今日,騰訊正式發布并開源混元3D世界模型2.0(HY-World 2.0)。作為一款多模態的世界模型,HY-World 2.0支持文字、圖片和視頻等形式輸入,可自動生成、重建并模擬完整的3D世界。
對于游戲行業,HY-World 2.0支持直接輸出可二次編輯的Mesh、3DGS或點云等資產,可無縫導入Unity、UE等引擎,用于快速構建游戲地圖和關卡原型。
相比此前的HY-World 1.5只能生成一分鐘視頻,HY-World 2.0不僅支持可漫游3D空間,還能生成完整角色、建筑和場景資產,實現可用、可玩。
▲輸入“生成一個溫馨的繪本風格小木屋”
一句話生成3D世界不再是難題,騰訊混元3D還新增了角色模式,用戶可操作角色在街道、建筑、場景中自由探索,具備物理碰撞效果。就像在游戲里一樣,游戲角色可以自由穿行在生成的3D場景中。
![]()
▲角色模式下,用戶可以操作角色自由探索
與此同時,HY-World 2.0在場景完整度(物體側面和背面)及對輸入圖片的遵循程度上表現更優,同樣適合具身智能仿真等場景。
![]()
對此,智東西也體驗了一番,一起來看看效果如何。
在線體驗:https://3d.hunyuan.tencent.com/sceneTo3D
開源代碼:https://github.com/Tencent-Hunyuan/HY-World-2.0
技術報告:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf
一、原神、生化危機雙場景復刻,角色自由漫步實感十足
首先我對文生和圖生場景這個功能進行了初步體驗,在操作上非常簡單,輸入提示詞或圖片,點擊“立即生成”即可。
![]()
提示詞:“生成一個原神風格的空中花園迷宮,包含高低錯落的平臺、曲折的樓梯、藤蔓懸掛的橋梁,陽光透過彩色玻璃灑在花園中,中央有噴泉和小橋流水,整個空間充滿幻想感。”
![]()
可以看到,無論是縱深場景的表現,還是樓梯、橋梁、彩色玻璃等細節,都有很好的還原。值得注意的是,我選定的角色還可以在生成的3D世界中自由漫步。
![]()
角色在樓梯和橋梁等區域,均具備物理碰撞感和移動形態,走上去或走下去都自然流暢,可以測試空間結構。
不過,受限于該場景可活動的區域過小,角色僅能在有限的范圍內移動。當我選擇將角色大小進行調整后,以第三人稱的角色視角可以觀察到該場景的更多細節。
緊接著,我們嘗試以圖片作為參考,生成的場景也大體保持整體一致。
![]()
但在畫質和細節表現上與文字生成結果近似,不夠細膩、質感不強,這可能與網頁端顯示和渲染分辨率有關。
帶著這個問題,我們接著嘗試了視頻和多視角圖片的輸入。
在視頻參考部分,我選用了一段《生化危機》的實況視頻,主人公沿街道直行。
【視頻】
▲《生化危機》的實況視頻
![]()
可以看到,模型能捕捉角色的運動軌跡,以及街道兩側的布景,路過的路人也有所呈現,但整體對3D世界的還原仍不夠完整。
相比之下,多視角圖片測試表現更出色。我直接使用了自帶的32張三層屋檐建筑素材,模型復刻建筑外型和層級結構的效果非常驚艷。
![]()
▲多視角圖片素材
![]()
可以看到,建筑的細節和層次感都被很好保留,整體感很明顯。
二、草圖、文字、視頻都能造世界,端到端生成360°全景
在HY-World 2.0中,輸入一張草圖、一段文字或一段視頻,都可以快速生成連貫的3D世界。
而實現這一功能的技術要點在于,HY-World 2.0以3D為主軸,統一空間理解、生成和重建,將復雜的語義和結構自動轉化為完整空間。
![]()
借助全新升級的HY-Pano-2.0端到端隱式學習方案,模型無需任何相機參數,也能從普通圖片或視頻生成360度全景映射。
混元團隊還通過真實全景照片和UE合成數據進行混合訓練,保證生成質量和泛化能力。
![]()
三、路徑智能規劃,讓角色自由漫游
生成全景后,角色路徑規劃也是一大難題。模型結合自研空間Agent技術和Navmesh表征,實現了角色漫游路徑的智能規劃。
根據不同場景的語義,模型可規劃出包括環繞物體、最大漫游在內的五類運鏡軌跡,確保覆蓋場景中關鍵區域,同時避免穿墻或跑飛。
借助規劃好的軌跡和世界擴展,角色在生成的3D場景中能夠自然漫游,路徑流暢且符合空間邏輯。
![]()
四、新視角生成,保證空間銜接與畫面連貫
在擴展場景時,模型是如何確保新生成區域與原有空間在幾何和視覺上完美銜接、不出現“穿幫”的?
其核心創新包括精確的相機控制、細粒度視覺細節保持以及空間一致性記憶機制。
結合記憶力機制設計及體系化的中間訓練與后訓練,混元團隊打造出迄今業內最強的HY-WorldStereo新視角生成(NVS)模型。
生成畫面對輸入相機實現精準跟隨,多條運鏡的生成結果保持空間一致、不產生沖突,并且后訓練算法能夠在快速擴展新區域的同時,保證畫面質量不衰減。
![]()
最終,所有生成片段通過HY-WorldMirror 2.0整合為一個統一、可交互的3D世界。
借助定制的Depth Alignment和自適應Mask Gaussian優化算法,生成場景采用3D高斯潑濺(3DGS)表示,同時可導出高質量Mesh,直接無縫導入Unity、UE等主流游戲引擎,進行二次編輯和創作。
結語:AI造世界,更進一步
從首個開源的3D世界模型HY-World 1.0,到可實時在線交互的HY-World 1.5,再到HY-World 2.0的發布,這一系列迭代進一步拉近了AI在游戲開發、虛擬仿真等行業的落地距離。
相比過去只能生成短視頻或靜態模型,HY-World 2.0提供了真正可漫游、可交互、可二次編輯的3D世界,顯著降低地圖原型和關卡設計門檻。
隨著國內外團隊如李飛飛World Labs開源Spark 2.0渲染器等進展,AI世界模型正在從概念驗證走向產業應用,未來在游戲、文化保護、城市規劃、室內設計等場景的應用潛力巨大。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.