![]()
朋友們,阿里最近的AI勢頭有點猛啊。
還記得前幾天的快樂小馬「HappyHorse」吧,在視頻模型榜單殺瘋了。
昨天,同樣是阿里ATH事業(yè)群,發(fā)布了一個名為「HappyOyster」的開放式世界模型。咱也不知道 ATH 咋這么快樂,上次是小馬,這次是生蠔。
![]()
https://www.happyoyster.cn/
在 HappyOyster中,可以 實時創(chuàng)建世界,并與之交互。看完下面的官方短片,你就知道這是什么,以及它有多強了,
HappyOyster 提供了兩種模式:漫游和導演。
在漫游模式里,你丟給它一句話或一張圖,它就能瞬間擴展出一個具備物理一致性的三維空間。
![]()
你可以以第一人稱視角在里面自由走動,鏡頭的光影會隨著你的腳步自然流轉。當你回過頭時,剛才路過的那個杯子、那棵樹,依然在原地。
這種環(huán)境的持續(xù)性,是世界模型與普通視頻模型的分水嶺。目前,它支持長達1分鐘的連續(xù)實時位移探索。雖然只有480p的分辨率,但那種身臨其境的推背感,足以讓人頭皮發(fā)麻。
導演模式則更像是一種即興創(chuàng)作。它能生成長達3分鐘的720p實時畫面。
![]()
你可以隨時喊咔,通過文字、圖片甚至語音來修改畫面。
這種實時性,讓它跟谷歌前段時間發(fā)布的Genie 3站在了同一水平線。但相比之下,阿里的HappyOyster走得更遠一些。它在時序建模上的跨度更長,而且獨家提供了那種隨時干預劇情的導演權力。
支撐起HappyOyster世界的,是叫做“原生多模態(tài)”的架構。
過去的技術方案像是在搭積木,一個模態(tài)負責看,一個模態(tài)負責算,最后強行拼湊在一起。這就好比一個樂團,樂手之間互不認識,全靠指揮死撐,效率極低且容易出錯。
HappyOyster則是一出生就帶著統一的靈魂。它在最底層就完成了文本、圖像、音頻的流式處理。這意味著,模型在生成的每一毫秒都在接收你的指令,每一幀畫面都在實時響應你的念頭。
![]()
它像是一個懂物理規(guī)律的造物主。在它模擬的世界里,光照、重力、角色的動作慣性,都遵循著某種內在的因果邏輯。
如果你是做影視的,這種效率提升簡直是降維打擊。導演不再需要盯著黑乎乎的劇本空想,也不用等待漫長的后期渲染。你只需要描述一段場景,畫面立刻跳出來。不滿意?當場改,當場看。
如果你是游戲開發(fā)者,在原型階段,你甚至不需要美工和關卡設計介入。丟一個概念進去,一個可玩、可走、可交互的Demo就出來了。
甚至在文旅和教育領域,它也正在打破現實與虛擬的墻。
想象一下,你直接走進《清明上河圖》,去路邊攤買一碗宋朝的茶,跟橋上的行人交談,甚至改變歷史的走向。這種從被動觀看到深度沉浸的躍遷,才是技術最溫情的時刻。
世界模型這類技術,甚至還可以延伸到智能硬件上。當你戴上AR眼鏡,HappyOyster可以根據你的動作和環(huán)境,實時在你眼前生成一段與現實共振的數字內容。
從HappyHorse到HappyOyster,阿里ATH正在做的事,其實是賦予AI一種“模擬生命”的能力。
我們曾經以為,AI只是一個聰明的萬事通,或者一個畫技精湛的畫師。但現在,它開始嘗試構建一個能夠自洽運行的宇宙。
![]()
在那個宇宙里,每一朵花的綻放,每一滴雨的墜落,都帶著真實生命力的靈動。
2026年,也許真的是世界模型的元年。
我們正在從預測下一個字,走向模擬整個世界。這不僅是為了好玩,它是通往物理AI的必經之路。
當數字世界開始擁有重力,當AI開始理解因果,我們離真正的AGI也就并不遙遠了。
如果你有任何看法,歡迎在評論區(qū)一起討論
如果有一點收獲,可以點贊、轉發(fā)、推薦文章,關注「AI機器人茶館」
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.