昨晚夜里快12點,AI視頻公司PixVerse毫無預兆的發了一個項目。
![]()
PixVerse R1,下一代實時世界生成模型。
![]()
這玩意你看文字,可能不是很好理解,我直接放一個官方的demo視頻,大家的感覺應該會強一些。
上面是視頻,下面是實時輸入的Prompt。
整個過程,都是AI一直連續不斷的生成視頻,你可以在過程中用Prompt修改視頻的進程,比如開頭第一句Promtp,是士兵躺在雪山上,然后躺著躺著,你就輸入了一個Prompt,說一只黑烏鴉飛過,飛完了以后,這個視頻準備自己去做一些決策了自己去演后續的劇情了,你又有了新想法,于是,你又發了一段Prompt過去:
巡邏隊發現了士兵。
每次你輸入Prompt延遲2秒左右之后,你會發現,這個世界的劇情,就隨著你的不斷輸入,不斷的進行變化。
如果你不給Prompt干涉的話,他會自己一直演下去,最長的時間,在官方的技術報告里,寫的是:
無限、連續的視覺流式傳輸。
PixVerse將其稱為,實時世界生成模型。
網址在此:
技術報告我也下載下來看了一下。
還是蠻有意思的。
但是在講這個技術報告之前,我覺得還是需要我們先統一一下,大家對于世界模型的定義,這樣才更好去聊他們的技術報告。
畢竟,世界模型這個詞,這一兩年,出現的太多了,以至于大家,好像完全不知道世界模型到底指向的是什么了。
我心中的世界模型,因為這一波23年到25年的生成式浪潮,所以其實是一個非常泛的定義:
能用一個可持續的內部狀態,去預測世界接下來會怎樣變化,并且能被交互和驗證。
這也是為什么同一個詞,經常會同時被拿來形容三類東西:
視頻生成模型、可交互的生成世界、面向機器人和自動駕駛的物理仿真基礎模型。
只要滿足這個條件的,在目前的大眾語境里,都可以被統稱為,世界模型。
目前已有的世界模型代表,基本可以用幾個項目,代表3個方向:
1. Google的Genie 3和Odyssey。
以Genie 3舉例子。
我之前也寫過文章:
![]()
大概就是給一個文本提示,就能生成你可以實時導航的動態世界,24fps,720p,一致性可以維持到分鐘級。
我極度極度看好世界模型,之前也極度的看好Genie的項目,我曾經甚至說,沒有把Genie 3寫火,讓很多人關注到這個項目,是我們這些做AI內容的不專業和失職。
它代表的,是一次生成,然后可以在里面操控方向進行簡單交互的視頻類動態世界模型。
2. 李飛飛World Labs的Marble和混元3D世界模型。
以Marble舉例子。
一個以三維空間智能為中心的多模態世界模型,
![]()
World Labs給Marble的定義重點在3D,世界模型需要重建、生成、模擬三維世界,同時允許人和智能體在其中交互,這類路線的核心難點變成3D 表示和空間一致性,視頻畫面只是表層輸出。
![]()
它代表的,是一次生成,然后可以在里面進行簡單交互的3D類世界模型。
3. 英偉達Cosmos。
一個非常純粹的,為物理AI服務的世界基礎模型平臺。
![]()
Cosmos的定位是面向自動駕駛、機器人、視頻分析agent的WFM平臺,強調數據處理、tokenizer、guardrails 和把世界模型用于高保真、物理相關的合成數據與后訓練。
這條路線的評價標準更偏物理正確性、可控性、可用于訓練與驗證。
它代表的,是為訓練具身智能和自動駕駛而生的世界模型。
這幾個方向,基本就是現在世界模型方向的主流。
現在,相信大家也對世界模型,有了基本的差異化了解了,其他這玩意還是比較泛的,并沒有一個特別明確的定義,路線又挺多,場景也挺多。
而這次,PixVerse的這個新的項目,為世界模型,補上了第四個方向,也是我自己過去一直期待的方向。
實時視頻生成。
他們也上線了一個可以實測的demo版本可以玩。
網址在此:https://realtime.pixverse.ai/
![]()
里面已經給了6個預設的模板,感覺后面還會更新更多。
我點了一下,發現,要邀請碼。
![]()
我就跑去問PixVerse的朋友,問他們為啥這年頭了還要搞邀請碼這事。
他們是這么說的:
![]()
不過我還是舔著老臉,深夜要了一個邀請碼過來。
實際去體驗了一下。
這個體驗的結果,我說實話,可能是我最近,體驗的最快樂的產品了。
你們看完就知道,為啥快樂了。。。
拿到邀請碼進去以后,我先隨手點了最后一個那個卡通的模板。
![]()
在頁面上,你就會發現,有一個倒計時,大概意思就是,你只能在這個live里,體驗五分鐘,體驗五分鐘之后,就得新起一個窗口重來了。
核心原因,還是這玩意太燒算力了。
我點了進去。
一進去,這魔性的音樂,噔噔噔噔噔的,差點給我洗腦了。。。
然后,一雙腳,就開始瞪著跑起來了。
我一定要給你們看看這個抽象的畫面,我真的,凌晨2點多,在家里笑的嘎嘎的。
說實話,我硬生生看著小人跑了2分鐘,我愣是一句話沒發出去。。。
因為實在是太歡樂了,我就一直看著它跑,跑著跑著2分鐘過去了,我都忘了我是可以隨時更改劇情的。。。
然后,我又點開了他們那個1944的模板,瘋狂的開始互動,這一次,我在家里笑出了豬叫,特別是最后,我讓它從黑洞中穿梭,盡頭是卡皮巴拉的時候。
我感覺我的大腦褶皺都撫平了。
真的,非常坦率的講,PixVerse R1作為一個實驗性的全新物種,在生成質量上,肯定還是有很強的進步空間的。
但是,作為一個全新的物種,它的實時生成,他的隨時可交互。
這個快樂,如果不親身體驗一下的話,你是絕對感受不到的。
那是一種,你完全未知的快樂,但是你就是期待著,下一秒,他會發生什么。
你就是會期待著,你的那句話,會對這個屏幕里的小人,產生什么樣的影響。
還有這個賽博朋克,也很好玩。
真的,我們看了太多太多套路話的故事,那種千篇一律沒有新意的故事,這種實時生成的AI,由AI所造出的世界。
好像,會更讓我驚喜,會更讓我期待。
更別提,我還能用嘴,來指揮后續的動作了。
這里我強烈建議大家使用這個語音模式。
![]()
相信我,你在玩的時候的卡點,可能是是打字速度跟不上你想要的劇情速度。
除了這些預設好的模板之外。
你當然,也可以去自定義。
![]()
第一個想到的demo,其實就是一個我還滿喜歡的游戲,無人深空,因為這個游戲,跟實時生成實在太契合了。
我直接直接發了個起始Prompt過去:
這是一個正在運行的科幻探索類游戲畫面,不是被攝像機拍攝的影像。畫面以穩定的游戲視角呈現,不存在攝影機跟隨、推拉或電影化運鏡。世界由程序生成并持續運行,角色只是世界中的一部分,畫面變化來自世界狀態的演化。
然后,這個探索,就開始了。
非常的酷非常的有意思。
還有,街霸PK。
真的,太好玩了。
好久沒有用AI,這么純粹的快樂了。
我非常開心,能見到我們未來的娛樂形態,可能又會多一種非常好玩的方式。
也許再過幾年,所謂的電影、綜藝、游戲,根本就不再是固定時長的文件,而是一條條永遠流動著的世界時間線。
創作者給一個起點,給一些世界觀設定,剩下的交給世界模型自己往前長,觀眾進來以后,用一句話、一個表情、一次選擇,把劇情輕輕拽偏一點。
所有人看到的,都是同一個宇宙,但卻是不同的一條時間支線。
雖然讓人人創造內容,是一種奢望。
但,在人的本源里,我覺得,每個人還是享受,創造的樂趣的。
這一天。
可能是AI模型歷史上,會標紅的一頁。
很新,很有趣,但同時。
也很未來。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.