![]()
「一個(gè)很有主體性的模型」
過(guò)去一年,AI圈的詞語(yǔ)通貨膨脹是不是有點(diǎn)太嚴(yán)重了?
動(dòng)輒「又一個(gè)DeepSeek時(shí)刻」,動(dòng)輒「開(kāi)啟XX時(shí)代」,隨便一個(gè)產(chǎn)品或功能的推出或更新,都要逼著歷史的車輪滾滾向前。
我只想說(shuō)時(shí)光時(shí)光慢些吧不要再讓我變老了
最近害我離退休更近一步的是PixVerse R1。
此產(chǎn)品一出,AI視頻的DeepSeek時(shí)刻也到來(lái)了,無(wú)限流時(shí)代也開(kāi)啟了,網(wǎng)友家人們又震撼激動(dòng)不已了。
于是我也跟風(fēng)試了試咱們這個(gè)全球首個(gè)支持最高1080P分辨率通用實(shí)時(shí)視頻生成模型。
至于這個(gè)實(shí)時(shí)視頻生成是什么意思,我們后面再詳細(xì)講。
輸入邀請(qǐng)碼點(diǎn)進(jìn)來(lái)之后,看到PixVerse R1貼心地給我們準(zhǔn)備了幾個(gè)世界觀模板。
![]()
從龍與地下城到塞爾達(dá),從滑雪潛水到月球行走,文藝b、真假中產(chǎn)、二次元哥姐們以及各類小眾愛(ài)好者都能在這里找到自己的一席之地。
![]()
哪怕沒(méi)找到,也能輸入提示詞定制屬于自己的世界觀。
不僅能選擇畫(huà)面比例,還能選擇視角。
![]()
我嫌麻煩,直接點(diǎn)進(jìn)那個(gè)叫Tokyo Streets的模板,嘗試在東京街頭嘎油嘎油。
按下開(kāi)始按鈕,視頻就自動(dòng)開(kāi)始生成,一個(gè)黑衣紅裙女子在川流不息的十字路口漫步。
而且是一直漫步,同時(shí)移步換景,周圍的高樓大廈和路人甲都實(shí)時(shí)生成出來(lái)。
![]()
這也是PixVerse R1宣傳的一個(gè)重點(diǎn):無(wú)需人工干預(yù),視頻自動(dòng)無(wú)限流生成。
現(xiàn)在因?yàn)榻o大伙免費(fèi)體驗(yàn)所以限時(shí)5分鐘,技術(shù)上可以實(shí)現(xiàn)生成到永遠(yuǎn)。
一個(gè)很有主體性的視頻模型。
然后如果你也有一些,就可以在頁(yè)面下方的對(duì)話框里輸入提示詞,隨時(shí)改變視頻的走向。
![]()
于是我在顱內(nèi)模擬了一個(gè),該女子假意嘎油(咸魚(yú)注:東北話溜達(dá))在日本街頭,實(shí)則是準(zhǔn)備對(duì)安倍晉三進(jìn)行正義執(zhí)行,最后被哥斯拉從法院救走的故事。
用PixVerse R1做了一下,生成出了下面這個(gè)作品。
和目前市面上流行的Sora 2、Veo 3不一樣,PixVerse R1確實(shí)能做到近乎實(shí)時(shí)生成。
在輸入提示詞的5秒之內(nèi),畫(huà)面就能隨即改變。
而且不是硬切,畫(huà)面是連續(xù)的。
但該說(shuō)不說(shuō),問(wèn)題很多。
比如這個(gè)畫(huà)面雖然連續(xù),但變化并不絲滑,甚至我覺(jué)得都不如疊化轉(zhuǎn)場(chǎng)。
在短片中有一個(gè)情節(jié),是我讓這個(gè)女主角打車前往法院,并進(jìn)入法院內(nèi)部。
結(jié)果這個(gè)出租車直接幻影坦克顯形了,法院建筑也平地起高樓了。
![]()
之前我怎么不知道日本基建這么速度?
再比如,人一多就亂套。
當(dāng)我給女主角委派了山上徹也支線任務(wù),整個(gè)畫(huà)面就完全崩潰了。
我輸入兩段提示詞:
「安倍晉三從天而降,擋住了女子的去路;女的掏出一把機(jī)關(guān)槍,掃射安倍晉三。」
生成的這玩意有人能看懂不。
![]()
男的一出現(xiàn),女的就掉線,但最后男的直接變身女的了,這里面引戰(zhàn)成分太多我沒(méi)法思考了。
但總的來(lái)講,這已經(jīng)不是人物一致性能不能保證的問(wèn)題了,這連人物是不是一個(gè)性都沒(méi)法保證了。
再再比如我最不懂得一點(diǎn),就是這個(gè)女主角永遠(yuǎn)在走路,永遠(yuǎn)Citywalk永遠(yuǎn)熱淚盈眶
不管是遭受了邪惡公審:
![]()
還是偶遇了路上猛然出現(xiàn)的哥斯拉:
![]()
乃至于被核廢水給襲擊了之后:
![]()
姐們都是假裝一切都未曾發(fā)生,把走路作為方法。
且和出現(xiàn)的一切都不發(fā)生任何關(guān)系,保持清冷感。
哪怕我明確發(fā)布指令,跪下來(lái)求女主角停下來(lái),她也是師承是枝裕和,步履不停,永遠(yuǎn)在路上。
![]()
好似迷失東京了一般。
就這讓我陷入深思:如果你的實(shí)時(shí)生成,就是把一個(gè)元素像貼圖一樣扔進(jìn)來(lái),和角色也不產(chǎn)生交互,也沒(méi)推進(jìn)任何劇情,這對(duì)視頻到底有什么意義?
因?yàn)槲铱吹胶芏嗖┲髡f(shuō),這個(gè)PixVerse R1能無(wú)限流探索,能玩跑團(tuán),我誠(chéng)心發(fā)問(wèn),你們是咋用它跑團(tuán)的?
主角就一直走,看到NPC也不說(shuō)話,遇到伙伴也不接收,學(xué)了技能也不用,最后見(jiàn)到boss也不打,boss也不打他,就一直走。比走線的都愛(ài)走。
家人們這不是跑團(tuán),這是暴走團(tuán)。
至于什么人物走形、字體亂碼,我覺(jué)得這都是產(chǎn)品初期的小問(wèn)題,日后肯定是會(huì)不斷優(yōu)化。
但上面這三點(diǎn)是真讓我用起來(lái)很難受的。
這時(shí)候有人要說(shuō)了,你用評(píng)判傳統(tǒng)AI視頻的方式來(lái)對(duì)PixVerse R1指指點(diǎn)點(diǎn),是揚(yáng)短避長(zhǎng),是不講武德搞偷襲。
因?yàn)槟兀跴ixVerse R1可不是簡(jiǎn)單的AI視頻模型,人家是世 · 界 · 模 · 型。
![]()
啥叫世界模型?說(shuō)實(shí)話我之前沒(méi)有仔細(xì)研究過(guò),搜了一下發(fā)現(xiàn)這詞處于話語(yǔ)權(quán)爭(zhēng)奪階段,各個(gè)山頭都有自己的說(shuō)法和產(chǎn)品。
像李飛飛的Marble和Google做的Genie 3,是生成那種可拓展可操縱的3D世界。
英偉達(dá)的世界模型屬于toSi項(xiàng)目,生成視頻給機(jī)器人看,用來(lái)訓(xùn)練自動(dòng)駕駛汽車啥啥的。
PixVerse R1呢,則更像是Odyssey-2的路數(shù),就是先限定一個(gè)主題,然后生成無(wú)限的連續(xù)的的視頻,中途還能輸入提示詞隨時(shí)修改。
![]()
Odyssey-2的界面
我也用了下Odyssey-2,發(fā)現(xiàn)它的問(wèn)題是,隨著視頻生成,角度越來(lái)越仰,人物越來(lái)越大,畫(huà)面也越來(lái)越瘋狂,就跟做夢(mèng)一樣。
他們自己估計(jì)也知道,所以在官網(wǎng)親自找補(bǔ)說(shuō),咱們這產(chǎn)品就是用來(lái)模擬你的實(shí)時(shí)夢(mèng)境的。
![]()
用戶直接一拳打在棉花上。你這都是夢(mèng)了我還有啥說(shuō)的,同一個(gè)世界模型同一個(gè)夢(mèng)想唄。
但Odyssey-2這種越往后視頻越?jīng)]法看的問(wèn)題,是此類實(shí)時(shí)互動(dòng)視頻產(chǎn)品的通病。
就是隨著視頻的不斷生成,本來(lái)不起眼的小問(wèn)題和預(yù)測(cè)會(huì)不斷累積,導(dǎo)致視頻越長(zhǎng)越走形。
PixVerse R1的畫(huà)質(zhì)比Odyssey-2好了不少,但在這個(gè)問(wèn)題上沒(méi)什么改進(jìn)。
我打開(kāi)一個(gè)叫Moonwalk的模板,試圖在里面擊碎美國(guó)登月的謊言。
一開(kāi)始畫(huà)面還挺流暢自然。
![]()
到了三四分鐘的時(shí)候,背景的星空直接像素化了,疑似地球流浪了黑客帝國(guó)情景再現(xiàn)了。
![]()
越往后越?jīng)]法看這事,PixVerse官網(wǎng)的報(bào)告里倒是也承認(rèn)了。
![]()
PixVerse R1或許是為了把這方面的影響減到最低,對(duì)自己使用了大記憶清除術(shù)。
具體而言,畫(huà)面里這個(gè)主角,無(wú)論你是讓他跑還是跳,讓他換衣服還是摘眼鏡,是變性還是變形,5秒之內(nèi)都會(huì)回到原樣。
![]()
且無(wú)論當(dāng)我嘗試在畫(huà)面中增加任何人物動(dòng)物地形建筑之后,它確實(shí)會(huì)生成,但5秒之內(nèi)也會(huì)全部消失。
![]()
然后回到原點(diǎn),開(kāi)始漫無(wú)目的地行走,等待下一個(gè)指令。
咋說(shuō)呢,之前上面不是提到了好幾個(gè)流派的世界模型,它們雖然產(chǎn)物不同,但核心點(diǎn)是統(tǒng)一的,就是要既能實(shí)時(shí)交互,又保持邏輯上的持續(xù)性。
或者至少得朝這個(gè)方向努力,不然咋能稱之為一個(gè)世界。
PixVerse R1在實(shí)時(shí)交互這方面,確實(shí)是做的不錯(cuò)的。
但在持續(xù)性這方面,它直接通過(guò)強(qiáng)行回到起點(diǎn)這個(gè)行為,把需要解決的麻煩繞過(guò)去了。
對(duì)吧,咱不是沒(méi)給你生成這個(gè)那個(gè)的,也不是對(duì)后面沒(méi)影響,只是它自己消失不見(jiàn)了,咱也不知道咋回事,但咱這個(gè)模型是持續(xù)的無(wú)限流的一直生成到世界末日的。
這叫耍賴,兄弟。
你這不就是硬把自己往世界模型這個(gè)概念上湊,想通過(guò)跟網(wǎng)友之間的信息差彎道超車曲線救國(guó)嗎?
看現(xiàn)在這個(gè)全網(wǎng)盛贊的狀態(tài),這招還可以。
最后還是中肯地說(shuō)一下,PixVerse R1有自己的優(yōu)點(diǎn)。
比如它確實(shí)好玩。用別的視頻模型的時(shí)候總有一種要生成個(gè)什么杰作的上班心態(tài),用PixVerse R1就是純生成,發(fā)狠了忘情了不管結(jié)果了,就純逗自己玩,挺有樂(lè)子的。
而且如果它非得說(shuō)自己是世界模型,那它還是個(gè)少有的咱老百姓能上手用的世界模型,這真世界大同了。
但是在視頻生成能力還處于從夯到拉排行榜的NPC這個(gè)階段的時(shí)候,就開(kāi)始搗鼓世界模型,是不是有點(diǎn)沒(méi)學(xué)會(huì)走就開(kāi)始急著跑,沒(méi)好好跑就開(kāi)始炒了呢?
(本文封面由ChatGPT 生成,純?nèi)斯?xiě)作)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.