網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

螞蟻深夜開源比肩Genie 3的世界模型，我也看到了具身智能的未來(lái)。

2026-01-29 10:06:47　來(lái)源: 數(shù)字生命卡茲克

天津舉報(bào)

分享至

AI圈最近是卷瘋了嗎，模型跟不要錢一樣kuku的往外發(fā)。

今天凌晨的時(shí)候。

螞蟻在毫無(wú)預(yù)兆的情況下，他們旗下的具身智能公司，靈波科技，開源了一個(gè)非常非常離譜的世界模型。

LingBot-World。

我其實(shí)本身是真的沒有當(dāng)回事的，就是因?yàn)槲覍?duì)世界模型還比較關(guān)注，就隨手點(diǎn)進(jìn)去看了眼。

結(jié)果，我真的有點(diǎn)停不下來(lái)了，我在這個(gè)頁(yè)面里，花了半個(gè)小時(shí)的時(shí)候，幾乎看完了所有的案例。

我是真的覺得有點(diǎn)離譜，幾乎可以對(duì)標(biāo)Google Genie 3的質(zhì)量，而且，開源。

我直接放個(gè)case。

一個(gè)1分鐘的，第一人稱探索的視角。

我不知道你們是什么感覺，如果玩游戲很多的朋友，可能會(huì)說(shuō)，這有啥稀奇的，不就是一個(gè)普通的游戲里面的那種廢棄小鎮(zhèn)場(chǎng)景嗎，不就是第一人稱在里面探索嗎。

對(duì)，但是如果你知道，這一切的源頭，這個(gè)世界里面所有的一切，都是根據(jù)你的方向鍵，用視頻動(dòng)態(tài)生成的。

我相信你一定會(huì)有不一樣的感覺。

這是一個(gè)完完全全的，一邊探索一邊生成的世界。

這個(gè)視頻里面的一切，都是實(shí)時(shí)交互的，實(shí)時(shí)按鍵實(shí)時(shí)運(yùn)動(dòng)的。

言出法隨，指哪打哪。

我凌晨1點(diǎn)多，第一次看到這個(gè)demo，同時(shí)意識(shí)到，這是一個(gè)世界模型的時(shí)候，我其實(shí)是起了一些雞皮疙瘩的。

還有這個(gè)，實(shí)時(shí)生成的巨物壓迫感，真的非常的真實(shí)了。

最離譜的是這個(gè)。

一個(gè)10分鐘的視頻，他們讓模型一個(gè)人就這么沿著古建筑群瞎逛，逛了整整十分鐘，中間確實(shí)偶爾有一些變形，但是，到最后了，這個(gè)古建筑居然沒有崩掉，太離譜了。

之前測(cè)過(guò)一個(gè)叫 Odyssey的世界模型產(chǎn)品。

別說(shuō)10分鐘了，1分鐘就直接崩成這樣了。

而且毫無(wú)記憶能力，我只要一回頭，這個(gè)世界就變了樣，而且是每回頭一次，它就變一次。

相當(dāng)?shù)膰樔恕！！?/p>

如果說(shuō)要跟Sora、可靈這種視頻生成模型最大的區(qū)別是什么，我那覺得，一個(gè)是預(yù)先錄制的電影，另一個(gè)是可實(shí)時(shí)演算的模擬器。

視頻生成模型，是他已經(jīng)把整部電影拍完、剪好，加好特效，然后放給你看。

畫面很精美，故事很完整，但你是純粹的觀眾，只能被動(dòng)接受，無(wú)法改變?nèi)魏问隆?/p>

而LingBot-World，你按W，它就往前生成世界，你按A，它就往左拓開空間。

你輸一句“下雨了”，天空就真的變陰云密布，你說(shuō)“來(lái)點(diǎn)煙花”，遠(yuǎn)處城堡上空立刻炸開一朵。

所有的一切，都是邊走邊算出來(lái)的，而不是提前渲染好放給你看。

前者是敘事的終點(diǎn)，后者是世界的起點(diǎn)。

太離譜了，要知道，這個(gè)模型，是跟之前Google Genie 3的路線一致，是可實(shí)時(shí)生成的世界模型。

老粉可能還記得，我去年寫過(guò)。

這篇文章到現(xiàn)在也是我覺得是我的一個(gè)很大的遺憾，它明明那么強(qiáng)，可是我沒有把它寫火讓更多的人看到，這是我的問(wèn)題。

我一直都非常關(guān)注這種可交互的實(shí)時(shí)生成的世界模型，但是坦率的講，Genie 3之后，幾乎再無(wú)同類，而且已經(jīng)幾個(gè)月了，Genie 3到現(xiàn)在也不能體驗(yàn)上。

但今天，不僅有了，而且，還開源，甚至他們，把論文都發(fā)出來(lái)了。

真的有點(diǎn)不敢相信這是我之前認(rèn)知里那個(gè)螞蟻。。。

項(xiàng)目網(wǎng)址在此： https://technology.robbyant.com/lingbot-world

目前已經(jīng)在github上開源了第一個(gè)版本，另外兩個(gè)版本等待放出。

這三個(gè)版本我大概解釋一下。

LingBot-World-Base (Cam) 代表Base系列里帶Camera Poses控制的版本。

你在推理時(shí)會(huì)額外喂相機(jī)位姿或相機(jī)運(yùn)動(dòng)軌跡這類信號(hào)，所以它更擅長(zhǎng)把鏡頭運(yùn)動(dòng)做得可控，適合你想明確指定推進(jìn)鏡頭、環(huán)繞、俯仰、平移這類拍法的場(chǎng)景。

表里寫的480P和720P也對(duì)應(yīng)它當(dāng)前提供的推理配置，這個(gè)版本目前已經(jīng)放出權(quán)重和下載鏈接。

LingBot-World-Base (Act) 代表Base系列里帶Actions控制的版本。

這里的 Actions 更像“動(dòng)作指令”或“行為控制”，讓你能用更結(jié)構(gòu)化的方式去約束主體怎么動(dòng)，往哪走，抬手，轉(zhuǎn)身之類。

它的目標(biāo)是把可控性從鏡頭擴(kuò)展到行為層面，目前等待開源中。

LingBot-World-Fast代表Fast系列，核心取向是低延遲與實(shí)時(shí)交互，一般會(huì)通過(guò)結(jié)構(gòu)改造與加速手段，把推理做得更適合流式生成和邊交互邊出畫面。

代價(jià)通常是質(zhì)量上限會(huì)比 Base 略低一點(diǎn)點(diǎn)，優(yōu)勢(shì)是響應(yīng)更快更像實(shí)時(shí)世界模擬，延遲能低于1秒，能做到每秒16幀，目前等待開源中。

模型參數(shù)量在28B左右，推理應(yīng)該在14B。

在看完了所有的case，以及論文以后。

我給它總結(jié)了3個(gè)特點(diǎn)。

分別是長(zhǎng)時(shí)記憶很穩(wěn)定、風(fēng)格泛化性極強(qiáng)、很棒的動(dòng)作代理。

一. 長(zhǎng)時(shí)記憶很穩(wěn)定

說(shuō)實(shí)話，我們看世界模型，最核心的一個(gè)東西，看的一定是長(zhǎng)時(shí)記憶。

就跟我們用文本大模型一樣，他能不能記住前面的那么多的信息，這個(gè)事非常的重要。

而在世界模型里，這個(gè)事，尤為重要，甚至就是第一位的。

如果沒有長(zhǎng)時(shí)記憶的模型，你可以想一想這個(gè)場(chǎng)景，你去廁所拉屎，打開了廁所門，進(jìn)門，掀開馬桶蓋，一回頭，廁所門沒了，變成了一個(gè)不知道通往哪的過(guò)道，你再一回頭，馬桶也沒了，變成了一個(gè)小女孩就這么瞪著你。

現(xiàn)在是凌晨3點(diǎn)20多，我寫下這段話的時(shí)候，我還忍不住回頭看了好幾次，我說(shuō)實(shí)話，我真的突然有點(diǎn)慌。。。

這就是沒有長(zhǎng)時(shí)記憶的問(wèn)題。

可能在文字輸出的時(shí)候，他不記得之前的事了，可能影響還沒那么大。

但是在一個(gè)可以互動(dòng)的世界里，如果沒有了長(zhǎng)時(shí)記憶，那就成了徹頭徹尾的恐怖片了，我們俗稱，鬼打墻。。。

而 LingBot-World解決了這個(gè)問(wèn)題。

比如說(shuō)這個(gè)case。

可以看到，在這個(gè)過(guò)程中，在這個(gè)廊橋上，不管你怎么走，前看后看左看右看，那些建筑也絕對(duì)一直都在，甚至高墻和后面的建筑的遮擋關(guān)系，都會(huì)隨著你行走的距離而改變，當(dāng)你扭頭看向別處的時(shí)候，回頭看，還在。

這個(gè)長(zhǎng)時(shí)記憶，就太牛逼了。

還有這個(gè)。

從看到這個(gè)開始，然后從肚皮下面穿越過(guò)去，在差不多的時(shí)候，你可以看到，你的視角是真的穿過(guò)了這個(gè)異獸的橫向面積，讓你感受到很真實(shí)。

而沒有長(zhǎng)時(shí)記憶的世界模型，可能在你穿的時(shí)候，直接就在它的肚皮下面穿了將近1分多鐘，甚至就在那鬼打墻了一直穿不過(guò)去，明顯時(shí)間尺度和距離尺度都不對(duì)。

而Lingbot-World在這點(diǎn)上，就表現(xiàn)的非常好。

二. 風(fēng)格泛化性極強(qiáng)

很多的世界模型，其實(shí)在風(fēng)格上都比較固定。

只能搞現(xiàn)實(shí)世界的，就是超寫實(shí)的那種，但是一旦涉及到非寫實(shí)的，一般效果就非常的差了。

但是lingbot-World居然保持的相當(dāng)好。

比如這個(gè)例子。

明顯能感覺到，雖然大劍還稍微有一點(diǎn)點(diǎn)不穩(wěn)定，但是其他的地方，保持的非常好，已經(jīng)媲美一些游戲的質(zhì)感了。

還有這個(gè)。

在這種畫風(fēng)下，整個(gè)世界模型沒有崩塌，這一點(diǎn)其實(shí)非常的難能可貴。

核心其實(shí)在于LingBot-World在訓(xùn)練的時(shí)候，真實(shí)視頻、游戲錄像、UE合成場(chǎng)景，全塞在一鍋里里面訓(xùn)了，他們搞了大量游戲世界的數(shù)據(jù)，還有UE的合成數(shù)據(jù)。

現(xiàn)實(shí)世界的視頻負(fù)責(zé)教它物理世界大概長(zhǎng)啥樣，游戲世界負(fù)責(zé)教它人類在虛擬世界里是怎么玩的，然后合成世界則負(fù)責(zé)補(bǔ)齊那些現(xiàn)實(shí)很難系統(tǒng)采集的視角，比如各種極端運(yùn)動(dòng)軌跡、復(fù)雜相機(jī)路徑、極限視角。

對(duì)模型來(lái)說(shuō)，這三種東西在輸入上其實(shí)是統(tǒng)一的。

就是都是一幀一幀的視頻，外加相機(jī)位置、動(dòng)作指令、文本描述。

它其實(shí)并不會(huì)像人類那樣心里有一條線，說(shuō)哦這是真實(shí)的，哦這邊是游戲，它看到的只是不同分布的像素序列。

這一點(diǎn)其實(shí)有點(diǎn)像機(jī)器人領(lǐng)域的域隨機(jī)化。

就是很多具身公司，在做仿真訓(xùn)練的時(shí)候，經(jīng)常會(huì)把地面材質(zhì)、光照、物體貼圖全打亂，讓機(jī)器人習(xí)慣各種詭異的組合，這樣下放到真實(shí)世界的成功率反而更高。

Lingbot-World在這塊做的相當(dāng)好。

三. 很棒的動(dòng)作代理

世界模型如果只會(huì)自己滾動(dòng)，不會(huì)被控制，那最多也就是一個(gè)超長(zhǎng)、有記憶的屏保。

真正好玩的是，當(dāng)你把WASD和方向鍵綁上去，甚至把一個(gè)動(dòng)作代理塞進(jìn)去，在你操控的同時(shí)，里面的角色還可以自主行動(dòng)和規(guī)劃。

從而涌現(xiàn)出一些全新的事件和玩法，而不是那種單純的，步行模擬器，只會(huì)單純的走路和跑步而已。

比如這個(gè)。

你可以明顯的看到，這個(gè)布偶隨著方向的變化，而自主在房間里進(jìn)行運(yùn)動(dòng)，在過(guò)程中還碰到了沙發(fā)，從而掉頭，避免了穿模。

還有這個(gè)。

并不是千篇一律的滑行，而是有急停、有變道，有自主運(yùn)動(dòng)。

這一點(diǎn)也是完全不一樣的點(diǎn)，是我從來(lái)沒有見過(guò)的，很新，也很強(qiáng)。

看了下論文，LingBot-World在動(dòng)作這塊，主要干了兩條線的事。

一條線是最直接的，你自己按鍵。

你按 W，它往前生成，你按S，它往后拉，你長(zhǎng)按A，它會(huì)幫你推演側(cè)身走一段路應(yīng)該是什么樣子，這個(gè)看著好像理所當(dāng)然，但其實(shí)背后代表著模型已經(jīng)學(xué)會(huì)了一種還蠻重要的東西。

動(dòng)作不是單幀的，而是一個(gè)連續(xù)意圖。

你按一下W，它不會(huì)只管下一幀往前挪一點(diǎn)點(diǎn)，而是會(huì)在內(nèi)部自動(dòng)幫你補(bǔ)出一整個(gè)往前走兩三步的節(jié)奏，把腿步伐、相機(jī)抖動(dòng)、視差變化協(xié)同起來(lái)。

否則你按W一下停一下，畫面只會(huì)抖成幀動(dòng)畫。

另一條線，是他們搞的那個(gè)AI玩自己世界的動(dòng)作代理。

你可以把它理解成給LingBot-World添了一個(gè)玩家。

這個(gè)玩家看不到底層張量，它只看畫面和一些文字提示，然后決定“我要往哪走”“我要不要拐彎”“我要不要停下來(lái)多看一眼”。

論文里是用一個(gè)微調(diào)的視覺語(yǔ)言模型來(lái)做這件事，看一幀圖，輸出接下來(lái)幾秒鐘的命令，讓 LingBot-World去執(zhí)行。

所以還真的挺有意思的，就真的像，我們?cè)谕嬗螒虻母杏X。

只不過(guò)這個(gè)游戲，我們是觀測(cè)者，我們決定向什么方向去，而AI，會(huì)在生成的空間，自主運(yùn)動(dòng)。

這一點(diǎn)，確實(shí)是一個(gè)非常有意思的創(chuàng)新。

LingBot-World很強(qiáng)，很有意思，讓我突然有了一種。

24年春節(jié)2月16號(hào)的時(shí)候，同樣的深夜，同樣的凌晨，看到Sora的那一刻。

世界模型，一直是一個(gè)全新的、未被探索、還有廣闊空間的領(lǐng)域。

他不僅對(duì)游戲、對(duì)影視、對(duì)娛樂(lè)都有非常強(qiáng)的意義。

而真正我覺得最核心的場(chǎng)景，其實(shí)是為了具身智能，一個(gè)優(yōu)秀的、泛化能力強(qiáng)的世界模型，也能為具身的訓(xùn)練，為他們對(duì)現(xiàn)實(shí)世界的理解和長(zhǎng)程任務(wù)，提供低成本高保真的試錯(cuò)空間。

世界模型，也是AI真正由虛到實(shí)，進(jìn)入我們現(xiàn)實(shí)空間中的必要條件之一。

而螞蟻，居然是螞蟻。

把這個(gè)進(jìn)程，向前推了一大步。

并且直接選擇開源，造福所有人。

我很少會(huì)對(duì)一個(gè)技術(shù)demo感到興奮，而最近的興奮，坦誠(chéng)的講，幾乎都來(lái)自世界模型。

而LingBot-World讓我又有了當(dāng)年最開始玩AI的那種感覺。

世界模型成熟之后，來(lái)臨的，必然就是井噴式的、進(jìn)入我們實(shí)體世界的、隨處可見的具身智能們。

而那時(shí)。

才是我心中，真正的AI時(shí)代。

以上，既然看到這里了，如果覺得不錯(cuò)，隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時(shí)間收到推送，也可以給我個(gè)星標(biāo)?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克

>/ 投稿或爆料，請(qǐng)聯(lián)系郵箱：wzglyay@virxact.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.