華為天才少年創(chuàng)業(yè)，全球首個虛實融合的實時交互視頻模型來了

2026-02-09 10:21:10　來源: 機器之心Pro

北京舉報

分享至

編輯｜Youli

還記得童年的那個愿望嗎？

隨著《數(shù)碼寶貝》進化曲的響起，屏幕前的你我或許都曾幻想過：要是那只從數(shù)碼蛋中破殼而出的滾球獸，真的可以從電視屏幕那端跳出來，就好了。

彼時，我們只能將這種天馬行空的「美夢」寄希望于「次元裂縫」的開啟。再后來，技術(shù)增強現(xiàn)實（AR）技術(shù)曾一度帶來了希望，但幾經(jīng)潮起潮落，結(jié)果仍停留在「預(yù)先制作的內(nèi)容疊加」層面，數(shù)字角色無法真正感知環(huán)境。

而現(xiàn)在已經(jīng) 2026 年了，生成式 AI、實時渲染、端側(cè)算力、感知模型同時成熟，尤其是 Sora 展現(xiàn)出的前所未有的世界模擬能力，讓大家意識到，原來虛擬內(nèi)容不再需要完全預(yù)制，可以被實時生成、驅(qū)動，并具有物理合理性。技術(shù)的狂奔第一次讓曾經(jīng)的「中二夢」，具備了成為現(xiàn)實的可能：你真的可以從屏幕中「召喚」出一只滾球獸。

是不是很神奇？手機鏡頭對準(zhǔn)桌面，選取一張滾球獸照片，下一秒，一只滾球獸就「脫屏而出」，出現(xiàn)在桌面上，四處張望。你伸出手，它剛開始會有點警惕，之后就親昵地蹭你的手心，你輕輕一捏，它會給出Ｑ彈的物理反饋，而當(dāng)你把手?jǐn)傞_，它甚至可以被你「托」在掌心之中，就好像，這是一只「活」的滾球獸……通過一個手機攝像頭，虛擬角色第一次實現(xiàn)了與現(xiàn)實世界的融合。

這就是由初創(chuàng)公司 Xmax AI 推出的首個虛實融合的實時交互視頻模型 X1，沒有復(fù)雜的 Prompt，不需要漫長的渲染等待，只需要手勢進行交互，就可以讓虛擬世界與現(xiàn)實相連，在鏡頭中令「幻想」成真，讓用戶體驗到實時交互的心流體驗。

目前，Xmax AI 已通過一款技術(shù)演示型應(yīng)用 X-cam（目前開放 testflight 下載），將 X1 的能力開放給部分用戶體驗，感興趣的朋友可以通過文末提到的方式獲取邀請碼，近距離體驗一下技術(shù)的邊界。

「虛實融合 + 實時交互」，視頻生成進入「人人可玩」時代

過去這一年多，AI 視頻生成領(lǐng)域可以說是遍地開花、神仙打架。

數(shù)據(jù)顯示，2024 年全球 AI 視頻生成市場規(guī)模已達 6.148 億美元，預(yù)計到 2032 年將飆升至 25.629 億美元。在市場的強需求推動下，從 Sora 到 Runway，各路玩家都在沿著「更強的生成能力」方向極力狂奔：卷畫質(zhì)、卷時長、卷分辨率……

仔細(xì)看下來，整個賽道，大多數(shù)玩家選擇的技術(shù)路線依然是文生視頻，致力于面向?qū)I(yè)領(lǐng)域的創(chuàng)作者 —— 影視、廣告、內(nèi)容工業(yè)等，打造更強大、更完善的生產(chǎn)力工具。

可不得不承認(rèn)，在當(dāng)前的「視頻模型軍備競賽」中，普通用戶似乎沒有參與到狂歡中，感受就是「熱鬧是他們的，我什么也沒有。」

原因很現(xiàn)實，首先是上手難，當(dāng)然，很多視頻生成工具操作起來已經(jīng)很便捷，可很多時候?qū)懗鼍珳?zhǔn)的 Prompt 依然像是在編寫代碼，而且等待時間長，生成時間動輒從數(shù)秒到數(shù)分鐘，再到數(shù)十分鐘不等，缺乏即時反饋的快感。而漫長的等待后，得到的也不過是一段存在于屏幕里的「只能看、不能碰」，與當(dāng)下日常生活毫無關(guān)系的虛擬視頻。

Xmax AI 敏銳地捕捉到了這一點：AI 視頻生成要想真正走入大眾，就不能僅停留在「工具」階段，要容易上手，要讓大眾有參與感，能夠「玩」起來。

可這也就意味著，在基礎(chǔ)視頻生成能力之外，行業(yè)還需要跨越兩座「大山」：一是降低交互門檻，改變傳統(tǒng)的文生視頻工具需要專業(yè)想法和 Prompt 撰寫能力的方式；二是要與現(xiàn)實世界有更多結(jié)合，人是生活在現(xiàn)實中，文生視頻模型一定程度上確實滿足了完全虛擬化的想象，可人對現(xiàn)實的幻想并沒有被滿足。

基于此，Xmax AI 走了一條截然不同的路線：推出首個虛實融合的實時交互視頻模型 X1，讓視頻生成告別鍵盤輸入，回歸人類最本能的手勢與觸控，僅需要一個手機攝像頭，就能打破虛擬與現(xiàn)實的「壁」。

具體來看，基于 X1 強大的端側(cè)實時生成能力，Xmax AI 將這一技術(shù)落地為四大核心玩法：次元互動、世界濾鏡、觸控動圖、表情捕手…… 每一臺手機似乎都變成了連接虛實的「魔法棒」。

次元互動：這就是前面那個視頻所展示的能力，手機攝像頭拍攝現(xiàn)實場景，任意上傳一張角色參考圖，就可以將該角色在鏡頭中「召喚」出來。

比如下面這個小兔子，你可以在鏡頭前伸出手與它互動，捏一捏、拍一拍，甚至將把它托到手上。視頻中可以看到，當(dāng)撫摸到兔子眼睛旁位置時，它會跟隨人的動作轉(zhuǎn)頭，甚至可以看到絨毛因為觸碰而遮蓋眼睛的情況，沒有延遲，因為它所有的物理反應(yīng)都是 X1 模型實時生成的，所以，看起來就好像真的在撫摸一個真實存在的生命體。

不僅僅是動漫角色，可以說是任何自己喜歡的紙片人、寵物、毛絨玩具，都可以在鏡頭中「活」過來。

世界濾鏡：任意上傳一張風(fēng)格參考圖，就可以將手機攝像頭拍攝的畫面實時轉(zhuǎn)換，變成指定的風(fēng)格，例如梵高畫風(fēng)、樂高畫風(fēng)等。可以用于渲染環(huán)境，也可以用于渲染人物，甚至可以用于渲染屏幕內(nèi)容，像是正在玩的游戲畫面。

直接來看一個例子，下面視頻中的小姐姐通過選取不同風(fēng)格的參考圖，讓自己「化身」為圖片所示風(fēng)格的人物，可以是經(jīng)典動漫中的二次元虛擬形象，也可以是樂高積木風(fēng)格。而且，當(dāng)小姐姐做出揮手或是搖頭動作時，視頻中「變身」后的人物或形象會實時跟著做出相應(yīng)的動作。

觸控動圖：讓靜態(tài)照片「活」過來、動起來，不再需要復(fù)雜軟件。對于任意一張照片，都可以在觸摸屏上對照片中的角色進行拖拽控制，讓它實時運動起來。

比如下面視頻中動漫風(fēng)格的小兔子，左右拖動它的耳朵，它就開始左右搖頭；上下?lián)]動，它就做出被拍腦袋的動作；拖動嘴角，它會露出微笑。「實物」也可以，給自家貓咪狗子拍張照上傳，就可以讓它揮手、掄拳，跳起舞；眨眼、吐舌、賣起萌。甚至是「惡搞」的，將劉海剪成整齊模樣的馬，也在鏡頭下開始搖頭晃腦…… 就像在操控提線木偶，輕松賦予靜止圖像以生命力。

表情捕手：將相機鏡頭對準(zhǔn)任意的人或物體，選擇一個「大拇指」或「怒氣沖沖」的 Emoji，AI 就會實時「捕捉」對方的特征，實時生成一個神態(tài)精準(zhǔn)、魔性十足的動態(tài)表情包。這簡直就是「社交神器」，以后聚會也不用擔(dān)心冷場，隨時就可以拿出來玩一下。

強大能力背后的技術(shù)挑戰(zhàn)與實現(xiàn)

是不是很好玩，即便是對技術(shù)沒什么了解，也可以輕松上手。但在業(yè)內(nèi)人士看來，這不僅是產(chǎn)品的創(chuàng)新，更是工程能力的「暴力美學(xué)」。

「有趣體驗背后，是極高的技術(shù)挑戰(zhàn)。」Xmax AI 向機器之心透露，要實現(xiàn)上述這些效果，必須同時解決當(dāng)前 AI 行業(yè)的三大痛點：

首先是極致實時，從上面的視頻中也可以看出來，視頻中的人物或是形象的反應(yīng)隨時能夠跟著手勢變，給用戶產(chǎn)生一種「我在和它互動」的感覺，而這就要求延遲必須控制在毫秒級，可當(dāng)前市面上的大多數(shù)所謂「實時」模型響應(yīng)往往需要數(shù)秒，難以滿足 Xmax AI 想要在交互場景中呈現(xiàn)的效果需求。

其次是意圖理解，Xmax AI 的想法是希望交互方式多種多樣且自然，對普通人來說門檻足夠低，這就要求模型做到能夠自動理解人的意圖，并實時生成精準(zhǔn)的反饋結(jié)果。可當(dāng)前大多數(shù)模型都是文生視頻、圖生視頻，無法實現(xiàn)這些手勢交互效果。比如，對于模型來說，當(dāng)人做出「捏」這個動作時，要讀懂其中的意圖，可要比讀懂一段文字難得多。

另外，還存在數(shù)據(jù)稀缺的問題，對于整個 AI 行業(yè)來說，數(shù)據(jù)都足夠重要卻又極致稀缺，更何況是相對小眾的「虛實融合交互數(shù)據(jù)」，生產(chǎn)成本高，構(gòu)造難度極大。但現(xiàn)實又是，想要實現(xiàn)好的虛實融合的效果就必須基于大量且專業(yè)的高質(zhì)量訓(xùn)練數(shù)據(jù)。

這些挑戰(zhàn)一度讓 Xmax AI 犯了難。

但需要注意的是，Xmax AI 是一支既懂底層算法，又懂工程化落地，還擁有敏銳產(chǎn)品嗅覺的「特種部隊」。

創(chuàng)始人史佳欣，出身于華為「天才少年」計劃，是一位典型的技術(shù)極客。聯(lián)合創(chuàng)始人梁宸，現(xiàn)任港科大（廣州）助理教授、博導(dǎo)。聯(lián)合創(chuàng)始人翁躍庭，是一位「六邊形戰(zhàn)士」型的全棧工程師。而公司核心技術(shù)團隊則都是來自清華大學(xué) KEG 實驗室和 HCI 實驗室的人才，是國內(nèi)大模型領(lǐng)域和人機交互領(lǐng)域的頂尖力量。

不僅如此，團隊核心成員也大都在字節(jié)、快手、華為、阿里等頭部 AI 大廠歷練過，有著豐富的技術(shù)落地實踐經(jīng)驗。

因此，面對上述這些挑戰(zhàn)，Xmax AI 交出了一份「硬核」的技術(shù)答卷。

針對極致實時性需求，Xmax AI 進行架構(gòu)創(chuàng)新，提出了端到端的流式重渲染視頻模型架構(gòu)，實現(xiàn)了幀級別的自回歸 DiT（Diffusion Transformer），并通過多階段的蒸餾壓縮和對抗訓(xùn)練，百倍提升了每一幀畫面的擴散采樣速度。不僅將延遲壓低至毫秒級，更是通過自研的「循環(huán)回歸架構(gòu)」打破了時長的限制，支持無限時長的連續(xù)生成。

針對模型對意圖理解的高要求，Xmax.AI 則構(gòu)建了統(tǒng)一的交互模型架構(gòu)，讓模型既能理解攝像頭透視下的空間三維關(guān)系，也能理解屏幕觸控下的平面二維操作，從而對于用戶的各類交互行為，模型都能夠?qū)崿F(xiàn)精準(zhǔn)的意圖識別。

而針對「數(shù)據(jù)荒漠」難題，Xmax AI 則搭建了虛實融合數(shù)據(jù)的合成管線，利用半自動化方式，低成本、批量化地生成了高質(zhì)量的交互訓(xùn)練數(shù)據(jù)，構(gòu)建了難以復(fù)刻的行業(yè)壁壘。

體驗了這么多玩法，相信大家已經(jīng)隱約感知到 Xmax AI 想做的事情了。如果說 Sora 代表的是一條極致強化生成能力的路線，讓 AI 學(xué)會拍電影、構(gòu)圖、運鏡、敘事，那么 X1 則是希望 AI 能夠陪你玩，隨時出現(xiàn)在你周圍的生活場景中。

從這個角度來看，對于 Xmax AI 團隊而言，X1 模型僅僅是一個開始。

其實從前面 X1 的模型能力展現(xiàn)上也可以看出來，Xmax AI 不是想「再造」一個專業(yè)的視頻創(chuàng)作工具，開發(fā)一款 App，更是在試圖搭建下一代內(nèi)容交互引擎，重新定義用戶與 AI 生成內(nèi)容之間的個性化交互方式。

在他們的愿景里，這個新時代中，那些曾經(jīng)只能存在于影視作品和虛擬世界中的角色，不管是數(shù)碼寶貝，還是銀翼殺手式的仿生生命體，都可以走進現(xiàn)實，成為虛實融合的「數(shù)字生命體」，進入家庭，成為用戶的虛擬陪伴、虛擬寵物等。

與此同時，「萬物可交互」也不再只是一個空想，不管是刷短視頻、看直播，還是視頻通話、線上會議，都可以實時改變視覺形態(tài)，一邊看一邊玩，帶來全新的個性化體驗；社交互動變得更立體、更有趣，攝像頭化身「精靈球」，隨時隨地「捕捉」一個好友過來，對 TA 進行打扮……

也就是說，Xmax AI 所做的，是通過 AI 將「幻想」拉得更近，近到可以觸碰、互動、分享，真正融入人們的日常生活。

正如 Xmax AI Slogan 所言，Play the World through AI（用 AI 玩轉(zhuǎn)世界），讓世界觸手可「玩」。

最后，感興趣的朋友可以通過 testflight 邀請鏈接下載 APP，下載后在登錄界面點擊申請邀請碼，也可以通過 Xmax AI 官網(wǎng)來提前體驗、感受這一切。這一次，你可以親自推開那扇通往虛實融合世界的「門」。

testflight 邀請鏈接：https://testflight.apple.com/join/8sWgKZeQ
Xmax AI官網(wǎng)鏈接：https://xmax.ai/

文中視頻鏈接：https://mp.weixin.qq.com/s/xnaOGvC5_EVYxsJYxVE_xQ

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.