![]()
在生成式視頻快速發展的今天,模型已經能夠生成高質量的短視頻片段,但一個更具挑戰性的問題正逐漸成為研究焦點:
如何生成長時間、可連續演化的視頻序列?當生成從 “幾秒” 走向 “長時序” 時,問題開始顯現:視角變化帶來的結構漂移、時間推進中的內容不一致,使得視頻在空間與時間維度上難以保持穩定,往往 “走著走著就亂了”。
與此同時,如何讓視頻生成具備可控性,能夠沿指定路徑連續移動,也成為實際應用中的關鍵需求。
近日,來自 University of California, Irvine、University of California, San Diego、City University of Hong Kong、University of Pennsylvania 以及 Adobe Research 的研究者共同提出了 OmniRoam,一種面向軌跡可控長視頻生成的新方法。
![]()
- 論文標題:OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation
- 項目主頁:https://yuheng.ink/project-page/omniroam/
- 文章鏈接:https://arxiv.org/pdf/2603.30045
- 代碼鏈接:https://github.com/yuhengliu02/OmniRoam
該工作通過引入全景視頻作為統一表示,并結合 coarse-to-fine 的分階段生成框架,在長時序條件下顯著提升了視頻的空間一致性與時間連貫性,使模型能夠生成沿指定路徑連續演化的視頻序列,邁出了從 “片段生成” 走向 “連續過程生成” 的關鍵一步。
![]()
一、軌跡控制的視頻預覽
先生成 “可控路徑”
OmniRoam 首先生成一個中等分辨率的全景視頻預覽,用于確定整體路徑與場景結構。
核心在于將相機軌跡拆解為 flow(方向)和 scale(步長)兩個控制量:前者刻畫運動方向,后者控制移動幅度,從而實現更清晰的軌跡建模。在實現上,模型將輸入與目標視頻在時間維拼接,并通過 flow 與 scale 進行條件調制,使生成過程既保持內容連續,又具備明確的路徑約束。
二、長時序視頻細化
從預覽到高質量生成
在 preview 基礎上,OmniRoam 進一步進行長時序細化生成。由于 preview 通常采用較大 scale(類似 “快進”),refinement 階段會通過 scale 對齊,將視頻擴展為更長、更接近真實速度的序列。
關鍵設計是 visibility mask:每個時間段只選取少量 preview 幀作為條件輸入,在保留結構錨點的同時避免冗余。隨后模型對各個 segment 進行高分辨率生成,并拼接得到最終長視頻。
這種從 “全局預覽” 到 “局部細化” 的過程,有效緩解了長序列中的誤差累積問題。
![]()
三、新數據集與評測基準
支撐長視頻生成
為支持該任務,OmniRoam 構建了專門的數據與評測體系。在表示上,文章定義了一個 canonical panoramic coordinate system,去除相機自旋轉,僅保留平移,從而簡化軌跡建模。數據方面結合真實與合成兩部分:真實全景視頻提供多樣場景,合成數據提供精確軌跡監督,并通過路徑規劃保證運動合理性。在評測上,提出 loop consistency 指標,要求視頻沿閉環路徑生成后既能回到起點,又保持中間過程的合理變化,更好衡量長時序一致性。
![]()
四、實驗結果
一致性與可控性的顯著提升
實驗結果表明,OmniRoam 在畫質、軌跡控制和長時序一致性上均優于現有方法。
在定性結果中,模型能夠穩定沿指定路徑生成連續視頻,顯著減少結構漂移與內容崩塌;而在定量指標上(如 FAED、SSIM、LPIPS 及 loop consistency),均取得更優表現。
![]()
進一步分析顯示,全景表示與兩階段生成設計是性能提升的關鍵,使模型在長視頻場景下依然保持穩定與可控。文章重點分析了在長視頻(641 幀)條件下不同方法的表現,包括自回歸生成與基于透視表示的方法。為了進一步分析長時序一致性,作者設計了閉環軌跡實驗,并用 CLIP 相似度衡量模型是否能夠 “走回原點”。理想情況下,隨著相機逐漸遠離起點,相似度應逐步下降;而在軌跡閉環時,相似度應重新上升。相似度在中段下降,在末尾重新回升,說明模型具備較強的長期空間記憶能力。
![]()
五、擴展與應用
從實時預覽到 3D 場景生成
除了長視頻生成能力,OmniRoam 還展示了在效率與 3D 任務上的潛在應用。
在效率方面,作者基于 self-forcing 機制,將完整模型蒸餾為一個輕量級自回歸預覽模型,實現實時視頻生成。該模型在保持整體場景結構的同時,可在約 7 秒內生成 81 幀全景視頻,相比原始模型顯著加速,為交互式應用提供了可能。同時,還支持先生成低分辨率視頻,再通過 refinement 模塊提升至更高分辨率(如 720p)。
在 3D 應用方面,OmniRoam 生成的長視頻可直接用于 3D 場景重建。作者從生成視頻中均勻采樣關鍵幀,并提取多個透視視角輸入到 3D Gaussian Splatting(3DGS)中進行重建。實驗結果表明,生成視頻在不同視角間保持良好的一致性,能夠恢復出結構連貫的 3D 場景。
這些結果表明,OmniRoam 不僅可以生成長時序視頻,還能夠作為上游模塊,為實時交互與 3D 內容構建提供支持。
![]()
六、總結
長視頻生成邁向 “可持續演化”
OmniRoam 的核心貢獻,并不只是生成更長的視頻,而是在長時序條件下,實現了更穩定、更可控的生成過程。通過全景表示提供全局空間約束,并結合 trajectory-controlled preview 與 long-horizon refinement 的兩階段設計,模型能夠在長時間范圍內有效抑制漂移,維持結構與語義的一致性。
這也反映出一個更重要的趨勢:
視頻生成的挑戰,正在從 “生成更清晰的內容”,轉向 “如何在更長時間內保持一致性與連貫性”。在這一背景下,OmniRoam 提供了一種可行路徑,使生成模型能夠沿指定軌跡持續演化,為長視頻生成、虛擬漫游等場景奠定了基礎。
如果說短視頻生成解決的是 “生成一段內容”,那么長時序生成更關心的是 —— 模型能否在時間推移中持續 “記住并延續” 這個場景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.