網易首頁 > 網易號 > 正文申請入駐

Seedance3.0技術曝光！Helios首個單卡實時生成長視頻模型開源

2026-03-10 18:22:00　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區，始終堅持“中立、開放、共建、共創、合作”五項基本原則，歡迎加入共同成長。

在人工智能領域，尤其是視頻生成方向，一個核心的“不可能三角”長期困擾著研究者：高畫質、長時長、實時生成。Seedance 2.0雖然能生成驚艷的短視頻片段，但通常每生成5-10秒的視頻就需要耗費數分鐘甚至數十分鐘的計算時間，且視頻時長難以突破訓練時的限制。據推特的有關爆料，其下個版本Seedance 3.0的目標和Helios一樣，即在超大規模參數參數模型上實現長視頻的實時生成。

由北京大學、字節跳動、Canva等機構聯合提出的 Helios模型，旨在打破這一僵局。Helios是一個擁有140億（14B）參數的巨大模型，卻在單張NVIDIA H100 GPU上實現了高達 19.5 FPS 的端到端推理速度（比1.3B還快），同時支持分鐘級別的長視頻生成，且畫質堪比當前最強的基線模型（如14B的Wan）。這一成果標志著視頻生成領域向著“實時、無限、高質量”的目標邁出了關鍵一步。Helios系列模型已經發布在wisemodel社區，歡迎前往了解詳情~

模型地址

https://wisemodel.cn/models/SHYuanBest/Helios-Base

01.

核心挑戰與目標

論文開篇便明確指出了當前視頻生成領域的三大瓶頸：

實時性差：即使是最先進的開源模型（如Wan2.1 14B），生成一個5秒視頻在單張A100上需耗時約50分鐘。一些宣稱“實時”的方案，要么基于小模型（1.3B參數），畫質有限；要么依賴多卡并行，并非真正的單卡實時。
長視頻漂移：模型通常在短片段上訓練，在自回歸生成長視頻時，累積的誤差會導致畫面出現位置跳變、色彩失真、細節模糊等“漂移”現象，破壞視頻的連貫性。
計算成本高昂：訓練和推理一個14B參數的視頻擴散模型需要巨大的計算和內存資源，通常依賴于復雜的模型并行與分片框架，限制了其研究和應用的可及性。

Helios的目標是構建一個系統，在不依賴諸如KV緩存、稀疏注意力、量化等常規加速技術，也不使用自強迫、錯誤庫等防漂移技巧的前提下，同步解決以上三個問題。

02.

Helios的整體方案

為了實現目標，Helios團隊沿著三個關鍵維度進行了系統性創新，其整體架構如圖4所示。

無限生成能力：將長視頻生成定義為“視頻續寫”，通過統一歷史注入框架，將一個原本只能生成固定長度的雙向預訓練模型，轉化為一個自回歸生成器，并原生支持文本生成視頻（T2V）、圖像生成視頻（I2V）和視頻生成視頻（V2V）三種任務。
高質量抗漂移：深入分析了視頻漂移的三種典型形態（位置漂移、色彩漂移、修復漂移），并提出了簡單有效的抗漂移訓練策略，在不進行昂貴的長視頻微調的情況下，實現了分鐘級視頻的穩定生成。
實時生成效率：提出深度壓縮流，從令牌和采樣步數兩個視角進行深度壓縮。結合基礎設施級的優化，使得一個14B模型的計算成本降低到與1.3B模型相當甚至更低。

接下來，我們將深入剖析這三個維度的具體技術細節。

03.

無限生成：統一歷史注入

3.1 表示控制：將長視頻建模為續寫任務

Helios的核心思想是將歷史幀作為明確的條件輸入。模型的輸入是歷史上下文 X_Hist 和噪聲上下文 X_Noisy 的拼接。X_Hist 包含已生成的干凈幀，X_Noisy 是待去噪生成的新幀。模型基于 X_Hist 對 X_Noisy 進行去噪，生成與歷史內容在時序上連貫的續寫片段。通過不斷迭代此過程（將新生成的幀加入歷史，生成下一片段），理論上可以實現無限長度的視頻生成。

這種方法巧妙地將任務統一了起來：當 X_Hist 全為零時，模型執行T2V；當 X_Hist 只有最后一幀非零時，執行I2V；當 X_Hist 包含多幀時，執行V2V。

3.2 引導注意力：區分對待歷史與噪聲上下文

論文指出，歷史上下文（干凈、已對齊文本）與噪聲上下文（嘈雜、待生成）特性不同，應區別對待。Helios設計了引導注意力機制：

在自注意力層：模型會計算歷史和噪聲上下文各自的查詢、鍵、值張量，并通過一個可學習的“放大令牌” amp 來調制歷史鍵，從而選擇性地放大或抑制歷史信息，讓模型更專注于最具判別性的歷史特征。
在交叉注意力層：文本信息只注入到噪聲上下文 X_Noisy 中，因為歷史上下文 X_Hist 已經包含了之前的語義信息，避免冗余注入。

這種設計確保歷史上下文扮演“引導者”角色，而不是被修改的“參與者”，增強了生成過程的穩定性。

04.

高質量抗漂移：簡單有效的策略

論文首次清晰地歸納了長視頻漂移的三種典型表現（如圖5所示），并提出了對應的解決方案。

4.1 相對旋轉位置編碼：解決位置漂移

位置漂移的主要原因是模型在推理時遇到了訓練時未見過的、超出訓練范圍的絕對時間位置索引。Helios提出了相對RoPE：無論生成多長的視頻，歷史上下文 X_Hist 的時間索引范圍始終固定（如0到 T_Hist），而噪聲上下文 X_Noisy 的索引則接續其后（如 T_Hist 到 T_Hist + T_Noisy）。這種相對索引方式使得模型能夠穩定生成任意長度的視頻，同時也緩解了RoPE周期性與多頭注意力交互導致的重復運動問題。

4.2 首幀錨點：抑制色彩漂移

通過對正常視頻與漂移視頻的統計指標（飽和度、美學分數、RGB均值/方差）隨時間變化的曲線分析（如圖6所示），論文發現漂移視頻會在某個時刻發生統計特性的突然偏移。基于此，Helios在訓練和推理時，始終將視頻的第一幀保留在歷史上下文 X_Hist 中。這一“首幀錨點”作為一個全局視覺參照，有效地約束了后續生成內容的分布，防止色彩等整體風格隨時間發生劇烈漂移。

4.3 幀感知破壞：抵抗修復漂移

修復漂移指的是模型在推理時，以其自身生成的、帶有瑕疵的輸出作為歷史條件，導致誤差累積。為此，Helios在訓練階段引入了幀感知破壞，模擬推理時可能遇到的劣質歷史幀。對于每一幀歷史，隨機施加曝光調整、加噪、降采樣后上采樣等擾動，強迫模型學習對不完美歷史輸入的魯棒性，從而在推理時能更好地應對自回歸生成中的誤差累積。

05.

實時生成：深度壓縮流

實現實時的關鍵在于“降本增效”。Helios從兩個層面進行了深度壓縮。

（一）從令牌視角壓縮：減少計算量

5.1.1 多項記憶塊化：壓縮歷史上下文

并非所有歷史幀都對預測未來同等重要。近距離歷史幀對局部運動至關重要，而遠距離歷史幀主要提供全局上下文。基于此，Helios采用分層窗口，將 X_Hist 分為短期、中期、長期三部分，并分別使用不同尺寸的卷積核進行塊化處理。距離越遠，壓縮比率越大。如圖7所示，這種設計在固定令牌預算下，顯著擴展了模型能“看到”的歷史范圍，大幅減少了參與注意力計算的歷史令牌數量。

5.1.2 金字塔統一預測校正器：壓縮噪聲上下文

受到“早期采樣步驟主導全局結構，后期步驟精修細節”的啟發，Helios提出了金字塔式采樣策略。如圖8所示，去噪過程被劃分為多個階段，每個階段在不同的空間分辨率上進行：

低分辨率階段：關注效率，快速確定全局布局、色彩等。
中分辨率階段：平衡質量與效率。
高分辨率階段：專注質量，精細雕琢細節。

模型學習跨尺度的速度場，并采用統一預測校正器來跨階段協調。這種多尺度處理使總計算量從 O(HW N) 降至接近 O(HW N/K)，其中 K 是階段數。在實現相同畫質的前提下，計算量大幅降低。

（二）從步數視角壓縮：減少采樣步驟

要將一個需要50步采樣的擴散模型加速到幾步，蒸餾是關鍵。Helios提出了對抗分層蒸餾，在分布匹配蒸餾（DMD）框架上進行了多項改進（如圖9所示）：

純教師強迫：使用高質量的Helios-Base模型作為教師，且在蒸餾訓練時，歷史上下文完全由真實的視頻幀提供（而非像其他方法那樣使用模型自回滾生成的幀），避免了高昂的“訓練即推理”回滾計算，極大提升了訓練效率。
分階段反向模擬：將反向采樣過程也分解為與金字塔采樣對應的多個階段，與分層壓縮的推理流程對齊。
由粗到精的學習策略：通過OD E初始化和動態重加噪等課程學習技巧，穩定分層蒸餾的優化過程。
對抗后訓練：在蒸餾之后，加入一個基于真實數據的GAN損失，進一步突破教師模型的性能上限，提升生成質量。

最終，Helios將采樣步驟從50步壓縮到了僅需3步，且無需分類器自由引導（CFG），進一步提速。

06.

基礎設施優化與實驗驗證

6.1 基礎設施優化為了在有限的內存資源（單張H100 80GB）上訓練和推理這個龐大的模型，論文還介紹了一系列底層優化：

分片EMA：將指數移動平均參數分片存儲在多卡上，節省內存。
異步顯存釋放：在蒸餾訓練中，按需加載和卸載生成器、評分器等模型，通過流水線掩蓋數據傳輸開銷。
緩存梯度用于GAN：針對GAN判別器的訓練，通過緩存梯度來解耦反向傳播，提前釋放中間激活值，降低峰值內存占用。
Flash內核優化：實現了高性能的LayerNorm/RMSNorm和旋轉位置編碼的Triton內核，減少了內存訪問，提升了計算吞吐。

6.2 實驗結果論文構建了一個名為 HeliosBench 的全新基準，包含240個提示詞，覆蓋極短到長四個時長等級（81, 240, 720, 1440幀）。實驗結果表明：

速度與性能：如圖1和圖2所示，在單張H100上，Helios（蒸餾版）的推理速度遠超同級別的模型（如Wan2.1 14B），甚至快于一些經過蒸餾的1.3B小模型（如某些實時生成方案）。同時，在短、長視頻生成任務上，其質量評分均顯著優于現有的蒸餾模型，與強大的基礎模型性能相當。

長視頻質量：如圖3的案例所示，Helios能夠生成連貫、高質量、長達1440幀（約48秒）的長視頻，細節豐富，運動自然，無明顯漂移。

消融實驗：論文通過詳盡的消融研究，驗證了所提出的統一歷史注入、抗漂移技術、深度壓縮流等各個模塊的有效性和必要性。

07.

總結與展望

Helios的工作為視頻生成領域帶來了一個兼具實用性與研究價值的范式。它首次證明了一個140億參數的大模型，完全可以在單張GPU上實現實時、長時、高質量的視頻生成。其技術創新是系統性的：

在架構上，提出了統一歷史注入框架，優雅地統一了T2V/I2V/V2V任務。
在訓練上，揭示了漂移的本質并提供了輕量級的解決方案，避免了對長視頻數據的依賴。
在效率上，通過深度壓縮流和對抗分層蒸餾，實現了數量級的速度提升。
在工程上，通過一系列內存與計算優化，讓大模型的訓練與部署變得可行。

Helios團隊開源代碼、基礎模型和蒸餾模型，這將極大地推動社區在實時長視頻生成方向的探索。這項工作不僅為游戲、影視、交互式內容創作等應用打開了新的想象空間，也為構建更高效的“世界模擬器”奠定了重要的技術基礎。

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.