![]()
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。
在人工智能領域,尤其是視頻生成方向,一個核心的“不可能三角”長期困擾著研究者:高畫質、長時長、實時生成。Seedance 2.0雖然能生成驚艷的短視頻片段,但通常每生成5-10秒的視頻就需要耗費數分鐘甚至數十分鐘的計算時間,且視頻時長難以突破訓練時的限制。據推特的有關爆料,其下個版本Seedance 3.0的目標和Helios一樣,即在超大規模參數參數模型上實現長視頻的實時生成。
![]()
由北京大學、字節跳動、Canva等機構聯合提出的 Helios模型,旨在打破這一僵局。Helios是一個擁有140億(14B)參數的巨大模型,卻在單張NVIDIA H100 GPU上實現了高達 19.5 FPS 的端到端推理速度(比1.3B還快),同時支持分鐘級別的長視頻生成,且畫質堪比當前最強的基線模型(如14B的Wan)。這一成果標志著視頻生成領域向著“實時、無限、高質量”的目標邁出了關鍵一步。Helios系列模型已經發布在wisemodel社區,歡迎前往了解詳情~
![]()
模型地址
https://wisemodel.cn/models/SHYuanBest/Helios-Base
01.
核心挑戰與目標
論文開篇便明確指出了當前視頻生成領域的三大瓶頸:
實時性差:即使是最先進的開源模型(如Wan2.1 14B),生成一個5秒視頻在單張A100上需耗時約50分鐘。一些宣稱“實時”的方案,要么基于小模型(1.3B參數),畫質有限;要么依賴多卡并行,并非真正的單卡實時。
長視頻漂移:模型通常在短片段上訓練,在自回歸生成長視頻時,累積的誤差會導致畫面出現位置跳變、色彩失真、細節模糊等“漂移”現象,破壞視頻的連貫性。
計算成本高昂:訓練和推理一個14B參數的視頻擴散模型需要巨大的計算和內存資源,通常依賴于復雜的模型并行與分片框架,限制了其研究和應用的可及性。
Helios的目標是構建一個系統,在不依賴諸如KV緩存、稀疏注意力、量化等常規加速技術,也不使用自強迫、錯誤庫等防漂移技巧的前提下,同步解決以上三個問題。
02.
Helios的整體方案
為了實現目標,Helios團隊沿著三個關鍵維度進行了系統性創新,其整體架構如圖4所示。
![]()
無限生成能力:將長視頻生成定義為“視頻續寫”,通過統一歷史注入框架,將一個原本只能生成固定長度的雙向預訓練模型,轉化為一個自回歸生成器,并原生支持文本生成視頻(T2V)、圖像生成視頻(I2V)和視頻生成視頻(V2V)三種任務。
高質量抗漂移:深入分析了視頻漂移的三種典型形態(位置漂移、色彩漂移、修復漂移),并提出了簡單有效的抗漂移訓練策略,在不進行昂貴的長視頻微調的情況下,實現了分鐘級視頻的穩定生成。
實時生成效率:提出深度壓縮流,從令牌和采樣步數兩個視角進行深度壓縮。結合基礎設施級的優化,使得一個14B模型的計算成本降低到與1.3B模型相當甚至更低。
接下來,我們將深入剖析這三個維度的具體技術細節。
03.
無限生成:統一歷史注入
3.1 表示控制:將長視頻建模為續寫任務
Helios的核心思想是將歷史幀作為明確的條件輸入。模型的輸入是歷史上下文 X_Hist 和噪聲上下文 X_Noisy 的拼接。X_Hist 包含已生成的干凈幀,X_Noisy 是待去噪生成的新幀。模型基于 X_Hist 對 X_Noisy 進行去噪,生成與歷史內容在時序上連貫的續寫片段。通過不斷迭代此過程(將新生成的幀加入歷史,生成下一片段),理論上可以實現無限長度的視頻生成。
這種方法巧妙地將任務統一了起來:當 X_Hist 全為零時,模型執行T2V;當 X_Hist 只有最后一幀非零時,執行I2V;當 X_Hist 包含多幀時,執行V2V。
3.2 引導注意力:區分對待歷史與噪聲上下文
論文指出,歷史上下文(干凈、已對齊文本)與噪聲上下文(嘈雜、待生成)特性不同,應區別對待。Helios設計了引導注意力機制:
在自注意力層:模型會計算歷史和噪聲上下文各自的查詢、鍵、值張量,并通過一個可學習的“放大令牌” amp 來調制歷史鍵,從而選擇性地放大或抑制歷史信息,讓模型更專注于最具判別性的歷史特征。
在交叉注意力層:文本信息只注入到噪聲上下文 X_Noisy 中,因為歷史上下文 X_Hist 已經包含了之前的語義信息,避免冗余注入。
這種設計確保歷史上下文扮演“引導者”角色,而不是被修改的“參與者”,增強了生成過程的穩定性。
04.
高質量抗漂移:簡單有效的策略
論文首次清晰地歸納了長視頻漂移的三種典型表現(如圖5所示),并提出了對應的解決方案。
![]()
4.1 相對旋轉位置編碼:解決位置漂移
位置漂移的主要原因是模型在推理時遇到了訓練時未見過的、超出訓練范圍的絕對時間位置索引。Helios提出了相對RoPE:無論生成多長的視頻,歷史上下文 X_Hist 的時間索引范圍始終固定(如0到 T_Hist),而噪聲上下文 X_Noisy 的索引則接續其后(如 T_Hist 到 T_Hist + T_Noisy)。這種相對索引方式使得模型能夠穩定生成任意長度的視頻,同時也緩解了RoPE周期性與多頭注意力交互導致的重復運動問題。
4.2 首幀錨點:抑制色彩漂移
通過對正常視頻與漂移視頻的統計指標(飽和度、美學分數、RGB均值/方差)隨時間變化的曲線分析(如圖6所示),論文發現漂移視頻會在某個時刻發生統計特性的突然偏移。基于此,Helios在訓練和推理時,始終將視頻的第一幀保留在歷史上下文 X_Hist 中。這一“首幀錨點”作為一個全局視覺參照,有效地約束了后續生成內容的分布,防止色彩等整體風格隨時間發生劇烈漂移。
![]()
4.3 幀感知破壞:抵抗修復漂移
修復漂移指的是模型在推理時,以其自身生成的、帶有瑕疵的輸出作為歷史條件,導致誤差累積。為此,Helios在訓練階段引入了幀感知破壞,模擬推理時可能遇到的劣質歷史幀。對于每一幀歷史,隨機施加曝光調整、加噪、降采樣后上采樣等擾動,強迫模型學習對不完美歷史輸入的魯棒性,從而在推理時能更好地應對自回歸生成中的誤差累積。
05.
實時生成:深度壓縮流
實現實時的關鍵在于“降本增效”。Helios從兩個層面進行了深度壓縮。
(一)從令牌視角壓縮:減少計算量
5.1.1 多項記憶塊化:壓縮歷史上下文
并非所有歷史幀都對預測未來同等重要。近距離歷史幀對局部運動至關重要,而遠距離歷史幀主要提供全局上下文。基于此,Helios采用分層窗口,將 X_Hist 分為短期、中期、長期三部分,并分別使用不同尺寸的卷積核進行塊化處理。距離越遠,壓縮比率越大。如圖7所示,這種設計在固定令牌預算下,顯著擴展了模型能“看到”的歷史范圍,大幅減少了參與注意力計算的歷史令牌數量。
![]()
5.1.2 金字塔統一預測校正器:壓縮噪聲上下文
受到“早期采樣步驟主導全局結構,后期步驟精修細節”的啟發,Helios提出了金字塔式采樣策略。如圖8所示,去噪過程被劃分為多個階段,每個階段在不同的空間分辨率上進行:
![]()
低分辨率階段:關注效率,快速確定全局布局、色彩等。
中分辨率階段:平衡質量與效率。
高分辨率階段:專注質量,精細雕琢細節。
模型學習跨尺度的速度場,并采用統一預測校正器來跨階段協調。這種多尺度處理使總計算量從 O(HW N) 降至接近 O(HW N/K),其中 K 是階段數。在實現相同畫質的前提下,計算量大幅降低。
(二)從步數視角壓縮:減少采樣步驟
要將一個需要50步采樣的擴散模型加速到幾步,蒸餾是關鍵。Helios提出了對抗分層蒸餾,在分布匹配蒸餾(DMD)框架上進行了多項改進(如圖9所示):
![]()
純教師強迫:使用高質量的Helios-Base模型作為教師,且在蒸餾訓練時,歷史上下文完全由真實的視頻幀提供(而非像其他方法那樣使用模型自回滾生成的幀),避免了高昂的“訓練即推理”回滾計算,極大提升了訓練效率。
分階段反向模擬:將反向采樣過程也分解為與金字塔采樣對應的多個階段,與分層壓縮的推理流程對齊。
由粗到精的學習策略:通過OD E初始化和動態重加噪等課程學習技巧,穩定分層蒸餾的優化過程。
對抗后訓練:在蒸餾之后,加入一個基于真實數據的GAN損失,進一步突破教師模型的性能上限,提升生成質量。
最終,Helios將采樣步驟從50步壓縮到了僅需3步,且無需分類器自由引導(CFG),進一步提速。
06.
基礎設施優化與實驗驗證
6.1 基礎設施優化為了在有限的內存資源(單張H100 80GB)上訓練和推理這個龐大的模型,論文還介紹了一系列底層優化:
分片EMA:將指數移動平均參數分片存儲在多卡上,節省內存。
異步顯存釋放:在蒸餾訓練中,按需加載和卸載生成器、評分器等模型,通過流水線掩蓋數據傳輸開銷。
緩存梯度用于GAN:針對GAN判別器的訓練,通過緩存梯度來解耦反向傳播,提前釋放中間激活值,降低峰值內存占用。
Flash內核優化:實現了高性能的LayerNorm/RMSNorm和旋轉位置編碼的Triton內核,減少了內存訪問,提升了計算吞吐。
6.2 實驗結果論文構建了一個名為 HeliosBench 的全新基準,包含240個提示詞,覆蓋極短到長四個時長等級(81, 240, 720, 1440幀)。實驗結果表明:
速度與性能:如圖1和圖2所示,在單張H100上,Helios(蒸餾版)的推理速度遠超同級別的模型(如Wan2.1 14B),甚至快于一些經過蒸餾的1.3B小模型(如某些實時生成方案)。同時,在短、長視頻生成任務上,其質量評分均顯著優于現有的蒸餾模型,與強大的基礎模型性能相當。
![]()
長視頻質量:如圖3的案例所示,Helios能夠生成連貫、高質量、長達1440幀(約48秒)的長視頻,細節豐富,運動自然,無明顯漂移。
![]()
消融實驗:論文通過詳盡的消融研究,驗證了所提出的統一歷史注入、抗漂移技術、深度壓縮流等各個模塊的有效性和必要性。
07.
總結與展望
Helios的工作為視頻生成領域帶來了一個兼具實用性與研究價值的范式。它首次證明了一個140億參數的大模型,完全可以在單張GPU上實現實時、長時、高質量的視頻生成。其技術創新是系統性的:
在架構上,提出了統一歷史注入框架,優雅地統一了T2V/I2V/V2V任務。
在訓練上,揭示了漂移的本質并提供了輕量級的解決方案,避免了對長視頻數據的依賴。
在效率上,通過深度壓縮流和對抗分層蒸餾,實現了數量級的速度提升。
在工程上,通過一系列內存與計算優化,讓大模型的訓練與部署變得可行。
Helios團隊開源代碼、基礎模型和蒸餾模型,這將極大地推動社區在實時長視頻生成方向的探索。這項工作不僅為游戲、影視、交互式內容創作等應用打開了新的想象空間,也為構建更高效的“世界模擬器”奠定了重要的技術基礎。
----- END -----
wisemodel相關:
系列模型:
![]()
關于wisemodel更多
![]()
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.