337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Seedance3.0技術曝光!Helios首個單卡實時生成長視頻模型開源

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。

在人工智能領域,尤其是視頻生成方向,一個核心的“不可能三角”長期困擾著研究者:高畫質、長時長、實時生成。Seedance 2.0雖然能生成驚艷的短視頻片段,但通常每生成5-10秒的視頻就需要耗費數分鐘甚至數十分鐘的計算時間,且視頻時長難以突破訓練時的限制。據推特的有關爆料,其下個版本Seedance 3.0的目標和Helios一樣,即在超大規模參數參數模型上實現長視頻的實時生成。


由北京大學、字節跳動、Canva等機構聯合提出的 Helios模型,旨在打破這一僵局。Helios是一個擁有140億(14B)參數的巨大模型,卻在單張NVIDIA H100 GPU上實現了高達 19.5 FPS 的端到端推理速度(比1.3B還快),同時支持分鐘級別的長視頻生成,且畫質堪比當前最強的基線模型(如14B的Wan)。這一成果標志著視頻生成領域向著“實時、無限、高質量”的目標邁出了關鍵一步。Helios系列模型已經發布在wisemodel社區,歡迎前往了解詳情~


模型地址

https://wisemodel.cn/models/SHYuanBest/Helios-Base

01.

核心挑戰與目標

論文開篇便明確指出了當前視頻生成領域的三大瓶頸:

  1. 實時性差:即使是最先進的開源模型(如Wan2.1 14B),生成一個5秒視頻在單張A100上需耗時約50分鐘。一些宣稱“實時”的方案,要么基于小模型(1.3B參數),畫質有限;要么依賴多卡并行,并非真正的單卡實時。

  2. 長視頻漂移:模型通常在短片段上訓練,在自回歸生成長視頻時,累積的誤差會導致畫面出現位置跳變、色彩失真、細節模糊等“漂移”現象,破壞視頻的連貫性。

  3. 計算成本高昂:訓練和推理一個14B參數的視頻擴散模型需要巨大的計算和內存資源,通常依賴于復雜的模型并行與分片框架,限制了其研究和應用的可及性。


Helios的目標是構建一個系統,在不依賴諸如KV緩存、稀疏注意力、量化等常規加速技術,也不使用自強迫、錯誤庫等防漂移技巧的前提下,同步解決以上三個問題。

02.

Helios的整體方案

為了實現目標,Helios團隊沿著三個關鍵維度進行了系統性創新,其整體架構如圖4所示。



  1. 無限生成能力:將長視頻生成定義為“視頻續寫”,通過統一歷史注入框架,將一個原本只能生成固定長度的雙向預訓練模型,轉化為一個自回歸生成器,并原生支持文本生成視頻(T2V)、圖像生成視頻(I2V)和視頻生成視頻(V2V)三種任務。

  2. 高質量抗漂移:深入分析了視頻漂移的三種典型形態(位置漂移、色彩漂移、修復漂移),并提出了簡單有效的抗漂移訓練策略,在不進行昂貴的長視頻微調的情況下,實現了分鐘級視頻的穩定生成。

  3. 實時生成效率:提出深度壓縮流,從令牌和采樣步數兩個視角進行深度壓縮。結合基礎設施級的優化,使得一個14B模型的計算成本降低到與1.3B模型相當甚至更低。

接下來,我們將深入剖析這三個維度的具體技術細節。

03.

無限生成:統一歷史注入

3.1 表示控制:將長視頻建模為續寫任務

Helios的核心思想是將歷史幀作為明確的條件輸入。模型的輸入是歷史上下文 X_Hist 和噪聲上下文 X_Noisy 的拼接。X_Hist 包含已生成的干凈幀,X_Noisy 是待去噪生成的新幀。模型基于 X_Hist 對 X_Noisy 進行去噪,生成與歷史內容在時序上連貫的續寫片段。通過不斷迭代此過程(將新生成的幀加入歷史,生成下一片段),理論上可以實現無限長度的視頻生成。

這種方法巧妙地將任務統一了起來:當 X_Hist 全為零時,模型執行T2V;當 X_Hist 只有最后一幀非零時,執行I2V;當 X_Hist 包含多幀時,執行V2V。

3.2 引導注意力:區分對待歷史與噪聲上下文

論文指出,歷史上下文(干凈、已對齊文本)與噪聲上下文(嘈雜、待生成)特性不同,應區別對待。Helios設計了引導注意力機制:

  • 在自注意力層:模型會計算歷史和噪聲上下文各自的查詢、鍵、值張量,并通過一個可學習的“放大令牌” amp 來調制歷史鍵,從而選擇性地放大或抑制歷史信息,讓模型更專注于最具判別性的歷史特征。

  • 在交叉注意力層:文本信息只注入到噪聲上下文 X_Noisy 中,因為歷史上下文 X_Hist 已經包含了之前的語義信息,避免冗余注入。

這種設計確保歷史上下文扮演“引導者”角色,而不是被修改的“參與者”,增強了生成過程的穩定性。

04.

高質量抗漂移:簡單有效的策略

論文首次清晰地歸納了長視頻漂移的三種典型表現(如圖5所示),并提出了對應的解決方案。


4.1 相對旋轉位置編碼:解決位置漂移

位置漂移的主要原因是模型在推理時遇到了訓練時未見過的、超出訓練范圍的絕對時間位置索引。Helios提出了相對RoPE:無論生成多長的視頻,歷史上下文 X_Hist 的時間索引范圍始終固定(如0到 T_Hist),而噪聲上下文 X_Noisy 的索引則接續其后(如 T_Hist 到 T_Hist + T_Noisy)。這種相對索引方式使得模型能夠穩定生成任意長度的視頻,同時也緩解了RoPE周期性與多頭注意力交互導致的重復運動問題。

4.2 首幀錨點:抑制色彩漂移

通過對正常視頻與漂移視頻的統計指標(飽和度、美學分數、RGB均值/方差)隨時間變化的曲線分析(如圖6所示),論文發現漂移視頻會在某個時刻發生統計特性的突然偏移。基于此,Helios在訓練和推理時,始終將視頻的第一幀保留在歷史上下文 X_Hist 中。這一“首幀錨點”作為一個全局視覺參照,有效地約束了后續生成內容的分布,防止色彩等整體風格隨時間發生劇烈漂移。


4.3 幀感知破壞:抵抗修復漂移

修復漂移指的是模型在推理時,以其自身生成的、帶有瑕疵的輸出作為歷史條件,導致誤差累積。為此,Helios在訓練階段引入了幀感知破壞,模擬推理時可能遇到的劣質歷史幀。對于每一幀歷史,隨機施加曝光調整、加噪、降采樣后上采樣等擾動,強迫模型學習對不完美歷史輸入的魯棒性,從而在推理時能更好地應對自回歸生成中的誤差累積。

05.

實時生成:深度壓縮流

實現實時的關鍵在于“降本增效”。Helios從兩個層面進行了深度壓縮。

(一)從令牌視角壓縮:減少計算量

5.1.1 多項記憶塊化:壓縮歷史上下文

并非所有歷史幀都對預測未來同等重要。近距離歷史幀對局部運動至關重要,而遠距離歷史幀主要提供全局上下文。基于此,Helios采用分層窗口,將 X_Hist 分為短期、中期、長期三部分,并分別使用不同尺寸的卷積核進行塊化處理。距離越遠,壓縮比率越大。如圖7所示,這種設計在固定令牌預算下,顯著擴展了模型能“看到”的歷史范圍,大幅減少了參與注意力計算的歷史令牌數量。


5.1.2 金字塔統一預測校正器:壓縮噪聲上下文

受到“早期采樣步驟主導全局結構,后期步驟精修細節”的啟發,Helios提出了金字塔式采樣策略。如圖8所示,去噪過程被劃分為多個階段,每個階段在不同的空間分辨率上進行:



  • 低分辨率階段:關注效率,快速確定全局布局、色彩等。

  • 中分辨率階段:平衡質量與效率。

  • 高分辨率階段:專注質量,精細雕琢細節。


模型學習跨尺度的速度場,并采用統一預測校正器來跨階段協調。這種多尺度處理使總計算量從 O(HW N) 降至接近 O(HW N/K),其中 K 是階段數。在實現相同畫質的前提下,計算量大幅降低。

(二)從步數視角壓縮:減少采樣步驟

要將一個需要50步采樣的擴散模型加速到幾步,蒸餾是關鍵。Helios提出了對抗分層蒸餾,在分布匹配蒸餾(DMD)框架上進行了多項改進(如圖9所示):


  • 純教師強迫:使用高質量的Helios-Base模型作為教師,且在蒸餾訓練時,歷史上下文完全由真實的視頻幀提供(而非像其他方法那樣使用模型自回滾生成的幀),避免了高昂的“訓練即推理”回滾計算,極大提升了訓練效率。

  • 分階段反向模擬:將反向采樣過程也分解為與金字塔采樣對應的多個階段,與分層壓縮的推理流程對齊。

  • 由粗到精的學習策略:通過OD E初始化和動態重加噪等課程學習技巧,穩定分層蒸餾的優化過程。

  • 對抗后訓練:在蒸餾之后,加入一個基于真實數據的GAN損失,進一步突破教師模型的性能上限,提升生成質量。

最終,Helios將采樣步驟從50步壓縮到了僅需3步,且無需分類器自由引導(CFG),進一步提速。

06.

基礎設施優化與實驗驗證

6.1 基礎設施優化為了在有限的內存資源(單張H100 80GB)上訓練和推理這個龐大的模型,論文還介紹了一系列底層優化:

  • 分片EMA:將指數移動平均參數分片存儲在多卡上,節省內存。

  • 異步顯存釋放:在蒸餾訓練中,按需加載和卸載生成器、評分器等模型,通過流水線掩蓋數據傳輸開銷。

  • 緩存梯度用于GAN:針對GAN判別器的訓練,通過緩存梯度來解耦反向傳播,提前釋放中間激活值,降低峰值內存占用。

  • Flash內核優化:實現了高性能的LayerNorm/RMSNorm和旋轉位置編碼的Triton內核,減少了內存訪問,提升了計算吞吐。


6.2 實驗結果論文構建了一個名為 HeliosBench 的全新基準,包含240個提示詞,覆蓋極短到長四個時長等級(81, 240, 720, 1440幀)。實驗結果表明:

  • 速度與性能:如圖1和圖2所示,在單張H100上,Helios(蒸餾版)的推理速度遠超同級別的模型(如Wan2.1 14B),甚至快于一些經過蒸餾的1.3B小模型(如某些實時生成方案)。同時,在短、長視頻生成任務上,其質量評分均顯著優于現有的蒸餾模型,與強大的基礎模型性能相當。



  • 長視頻質量:如圖3的案例所示,Helios能夠生成連貫、高質量、長達1440幀(約48秒)的長視頻,細節豐富,運動自然,無明顯漂移。


  • 消融實驗:論文通過詳盡的消融研究,驗證了所提出的統一歷史注入、抗漂移技術、深度壓縮流等各個模塊的有效性和必要性。

07.

總結與展望

Helios的工作為視頻生成領域帶來了一個兼具實用性與研究價值的范式。它首次證明了一個140億參數的大模型,完全可以在單張GPU上實現實時、長時、高質量的視頻生成。其技術創新是系統性的:

  • 在架構上,提出了統一歷史注入框架,優雅地統一了T2V/I2V/V2V任務

  • 在訓練上,揭示了漂移的本質并提供了輕量級的解決方案,避免了對長視頻數據的依賴。

  • 在效率上,通過深度壓縮流和對抗分層蒸餾,實現了數量級的速度提升。

  • 在工程上,通過一系列內存與計算優化,讓大模型的訓練與部署變得可行。

Helios團隊開源代碼、基礎模型和蒸餾模型,這將極大地推動社區在實時長視頻生成方向的探索。這項工作不僅為游戲、影視、交互式內容創作等應用打開了新的想象空間,也為構建更高效的“世界模擬器”奠定了重要的技術基礎。

----- END -----

wisemodel相關:

系列模型:


關于wisemodel更多


1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
4月起,這4樣東西或迎來價值翻倍,說不定你家就有,一起看看!

4月起,這4樣東西或迎來價值翻倍,說不定你家就有,一起看看!

小談食刻美食
2026-03-29 08:33:35
《浪姐7》首播:闞清子李小冉曬人脈,唯獨她的朋友不大給面子

《浪姐7》首播:闞清子李小冉曬人脈,唯獨她的朋友不大給面子

椰黃娛樂
2026-03-28 16:07:25
伊朗伊斯蘭革命衛隊證實:海軍司令坦格西里死于空襲

伊朗伊斯蘭革命衛隊證實:海軍司令坦格西里死于空襲

齊魯壹點
2026-03-30 16:11:17
澳門世界杯:王藝迪首秀大獲全勝!狂轟3-0橫掃對手輕松過關

澳門世界杯:王藝迪首秀大獲全勝!狂轟3-0橫掃對手輕松過關

全言作品
2026-03-30 12:57:58
蟒蛇為啥都是無毒蛇?有毒不是更厲害嗎?

蟒蛇為啥都是無毒蛇?有毒不是更厲害嗎?

普陀動物世界
2026-03-28 12:05:39
78歲汪明荃回上海老家探親,帶羅家英給祖父母掃墓,順便踏青賞花

78歲汪明荃回上海老家探親,帶羅家英給祖父母掃墓,順便踏青賞花

阿傖說事
2026-03-30 09:58:45
這6個“養生動作”被嚴重低估了!尤其第2個,降壓效果被科學驗證

這6個“養生動作”被嚴重低估了!尤其第2個,降壓效果被科學驗證

人民日報健康客戶端
2026-03-27 07:33:38
勇士截止日前一小時報價小卡 追逐詹姆斯并非謠言

勇士截止日前一小時報價小卡 追逐詹姆斯并非謠言

體壇周報
2026-03-30 16:11:23
鄭麗文受邀訪陸后!中方制裁日議員,盧秀燕慌了,美緊急派人赴臺

鄭麗文受邀訪陸后!中方制裁日議員,盧秀燕慌了,美緊急派人赴臺

潮鹿逐夢
2026-03-30 11:58:06
戰火反噬!內塔尼亞胡妻兒赴美避險,只許傷人不許挨打的時代終結

戰火反噬!內塔尼亞胡妻兒赴美避險,只許傷人不許挨打的時代終結

通鑒史智
2026-03-30 14:57:07
俄方發聲:已越過紅線

俄方發聲:已越過紅線

陸棄
2026-03-30 09:35:03
雖敗猶榮:武漢會戰雖失敗,但慘勝的日本有多慘?

雖敗猶榮:武漢會戰雖失敗,但慘勝的日本有多慘?

史韻流轉
2026-03-30 09:23:41
陳賡追悼會上,林彪主祭羅瑞卿致悼詞,十大元帥到場九位,誰沒來?

陳賡追悼會上,林彪主祭羅瑞卿致悼詞,十大元帥到場九位,誰沒來?

文史明鑒
2026-03-24 18:38:12
晉升最快的開國中校:72年晉升為軍長,80年成為廣州軍區的副司令

晉升最快的開國中校:72年晉升為軍長,80年成為廣州軍區的副司令

兵卒史
2026-03-30 14:56:15
協和心外科主任55萬投貴州茅臺,20年凈賺1100萬,終獲時間饋贈

協和心外科主任55萬投貴州茅臺,20年凈賺1100萬,終獲時間饋贈

真實人物采訪
2026-03-30 07:35:03
雷霆記者替SGA拉票:歷史上沒有場均出場時間少于30分鐘的MVP

雷霆記者替SGA拉票:歷史上沒有場均出場時間少于30分鐘的MVP

懂球帝
2026-03-30 13:24:10
默多克離婚時贈鄧文迪5億股權,如今附加條款生效,子女們都懵了

默多克離婚時贈鄧文迪5億股權,如今附加條款生效,子女們都懵了

她時尚丫
2026-02-24 20:50:07
羅永浩楊笠事件。

羅永浩楊笠事件。

貼小君
2026-03-28 13:34:08
高596米!天津117大廈塔冠“鉆石”首吊成功!

高596米!天津117大廈塔冠“鉆石”首吊成功!

GA環球建筑
2026-03-29 20:08:44
連櫻花都不敢看,談何文化自信?別讓“恐日癥”鎖死中國的春天

連櫻花都不敢看,談何文化自信?別讓“恐日癥”鎖死中國的春天

濤哥銳評
2026-03-27 19:49:57
2026-03-30 16:48:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

數碼
教育
家居
時尚
軍事航空

數碼要聞

小米米家吸頂燈Pro超薄版上架:可選方/圓款,849元起

教育要聞

義務教育搖號“可以操作”?教育局辟謠:典型騙局,請別入坑!

家居要聞

東方法式美學 現代簡約

來到1980的周也,好毛利蘭

軍事要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

無障礙瀏覽 進入關懷版