337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

視頻生成三大難題,被智譜這四項開源技術攻克了

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

過去一周,智譜 GLM 先后開源了多模態模型家族:從「眼睛看得見」的視覺理解模型 GLM?4.6V,到「手能動起來」的 AutoGLM,再到「語音聽得懂」的 GLM?ASR,與「話能說出口」的 GLM?TTS。

GLM 團隊希望讓大模型逐步擁有人的世界知識、記憶能力、復雜推理能力,以及擁有多模態處理能力,最終實現 AGI。在一周內,智譜 GLM 開源了覆蓋視覺理解、設備操作、語音的多模態模型,從文本擴展到多模態,不斷探尋智能邊界。

在多模態開源周的收官之日,智譜 GLM 再開源四項面向視頻生成的核心技術成果:SCAIL、RealVideo、Kaleido 與 SSVAE。它們對準當前視頻生成領域的三大難點:精細化可控生成、復雜時空結構建模,以及大規模訓練成本控制。

SCAIL:影視級角色動畫生成框架,實現 SOTA 姿態控制;

RealVideo:實時流式視頻生成系統,僅 2-3 秒首響延遲;

Kaleido:多主體視頻生成框架,一致性開源 SOTA;

SSVAE:頻譜結構化變分自編碼器 VAE,3 倍收斂加速。

智譜 GLM 希望通過開源這四項底層技術,為繁榮的視頻生成技術社區、產品社區,提供一些工程方案與理論研究,方便社區直接復現與二次開發。已上線始智AI-wisemodel開源社區,歡迎體驗。


模型地址

https://wisemodel.cn/organization/ZhipuAI

01.

SCAIL:影視級復雜姿態控制角色動畫

開源周謝幕之

,來自SCAIL復雜
姿態控

姿態可控角色動畫生成(Pose Controlled Character Animation)可以實現讓一張照片根據指定動作運動。然而,基于2D骨骼點的傳統方法由于無法編碼深度信息與遮擋關系,在處理復雜動作(如空翻、街舞)時,常導致肢體結構崩壞或違反物理規律。進一步,由于姿態編碼和姿態輸入方式的限制,該技術始終難以實現多人復雜交互動作的生成,難以面對影視級專業需求。

智譜與清華劉永進教授課題組合作提出了一套面向影視級標準的角色動畫生成框架SCAIL(Studio-grade Character Animation via In-context Learning),通過識別角色動畫中的關鍵瓶頸,即姿態表征與注入機制,解決了生成過程中的時空一致性問題,不僅在單人運動上取得了SOTA效果,更將角色動畫應用場景擴展到復雜多人交互。


3D一致性姿態表征3D-Consistent Pose RepresentationSCAIL摒棄了傳統的2D關鍵點或帶有身份 信息 的SMPL Mesh方案。 通過 利用3D關節點估計,并在3D空間中將其拓撲結構 光柵化 渲染為柱體 骨骼 。這種表征方式顯式地編碼了深度與遮擋關系,使模型能夠區分肢體的前后空間位置,從而在復雜遮擋場景下保持結構完整 ,并且能夠進行運動信息保持的增強 ( Augmentation ) 和重定向 ( Retarget ) 。

全上下文姿態注入Full-Context Pose Injection)針對傳統ControlNet或Adapter逐幀控制缺乏全局視野的問題,SCAIL在DiT架構中設計了全上下文注入機制 ,并 在序列維度上通過 Pose-Shifted RoPE (姿態偏移旋轉位置編碼) 區分控制信號, 迫使模型在生成每一幀時,不僅關注當前時刻,還能對整個動作序列進行時空推理(Spatio-temporal reasoning)。



SCAIL的模型架構圖

02.

RealVideo:實時視頻生成對話系統


基于RealVideo和GLM-TTS聲音克隆,一張圖片+三秒語音,即可與AI角色開啟實時對話。

如今,生成式模型已在視聽質量上取得驚人突破,但目前主流的視頻生成模型往往延遲很高,需要等待1分鐘以上,才能生成一個5秒左右長度的視頻。

為了解決這一問題,團隊研發了實時流式視頻生成系統RealVideo。

RealVideo的核心突破在于將視頻生成的首響延遲從數分鐘大幅壓縮到了2至3秒。正如大家在演示視頻中看到的,用戶只需提供一張靜態照片并提問,兩三秒后,畫面中的人物就能開始流暢、自然地進行回答。這種低延遲的生成能力,支持輸出長達數分鐘的連續對話或演講視頻,讓AI交互從單純的文字或語音對話真正邁向了“實時視頻對話”。

為了實現這一效果,RealVideo在模型架構和工程鏈路上進行了以下三項關鍵改進:

  • 自回歸模型對抗訓練:RealVideo 使用了Self-forcing的框架在雙向視頻生成模型作為教師模型的監督下可以很快的學習到自回歸生成的模式,同時使用了對抗損失進行監督,將視頻漂移的問題大幅減少。

  • 滑動注意力窗口與Dynamic Sink RoPE:為了保證實時生成的延遲在可控的范圍內, RealVideo 使用了滑動窗口的策略,當視頻的整體長度大于k時會對之前幀的kv cache進行截斷,從而保證了模型上下文窗口大小為常數,為無限長生成提供了可能。同時Dynamic Sink RoPE策略可以保證相對位置編碼的訓練-推理一致,防止人物形象出現漂移。

  • 流水線Pipeline:針對大模型對話、文本轉語音、視頻生成、VAE解碼等多個流程搭建了一套流水線并行的管線,將CPU、GPU以及API的運行時間盡可能重疊從而極大的降低了首響延遲且提高了生成幀率。從而達到了實時對話的效果。

03.

Kaleido:多主體一致性生成框架

Kaleido在多主體(如人物+物體)及受控背景下的生成效果

在多主體(Multi-Subject)視頻生成任務中,現有模型難以在保持多個參考形象一致性的同時,有效提取參考主體的真正身份特征。常見問題是在生成視頻中直接復制參考圖像,將參考圖中的背景和主體的姿態等信息誤認為主體身份特征,導致生成的主體運動不夠靈活、表現力不足。

Kaleido 針對多主體生成的挑戰,提出了一套從數據構建到參考信息注入的完整解決方案,在開源模型中達到了SOTA表現。


  • Reference Rotary Positional EncodingR-ROPE:為了在 DiT 架構中精確區分不同的參考圖像與視頻 Token,Kaleido 引入了 R-ROPE 機制。該機制對參考圖像的 Token 進行獨立的旋轉位置編碼,通過顯式的空間位移,在注意力計算層面確立了不同主體與視頻幀之間的清晰邊界,有效解決了多主體特征混淆的問題。

  • Cross-Paired 數據構建管線針對背景糾纏問題,構建了包含背景修復與運動增強的數據處理管線,合成了大量跨配對訓練數據。這一策略強迫模型在訓練時必須從參考圖中解耦出主體特征,而非簡單復制像素,從而大幅提升了背景解耦能力。


Kaleido的模型架構圖

04.

SSVAE:基于譜分析的視頻VAE隱空間優化

視頻生成模型的訓練成本極高,而業界傳統的視頻VAE優化目標主要針對像素級重構質量。但研究發現,相比于重構質量,隱變量結構對擴散模型的收斂貢獻更大。

SSVAE(Spectral-Structured VAE)從譜分析的第一性原理出發,揭示了影響擴散模型訓練效率的關鍵統計特性,并據此優化 VAE 的訓練目標。

  • 譜特性分析與正則化 :通過大量實驗發現,具有 時空低頻偏置 ( Low-Frequency Bias ) 和通道特征值的 少 模式 偏置 ( Few-Mode Bias ) 的隱空間分布,能顯著加速擴散模型的訓練。



  • 訓練效率提升實驗數據表明,使用SSVAE提取的Latent訓練視頻擴散模型,在達到相同生成質量的前提下, 收斂速度提升了3倍 。同時,SSVAE僅需1.3B 參數量的擴散模型 即可在性能上超越 基于Wan 2.2 VAE的 4B參數量的 擴散模型 。


SSVAE通過譜正則化,在訓練收斂速度和 Video Reward 上相對于 Baseline 的顯著提升,超越Wan 2.2 VAE。

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核⒋笮突ヂ摼W公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
徐杰喊話全隊!杜鋒聽勸扶正3人,廣東傳4利好,下場有望復仇江蘇

徐杰喊話全隊!杜鋒聽勸扶正3人,廣東傳4利好,下場有望復仇江蘇

后仰大風車
2026-03-30 07:10:14
日本最先研究出了氫能電池,于是日本申請了上千個專利,獨家生產

日本最先研究出了氫能電池,于是日本申請了上千個專利,獨家生產

南權先生
2026-02-24 15:52:07
美國也沒想到,轉為中國籍僅6年,谷愛凌竟已成美國頭號勁敵

美國也沒想到,轉為中國籍僅6年,谷愛凌竟已成美國頭號勁敵

削桐作琴
2026-02-25 18:15:14
特朗普宣布訪華新日期,不到48小時,中方不留情面,連續反制

特朗普宣布訪華新日期,不到48小時,中方不留情面,連續反制

知鑒明史
2026-03-29 13:23:26
2007年,孔令儀在上海宋慶齡陵園掃墓時的留影,第二年她就去世了

2007年,孔令儀在上海宋慶齡陵園掃墓時的留影,第二年她就去世了

芳芳歷史燴
2026-03-30 12:05:05
他在華野無歸屬感?曾與李先念有芥蒂,想當軍事主官一直當參謀長

他在華野無歸屬感?曾與李先念有芥蒂,想當軍事主官一直當參謀長

小莜讀史
2026-03-30 09:44:49
中國摩托的越南復仇:從“工業垃圾”到“平替神車”

中國摩托的越南復仇:從“工業垃圾”到“平替神車”

沙雕小琳琳
2026-03-28 10:15:55
張雪峰生前談父親淚流滿面!父子倆的命運都很悲情

張雪峰生前談父親淚流滿面!父子倆的命運都很悲情

細品名人
2026-03-29 07:53:24
四川省委金融工委專職副書記王巖辭擬任正廳級領導職務

四川省委金融工委專職副書記王巖辭擬任正廳級領導職務

汲古知新
2026-03-30 14:22:31
塔圖姆砍復出首個30+ 綠軍連續第12年闖進季后賽

塔圖姆砍復出首個30+ 綠軍連續第12年闖進季后賽

體壇周報
2026-03-30 18:50:22
1955年大授銜,賀老總對羅帥說:這個副軍長情況特殊,請授中將

1955年大授銜,賀老總對羅帥說:這個副軍長情況特殊,請授中將

棠棣分享
2026-03-30 17:24:39
福建省委決定,陳長榮履新

福建省委決定,陳長榮履新

人民資訊
2026-03-30 17:25:08
跟低學歷妹子談戀愛是啥體驗?網友:低社會化人群被女版黃毛拿下

跟低學歷妹子談戀愛是啥體驗?網友:低社會化人群被女版黃毛拿下

帶你感受人間冷暖
2026-03-28 16:48:21
一艘俄羅斯油輪獲美方“放行”駛向古巴 特朗普:伊朗已允許20艘油輪通過霍爾木茲海峽

一艘俄羅斯油輪獲美方“放行”駛向古巴 特朗普:伊朗已允許20艘油輪通過霍爾木茲海峽

每日經濟新聞
2026-03-30 13:17:45
4月1日起嚴查風暴啟動:終身追責動真格,這些紅線千萬別碰

4月1日起嚴查風暴啟動:終身追責動真格,這些紅線千萬別碰

三農老歷
2026-03-30 11:52:15
難怪特朗普不想打了,五角大樓公開真實傷亡,美軍終付血的代價?

難怪特朗普不想打了,五角大樓公開真實傷亡,美軍終付血的代價?

探源歷史
2026-03-29 16:59:24
丁彥雨航:想融入NBA一定得會英語;NBA球員太卷了真的比不了

丁彥雨航:想融入NBA一定得會英語;NBA球員太卷了真的比不了

懂球帝
2026-03-30 10:11:07
“下周將被部署的美國士兵在脫衣舞俱樂部揮霍,很年輕,像胎兒一樣”

“下周將被部署的美國士兵在脫衣舞俱樂部揮霍,很年輕,像胎兒一樣”

觀察者網
2026-03-30 13:21:06
國足戰喀麥隆或變陣3中衛!訓練曝光防線首發:朱辰杰+4位U23紅星

國足戰喀麥隆或變陣3中衛!訓練曝光防線首發:朱辰杰+4位U23紅星

我愛英超
2026-03-30 10:26:14
復婚二胎傳聞落定七月,趙麗穎近況曝光讓人揪心

復婚二胎傳聞落定七月,趙麗穎近況曝光讓人揪心

阿廢冷眼觀察所
2026-03-29 18:46:36
2026-03-30 19:52:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

河南女子舉報母親去世后被結婚 官方通報

頭條要聞

河南女子舉報母親去世后被結婚 官方通報

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

藝術
手機
家居
公開課
軍事航空

藝術要聞

600 年前的「產亡孤魂」,藏著中國女性最痛的記憶

手機要聞

哈蘇雙2億小屏旗艦!OPPO Find X9s Pro官宣:4月見

家居要聞

東方法式美學 現代簡約

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

無障礙瀏覽 進入關懷版