337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

創(chuàng)智劉鵬飛、Sand.ai曹越,兩大AI青年學(xué)者團(tuán)隊(duì)聯(lián)手開(kāi)源音視頻模型

0
分享至



機(jī)器之心編輯部

開(kāi)源多模態(tài)生成領(lǐng)域,迎來(lái)架構(gòu)級(jí)的底層突破。

視頻生成已成為當(dāng)前生成式 AI 最前沿的方向,但在音視頻聯(lián)合同步生成領(lǐng)域,開(kāi)源界仍面臨三重局限:

  • 音視頻不同步:視頻和音頻往往語(yǔ)義對(duì)齊精度不足。
  • 架構(gòu)設(shè)計(jì)復(fù)雜:現(xiàn)有方案要么將音頻視為從屬信號(hào),要么通過(guò)復(fù)制骨干網(wǎng)絡(luò)來(lái)處理音頻,參數(shù)成本翻倍且推理優(yōu)化困難。
  • 生成速度慢:現(xiàn)有的音視頻聯(lián)合生成模型往往因?yàn)槟P图軜?gòu)設(shè)計(jì)復(fù)雜、難以充分優(yōu)化,從而導(dǎo)致生成速度較慢,難以滿足交互式場(chǎng)景的需求。

今日,由上海創(chuàng)智學(xué)院(SII)生成式人工智能研究實(shí)驗(yàn)室(GAIR)Sand.ai聯(lián)合研發(fā)的daVinci-MagiHuman正式開(kāi)源發(fā)布,打破了開(kāi)源界的這三重局限。

作為演繹級(jí)人像音視頻的開(kāi)源基座模型,daVinci-MagiHuman 以 150 億參數(shù)的單流 Transformer 為核心,實(shí)現(xiàn)了文本、視頻、音頻在統(tǒng)一骨干網(wǎng)絡(luò)下的聯(lián)合建模,徹底告別了跨注意力和模態(tài)專屬分支。



  • 代碼倉(cāng)庫(kù):https://github.com/GAIR-NLP/daVinci-MagiHuman
  • 模型權(quán)重:https://huggingface.co/GAIR/daVinci-MagiHuman
  • 在線 Demo 體驗(yàn):https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

研發(fā)團(tuán)隊(duì)介紹

這一成果由上海創(chuàng)智學(xué)院(SII)GAIR 實(shí)驗(yàn)室 與 Sand.ai 共同完成。

上海創(chuàng)智學(xué)院是由頂尖大學(xué)、頭部企業(yè)和科研機(jī)構(gòu)聯(lián)合建設(shè)的新型人才培養(yǎng)機(jī)構(gòu);其 GAIR 實(shí)驗(yàn)室由劉鵬飛博士領(lǐng)導(dǎo),聚焦生成式人工智能的前沿研究,涵蓋多模態(tài)視頻基座模型、文本大模型預(yù)訓(xùn)練及智能體構(gòu)建等方向。在多模態(tài)世界模型方面,實(shí)驗(yàn)室已展開(kāi)了系統(tǒng)性探索:從開(kāi)源首個(gè)原生無(wú)擴(kuò)散的多模態(tài)模型 Anole,到提出以生成圖像進(jìn)行思考的新范式 Thinking with Generated Images,再到面向?qū)崟r(shí)交互場(chǎng)景的 LiveTalk,以及面向數(shù)字世界理解與模擬的數(shù)字基因工作,逐步構(gòu)建起從多模態(tài)生成、視覺(jué)推理到實(shí)時(shí)交互的完整研究鏈條。近期,該實(shí)驗(yàn)室已產(chǎn)出 daVinci-MagiHuman、Data Darwinism、daVinci-Agency、daVinci-Dev 等一系列代表性工作。



Sand.ai 則是由馬爾獎(jiǎng)得主曹越博士所創(chuàng)立,專注于開(kāi)發(fā)視頻生成大模型,并以推動(dòng)通用人工智能(AGI)為目標(biāo)。先后發(fā)布全球首個(gè)自回歸視頻生成模型 Magi-1,以及主打「AI 演員」表現(xiàn)力的 GAGA-1 模型,在物理規(guī)則連貫性和原生音畫(huà)同步等領(lǐng)域都取得了突破性成果。

演繹級(jí)人像音視頻的開(kāi)源基座模型

daVinci-MagiHuman 是音視頻聯(lián)合生成的開(kāi)源基座模型。與許多依賴多流結(jié)構(gòu)、跨注意力模塊或模態(tài)專用融合分支的方案不同,daVinci-MagiHuman 采用了更為簡(jiǎn)潔的單流 Transformer 架構(gòu),以 150 億參數(shù)的統(tǒng)一骨干網(wǎng)絡(luò)聯(lián)合建模文本、視頻與音頻三種模態(tài),徹底告別跨注意力和模態(tài)專屬分支。這一設(shè)計(jì)不僅降低了系統(tǒng)復(fù)雜度,也讓訓(xùn)練與推理優(yōu)化更加直接、統(tǒng)一。

在能力上,daVinci-MagiHuman 尤其擅長(zhǎng)以人物為中心的生成任務(wù),能夠生成富有表現(xiàn)力的面部表情與自然語(yǔ)音,并實(shí)現(xiàn)精確的音視頻同步,覆蓋語(yǔ)音與口型協(xié)調(diào)、表情驅(qū)動(dòng)、動(dòng)作表現(xiàn)等場(chǎng)景。同時(shí),模型具備較強(qiáng)的多語(yǔ)言泛化能力,支持中文(普通話與粵語(yǔ))、英文、日文、韓文、德文、法文等多種語(yǔ)言的音視頻生成。

在推理效率方面,daVinci-MagiHuman 結(jié)合單流骨干網(wǎng)絡(luò)、隱空間超分辨率與 Turbo VAE 解碼器,在單張 H100 上僅需 2 秒即可生成 5 秒 256p 視頻。在與 LTX-2.3、Ovi 1.1 的全面對(duì)比中,daVinci-MagiHuman 在成對(duì)人工評(píng)測(cè)中取得了70.5%的綜合勝率,在客觀基準(zhǔn)上同樣展現(xiàn)出領(lǐng)先表現(xiàn)。

核心技術(shù)揭秘:?jiǎn)瘟?Transformer 統(tǒng)管所有模態(tài)



為了解決上述挑戰(zhàn),daVinci-MagiHuman 選擇了一條更直接的路線:把文本、視頻、音頻統(tǒng)一放入同一個(gè)單流 Transformer 去噪網(wǎng)絡(luò)中,以純自注意力完成聯(lián)合建模。在這一基礎(chǔ)上,模型進(jìn)一步采用了幾項(xiàng)關(guān)鍵設(shè)計(jì):

  • Sandwich 式主干網(wǎng)絡(luò):在單流 Transformer 去噪網(wǎng)絡(luò)中,少數(shù)輸入層和輸出層保留模態(tài)相關(guān)參數(shù)化,主要的中間層主干網(wǎng)絡(luò)共享參數(shù),在模態(tài)特化與深層融合之間取得平衡。
  • 無(wú)顯式 timestep 條件注入:模型不再單獨(dú)引入 timestep 條件,而是直接從當(dāng)前噪聲隱變量中推斷去噪狀態(tài)。
  • Attention-Head 門控:為了提升訓(xùn)練時(shí)的數(shù)值穩(wěn)定性和提升 attention 的表達(dá)能力,研發(fā)團(tuán)隊(duì)進(jìn)一步在每個(gè) attention head 的輸出引入了門控機(jī)制。
  • 統(tǒng)一條件接口:文本、參考音頻、參考視覺(jué)條件等都通過(guò)統(tǒng)一接口進(jìn)入同一主干網(wǎng)絡(luò),而不是為不同任務(wù)單獨(dú)設(shè)計(jì)融合結(jié)構(gòu)。

面向效率的四層優(yōu)化

除了去噪網(wǎng)絡(luò)本身的先進(jìn)設(shè)計(jì),daVinci-MagiHuman 還圍繞推理效率進(jìn)行了系統(tǒng)級(jí)優(yōu)化。

1.隱空間超分

為了避免從頭直接生成高分辨率視頻帶來(lái)的巨大開(kāi)銷,研發(fā)團(tuán)隊(duì)采用兩階段流水線:底模先在較低分辨率生成音視頻隱變量,再通過(guò)隱空間超分對(duì)視頻結(jié)果進(jìn)行細(xì)化。整個(gè)超分過(guò)程直接在隱空間(latent space) 中完成,通過(guò)三線性插值、重新加噪和少量額外去噪步驟完成高分辨率細(xì)化,效果更好的同時(shí)避免額外的 VAE decode/encode 開(kāi)銷。

值得一提的是,這一階段雖然主要服務(wù)于視頻細(xì)化,但音頻隱變量也會(huì)繼續(xù)作為輸入進(jìn)入超分模型,并與視頻一起在同一主干中聯(lián)合建模。這種設(shè)計(jì)在底模分辨率較低、口型細(xì)節(jié)容易偏差的情況下尤其重要,有助于保持更好的唇形同步效果。

2.Turbo VAE Decoder

在視頻編解碼階段,模型保留 Wan2.2 VAE 作為編碼器,但在推理中使用更輕量的 Turbo VAE 解碼器替換原始解碼器,以降低視頻解碼延遲。由于解碼位于底模生成和超分流水線的關(guān)鍵路徑上,這一優(yōu)化對(duì)整體推理速度非常重要。

3.全圖編譯優(yōu)化

研發(fā)團(tuán)隊(duì)進(jìn)一步將自研的全圖 PyTorch 編譯器 MagiCompiler 集成到推理?xiàng)V小Mㄟ^(guò)跨層算子融合、減少分布式通信開(kāi)銷等方式,它能夠進(jìn)一步提升推理吞吐與執(zhí)行效率,并在 H100 上帶來(lái)了約 1.2 倍的加速。

4.模型蒸餾

研發(fā)團(tuán)隊(duì)還使用 DMD-2 技術(shù)對(duì)去噪網(wǎng)絡(luò)進(jìn)行蒸餾,從而實(shí)現(xiàn)了在推理階段僅去噪 8 步就可以獲得良好的音視頻生成效果。

性能實(shí)測(cè):全面對(duì)標(biāo)開(kāi)源 SOTA

先看實(shí)測(cè)效果:













研發(fā)團(tuán)隊(duì)針對(duì) LTX-2.3、Ovi 和 MoVA 等最具代表性的開(kāi)源模型進(jìn)行了系統(tǒng)性測(cè)試。

主觀評(píng)測(cè):人工盲評(píng)

研發(fā)團(tuán)隊(duì)構(gòu)建了 100 條樣本的內(nèi)部評(píng)測(cè)數(shù)據(jù)集,覆蓋圖文生音視頻任務(wù),由評(píng)審員從多個(gè)維度對(duì)各模型的生成結(jié)果進(jìn)行盲評(píng)打分。



客觀評(píng)測(cè):VideoScore2 基準(zhǔn)和 TalkVid-Bench 對(duì)比

VideoScore2 主要用來(lái)評(píng)測(cè)視頻生成質(zhì)量,其采用的指標(biāo)包括視頻生成質(zhì)量(Visual Quality)、視頻 - 文本一致性 (Text Alignment) 和物理一致性(Physical Consistency)。TalkVid-Bench 則主要用來(lái)衡量音頻生成質(zhì)量,其指標(biāo)主要用詞錯(cuò)誤率(Word Error Rate, WER) 來(lái)衡量。 表 2 展示了客觀指標(biāo)的評(píng)測(cè)結(jié)果,daVinci-MagiHuman 在視覺(jué)質(zhì)量、視頻 - 文本一致性都領(lǐng)先于 LTX2.3,在物理一致性上與 LTX2.3 大致相當(dāng),優(yōu)于 OVI 1.1。在音頻質(zhì)量上,daVinci-MagiHuman 則遠(yuǎn)優(yōu)于 LTX2.3 與 OVI 1.1。



結(jié)語(yǔ)與未來(lái)展望

此次 daVinci-MagiHuman 的模型棧完整開(kāi)源,包括生成模型、超分模型以及推理代碼。這一發(fā)布有望能夠?yàn)殚_(kāi)源社區(qū)提供一個(gè)更簡(jiǎn)單、更可擴(kuò)展、也更易于優(yōu)化的音視頻生成基礎(chǔ)系統(tǒng),持續(xù)降低音畫(huà)同出大模型的開(kāi)發(fā)與部署門檻,為 AI 社區(qū)貢獻(xiàn)真正 “開(kāi)箱即用” 的性能紅利。

文中視頻鏈接:https://mp.weixin.qq.com/s/4t9H829uYt6QQOSK8oXlqg

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
山西輸球兩人昂首離場(chǎng)!不是迪亞洛不是張寧,賽后球隊(duì)收獲兩利好

山西輸球兩人昂首離場(chǎng)!不是迪亞洛不是張寧,賽后球隊(duì)收獲兩利好

理工男評(píng)籃球
2026-03-29 23:03:06
姆巴佩和女友近照,27歲已是超巨,身家過(guò)億,女友是火辣演員

姆巴佩和女友近照,27歲已是超巨,身家過(guò)億,女友是火辣演員

章眽八卦
2026-03-28 12:22:40
410次開(kāi)房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開(kāi)房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報(bào)
2025-12-14 22:36:54
徹底涼了!阿森納王牌斷崖下滑,新亨利即將取而代之

徹底涼了!阿森納王牌斷崖下滑,新亨利即將取而代之

瀾歸序
2026-03-30 03:24:48
從前的章子怡和現(xiàn)在的章子怡,雖然都很美,但是不同的兩種感覺(jué)

從前的章子怡和現(xiàn)在的章子怡,雖然都很美,但是不同的兩種感覺(jué)

娛你同歡
2026-03-29 16:55:41
大陸不再手軟!海警扣押一艘臺(tái)灣船只,船東反常沉默引發(fā)外界質(zhì)疑

大陸不再手軟!海警扣押一艘臺(tái)灣船只,船東反常沉默引發(fā)外界質(zhì)疑

半身Naked
2026-03-29 20:30:22
太狠了!山東網(wǎng)紅城市用“工業(yè)暴力”,干翻馬來(lái)西亞百年橡膠帝國(guó)

太狠了!山東網(wǎng)紅城市用“工業(yè)暴力”,干翻馬來(lái)西亞百年橡膠帝國(guó)

毒sir財(cái)經(jīng)
2026-03-29 23:27:36
3月29日最新消息!CCTV5直播國(guó)足vs喀麥隆,邵佳一拼了 預(yù)測(cè)如下

3月29日最新消息!CCTV5直播國(guó)足vs喀麥隆,邵佳一拼了 預(yù)測(cè)如下

大秦壁虎白話體育
2026-03-29 18:51:28
龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

她時(shí)尚丫
2026-02-17 22:41:30
輸上海4分!潘江太迷戀1人,導(dǎo)致山西隊(duì)滿盤皆輸

輸上海4分!潘江太迷戀1人,導(dǎo)致山西隊(duì)滿盤皆輸

體育哲人
2026-03-29 22:58:47
“160萬(wàn)江景房里最窒息的一幕”,炸出了多少心窮的中國(guó)家長(zhǎng)

“160萬(wàn)江景房里最窒息的一幕”,炸出了多少心窮的中國(guó)家長(zhǎng)

小椰子專欄
2026-03-03 13:02:56
中東實(shí)戰(zhàn)打出真相!伊朗越猛越顯中國(guó)實(shí)力,美軍徹底慌了神

中東實(shí)戰(zhàn)打出真相!伊朗越猛越顯中國(guó)實(shí)力,美軍徹底慌了神

小舟談歷史
2026-03-28 04:42:18
知名大V再曝戴琳狠料,稱靠身體吃飯,隨身帶香水,疑似跨界賭球

知名大V再曝戴琳狠料,稱靠身體吃飯,隨身帶香水,疑似跨界賭球

體壇風(fēng)之子
2026-03-29 07:00:06
CBA聯(lián)賽常規(guī)賽第31輪綜述 山東高速男籃球員于德豪搶斷數(shù)超越傳奇

CBA聯(lián)賽常規(guī)賽第31輪綜述 山東高速男籃球員于德豪搶斷數(shù)超越傳奇

舟望停云
2026-03-30 00:02:13
打!賠光1770億也要打!以色列最新民調(diào):75%民眾要求打到底

打!賠光1770億也要打!以色列最新民調(diào):75%民眾要求打到底

音樂(lè)時(shí)光的娛樂(lè)
2026-03-28 22:32:11
美駐日大使:如果中國(guó)不按美國(guó)的意愿行事,就讓十四億人陷入饑荒

美駐日大使:如果中國(guó)不按美國(guó)的意愿行事,就讓十四億人陷入饑荒

荊楚寰宇文樞
2025-09-28 21:58:22
心梗去世的名人越來(lái)越多?醫(yī)生再次強(qiáng)調(diào):寧可打打牌 也別做這些事

心梗去世的名人越來(lái)越多?醫(yī)生再次強(qiáng)調(diào):寧可打打牌 也別做這些事

健身狂人
2026-03-29 10:07:37
婚姻的真相:不是嫁給一個(gè)人,是嫁給一種生活

婚姻的真相:不是嫁給一個(gè)人,是嫁給一種生活

疾跑的小蝸牛
2026-03-16 23:35:22
CBA最強(qiáng)球隊(duì)出現(xiàn)!缺2大主力仍贏山西,球迷:他們今年真要奪冠

CBA最強(qiáng)球隊(duì)出現(xiàn)!缺2大主力仍贏山西,球迷:他們今年真要奪冠

金風(fēng)說(shuō)
2026-03-29 22:22:17
本周順到飛起的4個(gè)星座,有你嗎?

本周順到飛起的4個(gè)星座,有你嗎?

同道大叔
2026-03-29 22:02:44
2026-03-30 05:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

伊朗議長(zhǎng):美航母遭受巨大損失 我們絕不接受屈辱

頭條要聞

伊朗議長(zhǎng):美航母遭受巨大損失 我們絕不接受屈辱

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂(lè)要聞

汪峰定律再現(xiàn)!李榮浩喊話單依純侵權(quán)

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

本地
手機(jī)
家居
時(shí)尚
數(shù)碼

本地新聞

在濰坊待了三天,沒(méi)遇到一個(gè)“濰坊人”

手機(jī)要聞

驍龍8 Elite Gen6系列規(guī)格大揭秘:LPDDR6、Adreno 850,都來(lái)了!

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

來(lái)到1980的周也,好毛利蘭

數(shù)碼要聞

內(nèi)存條價(jià)格被曝出現(xiàn)斷崖式下跌,一天跌去百元

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版