品玩3月24日訊,上海創(chuàng)智學(xué)院劉鵬飛團(tuán)隊(duì)與Sand.ai聯(lián)合宣布,正式開(kāi)源全球首個(gè)、號(hào)稱最“懂人”的音視頻聯(lián)合生成基座模型——daVinci-MagiHuman。該模型旨在通過(guò)技術(shù)幫助普通人將內(nèi)心的情感與故事轉(zhuǎn)化為音視頻作品。
現(xiàn)有開(kāi)源音視頻模型存在跨模態(tài)同步難、架構(gòu)擴(kuò)展難、生成速度慢的局限。daVinci-MagiHuman采用純自注意力架構(gòu),由一個(gè)150億參數(shù)的Transformer統(tǒng)一建模文本、視頻、音頻三種模態(tài),摒棄了跨注意力與模態(tài)分支,實(shí)現(xiàn)了真正的模態(tài)無(wú)關(guān)。模型還采用修正流匹配訓(xùn)練及專為低延遲設(shè)計(jì)的級(jí)聯(lián)流水線,兼顧生成質(zhì)量與效率。
在與開(kāi)源先進(jìn)模型LTX-2.3和Ovi 1.1的對(duì)比評(píng)測(cè)中,daVinci-MagiHuman在畫(huà)面質(zhì)量、文本一致性、音頻清晰度上均表現(xiàn)優(yōu)異,整體效果均衡。模型支持多步與少步兩種推理模式,可在消費(fèi)級(jí)GPU上實(shí)現(xiàn)近實(shí)時(shí)生成。目前,其全部模型權(quán)重與推理代碼已在GitHub與Hugging Face平臺(tái)開(kāi)源。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.