開源項(xiàng)目地址:https://github.com/hpcaitech/Open-Sora
中文文檔:https://github.com/hpcaitech/Open-Sora/blob/main/docs/README_zh.md
不久前,OpenAI的Sora憑借其令人贊嘆的視頻生成效果迅速走紅,成為眾多文字到視頻模型中的佼佼者,引起了全球的關(guān)注。緊接著,Colossal-AI團(tuán)隊(duì)推出了一項(xiàng)新的開源方案“Open-Sora 1.0”,該方案全面覆蓋了訓(xùn)練過(guò)程,包括數(shù)據(jù)處理、所有訓(xùn)練細(xì)節(jié)以及模型檢查點(diǎn),旨在與全球AI愛(ài)好者攜手共進(jìn),開創(chuàng)視頻創(chuàng)作的新紀(jì)元。現(xiàn)在,就讓我們先來(lái)看一看“Open-Sora 1.0”模型生成的美景視頻。
海浪拍打在海灘和懸崖:
![]()
漫天繁星流轉(zhuǎn):
![]()
午夜的繁華街頭:
![]()
在海中遨游的海龜:
![]()
Open-Sora技術(shù)只是冰山一角。Colossal-AI團(tuán)隊(duì)已經(jīng)全面開源了模型架構(gòu)、訓(xùn)練模型檢查點(diǎn)、所有訓(xùn)練與數(shù)據(jù)準(zhǔn)備過(guò)程的細(xì)節(jié)、視頻演示和教程,供所有對(duì)文字到視頻模型感興趣的人在GitHub上自由學(xué)習(xí)和使用。
Open-Sora的復(fù)現(xiàn)計(jì)劃
Open-Sora的復(fù)現(xiàn)計(jì)劃借鑒了Stable Video Diffusion(SVD)工作,分為三個(gè)階段:
1. 大規(guī)模圖像預(yù)訓(xùn)練:第一階段通過(guò)大規(guī)模圖像預(yù)訓(xùn)練,利用成熟的文字到圖像模型幫助降低視頻預(yù)訓(xùn)練的成本。借助互聯(lián)網(wǎng)上豐富的大規(guī)模圖像數(shù)據(jù)和先進(jìn)的文字到圖像技術(shù),能夠訓(xùn)練出高質(zhì)量的文字到圖像模型,作為視頻預(yù)訓(xùn)練下一階段的初始化權(quán)重。同時(shí),由于缺乏高質(zhì)量的時(shí)空VAE,Open-Sora使用Stable Diffusion模型預(yù)訓(xùn)練空間VAE。這種策略不僅確保了初始模型的優(yōu)越性能,也顯著降低了視頻預(yù)訓(xùn)練的總體成本。
2. 大規(guī)模視頻預(yù)訓(xùn)練:第二階段通過(guò)大規(guī)模視頻預(yù)訓(xùn)練,增強(qiáng)模型的泛化能力,有效掌握視頻的時(shí)間序列關(guān)聯(lián)。這一階段需要使用大量的視頻數(shù)據(jù)訓(xùn)練,以確保視頻主題的多樣性,從而提高模型的泛化能力。
3. 高質(zhì)量視頻數(shù)據(jù)微調(diào)訓(xùn)練:第三階段通過(guò)對(duì)高質(zhì)量視頻數(shù)據(jù)的微調(diào),顯著提高了生成視頻的質(zhì)量。第三階段使用的視頻數(shù)據(jù)量比第二階段少一個(gè)數(shù)量級(jí),但視頻的持續(xù)時(shí)間、分辨率和質(zhì)量都更高。通過(guò)這種方式的微調(diào),實(shí)現(xiàn)了視頻生成從短到長(zhǎng)、從低分辨率到高分辨率、從低保真度到高保真度的高效擴(kuò)展。每個(gè)階段的訓(xùn)練都是在前一階段的權(quán)重基礎(chǔ)上繼續(xù)進(jìn)行。與從零開始的單階段訓(xùn)練相比,多階段訓(xùn)練通過(guò)逐步擴(kuò)大數(shù)據(jù)規(guī)模,更高效地實(shí)現(xiàn)了高質(zhì)量視頻生成的目標(biāo)。
在復(fù)現(xiàn)過(guò)程中,Colossal-AI團(tuán)隊(duì)使用了64個(gè)H800 GPU進(jìn)行訓(xùn)練。第二階段的訓(xùn)練量共計(jì)2808 GPU小時(shí),約等于7000美元;第三階段的訓(xùn)練量為1920 GPU小時(shí),約等于4500美元,最后成功地將Open-Sora復(fù)現(xiàn)過(guò)程的成本控制在約10000美元。
數(shù)據(jù)預(yù)處理
為了進(jìn)一步降低Sora復(fù)現(xiàn)的門檻和復(fù)雜性,Colossal-AI團(tuán)隊(duì)還提供了便捷的視頻數(shù)據(jù)預(yù)處理腳本,包括公開視頻數(shù)據(jù)集的下載、基于鏡頭連續(xù)性的長(zhǎng)視頻分割成短視頻片段,以及使用開源大型語(yǔ)言模型LLaVA生成細(xì)粒度提示詞,使您可以輕松開始Sora復(fù)現(xiàn)預(yù)訓(xùn)練。![]()
Open-Sora提供的批量視頻字幕生成代碼可以在3秒內(nèi)使用兩個(gè)GPU為一個(gè)視頻生成字幕,質(zhì)量接近GPT-4V。最終的視頻-文字對(duì)可以直接用于訓(xùn)練。借助開源的代碼,用戶可以輕松快速地在自己的數(shù)據(jù)集上生成訓(xùn)練所需的視頻-文字對(duì),大大降低了啟動(dòng)Sora復(fù)現(xiàn)項(xiàng)目的技術(shù)門檻和準(zhǔn)備工作。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.