網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

別只關(guān)注馬斯克的Grok了，Sora復(fù)刻版Open-Sora直接開源！

2024-03-18 14:41:51　來(lái)源: 北茗的AI茶館

北京舉報(bào)

分享至

開源項(xiàng)目地址：https://github.com/hpcaitech/Open-Sora

中文文檔：https://github.com/hpcaitech/Open-Sora/blob/main/docs/README_zh.md

不久前，OpenAI的Sora憑借其令人贊嘆的視頻生成效果迅速走紅，成為眾多文字到視頻模型中的佼佼者，引起了全球的關(guān)注。緊接著，Colossal-AI團(tuán)隊(duì)推出了一項(xiàng)新的開源方案“Open-Sora 1.0”，該方案全面覆蓋了訓(xùn)練過(guò)程，包括數(shù)據(jù)處理、所有訓(xùn)練細(xì)節(jié)以及模型檢查點(diǎn)，旨在與全球AI愛(ài)好者攜手共進(jìn)，開創(chuàng)視頻創(chuàng)作的新紀(jì)元。現(xiàn)在，就讓我們先來(lái)看一看“Open-Sora 1.0”模型生成的美景視頻。

海浪拍打在海灘和懸崖：

漫天繁星流轉(zhuǎn)：

午夜的繁華街頭：

在海中遨游的海龜：

Open-Sora技術(shù)只是冰山一角。Colossal-AI團(tuán)隊(duì)已經(jīng)全面開源了模型架構(gòu)、訓(xùn)練模型檢查點(diǎn)、所有訓(xùn)練與數(shù)據(jù)準(zhǔn)備過(guò)程的細(xì)節(jié)、視頻演示和教程，供所有對(duì)文字到視頻模型感興趣的人在GitHub上自由學(xué)習(xí)和使用。

Open-Sora的復(fù)現(xiàn)計(jì)劃

Open-Sora的復(fù)現(xiàn)計(jì)劃借鑒了Stable Video Diffusion（SVD）工作，分為三個(gè)階段：

1. 大規(guī)模圖像預(yù)訓(xùn)練：第一階段通過(guò)大規(guī)模圖像預(yù)訓(xùn)練，利用成熟的文字到圖像模型幫助降低視頻預(yù)訓(xùn)練的成本。借助互聯(lián)網(wǎng)上豐富的大規(guī)模圖像數(shù)據(jù)和先進(jìn)的文字到圖像技術(shù)，能夠訓(xùn)練出高質(zhì)量的文字到圖像模型，作為視頻預(yù)訓(xùn)練下一階段的初始化權(quán)重。同時(shí)，由于缺乏高質(zhì)量的時(shí)空VAE，Open-Sora使用Stable Diffusion模型預(yù)訓(xùn)練空間VAE。這種策略不僅確保了初始模型的優(yōu)越性能，也顯著降低了視頻預(yù)訓(xùn)練的總體成本。

2. 大規(guī)模視頻預(yù)訓(xùn)練：第二階段通過(guò)大規(guī)模視頻預(yù)訓(xùn)練，增強(qiáng)模型的泛化能力，有效掌握視頻的時(shí)間序列關(guān)聯(lián)。這一階段需要使用大量的視頻數(shù)據(jù)訓(xùn)練，以確保視頻主題的多樣性，從而提高模型的泛化能力。

3. 高質(zhì)量視頻數(shù)據(jù)微調(diào)訓(xùn)練：第三階段通過(guò)對(duì)高質(zhì)量視頻數(shù)據(jù)的微調(diào)，顯著提高了生成視頻的質(zhì)量。第三階段使用的視頻數(shù)據(jù)量比第二階段少一個(gè)數(shù)量級(jí)，但視頻的持續(xù)時(shí)間、分辨率和質(zhì)量都更高。通過(guò)這種方式的微調(diào)，實(shí)現(xiàn)了視頻生成從短到長(zhǎng)、從低分辨率到高分辨率、從低保真度到高保真度的高效擴(kuò)展。每個(gè)階段的訓(xùn)練都是在前一階段的權(quán)重基礎(chǔ)上繼續(xù)進(jìn)行。與從零開始的單階段訓(xùn)練相比，多階段訓(xùn)練通過(guò)逐步擴(kuò)大數(shù)據(jù)規(guī)模，更高效地實(shí)現(xiàn)了高質(zhì)量視頻生成的目標(biāo)。在復(fù)現(xiàn)過(guò)程中，Colossal-AI團(tuán)隊(duì)使用了64個(gè)H800 GPU進(jìn)行訓(xùn)練。第二階段的訓(xùn)練量共計(jì)2808 GPU小時(shí)，約等于7000美元；第三階段的訓(xùn)練量為1920 GPU小時(shí)，約等于4500美元，最后成功地將Open-Sora復(fù)現(xiàn)過(guò)程的成本控制在約10000美元。

數(shù)據(jù)預(yù)處理

為了進(jìn)一步降低Sora復(fù)現(xiàn)的門檻和復(fù)雜性，Colossal-AI團(tuán)隊(duì)還提供了便捷的視頻數(shù)據(jù)預(yù)處理腳本，包括公開視頻數(shù)據(jù)集的下載、基于鏡頭連續(xù)性的長(zhǎng)視頻分割成短視頻片段，以及使用開源大型語(yǔ)言模型LLaVA生成細(xì)粒度提示詞，使您可以輕松開始Sora復(fù)現(xiàn)預(yù)訓(xùn)練。
Open-Sora提供的批量視頻字幕生成代碼可以在3秒內(nèi)使用兩個(gè)GPU為一個(gè)視頻生成字幕，質(zhì)量接近GPT-4V。最終的視頻-文字對(duì)可以直接用于訓(xùn)練。借助開源的代碼，用戶可以輕松快速地在自己的數(shù)據(jù)集上生成訓(xùn)練所需的視頻-文字對(duì)，大大降低了啟動(dòng)Sora復(fù)現(xiàn)項(xiàng)目的技術(shù)門檻和準(zhǔn)備工作。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.