500美元成本，Pusa V1.0基于VAT機制實現(xiàn)I2V模型的SOTA

2025-09-16 18:45:21　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。

大家對OpenAI推出的Sora有所耳聞——這一當前最具代表性的視頻生成模型，依托數(shù)百萬高質(zhì)量視頻數(shù)據(jù)與數(shù)千萬美元量級的訓練投入，在生成能力與畫面連貫性上樹立了行業(yè)標桿。最近，一項來自香港城市大學等機構(gòu)聯(lián)合研究團隊的最新成果，或?qū)⒅匦露x“高效AI”的可能性邊界。

該團隊最新發(fā)布的圖像-視頻聯(lián)合生成模型——Pusa V1.0（菩薩1.0）在基礎(chǔ)大模型Wan2.1-T2V-14B的基礎(chǔ)上引入向量時間步適應（vectorized timestep adaptation，VTA ）機制，僅使用3860對視頻-文字數(shù)據(jù)、約500美元成本進行微調(diào)，就在圖像轉(zhuǎn)視頻 (I2V) 超越了Wan-I2V-14B，實現(xiàn)了SOTA，并解鎖了諸多零樣本任務能力。Pusa V1.0已上線始智AI-wisemodel開源社區(qū)，歡迎大家前去體驗。

模型地址

https://wisemodel.cn/models/yaofangliu/PusaV

01.

模型特點

500美元實現(xiàn)SOTA

Pusa V1.0從文本到視頻（T2V）模型 Wan-T2V-14B 微調(diào)而來，用于圖像到視頻生成（I2V）。與其他會破壞基礎(chǔ)模型架構(gòu)的微調(diào)模型不同，Pusa采用VTA機制，從而實現(xiàn)最小、非破壞性的優(yōu)化，將時間步長從標量擴大到矢量。它完全保留了基礎(chǔ)模型的預訓練先驗，并實現(xiàn)了更有效的時間學習。

例如這個圖生視頻：攀巖者在小行星攀巖，人體運動與太空光影完美仿真。

視頻擴展也是不在話下，給定起始幀或結(jié)束幀，讓存錢罐小豬直接在大溪地的沖浪圣地上沖浪。

全面的任務支持

憑借其靈活的矢量化時間步適應策略，Pusa僅需10個推理步驟就能夠執(zhí)行多種視頻生成任務。

這些能力都是其“涌現(xiàn)屬性”，能夠以零樣本方式（無需任何任務特定的訓練）擴展到：圖像到視頻、開始-結(jié)束幀、視頻擴展、文字轉(zhuǎn)視頻、視頻轉(zhuǎn)場等任務中。

例如，以9個起始幀和12個結(jié)束幀作為條件，讓模型生成中間的60幀畫面。

或者，直接輸入文字，讓模型把一輛汽車從金色變成白色。

VTA如何讓視頻生成更自然？

由于視頻本質(zhì)上是按固定幀率（如電影的每秒 24 幀）連續(xù)播放的一系列圖片。在視頻擴散模型（VDM）中，模型通常將整段視頻拆解為逐幀圖像進行建模。

在傳統(tǒng)的做法中，所有幀共享一個標量時間步長變量，模型對所有幀同步進行相同程度的降噪。不過，這就意味著讓所有幀在降噪過程中步調(diào)一致，同時演化。

由此，后面的畫面無法獲得前一幀畫面的約束信息，從而使I2V（image-to-video）的效果過于僵硬。

此外，由于圖像輸入不同于模糊抽象的文本輸入，其作為剛性條件，對“視頻生成起點”限制非常嚴格。模型在保持原圖約束的同時，必須自己“猜”這個圖像之后會怎么動。

因此，為了生成連貫動態(tài)的視頻，不同幀之間應該以不同速度/時間狀態(tài)進行演化，從而讓后續(xù)幀的去噪過程能盡可能的收到前一幀先驗的控制。

由此，研究提出VTA，為每一幀引入一個獨立的時間編碼。這樣就允許模型能對每幀的去噪進度和時間位置進行精細控制，從而更好地模擬現(xiàn)實中幀的時序演化，使生成的視頻在動態(tài)表現(xiàn)上更連貫、自然。

02.

模型介紹

具體而言，VTA通過幀感知的流匹配（Frame-Aware Flow Matching, FAFM）使每一幀能夠獨立演化，同時賦予模型對同步與異步時間結(jié)構(gòu)的建模能力。最終，它通過向DiT注入自定義的時間嵌入，實現(xiàn)了高效、統(tǒng)一、非破壞性的多任務視頻生成。

在訓練層面，Pusa 采用了幀感知的流匹配（FAFM）目標函數(shù)，模擬每一幀在時間軸上獨立演化的理想速度。此外，為了始終保持起始圖像作為條件約束，其對應的時間步分量在整個推理過程中都被設(shè)置為零。

在模型結(jié)構(gòu)上，VTA 則將這一目標通過向量時間步嵌入落實到 DiT 框架中，實現(xiàn)推理階段的幀級動態(tài)控制。

在推理時，Pusa 允許為每一幀指定不同時間步長，從而實現(xiàn)起始幀固定、末幀補齊、關(guān)鍵幀約束等多種時間控制策略。這種“從目標到機制”的結(jié)合，是 Pusa 不僅生成自然，更易泛化的關(guān)鍵。

Pusa V1.0使用LORA＋DeepSpeed Zero2在8張80GB內(nèi)存的GPU上進行微調(diào)。實驗表明，Pusa V1.0 超越了同樣基于Wan-I2V-14B微調(diào)而來的Wan-I2V，實現(xiàn)了SOTA。

與此同時，Pusa V1.0所需的參數(shù)更新數(shù)比Wan-I2V少10倍以上，這表明Pusa僅僅關(guān)注與時間相關(guān)的模塊，從而保留了基礎(chǔ)模型的先驗知識。與之相對的，Wan-12V則表現(xiàn)出對基礎(chǔ)模型先驗知識的破壞。

可以說，Pusa V1.0以極致輕量化的訓練成本為之后的視頻生成建立了可擴展且多功能的范例。

編輯：趙雅鑫

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團隊、個人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實踐、應用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學會協(xié)會、聯(lián)盟、基金會等，還有投資機構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.