337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

計算所 x 上交大論文:只用雙人數據,也能生成多人動畫丨CVPR 2026

0
分享至

在視覺生成領域,從圖像生成到視頻生成,研究的核心問題正逐漸從“能否生成內容”轉向“能否生成可控且結構正確的內容”。

尤其是在人物動畫生成任務中,研究人員不僅希望模型能夠生成具有真實感的畫面,還希望生成過程能夠受到精確控制,例如通過輸入人物圖像與動作姿態序列,使模型自動生成連續的人物動畫。在這一方向上,姿態驅動的人物圖像動畫已經取得了顯著進展。然而,這些方法大多集中于單人物場景,當生成對象擴展到多人物時,問題的復雜度會顯著增加。

而在在多人物動畫生成過程中,模型不僅需要保持每個人物外觀的穩定性,還必須在動態過程中正確建立人物與動作之間的對應關系,并處理人物之間的空間交互。如果模型無法持續區分不同人物,生成結果就容易出現身份混淆、動作錯位或空間關系不合理等問題。因此,如何在復雜互動過程中保持人物身份一致,并同時建模多人物之間的空間關系,已經成為多人物視頻生成研究中的關鍵挑戰。

在這樣的研究背景下,來自中國科學院計算技術研究所與上海交通大學等機構的研究團隊提出了一種新的多人物動畫生成框架,并發表了題為《MultiAnimate: Pose-Guided Image Animation Made Extensible》的研究工作。這項研究通過引入人物身份標識機制以及基于人物掩碼的空間關系建模方法,使生成模型能夠在多人物互動過程中持續區分不同個體,并保持人物外觀與動作的一致性。

值得注意的是,這個方法在訓練階段只使用雙人數據,卻能夠在推理階段擴展到三人甚至更多人物的動畫生成任務,為多人物視頻生成提供了一種具有良好擴展性的解決思路。


從雙人到多人:模型生成能力的驗證

從實驗的整體來看,MultiAnimate 在多人物動畫生成任務中明顯優于現有方法,并且具有很強的擴展能力和泛化能力。

研究人員首先在 Swing Dance 數據集上測試模型性能。這個數據集包含大量雙人舞蹈視頻,人物之間的互動非常復雜,例如旋轉、交換位置以及身體接觸等。實驗結果顯示,MultiAnimate 生成的視頻在視覺上更加真實,人物動作與輸入姿態更加一致,視頻幀之間的連續性更好,同時人物身份保持更加穩定。

相比之下,其他方法在復雜交互場景中容易出現多種問題。例如,當兩個人旋轉或靠近時,模型容易出現身份混亂的現象,人物外觀可能被混淆,甚至出現衣服突然交換的情況。當兩個人互相遮擋時,一些模型會產生遮擋錯誤,導致身體部位生成不正確,例如手臂位置異常。雷峰網

此外,在復雜動作過程中,一些方法還會導致背景質量下降,出現背景模糊或者抖動的現象。而 MultiAnimate 在整個視頻生成過程中能夠保持每個人的外觀一致,動作順序合理,人物之間的空間關系穩定,這說明該方法在理解多人物空間關系方面具有更強的能力。


研究團隊還在 Gen-dataset 上對模型進行了測試。這個數據集由視頻生成模型自動生成,包含兩人或三人場景,并且具有不同背景環境和不同動作組合。實驗結果表明,即使模型沒有專門在該數據集上進行訓練,仍然能夠生成質量較高的視頻。

具體表現為動作控制準確,人物外觀保持一致,并且視頻在時間維度上具有良好的連續性。不過研究人員也發現,由于場景更加復雜,在某些視覺感知指標上優勢略小,這說明模型在更加復雜環境中的表現仍然存在進一步提升的空間。


在泛化能力測試中,研究團隊使用來自社交媒體的視頻作為測試數據,這些視頻包含三人舞蹈、四人舞蹈以及最多七人同時參與的舞蹈場景。這些數據完全沒有參與模型訓練。

實驗結果發現,即使模型只使用兩個人的視頻進行訓練,仍然能夠生成三人動畫以及更多人物參與的互動動畫,并且可以正確區分不同人物,保持每個人物的身份一致,同時能夠正確生成多人物之間的空間關系。這說明模型具有很強的擴展能力,也意味著訓練人數與最終生成人數并不完全一致,模型能夠推廣到更加復雜的多人物場景。


此外,研究還展示了大量生成視頻的畫面對比結果。可視化分析發現,一些已有方法例如 MimicMotion 和 DisPose 在動畫生成初期就可能出現人物身份混亂的情況,例如人物衣服顏色突然發生變化,或者兩個角色在交換位置之后身份發生混淆。

還有一些方法例如 UniAnimate-DiT 和 VACE 在簡單動作階段表現較好,但在復雜的人物互動之后仍然容易出現身份交換以及遮擋錯誤等問題。相比之下,MultiAnimate 在整個視頻生成過程中都能夠保持人物身份穩定,動作生成合理,并且人物之間的空間關系正確,因此在視覺效果上明顯優于其他方法。

MultiAnimate 的構建與驗證路徑

為了得到上述實驗結果,研究人員先是于數據準備階段,在實驗中使用了三類數據。第一類是 Swing Dance 數據集,這是一個雙人舞蹈視頻數據集,總時長約為 30 小時,包含 680 對舞者。雷峰網

數據中存在大量旋轉動作、人物互動動作以及頻繁的人物遮擋現象,因此非常適合用于訓練模型理解多人物之間的空間關系。在訓練過程中,模型通過這些視頻學習兩個人如何進行互動,如何在動作過程中保持人物身份一致,以及在人物相互遮擋時如何正確處理空間關系。

第二類數據是 Gen-dataset 數據集,研究團隊利用視頻生成模型 Wan2.2 自動生成了 2079 個視頻,每個視頻長度約為 5 秒。這些視頻包含兩人或三人的場景,并具有不同的背景環境和不同的動作組合。使用這一數據集的目的主要有兩個,一是增加訓練場景的多樣性,二是提高模型的泛化能力。

第三類數據來自社交媒體平臺 TikTok 的舞蹈視頻,這些視頻中通常包含三到七個人同時跳舞,動作復雜且場景多樣。這部分數據只用于測試模型性能,并不參與訓練,主要用于驗證模型是否能夠推廣到更多人物的場景。


在模型訓練之前,研究人員還對視頻數據進行了預處理。預處理主要包括兩個步驟。第一步是姿態提取,研究人員使用人體姿態檢測模型提取人物的骨架信息,這些骨架信息可以表示人物的手臂位置、腿部位置以及整體身體姿態。

通過這些骨架序列,模型能夠根據姿態信息驅動人物動作生成。第二步是人物掩碼提取,研究人員使用視頻分割方法生成每個人物的追蹤掩碼。掩碼能夠表示在每一幀圖像中哪些像素屬于人物 A,哪些像素屬于人物 B,從而使模型能夠區分不同的人物。


模型訓練過程分為兩個階段。在第一階段訓練中,研究人員使用 Swing Dance 數據集對模型進行訓練,訓練目標是讓模型學習雙人之間的互動關系。訓練設置為大約 40 個訓練周期,總訓練步數約為 7000 步,每個GPU的 batch size 為 1,訓練過程中使用兩張 A100 GPU。在這一階段訓練完成后,模型最多可以支持三個人的動畫生成。

第二階段訓練是在第一階段的基礎上繼續進行,研究人員加入 Gen-dataset 數據集進行訓練,其主要目的是提高模型對不同場景環境的適應能力。第二階段訓練約進行 3 個周期,總訓練步數約為 2400 步。除此之外,研究團隊還訓練了一個擴展版本模型,這一模型可以支持最多七個人的動畫生成。擴展模型仍然使用雙人數據進行訓練,但通過新的訓練策略使模型能夠學習區分更多人物,該模型訓練了 24 個周期。

在對比實驗中,研究人員將 MultiAnimate 與多個已有模型進行了比較,包括 UniAnimate-DiT、MimicMotion、DisPose 和 VACE。實驗主要比較視頻質量、動作生成的準確性、人物身份一致性以及視頻時間連續性等方面。實驗結果顯示,MultiAnimate 在幾乎所有指標上都優于這些方法。

此外,研究團隊還進行了消融實驗,用于驗證各個模塊設計是否有效。消融實驗主要測試了兩種設計。第一種是基于人物掩碼的 Mask-driven 設計,如果去掉這一設計,模型在生成視頻時容易出現人物身份混亂以及空間關系錯誤的問題。

實驗結果說明,掩碼設計能夠幫助模型更好地理解人物之間的位置關系。第二種是 Identifier 模塊設計,其中包括 Identifier Assigner 和 Identifier Adapter 兩個模塊,這兩個模塊的作用是為每個人物分配唯一的身份標識。如果去掉這兩個模塊,模型在多人物場景中容易出現身份交換和動作混亂的現象。實驗結果表明,這兩個模塊能夠顯著提升模型在多人物動畫生成中的穩定性。


突破多人物動畫生成的關鍵瓶頸

總的來說,這項研究的實驗意義主要體現在三個方面。首先,在多人物動畫生成任務中,傳統方法大多只針對單人物動畫進行研究,當場景中出現多人時,模型往往容易出現身份混亂、動作錯誤以及空間關系不正確等問題。針對這一情況,研究團隊提出了 MultiAnimate 方法,通過身份標識機制、人物掩碼以及空間關系建模,使模型能夠在生成視頻時正確區分不同人物,并保持人物之間的空間關系,從而提升了多人物動畫生成的穩定性和準確性。

其次,在人物數量的擴展能力方面,傳統方法通常需要按照固定人數進行訓練,例如兩人模型只能生成兩人動畫,如果需要生成更多人物的動畫,就需要重新收集數據并重新訓練模型。而在這一研究中,研究人員發現,只使用兩人數據進行訓練,模型仍然可以生成三人甚至更多人物參與的動畫,這說明模型在多人物場景中的擴展能力得到了明顯提升。

最后,在數據利用效率方面,收集包含多人物互動的視頻數據往往成本較高,因此獲取大規模多人物數據集比較困難。研究結果表明,只需要少量雙人數據,就能夠訓練出支持多人物動畫生成的模型,這在實際應用中具有重要價值。

MultiAnimate 背后的科研工作者

論文的通訊作者為安竹林,現為中國科學院計算技術研究所的副研究員,同時也是博士生導師,長期從事人工智能和計算機視覺相關研究工作。他在中國科學院獲得博士學位后,一直在該研究機構從事科研與人才培養工作。

研究方向方面,安竹林的研究主要集中在神經網絡加速和計算機視覺兩個領域。他的研究關注如何提高深度學習模型的效率,以及如何將深度學習技術應用到視覺理解和視覺生成任務中,例如圖像識別、視頻分析以及視覺模型優化等問題。

在研究成果方面,安竹林及其研究團隊圍繞深度學習模型效率和視覺任務展開了多項研究。另一些研究則關注視覺任務中的模型設計與性能提升,通過改進算法方法來提高圖像識別或視覺理解的效果。這些研究不僅推動了計算機視覺技術的發展,也為深度學習模型在實際場景中的應用提供了重要技術基礎。


參考鏈接:https://oldoc.github.io/

論文的另一位通訊作者為劉松華,目前任職于上海交通大學人工智能學院,擔任助理教授,主要從事計算機視覺與人工智能相關研究。在進入高校任教之前,他曾在新加坡國立大學完成博士學位,研究方向集中在深度學習與視覺生成等領域。

在研究方向方面,劉松華的工作主要集中在計算機視覺和機器學習領域,重點關注視覺生成模型、數據蒸餾、模型適配以及深度學習模型效率提升等問題。這些研究內容主要圍繞如何提高生成模型的質量、效率以及在實際場景中的應用能力展開。

在學術成果方面,他在人工智能和計算機視覺領域發表了多篇學術論文,相關研究成果被多個國際重要學術會議收錄。同時,他還參與提出了多種視覺生成與圖像處理方法,例如利用神經網絡自動生成繪畫筆觸的繪畫生成方法,以及通過改進注意力機制提升圖像風格遷移效果的方法。這些研究成果在圖像生成、藝術風格遷移以及視覺內容生成等方向具有一定影響。


參考鏈接: https://huage001.github.io/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人狂自有天收

人狂自有天收

李老逵亂擺龍門陣
2025-09-11 09:01:28
德業股份,市占率全球第一!

德業股份,市占率全球第一!

飛鯨投研
2026-03-26 18:41:45
赫內斯:不會把奧利塞賣給利物浦,賬戶里多2億歐元意義不大

赫內斯:不會把奧利塞賣給利物浦,賬戶里多2億歐元意義不大

懂球帝
2026-03-27 01:10:09
不得不說,中國太不簡單

不得不說,中國太不簡單

牛彈琴
2026-03-27 06:59:08
浙江男老師意外發現女學生長相酷似亡妻,鑒定后,結果讓他當場愣住

浙江男老師意外發現女學生長相酷似亡妻,鑒定后,結果讓他當場愣住

紅豆講堂
2024-09-13 09:35:43
外媒:40%的消費者希望中國品牌汽車進入美國市場

外媒:40%的消費者希望中國品牌汽車進入美國市場

環球網資訊
2026-03-24 13:45:12
解放戰爭中,國民黨軍也曾策反我軍,一次拉走4個師,但10天全滅

解放戰爭中,國民黨軍也曾策反我軍,一次拉走4個師,但10天全滅

云霄紀史觀
2026-03-26 11:51:38
不限瘤種!我國自主研發廣譜抗癌藥落地臨床,患者總緩解率高達89.1%【附諾誠健華企業分析】

不限瘤種!我國自主研發廣譜抗癌藥落地臨床,患者總緩解率高達89.1%【附諾誠健華企業分析】

前瞻網
2026-03-24 16:34:12
離地面僅有十幾厘米,上海一些公交車站的座椅幾乎貼在地面上,路人直呼坐不下!

離地面僅有十幾厘米,上海一些公交車站的座椅幾乎貼在地面上,路人直呼坐不下!

上海圈
2026-03-25 18:32:07
無需大量運動!《柳葉刀》:每天多動5分鐘、少坐半小時,足以顯著降低死亡風險

無需大量運動!《柳葉刀》:每天多動5分鐘、少坐半小時,足以顯著降低死亡風險

生物世界
2026-03-25 16:05:30
比秦始皇陵大3倍!陜西深山藏世界最大帝陵,建了107年藏滿玄機

比秦始皇陵大3倍!陜西深山藏世界最大帝陵,建了107年藏滿玄機

百年歷史老號
2026-03-21 09:12:16
多人被立案偵查!中山發布工礦商貿行業生產安全事故評估報告

多人被立案偵查!中山發布工礦商貿行業生產安全事故評估報告

南方都市報
2026-03-26 19:30:16
河南惡魔富豪吳天喜,以資助之名接近女學生,禽獸真的存在

河南惡魔富豪吳天喜,以資助之名接近女學生,禽獸真的存在

星河逍遙游
2025-01-23 17:26:55
再等2天來襲!騰勢D9搭第二代刀片電池續航2000km,劍指別克GL8

再等2天來襲!騰勢D9搭第二代刀片電池續航2000km,劍指別克GL8

隔壁說車老王
2026-03-27 07:38:58
離婚不到一天岳母設6.6萬宴席,被告知卡已凍結

離婚不到一天岳母設6.6萬宴席,被告知卡已凍結

暗香暗香
2026-03-27 03:21:00
為什么一定要多接高中孩子放學?這5個答案點醒無數家長

為什么一定要多接高中孩子放學?這5個答案點醒無數家長

戶外阿毽
2026-03-26 12:33:16
1974年,李鵬突遭車禍,肇事司機前來道歉,李鵬:我有主要責任

1974年,李鵬突遭車禍,肇事司機前來道歉,李鵬:我有主要責任

飛哥談史
2026-02-15 06:35:08
延壽9年,心臟病風險降60%!悉尼大學最新:飲食、睡眠、運動最佳組合出爐,小改變也大有益

延壽9年,心臟病風險降60%!悉尼大學最新:飲食、睡眠、運動最佳組合出爐,小改變也大有益

醫諾維
2026-03-24 17:02:18
11歲華人男孩被白人繼父拐走,雙雙墜崖身亡!給母親留下一句“你不配做媽媽”

11歲華人男孩被白人繼父拐走,雙雙墜崖身亡!給母親留下一句“你不配做媽媽”

發現新西蘭
2026-03-26 12:46:52
祁東女教師的瓜

祁東女教師的瓜

皮蛋兒電影
2026-03-23 15:30:40
2026-03-27 09:23:00
雷峰網 incentive-icons
雷峰網
關注智能與未來!
68861文章數 656102關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

很反常!油價向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

本地
手機
數碼
公開課
軍事航空

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

手機要聞

iQOO 15贏、REDMI K90贏,一加是哪個贏了?

數碼要聞

Mac Pro退場后蘋果官網同步停售配套滾輪套件,曾售5249元

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔心特朗普突然停戰 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版