![]()
角色動畫創(chuàng)作是現(xiàn)代影視游戲行業(yè)中藝術(shù)張力的基石。然而,創(chuàng)作角色動畫并非易事。現(xiàn)有動畫創(chuàng)作流程中,動作捕捉系統(tǒng)需要專門的設(shè)備和演出團隊,導(dǎo)致成本高昂;3D 動畫軟件則需要專業(yè)動畫師來操作,因為在 2D 屏幕內(nèi)編輯 3D 骨骼運動并不符合人類直覺,此類軟件往往學(xué)習(xí)曲線陡峭、經(jīng)驗要求極高。實踐中,一段動畫從設(shè)計到交付的周期較長,一段 15 秒的角色動畫往往需要迭代數(shù)天才能完工。
為了簡化動作創(chuàng)作流程,部分研究者們提出 “數(shù)字木偶戲” 問題:希望通過直觀操作物理代理,如玩偶、手機、物理傳感器、手指等,將物理世界中直觀演繹的動作轉(zhuǎn)化為虛擬世界中角色的骨骼動畫。然而,現(xiàn)有系統(tǒng)往往采用基于小樣本的、特定規(guī)則的、手工設(shè)計的傳統(tǒng)機器學(xué)習(xí)算法,只能夠針對特定的輸入物體,產(chǎn)出特定預(yù)設(shè)的有限幾種角色動畫。這一技術(shù)路線不具有泛化能力,極大限制了此類系統(tǒng)的實際應(yīng)用價值。
針對這一現(xiàn)狀,一個來自愛丁堡大學(xué)、蔚藍海岸大學(xué)、清華大學(xué)的聯(lián)合研究團隊提出了DancingBox,并獲得了人機交互(Human-Computer Interaction)領(lǐng)域頂會 ACM CHI 2026 的最佳論文提名。
![]()
- 項目主頁:https://yyyyyhc.github.io/DancingBox-project-page
- 論文鏈接:https://arxiv.org/html/2603.17704v1
- 代碼鏈接:https://github.com/YYYYYHC/DancingBox
DancingBox 第一次實現(xiàn)了僅需 RGB 相機,對任意物體生效,產(chǎn)出高質(zhì)量角色動畫的能力。下表 1 給出了其與現(xiàn)有工作的對比。
![]()
表 1:DancingBox 與現(xiàn)有工作的對比
該團隊重新思考了大模型時代的數(shù)字木偶戲問題與動作捕捉系統(tǒng)。
他們發(fā)現(xiàn),將現(xiàn)有的幾個視覺大模型結(jié)合,已經(jīng)可以實現(xiàn)對任意物體的粗略動作捕捉(包圍盒運動序列)。考慮到視覺大模型空間精度有限,且木偶戲類的演出往往缺失細節(jié),本研究進一步利用動作生成模型,將粗略動捕結(jié)果 “翻譯” 成對應(yīng)的、精細的角色骨骼動畫。
![]()
圖 1:系統(tǒng)概覽。本文展示的帶模型角色動畫使用默認 mesh 模型,并由 Blender 插件自動重定向。
如圖 1,DancingBox 系統(tǒng)僅需一臺普通相機(如手機),地面標定(如本文使用的視覺標定板等任意平坦物體),及任意演出物體即可工作。能夠?qū)⒋致缘奈矬w演出通過包圍盒做中介,轉(zhuǎn)化為對應(yīng)的真實感角色動畫。
系統(tǒng)實現(xiàn)
DancingBox 系統(tǒng)分為兩個模塊:基于視覺基礎(chǔ)模型的粗略動作捕捉(MoCap)與基于擴散模型的精細動作生成(MoGen)。
粗略動作捕捉(MoCap)
![]()
圖 2:MoCap 系統(tǒng)。
如圖 2,給定一段用戶操作的物體視頻,該團隊的做法是結(jié)合三個視覺基礎(chǔ)模型(SAM2, CoTracker3,π3),從 2D 輸入中估計出 3D 包圍盒運動序列。
具體而言,先使用 π3,將視頻逐幀轉(zhuǎn)化為 3D 單目點云。而后為了定位感興趣的物體和抽象層次,用戶與 SAM2-video 交互,將感興趣物體的各個部分在第一幀內(nèi)分割出來。
結(jié)合這二者,能夠獲取各個運動部位的逐幀 3D 點云。
此后,為了估計出時空中連續(xù)的包圍盒序列,從起始幀估計 PCA 包圍盒作為初始化,并用 CoTracker3 提取出像素級別的追蹤關(guān)系,這一關(guān)系通過 π3 提供的像素-點云對應(yīng),轉(zhuǎn)化為空間中點與點間的幀間對應(yīng)關(guān)系。通過 SVD 分解,便可以解出完整的包圍盒運動序列。
讀者也許會疑惑計算包圍盒的動機:既然 π3 和 SAM2 已經(jīng)能夠給出每幀的空間信號(粗略點云),似乎可以直接將這些點云作為后續(xù)精細動作生成的輸入,從而省略掉 CoTracker3 模塊。
![]()
圖 3:通過包圍盒橋接動作估計模塊與動作生成模塊,解除數(shù)據(jù)稀缺的限制。
如圖 3,使用包圍盒的核心考慮是數(shù)據(jù)問題:為了訓(xùn)練由空間信號(點云/包圍盒序列)約束的動作生成模型,需要該空間信號和真實動作(來自動捕數(shù)據(jù)集)的數(shù)據(jù)對。
然而,由于視覺重建方案得出的點云是表面(而非骨骼)的部分采樣,僅從動作捕捉數(shù)據(jù)集的骨骼無法構(gòu)造出合理的數(shù)據(jù)對,即無法估計骨骼的 “粗細” 和觀測時的 “正反面”。
包圍盒序列就是為了解決這一問題:一方面,給定點云的視覺跟蹤信號(CoTracker3),包圍盒運動信息能夠從粗略點云中估計出來;另一方面,從動捕數(shù)據(jù)集的骨骼運動數(shù)據(jù)中,可以直接算出對應(yīng)包圍盒序列。只要約定好包圍盒大小范圍,這一中間表示就能夠完美橋接兩個系統(tǒng)。
精細動作生成(MoGen)
承接上文,現(xiàn)在我們需要訓(xùn)練以包圍盒序列為條件的精細動作生成模型。基于動作捕捉數(shù)據(jù)集 HumanML3D,先從數(shù)據(jù)集中真實采集的人體骨骼動畫中,按照圖 4 所示的包圍盒合并策略,計算同一段骨骼運動在各種排布方式下產(chǎn)生的包圍盒運動序列。
為了模擬真實場景中估計不準確的問題,再隨機放大/縮小/丟棄掉部分包圍盒,并向包圍盒運動中加入隨機速度/位置噪聲。
![]()
圖 4:初始包圍盒生成邏輯。
接著再訓(xùn)練一個 ControlNet,向預(yù)訓(xùn)練好的文本生成動作模型 (Human-Motion-Diffusion-Model,簡稱 MDM)注入額外的包圍盒控制信號。
![]()
圖 5:MoGen 系統(tǒng)。
特別地,考慮到包圍盒內(nèi)部的頂點順序、同一時刻包圍盒之間的排列順序不應(yīng)該影響該時刻提取出的特征,如圖 5 所示,該團隊參考 PointNet,用平均與最大值運算保證特征的順序無關(guān)性。
用戶調(diào)研
本文進行了廣泛的用戶調(diào)研。在用戶反饋中,DancingBox 符合直覺,易于使用,即使是新手也可以在短時間內(nèi)使用系統(tǒng)自由創(chuàng)作。部分問卷結(jié)果如圖 6。
![]()
圖 6:部分問卷結(jié)果。
特別地,從用戶調(diào)研中,該團隊發(fā)現(xiàn):
- 用戶希望有更靈活自由的物體,實現(xiàn)精細的多樣演出。
- 用戶認為雙手控制多關(guān)節(jié)物體運動存在困難。同時物體是否容易站立很大程度上影響操作便利性。
該團隊表示:「自由度與交互簡易度構(gòu)成了一組 trade-off,我們希望這能夠啟發(fā)后續(xù)研究,進一步探索可交互設(shè)備的更多可能。」
視頻結(jié)果展示
![]()
![]()
![]()
更多視頻結(jié)果,包括正文中各個圖片的對應(yīng)案例,請見項目主頁。
作者信息
本文的第一作者袁浩程是愛丁堡大學(xué)三年級的博士生,他的研究興趣是用戶友好的計算機輔助設(shè)計(CAD),指導(dǎo)老師為愛丁堡大學(xué)李昌健助理教授。
DancingBox 系統(tǒng)處于持續(xù)研究升級中,歡迎感興趣的研究人員與動畫/游戲行業(yè)人員聯(lián)系作者團隊。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.