新3D面部數據集與AI模型,助力人形機器人在無需2D紋理映射的情況下檢測面部關鍵點。
![]()
人形機器人正變得越來越難以與真人區分,而中國的一項新研究揭示了其中一個原因。
研究人員開發了一個大規模3D面部數據集和一個全新的人工智能模型,該模型能夠直接從原始3D數據中檢測面部關鍵點,無需依賴2D圖像或數字模板。
這項工作旨在解決構建逼真機器人和虛擬人類的核心挑戰:使它們能夠表達情感、識別身份并進行自然交互。
實現這一能力的關鍵技術基礎之一是三維面部關鍵點檢測,即在3D空間中映射面部的關鍵點。
現有系統大多嚴重依賴2D紋理映射或合成的3D面部。這種方法可能會引入誤差,因為數字模型通常與真實人類面部幾何結構存在差異,且紋理對齊并不總是精確。
這項新研究旨在通過直接處理真實世界的3D面部掃描數據來繞過這些限制。
該研究由中國科學院深圳先進技術研究院的宋展教授和福建工程學院的葉宇萍博士領導。
構建海量3D數據集
為了支持這項工作,研究團隊構建了一個定制的3D和4D面部采集系統。他們進行了標準化的數據收集,并組建了一個包含約20萬張高保真3D面部掃描圖像的數據庫。
該數據庫還包括一個多表情3D人臉數據集、一個標準化3D面部關鍵點數據集、一個高精度3D人體數據集,以及一個動態4D面部表情數據集。
這些多模態生物特征資源共同構成了迄今為止報道的最大規模結構化真實3D人類面部數據集合之一。該數據集已被納入福建省2025年高質量人工智能數據集計劃。
研究人員沒有向AI系統輸入帶紋理的圖像,而是設計了一種曲率融合圖注意力網絡(CF-GAT),用于直接處理無序的點云。點云將面部的幾何結構表示為空間點的集合,不包含表面紋理。
研究團隊引入了一種幾何驅動的采樣策略,該策略在簡化點集的同時,保留了關鍵的曲率信息。這些曲率數據被編碼為明確的幾何先驗信息,并集成到模型的注意力機制中。這使得網絡能夠關注細微的局部形狀變化,同時還能建模整個面部的全局關系。
幾何驅動的人工智能突破
通過其圖注意力結構,CF-GAT能夠直接從原始幾何數據中預測出3D關鍵點坐標。它不依賴2D紋理或預定義的模板模型,從而減少了對表面外觀的依賴。
在測試中,與傳統方法相比,該模型表現出更強的抗噪聲魯棒性和更好的跨不同面部形狀的泛化能力。
它在精細關鍵點的定位上也更加準確,這對于實現逼真的表情和精確的面部追蹤至關重要。
這些發現突顯了高質量、大規模數據集如何直接影響算法性能。通過在詳細的真實世界幾何數據上進行訓練,模型能夠學習更豐富的空間模式,并更有效地適應現實世界的變化。
這項進展有望支持更逼真的人形機器人、改進的生物識別系統以及更具表現力的虛擬化身。隨著人形機器人越來越多地出現在娛樂、醫療和服務領域,其底層的幾何智能水平將在很大程度上決定它們在人類用戶眼中的自然程度。
該研究發表于《IEEE視頻技術電路與系統匯刊》。
如果朋友們喜歡,敬請關注“知新了了”!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.