你有沒有想過,快遞機器人分揀包裹時,是如何精準判斷該把哪個包裹放進哪個貨架的?當維修工戴上AR眼鏡檢修機器,眼前的虛擬圖紙為何能嚴絲合縫地“貼”在零件上?這些酷炫場景的背后,都離不開一項關鍵技術——6D位姿估計。簡單來說,它就是讓機器不僅能感知物體“在哪兒”(3D位置),還能識別它“怎么擺”(3D姿態)。就像我們一眼就能看出杯子是立著還是倒著、離自己有多遠一樣,機器也正在學會這樣的空間洞察力。
這項技術的重要性不言而喻。工業機器人需要它來精準抓取零件;自動駕駛汽車依靠它識別周圍車輛的位置和朝向;AR應用則用它將虛擬物體準確疊加到真實世界中。
然而,這項任務在現實環境中仍然極其困難:預掃描的CAD模型很少可用,多視圖捕獲不切實際,單視圖重建存在尺度模糊性。因此,盡管從單幅圖像進行可靠的一次性6D姿態估計在模擬中起著核心作用,但長期以來人們一直認為它幾乎是不可能的。
而機器人與物理世界的交互,恰恰依賴這種精準的空間感知。
近期,由北京智源研究院、清華大學、南洋理工大學等機構聯合提出的OnePoseViaGen框架,創新性地將單視圖3D生成與生成式領域隨機化相結合,為解決“單參考圖像估計未知物體6D位姿”這一難題提供了全新思路。
![]()
▍創新方案:OnePoseViaGen的工作原理
面對這些挑戰,OnePoseViaGen提出“單視圖3D生成→尺度-位姿聯合優化→生成式領域增強”的端到端解決方案,目標很明確:僅需一張參考圖,即可高精度估計未知物體的6D位姿。
![]()
OnePoseViaGen 概述
從照片到3D模型
首先,該方法從單張錨點圖像出發,通過先進的單視圖3D生成技術構建初始的物體模型。具體而言分為三個步驟:
背景噪聲抑制:采用實例分割工具(如SAM 2)對參考圖像中的物體區域進行提取,剔除背景干擾,確保后續生成過程聚焦于目標物體;
提取法線信息輔助建模:通過Image-to-Normal工具提取物體表面法線向量信息,該信息可反映物體表面凹凸結構(如邊緣、凹槽),將其與裁剪后的RGB圖像共同輸入改進版Hi3DGen模型;
歸一化3D模型輸出:Hi3DGen通過“法線向量橋接2D-3D幾何關系”的機制,在“物體中心坐標系”下生成歸一化紋理網格模型。該模型保留物體精細幾何特征,但尺度為歸一化單位(無物理意義),需通過后續模塊實現尺度對齊。
解決尺度模糊的關鍵創新
拿到標準化模型后,核心矛盾轉為“如何將歸一化模型與真實世界對齊”。
這是OnePoseViaGen最核心的突破。由于模型的尺度和位姿與中的真實物體不匹配,直接使用會導致嚴重的位姿估計誤差,于是研究團隊設計了“粗對齊→精對齊”的兩步優化策略,解決單視圖重建的尺度模糊問題。
粗對齊階段,系統通過多視角渲染、2D特征匹配并結合深度信息,利用PnP算法估算出一個初始的6D位姿和存在模糊的尺度,隨后通過優化3D點云的重投影誤差來求解出準確的全局尺度因子;
精對齊階段則在此基礎上,引入類似FoundationPose的迭代優化框架,通過不斷渲染、比較并預測位姿增量來精細化位姿,同時在每次迭代后重新優化尺度,直至結果收斂,最終獲得在真實世界坐標系下度量精確的模型與位姿。
![]()
跨越領域鴻溝
為解決生成模型與真實圖像間的差異,團隊提出了文本引導的生成式領域隨機化技術。
簡單來說,就是為同一物體生成多種不同紋理的變體——一個杯子可以有花紋、純色、磨砂等不同外觀,但保持相同幾何結構。隨后,在虛擬環境中渲染這些變體模型,并隨機改變光照、背景和遮擋條件,生成大規模合成數據集。最終,利用該數據集對位姿估計網絡進行微調,有效彌合了生成模型與真實圖像之間的域差距,顯著增強了對各種真實世界挑戰的適應能力。
▍實際表現:從實驗到真實場景的驗證
為驗證OnePoseViaGen的性能,研究團隊在多個主流6D位姿估計基準數據集上進行了測試,并與現有先進方法進行了對比。在YCBInEOAT數據集上的測試結果顯示,OnePoseViaGen在ADD指標上實現了81.27%的平均精度,遠超基線方法的45.6%。特別是在低紋理、高遮擋物體上優勢更加明顯。
![]()
與 YCBInEOAT 數據集上的 SOTA 進行比較
在復雜光照場景和高遮擋場景的測試中,OnePoseViaGen同樣表現優異,證明其在挑戰性環境下的強魯棒性。
但最令人印象深刻的,還是真實機器人實驗。
研究團隊使用ROKAE機械臂搭載靈巧手和AgileX PiPER雙臂機器人,完成了兩項任務:單臂抓取-放置和雙臂協作。
![]()
在測試中,機器人面對15類不同物體,每類進行30次實驗,均表現出高成功率和亞厘米級的精度。即使在物體交接的動態遮擋場景中,系統也能穩定工作,為機械臂提供可靠的抓取姿態指導。
▍結語與展望
OnePoseViaGen的技術突破,對多個領域將產生深遠影響。
在工業自動化方面,生產線可以快速適應新產品,無需為每個零件預先建立精細的3D模型,大幅降低自動化改造的成本和時間。
在物流領域,機器人能夠處理海量不同形狀、尺寸的包裹,真正實現柔性分揀。
在家庭服務機器人方面,機器可以快速學習認識新物體,理解用戶的指令,如“拿那個紅色的杯子”或“找到電視遙控器”。
甚至在文化遺產保護中,研究人員可以通過簡單拍照,快速獲取文物的精確三維位置和姿態,為數字化保護提供支持。
這項技術的獨特價值在于它極大降低了機器感知世界的門檻。傳統的6D位姿估計需要精密傳感器、復雜校準流程和詳盡的物體模型,而OnePoseViaGen僅需一張普通照片,這種“降維打擊”使其具備大規模應用的前景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.