網易首頁 > 網易號 > 正文申請入駐

讓機器看物體擺放：單視圖3D生成新框架，解決機器人空間感知難題

2025-09-30 19:03:14　來源: 機器人大講堂

安徽舉報

分享至

你有沒有想過，快遞機器人分揀包裹時，是如何精準判斷該把哪個包裹放進哪個貨架的？當維修工戴上AR眼鏡檢修機器，眼前的虛擬圖紙為何能嚴絲合縫地“貼”在零件上？這些酷炫場景的背后，都離不開一項關鍵技術——6D位姿估計。簡單來說，它就是讓機器不僅能感知物體“在哪兒”（3D位置），還能識別它“怎么擺”（3D姿態）。就像我們一眼就能看出杯子是立著還是倒著、離自己有多遠一樣，機器也正在學會這樣的空間洞察力。

這項技術的重要性不言而喻。工業機器人需要它來精準抓取零件；自動駕駛汽車依靠它識別周圍車輛的位置和朝向；AR應用則用它將虛擬物體準確疊加到真實世界中。

然而，這項任務在現實環境中仍然極其困難：預掃描的CAD模型很少可用，多視圖捕獲不切實際，單視圖重建存在尺度模糊性。因此，盡管從單幅圖像進行可靠的一次性6D姿態估計在模擬中起著核心作用，但長期以來人們一直認為它幾乎是不可能的。

而機器人與物理世界的交互，恰恰依賴這種精準的空間感知。

近期，由北京智源研究院、清華大學、南洋理工大學等機構聯合提出的OnePoseViaGen框架，創新性地將單視圖3D生成與生成式領域隨機化相結合，為解決“單參考圖像估計未知物體6D位姿”這一難題提供了全新思路。

▍創新方案：OnePoseViaGen的工作原理

面對這些挑戰，OnePoseViaGen提出“單視圖3D生成→尺度-位姿聯合優化→生成式領域增強”的端到端解決方案，目標很明確：僅需一張參考圖，即可高精度估計未知物體的6D位姿。

OnePoseViaGen 概述

從照片到3D模型

首先，該方法從單張錨點圖像出發，通過先進的單視圖3D生成技術構建初始的物體模型。具體而言分為三個步驟：

背景噪聲抑制：采用實例分割工具（如SAM 2）對參考圖像中的物體區域進行提取，剔除背景干擾，確保后續生成過程聚焦于目標物體；

提取法線信息輔助建模：通過Image-to-Normal工具提取物體表面法線向量信息，該信息可反映物體表面凹凸結構（如邊緣、凹槽），將其與裁剪后的RGB圖像共同輸入改進版Hi3DGen模型；

歸一化3D模型輸出：Hi3DGen通過“法線向量橋接2D-3D幾何關系”的機制，在“物體中心坐標系”下生成歸一化紋理網格模型。該模型保留物體精細幾何特征，但尺度為歸一化單位（無物理意義），需通過后續模塊實現尺度對齊。

解決尺度模糊的關鍵創新

拿到標準化模型后，核心矛盾轉為“如何將歸一化模型與真實世界對齊”。

這是OnePoseViaGen最核心的突破。由于模型的尺度和位姿與中的真實物體不匹配，直接使用會導致嚴重的位姿估計誤差，于是研究團隊設計了“粗對齊→精對齊”的兩步優化策略，解決單視圖重建的尺度模糊問題。

粗對齊階段，系統通過多視角渲染、2D特征匹配并結合深度信息，利用PnP算法估算出一個初始的6D位姿和存在模糊的尺度，隨后通過優化3D點云的重投影誤差來求解出準確的全局尺度因子；

精對齊階段則在此基礎上，引入類似FoundationPose的迭代優化框架，通過不斷渲染、比較并預測位姿增量來精細化位姿，同時在每次迭代后重新優化尺度，直至結果收斂，最終獲得在真實世界坐標系下度量精確的模型與位姿。

跨越領域鴻溝

為解決生成模型與真實圖像間的差異，團隊提出了文本引導的生成式領域隨機化技術。

簡單來說，就是為同一物體生成多種不同紋理的變體——一個杯子可以有花紋、純色、磨砂等不同外觀，但保持相同幾何結構。隨后，在虛擬環境中渲染這些變體模型，并隨機改變光照、背景和遮擋條件，生成大規模合成數據集。最終，利用該數據集對位姿估計網絡進行微調，有效彌合了生成模型與真實圖像之間的域差距，顯著增強了對各種真實世界挑戰的適應能力。

▍實際表現：從實驗到真實場景的驗證

為驗證OnePoseViaGen的性能，研究團隊在多個主流6D位姿估計基準數據集上進行了測試，并與現有先進方法進行了對比。在YCBInEOAT數據集上的測試結果顯示，OnePoseViaGen在ADD指標上實現了81.27%的平均精度，遠超基線方法的45.6%。特別是在低紋理、高遮擋物體上優勢更加明顯。

與 YCBInEOAT 數據集上的 SOTA 進行比較

在復雜光照場景和高遮擋場景的測試中，OnePoseViaGen同樣表現優異，證明其在挑戰性環境下的強魯棒性。

但最令人印象深刻的，還是真實機器人實驗。

研究團隊使用ROKAE機械臂搭載靈巧手和AgileX PiPER雙臂機器人，完成了兩項任務：單臂抓取-放置和雙臂協作。

在測試中，機器人面對15類不同物體，每類進行30次實驗，均表現出高成功率和亞厘米級的精度。即使在物體交接的動態遮擋場景中，系統也能穩定工作，為機械臂提供可靠的抓取姿態指導。

▍結語與展望

OnePoseViaGen的技術突破，對多個領域將產生深遠影響。

在工業自動化方面，生產線可以快速適應新產品，無需為每個零件預先建立精細的3D模型，大幅降低自動化改造的成本和時間。

在物流領域，機器人能夠處理海量不同形狀、尺寸的包裹，真正實現柔性分揀。

在家庭服務機器人方面，機器可以快速學習認識新物體，理解用戶的指令，如“拿那個紅色的杯子”或“找到電視遙控器”。

甚至在文化遺產保護中，研究人員可以通過簡單拍照，快速獲取文物的精確三維位置和姿態，為數字化保護提供支持。

這項技術的獨特價值在于它極大降低了機器感知世界的門檻。傳統的6D位姿估計需要精密傳感器、復雜校準流程和詳盡的物體模型，而OnePoseViaGen僅需一張普通照片，這種“降維打擊”使其具備大規模應用的前景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.