![]()
本文的共同第一作者為新加坡國立大學博士生費昕,新加坡國立大學博士生徐志軒。合作者為浙江大學實習生方懷聰、新加坡國立大學博士生張添睿。通訊作者為新加坡國立大學計算機學院助理教授、RoboScience 首席科學家邵林,研究方向為機器人學習與靈巧操作。
T (R,O) Grasp 是一種基于物體 — 機器手空間關系建模的圖擴散架構,具備跨智能體的統一表征能力。在 NVIDIA 40GB A100 GPU 上,該方法可實現 5 FPS 的推理速度和 50 grasp/s 的吞吐量,并在多種智能體上取得 94.83% 的平均抓取成功率,刷新了跨智能體靈巧抓取的 SOTA,具備與動態場景實時交互的能力。
![]()
目前,該論文已被機器人領域頂級會議 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。
- 論文標題:T (R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping
- 論文鏈接:https://arxiv.org/pdf/2510.12724
- 項目主頁:https://nus-lins-lab.github.io/trograspweb/
一、引言
靈巧手抓取是機器人完成復雜操作的基礎。目前基于深度學習的方法主要可以分為機器人中心 (robot centric)、物體中心 (object-centric) 和交互中心 (interaction-centric) 三種。
機器人中心的模型直接學習觀測(如點云、圖像)到動作指令的映射,推理速度快,但樣本學習效率低,難以實現跨智能體的泛化。
物體中心的方法預測物體上的接觸信息(如接觸點或接觸熱力圖),泛化性強,但根據接觸信息優化抓取的動作指令復雜耗時,且無法適用于觀測信息不全的應用場景。
此前,D (R,O) Grasp 提出了交互中心的靈巧手抓取表征,通過機器手與物體點云間的距離矩陣表示交互關系,彌補了機器人中心方法的泛化性不足,提升了物體中心方法的推理效率。
然而,D (R,O) 距離矩陣的預測需要巨大的計算開銷,且該方法依賴于機器手初始姿態的合理性,因此難以基于 D (R,O) 表征搭建大規模靈巧手抓取模型。
為克服以上局限性,我們提出 T (R,O) 圖結構作為靈巧手抓取的統一表征(如圖 1 所示),將物體與機器手關節的幾何、拓撲信息編碼為節點,將其相對的位置關系表示為邊。相較于 D (R,O) 距離矩陣,T (R,O) 圖結構在保持表達能力的同時,提供了更高效、更輕量的建模方案。
![]()
圖 1. T (R,O) 圖結構與擴散過程
二、方法
![]()
圖 2. T (R,O) Grasp 整體框架
給定物體點云和不同機器手的 URDF 配置文件,模型的目標是輸出多樣的抓取姿態,并具備跨智能體的泛化能力。T (R,O) Grasp 的整體框架如圖 2 所示,主要分為以下三部分:
1. T (R,O) 圖結構的構建
2. 圖擴散網絡的訓練與關節位姿矩陣的預測
3. 基于關節位姿矩陣的逆運動學求解
2.1 T (R,O) 圖結構的構建
![]()
圖 3. T (R,O) 圖結構的構建
如圖 3 所示,T (R,O) 圖結構基于物體 — 機器手的相對位姿建模其交互關系。首先,物體點云通過預訓練的 VQ-VAE 編碼為圖中的物體節點;其次,結合機器手關節的幾何 BPS 特征與關節位姿信息,構建圖中的關節節點;最后,在物體 — 關節和關節 — 關節之間,以相對位姿關系定義圖中的邊。
2.2 圖擴散網絡的訓練與關節位姿矩陣的預測
基于 T (R,O) 圖結構,模型可對關節位姿進行標準 DDIM 范式下的加噪 — 去噪訓練,進而完成關節位姿矩陣的預測。其中,Denoiser 由多層 Transformer 組成,其網絡結構如圖 4 所示。
![]()
圖 4. T (R,O) Denoiser 網絡架構
此外,得益于 DDIM 在推理階段對多種 guidance 的良好支持,T (R,O) Grasp 在訓練完成后能夠在多種條件約束下生成抓取姿態,例如指定抓取方向、限定物體上的抓取區域等。
2.3 基于關節位姿矩陣的逆運動學求解
模型預測得到機器手在抓取時各關節的位姿矩陣,即可通過 Pyroki toolkit 即時求解如下逆運動學問題,得到抓取姿態的動作指令。
![]()
三、實驗結果
在實驗中,我們系統評估了 T (R,O) Grasp 在無條件生成以及條件約束生成(抓取方向與抓取區域)兩種設置下的靈巧手抓取性能。實驗采用抓取成功率、多樣性和推理速度三個指標對模型進行評價。
![]()
圖 5. T (R,O) Grasp 與 baseline 性能對比
![]()
圖 6. T (R,O) Grasp 在無條件設置下的靈巧抓取
![]()
圖 7. T (R,O) Grasp 在給定抓取方向下的靈巧抓取
![]()
圖 8. T (R,O) Grasp 在給定抓取區域下的靈巧抓取
圖 5-8 顯示,T (R,O) Grasp 在兩種設置下的性能均超越現有方法,具備在多種約束下跨智能體生成準確、多樣靈巧手抓取的能力。此外,T (R,O) Grasp 在實驗硬件平臺 NVIDIA 40GB A100 上平均可達到 5 FPS 的推理速度,為動態場景下實現閉環抓取提供了基礎。
在真實機器人實驗中,我們將算法部署于 xArm 機械臂平臺,并在 XHand 和 LEAP Hand 兩種靈巧手上進行了測試。實驗結果表明,T (R,O) Grasp 在 XHand 和 LEAP Hand 上分別達到了 91.0% 和 90.0% 的抓取成功率。此外,在動態傳送帶環境中,T (R,O) Grasp 同樣能夠完成穩定抓取,驗證了其在動態場景下的閉環抓取能力。
![]()
圖 9. T (R,O) Grasp 在 XHand 與 LEAP Hand 上的真實機器人抓取
![]()
圖 10. T (R,O) Grasp 在傳送帶動態環境的真實機器人抓取
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.