網易首頁 > 網易號 > 正文申請入駐

NUS邵林團隊提出T(R,O) Grasp：刷新跨智能體靈巧抓取SOTA

2026-04-13 13:17:37　來源: 機器之心Pro

河北舉報

分享至

本文的共同第一作者為新加坡國立大學博士生費昕，新加坡國立大學博士生徐志軒。合作者為浙江大學實習生方懷聰、新加坡國立大學博士生張添睿。通訊作者為新加坡國立大學計算機學院助理教授、RoboScience 首席科學家邵林，研究方向為機器人學習與靈巧操作。

T (R,O) Grasp 是一種基于物體 — 機器手空間關系建模的圖擴散架構，具備跨智能體的統一表征能力。在 NVIDIA 40GB A100 GPU 上，該方法可實現 5 FPS 的推理速度和 50 grasp/s 的吞吐量，并在多種智能體上取得 94.83% 的平均抓取成功率，刷新了跨智能體靈巧抓取的 SOTA，具備與動態場景實時交互的能力。

目前，該論文已被機器人領域頂級會議 IEEE International Conference on Robotics & Automation（ICRA 2026）接收。

論文標題：T (R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping
論文鏈接：https://arxiv.org/pdf/2510.12724
項目主頁：https://nus-lins-lab.github.io/trograspweb/

一、引言

靈巧手抓取是機器人完成復雜操作的基礎。目前基于深度學習的方法主要可以分為機器人中心 (robot centric)、物體中心 (object-centric) 和交互中心 (interaction-centric) 三種。

機器人中心的模型直接學習觀測（如點云、圖像）到動作指令的映射，推理速度快，但樣本學習效率低，難以實現跨智能體的泛化。

物體中心的方法預測物體上的接觸信息（如接觸點或接觸熱力圖），泛化性強，但根據接觸信息優化抓取的動作指令復雜耗時，且無法適用于觀測信息不全的應用場景。

此前，D (R,O) Grasp 提出了交互中心的靈巧手抓取表征，通過機器手與物體點云間的距離矩陣表示交互關系，彌補了機器人中心方法的泛化性不足，提升了物體中心方法的推理效率。

然而，D (R,O) 距離矩陣的預測需要巨大的計算開銷，且該方法依賴于機器手初始姿態的合理性，因此難以基于 D (R,O) 表征搭建大規模靈巧手抓取模型。

為克服以上局限性，我們提出 T (R,O) 圖結構作為靈巧手抓取的統一表征（如圖 1 所示），將物體與機器手關節的幾何、拓撲信息編碼為節點，將其相對的位置關系表示為邊。相較于 D (R,O) 距離矩陣，T (R,O) 圖結構在保持表達能力的同時，提供了更高效、更輕量的建模方案。

圖 1. T (R,O) 圖結構與擴散過程

二、方法

圖 2. T (R,O) Grasp 整體框架

給定物體點云和不同機器手的 URDF 配置文件，模型的目標是輸出多樣的抓取姿態，并具備跨智能體的泛化能力。T (R,O) Grasp 的整體框架如圖 2 所示，主要分為以下三部分：

1. T (R,O) 圖結構的構建

2. 圖擴散網絡的訓練與關節位姿矩陣的預測

3. 基于關節位姿矩陣的逆運動學求解

2.1 T (R,O) 圖結構的構建

圖 3. T (R,O) 圖結構的構建

如圖 3 所示，T (R,O) 圖結構基于物體 — 機器手的相對位姿建模其交互關系。首先，物體點云通過預訓練的 VQ-VAE 編碼為圖中的物體節點；其次，結合機器手關節的幾何 BPS 特征與關節位姿信息，構建圖中的關節節點；最后，在物體 — 關節和關節 — 關節之間，以相對位姿關系定義圖中的邊。

2.2 圖擴散網絡的訓練與關節位姿矩陣的預測

基于 T (R,O) 圖結構，模型可對關節位姿進行標準 DDIM 范式下的加噪 — 去噪訓練，進而完成關節位姿矩陣的預測。其中，Denoiser 由多層 Transformer 組成，其網絡結構如圖 4 所示。

圖 4. T (R,O) Denoiser 網絡架構

此外，得益于 DDIM 在推理階段對多種 guidance 的良好支持，T (R,O) Grasp 在訓練完成后能夠在多種條件約束下生成抓取姿態，例如指定抓取方向、限定物體上的抓取區域等。

2.3 基于關節位姿矩陣的逆運動學求解

模型預測得到機器手在抓取時各關節的位姿矩陣，即可通過 Pyroki toolkit 即時求解如下逆運動學問題，得到抓取姿態的動作指令。

三、實驗結果

在實驗中，我們系統評估了 T (R,O) Grasp 在無條件生成以及條件約束生成（抓取方向與抓取區域）兩種設置下的靈巧手抓取性能。實驗采用抓取成功率、多樣性和推理速度三個指標對模型進行評價。

圖 5. T (R,O) Grasp 與 baseline 性能對比

圖 6. T (R,O) Grasp 在無條件設置下的靈巧抓取

圖 7. T (R,O) Grasp 在給定抓取方向下的靈巧抓取

圖 8. T (R,O) Grasp 在給定抓取區域下的靈巧抓取

圖 5-8 顯示，T (R,O) Grasp 在兩種設置下的性能均超越現有方法，具備在多種約束下跨智能體生成準確、多樣靈巧手抓取的能力。此外，T (R,O) Grasp 在實驗硬件平臺 NVIDIA 40GB A100 上平均可達到 5 FPS 的推理速度，為動態場景下實現閉環抓取提供了基礎。

在真實機器人實驗中，我們將算法部署于 xArm 機械臂平臺，并在 XHand 和 LEAP Hand 兩種靈巧手上進行了測試。實驗結果表明，T (R,O) Grasp 在 XHand 和 LEAP Hand 上分別達到了 91.0% 和 90.0% 的抓取成功率。此外，在動態傳送帶環境中，T (R,O) Grasp 同樣能夠完成穩定抓取，驗證了其在動態場景下的閉環抓取能力。

圖 9. T (R,O) Grasp 在 XHand 與 LEAP Hand 上的真實機器人抓取

圖 10. T (R,O) Grasp 在傳送帶動態環境的真實機器人抓取

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.