NUS邵林團隊提出T(R,O) Grasp：刷新跨智能體靈巧抓取SOTA

2026-04-13 13:17:37　來源: 機器之心Pro

河北舉報

分享至

本文的共同第一作者為新加坡國立大學博士生費昕，新加坡國立大學博士生徐志軒。合作者為浙江大學實習生方懷聰、新加坡國立大學博士生張?zhí)眍！Ｍㄓ嵶髡邽樾录悠聡⒋髮W計算機學院助理教授、RoboScience 首席科學家邵林，研究方向為機器人學習與靈巧操作。

T (R,O) Grasp 是一種基于物體 — 機器手空間關(guān)系建模的圖擴散架構(gòu)，具備跨智能體的統(tǒng)一表征能力。在 NVIDIA 40GB A100 GPU 上，該方法可實現(xiàn) 5 FPS 的推理速度和 50 grasp/s 的吞吐量，并在多種智能體上取得 94.83% 的平均抓取成功率，刷新了跨智能體靈巧抓取的 SOTA，具備與動態(tài)場景實時交互的能力。

目前，該論文已被機器人領(lǐng)域頂級會議 IEEE International Conference on Robotics & Automation（ICRA 2026）接收。

論文標題：T (R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping
論文鏈接：https://arxiv.org/pdf/2510.12724
項目主頁：https://nus-lins-lab.github.io/trograspweb/

一、引言

靈巧手抓取是機器人完成復雜操作的基礎(chǔ)。目前基于深度學習的方法主要可以分為機器人中心 (robot centric)、物體中心 (object-centric) 和交互中心 (interaction-centric) 三種。

機器人中心的模型直接學習觀測（如點云、圖像）到動作指令的映射，推理速度快，但樣本學習效率低，難以實現(xiàn)跨智能體的泛化。

物體中心的方法預測物體上的接觸信息（如接觸點或接觸熱力圖），泛化性強，但根據(jù)接觸信息優(yōu)化抓取的動作指令復雜耗時，且無法適用于觀測信息不全的應(yīng)用場景。

此前，D (R,O) Grasp 提出了交互中心的靈巧手抓取表征，通過機器手與物體點云間的距離矩陣表示交互關(guān)系，彌補了機器人中心方法的泛化性不足，提升了物體中心方法的推理效率。

然而，D (R,O) 距離矩陣的預測需要巨大的計算開銷，且該方法依賴于機器手初始姿態(tài)的合理性，因此難以基于 D (R,O) 表征搭建大規(guī)模靈巧手抓取模型。

為克服以上局限性，我們提出 T (R,O) 圖結(jié)構(gòu)作為靈巧手抓取的統(tǒng)一表征（如圖 1 所示），將物體與機器手關(guān)節(jié)的幾何、拓撲信息編碼為節(jié)點，將其相對的位置關(guān)系表示為邊。相較于 D (R,O) 距離矩陣，T (R,O) 圖結(jié)構(gòu)在保持表達能力的同時，提供了更高效、更輕量的建模方案。

圖 1. T (R,O) 圖結(jié)構(gòu)與擴散過程

二、方法

圖 2. T (R,O) Grasp 整體框架

給定物體點云和不同機器手的 URDF 配置文件，模型的目標是輸出多樣的抓取姿態(tài)，并具備跨智能體的泛化能力。T (R,O) Grasp 的整體框架如圖 2 所示，主要分為以下三部分：

1. T (R,O) 圖結(jié)構(gòu)的構(gòu)建

2. 圖擴散網(wǎng)絡(luò)的訓練與關(guān)節(jié)位姿矩陣的預測

3. 基于關(guān)節(jié)位姿矩陣的逆運動學求解

2.1 T (R,O) 圖結(jié)構(gòu)的構(gòu)建

圖 3. T (R,O) 圖結(jié)構(gòu)的構(gòu)建

如圖 3 所示，T (R,O) 圖結(jié)構(gòu)基于物體 — 機器手的相對位姿建模其交互關(guān)系。首先，物體點云通過預訓練的 VQ-VAE 編碼為圖中的物體節(jié)點；其次，結(jié)合機器手關(guān)節(jié)的幾何 BPS 特征與關(guān)節(jié)位姿信息，構(gòu)建圖中的關(guān)節(jié)節(jié)點；最后，在物體 — 關(guān)節(jié)和關(guān)節(jié) — 關(guān)節(jié)之間，以相對位姿關(guān)系定義圖中的邊。

2.2 圖擴散網(wǎng)絡(luò)的訓練與關(guān)節(jié)位姿矩陣的預測

基于 T (R,O) 圖結(jié)構(gòu)，模型可對關(guān)節(jié)位姿進行標準 DDIM 范式下的加噪 — 去噪訓練，進而完成關(guān)節(jié)位姿矩陣的預測。其中，Denoiser 由多層 Transformer 組成，其網(wǎng)絡(luò)結(jié)構(gòu)如圖 4 所示。

圖 4. T (R,O) Denoiser 網(wǎng)絡(luò)架構(gòu)

此外，得益于 DDIM 在推理階段對多種 guidance 的良好支持，T (R,O) Grasp 在訓練完成后能夠在多種條件約束下生成抓取姿態(tài)，例如指定抓取方向、限定物體上的抓取區(qū)域等。

2.3 基于關(guān)節(jié)位姿矩陣的逆運動學求解

模型預測得到機器手在抓取時各關(guān)節(jié)的位姿矩陣，即可通過 Pyroki toolkit 即時求解如下逆運動學問題，得到抓取姿態(tài)的動作指令。

三、實驗結(jié)果

在實驗中，我們系統(tǒng)評估了 T (R,O) Grasp 在無條件生成以及條件約束生成（抓取方向與抓取區(qū)域）兩種設(shè)置下的靈巧手抓取性能。實驗采用抓取成功率、多樣性和推理速度三個指標對模型進行評價。

圖 5. T (R,O) Grasp 與 baseline 性能對比

圖 6. T (R,O) Grasp 在無條件設(shè)置下的靈巧抓取

圖 7. T (R,O) Grasp 在給定抓取方向下的靈巧抓取

圖 8. T (R,O) Grasp 在給定抓取區(qū)域下的靈巧抓取

圖 5-8 顯示，T (R,O) Grasp 在兩種設(shè)置下的性能均超越現(xiàn)有方法，具備在多種約束下跨智能體生成準確、多樣靈巧手抓取的能力。此外，T (R,O) Grasp 在實驗硬件平臺 NVIDIA 40GB A100 上平均可達到 5 FPS 的推理速度，為動態(tài)場景下實現(xiàn)閉環(huán)抓取提供了基礎(chǔ)。

在真實機器人實驗中，我們將算法部署于 xArm 機械臂平臺，并在 XHand 和 LEAP Hand 兩種靈巧手上進行了測試。實驗結(jié)果表明，T (R,O) Grasp 在 XHand 和 LEAP Hand 上分別達到了 91.0% 和 90.0% 的抓取成功率。此外，在動態(tài)傳送帶環(huán)境中，T (R,O) Grasp 同樣能夠完成穩(wěn)定抓取，驗證了其在動態(tài)場景下的閉環(huán)抓取能力。

圖 9. T (R,O) Grasp 在 XHand 與 LEAP Hand 上的真實機器人抓取

圖 10. T (R,O) Grasp 在傳送帶動態(tài)環(huán)境的真實機器人抓取

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.