![]()
本文的共同第一作者為新加坡國立大學博士生費昕,新加坡國立大學博士生徐志軒。合作者為浙江大學實習生方懷聰、新加坡國立大學博士生張?zhí)眍!Mㄓ嵶髡邽樾录悠聡⒋髮W計算機學院助理教授、RoboScience 首席科學家邵林,研究方向為機器人學習與靈巧操作。
T (R,O) Grasp 是一種基于物體 — 機器手空間關(guān)系建模的圖擴散架構(gòu),具備跨智能體的統(tǒng)一表征能力。在 NVIDIA 40GB A100 GPU 上,該方法可實現(xiàn) 5 FPS 的推理速度和 50 grasp/s 的吞吐量,并在多種智能體上取得 94.83% 的平均抓取成功率,刷新了跨智能體靈巧抓取的 SOTA,具備與動態(tài)場景實時交互的能力。
![]()
目前,該論文已被機器人領(lǐng)域頂級會議 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。
- 論文標題:T (R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping
- 論文鏈接:https://arxiv.org/pdf/2510.12724
- 項目主頁:https://nus-lins-lab.github.io/trograspweb/
一、引言
靈巧手抓取是機器人完成復雜操作的基礎(chǔ)。目前基于深度學習的方法主要可以分為機器人中心 (robot centric)、物體中心 (object-centric) 和交互中心 (interaction-centric) 三種。
機器人中心的模型直接學習觀測(如點云、圖像)到動作指令的映射,推理速度快,但樣本學習效率低,難以實現(xiàn)跨智能體的泛化。
物體中心的方法預測物體上的接觸信息(如接觸點或接觸熱力圖),泛化性強,但根據(jù)接觸信息優(yōu)化抓取的動作指令復雜耗時,且無法適用于觀測信息不全的應(yīng)用場景。
此前,D (R,O) Grasp 提出了交互中心的靈巧手抓取表征,通過機器手與物體點云間的距離矩陣表示交互關(guān)系,彌補了機器人中心方法的泛化性不足,提升了物體中心方法的推理效率。
然而,D (R,O) 距離矩陣的預測需要巨大的計算開銷,且該方法依賴于機器手初始姿態(tài)的合理性,因此難以基于 D (R,O) 表征搭建大規(guī)模靈巧手抓取模型。
為克服以上局限性,我們提出 T (R,O) 圖結(jié)構(gòu)作為靈巧手抓取的統(tǒng)一表征(如圖 1 所示),將物體與機器手關(guān)節(jié)的幾何、拓撲信息編碼為節(jié)點,將其相對的位置關(guān)系表示為邊。相較于 D (R,O) 距離矩陣,T (R,O) 圖結(jié)構(gòu)在保持表達能力的同時,提供了更高效、更輕量的建模方案。
![]()
圖 1. T (R,O) 圖結(jié)構(gòu)與擴散過程
二、方法
![]()
圖 2. T (R,O) Grasp 整體框架
給定物體點云和不同機器手的 URDF 配置文件,模型的目標是輸出多樣的抓取姿態(tài),并具備跨智能體的泛化能力。T (R,O) Grasp 的整體框架如圖 2 所示,主要分為以下三部分:
1. T (R,O) 圖結(jié)構(gòu)的構(gòu)建
2. 圖擴散網(wǎng)絡(luò)的訓練與關(guān)節(jié)位姿矩陣的預測
3. 基于關(guān)節(jié)位姿矩陣的逆運動學求解
2.1 T (R,O) 圖結(jié)構(gòu)的構(gòu)建
![]()
圖 3. T (R,O) 圖結(jié)構(gòu)的構(gòu)建
如圖 3 所示,T (R,O) 圖結(jié)構(gòu)基于物體 — 機器手的相對位姿建模其交互關(guān)系。首先,物體點云通過預訓練的 VQ-VAE 編碼為圖中的物體節(jié)點;其次,結(jié)合機器手關(guān)節(jié)的幾何 BPS 特征與關(guān)節(jié)位姿信息,構(gòu)建圖中的關(guān)節(jié)節(jié)點;最后,在物體 — 關(guān)節(jié)和關(guān)節(jié) — 關(guān)節(jié)之間,以相對位姿關(guān)系定義圖中的邊。
2.2 圖擴散網(wǎng)絡(luò)的訓練與關(guān)節(jié)位姿矩陣的預測
基于 T (R,O) 圖結(jié)構(gòu),模型可對關(guān)節(jié)位姿進行標準 DDIM 范式下的加噪 — 去噪訓練,進而完成關(guān)節(jié)位姿矩陣的預測。其中,Denoiser 由多層 Transformer 組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖 4 所示。
![]()
圖 4. T (R,O) Denoiser 網(wǎng)絡(luò)架構(gòu)
此外,得益于 DDIM 在推理階段對多種 guidance 的良好支持,T (R,O) Grasp 在訓練完成后能夠在多種條件約束下生成抓取姿態(tài),例如指定抓取方向、限定物體上的抓取區(qū)域等。
2.3 基于關(guān)節(jié)位姿矩陣的逆運動學求解
模型預測得到機器手在抓取時各關(guān)節(jié)的位姿矩陣,即可通過 Pyroki toolkit 即時求解如下逆運動學問題,得到抓取姿態(tài)的動作指令。
![]()
三、實驗結(jié)果
在實驗中,我們系統(tǒng)評估了 T (R,O) Grasp 在無條件生成以及條件約束生成(抓取方向與抓取區(qū)域)兩種設(shè)置下的靈巧手抓取性能。實驗采用抓取成功率、多樣性和推理速度三個指標對模型進行評價。
![]()
圖 5. T (R,O) Grasp 與 baseline 性能對比
![]()
圖 6. T (R,O) Grasp 在無條件設(shè)置下的靈巧抓取
![]()
圖 7. T (R,O) Grasp 在給定抓取方向下的靈巧抓取
![]()
圖 8. T (R,O) Grasp 在給定抓取區(qū)域下的靈巧抓取
圖 5-8 顯示,T (R,O) Grasp 在兩種設(shè)置下的性能均超越現(xiàn)有方法,具備在多種約束下跨智能體生成準確、多樣靈巧手抓取的能力。此外,T (R,O) Grasp 在實驗硬件平臺 NVIDIA 40GB A100 上平均可達到 5 FPS 的推理速度,為動態(tài)場景下實現(xiàn)閉環(huán)抓取提供了基礎(chǔ)。
在真實機器人實驗中,我們將算法部署于 xArm 機械臂平臺,并在 XHand 和 LEAP Hand 兩種靈巧手上進行了測試。實驗結(jié)果表明,T (R,O) Grasp 在 XHand 和 LEAP Hand 上分別達到了 91.0% 和 90.0% 的抓取成功率。此外,在動態(tài)傳送帶環(huán)境中,T (R,O) Grasp 同樣能夠完成穩(wěn)定抓取,驗證了其在動態(tài)場景下的閉環(huán)抓取能力。
![]()
圖 9. T (R,O) Grasp 在 XHand 與 LEAP Hand 上的真實機器人抓取
![]()
圖 10. T (R,O) Grasp 在傳送帶動態(tài)環(huán)境的真實機器人抓取
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.