![]()
在具身智能的感知拼圖中,觸覺一直扮演著不可或缺卻難以被完美量化的角色。它提供了視覺等遠程傳感器無法替代的關于接觸幾何、材料特性和交互動態的直接反饋。
隨著大語言模型(LLM)、世界動作模型(WAM)和視覺 - 語言 - 動作(VLA)大模型的爆發,將觸覺與視覺、語言相融合,以彌合物理交互與高級語義推理之間的鴻溝,已成為機器人領域的必然趨勢。
本文由香港科技大學(廣州)熊輝教授團隊牽頭,聯合靈心巧手(LinkerBot)以及西安交通大學、復旦大學、北京郵電大學、南京大學等,以《Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms》為主題,全面梳理并分析截至 2026 年第一季度的前沿研究,提出了一個涵蓋多模態數據集、模型方法、傳感器硬件和評估體系的層次分類法。本文將帶你全面拆解這篇重磅綜述的核心干貨。
![]()
- 論文題目:Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms
- 作者單位:香港科技大學(廣州)、靈心巧手、西安交大、復旦、南大、北郵、武大等
- 論文地址:https://www.researchgate.net/publication/403306640_Tactile-based_Multimodal_Fusion_in_Embodied_Intelligence_A_Survey_of_Vision_Language_and_Contact-Driven_Paradigms
- GitHub 倉庫:https://github.com/Wayne-coding/Multimodal-Tactile-Sensing-and-Fusion
![]()
圖 1. 多模態觸覺融合綜述的結構概述
一、 為什么具身智能不可缺少觸覺?
與視覺等遠端模態不同,觸覺提供了表面紋理、材料屬性和接觸動態的直接、近端反饋,這對于解決視覺模糊性至關重要。對于具身智能體而言,觸覺反饋不僅僅是一種輔助模態,更是感知 - 行動閉環中的基本組成部分,觸覺作為連接被動觀察與主動物理交互的橋梁,能夠提供關于物體幾何形狀、材質屬性以及接觸動力學最直接的反饋,這是遠距離傳感器無法替代的。在充滿物理接觸的環境中,這種多傳感器線索的協同作用(尤其是視覺與觸覺的協同),是構建穩健的感知和控制系統、使智能體能夠真正在物理世界中進行精確操作和穩定抓取的關鍵。
![]()
圖 2. 多模態觸覺融合的代表性數據集和方法綜述
二、底層邏輯:多模態觸覺融合的四階段 Pipeline
與視覺或語言不同,觸覺信號是接觸驅動的,只有在物理交互發生時才會產生。綜述指出,現有的多模態觸覺融合系統在底層基本都遵循一個嚴謹的四階段處理流程:
- 物理轉導與時空觀察: 傳感器將形變、力或振動等物理刺激轉化為數字信號(如高維矩陣或圖像串)。
- 特定模態表征學習: 針對不同模態使用專屬的編碼器(如用于視覺 / 觸覺編碼的 ResNet 或 ViT,用于自然語言編碼的 OpenCLIP),將其轉化為統一維度的潛在特征向量。
- 跨模態融合: 通過特征拼接、交叉注意力機制或對比學習對齊,將單模態特征融合成共享的聯合表征。
- 具身解碼與任務執行: 將融合后的特征輸出為最終結果,比如物體類別、生成的文本描述或機器人的控制動作。
三、多模態觸覺融合的全景藍圖
本綜述創新性地提出了一個層次化分類體系,將多模態觸覺融合系統地劃分為三大支柱:多模態數據集、多模態方法和觸覺傳感器。
![]()
圖 3. 2015 - 2026 年多模態觸覺融合論文發表趨勢。
1. 數據集篇:從實驗室單一配對走向真實世界的豐富語義
![]()
圖 4. 基于觸覺的多模態融合數據集的比較總結
數據集是跨模態學習的 “燃料”。文章根據模態組成,將現有數據集的發展脈絡劃分為四大階段:
- 觸覺 - 視覺 (T-V) 數據集: 早期(如 VT Dataset)主要關注受控環境下的機器人抓取;近期則向無約束的野外環境(如 Touch in the Wild)和復雜形變物體(如 TouchClothing)發展。
- 觸覺 - 語言 (T-L) 數據集: 旨在建立觸覺與人類認知的橋梁。例如 PhysiCLEAR 記錄了物體的軟硬、粗糙度,而最新的 STOLA 則支持開放式的觸覺常識推理,打破了過去只能依賴視覺進行語義接地的局限。
- 觸覺 - 視覺 - 語言 (T-V-L) 數據集: 迎合當前大模型趨勢的終極形態。比如 Touch100k 包含了超 10 萬個三模態對齊樣本,不僅有短語標簽,還有長文本自然語言描述,完美支持跨模態對齊。
- 觸覺 - 視覺 - 其他 (T-V-O) 數據集: 引入了動作、音頻或本體感覺。著名的 ObjectFolder 系列結合了撞擊音頻;而 OmniViTac 等數據集則加入了動作序列,支持端到端的接觸豐富型操作策略學習。
2. 方法論的三大范式:感知、生成與控制的全面進化
在算法層面,綜述將數百篇前沿工作結構化為三個核心方向,并對其進行了詳細的子任務拆解:
![]()
圖 5. 多模態觸覺融合與下游任務的一般范例
(1)多模態感知與識別
這是目前研究最廣泛的范式,核心在于理解,具體包括四個子任務:
- 多模態物體識別: 結合全局視覺和局部觸覺,通過早期特征拼接或最新的 Transformer 聯合查詢機制(如 VHTformer),在視覺模糊(如透明物體)時依然能準確識別物體。
- 屬性與材料識別: 從早期的監督學習分類,進化到如今基于 CLIP 等大模型的零樣本(Zero-shot)識別。模型(如 UniTouch)可以通過語言文本提示,直接推斷物理材質。
- 抓取成功 / 失敗預測: 區別于抓取前的視覺規劃,它利用接觸后的實時觸覺反饋(如滑動、受力分布)來判斷抓取是否穩定,是機器人閉環控制的關鍵一環。
- 跨模態檢索與匹配: 作為評估表征對齊質量的標準任務,測試模型能否用一段觸覺數據搜出對應的視覺圖片或文字描述。
![]()
圖 6. 多模態感知和識別的分類,包括多模態物體識別、多模態屬性和材質識別、抓取成功或失敗預測以及跨模態檢索和匹配
(2)跨模態生成與轉換
不再局限于識別,而是讓模型擁有跨感官的合成能力:
- 視 - 觸雙向生成: 看到粗糙的巖石照片,模型能生成對應的觸覺形變圖;摸到材質,能反推物體的視覺紋理。
- 語言 - 觸覺翻譯: 包含 “觸覺轉語言”(為接觸生成自然語言 Caption,如 VTV-LLM)以及極具挑戰的 “文本生成觸覺”(Text-to-Tactile,僅靠一段文字描述合成物理觸感數據)。
![]()
圖 7. 多模態跨模態生成和轉換的分類,包括視覺 - 觸覺生成和翻譯和語言 - 觸覺生成和翻譯
(3)多模態交互與操作
將感知直接與物理控制耦合,分為兩大路徑:
- 多模態感知驅動的機器人操作: 結合觸覺反饋進行精細裝配(如插孔任務)或維持穩定抓取。例如,DexTac 利用精確的接觸區域提示來完成注射器操作等高精度任務。
- 語言指令下的多模態操作: 融合大語言模型的終極形態(VLA)。人類下達抽象指令(如 “輕輕抓住那個軟物體”),系統聯合語言語義、視覺幾何與觸覺實時反饋來生成連續動作。
![]()
圖 8. 多模態交互和操作的分類,包括具有多模態感知的機器人操作和語言指令下的多模態操作
![]()
圖 9. 2026 年第一季度之前發表的多模態觸覺融合方法綜述
3. 硬件篇:觸覺傳感器的多樣化形態
觸覺信號的質量直接受制于硬件設計與物理交互界面的形態。文章將觸覺傳感平臺分為四類:
- 可穿戴觸覺系統: 主要用于捕捉人類交互先驗,支持可擴展的數據收集和向機器人的技能轉移。
- 手持與指尖傳感器: 提供局部高分辨率的接觸感知,緊湊的體積使其非常適合直接集成到機器人末端執行器中。
- 機器皮膚與多模態傳感器貼片: 強調大面積可擴展性、機械順應性和分布式感知,以支持機器人的全身接觸感知。
- 夾爪安裝與集成傳感器: 直接在操作界面集成感知能力,為閉環控制提供緊湊且共址的實時多模態反饋。
![]()
圖 10. 具有代表性的觸覺傳感器
四、 尚未統一的大考:評估指標與基準
盡管發展迅速,但多模態觸覺融合仍缺乏統一的基準,現有的評估協議高度依賴于特定任務。文章尖銳地指出了當前領域面臨的四大核心挑戰:
- 數據碎片化與可擴展性瓶頸: 現有數據集往往是任務定制且依賴特定傳感器的,規模遠小于視覺 - 語言資源,這限制了基礎模型的零樣本遷移能力。
- 模態不對齊與噪聲干擾: 稀疏觸覺輸入與密集視覺 / 語言輸入之間存在固有的時空不對齊,傳感器漂移和視覺遮擋等現實問題會進一步削弱對齊的可靠性。
- 軟硬件集成壁壘: 觸覺傳感器形態各異且缺乏標準接口,其耐久性和功耗限制了與大型視覺 - 語言模型在具身系統中的實時閉環融合。
- 評估與基準的不一致性: 指標碎片化,缺乏端到端的具身基準,難以綜合評估模型在實際物理交互中的安全性和魯棒性。
![]()
圖 11. 多模態觸覺融合評價指標綜述
五、挑戰與未來:通往通用具身智能之路
盡管進展迅速,多模態觸覺融合仍面臨著諸多亟待突破的瓶頸。目前的數據規模與大型語言模型的訓練需求相比仍有巨大差距,且異構傳感器之間缺乏統一的數據標準。同時在非結構化環境中,稀疏的觸覺輸入與密集的視覺或語言信息之間經常出現空間和時間上的不對齊。此外現有的評估指標往往局限于特定任務,缺乏一個能全面衡量觸覺真實性、語義一致性和控制有效性的統一端到端基準測試。
對于未來,構建統一且可擴展的大規模數據集是打破發展瓶頸的關鍵所在。算法層面需要向層次化的融合架構演進,將觸覺作為多模態推理的底層支撐。在硬件端,柔性、耐用且具備端側處理能力的仿生觸覺皮膚將極大拓展機器人的感知邊界。通過將觸覺反饋作為連續的監督信號直接嵌入決策閉環,具身智能系統必將從受控的實驗室環境穩步邁向復雜多變的人類生活空間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.