337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

關于具身智能「觸覺」,你想知道的都在這篇綜述里了

0
分享至



在具身智能的感知拼圖中,觸覺一直扮演著不可或缺卻難以被完美量化的角色。它提供了視覺等遠程傳感器無法替代的關于接觸幾何、材料特性和交互動態的直接反饋。

隨著大語言模型(LLM)、世界動作模型(WAM)和視覺 - 語言 - 動作(VLA)大模型的爆發,將觸覺與視覺、語言相融合,以彌合物理交互與高級語義推理之間的鴻溝,已成為機器人領域的必然趨勢。

本文由香港科技大學(廣州)熊輝教授團隊牽頭,聯合靈心巧手(LinkerBot)以及西安交通大學、復旦大學、北京郵電大學、南京大學等,以《Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms》為主題,全面梳理并分析截至 2026 年第一季度的前沿研究,提出了一個涵蓋多模態數據集、模型方法、傳感器硬件和評估體系的層次分類法。本文將帶你全面拆解這篇重磅綜述的核心干貨。



  • 論文題目:Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms
  • 作者單位:香港科技大學(廣州)、靈心巧手、西安交大、復旦、南大、北郵、武大等
  • 論文地址:https://www.researchgate.net/publication/403306640_Tactile-based_Multimodal_Fusion_in_Embodied_Intelligence_A_Survey_of_Vision_Language_and_Contact-Driven_Paradigms
  • GitHub 倉庫:https://github.com/Wayne-coding/Multimodal-Tactile-Sensing-and-Fusion



圖 1. 多模態觸覺融合綜述的結構概述

一、 為什么具身智能不可缺少觸覺?

與視覺等遠端模態不同,觸覺提供了表面紋理、材料屬性和接觸動態的直接、近端反饋,這對于解決視覺模糊性至關重要。對于具身智能體而言,觸覺反饋不僅僅是一種輔助模態,更是感知 - 行動閉環中的基本組成部分,觸覺作為連接被動觀察與主動物理交互的橋梁,能夠提供關于物體幾何形狀、材質屬性以及接觸動力學最直接的反饋,這是遠距離傳感器無法替代的。在充滿物理接觸的環境中,這種多傳感器線索的協同作用(尤其是視覺與觸覺的協同),是構建穩健的感知和控制系統、使智能體能夠真正在物理世界中進行精確操作和穩定抓取的關鍵。



圖 2. 多模態觸覺融合的代表性數據集和方法綜述

二、底層邏輯:多模態觸覺融合的四階段 Pipeline

與視覺或語言不同,觸覺信號是接觸驅動的,只有在物理交互發生時才會產生。綜述指出,現有的多模態觸覺融合系統在底層基本都遵循一個嚴謹的四階段處理流程:

  1. 物理轉導與時空觀察: 傳感器將形變、力或振動等物理刺激轉化為數字信號(如高維矩陣或圖像串)。
  2. 特定模態表征學習: 針對不同模態使用專屬的編碼器(如用于視覺 / 觸覺編碼的 ResNet 或 ViT,用于自然語言編碼的 OpenCLIP),將其轉化為統一維度的潛在特征向量。
  3. 跨模態融合: 通過特征拼接、交叉注意力機制或對比學習對齊,將單模態特征融合成共享的聯合表征。
  4. 具身解碼與任務執行: 將融合后的特征輸出為最終結果,比如物體類別、生成的文本描述或機器人的控制動作。

三、多模態觸覺融合的全景藍圖

本綜述創新性地提出了一個層次化分類體系,將多模態觸覺融合系統地劃分為三大支柱:多模態數據集、多模態方法和觸覺傳感器。



圖 3. 2015 - 2026 年多模態觸覺融合論文發表趨勢。

1. 數據集篇:從實驗室單一配對走向真實世界的豐富語義



圖 4. 基于觸覺的多模態融合數據集的比較總結

數據集是跨模態學習的 “燃料”。文章根據模態組成,將現有數據集的發展脈絡劃分為四大階段:

  • 觸覺 - 視覺 (T-V) 數據集: 早期(如 VT Dataset)主要關注受控環境下的機器人抓取;近期則向無約束的野外環境(如 Touch in the Wild)和復雜形變物體(如 TouchClothing)發展。
  • 觸覺 - 語言 (T-L) 數據集: 旨在建立觸覺與人類認知的橋梁。例如 PhysiCLEAR 記錄了物體的軟硬、粗糙度,而最新的 STOLA 則支持開放式的觸覺常識推理,打破了過去只能依賴視覺進行語義接地的局限。
  • 觸覺 - 視覺 - 語言 (T-V-L) 數據集: 迎合當前大模型趨勢的終極形態。比如 Touch100k 包含了超 10 萬個三模態對齊樣本,不僅有短語標簽,還有長文本自然語言描述,完美支持跨模態對齊。
  • 觸覺 - 視覺 - 其他 (T-V-O) 數據集: 引入了動作、音頻或本體感覺。著名的 ObjectFolder 系列結合了撞擊音頻;而 OmniViTac 等數據集則加入了動作序列,支持端到端的接觸豐富型操作策略學習。

2. 方法論的三大范式:感知、生成與控制的全面進化

在算法層面,綜述將數百篇前沿工作結構化為三個核心方向,并對其進行了詳細的子任務拆解:



圖 5. 多模態觸覺融合與下游任務的一般范例

(1)多模態感知與識別

這是目前研究最廣泛的范式,核心在于理解,具體包括四個子任務:

  • 多模態物體識別: 結合全局視覺和局部觸覺,通過早期特征拼接或最新的 Transformer 聯合查詢機制(如 VHTformer),在視覺模糊(如透明物體)時依然能準確識別物體。
  • 屬性與材料識別: 從早期的監督學習分類,進化到如今基于 CLIP 等大模型的零樣本(Zero-shot)識別。模型(如 UniTouch)可以通過語言文本提示,直接推斷物理材質。
  • 抓取成功 / 失敗預測: 區別于抓取前的視覺規劃,它利用接觸后的實時觸覺反饋(如滑動、受力分布)來判斷抓取是否穩定,是機器人閉環控制的關鍵一環。
  • 跨模態檢索與匹配: 作為評估表征對齊質量的標準任務,測試模型能否用一段觸覺數據搜出對應的視覺圖片或文字描述。



圖 6. 多模態感知和識別的分類,包括多模態物體識別、多模態屬性和材質識別、抓取成功或失敗預測以及跨模態檢索和匹配

(2)跨模態生成與轉換

不再局限于識別,而是讓模型擁有跨感官的合成能力:

  • 視 - 觸雙向生成: 看到粗糙的巖石照片,模型能生成對應的觸覺形變圖;摸到材質,能反推物體的視覺紋理。
  • 語言 - 觸覺翻譯: 包含 “觸覺轉語言”(為接觸生成自然語言 Caption,如 VTV-LLM)以及極具挑戰的 “文本生成觸覺”(Text-to-Tactile,僅靠一段文字描述合成物理觸感數據)。



圖 7. 多模態跨模態生成和轉換的分類,包括視覺 - 觸覺生成和翻譯和語言 - 觸覺生成和翻譯

(3)多模態交互與操作

將感知直接與物理控制耦合,分為兩大路徑:

  • 多模態感知驅動的機器人操作: 結合觸覺反饋進行精細裝配(如插孔任務)或維持穩定抓取。例如,DexTac 利用精確的接觸區域提示來完成注射器操作等高精度任務。
  • 語言指令下的多模態操作: 融合大語言模型的終極形態(VLA)。人類下達抽象指令(如 “輕輕抓住那個軟物體”),系統聯合語言語義、視覺幾何與觸覺實時反饋來生成連續動作。



圖 8. 多模態交互和操作的分類,包括具有多模態感知的機器人操作和語言指令下的多模態操作



圖 9. 2026 年第一季度之前發表的多模態觸覺融合方法綜述

3. 硬件篇:觸覺傳感器的多樣化形態

觸覺信號的質量直接受制于硬件設計與物理交互界面的形態。文章將觸覺傳感平臺分為四類:

  • 可穿戴觸覺系統: 主要用于捕捉人類交互先驗,支持可擴展的數據收集和向機器人的技能轉移。
  • 手持與指尖傳感器: 提供局部高分辨率的接觸感知,緊湊的體積使其非常適合直接集成到機器人末端執行器中。
  • 機器皮膚與多模態傳感器貼片: 強調大面積可擴展性、機械順應性和分布式感知,以支持機器人的全身接觸感知。
  • 夾爪安裝與集成傳感器: 直接在操作界面集成感知能力,為閉環控制提供緊湊且共址的實時多模態反饋。



圖 10. 具有代表性的觸覺傳感器

四、 尚未統一的大考:評估指標與基準

盡管發展迅速,但多模態觸覺融合仍缺乏統一的基準,現有的評估協議高度依賴于特定任務。文章尖銳地指出了當前領域面臨的四大核心挑戰:

  • 數據碎片化與可擴展性瓶頸: 現有數據集往往是任務定制且依賴特定傳感器的,規模遠小于視覺 - 語言資源,這限制了基礎模型的零樣本遷移能力。
  • 模態不對齊與噪聲干擾: 稀疏觸覺輸入與密集視覺 / 語言輸入之間存在固有的時空不對齊,傳感器漂移和視覺遮擋等現實問題會進一步削弱對齊的可靠性。
  • 軟硬件集成壁壘: 觸覺傳感器形態各異且缺乏標準接口,其耐久性和功耗限制了與大型視覺 - 語言模型在具身系統中的實時閉環融合。
  • 評估與基準的不一致性: 指標碎片化,缺乏端到端的具身基準,難以綜合評估模型在實際物理交互中的安全性和魯棒性。



圖 11. 多模態觸覺融合評價指標綜述

五、挑戰與未來:通往通用具身智能之路

盡管進展迅速,多模態觸覺融合仍面臨著諸多亟待突破的瓶頸。目前的數據規模與大型語言模型的訓練需求相比仍有巨大差距,且異構傳感器之間缺乏統一的數據標準。同時在非結構化環境中,稀疏的觸覺輸入與密集的視覺或語言信息之間經常出現空間和時間上的不對齊。此外現有的評估指標往往局限于特定任務,缺乏一個能全面衡量觸覺真實性、語義一致性和控制有效性的統一端到端基準測試。

對于未來,構建統一且可擴展的大規模數據集是打破發展瓶頸的關鍵所在。算法層面需要向層次化的融合架構演進,將觸覺作為多模態推理的底層支撐。在硬件端,柔性、耐用且具備端側處理能力的仿生觸覺皮膚將極大拓展機器人的感知邊界。通過將觸覺反饋作為連續的監督信號直接嵌入決策閉環,具身智能系統必將從受控的實驗室環境穩步邁向復雜多變的人類生活空間。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王輔一將軍逝世,生前被譽為“軍史活辭典”

王輔一將軍逝世,生前被譽為“軍史活辭典”

澎湃新聞
2026-04-08 22:32:27
馬筱梅不忍了!張蘭生日第二天,連發好幾條澄清,局面很難扭轉

馬筱梅不忍了!張蘭生日第二天,連發好幾條澄清,局面很難扭轉

離離言幾許
2026-04-09 00:04:01
警惕:上了年紀再過性生活,最怕這2點!保護男性精氣,做好4點

警惕:上了年紀再過性生活,最怕這2點!保護男性精氣,做好4點

周哥一影視
2026-04-08 12:20:15
震驚!老師下班買杯奶茶,竟被家長深夜追責,一段聊天記錄炸鍋了

震驚!老師下班買杯奶茶,竟被家長深夜追責,一段聊天記錄炸鍋了

火山詩話
2026-04-08 07:24:29
華為余承東朋友圈發文:多次批評團隊設計,問題出在審美上

華為余承東朋友圈發文:多次批評團隊設計,問題出在審美上

PChome電腦之家
2026-04-08 18:38:44
吉林財大食堂“發瘋120秒”視頻流出:新型巨嬰,別出來害人了

吉林財大食堂“發瘋120秒”視頻流出:新型巨嬰,別出來害人了

小椰子專欄
2026-04-08 13:03:26
中美德“盾構機”速度差距:德國每小時6米,美國3.6米,中國呢?

中美德“盾構機”速度差距:德國每小時6米,美國3.6米,中國呢?

蜉蝣說
2026-04-08 15:30:34
“萬國小姐們”胸涌而來!

“萬國小姐們”胸涌而來!

文刀萬
2026-04-08 06:00:06
歐爾班竟會輸這么多!最新民調:歐爾班將獲得52席,馬扎爾141席

歐爾班竟會輸這么多!最新民調:歐爾班將獲得52席,馬扎爾141席

小影的娛樂
2026-04-09 03:34:59
全國多地“老牌高速公路”收費期限屆滿,陸續進入“免費通行時代”

全國多地“老牌高速公路”收費期限屆滿,陸續進入“免費通行時代”

中國能源網
2026-04-08 11:05:04
越南選出新領導層,哪些變與不變?

越南選出新領導層,哪些變與不變?

新民周刊
2026-04-08 09:10:05
法官震怒! 蘭蘭再不現身, 就向她發逮捕令! 澳洲警方持續不提交關鍵證據

法官震怒! 蘭蘭再不現身, 就向她發逮捕令! 澳洲警方持續不提交關鍵證據

澳微Daily
2026-04-07 15:40:56
毀掉所有關系的溝通方式:一句話噎死人

毀掉所有關系的溝通方式:一句話噎死人

洞見
2026-03-31 09:04:08
拜仁2-1皇馬!誕生金球獎頭號熱門:41場狂轟49球,改寫39年歷史

拜仁2-1皇馬!誕生金球獎頭號熱門:41場狂轟49球,改寫39年歷史

球場沒跑道
2026-04-08 09:27:42
騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

凡知
2026-04-07 21:16:54
塵埃落定!世乒賽大名單確定,樊振東做出犧牲,溫瑞博被寄予厚望

塵埃落定!世乒賽大名單確定,樊振東做出犧牲,溫瑞博被寄予厚望

曹說體育
2026-04-08 12:12:29
巴塞羅那0-2馬競,賽后評分:不是馬競球員第1,巴塞羅那10號第1

巴塞羅那0-2馬競,賽后評分:不是馬競球員第1,巴塞羅那10號第1

側身凌空斬
2026-04-09 04:56:44
此人屠殺百萬民眾,卻被專家吹捧為千古完人、民族英雄,實在可笑

此人屠殺百萬民眾,卻被專家吹捧為千古完人、民族英雄,實在可笑

長風文史
2026-04-07 20:53:07
這哪是「浪姐7」?劃水躺平不背歌詞的姐姐真不少,讓人看的無語

這哪是「浪姐7」?劃水躺平不背歌詞的姐姐真不少,讓人看的無語

娛樂圈筆娛君
2026-04-08 16:20:51
劉維偉談威瑟斯龐:輸球我可以擔責,但他總鬧情緒實在讓我太累

劉維偉談威瑟斯龐:輸球我可以擔責,但他總鬧情緒實在讓我太累

懂球帝
2026-04-09 00:09:07
2026-04-09 05:07:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12712文章數 142618關注度
往期回顧 全部

科技要聞

造出地表最強AI,卻死活不給你用!

頭條要聞

伊朗武裝部隊:伊朗對美以絕不信任

頭條要聞

伊朗武裝部隊:伊朗對美以絕不信任

體育要聞

40歲,但實力倒退12年

娛樂要聞

侯佩岑全家悉尼度假,一家四口幸福滿溢

財經要聞

天津海河乳業回應直播間涉黃

汽車要聞

20萬級滿配華為全家桶 華境S是懂家庭的大六座

態度原創

藝術
旅游
時尚
手機
本地

藝術要聞

驚艷!她的私房自拍照讓人無法抵擋!

旅游要聞

三大花海已浪漫盛放!來這里“花”點時間!

50歲,我媽在戀綜搶男人

手機要聞

三星據傳拿下蘋果折疊屏面板三年獨家供應 今年出貨預期300萬臺

本地新聞

跟著歌聲游安徽,聽古村回響

無障礙瀏覽 進入關懷版