![]()
新智元報道
編輯:犀牛
【新智元導讀】從「被動感知」到「主動預測」,首個視觸覺世界模型讓機器人真正學會「理解接觸」。
想象這樣一個場景:你正在擦桌子、削水果,或者插拔一個精密零件。
這些動作對人類來說輕而易舉,然而對于機器人來說,這些看似簡單的操作卻是一道難以跨越的技術鴻溝。
近期,它石智航聯合新加坡國立大學、復旦大學、中科院自動化所、清華大學、中關村學院以及北京航空航天大學六大頂尖機構,推出OmniVTA視觸覺操作框架和OmniViTac大規模視觸覺數據集并發表相關論文,讓機器人實現從被動感知,到對觸覺進行主動預測和閉環精準控制,邁出靈巧操作的關鍵一步。
![]()
論文鏈接:https://arxiv.org/pdf/2603.19201
項目主頁:https://mrsecant.github.io/OmniVTA/
數據集鏈接:https://huggingface.co/datasets/tars-robotics/OmniVitac
當前,業內深陷于一個反直覺困境:即便觸覺傳感器在機器人領域已經廣泛應用,整個行業卻深陷「感知更多、做得更差」的困境。
機器人明明「摸得到」,卻依然「不會用」。
為什么給機器人提供額外的觸覺感知,反而可能讓它表現更差?
答案在于,當前主流方案對觸覺本質存在根本性誤解。
機器人操作領域長期缺乏對接觸動態的建模和對觸覺信息的有效利用。
當前主流方案僅將視覺與觸覺特征簡單拼接后輸入策略網絡。這種方式看似合理,實際上卻忽視了觸覺的核心特征。
相較于具備全局語義與連續觀測能力的視覺,觸覺信號高度局部且由接觸事件驅動,無法提供全局感知,難以支撐長時序規劃。
更關鍵的是,接觸本質上是一個隨時間演化的動態過程。
擦拭、削皮、插接、擰緊等操作,都是「接觸狀態隨時間不斷變化」的過程。
然而,現有方法通常僅利用當前或歷史幾幀觸覺觀測,缺乏對「接觸如何隨時間演化」的顯式建模。
結果是觸覺往往只被用于簡單的接觸檢測或視覺遮擋補償,而無法真正參與對接觸過程的預測與決策。
同時高頻觸覺數據缺失也讓模型難以學習真實接觸規律,操作穩定性與泛化性嚴重不足。
人類真實行為啟發
「預測+反饋」協同機制
如何破解這一困局?答案或許就藏在人類自身的神經機制中。
神經科學研究表明,人類在進行接觸操作時,依賴的是一套「預測+反饋」的協同機制:大腦一方面通過前向模型提前預測動作將帶來的感覺變化,另一方面通過實時感覺反饋進行快速修正,抵消誤差和擾動。
正是這種「先預測再修正」的機制,讓人類能夠在不確定的環境中,依然完成穩定而靈巧的接觸操作。
![]()
「預測 + 反饋」的協同機制。圖源:Motor prediction[1]
本次它石智航聯合六大頂尖機構,從數據底座與技術框架雙向攻堅。在數據層面上,團隊發布了OmniViTac大規模視觸覺數據集,如下圖所示,為后續模型訓練筑牢基礎。
這是迄今為止規模最大、質量最高的視觸覺操作數據集之一,目前已收錄2萬余條操作軌跡,覆蓋近百類任務和百余種物體,并將接觸模式系統性分為擦拭、削皮、切割、抓取、裝配以及手內調整六類,在數據采集過程中嚴格保證視覺、觸覺與動作的高精度同步,并保留了原始傳感器頻率。
該數據集也同步受到了業界認可,獲得由魔搭社區(ModelScope)主辦的「EAI-2025年度10大數據集」獎項。
![]()
![]()
OmniVitac數據集
依托 OmniViTac 的多模態數據支持,它石創新提出了 OmniVTA——一種以世界模型為核心的視觸覺操作框架。
該方法的核心思路在于從「被動感知觸覺」轉向「主動預測觸覺」:機器人不僅能夠感知當前觸覺信號,還實現了建模并預測未來觸覺的演化過程,并以此指導動作規劃與閉環調整。
在系統設計上,OmniVTA 采用慢–快分層控制結構,如下圖所示:慢系統基于視覺–觸覺世界模型預測未來觸覺表征并生成動作序列,快系統則利用預測觸覺與實時觸覺反饋進行反射式高頻控制,從而實現穩定、魯棒且精細的接觸操作。
![]()
OmniVTA系統圖
在此基礎上, OmniVTA通過四個關鍵模塊協同構建統一的閉環控制體系,使機器人具備「預測觸覺—理解接觸—修正動作」的能力,從而重塑其在復雜接觸場景中的操作表現:
TactileVAE:通過時空聯合編碼與隱式函數解碼,將高頻、稠密的觸覺3D形變壓縮為低維連續潛變量表示,如下圖所示。
該模塊不僅在空間上保留細粒度接觸結構(如剪切、法向形變等),還在時間上建模觸覺動態變化,從而有效刻畫接觸過程的演化軌跡。
在顯著降低數據維度與計算開銷的同時,為后續預測與控制提可泛化的觸覺表征,使機器人能夠高效理解當前接觸狀態并快速響應環境變化。
![]()
TactileVAE網絡結構圖
視觸覺世界模型(預測模塊):基于雙流擴散生成架構,在共享條件約束下聯合建模視覺與觸覺的時序演化關系。
視覺分支提供全局語義與幾何先驗,觸覺分支聚焦局部接觸動態,兩者在潛空間中協同對齊,從而實現對未來觸覺信號的高質量預測。
通過顯式建模「接觸發生前—接觸發生中—接觸演化后」的動態過程,該模塊使機器人能夠提前預判接觸趨勢(如即將發生的接觸、接觸強度變化或滑動風險),為動作規劃提供前瞻性信息支撐。
自適應融合策略(決策模塊):引入 Latent Tactile Differential(LTD)編碼器,對當前觸覺與預測觸覺之間的差異進行顯式建模,從而提取接觸動態變化的關鍵信號。
在此基礎上,結合門控(gating)機制對視覺與觸覺模態進行動態加權,使策略能夠根據接觸階段自適應調整感知依賴:在無接觸或遠接觸階段側重視覺全局信息,在接觸發生及演化階段增強觸覺主導作用。
該模塊有效避免了簡單特征拼接帶來的信息沖突問題,使動作決策更加精確且具備情境適應性。
![]()
OmniVTA慢策略:視觸覺世界模型+自適應融合策略
反射式觸覺控制器(執行模塊):基于預測觸覺與實時觸覺反饋,在 60 Hz 高頻下輸出單步修正動作,對慢系統生成的動作序列進行連續閉環補償。
該控制器通過建模觸覺誤差(預測–觀測差異)實現快速響應,可在接觸擾動、物體偏移或摩擦變化等情況下即時修正執行軌跡,從而顯著提升操作穩定性與精度。
其引入使系統具備類似人類「觸覺反射」的能力,能夠有效彌補低頻規劃帶來的滯后性。
![]()
基于觸覺特征的反射式控制器
實操驗證
從「機械記憶」到「理解接觸」
實驗數據表明,OmniVTA視觸覺操作框架在不同物體、不同接觸模式下均取得了最優性能。在位置變化、工具變化和外界擾動等情境中,展現出了遠超傳統方法的魯棒性和泛化能力。
![]()
![]()
操作過程中實時擾動-恢復接觸
更具深遠意義的是,模型學習到了可遷移的接觸動態規律。
如下圖所示,模型能根據預測的接觸狀態自適應調整視覺與觸覺的權重,并在不同物體和工具下保持穩定表現。
這表明機器人正在從「執行動作」走向「理解物理接觸」,逐步具備類似人類的預測與反饋協同能力。
![]()
門控機制效果:觸覺和視覺權重隨操作過程的變化
可以看到,OmniVTA展示了一條清晰的技術路徑:以「世界模型」為核心,以預測為先導、反饋為保障,最終使機器人能夠真正勝任精密裝配、家居清潔與食材備制等工業生產與日常生活中不可或缺的接觸密集型(contact-rich)任務。
本次它石聯合多所頂尖科研機構發布的OmniVTA框架,不僅在學術研究方面有所突破,更具有深遠的產業應用落地價值,將具身智能「干活」的能力提升至可落地、可泛化、可規模化的全新高度。
參考資料:
[1] Wolpert, Daniel M., and J. Randall Flanagan. 「Motor prediction.」 Current biology 11.18 (2001): R729-R732.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.