![]()
“困在數據里的具身智能。
今年春晚,一群機器人在臺上整齊劃一地翻跟頭、打功夫,動作行云流水。這震撼的表演看得人熱血沸騰。
![]()
但聚光燈之外,一個本質問題始終沒有解決:這更像是一場精心排練的“機械舞”,而不是我們真正期待的“智能”。
換個環境,讓這些機器人去擰個瓶蓋、拿個杯子、疊件衣服——大概率會當場翻車。
問題出在哪?
沒有真實世界的數據
具身智能只能是幻覺
過去幾年具身智能硬件的進步堪稱驚人。雙足行走、關節扭矩控制、電機響應速度、傳感器精度……宇樹、智元、特斯拉等玩家已經將工程能力推到了一個新高度。
硬件的快速進步正在掃清過去的障礙,但一個新的、更深層的制約因素正在浮出水面——數據。
當人們談到具身智能的時候,往往只把焦點放在那個漂亮的外形上。事實上,除了本體,具身智能還需要三大核心要素:數據、模型與場景。
其中,數據尤為關鍵。它直接決定了智能能不能“涌現”,能力能不能“泛化”。
正如黃仁勛在CES上那句一針見血的話:“沒有真實世界的數據,具身智能只能是幻覺。”
這句話點出了一個殘酷的現實:眼下真正卡住脖子的,是那些來自物理世界、承載著真實交互經驗的珍貴數據——而這類數據,恰恰是最稀缺的。
![]()
為什么具身智能會缺數據?
海天瑞聲董事會秘書張哲一語道破:“大模型時代,相當一大部分數據來自互聯網。文字、圖片、視頻,都是人類智慧的數字化沉淀,已經在網上堆積了幾十年。GPT-4訓練用的數據量級是萬億詞元,這些數據俯拾皆是。它需要的是與物理世界交互的數據……這些數據,互聯網上沒有現成的,需要依賴大規模的采集和標注。”
但這些數據的采集和標注又極為困難。
張哲舉了一個擰瓶蓋的例子。對人類來說,這是近乎本能的操作。但對機器人而言,這是一個涉及感知、決策、執行、驗證的完整閉環,每一個環節都涉及數據的采集和標注工作:
“感知”:機器人“眼”里只有像素點。它需要海量圖像數據才能將這一堆像素與“瓶子”的概念關聯起來,判斷其材質是玻璃還是塑料,則更需要觸覺傳感器的反饋。
“決策”:該往左擰還是往右擰、用多大的力度抓取、發力點選在哪個位置,機器人沒有天生的直覺,只能從海量數據中學習最優路徑,精準把控力度和角度,稍有偏差就會失敗。
“執行”:執行過程中,觸覺需實時反饋,算法需實時處理,電機需實時響應。任何一個環節的微小延遲,都可能導致瓶子滑落。
“驗證”:對機器人而言,成功需要一個明確、可量化的信號:是聽到“咔”的一聲,還是看到瓶蓋離開瓶身?不同的定義,將導向完全不同的訓練結果。
可以看到,一個小小的擰瓶蓋動作,就對數據的量級、精度、全面性提出了極高要求。
這背后反映出具身智能底層技術邏輯導致的數據困境。
對人類來說,我們是真正理解了“擰”這個動作的本質,機器人則是背下了“擰礦泉水瓶”這道題。對AI而言,無論參數規模多大,本質上仍是對數據模型的高度擬合,其行為模式只是在計算“下一個詞元”或“下一個動作”的概率分布。
這種根本上的不同,注定了具身智能的數據采集,注定復雜、繁瑣、成本高昂。
產業界的突圍:
四大數據供給路徑
面對數據短缺的燃眉之急,產業界沒有停滯不前,正探索多條數據供給路徑,各路徑各有側重、互為補充。
路徑一:真機遙采
這是目前公認質量最高的數據來源。由人類穿戴遙操設備或使用VR設備,遠程操控機器人執行任務,記錄下視覺、關節角度和力矩數據。這種“手把手”的教學,能夠保留人類在復雜環境中的決策過程,精度極高。
近日,記者參訪了海天瑞聲位于北京的一處具身智能數據訓練中心,這里地處繁華地段,整棟寫字樓里,有好幾層都專門用于具身智能數據采集。
現場頗為壯觀——單臂、多臂、人形、四足……幾十臺形態各異的機器人,配備頭環式、夾爪式采集設備,動捕服、動捕手套及遙操駕艙等專業裝備,在數采師的操作下,一遍遍抓取桌上的各類物品,澆花、擰瓶蓋、開門、拿杯子,仿佛在教一個個初生的嬰兒認識世界。
每一個看似簡單的動作,都要重復成百上千次。有趣的是,現場不時能看到澆花的機器人把水灑偏,抓起的物件也偶爾滑落——這正是“學習”的常態:失敗本身,也是數據。
據海天瑞聲具身智能業務負責人張金介紹說,這些機器人可以在家居、餐飲、工業、辦公等多個真實場景中完成復雜操作,從而積累海量真實交互數據。
張金進一步解釋說:“具身智能的最終目標是讓機器人干各種各樣的活,比如進入家居環境,幫人洗衣服、掃地、做飯。我們要做的就是幫助機器人找到最佳實現路徑。所以我們覺得,就像汽車行業有供應鏈一樣,未來具身智能企業,都需要一個龐大的數據基地作為支撐。”
路徑二:靈巧手采集數據
通過觸覺傳感器精準記錄人手精細動作,為精密裝配、柔性物體操控等任務提供關鍵數據。比如,靈巧智能DexCanvas數據,匯聚了22類人手操作模式、超1000小時真人多模態演示數據,驅動五指靈巧操作模型。
![]()
路徑三:仿真合成數據
通過生成可交互的三維合成數據,支持機器人進行空間行動、避障、抓取及緊急制動等任務的仿真訓練。雖然仿真數據存在域差異(即仿真數據與真實數據在紋理、物理響應上存在差異)的挑戰,但速度快、規模大、成本低的優勢,是其成為補充具身智能數據缺口不可或缺的一環。
路徑四:人類視頻數據
過讓機器人觀看、學習大量的視頻,掌握各類技能。這個路線以特斯拉為代表,它的好處是能夠跨越機械層面的障礙,大幅降低了數據采集的成本。但在技術實現上尚處于探索階段——如何從二維視頻中還原三維動作、如何將觀察到的動作映射到機器人本體,都是待解的難題。
當下,這四條路徑正在慢慢走向融合,多源數據互補共用,逐漸構建起更完整、更高效的數據供給生態。
在張金看來,未來理想的方案是“一份數據,所有本體通用”,但短期內現實無法實現。當下的應對之策,只能是“全面布局,跟隨發展”——既做真機采集,也做靈巧手采集;既探索VR遙控方案,也嘗試動捕和外骨骼方案。每家企業的發展階段不同,技術路線不同,數據需求也存在差異。作為數據供給商,要用發展的眼光看待趨勢的變化,在不確定性中保持覆蓋的廣度與響應的敏捷。
然而,一個更深層的問題也隨之浮出水面:即便數據供給的“量”在快速擴張,我們是否就能自然抵達通用具身智能的彼岸?答案恐怕并不樂觀。因為數據采集只是起點,從數據生產到能力泛化的全鏈路中,還橫亙著更棘手的系統性障礙。
更深層的困境:數據只是表象,更大的挑戰在于系統性的割裂
先看數據生產環節
數據生產的第一步,就埋下了割裂的種子。
首當其沖的是機器人硬件的異構問題。手部是五指還是三指?關節采用旋轉執行器還是線性執行器?傳感器是分布式布局還是集成式模組?具身智能在硬件形態上還處于百家爭鳴的階段。當硬件路線沒有走向收斂之前,同一個動作采集出來的數據,用在A機器人和B機器人的效果差異極大。而且當前的數據采集方式與硬件方案是強綁定的,不僅不同產品之間無法復用,一旦某款硬件方案被市場淘汰,與之綁定的數據資產也將隨之貶值甚至歸零。
與此同時,數據采集的各項技術路線也尚未收斂。張金舉了一個例子:“就拿觸覺傳感器來說,電磁方案、柔性電極方案各有優劣,主流技術路線遲遲沒有定型,直接導致數據采集的底層標準無法統一,采集出來的數據格式、參數各不相同。”
張金進一步指出,“分體式采集方式”也存在一定問題。受歷史技術路徑影響,市面上絕大多數機器人研發,都把行走、移動這類運動控制,和抓取、操作這類任務執行,拆分成兩個獨立模塊,用不同的團隊,用不同方式采集數據,甚至在完全不同的環境里訓練。
我們知道,現實世界中的任務從來不是割裂的。人類可以一邊走路一邊玩手機,可以在奔跑時接過一瓶水。這種“全身協同”的能力,是通用智能的基石。而當前“分體式”的數據采集與訓練模式,會使得機器人無法真正學會全身協同。
他認為:“未來,全身運動與操作任務必然走向統一采集、統一訓練。這不僅關乎動作的連貫性,更關乎能力的自然遷移:只有全身協同,才能真正適應動態變化的現實世界。”
再看資產沉淀和流通環節
采集到數據只是第一步,如何把零散的數據,變成可復用、可流通、有價值的核心資產,更是一道難關。
標準的缺失無疑是一個重要因素。從傳感器接口、數據格式,到標注規范、安全協議,全行業都沒有統一準則,各家企業、各個科研機構都在“閉門造車”,用自己的一套體系采集、存儲數據。再加上商業競爭考量,企業都把數據視為核心機密,不愿對外開放共享,進一步加劇了生態封閉。
沒有開放共享的數據,模型就難以全面進化;沒有持續進化的算法模型,機器人進化迭代的速度和效果就會大打折扣。
最后看能力泛化環節
然而,即便數據被生產出來、沉淀為資產,我們仍然面臨最后一公里的難題——能力泛化。
真實世界從來不是實驗室里可控、穩定的理想環境,而是光照多變、物體各異、布局靈活的復雜空間。當一個在理想條件下訓練出的機器人,闖入到一個陌生的開放場景中,就會手足無措。
究其原因,就是采集的數據、模型、機器本體和單一場景的深度綁定,模型只能在碎片化的任務里反復學習,很難讓機器人掌握跨場景的通用能力。在廚房里能流暢完成的抓取動作,換到倉庫、辦公室,機器人可能就會失靈。
![]()
這些問題交織在一起,反映出當前具身智能數據生態面臨的深層困境:并非某個單一環節出了毛病,而是本該在數據、模型、硬件和場景之間環環相扣、順暢流轉的價值鏈,在多個關鍵節點存在阻礙。
國家級布局
數據標注上升為國家戰略
面對這種系統性、全鏈路的行業難題,單靠企業自發摸索遠遠不夠,國家層面的頂層設計和強力推動,成了破局關鍵。2024年,國內首個具身智能數據行業標準——《人工智能 具身智能數據采集規范》發布。首次為物理交互數據的格式、質量與安全提供了指導性框架。這意味著,“數據標準化”已上升為頂層戰略。
同時,國家層面加快布局,正在將數據供給推向規模化、標準化、專業化。從建設主體看,國家級數據訓練場、行業級開源社區與企業級數據開發平臺協同發力,具身智能數據開發生態向縱深發展。
在國家級層面,“2+N”的數據生產體系正在成型。北京與上海已建成兩個國家級具身智能訓練場;河南、江蘇、深圳等地也在積極推進人形機器人創新中心的分訓練場建設。
在國家級層面之外,企業側的布局也在同步推進。機器人本體企業和技術服務平臺也在加速數據研發與服務落地:智元機器人發布了真機數據 AgiBotWorld,宇樹科技推出了G1機器人操作數據。而像海天瑞聲這樣的技術服務平臺,正通過數據采集平臺、仿真工具和標注服務,為行業提供關鍵支撐。
“從去年開始,包括今年會更明顯,公共數據要素產業化帶來的央國企、地方國資的需求開始增多。”海天瑞聲張哲表示,“正如國家發展改革委黨組成員、國家數據局局長劉烈宏近期表示,今年是‘十五五’開局之年,也是數據要素價值釋放年,我覺得這個勢頭才剛剛啟動,未來五年會加強。既有頂層政策驅動,也有全國多地國資主體在AI數據方向變得更積極、投入更多。”
他補充道:“我們與很多地方政府合作,打造數據訓練和標注基地。我們能提供的能力有幾個點:第一是高質量,數據質量控制很重要;第二是穩定的供給,一旦業務進入穩定期,供給的穩定性至關重要;第三是能夠配合客戶的變化,客戶不可能一成不變,今天重點做家居,明天可能做廚房,后天做工業,這種變化我們要有能力幫他們解決,就像傳統生產線要能轉產一樣。”
這些舉措大幅增加了數據的供給規模。數據規模的擴張正在成為衡量行業進度的顯性指標。去年,模型訓練數據大約在幾萬小時級別;今年,行業目標已經提升到幾十萬到百萬小時級。在此背景下,數據產能正迅速成為核心競爭指標。客戶對數據服務商的考核,已經從“能不能做”轉向“一個月能產出多少小時數據”——1萬小時還是10萬小時,正在成為衡量服務能力的關鍵標尺。
當下,我們正站在一個關鍵的臨界點上。硬件的進化在加速,資本的涌入在提速,國家戰略的布局也已清晰。但真正決定具身智能能否從“表演”走向“通用”的,不光取決于采集數據的“量”有多大,更依賴于我們能否打通從生產、沉淀到泛化的良好數據生態。唯有在這樣扎實的數據基礎之上,模型、硬件等要素才能齊頭并進、互相催化,真正形成良性循環,加速通用具身智能時代的到來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.