網易首頁 > 網易號 > 正文申請入駐

卡住具身智能脖子的，不是硬件，是數據

2026-03-26 18:38:30　來源: 數據猿DataYuan

內蒙古舉報

分享至

“困在數據里的具身智能。

今年春晚，一群機器人在臺上整齊劃一地翻跟頭、打功夫，動作行云流水。這震撼的表演看得人熱血沸騰。

但聚光燈之外，一個本質問題始終沒有解決：這更像是一場精心排練的“機械舞”，而不是我們真正期待的“智能”。

換個環境，讓這些機器人去擰個瓶蓋、拿個杯子、疊件衣服——大概率會當場翻車。

問題出在哪？

沒有真實世界的數據

具身智能只能是幻覺

過去幾年具身智能硬件的進步堪稱驚人。雙足行走、關節扭矩控制、電機響應速度、傳感器精度……宇樹、智元、特斯拉等玩家已經將工程能力推到了一個新高度。

硬件的快速進步正在掃清過去的障礙，但一個新的、更深層的制約因素正在浮出水面——數據。

當人們談到具身智能的時候，往往只把焦點放在那個漂亮的外形上。事實上，除了本體，具身智能還需要三大核心要素：數據、模型與場景。

其中，數據尤為關鍵。它直接決定了智能能不能“涌現”，能力能不能“泛化”。

正如黃仁勛在CES上那句一針見血的話：“沒有真實世界的數據，具身智能只能是幻覺。”

這句話點出了一個殘酷的現實：眼下真正卡住脖子的，是那些來自物理世界、承載著真實交互經驗的珍貴數據——而這類數據，恰恰是最稀缺的。

為什么具身智能會缺數據？

海天瑞聲董事會秘書張哲一語道破：“大模型時代，相當一大部分數據來自互聯網。文字、圖片、視頻，都是人類智慧的數字化沉淀，已經在網上堆積了幾十年。GPT-4訓練用的數據量級是萬億詞元，這些數據俯拾皆是。它需要的是與物理世界交互的數據……這些數據，互聯網上沒有現成的，需要依賴大規模的采集和標注。”

但這些數據的采集和標注又極為困難。

張哲舉了一個擰瓶蓋的例子。對人類來說，這是近乎本能的操作。但對機器人而言，這是一個涉及感知、決策、執行、驗證的完整閉環，每一個環節都涉及數據的采集和標注工作：

“感知”：機器人“眼”里只有像素點。它需要海量圖像數據才能將這一堆像素與“瓶子”的概念關聯起來，判斷其材質是玻璃還是塑料，則更需要觸覺傳感器的反饋。

“決策”：該往左擰還是往右擰、用多大的力度抓取、發力點選在哪個位置，機器人沒有天生的直覺，只能從海量數據中學習最優路徑，精準把控力度和角度，稍有偏差就會失敗。

“執行”：執行過程中，觸覺需實時反饋，算法需實時處理，電機需實時響應。任何一個環節的微小延遲，都可能導致瓶子滑落。

“驗證”：對機器人而言，成功需要一個明確、可量化的信號：是聽到“咔”的一聲，還是看到瓶蓋離開瓶身？不同的定義，將導向完全不同的訓練結果。

可以看到，一個小小的擰瓶蓋動作，就對數據的量級、精度、全面性提出了極高要求。

這背后反映出具身智能底層技術邏輯導致的數據困境。

對人類來說，我們是真正理解了“擰”這個動作的本質，機器人則是背下了“擰礦泉水瓶”這道題。對AI而言，無論參數規模多大，本質上仍是對數據模型的高度擬合，其行為模式只是在計算“下一個詞元”或“下一個動作”的概率分布。

這種根本上的不同，注定了具身智能的數據采集，注定復雜、繁瑣、成本高昂。

產業界的突圍：

四大數據供給路徑

面對數據短缺的燃眉之急，產業界沒有停滯不前，正探索多條數據供給路徑，各路徑各有側重、互為補充。

路徑一：真機遙采

這是目前公認質量最高的數據來源。由人類穿戴遙操設備或使用VR設備，遠程操控機器人執行任務，記錄下視覺、關節角度和力矩數據。這種“手把手”的教學，能夠保留人類在復雜環境中的決策過程，精度極高。

近日，記者參訪了海天瑞聲位于北京的一處具身智能數據訓練中心，這里地處繁華地段，整棟寫字樓里，有好幾層都專門用于具身智能數據采集。

現場頗為壯觀——單臂、多臂、人形、四足……幾十臺形態各異的機器人，配備頭環式、夾爪式采集設備，動捕服、動捕手套及遙操駕艙等專業裝備，在數采師的操作下，一遍遍抓取桌上的各類物品，澆花、擰瓶蓋、開門、拿杯子，仿佛在教一個個初生的嬰兒認識世界。

每一個看似簡單的動作，都要重復成百上千次。有趣的是，現場不時能看到澆花的機器人把水灑偏，抓起的物件也偶爾滑落——這正是“學習”的常態：失敗本身，也是數據。

據海天瑞聲具身智能業務負責人張金介紹說，這些機器人可以在家居、餐飲、工業、辦公等多個真實場景中完成復雜操作，從而積累海量真實交互數據。

張金進一步解釋說：“具身智能的最終目標是讓機器人干各種各樣的活，比如進入家居環境，幫人洗衣服、掃地、做飯。我們要做的就是幫助機器人找到最佳實現路徑。所以我們覺得，就像汽車行業有供應鏈一樣，未來具身智能企業，都需要一個龐大的數據基地作為支撐。”

路徑二：靈巧手采集數據

通過觸覺傳感器精準記錄人手精細動作，為精密裝配、柔性物體操控等任務提供關鍵數據。比如，靈巧智能DexCanvas數據，匯聚了22類人手操作模式、超1000小時真人多模態演示數據，驅動五指靈巧操作模型。

路徑三：仿真合成數據

通過生成可交互的三維合成數據，支持機器人進行空間行動、避障、抓取及緊急制動等任務的仿真訓練。雖然仿真數據存在域差異（即仿真數據與真實數據在紋理、物理響應上存在差異）的挑戰，但速度快、規模大、成本低的優勢，是其成為補充具身智能數據缺口不可或缺的一環。

路徑四：人類視頻數據

過讓機器人觀看、學習大量的視頻，掌握各類技能。這個路線以特斯拉為代表，它的好處是能夠跨越機械層面的障礙，大幅降低了數據采集的成本。但在技術實現上尚處于探索階段——如何從二維視頻中還原三維動作、如何將觀察到的動作映射到機器人本體，都是待解的難題。

當下，這四條路徑正在慢慢走向融合，多源數據互補共用，逐漸構建起更完整、更高效的數據供給生態。

在張金看來，未來理想的方案是“一份數據，所有本體通用”，但短期內現實無法實現。當下的應對之策，只能是“全面布局，跟隨發展”——既做真機采集，也做靈巧手采集；既探索VR遙控方案，也嘗試動捕和外骨骼方案。每家企業的發展階段不同，技術路線不同，數據需求也存在差異。作為數據供給商，要用發展的眼光看待趨勢的變化，在不確定性中保持覆蓋的廣度與響應的敏捷。

然而，一個更深層的問題也隨之浮出水面：即便數據供給的“量”在快速擴張，我們是否就能自然抵達通用具身智能的彼岸？答案恐怕并不樂觀。因為數據采集只是起點，從數據生產到能力泛化的全鏈路中，還橫亙著更棘手的系統性障礙。

更深層的困境：數據只是表象，更大的挑戰在于系統性的割裂

先看數據生產環節

數據生產的第一步，就埋下了割裂的種子。

首當其沖的是機器人硬件的異構問題。手部是五指還是三指？關節采用旋轉執行器還是線性執行器？傳感器是分布式布局還是集成式模組？具身智能在硬件形態上還處于百家爭鳴的階段。當硬件路線沒有走向收斂之前，同一個動作采集出來的數據，用在A機器人和B機器人的效果差異極大。而且當前的數據采集方式與硬件方案是強綁定的，不僅不同產品之間無法復用，一旦某款硬件方案被市場淘汰，與之綁定的數據資產也將隨之貶值甚至歸零。

與此同時，數據采集的各項技術路線也尚未收斂。張金舉了一個例子：“就拿觸覺傳感器來說，電磁方案、柔性電極方案各有優劣，主流技術路線遲遲沒有定型，直接導致數據采集的底層標準無法統一，采集出來的數據格式、參數各不相同。”

張金進一步指出，“分體式采集方式”也存在一定問題。受歷史技術路徑影響，市面上絕大多數機器人研發，都把行走、移動這類運動控制，和抓取、操作這類任務執行，拆分成兩個獨立模塊，用不同的團隊，用不同方式采集數據，甚至在完全不同的環境里訓練。

我們知道，現實世界中的任務從來不是割裂的。人類可以一邊走路一邊玩手機，可以在奔跑時接過一瓶水。這種“全身協同”的能力，是通用智能的基石。而當前“分體式”的數據采集與訓練模式，會使得機器人無法真正學會全身協同。

他認為：“未來，全身運動與操作任務必然走向統一采集、統一訓練。這不僅關乎動作的連貫性，更關乎能力的自然遷移：只有全身協同，才能真正適應動態變化的現實世界。”

再看資產沉淀和流通環節

采集到數據只是第一步，如何把零散的數據，變成可復用、可流通、有價值的核心資產，更是一道難關。

標準的缺失無疑是一個重要因素。從傳感器接口、數據格式，到標注規范、安全協議，全行業都沒有統一準則，各家企業、各個科研機構都在“閉門造車”，用自己的一套體系采集、存儲數據。再加上商業競爭考量，企業都把數據視為核心機密，不愿對外開放共享，進一步加劇了生態封閉。

沒有開放共享的數據，模型就難以全面進化；沒有持續進化的算法模型，機器人進化迭代的速度和效果就會大打折扣。

最后看能力泛化環節

然而，即便數據被生產出來、沉淀為資產，我們仍然面臨最后一公里的難題——能力泛化。

真實世界從來不是實驗室里可控、穩定的理想環境，而是光照多變、物體各異、布局靈活的復雜空間。當一個在理想條件下訓練出的機器人，闖入到一個陌生的開放場景中，就會手足無措。

究其原因，就是采集的數據、模型、機器本體和單一場景的深度綁定，模型只能在碎片化的任務里反復學習，很難讓機器人掌握跨場景的通用能力。在廚房里能流暢完成的抓取動作，換到倉庫、辦公室，機器人可能就會失靈。

這些問題交織在一起，反映出當前具身智能數據生態面臨的深層困境：并非某個單一環節出了毛病，而是本該在數據、模型、硬件和場景之間環環相扣、順暢流轉的價值鏈，在多個關鍵節點存在阻礙。

國家級布局

數據標注上升為國家戰略

面對這種系統性、全鏈路的行業難題，單靠企業自發摸索遠遠不夠，國家層面的頂層設計和強力推動，成了破局關鍵。2024年，國內首個具身智能數據行業標準——《人工智能具身智能數據采集規范》發布。首次為物理交互數據的格式、質量與安全提供了指導性框架。這意味著，“數據標準化”已上升為頂層戰略。

同時，國家層面加快布局，正在將數據供給推向規模化、標準化、專業化。從建設主體看，國家級數據訓練場、行業級開源社區與企業級數據開發平臺協同發力，具身智能數據開發生態向縱深發展。

在國家級層面，“2+N”的數據生產體系正在成型。北京與上海已建成兩個國家級具身智能訓練場；河南、江蘇、深圳等地也在積極推進人形機器人創新中心的分訓練場建設。

在國家級層面之外，企業側的布局也在同步推進。機器人本體企業和技術服務平臺也在加速數據研發與服務落地：智元機器人發布了真機數據 AgiBotWorld，宇樹科技推出了G1機器人操作數據。而像海天瑞聲這樣的技術服務平臺，正通過數據采集平臺、仿真工具和標注服務，為行業提供關鍵支撐。

“從去年開始，包括今年會更明顯，公共數據要素產業化帶來的央國企、地方國資的需求開始增多。”海天瑞聲張哲表示，“正如國家發展改革委黨組成員、國家數據局局長劉烈宏近期表示，今年是‘十五五’開局之年，也是數據要素價值釋放年，我覺得這個勢頭才剛剛啟動，未來五年會加強。既有頂層政策驅動，也有全國多地國資主體在AI數據方向變得更積極、投入更多。”

他補充道：“我們與很多地方政府合作，打造數據訓練和標注基地。我們能提供的能力有幾個點：第一是高質量，數據質量控制很重要；第二是穩定的供給，一旦業務進入穩定期，供給的穩定性至關重要；第三是能夠配合客戶的變化，客戶不可能一成不變，今天重點做家居，明天可能做廚房，后天做工業，這種變化我們要有能力幫他們解決，就像傳統生產線要能轉產一樣。”

這些舉措大幅增加了數據的供給規模。數據規模的擴張正在成為衡量行業進度的顯性指標。去年，模型訓練數據大約在幾萬小時級別；今年，行業目標已經提升到幾十萬到百萬小時級。在此背景下，數據產能正迅速成為核心競爭指標。客戶對數據服務商的考核，已經從“能不能做”轉向“一個月能產出多少小時數據”——1萬小時還是10萬小時，正在成為衡量服務能力的關鍵標尺。

當下，我們正站在一個關鍵的臨界點上。硬件的進化在加速，資本的涌入在提速，國家戰略的布局也已清晰。但真正決定具身智能能否從“表演”走向“通用”的，不光取決于采集數據的“量”有多大，更依賴于我們能否打通從生產、沉淀到泛化的良好數據生態。唯有在這樣扎實的數據基礎之上，模型、硬件等要素才能齊頭并進、互相催化，真正形成良性循環，加速通用具身智能時代的到來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.