網易首頁 > 網易號 > 正文申請入駐

摸底人形機器人“數據荒”：業內人稱呈搶購狀態，大型需求方“有多少要多少”

2026-04-20 13:20:11　來源: 時代周報

廣東舉報

分享至

本文來源：時代周報作者：朱成呈閆曉寒

100多支戰隊、300余臺人形機器人、超人類世界紀錄的成績，剛結束的北京亦莊人形機器人半程馬拉松再掀熱度。

與進步明顯的運動控制相比，數據之渴正成為影響人形機器人“大腦”進步的關鍵障礙。

生成式AI把“寫作”“輔助辦公”等能力推向高點之后，物理AI正嘗試邁進更難的一步，走進真實世界。不過，與互聯網語料天然可獲取不同，物理世界的數據既稀缺，也難以標準化，這使得具身智能從一開始就面臨“無米之炊”。

3月16日，英偉達推出物理AI數據工廠。該數據工廠的核心邏輯是：希望通過一套參考架構，統一并自動化訓練數據的生成、增強和評估流程，從而降低大規模訓練物理AI系統的成本、時間和復雜性。“物理AI是AI革命的下一個前沿，其成功的關鍵在于生成海量數據的能力。”英偉達高管直言。

相比之下，國內企業的切入點更貼近落地路徑。

“一個機器人只要在真實的環境里面運行，它每時每刻都在感知、推理、決策、控制，這背后都是持續的token的流動。”4月17日，智元聯合創始人彭志輝在一場演講中表示。在他看來，未來的機器人既會是一個執行器，也會是一個流量的入口，機器勞動者也是連接AI的模型與物理世界的接口，誰能率先把這個閉環跑通，誰就有機會定義下一代的生產力的平臺。

這一判斷對應著智元機器人的另一種路徑：將數據供給本身定義為新的生產力的基礎設施。其旗下公司覓蜂科技4月16日發布的一站式物理AI數據服務平臺，試圖以平臺化方式提供數據生成、處理與調用能力，使數據像水電一樣成為可持續供給的資源。

從英偉達試圖用仿真“制造數據”，到智元機器人嘗試以平臺化方式“運營數據”，中美頭部企業正在不同路徑上回應同一個問題：如何讓數據供給跟上機器走入現實世界的速度。

物理AI數據供不應求

物理AI數據有多稀缺？有業內人士表示，物理AI數據量僅為大語言模型的十萬分之一。這一數量級差距，并非簡單的“積累時間不夠”，而是由數據生成機制的根本差異所決定。

“人形機器人與大語言模型之間在數據訓練上存在顯著落差。”TrendForce集邦咨詢分析師曾伯楷向時代周報記者表示，大語言模型可通過網絡文本進行大規模搜集與清洗，訓練語料動輒達到數兆token，且具備高度可擴展性。相較之下，人形機器人所需的是結合視覺、動作、強制反饋與時序決策的‘具身數據’，取得成本高、標注困難，且高度依賴實體運行與場景覆蓋。”

供給約束迅速傳導至需求端。多位從業者的直觀感受是，數據市場正呈現出近似“現貨搶購”的狀態。

“實際接觸下來，大型需求方普遍是‘你有多少我就要多少’，甚至是‘什么時候有我就馬上要’。”覓蜂科技董事長兼CEO姚卯青在接受包括時代周報在內的媒體采訪時表示，當前數據供給明顯跟不上需求增長，市場處于典型的供不應求階段。

在姚卯青看來，數據的屬性正在發生變化。從輔助性資源，轉變為類似算力的基礎生產要素。“數據會像算力一樣，成為一種通用的底層資源，同時也具備投資屬性和回報周期。”

從需求結構看，當前主要買方集中在幾類主體：一是處于技術前沿的大模型團隊，二是布局具身智能的海內外科技公司，三是快速迭代中的初創企業。盡管規模與資金實力不同，但共性在于對數據的高度依賴與緊迫需求。

這種格局與早期AI算力市場較為相似。在模型尚未收斂、應用路徑尚不清晰的階段，產業鏈利潤率最先體現在“基礎設施”環節。算力如此，數據亦然。

姚卯青將其歸納為一種“先行邏輯”：在技術探索期，只有足夠規模的數據，才能支撐模型訓練、方案驗證與場景試錯，進而推動應用的出現與擴散。

仿真與現實的鴻溝

國金證券研報認為，破解人形機器人“大小腦”成熟度低的問題根源在于數據。

根據數據金字塔理論，底層數據量龐大的互聯網數據獲取門檻最低，數量最多，但質量良莠不齊，同時缺乏物理語義對齊；中層仿真合成數據和人類視角的VR軌跡數據由于可以高效生成，獲取成本不高，但仿真與現實之間存在不可忽視的物理差距，質量一般介于真實數據與互聯網數據之間；上層真機數據一般通過遙操作采集，物理精準、任務語義完整，在任務泛化和精度要求上具有無可替代的價值，但獲取成本高、標注難、數量少。

英偉達的解法是仿真數據，結合NVIDIA Cosmos 世界基礎模型與 Omniverse 仿真技術，在虛擬世界中生成海量符合真實物理規則的合成數據。

但即便如此，仿真數據的邊界依然清晰。

“仿真對真實世界的替代性仍存在邊界，尤其在涉及精細操作、接觸力學與長時序交互時，現實環境中的噪聲、不確定性與極端情境，仍難以被完整建模，最終仍需真實數據進行校準與驗證。”曾伯楷指出，產業實務上并不將仿真視為“替代”，而是“前置放大器”與“加速器”。為避免低質量仿真數據導致模型學習偏誤，關鍵在于建立系統性的風險控制機制，如通過少量高質量真實數據進行遷移與微調，以及建構死循環數據回收流程，將實際運行中的失敗案例回饋至訓練系統。

換言之，仿真可以“擴展邊界”，但無法“替代落地”。

從數據供給側來看，市場也在形成分層結構。姚卯青向時代周報記者表示，目前公司并未將仿真數據作為主要交易品類。

在具體供給結構上，企業正根據需求動態調整產能。以覓蜂平臺為例，其數據來源覆蓋真機遙操作、無本體采集以及仿真數據等多種范式，但當前重心明顯向成本更低、效率更高的“無本體采集”傾斜。

姚卯青透露，在公司年度約千萬小時的數據規劃中，超過60%至70%將來自無本體采集，真機數據則維持在200萬至300萬小時規模，用于高精度任務訓練。

這一結構本身，正是現實約束的映射：在規模與真實性之間，行業仍不得不反復權衡。

曾伯楷認為，隨著世界模型與行動模型的發展，未來一個重要方向，是讓模型具備“辨識仿真與現實差異”的能力，而非單純依賴數據一致性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.