本文來源:時代周報 作者:朱成呈 閆曉寒
![]()
100多支戰隊、300余臺人形機器人、超人類世界紀錄的成績,剛結束的北京亦莊人形機器人半程馬拉松再掀熱度。
與進步明顯的運動控制相比,數據之渴正成為影響人形機器人“大腦”進步的關鍵障礙。
生成式AI把“寫作”“輔助辦公”等能力推向高點之后,物理AI正嘗試邁進更難的一步,走進真實世界。不過,與互聯網語料天然可獲取不同,物理世界的數據既稀缺,也難以標準化,這使得具身智能從一開始就面臨“無米之炊”。
3月16日,英偉達推出物理AI數據工廠。該數據工廠的核心邏輯是:希望通過一套參考架構,統一并自動化訓練數據的生成、增強和評估流程,從而降低大規模訓練物理AI系統的成本、時間和復雜性。“物理AI是AI革命的下一個前沿,其成功的關鍵在于生成海量數據的能力。”英偉達高管直言。
相比之下,國內企業的切入點更貼近落地路徑。
“一個機器人只要在真實的環境里面運行,它每時每刻都在感知、推理、決策、控制,這背后都是持續的token的流動。”4月17日,智元聯合創始人彭志輝在一場演講中表示。在他看來,未來的機器人既會是一個執行器,也會是一個流量的入口,機器勞動者也是連接AI的模型與物理世界的接口,誰能率先把這個閉環跑通,誰就有機會定義下一代的生產力的平臺。
這一判斷對應著智元機器人的另一種路徑:將數據供給本身定義為新的生產力的基礎設施。其旗下公司覓蜂科技4月16日發布的一站式物理AI數據服務平臺,試圖以平臺化方式提供數據生成、處理與調用能力,使數據像水電一樣成為可持續供給的資源。
從英偉達試圖用仿真“制造數據”,到智元機器人嘗試以平臺化方式“運營數據”,中美頭部企業正在不同路徑上回應同一個問題:如何讓數據供給跟上機器走入現實世界的速度。
物理AI數據供不應求
物理AI數據有多稀缺?有業內人士表示,物理AI數據量僅為大語言模型的十萬分之一。這一數量級差距,并非簡單的“積累時間不夠”,而是由數據生成機制的根本差異所決定。
“人形機器人與大語言模型之間在數據訓練上存在顯著落差。”TrendForce集邦咨詢分析師曾伯楷向時代周報記者表示,大語言模型可通過網絡文本進行大規模搜集與清洗,訓練語料動輒達到數兆token,且具備高度可擴展性。相較之下,人形機器人所需的是結合視覺、動作、強制反饋與時序決策的‘具身數據’,取得成本高、標注困難,且高度依賴實體運行與場景覆蓋。”
供給約束迅速傳導至需求端。多位從業者的直觀感受是,數據市場正呈現出近似“現貨搶購”的狀態。
“實際接觸下來,大型需求方普遍是‘你有多少我就要多少’,甚至是‘什么時候有我就馬上要’。”覓蜂科技董事長兼CEO姚卯青在接受包括時代周報在內的媒體采訪時表示,當前數據供給明顯跟不上需求增長,市場處于典型的供不應求階段。
在姚卯青看來,數據的屬性正在發生變化。從輔助性資源,轉變為類似算力的基礎生產要素。“數據會像算力一樣,成為一種通用的底層資源,同時也具備投資屬性和回報周期。”
從需求結構看,當前主要買方集中在幾類主體:一是處于技術前沿的大模型團隊,二是布局具身智能的海內外科技公司,三是快速迭代中的初創企業。盡管規模與資金實力不同,但共性在于對數據的高度依賴與緊迫需求。
這種格局與早期AI算力市場較為相似。在模型尚未收斂、應用路徑尚不清晰的階段,產業鏈利潤率最先體現在“基礎設施”環節。算力如此,數據亦然。
姚卯青將其歸納為一種“先行邏輯”:在技術探索期,只有足夠規模的數據,才能支撐模型訓練、方案驗證與場景試錯,進而推動應用的出現與擴散。
仿真與現實的鴻溝
國金證券研報認為,破解人形機器人“大小腦”成熟度低的問題根源在于數據。
根據數據金字塔理論,底層數據量龐大的互聯網數據獲取門檻最低,數量最多,但質量良莠不齊,同時缺乏物理語義對齊;中層仿真合成數據和人類視角的VR軌跡數據由于可以高效生成,獲取成本不高,但仿真與現實之間存在不可忽視的物理差距,質量一般介于真實數據與互聯網數據之間;上層真機數據一般通過遙操作采集,物理精準、任務語義完整,在任務泛化和精度要求上具有無可替代的價值,但獲取成本高、標注難、數量少。
英偉達的解法是仿真數據,結合NVIDIA Cosmos 世界基礎模型與 Omniverse 仿真技術,在虛擬世界中生成海量符合真實物理規則的合成數據。
但即便如此,仿真數據的邊界依然清晰。
“仿真對真實世界的替代性仍存在邊界,尤其在涉及精細操作、接觸力學與長時序交互時,現實環境中的噪聲、不確定性與極端情境,仍難以被完整建模,最終仍需真實數據進行校準與驗證。”曾伯楷指出,產業實務上并不將仿真視為“替代”,而是“前置放大器”與“加速器”。為避免低質量仿真數據導致模型學習偏誤,關鍵在于建立系統性的風險控制機制,如通過少量高質量真實數據進行遷移與微調,以及建構死循環數據回收流程,將實際運行中的失敗案例回饋至訓練系統。
換言之,仿真可以“擴展邊界”,但無法“替代落地”。
從數據供給側來看,市場也在形成分層結構。姚卯青向時代周報記者表示,目前公司并未將仿真數據作為主要交易品類。
在具體供給結構上,企業正根據需求動態調整產能。以覓蜂平臺為例,其數據來源覆蓋真機遙操作、無本體采集以及仿真數據等多種范式,但當前重心明顯向成本更低、效率更高的“無本體采集”傾斜。
姚卯青透露,在公司年度約千萬小時的數據規劃中,超過60%至70%將來自無本體采集,真機數據則維持在200萬至300萬小時規模,用于高精度任務訓練。
這一結構本身,正是現實約束的映射:在規模與真實性之間,行業仍不得不反復權衡。
曾伯楷認為,隨著世界模型與行動模型的發展,未來一個重要方向,是讓模型具備“辨識仿真與現實差異”的能力,而非單純依賴數據一致性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.