人形機(jī)器人，如何跑出數(shù)據(jù)荒漠 | 海斌訪談

2026-04-19 20:06:56　來源: 新浪財(cái)經(jīng)

北京舉報(bào)

分享至

來源：第一財(cái)經(jīng)

現(xiàn)在機(jī)器人除了跑馬，還已經(jīng)登上春晚舞臺，進(jìn)入工廠流水線。這種技術(shù)進(jìn)步有目共睹，而缺憾也一目了然：機(jī)器人依然不夠聰明。

4月19日，北京亦莊機(jī)器人馬拉松決出勝負(fù)。

300余臺機(jī)器人參與競逐，它們或是自主導(dǎo)航，或是人類遙控完成了比賽。相比去年，機(jī)器人的運(yùn)動(dòng)能力大幅提升。現(xiàn)在機(jī)器人除了跑馬，還已經(jīng)登上春晚舞臺，進(jìn)入工廠流水線。這種技術(shù)進(jìn)步有目共睹，而缺憾也一目了然：機(jī)器人依然不夠聰明。

機(jī)器人現(xiàn)在困于數(shù)據(jù)荒漠里。高質(zhì)量數(shù)據(jù)，比石油還稀缺，阻礙了人工智能技術(shù)進(jìn)入真實(shí)世界的腳步。“具身智能一定會出現(xiàn)涌現(xiàn)時(shí)刻的，而且涌現(xiàn)時(shí)刻一定是和數(shù)據(jù)量與數(shù)據(jù)組成掛鉤的。”覓蜂科技董事長兼CEO姚卯青不久前對第一財(cái)經(jīng)記者表示。

缺口有多大

具身智能以機(jī)器人的形態(tài)，走出實(shí)驗(yàn)室、奔赴千行百業(yè)。

人形機(jī)器人已經(jīng)可以以自主的方式跑完半場馬拉松，它們也進(jìn)入龍旗科技的平板工廠完成上下料工作，更不必提在舞臺上武術(shù)表演了。但機(jī)器人現(xiàn)在跑步的時(shí)候還是踉踉蹌蹌，工廠流水線上只能完成特定環(huán)節(jié)的工作，舞臺表演看上去還有些憨傻。

這些機(jī)器人，能完成一些工作，但確實(shí)還不太聰明。大語言模型比如ChatGPT、DeepSeek都已經(jīng)見證了智能涌現(xiàn)，而機(jī)器人智能還在等待這一刻的到來。

高質(zhì)量、標(biāo)準(zhǔn)化、規(guī)模化的數(shù)據(jù)，是驅(qū)動(dòng)機(jī)器人奔向智能化時(shí)代的核心基石。姚卯青認(rèn)為，機(jī)器人的智能涌現(xiàn)時(shí)刻一定是和數(shù)據(jù)量與數(shù)據(jù)組成掛鉤的。

“人形機(jī)器人是一個(gè)比汽車更大更具想象力的空間，我們正在這個(gè)時(shí)代的起點(diǎn)。雖然萬億產(chǎn)業(yè)蓄勢待發(fā)，但整個(gè)行業(yè)卻面臨著很大的瓶頸和挑戰(zhàn)——數(shù)據(jù)荒漠。”姚卯青在17日的智元合作伙伴大會上表示。

大語言模型的數(shù)據(jù)獲取成本比較低，可以從互聯(lián)網(wǎng)的各種日常應(yīng)用里面輕松獲取。迪士尼的動(dòng)畫、電子版的蘇東坡詞集，都可以成為大語言模型的高質(zhì)量數(shù)據(jù)。

“目前最領(lǐng)先的大語言模型，比如GPT5用了100萬億token的訓(xùn)練語料。”姚卯青說，1個(gè)token近似于0.75個(gè)英語單詞，正常人如果每分鐘誦讀150個(gè)單詞，需要100億個(gè)小時(shí)才能讀完這些語料集。

機(jī)器人所需數(shù)據(jù)的獲取難度高很多。高質(zhì)量的真機(jī)數(shù)據(jù)，需要機(jī)器人去真實(shí)世界里摸爬滾打。比如機(jī)器人上手搬運(yùn)行李、清潔房屋，才能獲取這些動(dòng)作反饋的數(shù)據(jù)。如果說大語言模型需要的是一維的文本資料，機(jī)器人需要的就是三維開放世界的知識，數(shù)量級、復(fù)雜度、獲取成本都不可同日而語。

從數(shù)據(jù)供給側(cè)來看，過去兩年全國各地陸陸續(xù)續(xù)出現(xiàn)數(shù)據(jù)采集企業(yè)，它們有場景資源，有采集能力，但是缺少標(biāo)準(zhǔn)化的運(yùn)營和管理體系，以及一套完整成熟的數(shù)據(jù)后處理、治理和流通的能力。只有原始數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的，它們需要經(jīng)過很多的加工和標(biāo)注，才能為人工智能企業(yè)所用。這導(dǎo)致一些數(shù)據(jù)采集企業(yè)空有資源卻沒法變現(xiàn)。

從數(shù)據(jù)的需求側(cè)來看，AI大模型公司、科技大廠的具身團(tuán)隊(duì)、初創(chuàng)的人形機(jī)器人公司都需要海量的高質(zhì)量數(shù)據(jù)，但是卻無法找到能穩(wěn)定、快速地供給和高質(zhì)量的方案，嚴(yán)重拖慢了AI類產(chǎn)品的落地。

極佳視界是一家具身智能和通用機(jī)器人的獨(dú)角獸公司，4月份剛剛完成新一輪的15億融資。在智元合作伙伴大會的圓桌環(huán)節(jié)，極佳視界聯(lián)合創(chuàng)始人朱政表示，該公司在訓(xùn)練模型的過程中，大概使用了幾十萬個(gè)小時(shí)的數(shù)據(jù)。這些數(shù)據(jù)主要有兩個(gè)來源，第一是各種網(wǎng)上公開的數(shù)據(jù)，包括合作伙伴，包括學(xué)術(shù)機(jī)構(gòu)開源出來的數(shù)據(jù)；第二則是極佳視界自己采集的數(shù)據(jù)。

“大部分?jǐn)?shù)據(jù)都是在實(shí)驗(yàn)室環(huán)境下，或者說在人工設(shè)置好的場景下采集的。我們覺得還不夠真實(shí)，希望數(shù)據(jù)更多一些泛服務(wù)場景、工業(yè)場景，甚至家庭場景，更加真實(shí)我們覺得更好。”朱政說。

外購數(shù)據(jù)質(zhì)量往往不達(dá)標(biāo)，數(shù)據(jù)質(zhì)量參差不齊。

“我們之前做多模態(tài)模型的時(shí)候，一張圖可能給它幾千句話的標(biāo)注，詳細(xì)地描述這張圖里面的背景、前景、發(fā)生了什么，以及不同標(biāo)注員對它的理解。現(xiàn)在的視頻數(shù)據(jù)，除了自己采回來的數(shù)據(jù)之外，都是非常簡略地標(biāo)注，對整個(gè)環(huán)境的標(biāo)注、對任務(wù)的描述遠(yuǎn)遠(yuǎn)不夠。”朱政表示。

姚卯青深有同感。

“這些數(shù)據(jù)里面，標(biāo)注很多是不太規(guī)范的，各種傳感器之間的空間標(biāo)定，時(shí)間上的同步也有很多問題。標(biāo)注質(zhì)量也比較粗糙，臟數(shù)據(jù)還是充斥著整個(gè)市場的。”姚卯青說，現(xiàn)在的大模型都是數(shù)據(jù)驅(qū)動(dòng)，什么樣的數(shù)據(jù)就產(chǎn)生什么樣的模型。“garbage in、garbage out，如果你是垃圾數(shù)據(jù)進(jìn)，就垃圾模型出。”

數(shù)據(jù)低質(zhì)，造成的深層次問題是，如果有一個(gè)好的算法，訓(xùn)練后卻沒有得到好的效果，機(jī)器人企業(yè)將難以分辨，到底是數(shù)據(jù)不好，還是模型出了問題，甚至可能因此而否定掉優(yōu)秀的算法。

“今天整個(gè)行業(yè)的高質(zhì)量數(shù)據(jù)匯聚在一起，湊湊可能就50萬小時(shí)的規(guī)模。”姚卯青認(rèn)為，要達(dá)到智能涌現(xiàn)時(shí)刻，1億小時(shí)的訓(xùn)練數(shù)據(jù)可能都不夠。高質(zhì)量真機(jī)數(shù)據(jù)的供需之間，存在成千上萬倍的差距。

鴻溝如何填平

各家機(jī)器人企業(yè)，數(shù)據(jù)標(biāo)準(zhǔn)各自為戰(zhàn)。

不少機(jī)器人企業(yè)在自主生產(chǎn)數(shù)據(jù)，但數(shù)據(jù)格式、標(biāo)注等都是自成體系。

“它們都是一個(gè)個(gè)的孤島，很難互通復(fù)用。這就造成了企業(yè)與企業(yè)之間、上游與下游、應(yīng)用方與數(shù)據(jù)生產(chǎn)方等的協(xié)作成本非常高，整個(gè)產(chǎn)業(yè)很難形成合力快速地往規(guī)模化發(fā)展。”姚卯青分析說。

真機(jī)數(shù)據(jù)成本高昂，采集一小時(shí)數(shù)據(jù)大概需要200元甚至更高。按照這樣的成本核算，人類恐怕會因?yàn)榭傮w成本太高而難以采集幾百億小時(shí)數(shù)據(jù)。仿真數(shù)據(jù)等雖然訓(xùn)練效果不及真機(jī)數(shù)據(jù)，是一個(gè)退而求其次的選擇，但也變得不可或缺。

智元專門成立了覓蜂科技以采集和加工數(shù)據(jù)。根據(jù)覓蜂科技的規(guī)劃，2026年要實(shí)現(xiàn)千萬小時(shí)級的數(shù)據(jù)產(chǎn)能，其中包括真機(jī)、仿真，也包括人類數(shù)據(jù)。

“數(shù)據(jù)金字塔包括三層，最上面這一層是真機(jī)的數(shù)據(jù)，它一定是最有針對性、質(zhì)量最高的數(shù)據(jù)；中間這一層是仿真數(shù)據(jù)；下面這一層是視頻數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)，現(xiàn)在我認(rèn)為可能更具代表性的是人類數(shù)據(jù)。”光輪智能CEO謝晨表示。

數(shù)據(jù)的核心問題，謝晨認(rèn)為不在數(shù)據(jù)本身，而是在模型評價(jià)上。現(xiàn)在缺乏一個(gè)足夠開放的、足夠真實(shí)的，且可規(guī)模化的落地到真實(shí)場景的具身模型評價(jià)方式。如果沒有合適的評價(jià)體系，企業(yè)就不知道用什么樣的數(shù)據(jù)能夠做好具身模型。

這個(gè)可規(guī)模化的評價(jià)體系，謝晨認(rèn)為底層需要的是仿真，所以他認(rèn)為真機(jī)數(shù)據(jù)、仿真數(shù)據(jù)、人類數(shù)據(jù)都至關(guān)重要。它們都是智能涌現(xiàn)的必要條件。

就如同特斯拉FSD有上百萬輛車，不斷地從真實(shí)場景拿回?cái)?shù)據(jù)。具身智能需要用人類的手腳與全世界各種各樣的物體進(jìn)行交互以獲取數(shù)據(jù)。具身數(shù)據(jù)的難度、數(shù)據(jù)需求的規(guī)模可能會在特斯拉FSD的1000倍。

謝晨認(rèn)為，比照特斯拉的100萬輛汽車，具身智能需要10億個(gè)數(shù)據(jù)生成器，這需要?jiǎng)訂T真機(jī)、仿真和人類三大核心來源。

在數(shù)據(jù)稀缺的情況下，現(xiàn)在對數(shù)據(jù)的利用效率還很低，亟待提高。

據(jù)朱政透露，極佳視界用了幾十萬個(gè)小時(shí)的數(shù)據(jù)訓(xùn)練模型，為此每年要在GPU算力上花掉幾千萬人民幣。如果按照當(dāng)下的數(shù)據(jù)使用效率，極佳把訓(xùn)練數(shù)據(jù)擴(kuò)增100倍甚至1000倍的時(shí)候，單單為GPU燒掉的錢就會超過它所能承受的支付能力。

“我們一方面要擴(kuò)增數(shù)據(jù)，一方面要努力地改善模型的架構(gòu)，提高運(yùn)行的效率。”朱政說。

在今年的北京亦莊機(jī)器人馬拉松上，人形機(jī)器人奔跑的速度已經(jīng)追平人類運(yùn)動(dòng)員。但人形機(jī)器人企業(yè)探尋高質(zhì)量數(shù)據(jù)的馬拉松才剛剛開始。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.