337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人形機器人,如何跑出數(shù)據(jù)荒漠

人形機器人拿起“逆襲”劇本

0
分享至

2026.04.20


本文字數(shù):2943,閱讀時長大約5分鐘

作者 |第一財經(jīng) 彭海斌

4月19日,北京亦莊機器人馬拉松決出勝負。

300余臺機器人參與競逐,它們或是自主導(dǎo)航,或是人類遙控完成了比賽。相比去年,機器人的運動能力大幅提升?,F(xiàn)在機器人除了跑馬,還已經(jīng)登上春晚舞臺,進入工廠流水線。這種技術(shù)進步有目共睹,而缺憾也一目了然:機器人依然不夠聰明。

機器人現(xiàn)在困于數(shù)據(jù)荒漠里。高質(zhì)量數(shù)據(jù),比石油還稀缺,阻礙了人工智能技術(shù)進入真實世界的腳步?!熬呱碇悄芤欢〞霈F(xiàn)涌現(xiàn)時刻的,而且涌現(xiàn)時刻一定是和數(shù)據(jù)量與數(shù)據(jù)組成掛鉤的?!币挿淇萍级麻L兼CEO姚卯青不久前對第一財經(jīng)記者表示。

缺口有多大

具身智能以機器人的形態(tài),走出實驗室、奔赴千行百業(yè)。

人形機器人已經(jīng)可以以自主的方式跑完半場馬拉松,它們也進入龍旗科技的平板工廠完成上下料工作,更不必提在舞臺上武術(shù)表演了。但機器人現(xiàn)在跑步的時候還是踉踉蹌蹌,工廠流水線上只能完成特定環(huán)節(jié)的工作,舞臺表演看上去還有些憨傻。

這些機器人,能完成一些工作,但確實還不太聰明。大語言模型比如ChatGPT、DeepSeek都已經(jīng)見證了智能涌現(xiàn),而機器人智能還在等待這一刻的到來。

高質(zhì)量、標(biāo)準(zhǔn)化、規(guī)?;臄?shù)據(jù),是驅(qū)動機器人奔向智能化時代的核心基石。姚卯青認為,機器人的智能涌現(xiàn)時刻一定是和數(shù)據(jù)量與數(shù)據(jù)組成掛鉤的。

“人形機器人是一個比汽車更大更具想象力的空間,我們正在這個時代的起點。雖然萬億產(chǎn)業(yè)蓄勢待發(fā),但整個行業(yè)卻面臨著很大的瓶頸和挑戰(zhàn)——數(shù)據(jù)荒漠?!币γ嘣?7日的智元合作伙伴大會上表示。

大語言模型的數(shù)據(jù)獲取成本比較低,可以從互聯(lián)網(wǎng)的各種日常應(yīng)用里面輕松獲取。迪士尼的動畫、電子版的蘇東坡詞集,都可以成為大語言模型的高質(zhì)量數(shù)據(jù)。

“目前最領(lǐng)先的大語言模型,比如GPT5用了100萬億token的訓(xùn)練語料?!币γ嗾f,1個token近似于0.75個英語單詞,正常人如果每分鐘誦讀150個單詞,需要100億個小時才能讀完這些語料集。

機器人所需數(shù)據(jù)的獲取難度高很多。高質(zhì)量的真機數(shù)據(jù),需要機器人去真實世界里摸爬滾打。比如機器人上手搬運行李、清潔房屋,才能獲取這些動作反饋的數(shù)據(jù)。如果說大語言模型需要的是一維的文本資料,機器人需要的就是三維開放世界的知識,數(shù)量級、復(fù)雜度、獲取成本都不可同日而語。

從數(shù)據(jù)供給側(cè)來看,過去兩年全國各地陸陸續(xù)續(xù)出現(xiàn)數(shù)據(jù)采集企業(yè),它們有場景資源,有采集能力,但是缺少標(biāo)準(zhǔn)化的運營和管理體系,以及一套完整成熟的數(shù)據(jù)后處理、治理和流通的能力。只有原始數(shù)據(jù)是遠遠不夠的,它們需要經(jīng)過很多的加工和標(biāo)注,才能為人工智能企業(yè)所用。這導(dǎo)致一些數(shù)據(jù)采集企業(yè)空有資源卻沒法變現(xiàn)。

從數(shù)據(jù)的需求側(cè)來看,AI大模型公司、科技大廠的具身團隊、初創(chuàng)的人形機器人公司都需要海量的高質(zhì)量數(shù)據(jù),但是卻無法找到能穩(wěn)定、快速地供給和高質(zhì)量的方案,嚴重拖慢了AI類產(chǎn)品的落地。

極佳視界是一家具身智能和通用機器人的獨角獸公司,4月份剛剛完成新一輪的15億融資。在智元合作伙伴大會的圓桌環(huán)節(jié),極佳視界聯(lián)合創(chuàng)始人朱政表示,該公司在訓(xùn)練模型的過程中,大概使用了幾十萬個小時的數(shù)據(jù)。這些數(shù)據(jù)主要有兩個來源,第一是各種網(wǎng)上公開的數(shù)據(jù),包括合作伙伴,包括學(xué)術(shù)機構(gòu)開源出來的數(shù)據(jù);第二則是極佳視界自己采集的數(shù)據(jù)。

“大部分數(shù)據(jù)都是在實驗室環(huán)境下,或者說在人工設(shè)置好的場景下采集的。我們覺得還不夠真實,希望數(shù)據(jù)更多一些泛服務(wù)場景、工業(yè)場景,甚至家庭場景,更加真實我們覺得更好?!敝煺f。

外購數(shù)據(jù)質(zhì)量往往不達標(biāo),數(shù)據(jù)質(zhì)量參差不齊。

“我們之前做多模態(tài)模型的時候,一張圖可能給它幾千句話的標(biāo)注,詳細地描述這張圖里面的背景、前景、發(fā)生了什么,以及不同標(biāo)注員對它的理解。現(xiàn)在的視頻數(shù)據(jù),除了自己采回來的數(shù)據(jù)之外,都是非常簡略地標(biāo)注,對整個環(huán)境的標(biāo)注、對任務(wù)的描述遠遠不夠?!敝煺硎?。

姚卯青深有同感。

“這些數(shù)據(jù)里面,標(biāo)注很多是不太規(guī)范的,各種傳感器之間的空間標(biāo)定,時間上的同步也有很多問題。標(biāo)注質(zhì)量也比較粗糙,臟數(shù)據(jù)還是充斥著整個市場的?!币γ嗾f,現(xiàn)在的大模型都是數(shù)據(jù)驅(qū)動,什么樣的數(shù)據(jù)就產(chǎn)生什么樣的模型?!癵arbage in、garbage out,如果你是垃圾數(shù)據(jù)進,就垃圾模型出。”

數(shù)據(jù)低質(zhì),造成的深層次問題是,如果有一個好的算法,訓(xùn)練后卻沒有得到好的效果,機器人企業(yè)將難以分辨,到底是數(shù)據(jù)不好,還是模型出了問題,甚至可能因此而否定掉優(yōu)秀的算法。

“今天整個行業(yè)的高質(zhì)量數(shù)據(jù)匯聚在一起,湊湊可能就50萬小時的規(guī)模?!币γ嗾J為,要達到智能涌現(xiàn)時刻,1億小時的訓(xùn)練數(shù)據(jù)可能都不夠。高質(zhì)量真機數(shù)據(jù)的供需之間,存在成千上萬倍的差距。

鴻溝如何填平

各家機器人企業(yè),數(shù)據(jù)標(biāo)準(zhǔn)各自為戰(zhàn)。

不少機器人企業(yè)在自主生產(chǎn)數(shù)據(jù),但數(shù)據(jù)格式、標(biāo)注等都是自成體系。

“它們都是一個個的孤島,很難互通復(fù)用。這就造成了企業(yè)與企業(yè)之間、上游與下游、應(yīng)用方與數(shù)據(jù)生產(chǎn)方等的協(xié)作成本非常高,整個產(chǎn)業(yè)很難形成合力快速地往規(guī)?;l(fā)展。”姚卯青分析說。

真機數(shù)據(jù)成本高昂,采集一小時數(shù)據(jù)大概需要200元甚至更高。按照這樣的成本核算,人類恐怕會因為總體成本太高而難以采集幾百億小時數(shù)據(jù)。仿真數(shù)據(jù)等雖然訓(xùn)練效果不及真機數(shù)據(jù),是一個退而求其次的選擇,但也變得不可或缺。

智元專門成立了覓蜂科技以采集和加工數(shù)據(jù)。根據(jù)覓蜂科技的規(guī)劃,2026年要實現(xiàn)千萬小時級的數(shù)據(jù)產(chǎn)能,其中包括真機、仿真,也包括人類數(shù)據(jù)。

“數(shù)據(jù)金字塔包括三層,最上面這一層是真機的數(shù)據(jù),它一定是最有針對性、質(zhì)量最高的數(shù)據(jù);中間這一層是仿真數(shù)據(jù);下面這一層是視頻數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù),現(xiàn)在我認為可能更具代表性的是人類數(shù)據(jù)?!惫廨喼悄蹸EO謝晨表示。

數(shù)據(jù)的核心問題,謝晨認為不在數(shù)據(jù)本身,而是在模型評價上。現(xiàn)在缺乏一個足夠開放的、足夠真實的,且可規(guī)模化的落地到真實場景的具身模型評價方式。如果沒有合適的評價體系,企業(yè)就不知道用什么樣的數(shù)據(jù)能夠做好具身模型。

這個可規(guī)模化的評價體系,謝晨認為底層需要的是仿真,所以他認為真機數(shù)據(jù)、仿真數(shù)據(jù)、人類數(shù)據(jù)都至關(guān)重要。它們都是智能涌現(xiàn)的必要條件。

就如同特斯拉FSD有上百萬輛車,不斷地從真實場景拿回數(shù)據(jù)。具身智能需要用人類的手腳與全世界各種各樣的物體進行交互以獲取數(shù)據(jù)。具身數(shù)據(jù)的難度、數(shù)據(jù)需求的規(guī)??赡軙谔厮估璅SD的1000倍。

謝晨認為,比照特斯拉的100萬輛汽車,具身智能需要10億個數(shù)據(jù)生成器,這需要動員真機、仿真和人類三大核心來源。

在數(shù)據(jù)稀缺的情況下,現(xiàn)在對數(shù)據(jù)的利用效率還很低,亟待提高。

據(jù)朱政透露,極佳視界用了幾十萬個小時的數(shù)據(jù)訓(xùn)練模型,為此每年要在GPU算力上花掉幾千萬人民幣。如果按照當(dāng)下的數(shù)據(jù)使用效率,極佳把訓(xùn)練數(shù)據(jù)擴增100倍甚至1000倍的時候,單單為GPU燒掉的錢就會超過它所能承受的支付能力。

“我們一方面要擴增數(shù)據(jù),一方面要努力地改善模型的架構(gòu),提高運行的效率。”朱政說。

在今年的北京亦莊機器人馬拉松上,人形機器人奔跑的速度已經(jīng)追平人類運動員。但人形機器人企業(yè)探尋高質(zhì)量數(shù)據(jù)的馬拉松才剛剛開始。

微信編輯| 蘇小

:bianjibu@yicai.com

:business@yicai.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
贊助商陣容堪比歐洲杯!中國足球的面子,被蘇超硬生生地掙了回來

贊助商陣容堪比歐洲杯!中國足球的面子,被蘇超硬生生地掙了回來

十點街球體育
2026-04-20 06:00:03
與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風(fēng)流買單

與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風(fēng)流買單

情感大頭說說
2026-04-18 21:06:00
曼城看到奪冠希望!剩5輪少3分,手握一大優(yōu)勢,阿森納失去主動

曼城看到奪冠希望!剩5輪少3分,手握一大優(yōu)勢,阿森納失去主動

奧拜爾
2026-04-20 01:34:45
5月1日正式落地!醫(yī)院全面大整改,老百姓看病再也不用遭罪了!

5月1日正式落地!醫(yī)院全面大整改,老百姓看病再也不用遭罪了!

老特有話說
2026-04-19 15:35:43
1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

莫地方
2026-04-20 09:30:18
雷霆大勝太陽總分1-0:亞歷山大25分17罰 布克23分杰倫22+7+6

雷霆大勝太陽總分1-0:亞歷山大25分17罰 布克23分杰倫22+7+6

醉臥浮生
2026-04-20 06:07:58
重慶撒潑“毒母女”一夜全國出名,誰看了不喊一句離譜!

重慶撒潑“毒母女”一夜全國出名,誰看了不喊一句離譜!

脆皮先生
2026-04-19 19:37:38
越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

混沌錄
2026-04-19 17:27:06
張雪回應(yīng):820RR爆缸是發(fā)動機問題,換新車還是退錢,車主選!

張雪回應(yīng):820RR爆缸是發(fā)動機問題,換新車還是退錢,車主選!

哄動一時啊
2026-04-18 19:39:31
伊朗向中國通報內(nèi)幕!談判團差點被美軍“團滅”,連電話都不敢打

伊朗向中國通報內(nèi)幕!談判團差點被美軍“團滅”,連電話都不敢打

風(fēng)信子的花
2026-04-19 16:46:59
湖人G2賽前做出爭議決定,或?qū)氐准づ材匪梗?>
    </a>
        <h3>
      <a href=夜白侃球
2026-04-20 10:12:53
19日凌晨,大批導(dǎo)彈密集射向日本海,高市早苗這下嘗到后果了!

19日凌晨,大批導(dǎo)彈密集射向日本海,高市早苗這下嘗到后果了!

荊楚寰宇文樞
2026-04-19 23:37:05
恩愛8年難抵殘酷現(xiàn)實?鹿晗生日引爆熱搜,被關(guān)曉彤徹底撕下體面

恩愛8年難抵殘酷現(xiàn)實?鹿晗生日引爆熱搜,被關(guān)曉彤徹底撕下體面

阿褲趣聞君
2026-04-20 09:55:19
美國妹子崩潰大哭:借9.6萬美元上大學(xué),已還16.5萬,還欠22萬

美國妹子崩潰大哭:借9.6萬美元上大學(xué),已還16.5萬,還欠22萬

賤議你讀史
2026-04-19 04:30:07
英國小妹歧視中國人后續(xù):身份曝光社死,被告學(xué)校,下場大快人心

英國小妹歧視中國人后續(xù):身份曝光社死,被告學(xué)校,下場大快人心

米果說識
2026-04-19 16:40:24
這個90后女演員憑什么擊敗章子怡、馬麗,奪得金像影后桂冠

這個90后女演員憑什么擊敗章子怡、馬麗,奪得金像影后桂冠

新民周刊
2026-04-20 11:37:22
貴州茅臺股價盤中反超源杰科技,重新成為A股市場股價“一哥”

貴州茅臺股價盤中反超源杰科技,重新成為A股市場股價“一哥”

界面新聞
2026-04-20 10:52:14
越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

苗苗情感說
2026-04-19 12:38:15
世界臺聯(lián)一心促成中國德比?趙心童:我與暉哥比賽會刷新收視紀錄

世界臺聯(lián)一心促成中國德比?趙心童:我與暉哥比賽會刷新收視紀錄

楊華評論
2026-04-20 00:51:00
視頻丨美伊?;饍H剩兩天 特朗普稱將談判 伊朗:不屬實

視頻丨美伊?;饍H剩兩天 特朗普稱將談判 伊朗:不屬實

國際在線
2026-04-20 07:01:31
2026-04-20 12:27:00
第一財經(jīng)資訊 incentive-icons
第一財經(jīng)資訊
第一財經(jīng)官方賬號
250792文章數(shù) 622088關(guān)注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

男子收到陌生賬號轉(zhuǎn)賬8萬余元 3天后奢侈品牌商家找來

頭條要聞

男子收到陌生賬號轉(zhuǎn)賬8萬余元 3天后奢侈品牌商家找來

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

藝術(shù)
健康
親子
游戲
公開課

藝術(shù)要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

干細胞抗衰4大誤區(qū),90%的人都中招

親子要聞

普通家庭養(yǎng)娃補鈣,90% 家長都補錯了!

光榮特庫摩《仁王3》大更新官宣!DLC也有新進展

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版