![]()
機器人前瞻(公眾號:robot_pro)
作者 許麗思
編輯 漠影
機器人前瞻3月17日報道,剛剛,宇樹科技創(chuàng)始人兼CEO、CTO王興興在GTC2026上,介紹了宇樹科技最近在具身智能方面的關(guān)鍵技術(shù)進展,以及對具身智能在任務(wù)泛化、數(shù)據(jù)效率與強化學習規(guī)模效應(yīng)方面面臨的核心瓶頸的看法。
王興興認為,具身智能雖然已經(jīng)成為近兩年全球最受關(guān)注的技術(shù)賽道之一,但行業(yè)距離真正跨過“ChatGPT時刻”仍有明顯距離。當前最大的難題在于,還沒有出現(xiàn)一個真正具備強泛化能力、能夠在陌生場景中穩(wěn)定執(zhí)行任務(wù)的具身智能模型。
他預(yù)測這一臨界點最快未來1-2年可實現(xiàn),再長一點,可能是未來2-3年。
王興興強調(diào),運動能力和干活能力必須同步推進,但前者仍然是后者的前提。沒有足夠豐富的動作表達、沒有足夠高的穩(wěn)定性,機器人就很難真正走進工廠、家庭和更多真實場景。
但在他看來,真正制約行業(yè)跨越臨界點的,已經(jīng)不只是單一產(chǎn)品或單項動作表現(xiàn),而是模型層面的系統(tǒng)性能力。王興興提出,要邁過具身智能的“ChatGPT時刻”,行業(yè)至少還要解決三件事:
一是提升模型對任務(wù)和動作的表達能力,突破泛化瓶頸;二是提高對視頻、仿真和真機等多元數(shù)據(jù)的利用效率,減少對大規(guī)模真機采集的依賴;三是讓強化學習形成可復用、可積累的規(guī)模效應(yīng)。
在技術(shù)路線判斷上,他看好世界模型和視頻生成模型,認為這條路線天花板更高,也更有機會利用互聯(lián)網(wǎng)海量視頻和文本數(shù)據(jù)。
王興興覺得,如果未來機器人能夠在80%的陌生場景中,僅通過語言或文字指令完成80%的任務(wù),那才意味著具身智能真正迎來了屬于自己的“ChatGPT時刻”。
以下是王興興演講內(nèi)容的整理(機器人前瞻在不改變原意的前提下,進行了一定程度的增刪修改):
一、二十年后看,G1也依舊是一款經(jīng)典產(chǎn)品
宇樹成立于2016年。更早的時候,我大概從2013年開始做四足機器人;人形機器人其實更早,2009年我還在讀大學的時候,就做過一個小型人形機器人。
這幾年,我們公司陸續(xù)做了好幾款人形機器人。目前比較經(jīng)典的一款,是2024年5月發(fā)布的小尺寸人形機器人G1。某種意義上,它已經(jīng)成為全球范圍內(nèi)非常經(jīng)典的一款機型。很多國內(nèi)外用戶都在使用它,甚至不少別的公司也在研究、借鑒這款機器人的設(shè)計方案。
這款機器人的最大特點,是小巧、緊湊、性價比高。它大概一米三左右,重量幾十千克,腿部和手部的自由度都很高,傳感器配置也比較完整,整機的緊湊度非常高。所以它的易用性、外觀美觀性,在全球范圍內(nèi)都表現(xiàn)得很好。即使再過十年、二十年回頭看,這款機器人也會是很經(jīng)典的一代產(chǎn)品。
去年,我們又發(fā)布了一款中型工業(yè)級機器狗,各項性能指標都很強,可以做室內(nèi)外的巡檢等工作。
同時,我們還發(fā)布了一款身高1.8米的大尺寸人形機器人H1。這款機器人的整機比例做得更好,更像人,靈活度也很好。當然,它的尺寸更大,現(xiàn)階段更適合做一些體力型工作,比如工廠場景、農(nóng)業(yè)場景等。
前段時間,我們還發(fā)布了一款小型機器狗As2。它有基本的防水能力,負載能力也很強,可以承載十幾千克的負重,而且續(xù)航時間比較長。從硬指標來看,這款產(chǎn)品目前在全球也屬于領(lǐng)先水平。我們希望它未來能真正幫助人做一些實際的事情。比如徒步、旅行的時候,大家不需要自己背包裹,有它幫忙,過程會輕松方便很多。
![]()
我們之所以繼續(xù)做更大尺寸的人形機器人,是因為小尺寸機器人在支撐能力、負載能力、手臂力量等方面,天然還是會受到限制。
如果真的要進入工廠、家庭,尤其是做更偏體力型的工作,那么機器人的尺寸、力量和結(jié)構(gòu)都必須更進一步。也正因為如此,大尺寸機器人在能力更強的同時,也會帶來更高的安全要求。
目前,這類大尺寸人形機器人已經(jīng)可以學習和完成一些相對復雜的工程作業(yè)。但因為整機更重,力量也更大,所以近距離接觸時必須保持足夠的安全距離。至少兩到三米會更安全一些,否則被手臂或者腿部碰到,確實是可能受傷的。
二機器人想要大規(guī)模應(yīng)用,穩(wěn)定性必須足夠好
在運動性能方面,我們這些年做了很多工作。
我們的第一款人形機器人,在運動能力上已經(jīng)拿到了很多有代表性的成績。到目前為止,它依然是全球公開場景里跑得非常快的一款機器人。比如長跑1500米,大概能跑到六分多鐘,一般人可能已經(jīng)跟不上它了。當然,短跑方面,現(xiàn)在還沒有那么強,還需要繼續(xù)提升。
除了硬件,我們?nèi)ツ暌沧隽撕芏嘬浖墶1热缱詣踊刂啤⑷我鈩幼飨碌目箾_擊能力、摔倒之后自主起身等。這些技術(shù)都非常有用。
因為我們相信,機器人未來想大規(guī)模應(yīng)用,最重要的一點就是穩(wěn)定性必須足夠好。哪怕出現(xiàn)極端情況,它也要能自己恢復、自己站起來。
從目前來看,我們機器人的算法對硬件的適配能力比較強,所以在不同機型上的泛化表現(xiàn)也相對更好。理論上,現(xiàn)在人可以做的很多動作,機器人其實都已經(jīng)可以嘗試去完成。
當然,一些特別復雜的動作,還是會遇到問題。比如動作里有很大的側(cè)向力,或者地面比較滑,這些都會帶來挑戰(zhàn)。但總體上,我們還是希望不斷把運動能力做到更強。
去年,我們在RL控制模型上做了很多升級,包括基礎(chǔ)跑步、舞蹈動作、武術(shù)動作,以及機器人在任意動作下受到干擾后的快速恢復和穩(wěn)定控制。去年下半年,我們也做了比較完整的全身遙操作。
我覺得,在全身深度強化學習上,很多核心問題其實已經(jīng)基本被解決了,接下來更多是繼續(xù)完善。
三、春晚背后,不是單個動作訓練,而是整套系統(tǒng)能力
今年2月,我們參與的春晚節(jié)目在國內(nèi)外都得到了非常熱烈的反饋。為了做這個節(jié)目,我當時幾乎把能找到的中國傳統(tǒng)功夫動作都梳理了一遍。最初大概找了上百個動作,再從里面篩選出更有表現(xiàn)力、更適合機器人的動作,最后留下了幾十個,包括醉拳、雙截棍、舞棍、舞劍等比較經(jīng)典的內(nèi)容。
同時,我們也挑戰(zhàn)了一些高難度動作。比如原地連續(xù)空翻之類的動作,對電機和腿部的負載壓力都非常大。再比如上墻動作,我們也希望挑戰(zhàn)更高難度,不只是單步,而是做更高、更有視覺沖擊力的動作。
在節(jié)目中的舞棍部分,我們還用到了靈巧手,這樣機器人就能抓握棍子。除此之外,更大尺寸的人形機器人也在分會場做了特別的造型和展示,整體都很有趣,也很有意義。
![]()
在節(jié)目里,我們對機器人稍微進行了一些改裝。
比如把頭部激光雷達換成了128線的3D激光雷達,并調(diào)整了朝向,讓它能夠看到周圍更多的信息。因為激光雷達只看下方或者側(cè)面,在多人、多機密集場景里很容易被遮擋。
另外,,我們使用的是一個預(yù)訓練的全身RL模型,而不是單獨訓練一個RL模型。這樣做的好處是,它的復合能力更強,訓練和調(diào)試更方便,也更利于快速走位、復雜動作組合,以及不同硬件之間的兼容。
簡單來說,我們現(xiàn)在做復雜動作時,理論上可以讓機器人瞬間停下來,停穩(wěn)之后再瞬間切到下一個動作。如果用更早期的技術(shù)路線,很多單動作策略是沒法這樣中途暫停和切換的,一停就可能摔倒。現(xiàn)在可以做到穩(wěn)定停住,再切換動作,這對調(diào)試和組合各種復雜動作幫助非常大。
另外,我們還開發(fā)了全身狀態(tài)感知模型,讓機器人在動作過程中更好地完成感知和決策;同時也做了集群控制系統(tǒng),可以調(diào)動幾十臺、甚至上百臺機器人完成復雜走位和編隊。
四、運動和干活,必須同步推進
我們一直認為,運動能力和干活能力都非常重要,而且必須同步推進。某種意義上,運動能力還是干活能力的前提。
因為機器人要干活,先要滿足幾個條件。第一,它的動作表達必須足夠豐富,能夠做出各種各樣的動作;第二,它在做這些動作的時候必須足夠穩(wěn)定。如果連這兩點都做不到,就很難談?wù)嬲母苫钅芰Α?/p>
這有點像動物。比如螞蟻、老鼠、狗,它們的大腦未必非常發(fā)達,但運動能力照樣很強。所以我覺得,運動智能某種程度上反而是一個相對更容易實現(xiàn)、也是必然要先做好的能力。先把身體能力做出來,再把“大腦”和“干活模型”做得更好,這是必要路徑。
過去幾年,我們也一直在推動機器人干活這件事,但客觀來說,這件事在全球范圍內(nèi)依然都很難。
我們一直希望機器人真正去生產(chǎn)機器人,所以前段時間,我們也在開發(fā)相關(guān)模型,并嘗試把它們用到人形機器人上,讓人形機器人進入工廠,去生產(chǎn)人形機器人。這件事我覺得非常有趣,也有意義。
當然,現(xiàn)階段如果是特別復雜的工位,比如裝配關(guān)節(jié)模組,因為零部件多、工序復雜,它的成功率還不是特別高。但如果是抓取單個零部件,或者一兩個零部件組成的相對簡單動作,在訓練完成后,基本可以做到接近百分之百的成功率。
從全球范圍來看,多工序、長任務(wù)鏈、而且還涉及小零部件的復雜操作,依然是非常有挑戰(zhàn)的事。
另外,我們?nèi)ツ晗掳肽曜龅帽容^好的一項技術(shù),是全身遙操作。這項能力非常實用,尤其適合大規(guī)模數(shù)據(jù)采集。
當然,目前這種遙操作方案在全世界范圍內(nèi)都還有一些共性問題。比如真正動起來以后,動作完成度和真人相比還有差距;在一些復雜動作里,腳會抖,身體也會抖,這會影響整體操作體驗。這些地方還需要繼續(xù)完善。
但從穩(wěn)定性來看,這套方案已經(jīng)做得比較好了。我們公開展示的視頻也沒有加速,都是一比一的真實速度。
五、邁過“ChatGPT時刻”,當前至少有三個關(guān)鍵問題要解決
如果要討論具身智能怎么邁過“ChatGPT時刻”,我覺得首至少有幾個關(guān)鍵問題。
第一,提高模型對任務(wù)的表達能力,突破泛化瓶頸。
現(xiàn)在很多模型,連“表達”本身都還不夠強。它可能只能做一些基礎(chǔ)動作,但如果要讓它做任意動作、實時生成動作,或者更高級、更復雜的動作,模型本身還很難完整表達出來。
如果模型連動作都表達不出來,就更不可能讓它真正高質(zhì)量地執(zhí)行出來。所以,模型的運動表達能力一定要更強。這里面,多模態(tài)模型、感知能力、模型本身的編碼器和解碼器,都還需要繼續(xù)改進。
第二,是提升模型對多元數(shù)據(jù)的利用率。
機器人和語言模型不一樣,機器人數(shù)據(jù)目前仍然很稀缺。在真實機器人數(shù)據(jù)非常少的情況下,如果必須依賴海量真機數(shù)據(jù)才能把模型訓練出來,我覺得這個數(shù)據(jù)利用率還是偏低了。
所以我們應(yīng)該盡可能在預(yù)訓練階段,多使用視頻數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù),先把基礎(chǔ)模型訓練出來,再提高對真實機器人數(shù)據(jù)的利用效率。這樣,真機數(shù)據(jù)可以更少,但系統(tǒng)依然能夠跑起來。
哪怕你真的有一萬臺機器人,也派一萬人去采數(shù)據(jù),最后效果也不一定好。因為這里面還有數(shù)據(jù)質(zhì)量、硬件差異、傳感器差異等很多問題。不是說機器數(shù)量多了,數(shù)據(jù)效果就一定會線性提升。所以我一直覺得,大家需要進一步提高數(shù)據(jù)利用率,盡可能多利用視頻數(shù)據(jù)和仿真數(shù)據(jù),盡可能減少對真機大規(guī)模采集的依賴。
第三,提高強化學習的規(guī)模效應(yīng)。
現(xiàn)在很多情況下,一個機器人的運動策略訓練好了,數(shù)據(jù)就丟掉了。下次做新動作,又要重新訓練。理想狀態(tài)應(yīng)該是把這些數(shù)據(jù)收集起來,重新放進一個統(tǒng)一模型里二次利用,不斷復用、不斷累積,讓強化學習也能出現(xiàn)類似“越訓練越強”的規(guī)模效應(yīng)。如果這件事能做好,強化學習的收益會非常明顯。
七、世界模型視頻生成模型是未來發(fā)展方向
最近幾年,具身智能領(lǐng)域出現(xiàn)了很多路線,比如比較經(jīng)典的VLA模型,也有基于視頻生成的模型、視頻世界模型等。
![]()
我個人認為,未來更有希望的方向,還是世界模型或者基于視頻生成的模型。因為這條路線的天花板更高,甚至某種意義上,大家現(xiàn)在還看不到它的天花板在哪里。
原因也很簡單:如果走這條路線,機器人模型可以更充分地利用互聯(lián)網(wǎng)已有的大規(guī)模視頻數(shù)據(jù)、文本數(shù)據(jù),而不是只依賴自己采集的真機數(shù)據(jù)。它的數(shù)據(jù)基礎(chǔ)天然更大,想象空間也更大。
去年到今年,我們也開源了一個基于視頻生成的世界模型。簡單說,就是機器人先在“想象”里生成未來要做的動作,然后再把這個想象過程和真實機械動作對齊,最后再去執(zhí)行。從展示效果來看,視頻生成部分已經(jīng)做得很好。
當然,這個方向也有明顯難點。最大的問題是:視頻模態(tài)和真機模態(tài)很難完全對齊。在視頻生成里,誤差可能非常小,甚至幾乎為零;但真正落到機器人執(zhí)行時,哪怕只差一毫米,效果都可能完全不一樣。所以未來可能還是要把視頻生成和強化學習結(jié)合起來,才更有機會真正跑通。
我們前段時間也開源了自己的VLA模型和訓練架構(gòu),但就我個人的判斷來看,現(xiàn)階段VLA模型的天花板,相對還是低一些。它確實有價值,但它在很多方面還存在瓶頸,尤其是泛化能力,目前還沒有看到特別理想的結(jié)果。
八80%陌生場景里任務(wù)完成率能達80%,就是具身智能“ChatGPT時刻”
如果未來某一天,在80%左右的陌生場景里,只通過語言或者文字指令,機器人就能完成80%左右的任務(wù),那我覺得,具身智能就真正邁過了它的“ChatGPT時刻”。
這里面最核心的點,是陌生場景。也就是說,你必須把機器人直接帶到一個它從來沒見過、訓練集中也沒出現(xiàn)過的環(huán)境里去,不需要重新訓練,不需要重新采數(shù)據(jù),不需要提前掃描地圖,不需要復雜部署,直接把機器帶過去,它就能開始干活。
從概率上講,AI這件事多少還是帶點運氣成分。也許哪一天,突然有一家公司,或者某個非常厲害的團隊、某個天才,就把這個模型真正做出來了。
但我覺得,無論是誰做出來,這對整個行業(yè)都會是巨大利好。它會真正點燃行業(yè)的熱情,讓具身智能成為一個全球性的、歷史性的時刻。
所以,為了解決剛才提到的這些問題,我覺得最重要的還是全球共同合作。機器人、AI、具身智能,都不是一兩家公司,甚至也不是一個國家就能獨自完成的事。更多時候,它需要全球共同努力。
無論最后是誰率先做成,對整個行業(yè)都是好事。這個行業(yè)本來就是一個新興行業(yè),我一直覺得,大家好,才是真的好。我們也希望有更多人進入這個行業(yè),把東西真正做出來,而且做得更好。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.