王興興GTC最新演講：邁過具身智能臨界點，還有三道坎

2026-03-17 17:13:06　來源: 機器人前瞻

北京舉報

分享至

機器人前瞻（公眾號：robot_pro）
作者許麗思
編輯漠影

機器人前瞻3月17日報道，剛剛，宇樹科技創(chuàng)始人兼CEO、CTO王興興在GTC2026上，介紹了宇樹科技最近在具身智能方面的關(guān)鍵技術(shù)進展，以及對具身智能在任務(wù)泛化、數(shù)據(jù)效率與強化學習規(guī)模效應(yīng)方面面臨的核心瓶頸的看法。

王興興認為，具身智能雖然已經(jīng)成為近兩年全球最受關(guān)注的技術(shù)賽道之一，但行業(yè)距離真正跨過“ChatGPT時刻”仍有明顯距離。當前最大的難題在于，還沒有出現(xiàn)一個真正具備強泛化能力、能夠在陌生場景中穩(wěn)定執(zhí)行任務(wù)的具身智能模型。

他預(yù)測這一臨界點最快未來1-2年可實現(xiàn)，再長一點，可能是未來2-3年。

王興興強調(diào)，運動能力和干活能力必須同步推進，但前者仍然是后者的前提。沒有足夠豐富的動作表達、沒有足夠高的穩(wěn)定性，機器人就很難真正走進工廠、家庭和更多真實場景。

但在他看來，真正制約行業(yè)跨越臨界點的，已經(jīng)不只是單一產(chǎn)品或單項動作表現(xiàn)，而是模型層面的系統(tǒng)性能力。王興興提出，要邁過具身智能的“ChatGPT時刻”，行業(yè)至少還要解決三件事：

一是提升模型對任務(wù)和動作的表達能力，突破泛化瓶頸；二是提高對視頻、仿真和真機等多元數(shù)據(jù)的利用效率，減少對大規(guī)模真機采集的依賴；三是讓強化學習形成可復用、可積累的規(guī)模效應(yīng)。

在技術(shù)路線判斷上，他看好世界模型和視頻生成模型，認為這條路線天花板更高，也更有機會利用互聯(lián)網(wǎng)海量視頻和文本數(shù)據(jù)。

王興興覺得，如果未來機器人能夠在80%的陌生場景中，僅通過語言或文字指令完成80%的任務(wù)，那才意味著具身智能真正迎來了屬于自己的“ChatGPT時刻”。

以下是王興興演講內(nèi)容的整理（機器人前瞻在不改變原意的前提下，進行了一定程度的增刪修改）：

一、二十年后看，G1也依舊是一款經(jīng)典產(chǎn)品

宇樹成立于2016年。更早的時候，我大概從2013年開始做四足機器人；人形機器人其實更早，2009年我還在讀大學的時候，就做過一個小型人形機器人。

這幾年，我們公司陸續(xù)做了好幾款人形機器人。目前比較經(jīng)典的一款，是2024年5月發(fā)布的小尺寸人形機器人G1。某種意義上，它已經(jīng)成為全球范圍內(nèi)非常經(jīng)典的一款機型。很多國內(nèi)外用戶都在使用它，甚至不少別的公司也在研究、借鑒這款機器人的設(shè)計方案。

這款機器人的最大特點，是小巧、緊湊、性價比高。它大概一米三左右，重量幾十千克，腿部和手部的自由度都很高，傳感器配置也比較完整，整機的緊湊度非常高。所以它的易用性、外觀美觀性，在全球范圍內(nèi)都表現(xiàn)得很好。即使再過十年、二十年回頭看，這款機器人也會是很經(jīng)典的一代產(chǎn)品。

去年，我們又發(fā)布了一款中型工業(yè)級機器狗，各項性能指標都很強，可以做室內(nèi)外的巡檢等工作。

同時，我們還發(fā)布了一款身高1.8米的大尺寸人形機器人H1。這款機器人的整機比例做得更好，更像人，靈活度也很好。當然，它的尺寸更大，現(xiàn)階段更適合做一些體力型工作，比如工廠場景、農(nóng)業(yè)場景等。

前段時間，我們還發(fā)布了一款小型機器狗As2。它有基本的防水能力，負載能力也很強，可以承載十幾千克的負重，而且續(xù)航時間比較長。從硬指標來看，這款產(chǎn)品目前在全球也屬于領(lǐng)先水平。我們希望它未來能真正幫助人做一些實際的事情。比如徒步、旅行的時候，大家不需要自己背包裹，有它幫忙，過程會輕松方便很多。

我們之所以繼續(xù)做更大尺寸的人形機器人，是因為小尺寸機器人在支撐能力、負載能力、手臂力量等方面，天然還是會受到限制。

如果真的要進入工廠、家庭，尤其是做更偏體力型的工作，那么機器人的尺寸、力量和結(jié)構(gòu)都必須更進一步。也正因為如此，大尺寸機器人在能力更強的同時，也會帶來更高的安全要求。

目前，這類大尺寸人形機器人已經(jīng)可以學習和完成一些相對復雜的工程作業(yè)。但因為整機更重，力量也更大，所以近距離接觸時必須保持足夠的安全距離。至少兩到三米會更安全一些，否則被手臂或者腿部碰到，確實是可能受傷的。

二機器人想要大規(guī)模應(yīng)用，穩(wěn)定性必須足夠好

在運動性能方面，我們這些年做了很多工作。

我們的第一款人形機器人，在運動能力上已經(jīng)拿到了很多有代表性的成績。到目前為止，它依然是全球公開場景里跑得非常快的一款機器人。比如長跑1500米，大概能跑到六分多鐘，一般人可能已經(jīng)跟不上它了。當然，短跑方面，現(xiàn)在還沒有那么強，還需要繼續(xù)提升。

除了硬件，我們?nèi)ツ暌沧隽撕芏嘬浖墶１热缱詣踊刂啤⑷我鈩幼飨碌目箾_擊能力、摔倒之后自主起身等。這些技術(shù)都非常有用。

因為我們相信，機器人未來想大規(guī)模應(yīng)用，最重要的一點就是穩(wěn)定性必須足夠好。哪怕出現(xiàn)極端情況，它也要能自己恢復、自己站起來。

從目前來看，我們機器人的算法對硬件的適配能力比較強，所以在不同機型上的泛化表現(xiàn)也相對更好。理論上，現(xiàn)在人可以做的很多動作，機器人其實都已經(jīng)可以嘗試去完成。

當然，一些特別復雜的動作，還是會遇到問題。比如動作里有很大的側(cè)向力，或者地面比較滑，這些都會帶來挑戰(zhàn)。但總體上，我們還是希望不斷把運動能力做到更強。

去年，我們在RL控制模型上做了很多升級，包括基礎(chǔ)跑步、舞蹈動作、武術(shù)動作，以及機器人在任意動作下受到干擾后的快速恢復和穩(wěn)定控制。去年下半年，我們也做了比較完整的全身遙操作。

我覺得，在全身深度強化學習上，很多核心問題其實已經(jīng)基本被解決了，接下來更多是繼續(xù)完善。

三、春晚背后，不是單個動作訓練，而是整套系統(tǒng)能力

今年2月，我們參與的春晚節(jié)目在國內(nèi)外都得到了非常熱烈的反饋。為了做這個節(jié)目，我當時幾乎把能找到的中國傳統(tǒng)功夫動作都梳理了一遍。最初大概找了上百個動作，再從里面篩選出更有表現(xiàn)力、更適合機器人的動作，最后留下了幾十個，包括醉拳、雙截棍、舞棍、舞劍等比較經(jīng)典的內(nèi)容。

同時，我們也挑戰(zhàn)了一些高難度動作。比如原地連續(xù)空翻之類的動作，對電機和腿部的負載壓力都非常大。再比如上墻動作，我們也希望挑戰(zhàn)更高難度，不只是單步，而是做更高、更有視覺沖擊力的動作。

在節(jié)目中的舞棍部分，我們還用到了靈巧手，這樣機器人就能抓握棍子。除此之外，更大尺寸的人形機器人也在分會場做了特別的造型和展示，整體都很有趣，也很有意義。

在節(jié)目里，我們對機器人稍微進行了一些改裝。

比如把頭部激光雷達換成了128線的3D激光雷達，并調(diào)整了朝向，讓它能夠看到周圍更多的信息。因為激光雷達只看下方或者側(cè)面，在多人、多機密集場景里很容易被遮擋。

另外，，我們使用的是一個預(yù)訓練的全身RL模型，而不是單獨訓練一個RL模型。這樣做的好處是，它的復合能力更強，訓練和調(diào)試更方便，也更利于快速走位、復雜動作組合，以及不同硬件之間的兼容。

簡單來說，我們現(xiàn)在做復雜動作時，理論上可以讓機器人瞬間停下來，停穩(wěn)之后再瞬間切到下一個動作。如果用更早期的技術(shù)路線，很多單動作策略是沒法這樣中途暫停和切換的，一停就可能摔倒。現(xiàn)在可以做到穩(wěn)定停住，再切換動作，這對調(diào)試和組合各種復雜動作幫助非常大。

另外，我們還開發(fā)了全身狀態(tài)感知模型，讓機器人在動作過程中更好地完成感知和決策；同時也做了集群控制系統(tǒng)，可以調(diào)動幾十臺、甚至上百臺機器人完成復雜走位和編隊。

四、運動和干活，必須同步推進

我們一直認為，運動能力和干活能力都非常重要，而且必須同步推進。某種意義上，運動能力還是干活能力的前提。

因為機器人要干活，先要滿足幾個條件。第一，它的動作表達必須足夠豐富，能夠做出各種各樣的動作；第二，它在做這些動作的時候必須足夠穩(wěn)定。如果連這兩點都做不到，就很難談?wù)嬲母苫钅芰Α?/p>

這有點像動物。比如螞蟻、老鼠、狗，它們的大腦未必非常發(fā)達，但運動能力照樣很強。所以我覺得，運動智能某種程度上反而是一個相對更容易實現(xiàn)、也是必然要先做好的能力。先把身體能力做出來，再把“大腦”和“干活模型”做得更好，這是必要路徑。

過去幾年，我們也一直在推動機器人干活這件事，但客觀來說，這件事在全球范圍內(nèi)依然都很難。

我們一直希望機器人真正去生產(chǎn)機器人，所以前段時間，我們也在開發(fā)相關(guān)模型，并嘗試把它們用到人形機器人上，讓人形機器人進入工廠，去生產(chǎn)人形機器人。這件事我覺得非常有趣，也有意義。

當然，現(xiàn)階段如果是特別復雜的工位，比如裝配關(guān)節(jié)模組，因為零部件多、工序復雜，它的成功率還不是特別高。但如果是抓取單個零部件，或者一兩個零部件組成的相對簡單動作，在訓練完成后，基本可以做到接近百分之百的成功率。

從全球范圍來看，多工序、長任務(wù)鏈、而且還涉及小零部件的復雜操作，依然是非常有挑戰(zhàn)的事。

另外，我們?nèi)ツ晗掳肽曜龅帽容^好的一項技術(shù)，是全身遙操作。這項能力非常實用，尤其適合大規(guī)模數(shù)據(jù)采集。

當然，目前這種遙操作方案在全世界范圍內(nèi)都還有一些共性問題。比如真正動起來以后，動作完成度和真人相比還有差距；在一些復雜動作里，腳會抖，身體也會抖，這會影響整體操作體驗。這些地方還需要繼續(xù)完善。

但從穩(wěn)定性來看，這套方案已經(jīng)做得比較好了。我們公開展示的視頻也沒有加速，都是一比一的真實速度。

五、邁過“ChatGPT時刻”，當前至少有三個關(guān)鍵問題要解決

如果要討論具身智能怎么邁過“ChatGPT時刻”，我覺得首至少有幾個關(guān)鍵問題。

第一，提高模型對任務(wù)的表達能力，突破泛化瓶頸。

現(xiàn)在很多模型，連“表達”本身都還不夠強。它可能只能做一些基礎(chǔ)動作，但如果要讓它做任意動作、實時生成動作，或者更高級、更復雜的動作，模型本身還很難完整表達出來。

如果模型連動作都表達不出來，就更不可能讓它真正高質(zhì)量地執(zhí)行出來。所以，模型的運動表達能力一定要更強。這里面，多模態(tài)模型、感知能力、模型本身的編碼器和解碼器，都還需要繼續(xù)改進。

第二，是提升模型對多元數(shù)據(jù)的利用率。

機器人和語言模型不一樣，機器人數(shù)據(jù)目前仍然很稀缺。在真實機器人數(shù)據(jù)非常少的情況下，如果必須依賴海量真機數(shù)據(jù)才能把模型訓練出來，我覺得這個數(shù)據(jù)利用率還是偏低了。

所以我們應(yīng)該盡可能在預(yù)訓練階段，多使用視頻數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù)，先把基礎(chǔ)模型訓練出來，再提高對真實機器人數(shù)據(jù)的利用效率。這樣，真機數(shù)據(jù)可以更少，但系統(tǒng)依然能夠跑起來。

哪怕你真的有一萬臺機器人，也派一萬人去采數(shù)據(jù)，最后效果也不一定好。因為這里面還有數(shù)據(jù)質(zhì)量、硬件差異、傳感器差異等很多問題。不是說機器數(shù)量多了，數(shù)據(jù)效果就一定會線性提升。所以我一直覺得，大家需要進一步提高數(shù)據(jù)利用率，盡可能多利用視頻數(shù)據(jù)和仿真數(shù)據(jù)，盡可能減少對真機大規(guī)模采集的依賴。

第三，提高強化學習的規(guī)模效應(yīng)。

現(xiàn)在很多情況下，一個機器人的運動策略訓練好了，數(shù)據(jù)就丟掉了。下次做新動作，又要重新訓練。理想狀態(tài)應(yīng)該是把這些數(shù)據(jù)收集起來，重新放進一個統(tǒng)一模型里二次利用，不斷復用、不斷累積，讓強化學習也能出現(xiàn)類似“越訓練越強”的規(guī)模效應(yīng)。如果這件事能做好，強化學習的收益會非常明顯。

七、世界模型視頻生成模型是未來發(fā)展方向

最近幾年，具身智能領(lǐng)域出現(xiàn)了很多路線，比如比較經(jīng)典的VLA模型，也有基于視頻生成的模型、視頻世界模型等。

我個人認為，未來更有希望的方向，還是世界模型或者基于視頻生成的模型。因為這條路線的天花板更高，甚至某種意義上，大家現(xiàn)在還看不到它的天花板在哪里。

原因也很簡單：如果走這條路線，機器人模型可以更充分地利用互聯(lián)網(wǎng)已有的大規(guī)模視頻數(shù)據(jù)、文本數(shù)據(jù)，而不是只依賴自己采集的真機數(shù)據(jù)。它的數(shù)據(jù)基礎(chǔ)天然更大，想象空間也更大。

去年到今年，我們也開源了一個基于視頻生成的世界模型。簡單說，就是機器人先在“想象”里生成未來要做的動作，然后再把這個想象過程和真實機械動作對齊，最后再去執(zhí)行。從展示效果來看，視頻生成部分已經(jīng)做得很好。

當然，這個方向也有明顯難點。最大的問題是：視頻模態(tài)和真機模態(tài)很難完全對齊。在視頻生成里，誤差可能非常小，甚至幾乎為零；但真正落到機器人執(zhí)行時，哪怕只差一毫米，效果都可能完全不一樣。所以未來可能還是要把視頻生成和強化學習結(jié)合起來，才更有機會真正跑通。

我們前段時間也開源了自己的VLA模型和訓練架構(gòu)，但就我個人的判斷來看，現(xiàn)階段VLA模型的天花板，相對還是低一些。它確實有價值，但它在很多方面還存在瓶頸，尤其是泛化能力，目前還沒有看到特別理想的結(jié)果。

八80%陌生場景里任務(wù)完成率能達80%，就是具身智能“ChatGPT時刻”

如果未來某一天，在80%左右的陌生場景里，只通過語言或者文字指令，機器人就能完成80%左右的任務(wù)，那我覺得，具身智能就真正邁過了它的“ChatGPT時刻”。

這里面最核心的點，是陌生場景。也就是說，你必須把機器人直接帶到一個它從來沒見過、訓練集中也沒出現(xiàn)過的環(huán)境里去，不需要重新訓練，不需要重新采數(shù)據(jù)，不需要提前掃描地圖，不需要復雜部署，直接把機器帶過去，它就能開始干活。

從概率上講，AI這件事多少還是帶點運氣成分。也許哪一天，突然有一家公司，或者某個非常厲害的團隊、某個天才，就把這個模型真正做出來了。

但我覺得，無論是誰做出來，這對整個行業(yè)都會是巨大利好。它會真正點燃行業(yè)的熱情，讓具身智能成為一個全球性的、歷史性的時刻。

所以，為了解決剛才提到的這些問題，我覺得最重要的還是全球共同合作。機器人、AI、具身智能，都不是一兩家公司，甚至也不是一個國家就能獨自完成的事。更多時候，它需要全球共同努力。

無論最后是誰率先做成，對整個行業(yè)都是好事。這個行業(yè)本來就是一個新興行業(yè)，我一直覺得，大家好，才是真的好。我們也希望有更多人進入這個行業(yè)，把東西真正做出來，而且做得更好。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.