337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

王興興GTC最新演講:邁過具身智能臨界點,還有三道坎

0
分享至


機器人前瞻(公眾號:robot_pro)
作者 許麗思
編輯 漠影

機器人前瞻3月17日報道,剛剛,宇樹科技創(chuàng)始人兼CEO、CTO王興興在GTC2026上,介紹了宇樹科技最近在具身智能方面的關(guān)鍵技術(shù)進展,以及對具身智能在任務(wù)泛化、數(shù)據(jù)效率與強化學習規(guī)模效應(yīng)方面面臨的核心瓶頸的看法。

王興興認為,具身智能雖然已經(jīng)成為近兩年全球最受關(guān)注的技術(shù)賽道之一,但行業(yè)距離真正跨過“ChatGPT時刻”仍有明顯距離。當前最大的難題在于,還沒有出現(xiàn)一個真正具備強泛化能力、能夠在陌生場景中穩(wěn)定執(zhí)行任務(wù)的具身智能模型。

他預(yù)測這一臨界點最快未來1-2年可實現(xiàn),再長一點,可能是未來2-3年。

王興興強調(diào),運動能力和干活能力必須同步推進,但前者仍然是后者的前提。沒有足夠豐富的動作表達、沒有足夠高的穩(wěn)定性,機器人就很難真正走進工廠、家庭和更多真實場景。

但在他看來,真正制約行業(yè)跨越臨界點的,已經(jīng)不只是單一產(chǎn)品或單項動作表現(xiàn),而是模型層面的系統(tǒng)性能力。王興興提出,要邁過具身智能的“ChatGPT時刻”,行業(yè)至少還要解決三件事:

一是提升模型對任務(wù)和動作的表達能力,突破泛化瓶頸;二是提高對視頻、仿真和真機等多元數(shù)據(jù)的利用效率,減少對大規(guī)模真機采集的依賴;三是讓強化學習形成可復用、可積累的規(guī)模效應(yīng)。

在技術(shù)路線判斷上,他看好世界模型和視頻生成模型,認為這條路線天花板更高,也更有機會利用互聯(lián)網(wǎng)海量視頻和文本數(shù)據(jù)。

王興興覺得,如果未來機器人能夠在80%的陌生場景中,僅通過語言或文字指令完成80%的任務(wù),那才意味著具身智能真正迎來了屬于自己的“ChatGPT時刻”。

以下是王興興演講內(nèi)容的整理(機器人前瞻在不改變原意的前提下,進行了一定程度的增刪修改):

一、二十年后看,G1也依舊是一款經(jīng)典產(chǎn)品

宇樹成立于2016年。更早的時候,我大概從2013年開始做四足機器人;人形機器人其實更早,2009年我還在讀大學的時候,就做過一個小型人形機器人。

這幾年,我們公司陸續(xù)做了好幾款人形機器人。目前比較經(jīng)典的一款,是2024年5月發(fā)布的尺寸人形機器人G1。某種意義上,它已經(jīng)成為全球范圍內(nèi)非常經(jīng)典的一款機型。很多國內(nèi)外用戶都在使用它,甚至不少別的公司也在研究、借鑒這款機器人的設(shè)計方案。

這款機器人的最大特點,是小巧、緊湊、性價比高。它大概一米三左右,重量幾十千克,腿部和手部的自由度都很高,傳感器配置也比較完整,整機的緊湊度非常高。所以它的易用性、外觀美觀性,在全球范圍內(nèi)都表現(xiàn)得很好。即使再過十年、二十年回頭看,這款機器人也會是很經(jīng)典的一代產(chǎn)品。

去年,我們又發(fā)布了一款中型工業(yè)級機器狗,各項性能指標都很強,可以做室內(nèi)外的巡檢等工作。

同時,我們還發(fā)布了一款身高1.8米的大尺寸人形機器人H1。這款機器人的整機比例做得更好,更像人,靈活度也很好。當然,它的尺寸更大,現(xiàn)階段更適合做一些體力型工作,比如工廠場景、農(nóng)業(yè)場景等。

前段時間,我們還發(fā)布了一款小型機器狗As2它有基本的防水能力,負載能力也很強,可以承載十幾千克的負重,而且續(xù)航時間比較長。從硬指標來看,這款產(chǎn)品目前在全球也屬于領(lǐng)先水平。我們希望它未來能真正幫助人做一些實際的事情。比如徒步、旅行的時候,大家不需要自己背包裹,有它幫忙,過程會輕松方便很多。


我們之所以繼續(xù)做更大尺寸的人形機器人,是因為小尺寸機器人在支撐能力、負載能力、手臂力量等方面,天然還是會受到限制。

如果真的要進入工廠、家庭,尤其是做更偏體力型的工作,那么機器人的尺寸、力量和結(jié)構(gòu)都必須更進一步。也正因為如此,大尺寸機器人在能力更強的同時,也會帶來更高的安全要求。

目前,這類大尺寸人形機器人已經(jīng)可以學習和完成一些相對復雜的工程作業(yè)。但因為整機更重,力量也更大,所以近距離接觸時必須保持足夠的安全距離。至少兩到三米會更安全一些,否則被手臂或者腿部碰到,確實是可能受傷的。

機器人想要大規(guī)模應(yīng)用,穩(wěn)定性必須足夠好

在運動性能方面,我們這些年做了很多工作。

我們的第一款人形機器人,在運動能力上已經(jīng)拿到了很多有代表性的成績。到目前為止,它依然是全球公開場景里跑得非常快的一款機器人。比如長跑1500米,大概能跑到六分多鐘,一般人可能已經(jīng)跟不上它了。當然,短跑方面,現(xiàn)在還沒有那么強,還需要繼續(xù)提升。

除了硬件,我們?nèi)ツ暌沧隽撕芏嘬浖墶1热缱詣踊刂啤⑷我鈩幼飨碌目箾_擊能力、摔倒之后自主起身等。這些技術(shù)都非常有用。

因為我們相信,機器人未來想大規(guī)模應(yīng)用,最重要的一點就是穩(wěn)定性必須足夠好。哪怕出現(xiàn)極端情況,它也要能自己恢復、自己站起來。

從目前來看,我們機器人的算法對硬件的適配能力比較強,所以在不同機型上的泛化表現(xiàn)也相對更好。理論上,現(xiàn)在人可以做的很多動作,機器人其實都已經(jīng)可以嘗試去完成。

當然,一些特別復雜的動作,還是會遇到問題。比如動作里有很大的側(cè)向力,或者地面比較滑,這些都會帶來挑戰(zhàn)。但總體上,我們還是希望不斷把運動能力做到更強。

去年,我們在RL控制模型上做了很多升級,包括基礎(chǔ)跑步、舞蹈動作、武術(shù)動作,以及機器人在任意動作下受到干擾后的快速恢復和穩(wěn)定控制。去年下半年,我們也做了比較完整的全身遙操作。

我覺得,在全身深度強化學習上,很多核心問題其實已經(jīng)基本被解決了,接下來更多是繼續(xù)完善。

三、春晚背后,不是單個動作訓練,而是整套系統(tǒng)能力

今年2月,我們參與的春晚節(jié)目在國內(nèi)外都得到了非常熱烈的反饋。為了做這個節(jié)目,我當時幾乎把能找到的中國傳統(tǒng)功夫動作都梳理了一遍。最初大概找了上百個動作,再從里面篩選出更有表現(xiàn)力、更適合機器人的動作,最后留下了幾十個,包括醉拳、雙截棍、舞棍、舞劍等比較經(jīng)典的內(nèi)容。

同時,我們也挑戰(zhàn)了一些高難度動作。比如原地連續(xù)空翻之類的動作,對電機和腿部的負載壓力都非常大。再比如上墻動作,我們也希望挑戰(zhàn)更高難度,不只是單步,而是做更高、更有視覺沖擊力的動作。

在節(jié)目中的舞棍部分,我們還用到了靈巧手,這樣機器人就能抓握棍子。除此之外,更大尺寸的人形機器人也在分會場做了特別的造型和展示,整體都很有趣,也很有意義。


在節(jié)目里,我們對機器人稍微進行了一些改裝。

比如把頭部激光雷達換成了128線的3D激光雷達,并調(diào)整了朝向,讓它能夠看到周圍更多的信息。因為激光雷達只看下方或者側(cè)面,在多人、多機密集場景里很容易被遮擋。

另外,,我們使用的是一個預(yù)訓練的全身RL模型,而不是單獨訓練一個RL模型。這樣做的好處是,它的復合能力更強,訓練和調(diào)試更方便,也更利于快速走位、復雜動作組合,以及不同硬件之間的兼容。

簡單來說,我們現(xiàn)在做復雜動作時,理論上可以讓機器人瞬間停下來,停穩(wěn)之后再瞬間切到下一個動作。如果用更早期的技術(shù)路線,很多單動作策略是沒法這樣中途暫停和切換的,一停就可能摔倒。現(xiàn)在可以做到穩(wěn)定停住,再切換動作,這對調(diào)試和組合各種復雜動作幫助非常大。

另外,我們還開發(fā)了全身狀態(tài)感知模型,讓機器人在動作過程中更好地完成感知和決策;同時也做了集群控制系統(tǒng),可以調(diào)動幾十臺、甚至上百臺機器人完成復雜走位和編隊。

、運動和干活,必須同步推進

我們一直認為,運動能力和干活能力都非常重要,而且必須同步推進。某種意義上,運動能力還是干活能力的前提。

因為機器人要干活,先要滿足幾個條件。第一,它的動作表達必須足夠豐富,能夠做出各種各樣的動作;第二,它在做這些動作的時候必須足夠穩(wěn)定。如果連這兩點都做不到,就很難談?wù)嬲母苫钅芰Α?/p>

這有點像動物。比如螞蟻、老鼠、狗,它們的大腦未必非常發(fā)達,但運動能力照樣很強。所以我覺得,運動智能某種程度上反而是一個相對更容易實現(xiàn)、也是必然要先做好的能力。先把身體能力做出來,再把“大腦”和“干活模型”做得更好,這是必要路徑。

過去幾年,我們也一直在推動機器人干活這件事,但客觀來說,這件事在全球范圍內(nèi)依然都很難。

我們一直希望機器人真正去生產(chǎn)機器人,所以前段時間,我們也在開發(fā)相關(guān)模型,并嘗試把它們用到人形機器人上,讓人形機器人進入工廠,去生產(chǎn)人形機器人。這件事我覺得非常有趣,也有意義。

當然,現(xiàn)階段如果是特別復雜的工位,比如裝配關(guān)節(jié)模組,因為零部件多、工序復雜,它的成功率還不是特別高。但如果是抓取單個零部件,或者一兩個零部件組成的相對簡單動作,在訓練完成后,基本可以做到接近百分之百的成功率。

從全球范圍來看,多工序、長任務(wù)鏈、而且還涉及小零部件的復雜操作,依然是非常有挑戰(zhàn)的事。

另外,我們?nèi)ツ晗掳肽曜龅帽容^好的一項技術(shù),是全身遙操作。這項能力非常實用,尤其適合大規(guī)模數(shù)據(jù)采集。

當然,目前這種遙操作方案在全世界范圍內(nèi)都還有一些共性問題。比如真正動起來以后,動作完成度和真人相比還有差距;在一些復雜動作里,腳會抖,身體也會抖,這會影響整體操作體驗。這些地方還需要繼續(xù)完善。

但從穩(wěn)定性來看,這套方案已經(jīng)做得比較好了。我們公開展示的視頻也沒有加速,都是一比一的真實速度。

五、邁過“ChatGPT時刻”,當前至少有三個關(guān)鍵問題要解決

如果要討論具身智能怎么邁過“ChatGPT時刻”,我覺得首至少有幾個關(guān)鍵問題。

第一,提高模型對任務(wù)的表達能力,突破泛化瓶頸。

現(xiàn)在很多模型,連“表達”本身都還不夠強。它可能只能做一些基礎(chǔ)動作,但如果要讓它做任意動作、實時生成動作,或者更高級、更復雜的動作,模型本身還很難完整表達出來。

如果模型連動作都表達不出來,就更不可能讓它真正高質(zhì)量地執(zhí)行出來。所以,模型的運動表達能力一定要更強。這里面,多模態(tài)模型、感知能力、模型本身的編碼器和解碼器,都還需要繼續(xù)改進。

第二,是提升模型對多元數(shù)據(jù)的利用率。

機器人和語言模型不一樣,機器人數(shù)據(jù)目前仍然很稀缺。在真實機器人數(shù)據(jù)非常少的情況下,如果必須依賴海量真機數(shù)據(jù)才能把模型訓練出來,我覺得這個數(shù)據(jù)利用率還是偏低了。

所以我們應(yīng)該盡可能在預(yù)訓練階段,多使用視頻數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù),先把基礎(chǔ)模型訓練出來,再提高對真實機器人數(shù)據(jù)的利用效率。這樣,真機數(shù)據(jù)可以更少,但系統(tǒng)依然能夠跑起來。

哪怕你真的有一萬臺機器人,也派一萬人去采數(shù)據(jù),最后效果也不一定好。因為這里面還有數(shù)據(jù)質(zhì)量、硬件差異、傳感器差異等很多問題。不是說機器數(shù)量多了,數(shù)據(jù)效果就一定會線性提升。所以我一直覺得,大家需要進一步提高數(shù)據(jù)利用率,盡可能多利用視頻數(shù)據(jù)和仿真數(shù)據(jù),盡可能減少對真機大規(guī)模采集的依賴。

第三,提高強化學習的規(guī)模效應(yīng)。

現(xiàn)在很多情況下,一個機器人的運動策略訓練好了,數(shù)據(jù)就丟掉了。下次做新動作,又要重新訓練。理想狀態(tài)應(yīng)該是把這些數(shù)據(jù)收集起來,重新放進一個統(tǒng)一模型里二次利用,不斷復用、不斷累積,讓強化學習也能出現(xiàn)類似“越訓練越強”的規(guī)模效應(yīng)。如果這件事能做好,強化學習的收益會非常明顯。

、世界模型視頻生成模型是未來發(fā)展方向

最近幾年,具身智能領(lǐng)域出現(xiàn)了很多路線,比如比較經(jīng)典的VLA模型,也有基于視頻生成的模型、視頻世界模型等。


我個人認為,未來更有希望的方向,還是世界模型或者基于視頻生成的模型。因為這條路線的天花板更高,甚至某種意義上,大家現(xiàn)在還看不到它的天花板在哪里。

原因也很簡單:如果走這條路線,機器人模型可以更充分地利用互聯(lián)網(wǎng)已有的大規(guī)模視頻數(shù)據(jù)、文本數(shù)據(jù),而不是只依賴自己采集的真機數(shù)據(jù)。它的數(shù)據(jù)基礎(chǔ)天然更大,想象空間也更大。

去年到今年,我們也開源了一個基于視頻生成的世界模型。簡單說,就是機器人先在“想象”里生成未來要做的動作,然后再把這個想象過程和真實機械動作對齊,最后再去執(zhí)行。從展示效果來看,視頻生成部分已經(jīng)做得很好。

當然,這個方向也有明顯難點。最大的問題是:視頻模態(tài)和真機模態(tài)很難完全對齊。在視頻生成里,誤差可能非常小,甚至幾乎為零;但真正落到機器人執(zhí)行時,哪怕只差一毫米,效果都可能完全不一樣。所以未來可能還是要把視頻生成和強化學習結(jié)合起來,才更有機會真正跑通。

我們前段時間也開源了自己的VLA模型和訓練架構(gòu),但就我個人的判斷來看,現(xiàn)階段VLA模型的天花板,相對還是低一些。它確實有價值,但它在很多方面還存在瓶頸,尤其是泛化能力,目前還沒有看到特別理想的結(jié)果。

80%陌生場景里任務(wù)完成率能達80%,就是具身智能“ChatGPT時刻”

如果未來某一天,在80%左右的陌生場景里,只通過語言或者文字指令,機器人就能完成80%左右的任務(wù),那我覺得,具身智能就真正邁過了它的“ChatGPT時刻”。

這里面最核心的點,是陌生場景。也就是說,你必須把機器人直接帶到一個它從來沒見過、訓練集中也沒出現(xiàn)過的環(huán)境里去,不需要重新訓練,不需要重新采數(shù)據(jù),不需要提前掃描地圖,不需要復雜部署,直接把機器帶過去,它就能開始干活。

從概率上講,AI這件事多少還是帶點運氣成分。也許哪一天,突然有一家公司,或者某個非常厲害的團隊、某個天才,就把這個模型真正做出來了。

但我覺得,無論是誰做出來,這對整個行業(yè)都會是巨大利好。它會真正點燃行業(yè)的熱情,讓具身智能成為一個全球性的、歷史性的時刻。

所以,為了解決剛才提到的這些問題,我覺得最重要的還是全球共同合作。機器人、AI、具身智能,都不是一兩家公司,甚至也不是一個國家就能獨自完成的事。更多時候,它需要全球共同努力。

無論最后是誰率先做成,對整個行業(yè)都是好事。這個行業(yè)本來就是一個新興行業(yè),我一直覺得,大家好,才是真的好。我們也希望有更多人進入這個行業(yè),把東西真正做出來,而且做得更好。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結(jié)束了生命

浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結(jié)束了生命

老貓觀點
2026-04-02 13:02:45
山西一小吃店3人死亡,知情人:店鋪剛接手沒幾天,店主夫婦和小姨子凌晨加工“碗禿”時遇難,原計劃天亮后開展免費試吃活動慶祝新店開張

山西一小吃店3人死亡,知情人:店鋪剛接手沒幾天,店主夫婦和小姨子凌晨加工“碗禿”時遇難,原計劃天亮后開展免費試吃活動慶祝新店開張

揚子晚報
2026-04-03 07:31:50
900頁心血變廢紙!巴喬當年怒炒意大利足協(xié) 注定了意大利足球落寞

900頁心血變廢紙!巴喬當年怒炒意大利足協(xié) 注定了意大利足球落寞

仰臥撐FTUer
2026-04-03 05:30:14
退休人員也要繳費了!4月起執(zhí)行,每月扣多少、誰能免,一次說清

退休人員也要繳費了!4月起執(zhí)行,每月扣多少、誰能免,一次說清

閱微札記
2026-04-02 22:22:41
中國“房爺”涉嫌用非法資金在英國購7億房產(chǎn),疑似身份曝光!

中國“房爺”涉嫌用非法資金在英國購7億房產(chǎn),疑似身份曝光!

兵叔評說
2026-04-02 17:55:25
薅羊毛失敗!50萬婚紗費砸手里了,70名女子“嫁給自己”荒唐收場

薅羊毛失敗!50萬婚紗費砸手里了,70名女子“嫁給自己”荒唐收場

火山詩話
2026-04-02 06:26:48
蔣正全、拉齊尼、欒留偉、胡友平、李靜毅等,最后畫面公開

蔣正全、拉齊尼、欒留偉、胡友平、李靜毅等,最后畫面公開

環(huán)球網(wǎng)資訊
2026-04-02 15:05:50
美軍傷亡最新數(shù)據(jù)曝光!美防長:陸軍參謀長立即辭職

美軍傷亡最新數(shù)據(jù)曝光!美防長:陸軍參謀長立即辭職

大國之翼
2026-04-03 06:38:48
戰(zhàn)事未了美先言勝遭市場“打臉” 伊朗再發(fā)地面戰(zhàn)警告:絕不留活口

戰(zhàn)事未了美先言勝遭市場“打臉” 伊朗再發(fā)地面戰(zhàn)警告:絕不留活口

環(huán)球網(wǎng)資訊
2026-04-03 08:10:11
650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

復轉(zhuǎn)這些年
2026-04-01 09:06:39
伊朗稱擊中敵軍先進戰(zhàn)機

伊朗稱擊中敵軍先進戰(zhàn)機

財聯(lián)社
2026-04-03 03:56:29
勒布朗·詹姆斯:如果灰熊隊贏得2003年選秀狀元簽,他會選擇罷賽

勒布朗·詹姆斯:如果灰熊隊贏得2003年選秀狀元簽,他會選擇罷賽

好火子
2026-04-03 03:24:53
美軍對伊地面行動五大方案曝光 專家:最可能雙線并進

美軍對伊地面行動五大方案曝光 專家:最可能雙線并進

瑯琊閣梅莊主
2026-04-02 18:28:34
為啥中國人糖尿病世界第一?

為啥中國人糖尿病世界第一?

瑪麗姬絲
2026-04-02 19:59:11
留給美國時間不多了,伊朗戰(zhàn)爭打完后,世界就只剩一個超級大國了

留給美國時間不多了,伊朗戰(zhàn)爭打完后,世界就只剩一個超級大國了

觸摸史跡
2026-04-02 14:39:03
他賣了40%的“澳洲優(yōu)思益”,共計10萬單,憑什么央視要對他追責?別呀,他還只是個孩子。

他賣了40%的“澳洲優(yōu)思益”,共計10萬單,憑什么央視要對他追責?別呀,他還只是個孩子。

問道求真
2026-04-02 08:03:53
上海中山醫(yī)院心內(nèi)科爆棚?回應(yīng):服務(wù)患者普通號常年不限號,近期換季再迎高峰

上海中山醫(yī)院心內(nèi)科爆棚?回應(yīng):服務(wù)患者普通號常年不限號,近期換季再迎高峰

上觀新聞
2026-04-02 20:49:03
張雨綺直播帶貨情緒失控,怒懟拖延付款消費者:好說不聽,歹說不聽,都給你試用七天了

張雨綺直播帶貨情緒失控,怒懟拖延付款消費者:好說不聽,歹說不聽,都給你試用七天了

洪觀新聞
2026-04-02 09:58:46
打響抵制美食博主第一槍!成都一火鍋店張貼告示,表示一律不接待

打響抵制美食博主第一槍!成都一火鍋店張貼告示,表示一律不接待

火山詩話
2026-04-03 07:16:51
俄軍高級將領(lǐng)墜機身亡,6名總部軍官同時遇難

俄軍高級將領(lǐng)墜機身亡,6名總部軍官同時遇難

桂系007
2026-04-02 23:42:01
2026-04-03 09:27:00
機器人前瞻
機器人前瞻
專注于機器人報道的媒體
451文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

戰(zhàn)火燒向科技公司!亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經(jīng)要聞

全球石油危機或?qū)⒙?/h3>

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車QQ3 EV

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
親子
本地
公開課

數(shù)碼要聞

華為Mate X8折疊屏:8.15英寸巨幕+麒麟9040,最強折疊屏要來了

房產(chǎn)要聞

巨無霸來了!海口城更,突然又爆大動作!

親子要聞

洗頭的舒適區(qū),讓爸爸想出更多帶娃創(chuàng)意

本地新聞

從學徒到世界冠軍,為什么說張雪的底氣在重慶?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版