網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

具身智能頂流圓桌：VLA難以解決機器人關(guān)鍵瓶頸

2025-06-08 23:25:19　來源: RoboX

北京舉報

分享至

6月6日，2025北京智源大會開幕。在當天以具身智能為主題的圓桌環(huán)節(jié)中，幾家國內(nèi)外知名的機器人企業(yè)代表出席參加，并發(fā)表了對行業(yè)的最新看法。本次圓桌嘉賓包括：

王興興|宇樹科技CEO

熊友軍| 北京人形機器人創(chuàng)新中心總經(jīng)理

王鶴| 北京大學(xué)助理教授、智源具身智能研究中心主任、銀河通用創(chuàng)始人兼CTO

盧策吾| 穹徹智能聯(lián)合創(chuàng)始人、上海交通大學(xué)教授、上海創(chuàng)智學(xué)院副院長

Karol Hausman| Physical Intelligence聯(lián)合創(chuàng)始人兼CEO

主持人：王仲遠| 智源研究院院長

RoboX對他們的鮮明觀點進行了篩選摘要，整理如下：

再談人形載體

王興興：過去幾年，我在一些活動中已公開說過多次，我并不堅持一定要做人形。對于宇樹來說，做機器狗和人形其實都是順理成章的事情。

在下肢層面，輪子、底盤都還是非常實用的。之所以大家現(xiàn)在喜歡用人形，尤其是上半身人形，還是主要因為現(xiàn)在的AI多數(shù)還是基于人的數(shù)據(jù)來進行采集和訓(xùn)練，讓機器人與人體動作保持一致，數(shù)據(jù)采集會方便很多。另外，如果不做成人形，跳舞或者格斗基本都沒辦法做成。

不過，在真正AGI實現(xiàn)后，機器人會產(chǎn)生千奇百怪的形態(tài)，甚至可能比現(xiàn)在要多100倍。

熊友軍：我同意王興興的說法。具身智能的形態(tài)不一定局限于人形，人形只是具身智能里面一個比較好的載體。不過我比較認可人「形機器人應(yīng)該是具身智能研究的最佳載體」，這是從未來市場容量這方面來考慮的。

1、未來機器人最大的市場應(yīng)該是商用服務(wù)場景，包括家庭場景。今天工廠的應(yīng)用場景只是一個開胃小菜。

2、從人機交互來看，人形的交互更自然，更容易被人接受。

3、我們所處的環(huán)境大部分都是為人類設(shè)計的，人形機器人在部署的過程中，適應(yīng)起來是更加便利的。它可以方便地使用我們的工具，不需要做太多改造。

所以從這幾個角度來說，人形機器人應(yīng)該是最好的一種選擇。

我明白大家的顧慮是覺得目前人形的成本和技術(shù)不占優(yōu)勢，但如果放在一條長的時間線上來看的話，我堅持人形一定還會是一個較好的載體。

VLA只是一個起點

王鶴：自動駕駛驗證了一件事情，就是端到端的方案具備更好的擴展性。它能通過數(shù)據(jù)去真正地驅(qū)動模型，而不是靠無窮無盡的規(guī)則。

這條路其實自動駕駛走了很多年，但是現(xiàn)在鋪開的在全國各地都能開的車，其實不是通過模塊化的方案，而是端到端的。

從這個角度上講，VLA的意義在于什么？

VLA可以通過視覺觀測、自然語言下達的命令等信息，端到端地輸出動作，不經(jīng)過任何的中間產(chǎn)物。它能夠真正地充分吸收數(shù)據(jù)背后的知識，發(fā)揮出最大的性能，而不受制于一些模塊化方案中間階段的誤差，以及無窮無盡的規(guī)則兜底等問題。

那么VLA究竟要突破什么？我相信也是有不同的觀點的。有些人認為應(yīng)該把人類能做的一切事情，都快速地做進VLA，然后形成一個基座模型。

我覺得這是有點太著急了：我們?nèi)祟惼鋵嵆艘曈X輸入，還有觸覺、聽覺、嗅覺、味覺，和溫覺。

所以VLA只能是一個起點。

要真想做到人類級別的具身智能，那只能不斷地融合新的模態(tài)。目前最適合做的，就是移動、抓取和放置。這幾個技能基本以視覺為主，末端再加上觸覺或力覺的傳感器，就能夠很好地執(zhí)行。

而且它在工業(yè)、商業(yè)服務(wù)中有非常廣泛的應(yīng)用。如果我們能把這樣的VLA先做好應(yīng)用，在各種場景里都能部署進去，我們就會見證具身智能第一個真正高潮的到來。

盧策吾：V代表理解世界，L溝通交互，A改變世界，這是集合了機器人這幾年要干的事情。

而且這里的L很妙——語言是一種粘合劑，她能通過數(shù)據(jù)將各種高層應(yīng)用連接在一起。

它確實有很好的擴展性，但也存在很大的限制，需要我們?nèi)ネ七M。

我們也會想要星辰大海，走向通用智能，但相比于無人車來說，機器人的任務(wù)和交互復(fù)雜度太高了。所以，如果想做通用，那就得要壓縮它的不確定性。

VLA相當于是火鍋底料，現(xiàn)在只能清湯寡水，服務(wù)一部分人。要想服務(wù)更多人，我們需要不停地在里面加?xùn)|西，也就是更多額外的信息，使得VLA更加powerful，能在兼容的框架里加更多的信息，壓縮不確定性。

在這樣的端對端的模型里，壓縮的方式有很多種。比如穹徹一直在做的力反饋。有了力反饋之后，它的穩(wěn)定性會更高。

另外，在理解世界層面，如果能在視覺基礎(chǔ)上，加深對物理層面的理解，那也可以進一步地壓縮不確定空間。

所以在穹徹第二版的大腦中，又加了很多東西：比如優(yōu)化數(shù)據(jù)資產(chǎn)的方法，以及力反饋帶來的新的試驗?zāi)Ｐ停瑪?shù)據(jù)需求量會大大下降。

我們很期待找到更聰明、更加理解世界的方式，一步一步推進到通用的拐點。

Karol Hausman：我認為目前仍存在一些瓶頸。最大的一個瓶頸就是這些模型的成功率尚未達到必要的水平。這不僅僅是收集數(shù)據(jù)的問題，似乎還需要在算法上進行一些改進。

我認為，即使我們擁有無限量的數(shù)據(jù)，也無法僅憑現(xiàn)有的算法，在復(fù)雜、長期且需要高度靈巧的任務(wù)中實現(xiàn)100%的成功率。

我認為這需要新的技術(shù)，這也是我們正在努力解決的問題。

如果你幾個月前問我這個問題，我會說最大的瓶頸是泛化能力。但基于PI已經(jīng)分享的成果，我相信我們已經(jīng)掌握了如何改進泛化能力的方法。而且我認為，解決泛化能力問題的答案主要來自于數(shù)據(jù)。

然而，當涉及到性能問題時，我認為這更多是一個算法問題，而非數(shù)據(jù)問題。

各企業(yè)的最新進展

王興興：無論是在春晚上的集群表演，還是格斗比賽，我們都希望給大家展示出當前的機器人技術(shù)發(fā)展狀況，也希望帶動整個行業(yè)的發(fā)展。

目前機器人還不能直接去家里或工廠干活，但在實現(xiàn)之前，我們已經(jīng)取得了一些技術(shù)成果，也進行了一些商業(yè)化拓展及嘗試。

我相信類似于機器人格斗的賽事，明年會成為在全球都備受歡迎的體育賽事。

（在現(xiàn)場，參加機器人格斗競技的宇樹G1上臺進行了拳擊表演，擬人度與靈活度極高。）

熊友軍：天工1.0在半程馬拉松比賽上，跑出了2小時40分的成績，被證明是最能跑的機器人。而我們希望天工2.0能做更多的事情，所以重點升級了上肢部分，所以它有更多的自由度，同時加裝了靈巧手，也有了更多的負重能力。

這是一次系統(tǒng)性的更新，包括了4方面平臺能力的升級：

1、硬件平臺：主打草地、沙地、丘陵、石子等各種路形地面的適應(yīng)能力。

2、大腦升級：今年3月，北京人形機器人創(chuàng)新中心發(fā)布了通用的具身智能「慧思開物」平臺，它是一腦多機的平臺，包含了具身智能的大腦和小腦。

3、中心構(gòu)建了大型的數(shù)據(jù)采集和機器人訓(xùn)練中心，包含了20多個場景，方便虛實結(jié)合的數(shù)據(jù)采集。

4、中心構(gòu)建了數(shù)據(jù)采集處理、服務(wù)人才培養(yǎng)的一整套體系，用來升級不斷迭代和升級慧思開物的智能體。

（在現(xiàn)場，熊友軍用語音指令讓天工2.0「準備一些茶點」，后者聽懂指令并選取了幾種食品）

王鶴：今年我們利用VLA技術(shù)，打造了適用性更強的端到端具身大模型，更貼近一般商超貨架的這樣的場景。

該模型能夠?qū)ω浖苌狭宅槤M目的、形態(tài)各異貨品進行識別抓取。

從技術(shù)特點來看，我們不同于PI，訓(xùn)練數(shù)據(jù)主要使用了合成數(shù)據(jù)，而且是價格非常的低廉、能夠擴增的合成數(shù)據(jù)。

（王鶴用一臺輪式底盤的人形機器人進行了演示，他通過語音指令，讓機器人從密集的貨架上，成功取下安慕希酸奶和果粒爽果凍。）

盧策吾：我們?nèi)ツ臧l(fā)布了穹徹具身大腦的V1版本，接下來會在7月發(fā)布V2版本，新版本體現(xiàn)了對于世界物理的理解和交互。

這里我們要強調(diào)力反饋——人類在做很多動作的時候，其實人都是下意識的。

比如刮胡子就是一個很典型的案例，在連續(xù)接觸皮膚的過程中，力氣大一點的話會刮傷皮膚，力氣小一點又會刮不干凈，所以力反饋就是魯棒性極高的、模仿人類的下意識動作的關(guān)鍵技術(shù)。

還有一個案例是挖冰淇淋。它每次抓取時都需要應(yīng)對變化，動作要非常精確。尤其當凍得比較硬的時候，如果不具備力反饋，是挖不出來的。

接下來，將力反饋擴展到生活場景中是非常必要的，比如照顧人時幫忙擦臉、按摩等多種交互。

（盧策吾還演示了刮冰淇淋的人形機器人，并表示該功能已經(jīng)在食品加工行業(yè)批量化落地。）

Karol Hausman：我覺得目前機器人還遠未達到應(yīng)有的水平。我們希望將機器人通用大模型提供給所有人，讓那些正在執(zhí)行實質(zhì)任務(wù)、改變世界的機器人都能從中受益。

在很長一段時間里，我們都認為讓機器人適應(yīng)一個完全陌生的環(huán)境是不可能的。

在此背景下，我們選擇以終極挑戰(zhàn)——家庭環(huán)境作為測試場景。對我們而言，這就是檢驗其泛化能力的最高標準——工廠環(huán)境往往比較相似，但家庭環(huán)境卻并非如此。

在開展這項研究時，我們面臨一個重大問題：機器人需要見識多少種不同的數(shù)據(jù)，才能具備在全新家庭環(huán)境中泛化的能力？結(jié)果發(fā)現(xiàn)，這個數(shù)字其實并不大。

我們發(fā)現(xiàn)，機器人只需見識100個不同的家庭，就能具備在第101個家庭環(huán)境中泛化的能力。

當然，這并不意味著每次都能成功，機器人仍然會經(jīng)常失敗，但我認為這已經(jīng)展現(xiàn)出了非常好的前景——或許我們并不需要那么多的數(shù)據(jù)，機器人也不需要見識數(shù)據(jù)集中如此龐大的多樣性，就能真正具備泛化能力。

我們才剛剛起步，但這已經(jīng)是一個極具希望的跡象，也是我們未曾預(yù)料到的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.