337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

銀河通用王鶴:VLA相當于機器人的「義務教育」

0
分享至

在近日的北京智源大會上,北京大學助理教授、北京銀河通用機器人創始人兼CTO-王鶴,在備受關注的「具身智能與人形機器人」論壇上發表了演講,詳細介紹了VLA對于機器人智能發展的作用,以及銀河通用目前所做的工作。

RoboX對其演講內容進行了整理提煉,供大家參考。



簡述VLA

通用機器人的本質,是通過具身智能驅動高自由度的仿人本體。它不能只做某一件具體的事情,而是要服務千行百業,千家萬戶。

面對這樣的目標,王鶴認為,VLA(Vision-Language-Action Model)的應用是一個重要轉折點。

他介紹稱,VLA的輸入是人類的自然語言指令,這也是實現通用的一個關鍵點,比過去的復雜指令更加通用。

另一個重要的模態是視覺:視覺占到了人類日常信息輸入量的80%以上。所以要想實現通用機器人,先納入視覺模態是非常重要的。

模型的輸出是Action。在谷歌的RT-2框架中,模型直接生成Everyday Robot末端執行器的瞬時三維平動和三維旋轉。該動作指令可通過逆運動學(IK)求解器轉換為關節空間的目標位姿,最終由PID/PD控制器驅動執行機構完成運動控制。



王鶴表示,如果類比人體的運動控制及腦部系統,VLA用于實時生成軌跡,控制則交由機械臂,做IK后再基于positional(位置信息)執行。所以VLA不是「小腦」,更多的是「大腦」。

今天的VLA強調快速的閉環反饋,它的頻率從剛開始的3赫茲,到現在最快可達50赫茲甚至更高的反饋頻率,這就是大腦中的快系統。而一些邏輯推理和長程規劃的東西,它會思考得更慢。

為何不能押寶真實數據?

目前,國際上訓練VLA最主流的方式,是通過真機采集大量的遙操作數據,例如特斯拉的遙操工廠、斯坦福大學的ALOHA等等。

“現在市場或政府都在討論要不要建大型的遙操場,到底要建多少才夠。我們可以先看一下自動駕駛使用的‘人類的遙操數據’——既然車就是機器人,那方向盤就是遙操的主臂,人就是遙操員。”

王鶴表示,如今的頭部車企,會有約百萬輛級別的車每天在路上跑。按照15-30秒是一個clip的標準,日回流量為上億clips;而目前具身智能最大的數據集約為100萬-200萬clips的數據集。



車的自由度只有兩個:方向盤+油門剎車。而人形機器人的一條手臂就有六七個自由度,一只靈巧手有20個自由度,全身加起來有接近百個自由度。

如今的頭部人形機器人廠商,包括銀河通用,在真機數據采集這件事上,與汽車百萬臺的數量中間存在巨大差距,這就是為什么不能夠完全押寶真實數據。

“如果想押寶真實數據,就得先把人形機器人量產到百萬千萬臺,然后再讓百萬千萬人去做數據采集。這一點會讓人形機器人或者VLA的發展陷入長期的無法落地的狀態。”

如何訓練端到端VLA?

王鶴指出,在此背景下,最主要的學術觀點就是用合成仿真數據解決難題——銀河通用正在從機器人與物體間的交互,以及靈巧手抓取標簽和軌跡中,研究視覺層面仿真和現實之間的差異(Sim2Real Gap),并且在仿真器中通過大量的強化學習,自主探索靈巧手抓取的方式。



今年,銀河通用構建了一個完全用合成數據訓練的具身端到端VLA大模型。

王鶴稱,它背后是數10億級別的機械臂抓取的軌跡幀,每一幀都有VLA label。并且,這些數據覆蓋了桌面上可能出現的各種物體及相關信息:包括名字、材質、形狀、堆放方式、光照背景,桌子顏色紋理,以及其他變量等。

與DeepSeek千億萬億級別的參數量不同,銀河通用的GraspVLA模型,是一個幾十億參數的端到端快系統。

該模型的訓練特點,是在輸出時用到了「具身思維鏈」:“比如‘拿起盒子’的動作,我們先輸出一個2D的Bounding Box(邊界框),再用該輸出去進一步思考如何做6D Grasping Pose。這兩個輸出本質上都是Auto-Regressive(自回歸模型)中的離散Token,基于它們,可以用Flow Matching的Action Expert,去輸出七自由度的Delta Action。就和Google RT-2一樣,Delta Action可實現瞬時平動,瞬時轉動和瞬時夾爪的閉合。”

王鶴表示,GraspVLA是第一次將2D Bounding Box、6D Grasping Pose引入作為思維鏈(CoT),最終輸出Delta Action的。



數據價值與測試效果

GraspVLA首先采用的就是合成數據,由于這些數據將物體的2D Bounding Box標簽、6D Grasping Pose的抓取標簽,動作軌跡標簽等融在一起合成,從而可以保證其一致性。

但是,合成數據畢竟不能囊括物理世界的一切信息,所以銀河通用也在使用互聯網的圖文視頻數據。這些數據也被加以注釋和描述,約有一億數據也做了Bounding Box的注釋,這些數據會與合成數據進行混合訓練。

“互聯網的很多數據沒有Action標簽,只有Bounding Box標簽,所以我們的模型就只訓練到第一步Bounding Box,并不輸出CoT和Action。經過這樣的混合訓練,我們可將互聯網上所有的感知、視覺和語義全部吸納進來。”



王鶴指出,經過訓練,銀河通用的VLA端到端模型產生了非常強的零樣本泛化能力——經過與π0(PI發布的具身智能大模型)對比,在全新的環境中,π0需要在指定的測試環境中進行一定的數據微調才能工作,而GraspVLA則完全不需要微調,成功率還比前者更高。



“π0只用到了100萬到幾百萬規模的數據集,而且還是一個‘很臟’的數據集,包括一些跨本體、多形態的機械臂、人形、輪式混在一起。我們則是單一機械臂的大規模高質量物理仿真數據集,對于光照背景、物體位置、平面高度、開放詞匯類別、閉環、魯棒性,都有充分的零樣本的泛化性。”

王鶴舉了一個「抓取玩具鴨」的案例,輸入的語言指令就是「抓一個鴨子」,同時隨機采取了各種干擾方式,夾爪還是成功夾起了目標。他認為,這足以證明GraspVLA不是一個開環的模型。



對于該模型的架構和數據,銀河通用也進行了機制消融實驗。

“π0的模型只用仿真數據,因此它直接輸出Action,成功率沒有想象的那么高,在真實世界只有20%。而我們的仿真數據用到了2D Bounding Box、6D Grasping Pose的全部標簽,成功率在真實世界達到了93%。”

王鶴還表示,如果和π0.5這種多任務平行訓練的模式相比,采用CoT的VLA成功率高了20%以上。

“上述成果都是基于全合成數據。如果你給我真實世界的動作數據,只會讓我更強。”

在「零樣本泛化」層面,他舉了個例子——在針對某品牌礦泉水進行訓練時,貨架上一排擺了4瓶,一共5排;而測試時變成一排3瓶,一共4排,位置大小、高度、顏色,蓋子的直徑全變了。



“如果只是簡單記憶,肯定是會抓錯的,而我們現在能夠零樣本的泛化在新的飲品上。這就意味著,如果需要進廠或進店培訓,可以在一類樣品中只培訓一個,它就自動在同類物體之間泛化,這樣的VLA才能成為老百姓或是工廠超市用得起的技術。”

VLA是「義務教育階段」

王鶴認為,這種采用合成數據的具身端到端VLA訓練新范式,相當于人類的義務教育——它能將一項技能在十億百億規模的數據中進行充分學習,在徹底學會以后,就可以真實世界用很少量的數據進行簡單培訓,這相當于職業教育,讓機器人能夠舉一反三地執行真實場景的任務。



他介紹稱,在「貨架取物」的任務中,過去是基于視覺,對抓取Pose進行估計,再進行軌跡執行。這需要把商品放得稀疏一些,因為軌跡規劃必須要避障。



而在銀河通用的實際操作中,貨架上的商品種類繁多,形態各異,從瓶裝水到真空包裝的鹵蛋都有,而且燈光、展區、物品位置都和測試布置完全不一樣。“這一看就是閉環的模型。”他說道。

靈巧手+VLA的效果

除了展示的二指夾爪,銀河通用也對靈巧手進行了長時間測試。

“今年我們用自研的合成管線,第一次將33種人類抓取模式全部覆蓋:使用剪刀的手勢、持針抓的手勢等等,這些數據全都能合成。“

王鶴說的這套基于數學優化和物理仿真的全鏈路合成管線,能夠GPU并行地產生大量的靈巧手抓取數據,覆蓋上千萬個不同的物體的抓取。而且還不僅限于抓取,還有各種各樣的操作。



例如疊衣服的任務,從帽衫、跨欄、背心、長袖、短袖、無袖、長褲、短褲,各種紋理的衣物,都能夠大規模合成數據,從而進行非常長程的示范學習。

從王鶴演示的視頻來看,靈巧手在疊衣服過程中,即便面對種種干擾也還是繼續完成了任務。

另外,其合成數據還覆蓋了自然語言視覺、自然語言導航、尋物,跟隨人等等。其中,在復雜環境中,聽從復雜指令跟隨人的示范非常有趣:

“在從來沒見過的場景里,沒有SLAM,沒有定位建圖,機器人能在陌生環境中服從一個非常長的指令,例如Move to the man on the right side,then follow the man until you see a sofa。”

在示范視頻中,可以看到收到該指令的機器狗,跟隨一個人直到沙發邊,然后便停止跟隨。另一個案例中,即便人都在拐角處走出視野了,機器狗還能繼續轉彎跟隨,而且在商場的復雜環境中也沒有失誤。



“這就是端到端方案的效果。頭部車廠是單天回流1億條clips,可是總不能找100萬人去操作機器狗,所以這其中全合成數據。”

已開始常態化運行

目前,這些VLA端到端模型的技術,已經在零售、接待、康養和工業領域中逐步落地。

例如在24小時藥店的貨架區和柜子存儲區,銀河通用已經部署了人形機器人進行取貨工作,這樣的店已經常態化運行7家。

關于「全人形」的工作

全人形機器人無疑是更難的,而銀河通用也已經在全人形上開展工作。

“現在我們基于強化學習端到端全身控制的遙操,不僅能蹲,還可以向前前傾,能抓握地面上的東西。我們也在各種各樣的環境中去做全身遙操,并且全時維持身體的平穩。”



這就是銀河通用聯合清華大學弋力助理教授團隊發布的OpenWBT,這是一款全開源、多機型、跨虛實人形機器人全身遙操作系統。

王鶴介紹稱,該方法將原子技能進行編碼、解碼,再把中間串聯的連接,通過強化學習構成技能組合。

“大家只需要大家用VR頭顯、手柄,筆記本就可以輕松搭建。它既能在真實世界里遙操,又能在仿真世界里遙操,還可以跨機型。”

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日媒炒作賞櫻地有“中文喧嘩聲”,不料日本人自己…

日媒炒作賞櫻地有“中文喧嘩聲”,不料日本人自己…

觀察者網
2026-04-09 15:54:18
3名領導干部因違反破壞制度被查處通報

3名領導干部因違反破壞制度被查處通報

吉刻新聞
2026-04-10 18:40:30
米蘭一夜,賈玲再也回不去喜劇圈了!

米蘭一夜,賈玲再也回不去喜劇圈了!

孤城落日
2026-04-07 12:10:29
他是導致臺灣難以收復的關鍵人物,若不是他,臺灣或許早就解放了

他是導致臺灣難以收復的關鍵人物,若不是他,臺灣或許早就解放了

興史興談
2026-04-10 17:14:54
新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
退圈女星自曝,被注射不明物質,不聽話就頭疼,秦嵐也被牽連其中

退圈女星自曝,被注射不明物質,不聽話就頭疼,秦嵐也被牽連其中

阿纂看事
2026-04-10 14:27:16
國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點出王皓無奈

國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點出王皓無奈

三十年萊斯特城球迷
2026-04-10 21:16:39
快滅國了,卻執意和中國斷交,“抱大腿”無望又求援,中方:不管

快滅國了,卻執意和中國斷交,“抱大腿”無望又求援,中方:不管

興史興談
2026-04-10 03:12:14
排球女運動員身材太好被拍火上熱搜!看完現場照片:這腿確實比我命長

排球女運動員身材太好被拍火上熱搜!看完現場照片:這腿確實比我命長

經典段子
2026-04-07 22:34:12
時隔35年!廣東東莞樟木頭上網絡平臺熱搜,真相令人震驚

時隔35年!廣東東莞樟木頭上網絡平臺熱搜,真相令人震驚

南方健哥
2026-04-10 23:13:49
重大信號!霍爾木茲通行量創戰爭以來新高

重大信號!霍爾木茲通行量創戰爭以來新高

看看新聞Knews
2026-04-06 13:51:05
消息人士:中東產油國準備恢復通過霍爾木茲海峽的石油出口

消息人士:中東產油國準備恢復通過霍爾木茲海峽的石油出口

財聯社
2026-04-10 13:46:47
結婚42年,他定居上海成“上門女婿”,如今唯一女兒成他的驕傲

結婚42年,他定居上海成“上門女婿”,如今唯一女兒成他的驕傲

北緯的咖啡豆
2026-04-10 14:48:02
外網同情全紅嬋遭遇,詆毀者正撞政策槍口,周繼紅望施展雷霆手段

外網同情全紅嬋遭遇,詆毀者正撞政策槍口,周繼紅望施展雷霆手段

鐵錘妹妹是只貓
2026-04-11 02:06:58
鴻蒙智行變局:賽力斯為何從“獨寵”到“分流”?

鴻蒙智行變局:賽力斯為何從“獨寵”到“分流”?

侃故事的阿慶
2026-04-11 01:34:53
打起來了!趙麗穎方發文宣誓楚喬主權,《冰湖重生》暗諷后秒刪

打起來了!趙麗穎方發文宣誓楚喬主權,《冰湖重生》暗諷后秒刪

影視地平線
2026-04-10 22:20:59
西部第3至5的排名 還有很大變動可能性 火箭首輪打掘金的概率不小

西部第3至5的排名 還有很大變動可能性 火箭首輪打掘金的概率不小

大話火箭隊
2026-04-10 14:45:04
全線拉升!超13萬人爆倉!伊朗稱隨時準備開火

全線拉升!超13萬人爆倉!伊朗稱隨時準備開火

證券時報
2026-04-10 23:12:05
遼寧沈陽一小女孩疑被離異父母雙雙拒收,官方回應:當地高度重視,公安部門已經介入調查

遼寧沈陽一小女孩疑被離異父母雙雙拒收,官方回應:當地高度重視,公安部門已經介入調查

極目新聞
2026-04-10 12:51:32
寧波搭乘“上海順風車”,滬甬通道提上日程,救命稻草?畫餅充饑

寧波搭乘“上海順風車”,滬甬通道提上日程,救命稻草?畫餅充饑

小影的娛樂
2026-04-11 01:13:31
2026-04-11 02:47:00
RoboX
RoboX
關注智能汽車、機器人在內的具身智能前沿科技
237文章數 2關注度
往期回顧 全部

科技要聞

馬斯克狂發大火箭也養不起AI 年虧50億美元

頭條要聞

特朗普:美軍艦已裝最先進武器 未來24小時成關鍵窗口

頭條要聞

特朗普:美軍艦已裝最先進武器 未來24小時成關鍵窗口

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認戀情!聚會細節被扒

財經要聞

李強主持召開經濟形勢專家和企業家座談會

汽車要聞

搭載第二代刀片電池及閃充技術 騰勢N8L閃充版預售35萬起

態度原創

本地
藝術
數碼
公開課
軍事航空

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

藝術要聞

深圳頂級海景地段,為啥留下一排“幽靈別墅群”?真相成謎!

數碼要聞

聯想推出2026款來酷斗戰者“戰7000”筆記本,7699元起

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:對美國與伊朗達成和平協議“非常樂觀”

無障礙瀏覽 進入關懷版