![]()
文 / 梁添
來源 / 節(jié)點AI
繼宇樹科技馬年春晚用一場《武bot》震驚大眾后,這不,才一個月的時間,中國機器人又引來大佬們集體點贊。
這次是同樣在春晚亮相的銀河通用機器人,最近聯(lián)合清華大學、北京大學,以及上海期智研究院和上海人工智能實驗室的聯(lián)合團隊(以下簡稱銀河通用團隊),發(fā)布了一項具身智能的最新研究視頻,在 X 上快速獲得了超過180萬觀看次數(shù)。
視頻里,我們可以看到,機器人在與真人對打網(wǎng)球。
是的,你沒看錯,這不是故弄玄虛,網(wǎng)球落點變化莫測,機器人還可以隨時小步快跑,調(diào)整身體姿態(tài),判斷網(wǎng)球落點,優(yōu)雅揮拍,擊回去,持續(xù)多個回合。
![]()
這一視頻引得馬斯克立即轉(zhuǎn)發(fā)點贊,在評論區(qū)驚嘆:Yeah;AI知名研究員Andrej Karpathy 更是直呼這是 AI 生成的。
對于吃瓜群眾來說,機器人打網(wǎng)球,或許只是看熱鬧。
![]()
但小編特意深扒了一下論文,發(fā)現(xiàn),這是僅用 5 小時碎片化數(shù)據(jù)訓練而成的,特別的是,這并非是機器人執(zhí)行的預設(shè)好的程序,而是機器人與真人的實時動態(tài)極限拉扯。也就是說,機器人已經(jīng)初步實現(xiàn)了從“機械復刻”向“實時響應(yīng)”的跨越。
缺數(shù)據(jù)也能解決真問題
![]()
傳統(tǒng)機器人訓練里,一個常見思路是先在真實環(huán)境中收集數(shù)據(jù),再讓機器人復現(xiàn)。不過,這種通用的方法依賴高質(zhì)量、完整數(shù)據(jù),對“打網(wǎng)球”這個場景來說幾乎是不可能的。
收集真人打網(wǎng)球的數(shù)據(jù)有多難?
一般來說,真實網(wǎng)球運動中,球速往往在 15-30 m/s 之間,球場空間寬闊,球與球拍的接觸時間僅僅只有極短的幾毫秒。人們很難采到完整、精確的人體網(wǎng)球動作數(shù)據(jù)。真實場景中,往往球從四面八方來,也讓預設(shè)程序的方式無法實現(xiàn)。
對此,銀河通用團隊提出了全球首個面向網(wǎng)球?qū)沟娜诵螜C器人全身實時智能規(guī)控算法——LATENT。
一句話概括:銀河通用想到了一種方法,不需要完美完整的真實數(shù)據(jù),也能讓機器人快速學會在現(xiàn)實世界打網(wǎng)球。
小編翻看了論文,簡單概括了一下方法,可分為三步。
首先,收集“碎片化”的人類網(wǎng)球動作。
銀河通用請了 5 個業(yè)余網(wǎng)球玩家,在一個只有 3m×5m的動作捕捉區(qū)域里,然后用五小時時間,采集基礎(chǔ)動作片段。敲黑板,這個空間比,網(wǎng)球場整整小了17倍,再加上時間少,大大降低了數(shù)據(jù)采集難度與成本。
其次,團隊想了個新方法,并沒有讓機器人死記硬背這些動作,而是把這些基礎(chǔ)動作壓縮成技能庫。機器人打網(wǎng)球的時候,不是直接復現(xiàn)之前的知識,而是自行組合。
最后,在強化學習階段,團隊給手腕的靈活性留下了空間,這樣子,機器人就能在無編排的情況下,憑借之前學習的知識,接住網(wǎng)球,并擊回去。
非常有意思的一點是,雖然這個項目來自銀河通用團隊,但他們在現(xiàn)實中大顯身手時,使用的機器人卻是來自宇樹的 G1 人形機器人。
可能是具身智能的重要起點
![]()
或許有人會說,這個實驗是不完美的。
比如,揮拍時機器人的手腕動作與真人有誤差,還有人會問,這些機器人只是復現(xiàn)了一些打網(wǎng)球動作,并不是真正的與人類競技,什么時候能替代真人陪練才算對大眾有益。
這點,銀河通用團隊在論文中也承認,當前機器人只能回球,還不能在標準雙人競技的規(guī)則下真正完成比賽,還有機器人擊球落點精度還不高,只能“打回場內(nèi)”。
此外,LATENT 并不是靠調(diào)用機器人頭部自帶的視覺傳感器,來判斷球的位置,而是需要高度依靠場地里的“光學動作捕捉系統(tǒng)”,并且網(wǎng)球也得裹上反光貼紙。
不過,團隊也提到,下一步的改進方向就是引入主動視覺,讓機器人學會用眼睛,看到那顆飛速的網(wǎng)球。
看到這,小編想,短期內(nèi)機器人走進千家萬戶或許不現(xiàn)實,但未來數(shù)年后,機器人進入真實生活工作場景或許真的不會太遠。
這當然不是吹牛,在小編看來,銀河通用的新算法,給具身智能的數(shù)據(jù)瓶頸提供了新的解題思路,其意義,遠遠大于機器人究竟是不是真的學會了打網(wǎng)球。
熟悉具身智能的朋友想必知道,圍繞這個行業(yè)一直有一個巨大的爭議,能不能泛化。通俗點說,春晚機器人打拳行云流水,但仍然會有人問,能不能幫我做家務(wù)?
這個問題背后的瓶頸,是數(shù)據(jù)荒。
眾所周知,訓練具身智能模型需要海量多模態(tài)數(shù)據(jù),包括視覺、觸覺等,不光是打網(wǎng)球,很多真實場景數(shù)據(jù),都存在采集成本高、效率低的痛點,導致現(xiàn)有數(shù)據(jù)量與需求差距巨大。
與此同時,真仿真數(shù)據(jù)與真實世界存在鴻溝,導致模型泛化能力受限,難以適應(yīng)復雜多變的實際場景。
而銀河通用團隊的方法,提供了一種可能——或許我們并不需要完美的數(shù)據(jù),且無需預設(shè)編排,只要關(guān)鍵信息到位,后面修正和完成能力,或許可以交給強化學習。
也許這是一個里程碑時刻,未來可能在一些需要即時反應(yīng)的場景,如跑酷,甚至工廠中,都有可能推廣開來。
為什么是銀河通用?
![]()
雖然這次打網(wǎng)球,宇樹機器人提供了本體,但十分關(guān)鍵的大腦環(huán)節(jié)則是銀河通用團隊負責。
銀河通用實現(xiàn)突破,也并不意外。
銀河通用一直是具身智能企業(yè)中的"大腦派",強調(diào)仿真合成數(shù)據(jù)、具身大模型,其中90% 的訓練數(shù)據(jù)來自虛擬仿真,成本僅為真實數(shù)據(jù)的約 1/100。
換句話說,銀河通用也是務(wù)實派,一直試圖圍繞“機器人怎么解決復雜技能”這件事,搭建一套更低成本、更可擴展的訓練體系。
在2025 年世界人形機器人運動會上,銀河通用是少數(shù)全自主、零遙操的參賽選手之一,最終以大幅領(lǐng)先的成績奪得應(yīng)用場景比賽世界冠軍。
這次 LATENT 的核心思路,其實就很符合銀河通用一貫的路徑:用更低成本的數(shù)據(jù),拿到關(guān)鍵先驗,再用算法把剩下的能力補出來。
從這個角度看,這次本體來自宇樹,并不改變銀河通用這項工作的核心價值。因為現(xiàn)在對于具身智能領(lǐng)域的企業(yè)來說,為什么會動、怎么學會動、能不能泛化到別的場景才是最關(guān)鍵的事。
而這,剛好是銀河通用一直以來押注的路線。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.