馬斯克都點贊了，銀河通教會機器人打網(wǎng)球

2026-03-20 14:37:35　來源: 節(jié)點AI

山東舉報

分享至

文 / 梁添

來源 / 節(jié)點AI

繼宇樹科技馬年春晚用一場《武bot》震驚大眾后，這不，才一個月的時間，中國機器人又引來大佬們集體點贊。

這次是同樣在春晚亮相的銀河通用機器人，最近聯(lián)合清華大學、北京大學，以及上海期智研究院和上海人工智能實驗室的聯(lián)合團隊（以下簡稱銀河通用團隊），發(fā)布了一項具身智能的最新研究視頻，在 X 上快速獲得了超過180萬觀看次數(shù)。

視頻里，我們可以看到，機器人在與真人對打網(wǎng)球。

是的，你沒看錯，這不是故弄玄虛，網(wǎng)球落點變化莫測，機器人還可以隨時小步快跑，調(diào)整身體姿態(tài)，判斷網(wǎng)球落點，優(yōu)雅揮拍，擊回去，持續(xù)多個回合。

這一視頻引得馬斯克立即轉(zhuǎn)發(fā)點贊，在評論區(qū)驚嘆：Yeah；AI知名研究員Andrej Karpathy 更是直呼這是 AI 生成的。

對于吃瓜群眾來說，機器人打網(wǎng)球，或許只是看熱鬧。

但小編特意深扒了一下論文，發(fā)現(xiàn)，這是僅用 5 小時碎片化數(shù)據(jù)訓練而成的，特別的是，這并非是機器人執(zhí)行的預設(shè)好的程序，而是機器人與真人的實時動態(tài)極限拉扯。也就是說，機器人已經(jīng)初步實現(xiàn)了從“機械復刻”向“實時響應(yīng)”的跨越。

缺數(shù)據(jù)也能解決真問題

傳統(tǒng)機器人訓練里，一個常見思路是先在真實環(huán)境中收集數(shù)據(jù)，再讓機器人復現(xiàn)。不過，這種通用的方法依賴高質(zhì)量、完整數(shù)據(jù)，對“打網(wǎng)球”這個場景來說幾乎是不可能的。

收集真人打網(wǎng)球的數(shù)據(jù)有多難？

一般來說，真實網(wǎng)球運動中，球速往往在 15-30 m/s 之間，球場空間寬闊，球與球拍的接觸時間僅僅只有極短的幾毫秒。人們很難采到完整、精確的人體網(wǎng)球動作數(shù)據(jù)。真實場景中，往往球從四面八方來，也讓預設(shè)程序的方式無法實現(xiàn)。

對此，銀河通用團隊提出了全球首個面向網(wǎng)球?qū)沟娜诵螜C器人全身實時智能規(guī)控算法——LATENT。

一句話概括：銀河通用想到了一種方法，不需要完美完整的真實數(shù)據(jù)，也能讓機器人快速學會在現(xiàn)實世界打網(wǎng)球。

小編翻看了論文，簡單概括了一下方法，可分為三步。

首先，收集“碎片化”的人類網(wǎng)球動作。

銀河通用請了 5 個業(yè)余網(wǎng)球玩家，在一個只有 3m×5m的動作捕捉區(qū)域里，然后用五小時時間，采集基礎(chǔ)動作片段。敲黑板，這個空間比，網(wǎng)球場整整小了17倍，再加上時間少，大大降低了數(shù)據(jù)采集難度與成本。

其次，團隊想了個新方法，并沒有讓機器人死記硬背這些動作，而是把這些基礎(chǔ)動作壓縮成技能庫。機器人打網(wǎng)球的時候，不是直接復現(xiàn)之前的知識，而是自行組合。

最后，在強化學習階段，團隊給手腕的靈活性留下了空間，這樣子，機器人就能在無編排的情況下，憑借之前學習的知識，接住網(wǎng)球，并擊回去。

非常有意思的一點是，雖然這個項目來自銀河通用團隊，但他們在現(xiàn)實中大顯身手時，使用的機器人卻是來自宇樹的 G1 人形機器人。

可能是具身智能的重要起點

或許有人會說，這個實驗是不完美的。

比如，揮拍時機器人的手腕動作與真人有誤差，還有人會問，這些機器人只是復現(xiàn)了一些打網(wǎng)球動作，并不是真正的與人類競技，什么時候能替代真人陪練才算對大眾有益。

這點，銀河通用團隊在論文中也承認，當前機器人只能回球，還不能在標準雙人競技的規(guī)則下真正完成比賽，還有機器人擊球落點精度還不高，只能“打回場內(nèi)”。

此外，LATENT 并不是靠調(diào)用機器人頭部自帶的視覺傳感器，來判斷球的位置，而是需要高度依靠場地里的“光學動作捕捉系統(tǒng)”，并且網(wǎng)球也得裹上反光貼紙。

不過，團隊也提到，下一步的改進方向就是引入主動視覺，讓機器人學會用眼睛，看到那顆飛速的網(wǎng)球。

看到這，小編想，短期內(nèi)機器人走進千家萬戶或許不現(xiàn)實，但未來數(shù)年后，機器人進入真實生活工作場景或許真的不會太遠。

這當然不是吹牛，在小編看來，銀河通用的新算法，給具身智能的數(shù)據(jù)瓶頸提供了新的解題思路，其意義，遠遠大于機器人究竟是不是真的學會了打網(wǎng)球。

熟悉具身智能的朋友想必知道，圍繞這個行業(yè)一直有一個巨大的爭議，能不能泛化。通俗點說，春晚機器人打拳行云流水，但仍然會有人問，能不能幫我做家務(wù)？

這個問題背后的瓶頸，是數(shù)據(jù)荒。

眾所周知，訓練具身智能模型需要海量多模態(tài)數(shù)據(jù)，包括視覺、觸覺等，不光是打網(wǎng)球，很多真實場景數(shù)據(jù)，都存在采集成本高、效率低的痛點，導致現(xiàn)有數(shù)據(jù)量與需求差距巨大。

與此同時，真仿真數(shù)據(jù)與真實世界存在鴻溝，導致模型泛化能力受限，難以適應(yīng)復雜多變的實際場景。

而銀河通用團隊的方法，提供了一種可能——或許我們并不需要完美的數(shù)據(jù)，且無需預設(shè)編排，只要關(guān)鍵信息到位，后面修正和完成能力，或許可以交給強化學習。

也許這是一個里程碑時刻，未來可能在一些需要即時反應(yīng)的場景，如跑酷，甚至工廠中，都有可能推廣開來。

為什么是銀河通用？

雖然這次打網(wǎng)球，宇樹機器人提供了本體，但十分關(guān)鍵的大腦環(huán)節(jié)則是銀河通用團隊負責。

銀河通用實現(xiàn)突破，也并不意外。

銀河通用一直是具身智能企業(yè)中的"大腦派"，強調(diào)仿真合成數(shù)據(jù)、具身大模型，其中90% 的訓練數(shù)據(jù)來自虛擬仿真，成本僅為真實數(shù)據(jù)的約 1/100。

換句話說，銀河通用也是務(wù)實派，一直試圖圍繞“機器人怎么解決復雜技能”這件事，搭建一套更低成本、更可擴展的訓練體系。

在2025 年世界人形機器人運動會上，銀河通用是少數(shù)全自主、零遙操的參賽選手之一，最終以大幅領(lǐng)先的成績奪得應(yīng)用場景比賽世界冠軍。

這次 LATENT 的核心思路，其實就很符合銀河通用一貫的路徑：用更低成本的數(shù)據(jù)，拿到關(guān)鍵先驗，再用算法把剩下的能力補出來。

從這個角度看，這次本體來自宇樹，并不改變銀河通用這項工作的核心價值。因為現(xiàn)在對于具身智能領(lǐng)域的企業(yè)來說，為什么會動、怎么學會動、能不能泛化到別的場景才是最關(guān)鍵的事。

而這，剛好是銀河通用一直以來押注的路線。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.