正在春晚舞臺(tái)上的機(jī)器人表演《武 BOT》征服了海內(nèi)外網(wǎng)友,不過機(jī)器人還不是真正的武林高手,它 只是執(zhí)行了一段寫好的程序。
一旦環(huán)境里多了一個(gè)臺(tái)階,或者武臺(tái)稍微有點(diǎn)滑,這套「武術(shù)」興許立馬就會(huì)變成「摔跤」。
不過到明年春晚,可能就不是這樣了。
![]()
同樣是在今年春晚亮相的 銀河通用機(jī)器人,最近聯(lián)合清華大學(xué)、北京大學(xué),以及上海期智研究院和上海人工智能實(shí)驗(yàn)室的聯(lián)合團(tuán)隊(duì),發(fā)布了一項(xiàng)具身智能的最新研究視頻,視頻在 X 上快速獲得了一百多萬觀看。
馬斯克看了都在評(píng)論區(qū)回復(fù) Yeah,認(rèn)可體育項(xiàng)目的 AlphaGO 時(shí)刻正在來臨,Karpathy 更是直呼這是 AI,是 AI 生成的。
![]()
上下滑動(dòng)查看更多內(nèi)容,Zhikai Zhang 和 Yunrui Lian 是這項(xiàng)工作的聯(lián)合一作,目前是清華交叉信息研究院研究生在讀,
非常有意思的一點(diǎn)是,雖然這個(gè)項(xiàng)目來自清華和銀河通用,但他們?cè)诂F(xiàn)實(shí)中大顯身手時(shí),使用的機(jī)器人卻是來自宇樹的 G1 人形機(jī)器人。
視頻里,宇樹 G1 站在真實(shí)的網(wǎng)球場(chǎng)上,雙膝微屈,緊接著一個(gè)迅猛的滑步,精準(zhǔn)揮拍,將一顆時(shí)速超過 15 m/s 的網(wǎng)球死死擊回對(duì)手半場(chǎng)。
![]()
就像 Karpathy 說的一樣,這看起來很像一段 AI 生成的仿真視頻,也像是提前寫好腳本的擺拍,但事實(shí)是,視頻里的機(jī)器人真的在和人類選手進(jìn)行多回合的拉扯。
一般來說,網(wǎng)球運(yùn)動(dòng)中,球速往往在 15-30 m/s 之間,而球與球拍的接觸時(shí)間僅僅只有極短的幾毫秒。
球來源的不確定性,讓預(yù)先編程動(dòng)作指令的方式不可行,而球的快速運(yùn)動(dòng),又讓人類帶上 VR 眼鏡實(shí)時(shí)遙控的方案實(shí)效,等我們用 VR 眼鏡看清球的軌跡,再揮動(dòng)手柄傳達(dá)指令,球大概早就飛出界了。
![]()
LATENT 系統(tǒng),Learns Athletic humanoid TEnnis skills from imperfect human motioN daTa,從不完美的人類運(yùn)動(dòng)數(shù)據(jù)中學(xué)習(xí)運(yùn)動(dòng)型人形網(wǎng)球技能。
也就是說,宇樹 G1 完全是靠自己的 AI 模型在瞬間自主做出的物理決策,在和人類選手打網(wǎng)球。
這項(xiàng)研究可以說是具身智能領(lǐng)域突破性的進(jìn)展,其中除了宇樹 G1 的硬件能力,更關(guān)鍵的是團(tuán)隊(duì)設(shè)計(jì)的一套名為 LATENT 的訓(xùn)練系統(tǒng),這套系統(tǒng)展示了機(jī)器人訓(xùn)練路徑里的新可能:訓(xùn)練頂級(jí) AI,不一定需要完美無瑕的數(shù)據(jù)。
論文&項(xiàng)目鏈接: https://zzk273.github.io/LATENT/
逼瘋機(jī)器人的「15 平米網(wǎng)球場(chǎng)」
從物理控制的精細(xì)度和動(dòng)態(tài)響應(yīng)的極限上來看,讓機(jī)器人打網(wǎng)球,大概比無人駕駛還要難實(shí)現(xiàn)。
![]()
傳統(tǒng)的物理 AI,訓(xùn)練思路都是放在真實(shí)環(huán)境里「模仿學(xué)習(xí)」。對(duì)于機(jī)器人訓(xùn)練,也就是讓人類穿上全身動(dòng)捕服,在真實(shí)的網(wǎng)球場(chǎng)上打個(gè)幾天幾夜,然后把數(shù)據(jù)喂給 AI,讓機(jī)器人照葫蘆畫瓢。
但研究團(tuán)隊(duì)發(fā)現(xiàn)這套方案根本行不通。網(wǎng)球場(chǎng)太大了,全身動(dòng)捕設(shè)備在如此大的范圍內(nèi)、面對(duì)如此劇烈的多回合運(yùn)動(dòng),極難捕捉到那些細(xì)微且高精度的手腕動(dòng)作。想要一份「完美」的網(wǎng)球動(dòng)捕數(shù)據(jù),成本相當(dāng)之高。
于是,LATENT 團(tuán)隊(duì)采取了一種極其討巧,甚至有點(diǎn)反直覺的策略。
他們沒有去租昂貴的標(biāo)準(zhǔn)網(wǎng)球場(chǎng),而是在一個(gè)只有 3m x 5m 的局促空間里搭建了動(dòng)捕系統(tǒng),這個(gè)面積比真實(shí)的網(wǎng)球場(chǎng)小了 17 倍。
在這個(gè)小房間里,他們找了 5 位業(yè)余網(wǎng)球愛好者,隨性地錄制了 5 個(gè)小時(shí)的碎片化動(dòng)作,正手揮拍、反手揮拍、側(cè)滑步、交叉步……沒有完整的比賽和復(fù)雜的戰(zhàn)術(shù)配合,全是一些基礎(chǔ)的網(wǎng)球動(dòng)作切片。
![]()
將動(dòng)作捕捉器獲取的動(dòng)作,生成的球軌跡可視化
研究團(tuán)隊(duì)自己也承認(rèn),這些數(shù)據(jù)是不完美的。一方面因?yàn)槿祟惡蜋C(jī)器人的身體結(jié)構(gòu)不同,再加上捕捉難度,揮拍時(shí)的手腕動(dòng)作全是誤差,有較大的不精確。
另一方面,這些動(dòng)作切片根本沒有教機(jī)器人「如何在合適的時(shí)機(jī)使用這些動(dòng)作去贏下一球」,算不上一套完整的訓(xùn)練數(shù)據(jù)。
告別完美數(shù)據(jù)崇拜
就是拿著這樣一套數(shù)據(jù),LATENT 系統(tǒng)是怎么教會(huì)視頻里的宇樹 G1 打網(wǎng)球的。
問題的核心,在于 LATENT 的控制架構(gòu)。首先是「手腕動(dòng)作解耦」,即將兩種運(yùn)動(dòng)分開處理,既然動(dòng)捕數(shù)據(jù)里的手腕動(dòng)作都是錯(cuò)的,那就干脆不要了。
在訓(xùn)練底層追蹤器時(shí),研究人員直接移除了控制右手腕(拿球拍那只手)的信號(hào),甚至還故意給手腕加上隨機(jī)的干擾力。這樣一來,底層系統(tǒng)就學(xué)會(huì)了無論手腕怎么晃,我的下半身都要保持絕對(duì)的平衡和敏捷。
接著是高層策略網(wǎng)絡(luò),它會(huì)同時(shí)下達(dá)兩道命令:一道給身體,負(fù)責(zé)漂亮的跑位;另一道直接接管右手腕,負(fù)責(zé)精準(zhǔn)的擊球微調(diào)。
![]()
機(jī)器人網(wǎng)球?qū)Υ蚍抡姝h(huán)境
之前 5 個(gè)小時(shí)破碎的動(dòng)作數(shù)據(jù),被提煉成了一本「人類網(wǎng)球動(dòng)作大字典(潛在動(dòng)作空間)」。現(xiàn)在的高層策略網(wǎng)絡(luò)就像查字典一樣,遇到什么飛球,就在字典里翻找合適的滑步或揮拍動(dòng)作拼湊起來去接球。
但 AI 為了贏球是不擇手段的。具體來說,如果我們只給機(jī)器人定一個(gè)「把球打回去」的目標(biāo),它為了得分,可能會(huì)在那本字典里,把滑步和跳躍強(qiáng)行結(jié)合,跑動(dòng)中瘋狂切換不同的動(dòng)作,呈現(xiàn)出一種極其詭異、抽搐的鬼畜步法。
為了保證機(jī)器人的動(dòng)作像人類一樣優(yōu)雅自然,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為「潛在動(dòng)作屏障(LAB)」的機(jī)制。這就好比給 AI 畫了一個(gè)無形的圈,允許你在圈內(nèi)自由探索擊球策略,但無法做出一些不符合物理規(guī)律的動(dòng)作。
這套系統(tǒng)在模擬器上的表現(xiàn)也很不錯(cuò),正手接球成功率 96.52%,反手高達(dá) 82.10%,前場(chǎng)和后場(chǎng)覆蓋率分別達(dá)到 86.35% 和 89.80%。
![]()
實(shí)驗(yàn)結(jié)果對(duì)比,經(jīng)典方法 PPO 和 MotionVAE 在這項(xiàng)任務(wù)上完全失效。其中 SR(Success Rate 成功率),越高越好,代表機(jī)器人能不能把球成功打回目標(biāo)區(qū)域。DE(Distance Error,距離誤差)越低越好,代表球落地的位置離目標(biāo)點(diǎn)有多近,也就是打得準(zhǔn)不準(zhǔn)。Smth(平滑度),越低越好,測(cè)量的是關(guān)節(jié)加速度。數(shù)值越低,說明機(jī)器人的動(dòng)作越像人類一樣自然絲滑,而不是在原地鬼畜抽搐 。Torque(關(guān)節(jié)扭矩),越低越好,代表機(jī)器人發(fā)了多大的力。數(shù)值低意味著它懂得如何發(fā)力,這能幫助機(jī)器人省電且不傷電機(jī)。
在模擬器里打得再好,那也是紙上談兵。真到了現(xiàn)實(shí)世界,一陣微風(fēng)、一點(diǎn)球拍的重量誤差,都有可能讓機(jī)器人當(dāng)場(chǎng)摔個(gè)狗啃泥。
為了完成這驚險(xiǎn)的從模擬到現(xiàn)實(shí),研究團(tuán)隊(duì)在模擬器里設(shè)置了大量的「動(dòng)態(tài)隨機(jī)化」,例如隨機(jī)改變機(jī)器人的質(zhì)量和重力中心,隨機(jī)改變網(wǎng)球的質(zhì)量、彈跳系數(shù),甚至給球加上隨機(jī)的空氣阻力等。
更有意思的是,現(xiàn)實(shí)中捕捉高速網(wǎng)球的攝像頭總會(huì)有延遲和噪點(diǎn)。為了應(yīng)對(duì)這種情況,團(tuán)隊(duì)在系統(tǒng)中引入了「觀察噪聲」,系統(tǒng)不看球的瞬時(shí)速度,而是利用一個(gè)四幀的滑動(dòng)窗口來計(jì)算平均速度,從而過濾掉延遲的觀測(cè)誤差。
在純模擬環(huán)境的「左右互搏」中,兩臺(tái)機(jī)器人甚至能連續(xù)對(duì)拉 25 個(gè)回合。
![]()
模擬不同的球擊事件
在真實(shí)的測(cè)試中,Unitree G1 走上真實(shí)球場(chǎng)的那一刻,一切都顯得游刃有余。面對(duì)隨機(jī)位置、隨機(jī)速度的發(fā)球,這臺(tái)機(jī)器人能夠熟練運(yùn)用正反手,靈活在前后場(chǎng)穿梭,穩(wěn)穩(wěn)地將球回到對(duì)手半場(chǎng)。
![]()
真實(shí)場(chǎng)景實(shí)驗(yàn)結(jié)果,研究進(jìn)行了 20 場(chǎng)連續(xù)的人機(jī)對(duì)抗賽,來評(píng)估 LATENT 系統(tǒng)在真實(shí)網(wǎng)球比賽中的回球性能,每場(chǎng)比賽中球的初始位置和速度都是隨機(jī)的。對(duì)于每個(gè)成功回球,會(huì)記錄其落點(diǎn)位置,將其歸類為前場(chǎng)或后場(chǎng)區(qū)域,并分析正手和反手擊球的使用情況。
需要注意的是,在真實(shí)環(huán)境的測(cè)試中,LATENT 并不是靠調(diào)用機(jī)器人頭部自帶的視覺傳感器,來判斷球的位置。這臺(tái)機(jī)器人高度需要場(chǎng)地里的「光學(xué)動(dòng)作捕捉系統(tǒng)」。
他們?cè)跈C(jī)器人的底座上貼滿了反光標(biāo)記,把底座當(dāng)成一個(gè)剛體,通過場(chǎng)館里的動(dòng)捕系統(tǒng)來實(shí)時(shí)估算它在全局的三維 6D 姿態(tài)。以及網(wǎng)球也裹上了反光貼紙,它的空間位置和飛行軌跡能被外部的光學(xué)系統(tǒng)來捕捉,然后再把數(shù)據(jù)喂給機(jī)器人的 AI 大腦。
團(tuán)隊(duì)也提到,下一步的改進(jìn)方向就是引入主動(dòng)視覺,讓機(jī)器人真正用自己的「眼睛」,去死死盯住那顆時(shí)速 15 米/秒的網(wǎng)球,還有多智能體訓(xùn)練框架。
雖然可以像無人駕駛一樣,用雷達(dá)、各種傳感器和攝像頭的冗余來填補(bǔ)準(zhǔn)確的底線;但人形機(jī)器人在高動(dòng)態(tài)的體育競(jìng)技場(chǎng)上,或許只能選擇給自己減負(fù)。
![]()
不敢說今天它能在網(wǎng)球場(chǎng)上贏分,明天就能走進(jìn)千家萬戶,去應(yīng)對(duì)那些充滿未知與混亂的真實(shí)生活場(chǎng)景。但是這種粗糙的、片段化的、充滿噪音的廉價(jià)數(shù)據(jù),現(xiàn)在也能訓(xùn)練出一個(gè)像是自動(dòng)駕駛般的網(wǎng)球機(jī)器人,進(jìn)入生活或許真的不會(huì)太遠(yuǎn)。
有網(wǎng)友說,類似這樣的技術(shù)最后可能會(huì)讓網(wǎng)球訓(xùn)練變得更便宜、更普及。一些美國(guó)頂尖青少年網(wǎng)球選手的家庭每年可能要花費(fèi) 10 萬美元,用于一對(duì)一的教練指導(dǎo)。
有了這套系統(tǒng),其中一部分訓(xùn)練可以實(shí)現(xiàn)自動(dòng)化,尤其是用于重復(fù)性的基本技能練習(xí),就像新一代的網(wǎng)球發(fā)球機(jī)一樣。
還有網(wǎng)友評(píng)論說,所以就連體力勞動(dòng)現(xiàn)在也要完蛋了嗎……
未來,如果機(jī)器人真能進(jìn)軍所有的體育項(xiàng)目,奧運(yùn)會(huì)大概是這個(gè)樣子。
![]()
圖片來源:X@AbundanceVsWar
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.