![]()
還記得今年央視春晚上宇樹機器人的《武bot》嗎?G1和H1在快速奔跑中穿插變陣,后空翻、側踢、耍雙節棍、打醉拳……讓所有人見識了高動態、高協同的全自主集群控制技術。
![]()
這樣的技能,以后還能進化到什么程度?
答案來得很快。
3月3日,北京通用人工智能研究院(BIGAI)、宇樹科技、上海交通大學、中國科學技術大學等,聯合發布了一項重磅研究成果。他們開發出一個名為OmniXtreme的新框架,可以讓宇樹G1學會執行各種極限動作,像是連續翻轉、極限平衡,甚至通過快速接觸切換跳霹靂舞等。
宇樹科技創始人兼CEO王興興也在署名作者之列。
![]()
基于統一策略OmniXtreme的全身極端運動控制(圖片來源于論文)
![]()
一個困擾行業多年的難題
這篇標題為《OmniXtreme:突破高動態人形機器人控制的通用性壁壘》的論文, 一作 為Yunshen Wang和Shaohang Zhu。兩位青年學者分別來自通研院與上海交通大學、通研院與中國科學技術大學的聯合培養項目,同時也屬于通研院-宇樹科技具身智能與人形機器人聯合實驗室。
![]()
論文地址:https://arxiv.org/abs/2602.23843
“我們花了一整年時間深入研究通用跟蹤和極端物理行為之間的障礙。在測試了數十臺G1后,最終找到了學習和物理執行能力方面的瓶頸。”論文的共同通訊作者、北京通用人工智能研究院具身機器人中心主任黃思遠在社交媒體上透露,這是他們首次與王興興合作發表論文,“一次非常有啟發性的經歷”。
![]()
讓通用人形機器人擁有人類水平的運動能力,是從業者們長期以來的共同追求。然而,在保持高精度動作控制的同時,實現運動技能的可持續拓展(generality barrier,通用性瓶頸),一直是該領域面臨的關鍵技術挑戰。
簡單來講,當前的機器人就像一個偏科生,可以在某一單項上成為冠軍,比如精準完成后空翻,卻很難成為全能型的運動健將。當訓練數據擴展至包含數十種風格迥異的復雜運動時,模型性能便會急劇衰退,學習效率也大打折扣。
王興興就曾在2025年世界機器人大會上坦言,目前機器人運動控制領域存在RL Scaling Law(強化學習的規模效應)問題。他解釋說,現在的機器人在學習一項新技能時,往往需要從頭開始研究和教學。“比如我有一個新的舞蹈要去訓練,那么每次加入新動作,都要重新訓練”。
他希望 未來能 夠實現技能的持續積累與遷移學習,讓機器人在已有能力基礎上不斷擴展新的技能,從而大幅提升學習效率和適應性。
![]()
從模仿學習到實戰打磨
的兩階段訓練
OmniXtreme研究團隊找到的破解之法,是把訓練過程拆成兩個階段,先讓它在訓練場里“看”遍各種動作,再把它放到真實場地里打磨技術。
![]()
具體來說,第一階段是預訓練,讓機器人先“博覽群書”(flow-based generative control policy,基于流的生成式控制策略)。團隊先為每一個高難度動作,比如后空翻、托馬斯全旋,訓練一個“專家老師”,然后基于數據集聚合(Dagger)的流匹配算法,把這些分散的專家知識全部融合到一個統一的“基座策略”里。有了這些知識,這個基座策略就知道如何執行各種不同類型的動作。
第二階段是后訓練,讓機器人上“真刀真槍”(actuation-aware residual RL,驅動感知的殘差強化學習)。光在電腦里學得好還不夠,畢竟真實世界有復雜的物理約束:電機有扭矩極限,有發熱問題,也有能量回沖的風險。團隊凍結了第一階段學到的基座策略,在上面加了一個輕量級的“殘差策略”,專門負責在真實電機約束下做精細化調整。
后訓練這一步,對于成功實現真實世界的遷移至關重要,團隊為此還上了一套優化的“組合拳”。比如“激進的域隨機化”,說“人話”,就是模擬各種意外情況,讓機器人學會應對真實世界的干擾。
此前很多人就注意到,在《武bot》節目里,多臺G1在完成空翻落地時腿腳打滑,卻能和人一樣馬上調整身形站穩,估計就是訓練的結果。
![]()
![]()
157次試驗整體成功率91.08%
最終訓練出的單一策略,已經能讓宇樹G1在現實世界中完成24種高動態運動,157次試驗的整體成功率高達91.08%。其中,后空翻等動作成功率為96.36%,武術類為93.33%。
![]()
現在 登錄 項目官網,你可以看到研究團隊發布的一系列真機演示視頻。宇樹G1成功完成的動作展示,包括:連續五個韋伯斯特空翻;長段霹靂舞表演;向后跳躍,經手倒立姿勢旋轉,下落,翻轉,隨即彈起;前滾翻,后滾翻,向前爬行等。
![]()
項目官網:https://extreme-humanoid.github.io/
這些動作不僅需要極高的動態平衡能力,還需要在毫秒級的時間內完成全身協調。視頻中,機器人的動作流暢自然,與參考運動高度一致,展現出相當不錯的運動控制能力。
為了進一步驗證是否真的解決了通用性瓶頸問題,團隊還設計了漸進式壓力測試方案。他們分別使用10個、20個和50個動作,對模型進行訓練,并固定以前10個動作為基準,統一評估不同訓練規模下的表現。
結果顯示,隨著動作多樣性的增加,傳統基于強化學習從頭訓練的方法出現了明顯性能下降,成功率從100%逐步降至83.3%,最終 滑 到73.9%。
相比之下,OmniXtreme方法展現出較強的穩定性與泛化能力,在50個動作的訓練條件下,對前10個核心動作的跟蹤成功率仍保持在93.3%。
![]()
目前,該研究的相關論文、模型檢查點及代碼已正式開源。研究團隊還透露,未來或將陸續公開包括流匹配基礎策略訓練與推理代碼、剩余后訓練與推理代碼,以及C++真實部署代碼等在內的更多資源。
這意味著,全球的研究者和開發者都可以基于OmniXtreme框架,訓練自己的人形機器人學會各種高動態運動技能。這也將大大加速人形機器人運動控制領域的發展。
文 | 童蔚
VIEW MORE
@浙江的小城里藏著一座短劇超級工廠>>
@合肥的科大訊飛、北京的百度都選擇了杭州>>
@2028全球智能危機,第一塊多米諾已倒下?>>
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.