網易首頁 > 網易號 > 正文申請入駐

解鎖“托馬斯全旋”，春晚之后機器人再進化

2026-03-10 18:34:41　來源: 創業中關村

北京舉報

分享至

近日，北京通用人工智能研究院聯合宇樹科技等機構發布OmniXtreme框架，成功讓機器人學會執行包括后空翻托馬斯全旋、武術踢擊在內的數十種高動態“極限運動”，并在宇樹機器人上實現了真實世界的高成功率部署。該框架是首個可以執行各種極限動作的通用策略，為人形機器人學習復雜運動方式帶來明顯提效，解決了動作保真度與可擴展性兼顧的難題。

長期以來，讓機器人像人類一樣靈活運動，是機器人學領域的核心追求。然而，讓機器人模仿單個高難度動作如一個后空翻，已能做到非常精準，但一旦試圖讓機器人學會幾十個風格迥異、動態復雜的動作，其學習效果就會大打折扣——控制器變得保守、平庸，在最具挑戰性的動作上頻頻失敗。

OmniXtreme框架的實現過程首先是預訓練一個基于流的生成控制策略，然后針對復雜物理動力學進行“驅動感知殘差強化學習”的后訓練。其中，后訓練這一步對于成功實現真實世界的遷移至關重要。在人形機器人的運動控制領域，研究人員長期面臨一個被稱為“泛化壁壘”的困境。當動作庫的規模和多樣性增加時，傳統的統一強化學習策略往往會遭遇性能崩潰，這在高動態動作的物理部署中尤為明顯。這種崩潰源于兩個相互疊加的瓶頸：仿真環境中的學習瓶頸（多動作優化的梯度干擾）以及物理執行瓶頸（真實世界復雜的驅動約束）。

為了從根本上解決這一問題，研究團隊提出了OmniXtreme框架。該框架將動作技能的學習與物理驅動的微調進行了巧妙的解耦，分為“基于流的可擴展預訓練”與“驅動感知的殘差后訓練”兩個核心階段。

為了驗證系統是否打破了泛化壁壘，團隊設計了漸進式的壓力測試。他們將訓練動作集從10個逐步擴展到20個，最終擴展到50個，并使用固定的前10個動作進行統一評估。實驗結果揭示了顯著的差異。隨著動作多樣性的增加，傳統從頭訓練的強化學習基線模型出現了嚴重的性能衰退，其成功率從100%暴跌至83.3%，最終滑落至73.9%。相比之下，OmniXtreme展現出了驚人的韌性，在50個動作的龐大訓練集下，其對核心動作的跟蹤成功率依然堅挺在93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認知。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.