![]()
近日,北京通用人工智能研究院聯合宇樹科技等機構發布OmniXtreme框架,成功讓機器人學會執行包括后空翻托馬斯全旋、武術踢擊在內的數十種高動態“極限運動”,并在宇樹機器人上實現了真實世界的高成功率部署。該框架是首個可以執行各種極限動作的通用策略,為人形機器人學習復雜運動方式帶來明顯提效,解決了動作保真度與可擴展性兼顧的難題。
長期以來,讓機器人像人類一樣靈活運動,是機器人學領域的核心追求。然而,讓機器人模仿單個高難度動作如一個后空翻,已能做到非常精準,但一旦試圖讓機器人學會幾十個風格迥異、動態復雜的動作,其學習效果就會大打折扣——控制器變得保守、平庸,在最具挑戰性的動作上頻頻失敗。
OmniXtreme框架的實現過程首先是預訓練一個基于流的生成控制策略,然后針對復雜物理動力學進行“驅動感知殘差強化學習”的后訓練。其中,后訓練這一步對于成功實現真實世界的遷移至關重要。在人形機器人的運動控制領域,研究人員長期面臨一個被稱為“泛化壁壘”的困境。當動作庫的規模和多樣性增加時,傳統的統一強化學習策略往往會遭遇性能崩潰,這在高動態動作的物理部署中尤為明顯。這種崩潰源于兩個相互疊加的瓶頸:仿真環境中的學習瓶頸(多動作優化的梯度干擾)以及物理執行瓶頸(真實世界復雜的驅動約束)。
為了從根本上解決這一問題,研究團隊提出了OmniXtreme框架。該框架將動作技能的學習與物理驅動的微調進行了巧妙的解耦,分為“基于流的可擴展預訓練”與“驅動感知的殘差后訓練”兩個核心階段。
為了驗證系統是否打破了泛化壁壘,團隊設計了漸進式的壓力測試。他們將訓練動作集從10個逐步擴展到20個,最終擴展到50個,并使用固定的前10個動作進行統一評估。實驗結果揭示了顯著的差異。隨著動作多樣性的增加,傳統從頭訓練的強化學習基線模型出現了嚴重的性能衰退,其成功率從100%暴跌至83.3%,最終滑落至73.9%。相比之下,OmniXtreme展現出了驚人的韌性,在50個動作的龐大訓練集下,其對核心動作的跟蹤成功率依然堅挺在93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認知。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.