337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

王興興發論文了!宇樹、通研院聯手,教機器人“托馬斯全旋”

0
分享至



機器人學習復雜運動,找到一條可擴展道路。

作者 |陳駿達

編輯 |李水青

機器人前瞻3月3日報道,今天,北京通用人工智能研究院(BIGAI)、宇樹、上海交通大學和中國科技大學等機構聯合發布一項最新開源研究成果,該成果有望給人形機器人學習復雜運動的方式帶來明顯提效,且不必在動作保真度與可擴展性之間做艱難權衡。

該研究提出了一種名為OMNIXTREME的新框架,成功讓一個機器人學會執行包括后空翻、托馬斯全旋、武術踢擊在內的數十種高動態“極限運動”,并在宇樹G1機器人上實現了真實世界的高成功率部署。

值得一提的是,同型號的宇樹機器人剛剛憑借在2026年春晚舞臺上絲滑的后空翻、側踢、跳馬、耍雙節棍乃至打醉拳等一系列武術動作而爆火出圈,不知道背后有沒有OMNIXTREME框架的功勞。


▲真機部署視頻(圖源:項目官網)

長期以來,讓機器人像人類一樣靈活運動,是機器人學領域的核心追求。然而,一個根深蒂固的難題始終困擾著研究者:“保真度-可擴展性權衡”。簡單來說,讓機器人模仿單個高難度動作(如一個后空翻)已能做到非常精準;但一旦試圖讓一個機器人學會幾十個風格迥異、動態復雜的動作,其學習效果就會大打折扣——控制器變得保守、平庸,在最具挑戰性的動作上頻頻失敗。

其實,在更早之前,宇樹就已經關注到這一問題。其創始人兼CEO王興興曾在2025年世界機器人大會上談道:目前機器人跳跳舞、打格斗效果已經不錯,但面臨一個關鍵問題——“機器人強化學習的Scaling Law做得非常不好”。比如訓練機器人做新動作、跳新舞蹈,每次都要從頭開始。理論上,每次RL訓練的速度應當越來越快,學習新技能的效果也應當越來越好,但行業內目前還沒人能真正實現這一點。

針對上述挑戰,OMNIXTREME研究團隊提出了兩階段訓練框架。實驗結果表明,OMNIXTREME在包含LAFAN1和自建XtremeMotion極限運動庫的綜合測試中,追蹤保真度遠超現有基線方法。


▲OMNIXTREME部署成功率

在真實的宇樹G1機器人上,OMNIXTREME讓機器人在單一策略完成了24種高動態運動,157次試驗的整體成功率高達91.08%,其中后空翻等動作成功率超過96%。

王興興是這篇論文的署名作者之一,位列倒數第三位,按照學術圈慣例,這或許意味著他在這項研究中扮演了指導者角色。該論文的共同通訊作者、北京通用人工智能研究院具身機器人中心主任黃思遠(SiyuanHuang)在社交媒體上透露,這是他們首次與王興興合作發表論文,這是一次頗有啟發性的經歷。


▲北京通用人工智能研究院具身機器人中心主任黃思遠發布推文宣傳該研究

目前這篇論文所涉及的模型檢查點和代碼已經開源發布,研究團隊還在項目官網提供了真機演示的視頻。流匹配基礎策略訓練與推理代碼、剩余后訓練和推理代碼以及C++真實部署代碼未來也可能會開源。

論文地址:

https://arxiv.org/abs/2602.23843

項目地址:

https://extreme-humanoid.github.io

項目代碼:

https://github.com/Perkins729/OmniXtreme

01.

機器人可擴展運動能力兩大挑戰

仿真學習瓶頸與物理可執行性瓶頸

OMNIXTREME研究團隊認為,讓機器人具備可擴展的、人類水平的全身運動技能,是通用人形機器人的終極目標。

研究這一能力的一個核心途徑是高保真運動追蹤:控制器需在接觸和干擾下保持動態穩定,同時精確復現參考動作。這不僅是美學追求,更是實現移動操作、表達性交互等復雜人形機器人能力的基礎。

近年來,基于學習的運動追蹤取得長足進展,借助強化學習,單一控制器已能高精度完成舞蹈、空翻等高動態動作。然而,隨著運動庫向更大規模、更多風格和復雜接觸模式擴展,一個難題持續浮現:追蹤質量顯著下降。

這一困境源于當前訓練流程中兩個相互疊加的障礙。首先是仿真中的學習瓶頸:現有方法多采用簡單的策略網絡表示,面對異構動作目標時,其表達能力隨數據多樣性增加而迅速飽和;同時,用強化學習統一訓練多任務會加劇梯度干擾,導致高動態行為上的保守平均或選擇性失敗。

其次是物理可執行性瓶頸:即便仿真中表現優異,遷移到真實機器人仍面臨挑戰,因為現有建模忽略了扭矩-速度非線性、再生功率等關鍵驅動器特性,這些因素在高動態運動中會引發執行失穩。

為系統應對上述挑戰,研究團隊提出了OMNIXTREME框架。該框架通過流匹配策略進行“專家到統一”的生成式預訓練,以高容量模型擴展表達能力,同時避開多任務強化學習的干擾。

隨后引入殘差強化學習后訓練階段,結合考慮驅動特性的建模、精細化隨機化和功率安全約束,將預訓練策略精煉至可真實執行。

該設計使單一策略既能規模化學習多樣化技能,又能穩健部署于物理硬件,有效突破傳統高動態人形機器人控制中的保真度瓶頸。

02.

三階段完成策略訓練

高度對齊真實硬件特性

具體來看,OMNIXTREME的整體框架包含三個環環相扣的階段。在預訓練階段,研究者通過基于DAgger的流匹配方法訓練出一個統一的基策略,其核心目標是從多個專注于單一運動的專家策略中,聚合多樣化的運動先驗。

隨后進入后訓練階段,此時預訓練的基策略被凍結,一個輕量級的殘差策略在嚴格的電機約束、激進的領域隨機化以及功率安全正則化下進行優化,旨在彌合仿真環境與真實物理世界之間的動態差距。

最后是機載部署階段,整個推理流程經過優化,能夠實時且完全在機器人的機載計算機上執行,從而確保在復雜物理環境中的魯棒與敏捷控制。


▲OMNIXTREME框架

在可擴展的基于流的策略預訓練中,問題被形式化為一個蒸餾過程。觀測空間涵蓋了機器人的本體感覺信息、包含軀干姿態差異和參考運動目標的指令,以及過去的狀態歷史。

研究者的目標是為參考運動數據集中的每一個運動先訓練一個專家策略,然后將這些專家知識蒸餾到一個統一的、基于流的通用策略中。這個數據集本身也極具多樣性,融合了LAFAN1、AMASS、MimicKit和Reallusion等多個來源的行為模式和高動態動作,并統一重定向到宇樹G1機器人上。

專家策略的訓練采用近端策略優化算法,為每個特定運動生成一個教師策略。而將多個專家知識統一起來的關鍵在于流匹配目標函數。該函數通過學習一個速度場,將隨機噪聲逐步導向專家動作,從而掌握從任意狀態生成正確動作的泛化能力。

為了在預訓練階段就為未來的真實部署打下基礎,研究團隊在教師訓練和流匹配訓練中都采用了保真度保持的隨機化和噪聲策略。

盡管預訓練的基策略已經具備了魯棒的行為基礎,但在面對真實世界復雜的物理效應時,性能差距依然存在。為此,研究者引入了考慮驅動特性的后訓練階段,其核心是殘差策略建模。

在凍結基策略后,一個輕量級的MLP殘差策略被訓練用來產生修正動作。基策略提供主要的行為指引,而殘差策略則負責微調,共同生成最終的控制指令,并通過PPO算法以累積獎勵為監督進行優化。

為了讓殘差策略能夠應對真實世界的挑戰,后訓練環境中融入了大量考慮驅動特性的物理約束。包括激進的領域隨機化(擾動范圍和難度遠超預訓練階段)、初始姿態噪聲、隨機的地形臺階,并且特意放寬了終止閾值,允許策略在更大偏差下進行探索和糾錯。

其次是功率安全驅動正則化,通過引入對過大負向機械功率的懲罰,來抑制可能觸發真實硬件過流保護或熱應力的劇烈電機制動,尤其針對膝關節在高動態沖擊中的能量吸收過程進行約束。

最后,后訓練階段還通過精細的扭矩-速度約束來彌合驅動器建模的差距。研究者將真實的電機扭矩-速度工作包絡線直接集成到仿真中,根據關節速度和扭矩方向動態計算允許的最大扭矩,確保指令在物理上可實現。此外,還通過非線性摩擦項進一步模擬了驅動器內部的能量損耗。

這一系列結構化的措施,使得最終得到的控制器更安全、對干擾更魯棒,并與真實硬件特性高度對齊。

03.

平均成功率91.08%

端到端推理延遲僅10毫秒

為驗證OMNIXTREME在處理高動態人形機器人控制任務中的性能,研究團隊建立了一個雙層架構的運動庫,除了包含廣泛使用的LAFAN1標準基準數據集外,還特別打造了名為XtremeMotion的挑戰性數據集,其中包含翻轉、霹靂舞、雜技和武術等60種具備高動態強度和頻繁接觸切換的動作。

在與“從零開始的強化學習”以及“專家到統一MLP蒸餾”等基準方法的對比中,OMNIXTREME在各項模擬指標上均表現優異,特別是在面對高難度動作和未見過的運動序列時,其成功率和追蹤精度的領先優勢更為顯著。


▲OMNIXTREME與其他方法的對比

這證明了基于流匹配的生成式預訓練能更有效地擴展模型的表示能力,而不會像傳統方法那樣在運動類別增加時出現性能崩塌。

在實際硬件部署方面,研究者將該統一策略應用于宇樹G1人形機器人,并通過 TensorRT優化實現了約10毫秒的超低端到端推理延遲,確保機器人能以50Hz的頻率在機載端實時執行。實驗結果顯示,OMNIXTREME能夠在物理世界中穩定復現極限平衡、高速轉向和復雜的全身協調動作,平均成功率達到91.08%


▲真機部署成功率

消融實驗進一步揭示了“動作感知后訓練”的重要性:通過引入針對電機轉矩-速度特性的物理建模、更激進的領域隨機化,以及限制過度制動負載的功耗安全正則化,系統能有效緩解模擬與現實之間的差距。


▲消融實驗結果

具體而言,對于翻轉等沖擊性動作,電機包絡約束是關鍵;而對于霹靂舞等接觸密集型技能,隨機化和功耗監管則大幅提升了機器人處理接觸干擾與硬件保護的能力,從而避免了過流或電壓不穩導致的崩潰。

總體而言,這些實驗證實了OMNIXTREME的可擴展性,也為未來人形機器人邁向人類水平的靈巧運動提供了一條可能的實踐路徑。

04.

結語:打破保真度與可擴展性權衡后

下一步將融入高保真執行器特性

OMNIXTREME既緩解了規模擴大時的學習瓶頸,也解決了仿真到現實部署時的物理可執行性瓶頸。讓單一統一策略即可可靠執行多種極限動作,打破了傳統上保真度與可擴展性之間的權衡。

研究團隊稱,他們認為聯合擴展數據多樣性與模型容量對于提升人形機器人全身運動技能的泛化能力至關重要。隨著基于學習的控制器被推向更動態、更受硬件限制的場景,考慮執行器特性的建模正成為學習流程中的關鍵組成部分。

未來,通過融入高保真執行器特性,如電流、功率、扭矩以及速度相關的約束,研究人員能夠進一步縮小仿真與現實的差距,確保學習到的行為能夠無縫遷移到物理人形機器人上。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

老貓觀點
2026-04-02 13:02:45
山西一小吃店3人死亡,知情人:店鋪剛接手沒幾天,店主夫婦和小姨子凌晨加工“碗禿”時遇難,原計劃天亮后開展免費試吃活動慶祝新店開張

山西一小吃店3人死亡,知情人:店鋪剛接手沒幾天,店主夫婦和小姨子凌晨加工“碗禿”時遇難,原計劃天亮后開展免費試吃活動慶祝新店開張

揚子晚報
2026-04-03 07:31:50
900頁心血變廢紙!巴喬當年怒炒意大利足協 注定了意大利足球落寞

900頁心血變廢紙!巴喬當年怒炒意大利足協 注定了意大利足球落寞

仰臥撐FTUer
2026-04-03 05:30:14
退休人員也要繳費了!4月起執行,每月扣多少、誰能免,一次說清

退休人員也要繳費了!4月起執行,每月扣多少、誰能免,一次說清

閱微札記
2026-04-02 22:22:41
中國“房爺”涉嫌用非法資金在英國購7億房產,疑似身份曝光!

中國“房爺”涉嫌用非法資金在英國購7億房產,疑似身份曝光!

兵叔評說
2026-04-02 17:55:25
薅羊毛失敗!50萬婚紗費砸手里了,70名女子“嫁給自己”荒唐收場

薅羊毛失敗!50萬婚紗費砸手里了,70名女子“嫁給自己”荒唐收場

火山詩話
2026-04-02 06:26:48
蔣正全、拉齊尼、欒留偉、胡友平、李靜毅等,最后畫面公開

蔣正全、拉齊尼、欒留偉、胡友平、李靜毅等,最后畫面公開

環球網資訊
2026-04-02 15:05:50
美軍傷亡最新數據曝光!美防長:陸軍參謀長立即辭職

美軍傷亡最新數據曝光!美防長:陸軍參謀長立即辭職

大國之翼
2026-04-03 06:38:48
戰事未了美先言勝遭市場“打臉” 伊朗再發地面戰警告:絕不留活口

戰事未了美先言勝遭市場“打臉” 伊朗再發地面戰警告:絕不留活口

環球網資訊
2026-04-03 08:10:11
650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

復轉這些年
2026-04-01 09:06:39
伊朗稱擊中敵軍先進戰機

伊朗稱擊中敵軍先進戰機

財聯社
2026-04-03 03:56:29
勒布朗·詹姆斯:如果灰熊隊贏得2003年選秀狀元簽,他會選擇罷賽

勒布朗·詹姆斯:如果灰熊隊贏得2003年選秀狀元簽,他會選擇罷賽

好火子
2026-04-03 03:24:53
美軍對伊地面行動五大方案曝光 專家:最可能雙線并進

美軍對伊地面行動五大方案曝光 專家:最可能雙線并進

瑯琊閣梅莊主
2026-04-02 18:28:34
為啥中國人糖尿病世界第一?

為啥中國人糖尿病世界第一?

瑪麗姬絲
2026-04-02 19:59:11
留給美國時間不多了,伊朗戰爭打完后,世界就只剩一個超級大國了

留給美國時間不多了,伊朗戰爭打完后,世界就只剩一個超級大國了

觸摸史跡
2026-04-02 14:39:03
他賣了40%的“澳洲優思益”,共計10萬單,憑什么央視要對他追責?別呀,他還只是個孩子。

他賣了40%的“澳洲優思益”,共計10萬單,憑什么央視要對他追責?別呀,他還只是個孩子。

問道求真
2026-04-02 08:03:53
上海中山醫院心內科爆棚?回應:服務患者普通號常年不限號,近期換季再迎高峰

上海中山醫院心內科爆棚?回應:服務患者普通號常年不限號,近期換季再迎高峰

上觀新聞
2026-04-02 20:49:03
張雨綺直播帶貨情緒失控,怒懟拖延付款消費者:好說不聽,歹說不聽,都給你試用七天了

張雨綺直播帶貨情緒失控,怒懟拖延付款消費者:好說不聽,歹說不聽,都給你試用七天了

洪觀新聞
2026-04-02 09:58:46
打響抵制美食博主第一槍!成都一火鍋店張貼告示,表示一律不接待

打響抵制美食博主第一槍!成都一火鍋店張貼告示,表示一律不接待

火山詩話
2026-04-03 07:16:51
俄軍高級將領墜機身亡,6名總部軍官同時遇難

俄軍高級將領墜機身亡,6名總部軍官同時遇難

桂系007
2026-04-02 23:42:01
2026-04-03 09:27:00
機器人前瞻
機器人前瞻
專注于機器人報道的媒體
451文章數 10關注度
往期回顧 全部

科技要聞

戰火燒向科技公司!亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經要聞

全球石油危機或將蔓延

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

游戲
本地
時尚
手機
公開課

《生化危機9》新Mod 格蕾絲穿謝娃比基尼服裝

本地新聞

從學徒到世界冠軍,為什么說張雪的底氣在重慶?

為什么“這個顏色”成為今年頂流?這樣穿好看又治愈

手機要聞

價格壓不住了!驍龍8E6成本大漲:迭代旗艦起步價超5000元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版