網易首頁 > 網易號 > 正文申請入駐

讓離線強化學習從「局部描摹」變「全局布局」丨ICLR'26

2026-04-06 13:33:32　來源: 量子位

北京舉報

分享至

面對復雜連續任務的長程規劃，現有的生成式離線強化學習方法往往會暴露短板。

它們生成的軌跡經常陷入局部合理但全局偏航的窘境。

它們太關注眼前的每一步，卻忘了最終的目的地。

針對這一痛點，廈門大學和香港科技大學提出一種名為MAGE（魔法師，Multi-scale Autoregressive Generation）的離線強化學習新算法。

MAGE與現有序列生成方法不同，MAGE采用自頂向下的“由粗到細”生成策略，先建模軌跡的宏觀規劃，再逐步細化微觀細節。

MAGE的核心思路非常符合人類的直覺：“自頂向下、由粗到細”。

這就好比畫一幅素描，你不會一上來就描繪眼睛的睫毛，而是先畫出整體的身體輪廓（宏觀規劃），再逐步細化五官和表情

（微觀動作）

△MAGE的思考過程

從一場”迷宮尋寶“揭示AI規劃的盲區

為了直觀展示現有模型的缺陷，研究團隊設計了一個迷宮吃金幣小實驗。智能體需要從隨機起點出發，依靠對環境的長程空間理解，先吃銀幣，再吃金幣，最后抵達終點。

△各個算法在迷宮環境的表現

然而，面對這種需要全局規劃的場景，現有的模型紛紛暴露了缺陷。

Decision Transformer受限于單向自回歸特性帶來的全局上下文缺失，它在長程規劃中完全迷失方向，最終連終點都未能抵達。
Decision Diffuser則由于擴散模型固有的局部生成偏差，生成的軌跡往往只能保證局部合理；雖然智能體抵達了終點，卻遺漏了關鍵的一枚金幣，全局連貫性較差。
Hierarchical Diffuser雖然嘗試通過分層結構建模全局軌跡，但由于其固定的雙層結構過于僵硬高低層策略之間缺乏有效協同，生成的軌跡甚至出現了物理違規的“穿墻”現象，全局規劃與局部動作嚴重脫節。

相比之下，MAGE則通過多尺度“從粗到細”的生成架構成功完成了任務。它首先在最粗的時間尺度上勾勒出包含所有關鍵節點的宏觀全局輪廓，隨后利用多尺度Transformer在更細的時間尺度上逐層細化，順利規劃出完整的路徑。

MAGE的核心思路：從畫大綱到扣細節

MAGE采用“自頂向下、由粗到細”的生成方式。MAGE包含兩大核心模塊，并輔以精確的控制機制：

△MAGE的架構圖

MTAE多尺度軌跡自編碼器：MAGE將長序列軌跡轉化為從粗到細的多尺度離散Token。粗尺度的Token負責掌控全局長程結構，最細尺度的Token則詳細建模短期的動態細節。

多尺度條件引導自回歸生成：模型使用Transformer序列化地生成這些多尺度Token。在生成每層時，都會嚴格以“目標回報”和“初始狀態”作為條件進行約束，確保智能體的每一步都在朝著最終目標前進。

條件引導細化與動作決策：因為把連續世界變成離散Token會丟失信息，普通的生成過程容易讓軌跡起點偏離現實。為此，MAGE在解碼器中集成了輕量級的適配器（adapter）模塊，并引入了條件引導損失函數Lcond，強制解碼出的初始狀態與真實環境是精確對齊的。最后，通過潛在逆動力學模型決定最終的動作。

實驗表現：長序列任務全面超越，推理速度滿足實時控制

研究團隊在包含Adroit、Franka Kitchen、AntMaze等5個離線RL基準測試中，將MAGE與15種具有代表性的基線算法進行了廣泛的評估。

多任務表現出色

在極具挑戰的高維連續控制Adroit機械臂任務中，面對極其稀疏的獎勵，MAGE實現了顯著的性能提升，大幅優于對比方法。在強調子目標執行順序的Franka Kitchen組合任務中，MAGE憑借捕獲全局結構和局部細節的能力，以相當大的優勢超越了所有競爭算法。

在迷宮導航任務中，MAGE在所有數據集上均取得了最佳性能，證明了其處理長序列導航任務的卓越能力。

極高的推理效率與部署潛力

MAGE在保持高性能的同時，實現了出色的計算效率平衡。實驗數據表明，MAGE的運行速度比Hierarchical Diffuser快約50倍，比Decision Diffuser快80倍。其每步推理時間保持在27毫秒，完美滿足了真實機器人控制所要求的20 Hz實時運行門檻。

結語

MAGE成功地將多尺度軌跡建模與條件引導相結合，通過“從粗到細”的自回歸框架生成連貫且可控的高回報軌跡。當有一天，機器人不再需要人類一口一口地“喂”獎勵，而是能夠自主審視全局，制定長遠計劃并流暢執行時，也許具身智能的下一個奇點就真正到來了。

論文鏈接：
https://arxiv.org/abs/2602.23770
開源代碼：
https://github.com/xmu-rl-3dv/MAGE
實驗室主頁：
https://asc.xmu.edu.cn/

作者介紹：
本文第一作者來自廈門大學空間感知與計算實驗室（ASC Lab）2024級碩士生林晨興、2025級碩士生高鑫輝，通訊作者為廈門大學沈思淇副教授，并由張海鵬、李欣然（香港科技大學）、王海濤、梅松竹副研究員、劉偉權副教授（集美大學）、王程教授共同合作完成。研究團隊長期聚焦于強化學習，多智能體系統以及大模型智能體。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.