網易首頁 > 網易號 > 正文申請入駐

山大、理想汽車和中科院聯合提出新范式：讓Transformer去其糟粕

2026-03-16 11:27:33　來源: 機器之心Pro

河北舉報

分享至

離線強化學習（Offline RL）的一大難點是：訓練數據固定、質量參差不齊。近兩年，Decision Transformer（DT）等基于 Transformer 的方法因為把決策建模成條件序列生成而受到關注，但它們往往把「整條軌跡」作為學習單位：如果一條軌跡的最終回報不高，軌跡中間即便出現過有效動作與局部成功，也容易被整體低回報「稀釋」。

針對這一痛點，山東大學、中科院、理想汽車與清華大學的研究團隊聯合提出了一種名為PRGS（Peak-Return Greedy Slicing）的新框架。

PRGS 的目標是在不改變離線數據來源的前提下，從原始軌跡中自動篩選出更有學習價值的子軌跡（sub-trajectories），用于訓練 Transformer 型離線 RL 方法，并在推理階段進一步避免「糟糕歷史」對當前決策的干擾。

在 D4RL、BabyAI 等主流榜單上，PRGS 不僅超越各種基線方法，更讓 Transformer 類方法的平均性能提升了 15.8%！

本論文的第一作者徐志偉，山東大學通用智能實驗室助理教授。于 2024 年在中國科學院自動化研究所獲博士學位，研究內容主要為強化學習、多智能體系統與基于大語言模型的 AI Agent。曾獲得 2025 年度中國智能體與多智能體系統優秀博士論文提名等榮譽。

目前，該論文已接收于國際計算機頂級會議 ICLR 2026。ICLR（International Conference on Learning Representations）是機器學習與表示學習領域的國際頂級會議之一，與 NeurIPS、ICML 并列為人工智能方向最具影響力的學術會議。本次 ICLR 2026 共有接近 19000 篇有效投稿，接收率約為 28%。

論文標題：Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
論文鏈接：
https://openreview.net/pdf?id=7vpehpWnnY

01 痛點：按「整條軌跡」學習，粒度不夠細

在離線 RL 中，數據是固定的，不能像在線 RL 那樣去不斷試錯。現有的 Transformer-based 方法（如 DT），本質上是在做條件序列建模。它們通常以「最終回報（Final Return）」為條件來生成動作。

這帶來的問題是顯而易見的：

粒度偏粗：模型只能看到一條軌跡的整體回報信號，難以區分軌跡內部不同時間段的質量差異。

縫合能力缺失：由于缺乏局部優化目標，模型很難從多個平庸策略中提取出最優片段并組合成新的完美策略。

雖然也有研究試圖通過重采樣或加權來緩解，但大多治標不治本，沒有深入到時間步（Timestep）級別去精細化操作。而PRGS 的出現，正是為了打破這一僵局。

02 核心解法：從全局建模到精細化切片

PRGS（Peak-Return Greedy Slicing）可以理解為一個面向 Transformer 離線 RL 的數據處理與推理增強框架，包含三部分：回報估計、貪心切片、推理時自適應截斷。

它的核心邏輯非常像人類的學習過程：回顧過去的經歷，哪怕結局是失敗的，也要找出其中做得最好的那一段，刻在腦子里。

PRGS 包含三個環環相扣的模塊：

第一步：MMD-based Return Estimator：用分布視角做更「樂觀」的回報估計

PRGS 首先需要回答：在軌跡內部，哪些時間段更可能帶來高回報？為此作者引入基于最大均值差異（MMD）的回報估計器，用來刻畫狀態-動作對的潛在回報分布。

不同于傳統的均值預測，MMD 估計器能預測狀態-動作對的潛在回報分布。通過對分布采樣并取 Top-n 均值，PRGS 獲得了一個樂觀的回報估計值。簡單來說就是：它能挖掘出當前狀態下可能達到的最好結果，而不是平均結果。

第二步：Greedy Subtrajectory Slicing：圍繞峰值回報做遞歸切片

在得到每個時間步的「樂觀回報」后，PRGS 對單條軌跡執行貪心切片：PRGS 會掃描整條軌跡，計算每個時間步的「樂觀回報」。然后，它會找到那個回報最高的點——峰值點（Peak Point）。

切。以這個峰值點為界，從起點到峰值點的這一段，被認定為「高質量子軌跡」，直接拿去訓練 Transformer。

再切。剩下的部分，再重新找峰值，繼續切，直到切完為止。

這種遞歸式的貪心策略，把長軌跡拆成一組更短、質量更聚焦的子軌跡，從而讓 Transformer 在訓練中更頻繁地接觸到「相對高回報」的決策片段。

第三步：Adaptive History Truncation：推理階段的自適應截斷

PRGS 還考慮了一個實際問題：模型訓練時看到的是「從軌跡中段截取出來的子軌跡」，推理時如果始終把所有歷史上下文都喂給模型，早期的低質量動作可能會干擾后續決策。

PRGS 引入了一種自適應歷史截斷機制（AHT）：每走一步，模型都會評估當前狀態的價值。如果發現現在的處境比歷史記錄顯示的更有前途，說明之前的歷史已經不僅沒用，反而成了累贅。這時候，模型會果斷失憶，丟掉歷史上下文，輕裝上陣。

03 實驗：多場景達到 SOTA 表現，復雜場景更強

研究團隊在D4RL（連續控制）、BabyAI（自然語言指令跟隨）以及AuctionNet（大規模廣告競價）三個截然不同的基準上進行了測試。

D4RL 場景中表現驚艷

在經典的 MuJoCo 和 AntMaze 任務中，PRGS 的表現堪稱驚艷。特別是在需要極強「縫合能力」的Maze2D-Large迷宮任務中，DT-PRGS 的得分高達127.5，而原始 DT 只有不到 30 分。

在迷宮任務中的可視化結果也顯示，通過 PRGS 提取出的子軌跡，精準地覆蓋了通往目標的「黃金路徑」，幾乎剔除了所有繞彎路的無效探索。

真實業務場景的潛力

除了學術榜單，PRGS 在AuctionNet（阿里媽媽開源的廣告競價數據集）上也表現出色。相比于 BC（行為克隆），加持了 PRGS 后的 BC 算法在多個周期內實現了顯著的利潤提升。

04 總結與展望

PRGS 的成功證明了一件事：在離線強化學習中，數據不僅要「多」，更要「精」。

通過MMD 估計器、貪心切片和自適應截斷這套組合拳，PRGS 成功地讓 Transformer 具備了「取其精華，去其糟粕」的能力。這一成果也為自動駕駛、機器人控制等工業級應用提供了極具價值的技術參考。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.