![]()
離線強化學習(Offline RL)的一大難點是:訓練數據固定、質量參差不齊。近兩年,Decision Transformer(DT)等基于 Transformer 的方法因為把決策建模成條件序列生成而受到關注,但它們往往把「整條軌跡」作為學習單位:如果一條軌跡的最終回報不高,軌跡中間即便出現過有效動作與局部成功,也容易被整體低回報「稀釋」。
針對這一痛點,山東大學、中科院、理想汽車與清華大學的研究團隊聯合提出了一種名為PRGS(Peak-Return Greedy Slicing)的新框架。
PRGS 的目標是在不改變離線數據來源的前提下,從原始軌跡中自動篩選出更有學習價值的子軌跡(sub-trajectories),用于訓練 Transformer 型離線 RL 方法,并在推理階段進一步避免「糟糕歷史」對當前決策的干擾。
在 D4RL、BabyAI 等主流榜單上,PRGS 不僅超越各種基線方法,更讓 Transformer 類方法的平均性能提升了 15.8%!
本論文的第一作者徐志偉,山東大學通用智能實驗室助理教授。于 2024 年在中國科學院自動化研究所獲博士學位,研究內容主要為強化學習、多智能體系統與基于大語言模型的 AI Agent。曾獲得 2025 年度中國智能體與多智能體系統優秀博士論文提名等榮譽。
目前,該論文已接收于國際計算機頂級會議 ICLR 2026。ICLR(International Conference on Learning Representations)是機器學習與表示學習領域的國際頂級會議之一,與 NeurIPS、ICML 并列為人工智能方向最具影響力的學術會議。本次 ICLR 2026 共有接近 19000 篇有效投稿,接收率約為 28%。
![]()
- 論文標題:Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
- 論文鏈接:
- https://openreview.net/pdf?id=7vpehpWnnY
01 痛點:按「整條軌跡」學習,粒度不夠細
在離線 RL 中,數據是固定的,不能像在線 RL 那樣去不斷試錯。現有的 Transformer-based 方法(如 DT),本質上是在做條件序列建模。它們通常以「最終回報(Final Return)」為條件來生成動作。
這帶來的問題是顯而易見的:
- 粒度偏粗:模型只能看到一條軌跡的整體回報信號,難以區分軌跡內部不同時間段的質量差異。
- 縫合能力缺失:由于缺乏局部優化目標,模型很難從多個平庸策略中提取出最優片段并組合成新的完美策略。
雖然也有研究試圖通過重采樣或加權來緩解,但大多治標不治本,沒有深入到時間步(Timestep)級別去精細化操作。而PRGS 的出現,正是為了打破這一僵局。
02 核心解法:從全局建模到精細化切片
PRGS(Peak-Return Greedy Slicing)可以理解為一個面向 Transformer 離線 RL 的數據處理與推理增強框架,包含三部分:回報估計、貪心切片、推理時自適應截斷。
![]()
它的核心邏輯非常像人類的學習過程:回顧過去的經歷,哪怕結局是失敗的,也要找出其中做得最好的那一段,刻在腦子里。
PRGS 包含三個環環相扣的模塊:
第一步:MMD-based Return Estimator:用分布視角做更「樂觀」的回報估計
PRGS 首先需要回答:在軌跡內部,哪些時間段更可能帶來高回報?為此作者引入基于最大均值差異(MMD)的回報估計器,用來刻畫狀態-動作對的潛在回報分布。
不同于傳統的均值預測,MMD 估計器能預測狀態-動作對的潛在回報分布。通過對分布采樣并取 Top-n 均值,PRGS 獲得了一個樂觀的回報估計值。簡單來說就是:它能挖掘出當前狀態下可能達到的最好結果,而不是平均結果。
第二步:Greedy Subtrajectory Slicing:圍繞峰值回報做遞歸切片
在得到每個時間步的「樂觀回報」后,PRGS 對單條軌跡執行貪心切片:PRGS 會掃描整條軌跡,計算每個時間步的「樂觀回報」。然后,它會找到那個回報最高的點——峰值點(Peak Point)。
- 切。以這個峰值點為界,從起點到峰值點的這一段,被認定為「高質量子軌跡」,直接拿去訓練 Transformer。
- 再切。剩下的部分,再重新找峰值,繼續切,直到切完為止。
這種遞歸式的貪心策略,把長軌跡拆成一組更短、質量更聚焦的子軌跡,從而讓 Transformer 在訓練中更頻繁地接觸到「相對高回報」的決策片段。
第三步:Adaptive History Truncation:推理階段的自適應截斷
PRGS 還考慮了一個實際問題:模型訓練時看到的是「從軌跡中段截取出來的子軌跡」,推理時如果始終把所有歷史上下文都喂給模型,早期的低質量動作可能會干擾后續決策。
PRGS 引入了一種自適應歷史截斷機制(AHT):每走一步,模型都會評估當前狀態的價值。如果發現現在的處境比歷史記錄顯示的更有前途,說明之前的歷史已經不僅沒用,反而成了累贅。這時候,模型會果斷失憶,丟掉歷史上下文,輕裝上陣。
03 實驗:多場景達到 SOTA 表現,復雜場景更強
研究團隊在D4RL(連續控制)、BabyAI(自然語言指令跟隨)以及AuctionNet(大規模廣告競價)三個截然不同的基準上進行了測試。
D4RL 場景中表現驚艷
在經典的 MuJoCo 和 AntMaze 任務中,PRGS 的表現堪稱驚艷。特別是在需要極強「縫合能力」的Maze2D-Large迷宮任務中,DT-PRGS 的得分高達127.5,而原始 DT 只有不到 30 分。
![]()
在迷宮任務中的可視化結果也顯示,通過 PRGS 提取出的子軌跡,精準地覆蓋了通往目標的「黃金路徑」,幾乎剔除了所有繞彎路的無效探索。
![]()
真實業務場景的潛力
除了學術榜單,PRGS 在AuctionNet(阿里媽媽開源的廣告競價數據集)上也表現出色。相比于 BC(行為克隆),加持了 PRGS 后的 BC 算法在多個周期內實現了顯著的利潤提升。
![]()
04 總結與展望
PRGS 的成功證明了一件事:在離線強化學習中,數據不僅要「多」,更要「精」。
通過MMD 估計器、貪心切片和自適應截斷這套組合拳,PRGS 成功地讓 Transformer 具備了「取其精華,去其糟粕」的能力。這一成果也為自動駕駛、機器人控制等工業級應用提供了極具價值的技術參考。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.