337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

山大、理想汽車和中科院聯合提出新范式:讓Transformer去其糟粕

0
分享至



離線強化學習(Offline RL)的一大難點是:訓練數據固定、質量參差不齊。近兩年,Decision Transformer(DT)等基于 Transformer 的方法因為把決策建模成條件序列生成而受到關注,但它們往往把「整條軌跡」作為學習單位:如果一條軌跡的最終回報不高,軌跡中間即便出現過有效動作與局部成功,也容易被整體低回報「稀釋」。

針對這一痛點,山東大學、中科院、理想汽車與清華大學的研究團隊聯合提出了一種名為PRGS(Peak-Return Greedy Slicing)的新框架。

PRGS 的目標是在不改變離線數據來源的前提下,從原始軌跡中自動篩選出更有學習價值的子軌跡(sub-trajectories),用于訓練 Transformer 型離線 RL 方法,并在推理階段進一步避免「糟糕歷史」對當前決策的干擾。

在 D4RL、BabyAI 等主流榜單上,PRGS 不僅超越各種基線方法,更讓 Transformer 類方法的平均性能提升了 15.8%!

本論文的第一作者徐志偉,山東大學通用智能實驗室助理教授。于 2024 年在中國科學院自動化研究所獲博士學位,研究內容主要為強化學習、多智能體系統與基于大語言模型的 AI Agent。曾獲得 2025 年度中國智能體與多智能體系統優秀博士論文提名等榮譽。

目前,該論文已接收于國際計算機頂級會議 ICLR 2026。ICLR(International Conference on Learning Representations)是機器學習與表示學習領域的國際頂級會議之一,與 NeurIPS、ICML 并列為人工智能方向最具影響力的學術會議。本次 ICLR 2026 共有接近 19000 篇有效投稿,接收率約為 28%。



  • 論文標題:Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
  • 論文鏈接:
  • https://openreview.net/pdf?id=7vpehpWnnY

01 痛點:按「整條軌跡」學習,粒度不夠細

在離線 RL 中,數據是固定的,不能像在線 RL 那樣去不斷試錯。現有的 Transformer-based 方法(如 DT),本質上是在做條件序列建模。它們通常以「最終回報(Final Return)」為條件來生成動作。

這帶來的問題是顯而易見的:

  • 粒度偏粗:模型只能看到一條軌跡的整體回報信號,難以區分軌跡內部不同時間段的質量差異。

  • 縫合能力缺失:由于缺乏局部優化目標,模型很難從多個平庸策略中提取出最優片段并組合成新的完美策略。

雖然也有研究試圖通過重采樣或加權來緩解,但大多治標不治本,沒有深入到時間步(Timestep)級別去精細化操作。而PRGS 的出現,正是為了打破這一僵局。

02 核心解法:從全局建模到精細化切片

PRGS(Peak-Return Greedy Slicing)可以理解為一個面向 Transformer 離線 RL 的數據處理與推理增強框架,包含三部分:回報估計、貪心切片、推理時自適應截斷。



它的核心邏輯非常像人類的學習過程:回顧過去的經歷,哪怕結局是失敗的,也要找出其中做得最好的那一段,刻在腦子里。

PRGS 包含三個環環相扣的模塊:

第一步:MMD-based Return Estimator:用分布視角做更「樂觀」的回報估計

PRGS 首先需要回答:在軌跡內部,哪些時間段更可能帶來高回報?為此作者引入基于最大均值差異(MMD)的回報估計器,用來刻畫狀態-動作對的潛在回報分布。

不同于傳統的均值預測,MMD 估計器能預測狀態-動作對的潛在回報分布。通過對分布采樣并取 Top-n 均值,PRGS 獲得了一個樂觀的回報估計值。簡單來說就是:它能挖掘出當前狀態下可能達到的最好結果,而不是平均結果。

第二步:Greedy Subtrajectory Slicing:圍繞峰值回報做遞歸切片

在得到每個時間步的「樂觀回報」后,PRGS 對單條軌跡執行貪心切片:PRGS 會掃描整條軌跡,計算每個時間步的「樂觀回報」。然后,它會找到那個回報最高的點——峰值點(Peak Point)。

  • 切。以這個峰值點為界,從起點到峰值點的這一段,被認定為「高質量子軌跡」,直接拿去訓練 Transformer。

  • 再切。剩下的部分,再重新找峰值,繼續切,直到切完為止。

這種遞歸式的貪心策略,把長軌跡拆成一組更短、質量更聚焦的子軌跡,從而讓 Transformer 在訓練中更頻繁地接觸到「相對高回報」的決策片段。

第三步:Adaptive History Truncation:推理階段的自適應截斷

PRGS 還考慮了一個實際問題:模型訓練時看到的是「從軌跡中段截取出來的子軌跡」,推理時如果始終把所有歷史上下文都喂給模型,早期的低質量動作可能會干擾后續決策。

PRGS 引入了一種自適應歷史截斷機制(AHT):每走一步,模型都會評估當前狀態的價值。如果發現現在的處境比歷史記錄顯示的更有前途,說明之前的歷史已經不僅沒用,反而成了累贅。這時候,模型會果斷失憶,丟掉歷史上下文,輕裝上陣。

03 實驗:多場景達到 SOTA 表現,復雜場景更強


研究團隊在D4RL(連續控制)、BabyAI(自然語言指令跟隨)以及AuctionNet(大規模廣告競價)三個截然不同的基準上進行了測試。

D4RL 場景中表現驚艷

在經典的 MuJoCo 和 AntMaze 任務中,PRGS 的表現堪稱驚艷。特別是在需要極強「縫合能力」的Maze2D-Large迷宮任務中,DT-PRGS 的得分高達127.5,而原始 DT 只有不到 30 分。



在迷宮任務中的可視化結果也顯示,通過 PRGS 提取出的子軌跡,精準地覆蓋了通往目標的「黃金路徑」,幾乎剔除了所有繞彎路的無效探索。



真實業務場景的潛力

除了學術榜單,PRGS 在AuctionNet(阿里媽媽開源的廣告競價數據集)上也表現出色。相比于 BC(行為克隆),加持了 PRGS 后的 BC 算法在多個周期內實現了顯著的利潤提升。



04 總結與展望


PRGS 的成功證明了一件事:在離線強化學習中,數據不僅要「多」,更要「精」。

通過MMD 估計器、貪心切片和自適應截斷這套組合拳,PRGS 成功地讓 Transformer 具備了「取其精華,去其糟粕」的能力。這一成果也為自動駕駛、機器人控制等工業級應用提供了極具價值的技術參考。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
32934票,拉波爾塔成巴薩歷史上單次選舉得票數第二高的主席

32934票,拉波爾塔成巴薩歷史上單次選舉得票數第二高的主席

懂球帝
2026-03-16 08:14:16
日本:目前沒有計劃向霍爾木茲海峽派遣艦艇

日本:目前沒有計劃向霍爾木茲海峽派遣艦艇

環球網資訊
2026-03-16 12:18:20
武大楊某媛考上公務員的事反轉了

武大楊某媛考上公務員的事反轉了

大張的自留地
2026-03-14 16:18:29
連續128場20+!亞歷山大20+10驚險延續紀錄 雷霆8連勝擒森林狼

連續128場20+!亞歷山大20+10驚險延續紀錄 雷霆8連勝擒森林狼

羅說NBA
2026-03-16 04:20:16
特朗普稱美國可能很快與古巴達成協議

特朗普稱美國可能很快與古巴達成協議

每日經濟新聞
2026-03-16 09:31:35
削發明志!陳熠發文稱六年后再次剪短發,輸給大藤沙月讓她太痛苦

削發明志!陳熠發文稱六年后再次剪短發,輸給大藤沙月讓她太痛苦

鳳幻洋
2026-03-16 16:40:03
同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

阿龍美食記
2026-02-23 17:00:18
收官戰!中國女籃VS巴西,央視換下于嘉,李月汝韓旭為何不及預期

收官戰!中國女籃VS巴西,央視換下于嘉,李月汝韓旭為何不及預期

體育大學僧
2026-03-16 11:57:22
雞蛋被指人工添加角黃素,黃天鵝連夜發律師函,胖東來:如復檢沒問題會起訴博主

雞蛋被指人工添加角黃素,黃天鵝連夜發律師函,胖東來:如復檢沒問題會起訴博主

界面新聞
2026-03-16 11:25:12
NBA排名大變臉!火箭湖人搶第3,3隊爭西部第5,騎士隊第4難保

NBA排名大變臉!火箭湖人搶第3,3隊爭西部第5,騎士隊第4難保

兵哥籃球故事
2026-03-16 18:40:27
日本女籃1勝3負出線告急:需同時滿足三條件!田中心已被研究透徹

日本女籃1勝3負出線告急:需同時滿足三條件!田中心已被研究透徹

顏小白的籃球夢
2026-03-16 12:29:05
銀行也有跪式服務了…

銀行也有跪式服務了…

微微熱評
2026-03-15 22:37:43
深度 | 戰爭重心轉移,互捏對方軟肋,“海峽牌”VS“小島牌”,誰會贏?

深度 | 戰爭重心轉移,互捏對方軟肋,“海峽牌”VS“小島牌”,誰會贏?

上觀新聞
2026-03-15 20:26:26
高價彩禮的回旋鏢終于來了。

高價彩禮的回旋鏢終于來了。

老陸不老
2026-03-14 20:56:18
那我放心了,現在超多人失業。

那我放心了,現在超多人失業。

老陸不老
2026-03-16 16:42:39
中國小鎮狂攬全球60%電動工具訂單,德國博世慌了?

中國小鎮狂攬全球60%電動工具訂單,德國博世慌了?

財叔
2026-03-16 09:20:09
烏克蘭無人機猛襲莫斯科,再度超過俄羅斯發射的無人機數量

烏克蘭無人機猛襲莫斯科,再度超過俄羅斯發射的無人機數量

山河路口
2026-03-15 20:04:19
偶遇朱丹夫婦,周一圍拎著早餐不忘和老婆牽手,杭州買兩套大平層

偶遇朱丹夫婦,周一圍拎著早餐不忘和老婆牽手,杭州買兩套大平層

不甜的李子
2026-03-16 13:54:15
伊朗外長:沒有理由和美國談 特朗普:伊朗“很想談判”

伊朗外長:沒有理由和美國談 特朗普:伊朗“很想談判”

新華社
2026-03-16 15:49:07
“凌晨在北京去世、有8個男朋友” 75歲的劉曉慶私生活謠言太荒唐

“凌晨在北京去世、有8個男朋友” 75歲的劉曉慶私生活謠言太荒唐

老范談史
2026-03-16 16:51:56
2026-03-16 19:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12518文章數 142586關注度
往期回顧 全部

科技要聞

“龍蝦”當道,五位養蝦人探討人類出路

頭條要聞

日媒:中國衛星"監視"美軍基地 10分鐘經過日本上空1次

頭條要聞

日媒:中國衛星"監視"美軍基地 10分鐘經過日本上空1次

體育要聞

那個送老奶奶去醫院的球員 成了隊史第一人

娛樂要聞

姚晨曹郁發離婚聲明 多年前已結束婚姻

財經要聞

梁文鋒推遲V4,是為根治龍蝦的健忘癥?

汽車要聞

大眾全球首款9系旗艦SUV 上汽大眾ID.ERA 9X首秀

態度原創

教育
房產
親子
藝術
公開課

教育要聞

人生回報率最高的這10件事,孩子做對就能超越90%同齡人

房產要聞

操作真強!保利三亞,十年臘肉盤,要大規模商改住了!

親子要聞

萌娃爆笑問老媽年齡,腦袋里的想法太逗了

藝術要聞

吳冠中:春如線

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版