337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北航,清華,北大聯(lián)合發(fā)布: 異構(gòu)智能體協(xié)同強(qiáng)化學(xué)習(xí)!

0
分享至





  • 論文標(biāo)題:Heterogeneous Agent Collaborative Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2603.02604
  • Github Page: https://zzx-peter.github.io/hacrl/
  • Huggingface: https://huggingface.co/papers/2603.02604

主要貢獻(xiàn)

  • 異構(gòu)協(xié)同強(qiáng)化學(xué)習(xí)(HACRL)新范式:多個(gè)在參數(shù)狀態(tài)、模型規(guī)模乃至架構(gòu)家族上存在異構(gòu)性的智能體,在訓(xùn)練階段共享經(jīng)過(guò)驗(yàn)證的 rollouts實(shí)現(xiàn)協(xié)同策略優(yōu)化,而在推理階段各自獨(dú)立部署執(zhí)行。該范式既不同于需協(xié)同執(zhí)行的多智能體強(qiáng)化學(xué)習(xí),也區(qū)別于單向的 "教師 — 學(xué)生" 知識(shí)蒸餾 ——HACRL 首次實(shí)現(xiàn)了異構(gòu)智能體間的雙向互學(xué)與獨(dú)立部署的統(tǒng)一:訓(xùn)練時(shí)協(xié)同優(yōu)化,推理時(shí)各自獨(dú)立運(yùn)行
  • 異構(gòu)協(xié)同策略優(yōu)化(HACPO)算法,通過(guò)四項(xiàng)關(guān)鍵技術(shù)彌合智能體間的能力與策略分布差異
  • 實(shí)驗(yàn)結(jié)果:在多個(gè)數(shù)學(xué)推理基準(zhǔn)上,使所有參與智能體的性能均獲得一致提升,平均性能超越基線方法3.3%,同時(shí)僅需一半的采樣成本,為實(shí)現(xiàn)高效的多智能體協(xié)同學(xué)習(xí)指明了新方向。

問(wèn)題背景:昂貴的 “單打獨(dú)斗”,寶貴的 “異構(gòu)數(shù)據(jù)”

  • 當(dāng)前大模型強(qiáng)化學(xué)習(xí)微調(diào)中,rollout 采樣與校驗(yàn)成本是整個(gè)微調(diào)流程的核心瓶頸,嚴(yán)重制約訓(xùn)練效率與規(guī)模化落地。同時(shí),現(xiàn)有的強(qiáng)化學(xué)習(xí)微調(diào)范式普遍采用孤立優(yōu)化范式,模型各自獨(dú)立采樣、驗(yàn)證與策略更新。這就導(dǎo)致模型生成的高質(zhì)量軌跡僅用于自訓(xùn)練迭代,寶貴探索經(jīng)驗(yàn)無(wú)法復(fù)用,樣本利用率極低,造成巨大算力浪費(fèi)。
  • 與此同時(shí),大模型生態(tài)呈現(xiàn)顯著異構(gòu)性,不同架構(gòu)、尺寸、狀態(tài)的模型面向同一任務(wù)生成的 rollouts,在任務(wù)目標(biāo)與格式上高度兼容,且攜帶互補(bǔ)知識(shí)。然而現(xiàn)有多智能體強(qiáng)化學(xué)習(xí)主要針對(duì)多智能體組成統(tǒng)一的系統(tǒng),無(wú)法支持異構(gòu)模型訓(xùn)練時(shí)協(xié)同優(yōu)化推理時(shí)各自獨(dú)立運(yùn)行的場(chǎng)景;知識(shí)蒸餾難主要針對(duì)同構(gòu)模型單向?qū)W習(xí),難以支持異構(gòu)模型的雙向?qū)W習(xí)。目前的范式中,異構(gòu)數(shù)據(jù)的價(jià)值沒(méi)有被有效發(fā)掘。

論文的核心問(wèn)題是:一個(gè)智能體能否利用其他異構(gòu)智能體生成的 rollouts 來(lái)同時(shí)提升效果和效率?

異構(gòu)智能體共享 Rollout:HACRL 范式

為了解決訓(xùn)練過(guò)程中模型的 “單打獨(dú)斗”,該工作提出了一個(gè)新方法HACRL (Heterogeneous Agent Collaborative Reinforcement Learning),多個(gè)異構(gòu)智能體在訓(xùn)練時(shí)可以共享彼此的 Rollout (Response + Reward),推理時(shí)則各自獨(dú)立完成任務(wù)。HACRL 范式使得原本獨(dú)立的智能體可以互相學(xué)習(xí),同時(shí)提高了 Rollout 利用率。

HACRL 和現(xiàn)有的其它范式可不能混為一談:

  • HACRL 不同于多智能體強(qiáng)化學(xué)習(xí) (MARL): HACRL 強(qiáng)調(diào)多個(gè)獨(dú)立的智能體在訓(xùn)練時(shí)共享 Rollout 進(jìn)行協(xié)同優(yōu)化,但是在推理時(shí)彼此是獨(dú)立的;MARL 則是多個(gè)智能體在推理時(shí)相互合作。總結(jié)來(lái)說(shuō),HACRL 訓(xùn)練多個(gè)獨(dú)立的模型,而 MARL 則是在訓(xùn)練一個(gè)整體的系統(tǒng)
  • HACRL 也不同于在線 / 離線的蒸餾: HACRL 支持多個(gè)異構(gòu)的智能體相互學(xué)習(xí),而蒸餾則是更強(qiáng)的教師模型單向地向弱小的學(xué)生模型傳遞知識(shí)。總結(jié)來(lái)說(shuō),HACRL 是異構(gòu)模型的相互學(xué)習(xí),而蒸餾則是同構(gòu)模型的單向傳遞



異構(gòu)智能體強(qiáng)化學(xué)習(xí) (HACRL) 與多智能體強(qiáng)化學(xué)習(xí) (MARL)、知識(shí)蒸餾 (KD)

核心算法:HACPO

HACRL 可不是簡(jiǎn)單的 Rollout 共享!因?yàn)楫悩?gòu)智能體之間存在著能力差異策略分布差異,如果異構(gòu)模型來(lái)自于不同的廠家,那么模型的分詞器也會(huì)不同,在共享數(shù)據(jù)時(shí)出現(xiàn)工程問(wèn)題。

為了求解 HACRL 問(wèn)題,該工作提出了一個(gè)新算法HACPO (Heterogeneous Agent Collaborative Policy Optimization)。它在基礎(chǔ)的強(qiáng)化學(xué)習(xí)優(yōu)化方法之上,引入了四項(xiàng)量身定制的修改,以彌合異構(gòu)智能體之間的能力與分布差異。同時(shí),該工作在理論證明了,利用自身和其它智能體 rollout 進(jìn)行的梯度更新方向,在期望上具有小于 90 度的夾角。這表明 HACPO 是有效的。



HACPO 的算法流程圖

1. 智能體能力感知的優(yōu)勢(shì)估計(jì) (Agent-Capability-Aware Advantage Estimation)

該工作提出了一種能力感知的估計(jì)器,它根據(jù)每個(gè)智能體的相對(duì)性能,為其分配不同的組間優(yōu)勢(shì)基線。直觀上,如果一個(gè)回應(yīng)由更強(qiáng)的智能體生成,其優(yōu)勢(shì)應(yīng)更高;若由更弱的智能體生成,則其優(yōu)勢(shì)應(yīng)更低。理論上,該估計(jì)器是無(wú)偏的。



2. 模型能力差異系數(shù) (Model Capabilities Discrepancy Coefficient)

為了鼓勵(lì)向更強(qiáng)的智能體學(xué)習(xí),同時(shí)對(duì)較弱的智能體保持保守,該工作使用能力比率來(lái)調(diào)節(jié)有效優(yōu)勢(shì)。能力比率



扮演兩個(gè)互補(bǔ)的角色:(i)基線校準(zhǔn)— 在估計(jì)能力感知基線時(shí)重新縮放獎(jiǎng)勵(lì),以對(duì)齊異構(gòu)智能體間的獎(jiǎng)勵(lì)統(tǒng)計(jì)量;(ii)梯度調(diào)制— 它作為一個(gè)類似學(xué)習(xí)率的因子,放大來(lái)自更強(qiáng)智能體的梯度,并衰減來(lái)自更弱智能體的梯度。調(diào)制后的優(yōu)勢(shì)為:



3. 指數(shù)重要性采樣 (Exponential Importance Sampling)

該工作采用序列級(jí)別的重要性比率并將其擴(kuò)展到異構(gòu)多智能體設(shè)置,同時(shí)引入了非梯度指數(shù)重加權(quán)。這種設(shè)計(jì)使智能體偏向于從那些輸出分布與其自身更一致的 rollout 中學(xué)習(xí)。對(duì)于具有不兼容分詞器的異構(gòu)智能體組合,將對(duì)應(yīng)反分詞器(detokenizer)得到文本,再使用目標(biāo)智能體的分詞器(tokenizer)重新進(jìn)行分詞。





4. 逐步裁剪 (Stepwise Clipping)

跨智能體重要性采樣比率在步驟之間和步驟內(nèi)部都會(huì)不規(guī)則地波動(dòng)。該工作首先對(duì)跨智能體回應(yīng)應(yīng)用非對(duì)稱裁剪邊界,以確保跨智能體回應(yīng)只能被降權(quán),而永遠(yuǎn)不會(huì)被增權(quán)。然后,應(yīng)用逐步裁剪策略,以防止跨智能體經(jīng)驗(yàn)在批次內(nèi)的后期更新中占據(jù)主導(dǎo)地位,從而提高訓(xùn)練穩(wěn)定性。



實(shí)驗(yàn)現(xiàn)象:尺有所短,寸有所長(zhǎng)

異構(gòu)模型間的取長(zhǎng)補(bǔ)短

實(shí)驗(yàn)設(shè)置與對(duì)比基線

該工作在 MATH 數(shù)據(jù)集 上選取 7500 道高質(zhì)量數(shù)學(xué)問(wèn)題,并在 七個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試 上評(píng)估 HACPO 的性能。為嚴(yán)格驗(yàn)證協(xié)同訓(xùn)練范式的有效性,將 HACPO 與下列三類基線方法進(jìn)行了對(duì)比:

  • 標(biāo)準(zhǔn)單智能體基線:包括 GRPO、GSPO(Rollout 成本相同,參數(shù)更新成本只有 HACPO 的一半
  • 等資源基線(GSPO×2):用雙倍 rollout 和更新次數(shù),以排除因?yàn)閿?shù)據(jù)量增大帶來(lái)的提升(Rollout 成本是 HACPO 的一倍,參數(shù)更新成本相同
  • 樸素協(xié)同基線(Naive):簡(jiǎn)單共享 rollouts 的多智能體設(shè)置,但不包含 HACPO 的創(chuàng)新模塊(Rollout 和參數(shù)更新成本都和 HACPO相同

該工作總結(jié)了三類異構(gòu),并分別進(jìn)行了驗(yàn)證實(shí)驗(yàn):



主實(shí)驗(yàn)結(jié)果

結(jié)果分析

該工作在狀態(tài)異構(gòu)、尺寸異構(gòu)、模型異構(gòu)三中 setting 下進(jìn)行了多種實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了 HACPO 的有效性。同時(shí),將 HACPO 的效果歸因?yàn)橐韵聝煞N機(jī)制:

  • 能力驅(qū)動(dòng)的指導(dǎo):強(qiáng)模型提供更多高質(zhì)量正確解,幫助弱模型更快提高。
  • 互補(bǔ)知識(shí)的交換:弱模型作為 “不同探索器”,會(huì)產(chǎn)生強(qiáng)模型較少覆蓋的推理路徑與信息性錯(cuò)誤,甚至少量強(qiáng)模型未采到的正確解,從而使強(qiáng)模型也獲得可學(xué)習(xí)的補(bǔ)充信號(hào)。

狀態(tài)異構(gòu):

弱模型(Qwen3-4B)提高7.1%,強(qiáng)模型(Qwen3-4B-Instruct)提高1.4%。模型異構(gòu)性低,因此主要是強(qiáng)模型幫助弱模型,而弱模型難以對(duì)強(qiáng)模型有幫助。



尺寸異構(gòu):

大小模型都有提升,Qwen3-1.7B-Base 提升2.6%,Qwen3-4B-Base 提升2.3%。盡管小模型的準(zhǔn)確率低于大模型,其仍然可以為大模型提供一些難以覆蓋到的錯(cuò)誤路徑和少量正確路徑,提供互補(bǔ)知識(shí)



模型異構(gòu):

即使模型異構(gòu)程度很大,兩個(gè)模型也都有提升。Qwen3-4B-Base 提高,Llama3.2-3B-Instruct 提高3.9%。這表明 HACPO 算法的通用性和魯棒性。



效率、效果雙提升:

等資源基線(GSPO×2)進(jìn)行對(duì)比,HACPO 僅使用一半的 Rollout 成本,就實(shí)現(xiàn)了3.3% 的性能提升

消融實(shí)驗(yàn)

對(duì)于核心算法 HACPO 中的四個(gè)模塊進(jìn)行消融,實(shí)驗(yàn)證明了缺失任何一個(gè)模塊都會(huì)導(dǎo)致模型性能的下降,表明了四個(gè)模塊都是有效的。同時(shí),指數(shù)重要性采樣中的最佳指數(shù)在不同的模型組合上也會(huì)有不同。

討論和展望

本文針對(duì)當(dāng)前智能體強(qiáng)化學(xué)習(xí)面臨的孤立優(yōu)化采樣成本高、異構(gòu)大模型生態(tài)知識(shí)利用效率低的核心行業(yè)痛點(diǎn),提出了異構(gòu)智能體協(xié)同強(qiáng)化學(xué)習(xí)(HACRL)全新范式。該范式突破知識(shí)蒸餾單向師生傳遞的固有局限,實(shí)現(xiàn)了訓(xùn)練階段異構(gòu)智能體協(xié)同優(yōu)化、推理階段獨(dú)立執(zhí)行的核心設(shè)計(jì)。

面向未來(lái),HACRL 范式的拓展方向主要包括以下幾個(gè)方面:一是將適用場(chǎng)景從數(shù)學(xué)推理任務(wù)延伸至代碼生成、多模態(tài)理解等更廣泛的大模型核心下游任務(wù),以驗(yàn)證其在通用場(chǎng)景下的普適性;二是探索更大規(guī)模的異構(gòu)智能體協(xié)同訓(xùn)練網(wǎng)絡(luò),深入研究智能體間相互學(xué)習(xí)的效果邊界與影響機(jī)制。此外,HACPO 的提出為跨異構(gòu)智能體的數(shù)據(jù)統(tǒng)一復(fù)用奠定了初步框架,未來(lái)在邁向通用人工智能(AGI)的進(jìn)程中,構(gòu)建跨模型、跨領(lǐng)域的統(tǒng)一知識(shí)學(xué)習(xí)平臺(tái)同樣是不可或缺的重要方向。

作者:第一作者為北京航空航天大學(xué)本科生張之夏與博士生黃子軒,通訊作者為北京航空航天大學(xué)班義琨教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
薩巴倫卡奪冠登頂積分榜,高芙升至第三,鄭欽文排名第26

薩巴倫卡奪冠登頂積分榜,高芙升至第三,鄭欽文排名第26

老癘體育解說(shuō)
2026-03-29 06:11:45
不服就干!比利時(shí)打響反華第一槍,通告全球,斷的就是中方退路

不服就干!比利時(shí)打響反華第一槍,通告全球,斷的就是中方退路

標(biāo)體
2026-03-29 07:43:54
張雪峰離世,紐約時(shí)報(bào)的評(píng)價(jià)戳中人心,這才是最真實(shí)的他

張雪峰離世,紐約時(shí)報(bào)的評(píng)價(jià)戳中人心,這才是最真實(shí)的他

喜歡歷史的阿繁
2026-03-29 05:43:42
4-2,打爆日本張本美和,王曼昱強(qiáng)勢(shì)復(fù)出,蒯曼陳幸同出戰(zhàn)世乒賽

4-2,打爆日本張本美和,王曼昱強(qiáng)勢(shì)復(fù)出,蒯曼陳幸同出戰(zhàn)世乒賽

冷桂零落
2026-03-28 15:36:03
亂套了,國(guó)民黨出現(xiàn)內(nèi)訌!馬英九拒接北京電話?大陸定下統(tǒng)一基調(diào)

亂套了,國(guó)民黨出現(xiàn)內(nèi)訌!馬英九拒接北京電話?大陸定下統(tǒng)一基調(diào)

無(wú)悔的燦爛人生
2026-03-28 20:44:52
演員李現(xiàn)發(fā)文:快折磨死我了!眼下杭州高發(fā),有人洗個(gè)熱水臉紅一整天

演員李現(xiàn)發(fā)文:快折磨死我了!眼下杭州高發(fā),有人洗個(gè)熱水臉紅一整天

都市快報(bào)橙柿互動(dòng)
2026-03-28 10:19:28
伊朗遲遲不投降,美將臟水甩給中國(guó),話音剛落,中方對(duì)美發(fā)起調(diào)查

伊朗遲遲不投降,美將臟水甩給中國(guó),話音剛落,中方對(duì)美發(fā)起調(diào)查

凡知
2026-03-29 09:55:27
二戰(zhàn)后,地表上有1億顆地雷,人工清理要4000年,被一種動(dòng)物搞定

二戰(zhàn)后,地表上有1億顆地雷,人工清理要4000年,被一種動(dòng)物搞定

芳芳?xì)v史燴
2026-03-25 23:19:30
2026嚴(yán)查違規(guī)雙薪!機(jī)關(guān)退休人員兼職務(wù)必守紅線

2026嚴(yán)查違規(guī)雙薪!機(jī)關(guān)退休人員兼職務(wù)必守紅線

小鹿姐姐情感說(shuō)
2026-03-27 00:20:23
后怕!嘉興一酒吧突發(fā)爆燃!

后怕!嘉興一酒吧突發(fā)爆燃!

浙江消防
2026-03-29 09:36:55
“只要愿意賣,啥電腦都收”,二手舊電腦回收行情大漲,回收商:漲幅遠(yuǎn)超手機(jī)價(jià)格,翻了5倍,16G內(nèi)存條幾十塊錢,漲到了五六百

“只要愿意賣,啥電腦都收”,二手舊電腦回收行情大漲,回收商:漲幅遠(yuǎn)超手機(jī)價(jià)格,翻了5倍,16G內(nèi)存條幾十塊錢,漲到了五六百

觀威海
2026-03-28 18:47:03
“穿黑衣服的,一眼窮人”,女生宿舍比富視頻火了,差距一目了然

“穿黑衣服的,一眼窮人”,女生宿舍比富視頻火了,差距一目了然

妍妍教育日記
2026-03-28 07:05:05
四川多地清理整治不規(guī)范地名:殺人坳、一群豬、屙屎梁等擬更名

四川多地清理整治不規(guī)范地名:殺人坳、一群豬、屙屎梁等擬更名

澎湃新聞
2026-03-28 15:08:26
蘋果加這兩樣煮水喝,沾床就睡!連打雷都叫不醒!

蘋果加這兩樣煮水喝,沾床就睡!連打雷都叫不醒!

阿天愛(ài)旅行
2026-03-29 00:12:41
意外強(qiáng)援!伊拉克軍部發(fā)言人放話:伊朗要是輸了,我們直接出兵!

意外強(qiáng)援!伊拉克軍部發(fā)言人放話:伊朗要是輸了,我們直接出兵!

三農(nóng)老歷
2026-03-29 09:40:25
3月29日,券商給予評(píng)級(jí)并且給出目標(biāo)價(jià)的公司一覽

3月29日,券商給予評(píng)級(jí)并且給出目標(biāo)價(jià)的公司一覽

A股數(shù)據(jù)表
2026-03-29 06:40:06
劉曉慶親妹反擊了!揭沒(méi)養(yǎng)老金領(lǐng) 痛心姊姊晚年被「榨干骨髓」

劉曉慶親妹反擊了!揭沒(méi)養(yǎng)老金領(lǐng) 痛心姊姊晚年被「榨干骨髓」

ETtoday星光云
2026-03-27 10:38:07
送別張雪峰!汪涵親自到場(chǎng),張睿托人送花,學(xué)生拿錄取書趕赴悼念

送別張雪峰!汪涵親自到場(chǎng),張睿托人送花,學(xué)生拿錄取書趕赴悼念

離離言幾許
2026-03-28 15:02:25
CBA打到現(xiàn)在,賀希寧619分,胡金秋534分,那徐杰,張鎮(zhèn)麟多少分

CBA打到現(xiàn)在,賀希寧619分,胡金秋534分,那徐杰,張鎮(zhèn)麟多少分

郝小小看體育
2026-03-29 08:13:39
被導(dǎo)彈打怕了?以色列向聯(lián)合國(guó)抗議,稱伊朗用集束炸彈違反國(guó)際法

被導(dǎo)彈打怕了?以色列向聯(lián)合國(guó)抗議,稱伊朗用集束炸彈違反國(guó)際法

混沌錄
2026-03-28 19:43:17
2026-03-29 10:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

副部級(jí)高官任上落馬 十天前仍參加省政協(xié)會(huì)議

頭條要聞

副部級(jí)高官任上落馬 十天前仍參加省政協(xié)會(huì)議

體育要聞

全球第二大車企,也救不了這支德甲隊(duì)?

娛樂(lè)要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

房產(chǎn)
健康
教育
數(shù)碼
家居

房產(chǎn)要聞

首日430組來(lái)訪,單日120組認(rèn)籌!海口首個(gè)真四代,徹底爆了!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

“家破成這樣,還好意思拍視頻?”家長(zhǎng)曬學(xué)霸孩子,反被嘲太邋遢

數(shù)碼要聞

博主為蘋果MacBook Neo改裝水冷散熱,單核性能暴漲18.6%

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版