Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
監(jiān)督式強(qiáng)化學(xué)習(xí):從專(zhuān)家軌跡到逐步推理
https://arxiv.org/pdf/2510.25992
![]()
大型語(yǔ)言模型(LLMs)在處理需要多步推理的問(wèn)題時(shí)常常表現(xiàn)不佳。對(duì)于小規(guī)模開(kāi)源模型而言,基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Verifiable Rewards, RLVR)在即使經(jīng)過(guò)多次嘗試也極少采樣到正確解的情況下會(huì)失效;而監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)則傾向于通過(guò)對(duì)長(zhǎng)演示進(jìn)行僵化的逐詞模仿而導(dǎo)致過(guò)擬合。為彌補(bǔ)這一差距,我們提出了監(jiān)督強(qiáng)化學(xué)習(xí)(Supervised Reinforcement Learning, SRL)——一種將問(wèn)題求解重新建模為生成一系列邏輯“動(dòng)作”的訓(xùn)練框架。SRL 訓(xùn)練模型在執(zhí)行每個(gè)動(dòng)作前先生成內(nèi)部推理獨(dú)白,并基于模型動(dòng)作與從 SFT 數(shù)據(jù)集中提取的專(zhuān)家動(dòng)作之間的相似度,以逐步方式提供更平滑的獎(jiǎng)勵(lì)信號(hào)。這種監(jiān)督機(jī)制即使在所有推理軌跡均錯(cuò)誤的情況下也能提供更豐富的學(xué)習(xí)信號(hào),同時(shí)借助專(zhuān)家演示引導(dǎo)模型進(jìn)行靈活推理。因此,SRL 使小型模型能夠?qū)W會(huì)以往通過(guò) SFT 或 RLVR 無(wú)法掌握的復(fù)雜問(wèn)題。此外,先以 SRL 初始化訓(xùn)練、再通過(guò) RLVR 進(jìn)行精調(diào),可獲得整體最優(yōu)性能。除推理基準(zhǔn)任務(wù)外,SRL 還能有效泛化至智能體軟件工程任務(wù),確立其作為面向推理的大型語(yǔ)言模型的一種穩(wěn)健且通用的訓(xùn)練框架的地位。
- 引言
大語(yǔ)言模型(LLMs)在一系列推理任務(wù)中展現(xiàn)出卓越的能力,包括解決數(shù)學(xué)問(wèn)題(Wang et al., 2025)、生成代碼(Jiang et al., 2024)以及智能體規(guī)劃(Li et al., 2025c; Xie et al., 2024)。近期一項(xiàng)重要進(jìn)展是利用強(qiáng)化學(xué)習(xí)(RL)來(lái)增強(qiáng)LLMs的復(fù)雜推理能力(Ahmadian et al., 2024; Lambert et al., 2024; Shao et al., 2024)。通過(guò)基于可驗(yàn)證結(jié)果(如最終答案的正確性)的獎(jiǎng)勵(lì)信號(hào)對(duì)模型進(jìn)行優(yōu)化,強(qiáng)化學(xué)習(xí)為激發(fā)有益的問(wèn)題求解策略(如自我反思(Guo et al., 2025; Xie et al., 2025))提供了一條可擴(kuò)展且前景廣闊的路徑。
這類(lèi)基于結(jié)果的強(qiáng)化學(xué)習(xí)方法的有效性從根本上依賴(lài)于策略模型在有限軌跡采樣(rollout)預(yù)算內(nèi)發(fā)現(xiàn)正確解的能力(Brown et al., 2024)。然而,受實(shí)際計(jì)算資源的限制,當(dāng)面對(duì)訓(xùn)練數(shù)據(jù)中具有挑戰(zhàn)性的問(wèn)題時(shí),該學(xué)習(xí)范式往往難以奏效——在這些問(wèn)題上,模型的成功率實(shí)際上為零(即使采樣條軌跡后,pass@率仍為零)。此類(lèi)情況在需要復(fù)雜多步推理的任務(wù)中日益普遍(Wang et al., 2024; Yue et al., 2025)。對(duì)于7B規(guī)模的LLM而言,一個(gè)錯(cuò)誤的中間步驟就可能導(dǎo)致整個(gè)推理鏈偏離正軌,從而無(wú)論是否存在部分正確的中間結(jié)果,都會(huì)產(chǎn)生負(fù)面的學(xué)習(xí)信號(hào)。此外,簡(jiǎn)單地懲罰所有錯(cuò)誤的最終輸出還可能進(jìn)一步引入訓(xùn)練不穩(wěn)定性并阻礙學(xué)習(xí)進(jìn)展,使得這些困難的推理任務(wù)對(duì)標(biāo)準(zhǔn)的基于結(jié)果的強(qiáng)化學(xué)習(xí)方法而言基本不可解(Xiong et al., 2025)。
另一種方法是模仿學(xué)習(xí),通常通過(guò)在專(zhuān)家示范上進(jìn)行監(jiān)督微調(diào)(SFT)來(lái)實(shí)現(xiàn)(Ross et al., 2011)。盡管SFT能夠注入有價(jià)值的推理行為,但其下一詞預(yù)測(cè)目標(biāo)強(qiáng)制模型進(jìn)行嚴(yán)格、逐詞級(jí)別的模仿,限制了模型在訓(xùn)練數(shù)據(jù)之外的泛化能力。當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模有限且模型本身能力相對(duì)較弱時(shí),這一問(wèn)題尤為突出。在此類(lèi)條件下,冗長(zhǎng)復(fù)雜的示范往往導(dǎo)致過(guò)擬合和淺層推理行為(Chu et al., 2025a; Li et al., 2025b),正如我們?cè)趫D1中觀察到的性能下降所示。因此,無(wú)論是SFT還是基于結(jié)果的強(qiáng)化學(xué)習(xí),在困難推理任務(wù)上均面臨挑戰(zhàn),這為訓(xùn)練小型開(kāi)源模型以有效學(xué)習(xí)難題留下了關(guān)鍵空白。
![]()
為填補(bǔ)這一空白,我們提出監(jiān)督強(qiáng)化學(xué)習(xí)(Supervised Reinforcement Learning, SRL),一個(gè)將問(wèn)題求解重新形式化為序列決策過(guò)程的框架。與優(yōu)化最終答案或模仿完整專(zhuān)家軌跡不同,SRL依據(jù)強(qiáng)化學(xué)習(xí)風(fēng)格的目標(biāo),訓(xùn)練模型復(fù)現(xiàn)專(zhuān)家推理背后的關(guān)鍵動(dòng)作序列。具體而言,專(zhuān)家示范被分解為一系列中間動(dòng)作,每個(gè)動(dòng)作代表一個(gè)有意義的決策步驟。在訓(xùn)練過(guò)程中,模型首先生成內(nèi)部獨(dú)白(internal monologue)以闡明其推理過(guò)程,隨后執(zhí)行一個(gè)“動(dòng)作”。在每一步,SRL根據(jù)模型預(yù)測(cè)動(dòng)作與對(duì)應(yīng)專(zhuān)家動(dòng)作之間的相似性提供獎(jiǎng)勵(lì),從而提供細(xì)粒度、高效可計(jì)算的監(jiān)督信號(hào),并可擴(kuò)展至大規(guī)模數(shù)據(jù)集。
本工作的貢獻(xiàn)如下: ? 我們提出SRL,一種新穎的框架,旨在使模型在SFT和RLVR難以應(yīng)對(duì)的困難推理任務(wù)上實(shí)現(xiàn)有效學(xué)習(xí),其通過(guò)基于與專(zhuān)家動(dòng)作相似性的密集且平滑的獎(jiǎng)勵(lì)實(shí)現(xiàn)這一目標(biāo)。 ? 我們?cè)诰哂刑魬?zhàn)性的數(shù)學(xué)推理和智能體軟件工程基準(zhǔn)測(cè)試上進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了SRL的有效性與魯棒性。結(jié)果表明,SRL在兩個(gè)領(lǐng)域均顯著優(yōu)于強(qiáng)基線(xiàn)方法(見(jiàn)5.1與5.3節(jié))。 ? 通過(guò)詳細(xì)分析,我們揭示了細(xì)粒度指導(dǎo)對(duì)SRL獎(jiǎng)勵(lì)機(jī)制及其對(duì)模型行為影響的關(guān)鍵作用。我們觀察到,SRL能夠誘導(dǎo)出靈活而復(fù)雜的推理模式,例如交錯(cuò)式的規(guī)劃與驗(yàn)證,從而在不單純?cè)黾虞敵鲩L(zhǎng)度的情況下提升解的質(zhì)量(見(jiàn)5.2節(jié))。
![]()
- 相關(guān)工作
2.1. 用于LLM推理的SFT(知識(shí)蒸餾)
通過(guò)對(duì)教師模型生成的長(zhǎng)思維鏈(Chain-of-Thought, CoT)推理過(guò)程進(jìn)行監(jiān)督微調(diào)(SFT)以將推理能力蒸餾至小型模型,已被證明是遷移復(fù)雜問(wèn)題求解技能的有效方法(Huang et al., 2024; Li et al., 2023; Min et al., 2024; Yeo et al., 2025),DeepSeek R1蒸餾所得的小型模型即為典型案例(Guo et al., 2025)。研究表明,該過(guò)程具有驚人的數(shù)據(jù)效率,小型但高質(zhì)量的數(shù)據(jù)集通常已足夠(Muennighoff et al., 2025; Ye et al., 2025)。鑒于其成功,研究者開(kāi)始關(guān)注實(shí)現(xiàn)有效SFT蒸餾的底層因素(Chen et al., 2025a)。部分研究強(qiáng)調(diào)推理軌跡的邏輯結(jié)構(gòu)而非其語(yǔ)義正確性(Luo et al., 2025; Stechly et al., 2025),因?yàn)槟P蜕踔聊軌驈陌聦?shí)性錯(cuò)誤的示范中學(xué)習(xí)(Li et al., 2025a)。此外,學(xué)生-教師能力差距仍構(gòu)成顯著挑戰(zhàn):當(dāng)學(xué)生模型面對(duì)過(guò)于復(fù)雜的數(shù)據(jù)時(shí)往往難以有效學(xué)習(xí)(Li et al., 2025b);同時(shí)存在“教師模型攻擊”(teacher hacking)風(fēng)險(xiǎn),即學(xué)生模型過(guò)度擬合教師模型的特定缺陷(Tiapkin et al., 2025)。歸根結(jié)底,從教師模型進(jìn)行蒸餾為學(xué)生模型的性能設(shè)定了上限(Huang et al., 2024)。
2.2. 用于LLM推理的強(qiáng)化學(xué)習(xí)
DeepSeek-R1的開(kāi)發(fā)(Guo et al., 2025)展示了基于規(guī)則的強(qiáng)化學(xué)習(xí)在增強(qiáng)LLM推理能力方面的有效性。該方法采用基于最終答案正確性的可擴(kuò)展獎(jiǎng)勵(lì)系統(tǒng),典型代表包括組相對(duì)策略?xún)?yōu)化(Group Relative Policy Optimization, GRPO)算法(Shao et al., 2024)以及各類(lèi)并行算法(Ahmadian et al., 2024; Lambert et al., 2024; Xie et al., 2025)。在此基礎(chǔ)上,后續(xù)研究引入了眾多算法改進(jìn)。例如,Dr. GRPO(Liu et al., 2025)通過(guò)移除方差歸一化以減輕偏差;DAPO(Yu et al., 2025)引入了詞元級(jí)損失函數(shù),并通過(guò)提高裁剪閾值放松策略更新約束。其他值得注意的進(jìn)展包括對(duì)裁剪方法、歸一化技術(shù)、KL散度損失以及動(dòng)態(tài)采樣策略的改進(jìn)(Chen et al., 2025b; Chu et al., 2025b; Zhang and Zuo, 2025; Zhang et al., 2025)。盡管存在這些算法變體,這些方法主要仍依賴(lài)于最終結(jié)果的獎(jiǎng)勵(lì)信號(hào)。當(dāng)面對(duì)困難查詢(xún)時(shí),若軌跡采樣(rollout)無(wú)法找到正確解路徑,便會(huì)引發(fā)關(guān)鍵挑戰(zhàn)。例如,DAPO(Yu et al., 2025)通過(guò)過(guò)濾掉無(wú)法產(chǎn)生任何成功軌跡的指令來(lái)應(yīng)對(duì)這一問(wèn)題。
3. 預(yù)備知識(shí)
![]()
![]()
![]()
4. 方法論 4.1. 困難推理問(wèn)題的挑戰(zhàn)
![]()
4.2. 監(jiān)督強(qiáng)化學(xué)習(xí)(SRL)
![]()
![]()
![]()
![]()
然后使用此獎(jiǎng)勵(lì)信號(hào)優(yōu)化策略 ,優(yōu)化目標(biāo)為公式 1 中定義的 GRPO 目標(biāo)函數(shù)。值得注意的是,我們的獎(jiǎng)勵(lì)僅根據(jù)邏輯動(dòng)作計(jì)算,而非內(nèi)心獨(dú)白。這使得模型在確保其外部動(dòng)作與專(zhuān)家策略對(duì)齊的同時(shí),擁有靈活性來(lái)發(fā)展自身的內(nèi)部推理風(fēng)格。這種設(shè)計(jì)提供了密集的、步驟級(jí)別的反饋,并支持快速獎(jiǎng)勵(lì)計(jì)算,使 SRL 框架既高效又可擴(kuò)展。
![]()
- 實(shí)驗(yàn)
5.1 主要結(jié)果:數(shù)學(xué)推理
實(shí)驗(yàn)設(shè)置。我們?cè)趕1K-1.1數(shù)據(jù)集(Muennighoff et al., 2025)上對(duì)Qwen2.5-7B-Instruct模型(Yang et al., 2024)進(jìn)行微調(diào)。該數(shù)據(jù)集包含1,000道多樣且具挑戰(zhàn)性的問(wèn)題,每道問(wèn)題均附有由DeepSeek R1生成的詳細(xì)推理軌跡和最終解答。DeepSeek R1的解答采用結(jié)構(gòu)化、帶編號(hào)的步
驟格式(例如,“1. 步驟1標(biāo)題”)。我們利用此結(jié)構(gòu),通過(guò)解析這些解答并將每個(gè)完整步驟視為真實(shí)后續(xù)內(nèi)容,來(lái)生成中間訓(xùn)練目標(biāo)。任何不符合此格式的數(shù)據(jù)點(diǎn)均被排除。我們從數(shù)據(jù)集中預(yù)留60道問(wèn)題作為驗(yàn)證集。
基線(xiàn)方法。我們將所提出的方法與多個(gè)基線(xiàn)方法進(jìn)行對(duì)比,所有基線(xiàn)均基于Qwen2.5-7B-Instruct模型初始化。這些基線(xiàn)包括:(i) 對(duì)完整推理軌跡(R1推理)或s1K-1.1數(shù)據(jù)集的最終解答(R1概要)進(jìn)行監(jiān)督微調(diào)(SFT);(ii) s1K-7B,即數(shù)據(jù)集作者發(fā)布的官方蒸餾模型;(iii) RLVR,我們使用GRPO算法實(shí)現(xiàn)。為確保公平比較,我們采用Yu等人(2025)提出的額外動(dòng)態(tài)采樣方法,該方法會(huì)移除所有軌跡采樣結(jié)果全對(duì)或全錯(cuò)的樣本。我們以?xún)煞N不同設(shè)置評(píng)估RLVR:直接應(yīng)用于基礎(chǔ)模型,以及在初始監(jiān)督微調(diào)階段后應(yīng)用。我們提出的方法SRL同樣以?xún)煞N方式評(píng)估:作為獨(dú)立技術(shù),以及在RLVR之前的順序配置中(SRL后接RLVR)。所有模型最多訓(xùn)練30輪,并為每種方法選擇驗(yàn)證集上性能最佳的檢查點(diǎn)。
評(píng)估。我們?cè)谝韵滤膫€(gè)競(jìng)賽級(jí)數(shù)學(xué)推理基準(zhǔn)測(cè)試上評(píng)估所有模型:AMC232、AIME243、AIME25?和Minerva Math(Lewkowycz et al., 2022)。所有基準(zhǔn)測(cè)試的評(píng)估協(xié)議嚴(yán)格遵循Qwen2.5-Math?設(shè)定的方案,并報(bào)告貪婪采樣的準(zhǔn)確率。此外,針對(duì)AMC23、AIME24和AIME25,我們?yōu)樗谢€(xiàn)方法報(bào)告溫度參數(shù)為1.0時(shí)的average@32分?jǐn)?shù),以確保評(píng)估結(jié)果更具魯棒性。
性能表現(xiàn)。我們模型的性能結(jié)果總結(jié)于表1。與官方發(fā)布的S1K-7B模型一致,我們?cè)谙嗤瑪?shù)據(jù)集上通過(guò)監(jiān)督微調(diào)訓(xùn)練的模型表現(xiàn)出顯著的性能下降。具體而言,雖然RLVR保持了性能水平,但SRL平均提供了3.0%的顯著提升。此外,在SRL訓(xùn)練后應(yīng)用RLVR平均帶來(lái)了3.7%的提升,且僅利用了1k訓(xùn)練數(shù)據(jù)。
![]()
5.2 分析:數(shù)學(xué)推理
SRL中動(dòng)態(tài)采樣的影響。在表2中,我們分析了SRL中動(dòng)態(tài)采樣組件的影響,該組件基于對(duì)軌跡采樣內(nèi)序列相似性獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)差進(jìn)行閾值化處理。對(duì)于兩個(gè)模型,我們均訓(xùn)練至訓(xùn)練獎(jiǎng)勵(lì)收斂,并根據(jù)驗(yàn)證分?jǐn)?shù)選擇檢查點(diǎn)。我們的結(jié)果與DAPO(Yu et al., 2025)的研究發(fā)現(xiàn)一致,該研究指出:移除提供零學(xué)習(xí)信號(hào)的樣本對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練循環(huán)的有效性至關(guān)重要,這帶來(lái)了顯著的性能提升。
解耦SRL中指導(dǎo)粒度的影響。為將指導(dǎo)粒度的影響與序列相似性獎(jiǎng)勵(lì)的益處分離,我們將多步方法與兩種簡(jiǎn)化的單步基線(xiàn)進(jìn)行對(duì)比:
- 最終答案獎(jiǎng)勵(lì):該基線(xiàn)采用基于GRPO訓(xùn)練的RLVR,僅依據(jù)最終答案的正確性對(duì)模型進(jìn)行獎(jiǎng)勵(lì)。
- 整體序列相似性獎(jiǎng)勵(lì):模型在單一步驟中生成完整解答,隨后將整個(gè)解答與完整的標(biāo)準(zhǔn)軌跡進(jìn)行相似性評(píng)估。
如表3所示,結(jié)果突顯了序列相似性獎(jiǎng)勵(lì)中細(xì)粒度指導(dǎo)的價(jià)值。盡管整體序列相似性獎(jiǎng)勵(lì)平均提升了性能,但提供細(xì)粒度、逐步指導(dǎo)在各基準(zhǔn)測(cè)試中帶來(lái)了顯著更優(yōu)的性能。
![]()
交錯(cuò)式推理行為。除取得更優(yōu)性能外,經(jīng)SRL訓(xùn)練的模型還展現(xiàn)出獨(dú)特而靈活的推理模式。傳統(tǒng)模型通常在解題起始階段生成單一、整體式的推理段落。相比之下,我們的模型——尤其是經(jīng)過(guò)RLVR微調(diào)的模型——能夠動(dòng)態(tài)地將推理步驟與解題生成過(guò)程交錯(cuò)進(jìn)行。該行為主要體現(xiàn)為三種形式:(1) 前置規(guī)劃:在初始階段制定全面計(jì)劃,預(yù)先勾勒后續(xù)所有步驟;(2) 即時(shí)調(diào)整:在解題過(guò)程中插入多個(gè)獨(dú)立的推理塊,以進(jìn)行迭代式規(guī)劃與調(diào)整;(3) 反思性驗(yàn)證:模型在輸出最終答案前暫停,對(duì)自身解答進(jìn)行反思與驗(yàn)證。示例1(如下)及附錄中的示例2源自經(jīng)SRL→RLVR方法訓(xùn)練的模型,展示了這些涌現(xiàn)的推理模式。
![]()
推理長(zhǎng)度。我們進(jìn)一步探究SRL帶來(lái)的性能提升是否單純?cè)从谕评黹L(zhǎng)度的增加。在圖4中,我們繪制了基礎(chǔ)模型與經(jīng)SRL微調(diào)模型的推理長(zhǎng)度分布(即解答中的單詞數(shù)量)。觀察發(fā)現(xiàn),兩種分布之間不存在顯著差異。這一結(jié)果表明,性能提升源于規(guī)劃能力的增強(qiáng)與推理質(zhì)量的提高,而非推理時(shí)單純?cè)黾觮oken預(yù)算。
![]()
5.3. 擴(kuò)展:軟件工程中的智能體推理
任務(wù)。我們將SRL框架擴(kuò)展至軟件工程領(lǐng)域,訓(xùn)練智能體解決真實(shí)世界的編程問(wèn)題。此類(lèi)任務(wù)通常在SWE-Bench等基準(zhǔn)測(cè)試上進(jìn)行評(píng)估(Jimenez et al., 2023),該基準(zhǔn)要求智能體與大型代碼庫(kù)進(jìn)行復(fù)雜的多輪交互,并對(duì)代碼功能進(jìn)行深度推理。
然而,與數(shù)學(xué)領(lǐng)域不同,強(qiáng)化學(xué)習(xí)在軟件工程中的直接在線(xiàn)應(yīng)用面臨顯著的實(shí)際挑戰(zhàn)。這些挑戰(zhàn)包括處理長(zhǎng)上下文窗口、環(huán)境反饋的高延遲以及補(bǔ)丁驗(yàn)證速度緩慢(Golubev et al., 2025; Wei et al., 2025)。因此,這些障礙阻礙了穩(wěn)定且可擴(kuò)展的端到端強(qiáng)化學(xué)習(xí)方法的發(fā)展,促使當(dāng)前主流做法轉(zhuǎn)向收集專(zhuān)家智能體軌跡,并通過(guò)監(jiān)督微調(diào)(SFT)將其蒸餾為策略模型(Pan et al., 2024; Yang et al., 2025)。
實(shí)驗(yàn)設(shè)置。我們應(yīng)用SRL對(duì)Qwen2.5-Coder-7B-Instruct(Hui et al., 2024)進(jìn)行進(jìn)一步微調(diào),該模型已專(zhuān)門(mén)針對(duì)編碼任務(wù)進(jìn)行優(yōu)化。我們采用Yang等人(2025)提供的數(shù)據(jù)集,其中包含5,000條專(zhuān)家智能體軌跡。這些軌跡由claude-3-7-sonnet-20250219(Anthropic, 2025)生成,隨后經(jīng)過(guò)驗(yàn)證以確保其能產(chǎn)生正確的代碼補(bǔ)丁。
每條軌跡由智能體與編碼環(huán)境交互的多個(gè)步驟構(gòu)成。如下方示例所示,單個(gè)步驟包含自然語(yǔ)言推理,隨后是一個(gè)可執(zhí)行動(dòng)作:
![]()
與我們的SRL公式化方法一致(第4.2節(jié)),我們將"action"(動(dòng)作)定義為環(huán)境可消費(fèi)的命令(例如bash調(diào)用)。基于此分解方式,我們對(duì)完整軌跡進(jìn)行處理,生成了13.4萬(wàn)個(gè)步驟級(jí)訓(xùn)練樣本。為進(jìn)行驗(yàn)證,我們預(yù)留了30條完整軌跡,并從中整理出包含650個(gè)步驟級(jí)樣本的驗(yàn)證集。
評(píng)估。我們參照Wei等人(2025)的做法,在兩種不同配置下通過(guò)測(cè)量模型的解決率(%)來(lái)評(píng)估其補(bǔ)丁生成性能:(1) Oracle文件編輯評(píng)估:向模型提供需修復(fù)的Oracle代碼文件。該配置隔離并衡量模型的核心補(bǔ)丁生成能力;(2) 端到端評(píng)估:該設(shè)置采用Agentless-mini智能體框架(Wei et al., 2025),首先識(shí)別需修改的文件,隨后生成補(bǔ)丁。該配置聯(lián)合測(cè)試模型的故障定位與代碼修復(fù)能力。
我們將經(jīng)SRL訓(xùn)練的模型與兩個(gè)關(guān)鍵基線(xiàn)進(jìn)行對(duì)比:原始基礎(chǔ)模型(Qwen2.5-Coder-Instruct)以及SWE-Gym-7B(Pan et al., 2024)。由于SWE-Gym-7B是基于相同基礎(chǔ)模型通過(guò)SFT微調(diào)得到的模型,這為SFT與我們提出的SRL訓(xùn)練方法提供了直接且公平的比較基準(zhǔn)。如表4所示,SRL顯著優(yōu)于兩個(gè)基線(xiàn)模型。在Oracle設(shè)置下,SRL達(dá)到了14.8%的解決率,相較強(qiáng)大的SWE-Gym-7B基線(xiàn)實(shí)現(xiàn)了74%的相對(duì)提升。在更具挑戰(zhàn)性的端到端評(píng)估設(shè)置中,性能增益同樣保持一致,SRL的性能可達(dá)基線(xiàn)的兩倍。
![]()
5.4. 討論
最后,我們指出SRL的有效性從根本上取決于學(xué)生模型的初始任務(wù)熟練度,以及所獲取的步驟級(jí)數(shù)據(jù)與軌跡采樣樣本的質(zhì)量。一個(gè)關(guān)鍵前提是:學(xué)生模型必須展現(xiàn)出基本的指令遵循能力。這確保了初始軌跡采樣樣本與任務(wù)相關(guān)且結(jié)構(gòu)正確,從而為學(xué)習(xí)奠定堅(jiān)實(shí)基礎(chǔ)。此外,盡管我們的步驟級(jí)分解方法降低了任務(wù)復(fù)雜度,但所得數(shù)據(jù)必須使策略模型能夠以一定概率獲得良好的獎(jiǎng)勵(lì)。
- 結(jié)論
總之,我們提出了監(jiān)督強(qiáng)化學(xué)習(xí)(Supervised Reinforcement Learning, SRL),一種旨在使大語(yǔ)言模型從專(zhuān)家示范中學(xué)習(xí)復(fù)雜推理技能的新方法,尤其適用于傳統(tǒng)強(qiáng)化學(xué)習(xí)或監(jiān)督微調(diào)方法難以應(yīng)對(duì)的困難問(wèn)題。通過(guò)將專(zhuān)家解答分解為可管理的步驟,并利用密集的序列相似性獎(jiǎng)勵(lì),SRL提供了有效的細(xì)粒度指導(dǎo),彌合了模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)之間的鴻溝。我們的實(shí)證結(jié)果表明,SRL不僅在數(shù)學(xué)推理與軟件工程任務(wù)中顯著優(yōu)于基線(xiàn)方法,而且與RLVR結(jié)合時(shí)還能實(shí)現(xiàn)強(qiáng)大的課程學(xué)習(xí)策略。本工作確立了SRL作為一種魯棒且可泛化的技術(shù),能夠釋放模型從具有挑戰(zhàn)性的多步問(wèn)題中學(xué)習(xí)的潛力,為訓(xùn)練能力更強(qiáng)、適應(yīng)性更廣的人工智能智能體開(kāi)辟了道路。
原文鏈接:https://arxiv.org/pdf/2510.25992
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.