網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

監(jiān)督式強(qiáng)化學(xué)習(xí)：從專(zhuān)家軌跡到逐步推理

2026-02-01 19:24:10　來(lái)源: CreateAMind

上海舉報(bào)

分享至

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

監(jiān)督式強(qiáng)化學(xué)習(xí)：從專(zhuān)家軌跡到逐步推理

https://arxiv.org/pdf/2510.25992

大型語(yǔ)言模型（LLMs）在處理需要多步推理的問(wèn)題時(shí)常常表現(xiàn)不佳。對(duì)于小規(guī)模開(kāi)源模型而言，基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（Reinforcement Learning with Verifiable Rewards, RLVR）在即使經(jīng)過(guò)多次嘗試也極少采樣到正確解的情況下會(huì)失效；而監(jiān)督微調(diào)（Supervised Fine-Tuning, SFT）則傾向于通過(guò)對(duì)長(zhǎng)演示進(jìn)行僵化的逐詞模仿而導(dǎo)致過(guò)擬合。為彌補(bǔ)這一差距，我們提出了監(jiān)督強(qiáng)化學(xué)習(xí)（Supervised Reinforcement Learning, SRL）——一種將問(wèn)題求解重新建模為生成一系列邏輯“動(dòng)作”的訓(xùn)練框架。SRL 訓(xùn)練模型在執(zhí)行每個(gè)動(dòng)作前先生成內(nèi)部推理獨(dú)白，并基于模型動(dòng)作與從 SFT 數(shù)據(jù)集中提取的專(zhuān)家動(dòng)作之間的相似度，以逐步方式提供更平滑的獎(jiǎng)勵(lì)信號(hào)。這種監(jiān)督機(jī)制即使在所有推理軌跡均錯(cuò)誤的情況下也能提供更豐富的學(xué)習(xí)信號(hào)，同時(shí)借助專(zhuān)家演示引導(dǎo)模型進(jìn)行靈活推理。因此，SRL 使小型模型能夠?qū)W會(huì)以往通過(guò) SFT 或 RLVR 無(wú)法掌握的復(fù)雜問(wèn)題。此外，先以 SRL 初始化訓(xùn)練、再通過(guò) RLVR 進(jìn)行精調(diào)，可獲得整體最優(yōu)性能。除推理基準(zhǔn)任務(wù)外，SRL 還能有效泛化至智能體軟件工程任務(wù)，確立其作為面向推理的大型語(yǔ)言模型的一種穩(wěn)健且通用的訓(xùn)練框架的地位。

引言

大語(yǔ)言模型（LLMs）在一系列推理任務(wù)中展現(xiàn)出卓越的能力，包括解決數(shù)學(xué)問(wèn)題（Wang et al., 2025）、生成代碼（Jiang et al., 2024）以及智能體規(guī)劃（Li et al., 2025c; Xie et al., 2024）。近期一項(xiàng)重要進(jìn)展是利用強(qiáng)化學(xué)習(xí)（RL）來(lái)增強(qiáng)LLMs的復(fù)雜推理能力（Ahmadian et al., 2024; Lambert et al., 2024; Shao et al., 2024）。通過(guò)基于可驗(yàn)證結(jié)果（如最終答案的正確性）的獎(jiǎng)勵(lì)信號(hào)對(duì)模型進(jìn)行優(yōu)化，強(qiáng)化學(xué)習(xí)為激發(fā)有益的問(wèn)題求解策略（如自我反思（Guo et al., 2025; Xie et al., 2025））提供了一條可擴(kuò)展且前景廣闊的路徑。

這類(lèi)基于結(jié)果的強(qiáng)化學(xué)習(xí)方法的有效性從根本上依賴(lài)于策略模型在有限軌跡采樣（rollout）預(yù)算內(nèi)發(fā)現(xiàn)正確解的能力（Brown et al., 2024）。然而，受實(shí)際計(jì)算資源的限制，當(dāng)面對(duì)訓(xùn)練數(shù)據(jù)中具有挑戰(zhàn)性的問(wèn)題時(shí)，該學(xué)習(xí)范式往往難以奏效——在這些問(wèn)題上，模型的成功率實(shí)際上為零（即使采樣條軌跡后，pass@率仍為零）。此類(lèi)情況在需要復(fù)雜多步推理的任務(wù)中日益普遍（Wang et al., 2024; Yue et al., 2025）。對(duì)于7B規(guī)模的LLM而言，一個(gè)錯(cuò)誤的中間步驟就可能導(dǎo)致整個(gè)推理鏈偏離正軌，從而無(wú)論是否存在部分正確的中間結(jié)果，都會(huì)產(chǎn)生負(fù)面的學(xué)習(xí)信號(hào)。此外，簡(jiǎn)單地懲罰所有錯(cuò)誤的最終輸出還可能進(jìn)一步引入訓(xùn)練不穩(wěn)定性并阻礙學(xué)習(xí)進(jìn)展，使得這些困難的推理任務(wù)對(duì)標(biāo)準(zhǔn)的基于結(jié)果的強(qiáng)化學(xué)習(xí)方法而言基本不可解（Xiong et al., 2025）。

另一種方法是模仿學(xué)習(xí)，通常通過(guò)在專(zhuān)家示范上進(jìn)行監(jiān)督微調(diào)（SFT）來(lái)實(shí)現(xiàn)（Ross et al., 2011）。盡管SFT能夠注入有價(jià)值的推理行為，但其下一詞預(yù)測(cè)目標(biāo)強(qiáng)制模型進(jìn)行嚴(yán)格、逐詞級(jí)別的模仿，限制了模型在訓(xùn)練數(shù)據(jù)之外的泛化能力。當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模有限且模型本身能力相對(duì)較弱時(shí)，這一問(wèn)題尤為突出。在此類(lèi)條件下，冗長(zhǎng)復(fù)雜的示范往往導(dǎo)致過(guò)擬合和淺層推理行為（Chu et al., 2025a; Li et al., 2025b），正如我們?cè)趫D1中觀察到的性能下降所示。因此，無(wú)論是SFT還是基于結(jié)果的強(qiáng)化學(xué)習(xí)，在困難推理任務(wù)上均面臨挑戰(zhàn)，這為訓(xùn)練小型開(kāi)源模型以有效學(xué)習(xí)難題留下了關(guān)鍵空白。

為填補(bǔ)這一空白，我們提出監(jiān)督強(qiáng)化學(xué)習(xí)（Supervised Reinforcement Learning, SRL），一個(gè)將問(wèn)題求解重新形式化為序列決策過(guò)程的框架。與優(yōu)化最終答案或模仿完整專(zhuān)家軌跡不同，SRL依據(jù)強(qiáng)化學(xué)習(xí)風(fēng)格的目標(biāo)，訓(xùn)練模型復(fù)現(xiàn)專(zhuān)家推理背后的關(guān)鍵動(dòng)作序列。具體而言，專(zhuān)家示范被分解為一系列中間動(dòng)作，每個(gè)動(dòng)作代表一個(gè)有意義的決策步驟。在訓(xùn)練過(guò)程中，模型首先生成內(nèi)部獨(dú)白（internal monologue）以闡明其推理過(guò)程，隨后執(zhí)行一個(gè)“動(dòng)作”。在每一步，SRL根據(jù)模型預(yù)測(cè)動(dòng)作與對(duì)應(yīng)專(zhuān)家動(dòng)作之間的相似性提供獎(jiǎng)勵(lì)，從而提供細(xì)粒度、高效可計(jì)算的監(jiān)督信號(hào)，并可擴(kuò)展至大規(guī)模數(shù)據(jù)集。

本工作的貢獻(xiàn)如下： ? 我們提出SRL，一種新穎的框架，旨在使模型在SFT和RLVR難以應(yīng)對(duì)的困難推理任務(wù)上實(shí)現(xiàn)有效學(xué)習(xí)，其通過(guò)基于與專(zhuān)家動(dòng)作相似性的密集且平滑的獎(jiǎng)勵(lì)實(shí)現(xiàn)這一目標(biāo)。 ? 我們?cè)诰哂刑魬?zhàn)性的數(shù)學(xué)推理和智能體軟件工程基準(zhǔn)測(cè)試上進(jìn)行了大量實(shí)驗(yàn)，驗(yàn)證了SRL的有效性與魯棒性。結(jié)果表明，SRL在兩個(gè)領(lǐng)域均顯著優(yōu)于強(qiáng)基線(xiàn)方法（見(jiàn)5.1與5.3節(jié)）。 ? 通過(guò)詳細(xì)分析，我們揭示了細(xì)粒度指導(dǎo)對(duì)SRL獎(jiǎng)勵(lì)機(jī)制及其對(duì)模型行為影響的關(guān)鍵作用。我們觀察到，SRL能夠誘導(dǎo)出靈活而復(fù)雜的推理模式，例如交錯(cuò)式的規(guī)劃與驗(yàn)證，從而在不單純?cè)黾虞敵鲩L(zhǎng)度的情況下提升解的質(zhì)量（見(jiàn)5.2節(jié)）。

相關(guān)工作

2.1. 用于LLM推理的SFT（知識(shí)蒸餾）

通過(guò)對(duì)教師模型生成的長(zhǎng)思維鏈（Chain-of-Thought, CoT）推理過(guò)程進(jìn)行監(jiān)督微調(diào)（SFT）以將推理能力蒸餾至小型模型，已被證明是遷移復(fù)雜問(wèn)題求解技能的有效方法（Huang et al., 2024; Li et al., 2023; Min et al., 2024; Yeo et al., 2025），DeepSeek R1蒸餾所得的小型模型即為典型案例（Guo et al., 2025）。研究表明，該過(guò)程具有驚人的數(shù)據(jù)效率，小型但高質(zhì)量的數(shù)據(jù)集通常已足夠（Muennighoff et al., 2025; Ye et al., 2025）。鑒于其成功，研究者開(kāi)始關(guān)注實(shí)現(xiàn)有效SFT蒸餾的底層因素（Chen et al., 2025a）。部分研究強(qiáng)調(diào)推理軌跡的邏輯結(jié)構(gòu)而非其語(yǔ)義正確性（Luo et al., 2025; Stechly et al., 2025），因?yàn)槟Ｐ蜕踔聊軌驈陌聦?shí)性錯(cuò)誤的示范中學(xué)習(xí)（Li et al., 2025a）。此外，學(xué)生-教師能力差距仍構(gòu)成顯著挑戰(zhàn)：當(dāng)學(xué)生模型面對(duì)過(guò)于復(fù)雜的數(shù)據(jù)時(shí)往往難以有效學(xué)習(xí)（Li et al., 2025b）；同時(shí)存在“教師模型攻擊”（teacher hacking）風(fēng)險(xiǎn)，即學(xué)生模型過(guò)度擬合教師模型的特定缺陷（Tiapkin et al., 2025）。歸根結(jié)底，從教師模型進(jìn)行蒸餾為學(xué)生模型的性能設(shè)定了上限（Huang et al., 2024）。

2.2. 用于LLM推理的強(qiáng)化學(xué)習(xí)

DeepSeek-R1的開(kāi)發(fā)（Guo et al., 2025）展示了基于規(guī)則的強(qiáng)化學(xué)習(xí)在增強(qiáng)LLM推理能力方面的有效性。該方法采用基于最終答案正確性的可擴(kuò)展獎(jiǎng)勵(lì)系統(tǒng)，典型代表包括組相對(duì)策略?xún)?yōu)化（Group Relative Policy Optimization, GRPO）算法（Shao et al., 2024）以及各類(lèi)并行算法（Ahmadian et al., 2024; Lambert et al., 2024; Xie et al., 2025）。在此基礎(chǔ)上，后續(xù)研究引入了眾多算法改進(jìn)。例如，Dr. GRPO（Liu et al., 2025）通過(guò)移除方差歸一化以減輕偏差；DAPO（Yu et al., 2025）引入了詞元級(jí)損失函數(shù)，并通過(guò)提高裁剪閾值放松策略更新約束。其他值得注意的進(jìn)展包括對(duì)裁剪方法、歸一化技術(shù)、KL散度損失以及動(dòng)態(tài)采樣策略的改進(jìn)（Chen et al., 2025b; Chu et al., 2025b; Zhang and Zuo, 2025; Zhang et al., 2025）。盡管存在這些算法變體，這些方法主要仍依賴(lài)于最終結(jié)果的獎(jiǎng)勵(lì)信號(hào)。當(dāng)面對(duì)困難查詢(xún)時(shí)，若軌跡采樣（rollout）無(wú)法找到正確解路徑，便會(huì)引發(fā)關(guān)鍵挑戰(zhàn)。例如，DAPO（Yu et al., 2025）通過(guò)過(guò)濾掉無(wú)法產(chǎn)生任何成功軌跡的指令來(lái)應(yīng)對(duì)這一問(wèn)題。

3. 預(yù)備知識(shí)

4. 方法論 4.1. 困難推理問(wèn)題的挑戰(zhàn)

4.2. 監(jiān)督強(qiáng)化學(xué)習(xí)（SRL）

然后使用此獎(jiǎng)勵(lì)信號(hào)優(yōu)化策略，優(yōu)化目標(biāo)為公式 1 中定義的 GRPO 目標(biāo)函數(shù)。值得注意的是，我們的獎(jiǎng)勵(lì)僅根據(jù)邏輯動(dòng)作計(jì)算，而非內(nèi)心獨(dú)白。這使得模型在確保其外部動(dòng)作與專(zhuān)家策略對(duì)齊的同時(shí)，擁有靈活性來(lái)發(fā)展自身的內(nèi)部推理風(fēng)格。這種設(shè)計(jì)提供了密集的、步驟級(jí)別的反饋，并支持快速獎(jiǎng)勵(lì)計(jì)算，使 SRL 框架既高效又可擴(kuò)展。

實(shí)驗(yàn)

5.1 主要結(jié)果：數(shù)學(xué)推理

實(shí)驗(yàn)設(shè)置。我們?cè)趕1K-1.1數(shù)據(jù)集（Muennighoff et al., 2025）上對(duì)Qwen2.5-7B-Instruct模型（Yang et al., 2024）進(jìn)行微調(diào)。該數(shù)據(jù)集包含1,000道多樣且具挑戰(zhàn)性的問(wèn)題，每道問(wèn)題均附有由DeepSeek R1生成的詳細(xì)推理軌跡和最終解答。DeepSeek R1的解答采用結(jié)構(gòu)化、帶編號(hào)的步

驟格式（例如，“1. 步驟1標(biāo)題”）。我們利用此結(jié)構(gòu)，通過(guò)解析這些解答并將每個(gè)完整步驟視為真實(shí)后續(xù)內(nèi)容，來(lái)生成中間訓(xùn)練目標(biāo)。任何不符合此格式的數(shù)據(jù)點(diǎn)均被排除。我們從數(shù)據(jù)集中預(yù)留60道問(wèn)題作為驗(yàn)證集。

基線(xiàn)方法。我們將所提出的方法與多個(gè)基線(xiàn)方法進(jìn)行對(duì)比，所有基線(xiàn)均基于Qwen2.5-7B-Instruct模型初始化。這些基線(xiàn)包括：(i) 對(duì)完整推理軌跡（R1推理）或s1K-1.1數(shù)據(jù)集的最終解答（R1概要）進(jìn)行監(jiān)督微調(diào)（SFT）；(ii) s1K-7B，即數(shù)據(jù)集作者發(fā)布的官方蒸餾模型；(iii) RLVR，我們使用GRPO算法實(shí)現(xiàn)。為確保公平比較，我們采用Yu等人（2025）提出的額外動(dòng)態(tài)采樣方法，該方法會(huì)移除所有軌跡采樣結(jié)果全對(duì)或全錯(cuò)的樣本。我們以?xún)煞N不同設(shè)置評(píng)估RLVR：直接應(yīng)用于基礎(chǔ)模型，以及在初始監(jiān)督微調(diào)階段后應(yīng)用。我們提出的方法SRL同樣以?xún)煞N方式評(píng)估：作為獨(dú)立技術(shù)，以及在RLVR之前的順序配置中（SRL后接RLVR）。所有模型最多訓(xùn)練30輪，并為每種方法選擇驗(yàn)證集上性能最佳的檢查點(diǎn)。

評(píng)估。我們?cè)谝韵滤膫€(gè)競(jìng)賽級(jí)數(shù)學(xué)推理基準(zhǔn)測(cè)試上評(píng)估所有模型：AMC232、AIME243、AIME25?和Minerva Math（Lewkowycz et al., 2022）。所有基準(zhǔn)測(cè)試的評(píng)估協(xié)議嚴(yán)格遵循Qwen2.5-Math?設(shè)定的方案，并報(bào)告貪婪采樣的準(zhǔn)確率。此外，針對(duì)AMC23、AIME24和AIME25，我們?yōu)樗谢€(xiàn)方法報(bào)告溫度參數(shù)為1.0時(shí)的average@32分?jǐn)?shù)，以確保評(píng)估結(jié)果更具魯棒性。

性能表現(xiàn)。我們模型的性能結(jié)果總結(jié)于表1。與官方發(fā)布的S1K-7B模型一致，我們?cè)谙嗤瑪?shù)據(jù)集上通過(guò)監(jiān)督微調(diào)訓(xùn)練的模型表現(xiàn)出顯著的性能下降。具體而言，雖然RLVR保持了性能水平，但SRL平均提供了3.0%的顯著提升。此外，在SRL訓(xùn)練后應(yīng)用RLVR平均帶來(lái)了3.7%的提升，且僅利用了1k訓(xùn)練數(shù)據(jù)。

5.2 分析：數(shù)學(xué)推理

SRL中動(dòng)態(tài)采樣的影響。在表2中，我們分析了SRL中動(dòng)態(tài)采樣組件的影響，該組件基于對(duì)軌跡采樣內(nèi)序列相似性獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)差進(jìn)行閾值化處理。對(duì)于兩個(gè)模型，我們均訓(xùn)練至訓(xùn)練獎(jiǎng)勵(lì)收斂，并根據(jù)驗(yàn)證分?jǐn)?shù)選擇檢查點(diǎn)。我們的結(jié)果與DAPO（Yu et al., 2025）的研究發(fā)現(xiàn)一致，該研究指出：移除提供零學(xué)習(xí)信號(hào)的樣本對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練循環(huán)的有效性至關(guān)重要，這帶來(lái)了顯著的性能提升。

解耦SRL中指導(dǎo)粒度的影響。為將指導(dǎo)粒度的影響與序列相似性獎(jiǎng)勵(lì)的益處分離，我們將多步方法與兩種簡(jiǎn)化的單步基線(xiàn)進(jìn)行對(duì)比：

最終答案獎(jiǎng)勵(lì)：該基線(xiàn)采用基于GRPO訓(xùn)練的RLVR，僅依據(jù)最終答案的正確性對(duì)模型進(jìn)行獎(jiǎng)勵(lì)。
整體序列相似性獎(jiǎng)勵(lì)：模型在單一步驟中生成完整解答，隨后將整個(gè)解答與完整的標(biāo)準(zhǔn)軌跡進(jìn)行相似性評(píng)估。

如表3所示，結(jié)果突顯了序列相似性獎(jiǎng)勵(lì)中細(xì)粒度指導(dǎo)的價(jià)值。盡管整體序列相似性獎(jiǎng)勵(lì)平均提升了性能，但提供細(xì)粒度、逐步指導(dǎo)在各基準(zhǔn)測(cè)試中帶來(lái)了顯著更優(yōu)的性能。

交錯(cuò)式推理行為。除取得更優(yōu)性能外，經(jīng)SRL訓(xùn)練的模型還展現(xiàn)出獨(dú)特而靈活的推理模式。傳統(tǒng)模型通常在解題起始階段生成單一、整體式的推理段落。相比之下，我們的模型——尤其是經(jīng)過(guò)RLVR微調(diào)的模型——能夠動(dòng)態(tài)地將推理步驟與解題生成過(guò)程交錯(cuò)進(jìn)行。該行為主要體現(xiàn)為三種形式：(1) 前置規(guī)劃：在初始階段制定全面計(jì)劃，預(yù)先勾勒后續(xù)所有步驟；(2) 即時(shí)調(diào)整：在解題過(guò)程中插入多個(gè)獨(dú)立的推理塊，以進(jìn)行迭代式規(guī)劃與調(diào)整；(3) 反思性驗(yàn)證：模型在輸出最終答案前暫停，對(duì)自身解答進(jìn)行反思與驗(yàn)證。示例1（如下）及附錄中的示例2源自經(jīng)SRL→RLVR方法訓(xùn)練的模型，展示了這些涌現(xiàn)的推理模式。

推理長(zhǎng)度。我們進(jìn)一步探究SRL帶來(lái)的性能提升是否單純?cè)从谕评黹L(zhǎng)度的增加。在圖4中，我們繪制了基礎(chǔ)模型與經(jīng)SRL微調(diào)模型的推理長(zhǎng)度分布（即解答中的單詞數(shù)量）。觀察發(fā)現(xiàn)，兩種分布之間不存在顯著差異。這一結(jié)果表明，性能提升源于規(guī)劃能力的增強(qiáng)與推理質(zhì)量的提高，而非推理時(shí)單純?cè)黾觮oken預(yù)算。

5.3. 擴(kuò)展：軟件工程中的智能體推理

任務(wù)。我們將SRL框架擴(kuò)展至軟件工程領(lǐng)域，訓(xùn)練智能體解決真實(shí)世界的編程問(wèn)題。此類(lèi)任務(wù)通常在SWE-Bench等基準(zhǔn)測(cè)試上進(jìn)行評(píng)估（Jimenez et al., 2023），該基準(zhǔn)要求智能體與大型代碼庫(kù)進(jìn)行復(fù)雜的多輪交互，并對(duì)代碼功能進(jìn)行深度推理。

然而，與數(shù)學(xué)領(lǐng)域不同，強(qiáng)化學(xué)習(xí)在軟件工程中的直接在線(xiàn)應(yīng)用面臨顯著的實(shí)際挑戰(zhàn)。這些挑戰(zhàn)包括處理長(zhǎng)上下文窗口、環(huán)境反饋的高延遲以及補(bǔ)丁驗(yàn)證速度緩慢（Golubev et al., 2025; Wei et al., 2025）。因此，這些障礙阻礙了穩(wěn)定且可擴(kuò)展的端到端強(qiáng)化學(xué)習(xí)方法的發(fā)展，促使當(dāng)前主流做法轉(zhuǎn)向收集專(zhuān)家智能體軌跡，并通過(guò)監(jiān)督微調(diào)（SFT）將其蒸餾為策略模型（Pan et al., 2024; Yang et al., 2025）。

實(shí)驗(yàn)設(shè)置。我們應(yīng)用SRL對(duì)Qwen2.5-Coder-7B-Instruct（Hui et al., 2024）進(jìn)行進(jìn)一步微調(diào)，該模型已專(zhuān)門(mén)針對(duì)編碼任務(wù)進(jìn)行優(yōu)化。我們采用Yang等人（2025）提供的數(shù)據(jù)集，其中包含5,000條專(zhuān)家智能體軌跡。這些軌跡由claude-3-7-sonnet-20250219（Anthropic, 2025）生成，隨后經(jīng)過(guò)驗(yàn)證以確保其能產(chǎn)生正確的代碼補(bǔ)丁。

每條軌跡由智能體與編碼環(huán)境交互的多個(gè)步驟構(gòu)成。如下方示例所示，單個(gè)步驟包含自然語(yǔ)言推理，隨后是一個(gè)可執(zhí)行動(dòng)作：

與我們的SRL公式化方法一致（第4.2節(jié)），我們將"action"（動(dòng)作）定義為環(huán)境可消費(fèi)的命令（例如bash調(diào)用）。基于此分解方式，我們對(duì)完整軌跡進(jìn)行處理，生成了13.4萬(wàn)個(gè)步驟級(jí)訓(xùn)練樣本。為進(jìn)行驗(yàn)證，我們預(yù)留了30條完整軌跡，并從中整理出包含650個(gè)步驟級(jí)樣本的驗(yàn)證集。

評(píng)估。我們參照Wei等人（2025）的做法，在兩種不同配置下通過(guò)測(cè)量模型的解決率（%）來(lái)評(píng)估其補(bǔ)丁生成性能：(1) Oracle文件編輯評(píng)估：向模型提供需修復(fù)的Oracle代碼文件。該配置隔離并衡量模型的核心補(bǔ)丁生成能力；(2) 端到端評(píng)估：該設(shè)置采用Agentless-mini智能體框架（Wei et al., 2025），首先識(shí)別需修改的文件，隨后生成補(bǔ)丁。該配置聯(lián)合測(cè)試模型的故障定位與代碼修復(fù)能力。

我們將經(jīng)SRL訓(xùn)練的模型與兩個(gè)關(guān)鍵基線(xiàn)進(jìn)行對(duì)比：原始基礎(chǔ)模型（Qwen2.5-Coder-Instruct）以及SWE-Gym-7B（Pan et al., 2024）。由于SWE-Gym-7B是基于相同基礎(chǔ)模型通過(guò)SFT微調(diào)得到的模型，這為SFT與我們提出的SRL訓(xùn)練方法提供了直接且公平的比較基準(zhǔn)。如表4所示，SRL顯著優(yōu)于兩個(gè)基線(xiàn)模型。在Oracle設(shè)置下，SRL達(dá)到了14.8%的解決率，相較強(qiáng)大的SWE-Gym-7B基線(xiàn)實(shí)現(xiàn)了74%的相對(duì)提升。在更具挑戰(zhàn)性的端到端評(píng)估設(shè)置中，性能增益同樣保持一致，SRL的性能可達(dá)基線(xiàn)的兩倍。

5.4. 討論

最后，我們指出SRL的有效性從根本上取決于學(xué)生模型的初始任務(wù)熟練度，以及所獲取的步驟級(jí)數(shù)據(jù)與軌跡采樣樣本的質(zhì)量。一個(gè)關(guān)鍵前提是：學(xué)生模型必須展現(xiàn)出基本的指令遵循能力。這確保了初始軌跡采樣樣本與任務(wù)相關(guān)且結(jié)構(gòu)正確，從而為學(xué)習(xí)奠定堅(jiān)實(shí)基礎(chǔ)。此外，盡管我們的步驟級(jí)分解方法降低了任務(wù)復(fù)雜度，但所得數(shù)據(jù)必須使策略模型能夠以一定概率獲得良好的獎(jiǎng)勵(lì)。

結(jié)論

總之，我們提出了監(jiān)督強(qiáng)化學(xué)習(xí)（Supervised Reinforcement Learning, SRL），一種旨在使大語(yǔ)言模型從專(zhuān)家示范中學(xué)習(xí)復(fù)雜推理技能的新方法，尤其適用于傳統(tǒng)強(qiáng)化學(xué)習(xí)或監(jiān)督微調(diào)方法難以應(yīng)對(duì)的困難問(wèn)題。通過(guò)將專(zhuān)家解答分解為可管理的步驟，并利用密集的序列相似性獎(jiǎng)勵(lì)，SRL提供了有效的細(xì)粒度指導(dǎo)，彌合了模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)之間的鴻溝。我們的實(shí)證結(jié)果表明，SRL不僅在數(shù)學(xué)推理與軟件工程任務(wù)中顯著優(yōu)于基線(xiàn)方法，而且與RLVR結(jié)合時(shí)還能實(shí)現(xiàn)強(qiáng)大的課程學(xué)習(xí)策略。本工作確立了SRL作為一種魯棒且可泛化的技術(shù)，能夠釋放模型從具有挑戰(zhàn)性的多步問(wèn)題中學(xué)習(xí)的潛力，為訓(xùn)練能力更強(qiáng)、適應(yīng)性更廣的人工智能智能體開(kāi)辟了道路。

原文鏈接：https://arxiv.org/pdf/2510.25992

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.