337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華為推出軟工代碼智能體SWE-Lego,解鎖SFT訓(xùn)練極致性能

0
分享至



“軟工任務(wù)要改多文件、多輪工具調(diào)用,模型怎么學(xué)透?高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺,又怕軌跡含噪聲作弊?復(fù)雜 RL 訓(xùn)練成本高,中小團(tuán)隊(duì)望而卻步?”

華為研究團(tuán)隊(duì)推出SWE-Lego, 僅基于監(jiān)督微調(diào)(SFT)的軟件工程代碼智能體,無(wú)需復(fù)雜 RL 流程,在 SWE-bench Verified 基準(zhǔn)中斬獲同等規(guī)模開(kāi)源模型 SOTA,甚至超越部分更大規(guī)模閉源模型!項(xiàng)目已開(kāi)源,代碼、模型和全部數(shù)據(jù)一鍵獲取!

  • arXiv 地址:https://arxiv.org/abs/2601.01426
  • GitHub 地址:https://github.com/SWE-Lego
  • HuggingFace 地址:https://huggingface.co/SWE-Lego

SWE-Lego 具有三大創(chuàng)新,包括數(shù)據(jù)、訓(xùn)練和測(cè)試時(shí)擴(kuò)展。

1. 混合數(shù)據(jù)集構(gòu)建:

  • 雙數(shù)據(jù)管道互補(bǔ):GitHub 真實(shí) PR 數(shù)據(jù) + 注入真實(shí)場(chǎng)景 Bug 的合成數(shù)據(jù),產(chǎn)出 32k 高質(zhì)量任務(wù)實(shí)例 + 18k 專(zhuān)家軌跡;
  • 嚴(yán)格軌跡篩選:過(guò)濾 Git 歷史泄露、工具錯(cuò)誤等噪聲,重用部分解決的優(yōu)質(zhì)軌跡,提升 SFT 訓(xùn)練有效性。

2. 改進(jìn)的監(jiān)督微調(diào):

  • 兩大亮點(diǎn):① 步驟級(jí)錯(cuò)誤掩碼,讓模型從長(zhǎng)軌跡中學(xué)習(xí)有效子軌跡;② 課程學(xué)習(xí),按交互輪次分級(jí)提升任務(wù)難度;
  • 性能提升:比傳統(tǒng) SFT 在不同模型上提升 2~4%,筑牢 SOTA 基礎(chǔ)。

3. 測(cè)試時(shí)擴(kuò)展策略(TTS):

  • 擴(kuò)展優(yōu)先級(jí):先串行擴(kuò)展(增大軌跡最大交互輪數(shù))至飽和,再分配資源給并行擴(kuò)展(多備選答案選最優(yōu));
  • 打分器優(yōu)選:生成式打分器在并行擴(kuò)展中,全程優(yōu)于回歸式打分器,適配不同模型規(guī)模與測(cè)試預(yù)算。

引言

在軟件工程領(lǐng)域,Code Agent 需要處理復(fù)雜的任務(wù):修復(fù) bug、重構(gòu)代碼、理解大型代碼庫(kù)。這些任務(wù)要求 Code Agent 具備長(zhǎng)序列推理、多文件操作和工具使用等能力。現(xiàn)有的訓(xùn)練方法通常需要復(fù)雜的訓(xùn)練范式,比如強(qiáng)化學(xué)習(xí)(RL)或者 RL 和 SFT 的迭代組合。

這些方法雖然有效,但計(jì)算成本高,訓(xùn)練過(guò)程復(fù)雜。能否用更簡(jiǎn)單的方法達(dá)到同樣的效果?

華為的研究團(tuán)隊(duì)提出了SWE-Lego,一個(gè)僅基于監(jiān)督微調(diào)(SFT)的軟工代碼模型的解決方案。在 SWE-bench Verified 基準(zhǔn)測(cè)試上基于 Qwen3 系列模型作為起始模型,經(jīng)過(guò) SFT 之后得到 SWE-Lego-Qwen3-8B 和 32B 分別達(dá)到 42.2% 和 52.6%,達(dá)到了開(kāi)源模型的 SOTA 水平,并超越了一些更大規(guī)模的閉源模型。基于測(cè)試時(shí)擴(kuò)展策略(TTS)可以進(jìn)一步把性能提高 6~7%。



圖 1:SWE-Lego 系列模型在 SWE-bench Verified 上的性能對(duì)比,在同等規(guī)模模型中表現(xiàn)達(dá)到 SOTA

一、挑戰(zhàn)與動(dòng)機(jī)

軟件工程任務(wù)與傳統(tǒng)的單文件編程任務(wù)有著明顯區(qū)別:一個(gè) bug 修復(fù)可能涉及代碼項(xiàng)目里多個(gè)文件的修改,需要多輪工具調(diào)用(讀取文件、執(zhí)行測(cè)試、編輯代碼等),必須在真實(shí)的代碼庫(kù)環(huán)境中驗(yàn)證修復(fù)效果,還需要理解代碼邏輯、定位問(wèn)題、設(shè)計(jì)修復(fù)方案等復(fù)雜推理能力。

為了訓(xùn)練具備軟件工程項(xiàng)目級(jí)代碼編寫(xiě)能力的代碼模型,研究者們嘗試了多種方法。強(qiáng)化學(xué)習(xí)(RL)雖然不需要預(yù)定義的軌跡,但訓(xùn)練成本極高。復(fù)雜組合方法將多種訓(xùn)練范式結(jié)合,比如 SFT 和 RL 的迭代訓(xùn)練,進(jìn)一步增加了訓(xùn)練復(fù)雜度。更重要的是,高質(zhì)量的訓(xùn)練數(shù)據(jù)稀缺。現(xiàn)有的數(shù)據(jù)集要么規(guī)模有限,要么缺乏可執(zhí)行環(huán)境,要么難以擴(kuò)展到足夠大的規(guī)模。

二、SWE-Lego 的三大核心組件

SWE-Lego 包含三個(gè)核心組件:



圖 2:SWE-Lego-Qwen3-32B 的性能提升分解,混合數(shù)據(jù)集貢獻(xiàn)最大(+25.6%),改進(jìn)的 SFT 貢獻(xiàn) + 3.8%,TTS 貢獻(xiàn) + 6.2%

從圖 2 可以看到每個(gè)組件的貢獻(xiàn):混合數(shù)據(jù)集貢獻(xiàn) + 25.6%(最大貢獻(xiàn)),改進(jìn)的 SFT 貢獻(xiàn) + 3.8%,測(cè)試時(shí)擴(kuò)展貢獻(xiàn) + 6.2%。總計(jì)從基線(xiàn) 23.2% 提升到 58.8%,提升了 35.6 個(gè)百分點(diǎn)。這些結(jié)果清楚地表明,好的數(shù)據(jù)集是性能提升的最大驅(qū)動(dòng)力,而改進(jìn)的 SFT 和測(cè)試時(shí)擴(kuò)展提供了不錯(cuò)的增量收益。

核心組件一:混合數(shù)據(jù)集構(gòu)建

SWE-Lego 數(shù)據(jù)集包含 32,119 個(gè)高質(zhì)量任務(wù)實(shí)例,18,110 個(gè)驗(yàn)證軌跡(其中 14,110 個(gè)完全解決,4,000 個(gè)半解決),覆蓋 3,251 個(gè)代碼倉(cāng)庫(kù)。

SWE-Lego 采用混合數(shù)據(jù)構(gòu)建策略,結(jié)合真實(shí)世界數(shù)據(jù)和合成數(shù)據(jù)。真實(shí)世界數(shù)據(jù)來(lái)自嚴(yán)格篩選的 GitHub Pull Requests (PRs),這里的 PRs 中非測(cè)試文件作為 Golden Patch, 也就是這個(gè)任務(wù)的解決方案。真實(shí) PR 數(shù)據(jù)具有貼近生產(chǎn)環(huán)境的優(yōu)勢(shì),能夠提供真實(shí)的 bug 的復(fù)雜性,真實(shí)的任務(wù)參考 SWE-rebench [1]。但是真實(shí)數(shù)據(jù)數(shù)量有限,且每個(gè)任務(wù)需要獨(dú)立的沙箱環(huán)境,成本較高。

參考 SWE-smith [2] 的通過(guò)故意引入 Bug 來(lái)合成軟工任務(wù)的方式,SWE-Lego 通過(guò) AST 轉(zhuǎn)換和 LLM 重寫(xiě),基于真實(shí)代碼倉(cāng)得到相應(yīng)的合成軟工數(shù)據(jù),對(duì)可以通過(guò)測(cè)試的代碼庫(kù)故意引入一些 Bug。具體地,AST 轉(zhuǎn)換提取抽象語(yǔ)法樹(shù)(AST)并應(yīng)用隨機(jī)變換,如移除條件 / 循環(huán)、修改運(yùn)算符或依賴(lài)關(guān)系,而 LLM 重寫(xiě)則提示模型使用函數(shù)頭和文檔字符串等信息重寫(xiě)代碼。引入 Bug 的補(bǔ)丁進(jìn)行反轉(zhuǎn)就可以得到解決這個(gè)任務(wù)的 Golden Patch。合成數(shù)據(jù)具有可擴(kuò)展、成本低、多個(gè)任務(wù)可共享沙箱的優(yōu)勢(shì),但復(fù)雜度相對(duì)較低。

在下一步,團(tuán)隊(duì)對(duì)真實(shí)和合成數(shù)據(jù)采用測(cè)試驅(qū)動(dòng)的方式去得到驗(yàn)證后的軟工數(shù)據(jù)實(shí)例,篩選出合格的軟工任務(wù)。具體地,在應(yīng)用 Golden Patch 前可以通過(guò)的測(cè)試在應(yīng)用 Golden Patch 之后仍然可以通過(guò), 而應(yīng)用 Golden Patch 前不通過(guò)的測(cè)試在應(yīng)用 Golden Patch 之后也需要通過(guò)。



圖 3:SWE-Lego 數(shù)據(jù)管道,結(jié)合真實(shí) PR 和合成的軟工任務(wù)實(shí)例,基于專(zhuān)家模型去生成可執(zhí)行的軌跡用于 SFT 訓(xùn)練

真實(shí)數(shù)據(jù)提供深度(復(fù)雜性和真實(shí)性),合成數(shù)據(jù)提供廣度(數(shù)量和覆蓋范圍)。兩者互補(bǔ):真實(shí)數(shù)據(jù)提供主要收益但難以擴(kuò)展,合成數(shù)據(jù)通過(guò)進(jìn)一步擴(kuò)展提供額外收益。實(shí)驗(yàn)證明,增加合成數(shù)據(jù)可以顯著提升有效軌跡數(shù)量和下游性能。



圖 4:隨著合成實(shí)例的增加,有效軌跡數(shù)量顯著增長(zhǎng)



圖 5:隨著混合數(shù)據(jù)的增加,模型的性能逐步提升

  • 軌跡質(zhì)量?jī)?yōu)化

為了確保訓(xùn)練數(shù)據(jù)的質(zhì)量,SWE-Lego 實(shí)施了嚴(yán)格的軌跡生成和驗(yàn)證流程。

防止解決方案泄露:最近 SWE-Bench 社區(qū) [3] 發(fā)現(xiàn),LLM 可能通過(guò)查看 Git 歷史來(lái) "作弊",直接找到正確答案。為了防止這種解決方案泄露,對(duì)于真實(shí)實(shí)例,SWE-Lego 移除問(wèn)題創(chuàng)建日期之后的所有提交和日志消息,使未來(lái)的修復(fù)不可見(jiàn);對(duì)于合成實(shí)例,由于有 bug 的版本在無(wú) bug 的版本之前(由于故意的 bug 注入),完全移除整個(gè) Git 歷史和所有日志,只暴露 buggy 代碼庫(kù)的單個(gè)快照。這迫使模型真正推理代碼和測(cè)試,而不是從版本控制中讀取答案。

處理工具調(diào)用錯(cuò)誤:在使用 Qwen3-Coder-480B-A35B-Instruct 作為教師模型時(shí),觀(guān)察到對(duì) str_replace_editor 工具的頻繁格式錯(cuò)誤調(diào)用,例如將字符串傳遞給 view_range 或指定超出范圍的行范圍,導(dǎo)致工具失敗并浪費(fèi)交互預(yù)算。為了緩解這些錯(cuò)誤,SWE-Lego 應(yīng)用輕量級(jí)后處理:如果 view_range 是字符串,則在執(zhí)行工具之前將其轉(zhuǎn)換為整數(shù);如果請(qǐng)求的行范圍超過(guò)文件長(zhǎng)度,則返回有效行的子集而不是引發(fā)錯(cuò)誤,使得模型能夠更可靠地檢查代碼。

精簡(jiǎn)工具集:雖然任務(wù)管理工具(如 task_tracker)已被一些最近的專(zhuān)有模型采用,但發(fā)現(xiàn) Qwen3-Coder-480B-A35B-Instruct 無(wú)法有效使用它們,經(jīng)常導(dǎo)致執(zhí)行錯(cuò)誤。因此,SWE-Lego 丟棄此工具,將工具集限制為四個(gè)基本操作:execute_bash、str_replace_editor、think 和 finish,以保持軌跡精簡(jiǎn)。

軌跡過(guò)濾策略:SWE-Lego 通過(guò)應(yīng)用預(yù)測(cè)補(bǔ)丁并運(yùn)行測(cè)試集來(lái)驗(yàn)證軌跡。如果軌跡通過(guò)所有測(cè)試,則分類(lèi)為已解決,否則為未解決。然后,過(guò)濾低質(zhì)量的已解決軌跡(例如,通過(guò)修改測(cè)試文件來(lái) "作弊" 的軌跡),并重用部分解決軌跡(那些正確識(shí)別了所有相關(guān)文件但未能修復(fù)的軌跡)。這些部分解決軌跡提供了有價(jià)值的故障定位監(jiān)督,我們發(fā)現(xiàn)加入此類(lèi)數(shù)據(jù)會(huì)適當(dāng)提升模型的性能。



圖 6:軌跡生成中的關(guān)鍵實(shí)踐,包括防止 Git 泄露、處理工具錯(cuò)誤、精簡(jiǎn)工具集



表 1:SWE-Lego 的可驗(yàn)證的任務(wù)實(shí)例和有效訓(xùn)練軌跡的統(tǒng)計(jì)以及和其他 SWE 相關(guān)工作的數(shù)據(jù)對(duì)比

具體的數(shù)據(jù)統(tǒng)計(jì)和對(duì)比見(jiàn)表 1,可以看出 SWE-Lego 的混合數(shù)據(jù)管道提供了數(shù)量充足的、代碼倉(cāng)多樣的、環(huán)境可驗(yàn)證的 SWE 任務(wù)實(shí)例和軌跡。

總結(jié):混合數(shù)據(jù)集是性能提升的最大驅(qū)動(dòng)力。真實(shí)數(shù)據(jù)與合成數(shù)據(jù)互補(bǔ)確保了數(shù)據(jù)數(shù)量,嚴(yán)格的軌跡驗(yàn)證確保了軌跡的質(zhì)量。

核心組件二:改進(jìn)的監(jiān)督微調(diào)

通常的監(jiān)督微調(diào)將通過(guò)測(cè)試驗(yàn)證的整條軌跡拿去訓(xùn)練,但實(shí)際上在軟工的場(chǎng)景,專(zhuān)家軌跡需要多輪在沙箱中交互得到最后的預(yù)測(cè)補(bǔ)丁,即使最終成功解決的軌跡也可能包含中間錯(cuò)誤步驟,盲目學(xué)習(xí)這些錯(cuò)誤可能強(qiáng)化不良行為。另外,不同數(shù)據(jù)的難度不同,在訓(xùn)練初期讓模型學(xué)習(xí)難題可能比較吃力。針對(duì)這些情況,SWE-Lego 提出了兩個(gè)改進(jìn):

  • 改進(jìn) 1:步驟級(jí)錯(cuò)誤掩碼

核心思想:保持完整軌跡上下文,但只對(duì)正確的步驟計(jì)算損失。



圖 7:步驟級(jí)錯(cuò)誤掩碼示例,錯(cuò)誤步驟被掩碼,模型只學(xué)習(xí)正確的操作

實(shí)現(xiàn)方法:使用正則表達(dá)式識(shí)別終端環(huán)境提供的錯(cuò)誤消息,對(duì)相應(yīng)的模型響應(yīng)應(yīng)用錯(cuò)誤掩碼。關(guān)鍵是要排除因復(fù)現(xiàn) bug 或執(zhí)行測(cè)試文件而產(chǎn)生的錯(cuò)誤。這種方法保持完整的軌跡上下文,但只對(duì)正確的步驟計(jì)算損失,使模型能夠?qū)W習(xí)正確的操作和恢復(fù)策略,而不會(huì)強(qiáng)化錯(cuò)誤。通過(guò)強(qiáng)調(diào)學(xué)習(xí)正確操作,直接減少了核心推理失敗,如 "錯(cuò)誤實(shí)現(xiàn)" 和 "定位錯(cuò)誤"。

  • 改進(jìn) 2:基于難度的課程學(xué)習(xí)

核心思想:從簡(jiǎn)單任務(wù)開(kāi)始,逐步增加難度。

SWE-Lego 探索了兩種難度分類(lèi)方法:基于模型的評(píng)分和基于軌跡輪數(shù)的啟發(fā)式。研究發(fā)現(xiàn),軌跡輪數(shù)與解決率之間存在強(qiáng)負(fù)相關(guān)(相關(guān)系數(shù) - 0.95)。基于這一發(fā)現(xiàn),SWE-Lego 采用可以直接獲取的指標(biāo),軌跡輪數(shù),作為軌跡的難度指標(biāo),將數(shù)據(jù)分為三個(gè)難度等級(jí):簡(jiǎn)單(0-50 輪)、中等(50-70 輪)、困難(70-100 輪)。訓(xùn)練策略采用三階段課程:先訓(xùn)練簡(jiǎn)單任務(wù),再逐步加入中等和困難任務(wù)。這種課程學(xué)習(xí)與訓(xùn)練動(dòng)態(tài)一致:首先讓模型在 "簡(jiǎn)單" 任務(wù)上克服基本的 "無(wú)法復(fù)現(xiàn)" 錯(cuò)誤,然后引入 "困難" 任務(wù)以發(fā)展避免 "超出最大輪次" 失敗所需的戰(zhàn)略規(guī)劃。



圖 8:軌跡輪次與平均解決率之間的強(qiáng)負(fù)相關(guān)關(guān)系

  • 訓(xùn)練過(guò)程分析

通過(guò)分析訓(xùn)練過(guò)程中的錯(cuò)誤類(lèi)型演變,可以清楚地看到模型的學(xué)習(xí)軌跡:



圖 9:訓(xùn)練過(guò)程中解決率的提升趨勢(shì)



圖 10:訓(xùn)練過(guò)程中錯(cuò)誤類(lèi)型的演變,從早期的 "無(wú)法復(fù)現(xiàn)" 到后期的 "錯(cuò)誤實(shí)現(xiàn)"

錯(cuò)誤類(lèi)型的變化:訓(xùn)練初期時(shí) "無(wú)法復(fù)現(xiàn)" 錯(cuò)誤占主導(dǎo),表明模型此時(shí)缺乏對(duì)軟工任務(wù)基本的理解能力;訓(xùn)練中期時(shí) "無(wú)法復(fù)現(xiàn)" 比例大幅減少,但 "定位錯(cuò)誤" 比例仍有較多,表明缺乏戰(zhàn)略規(guī)劃;訓(xùn)練后期 "錯(cuò)誤實(shí)現(xiàn)" 成為瓶頸,表明從過(guò)程失敗轉(zhuǎn)向推理失敗。

改進(jìn)的 SFT(錯(cuò)誤掩碼 + 課程學(xué)習(xí))帶來(lái) 3.8% 的性能提升。在 SWE-bench Verified 上,SWE-Lego-Qwen3-8B 達(dá)到 42.2%,SWE-Lego-Qwen3-32B 達(dá)到 52.6%。通過(guò)漸進(jìn)式訓(xùn)練和選擇性學(xué)習(xí),模型能夠更有效地掌握復(fù)雜任務(wù)。

核心組件三:測(cè)試時(shí)擴(kuò)展

測(cè)試時(shí)擴(kuò)展(TTS)可以在不重新訓(xùn)練的情況下,通過(guò)在測(cè)試階段分配額外的計(jì)算資源來(lái)提升性能。SWE-Lego 系統(tǒng)研究了兩個(gè)正交維度:

  • 維度 1:串行擴(kuò)展 vs 并行擴(kuò)展

SWE-Lego 研究了串行擴(kuò)展和并行擴(kuò)展之間的資源分配。串行擴(kuò)展通過(guò)增加最大交互輪次實(shí)現(xiàn),在低測(cè)試預(yù)算的區(qū)域非常高效。額外輪次都能獲得環(huán)境反饋,使模型能夠糾正錯(cuò)誤并迭代改進(jìn)解決方案。這使得串行擴(kuò)展在預(yù)算有限時(shí)成為首選策略。然而,模型性能在約 100-140 輪后開(kāi)始飽和,此時(shí)相比于串行擴(kuò)展,更加需要并行擴(kuò)展來(lái)提升性能。

并行擴(kuò)展生成多個(gè)候選軌跡,用打分器選擇最佳的軌跡。在串行擴(kuò)展飽和后,并行擴(kuò)展變得更加有效,因?yàn)槊總€(gè)獨(dú)立軌跡探索解決方案空間的不同路徑。



圖 11:串行擴(kuò)展和并行擴(kuò)展的權(quán)衡,等延遲曲線(xiàn)顯示了最優(yōu)資源分配策略

在有限的測(cè)試階段計(jì)算預(yù)算下,應(yīng)優(yōu)先進(jìn)行串行擴(kuò)展;在串行擴(kuò)展飽和后,將剩余計(jì)算資源分配給并行擴(kuò)展。圖 11 中的等延遲等高線(xiàn)說(shuō)明了這種權(quán)衡:在等效延遲下,最優(yōu)分配隨著總延遲預(yù)算的增加從順序主導(dǎo)轉(zhuǎn)向并行主導(dǎo)。

  • 維度 2:生成式 vs 回歸式打分器

打分器用于從多個(gè)候選軌跡中選擇最佳方案。SWE-Lego 比較了兩種范式:回歸式打分器和生成式打分器。

回歸式打分器在模型上添加一個(gè)頭輸出,使用二元交叉熵?fù)p失訓(xùn)練,對(duì)整個(gè)軌跡轉(zhuǎn)化為單個(gè)標(biāo)量去打分。生成式打分器將驗(yàn)證表述為文本生成任務(wù),預(yù)測(cè) "是" 或 "否",從輸出 "是" 或 "否的"token 概率計(jì)算分?jǐn)?shù)。生成式打分器的訓(xùn)練目標(biāo)與預(yù)訓(xùn)練的下一個(gè) token 預(yù)測(cè)目標(biāo)對(duì)齊,可能更好地利用模型的固有知識(shí)。



圖 12:生成式打分器與回歸式打分器的對(duì)比,生成式打分器在 K 值較大時(shí)持續(xù)改進(jìn)

在 rollout 的個(gè)數(shù)(K 值)比較小時(shí),生成式打分器與回歸式打分器兩者的性能相近;隨著 rollout 的次數(shù)(K)的增加,回歸式打分器趨于飽和,而生成式打分器持續(xù)改進(jìn)。對(duì)于 SWE-Lego-Qwen3-8B,在 K=16 時(shí)差距達(dá)到 2.8%(49.6% vs 46.8%)。



圖 13:SWE-Lego 打分器與現(xiàn)有公開(kāi)打分器的對(duì)比

SWE-Lego-Verifier-8B 在 TTS@16 上達(dá)到 49.6%,超越了 OpenHands-Critic-32B(44.0%)和 R2E-Gym-Verifier-14B(47.0%)。除了絕對(duì)性能外,還觀(guān)察到不同打分器范式的定性不同縮放行為。OpenHands-Critic-32B 采用回歸式范式,在更高的 K 值下表現(xiàn)出性能下降,這是一個(gè)反直覺(jué)的結(jié)果,表明更大的候選池壓倒了其判別能力。相比之下,生成式打分器(SWE-Lego 和 R2E-Gym)保持單調(diào)改進(jìn),趨向于 Pass@K 上限,進(jìn)一步確認(rèn)生成式表述提供了更穩(wěn)健的縮放屬性。

總結(jié):測(cè)試時(shí)擴(kuò)展可以在測(cè)試階段帶來(lái)額外提升。在測(cè)試的計(jì)算預(yù)算比較低的時(shí)候,串行擴(kuò)展優(yōu)先于并行擴(kuò)展。生成式打分器在并行擴(kuò)展中表現(xiàn)更優(yōu)。

三、結(jié)語(yǔ)與展望

SWE-Lego 證明了輕量級(jí)方法也能達(dá)到 SOTA,不一定需要復(fù)雜的 RL 或 SFT 和 RL 的迭代訓(xùn)練,SFT 也可以取得軟工任務(wù)的 SOTA 性能。數(shù)據(jù)質(zhì)量至關(guān)重要,混合數(shù)據(jù)集和嚴(yán)格驗(yàn)證是性能提升的關(guān)鍵。訓(xùn)練技巧的價(jià)值也不容忽視,錯(cuò)誤掩碼和課程學(xué)習(xí)等看似簡(jiǎn)單的改進(jìn)也帶來(lái)了性能提升。

未來(lái)將探索更大模型和更多數(shù)據(jù)的組合,擴(kuò)展到 Python 之外的其他編程語(yǔ)言和其他類(lèi)型的代碼任務(wù),處理企業(yè)級(jí)的長(zhǎng)序列、多文件任務(wù),并將 SWE-Lego 應(yīng)用到真實(shí)的軟件開(kāi)發(fā)流程中。

參考文獻(xiàn)

[1] Badertdinov, I., Golubev, A., Nekrashevich, M., Shevtsov, A., Karasik, S., Andriushchenko, A., ... & Yangel, B. (2025). SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents. arXiv preprint arXiv:2505.20411.

[2] Yang, J., Lieret, K., Jimenez, C. E., Wettig, A., Khandpur, K., Zhang, Y., ... & Yang, D. (2025). Swe-smith: Scaling data for software engineering agents. arXiv preprint arXiv:2504.21798.

[3] https://github.com/SWE-bench/SWE-bench/issues/465

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
心如死灰!一乳腺癌患者哭訴抗癌1年,在丈夫外套翻出他達(dá)拉非…

心如死灰!一乳腺癌患者哭訴抗癌1年,在丈夫外套翻出他達(dá)拉非…

火山詩(shī)話(huà)
2026-03-27 06:26:22
陳赫二婚老婆罕見(jiàn)走紅毯!臉腫脹、油成豬剛鬣,網(wǎng)友:都是玻尿酸

陳赫二婚老婆罕見(jiàn)走紅毯!臉腫脹、油成豬剛鬣,網(wǎng)友:都是玻尿酸

荒野老五
2026-03-28 10:59:27
醫(yī)生發(fā)現(xiàn):那些常年養(yǎng)寵物的老人,到七十歲以后,大多變成了這樣

醫(yī)生發(fā)現(xiàn):那些常年養(yǎng)寵物的老人,到七十歲以后,大多變成了這樣

蜉蝣說(shuō)
2026-03-28 18:18:03
庫(kù)存十年的電視機(jī)流入閑魚(yú)!全新260塊,倉(cāng)庫(kù)鑰匙找到了?

庫(kù)存十年的電視機(jī)流入閑魚(yú)!全新260塊,倉(cāng)庫(kù)鑰匙找到了?

數(shù)碼辣條
2026-03-28 11:20:13
秦皇島阿那亞現(xiàn)罕見(jiàn)“帶狀”海市蜃樓,拍攝者:像積木搭成的火車(chē),還有船只在浮動(dòng)

秦皇島阿那亞現(xiàn)罕見(jiàn)“帶狀”海市蜃樓,拍攝者:像積木搭成的火車(chē),還有船只在浮動(dòng)

極目新聞
2026-03-29 12:15:15
盲目的大學(xué)擴(kuò)招,正在反噬整個(gè)社會(huì)

盲目的大學(xué)擴(kuò)招,正在反噬整個(gè)社會(huì)

凡人志
2026-03-25 01:34:53
乞丐為何很少生病?道正一語(yǔ)道破:他們少了三樣俗物,百邪不近身

乞丐為何很少生病?道正一語(yǔ)道破:他們少了三樣俗物,百邪不近身

千秋文化
2026-02-13 18:55:13
看了姚晨的舊照,才明白凌瀟肅曹郁為啥相繼淪陷了,嘴大不是缺陷

看了姚晨的舊照,才明白凌瀟肅曹郁為啥相繼淪陷了,嘴大不是缺陷

八斗小先生
2026-03-20 15:24:18
理想缺一場(chǎng)找回自己的勝仗

理想缺一場(chǎng)找回自己的勝仗

財(cái)經(jīng)無(wú)忌
2026-03-26 15:19:15
中美談判破裂,中國(guó)強(qiáng)硬立案調(diào)查美國(guó)顯底氣

中美談判破裂,中國(guó)強(qiáng)硬立案調(diào)查美國(guó)顯底氣

青山夜談
2026-03-29 21:23:46
張水華直播間已掛小黃車(chē)!呼吁網(wǎng)友理性消費(fèi) 曾3次公開(kāi)稱(chēng)絕不帶貨

張水華直播間已掛小黃車(chē)!呼吁網(wǎng)友理性消費(fèi) 曾3次公開(kāi)稱(chēng)絕不帶貨

風(fēng)過(guò)鄉(xiāng)
2026-03-29 22:01:44
光纖招標(biāo)價(jià)格,炸了!

光纖招標(biāo)價(jià)格,炸了!

格隆匯
2026-03-29 15:36:36
臺(tái)灣民眾黨上凱道聲援柯文哲,黃國(guó)昌:感謝國(guó)民黨朋友的支持

臺(tái)灣民眾黨上凱道聲援柯文哲,黃國(guó)昌:感謝國(guó)民黨朋友的支持

海峽導(dǎo)報(bào)社
2026-03-29 15:37:03
伊朗勝利的曙光來(lái)了,因?yàn)閼?zhàn)事不利,以色列內(nèi)部開(kāi)始爆發(fā)激烈內(nèi)訌

伊朗勝利的曙光來(lái)了,因?yàn)閼?zhàn)事不利,以色列內(nèi)部開(kāi)始爆發(fā)激烈內(nèi)訌

阿七說(shuō)史
2026-03-28 15:22:52
天氣預(yù)報(bào)丨注意!今晚有大雨、雷暴大風(fēng) 后天氣溫飆升至27℃

天氣預(yù)報(bào)丨注意!今晚有大雨、雷暴大風(fēng) 后天氣溫飆升至27℃

上游新聞
2026-03-29 18:00:07
香港金像獎(jiǎng)發(fā)布最佳男女主候選人造型照,梁家輝跳舞、古天樂(lè)“頭痛”,馬麗大變樣、章子怡很美;本屆金像獎(jiǎng)4月19日頒獎(jiǎng),章子怡有望第3次“封后”

香港金像獎(jiǎng)發(fā)布最佳男女主候選人造型照,梁家輝跳舞、古天樂(lè)“頭痛”,馬麗大變樣、章子怡很美;本屆金像獎(jiǎng)4月19日頒獎(jiǎng),章子怡有望第3次“封后”

極目新聞
2026-03-27 09:09:45
四川一女子打印資料后要求店員幫忙歸類(lèi)整理,店員解釋事先已經(jīng)告知,只負(fù)責(zé)打印,女子突然情緒崩潰大聲叫喊,被老板“怒吼”要求出去

四川一女子打印資料后要求店員幫忙歸類(lèi)整理,店員解釋事先已經(jīng)告知,只負(fù)責(zé)打印,女子突然情緒崩潰大聲叫喊,被老板“怒吼”要求出去

瀟湘晨報(bào)
2026-03-29 10:16:35
最強(qiáng)戰(zhàn)爆冷!中國(guó)00后名將屠曉宇力克申真谞,掀翻韓國(guó)第一人

最強(qiáng)戰(zhàn)爆冷!中國(guó)00后名將屠曉宇力克申真谞,掀翻韓國(guó)第一人

L76號(hào)
2026-03-29 16:08:32
16歲已是人間尤物,4年換20個(gè)男人,找到老實(shí)人接盤(pán)后收心做人妻

16歲已是人間尤物,4年換20個(gè)男人,找到老實(shí)人接盤(pán)后收心做人妻

興史興談
2026-03-29 00:00:24
Lisa曬生日照,穿泳衣大膽露屁股,表情夸張扭曲,面相都變了

Lisa曬生日照,穿泳衣大膽露屁股,表情夸張扭曲,面相都變了

秋姐居
2026-03-27 14:39:01
2026-03-29 22:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12620文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

美軍地面戰(zhàn)"數(shù)周速?zèng)Q"方案披露 欲復(fù)刻"42天滅伊"神話(huà)

頭條要聞

美軍地面戰(zhàn)"數(shù)周速?zèng)Q"方案披露 欲復(fù)刻"42天滅伊"神話(huà)

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂(lè)要聞

張凌赫事件持續(xù)升級(jí)!官方點(diǎn)名怒批

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車(chē)要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

藝術(shù)
本地
房產(chǎn)
公開(kāi)課
軍事航空

藝術(shù)要聞

314米!溫哥華第一座超高層摩天樓,像“海綿礁”

本地新聞

在濰坊待了三天,沒(méi)遇到一個(gè)“濰坊人”

房產(chǎn)要聞

首日430組來(lái)訪(fǎng),單日120組認(rèn)籌!海口首個(gè)真四代,徹底爆了!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美兩棲攻擊艦載3500名增援到達(dá)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版