337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

打破代碼大模型訓練瓶頸:MicroCoder將算法數據框架訓練經驗升級

0
分享至

MicroCoder團隊 投稿
量子位 | 公眾號 QbitAI

新一代代碼模型的訓練動態已與舊模型截然不同,主流強化學習方法和數據集在其上幾乎“失效”。

微軟亞洲研究院與劍橋大學、普林斯頓聯合推出MicroCoder,從算法、數據、框架、訓練經驗四個維度全面升級,在最新代碼測試集上取得明顯提升,并從七個方面開源了34條訓練洞察。



背景:舊經驗遇上新模型,為何幾乎全部“失效”?

強化學習正在成為代碼大模型能力提升的核心路徑。以GRPO為代表的策略優化方法在數學推理任務上積累了大量成功經驗,人們自然地把這套方法遷移到了代碼生成上。

然而研究者很快發現了一個現象:用DeepCoder這類主流數據集訓練最新推理模型,性能幾乎沒有提升;而同樣的做法在過去版本的模型上卻有顯著效果。

這背后的原因是代際性的:最新推理模型的能力已經超出了主流數據集的難度,這些題目對它而言過于簡單,無法產生有效的學習。與此同時,最新推理模型在訓練中輸出長度持續增長,而舊模型的輸出長度穩定甚至下降,兩代模型的訓練動態已經截然不同,專為舊模型設計的訓練方法在新模型上不再適用。

針對這一訓練瓶頸,來自微軟亞洲研究院、劍橋大學和普林斯頓大學的研究團隊提出了MicroCoder項目,包含四個核心貢獻:MicroCoder-GRPO算法、MicroCoder-Dataset數據集、MicroCoder-Evaluator訓練評估框架,以及跨超過30組受控實驗總結的34條訓練經驗。



算法:MicroCoder-GRPO

MicroCoder-GRPO在GRPO基礎上引入三項修改,專門應對現代代碼模型的訓練動態。

修改一:條件截斷掩碼

強化學習訓練中,被最大長度截斷的輸出若參與策略優化,會引導模型生成更短的輸出。為此,DeepCoder等方法采用“全部掩碼”策略,對所有達到最大長度的輸出都將優勢分數置零,但這會導致輸出長度增長過快。

MicroCoder-GRPO提出了更精細的條件截斷掩碼:只對同時滿足四個條件的輸出執行掩碼,達到最大長度、答案非錯誤、無尾部重復序列、且以特定概率隨機抽取。實驗表明,這一策略有效解鎖了模型的長輸出潛力,同時規避了全掩碼策略帶來的訓練問題,最終收斂性能高于無掩碼和全掩碼兩種方案。

修改二:多樣性驅動的溫度選擇

輸出多樣性是強化學習穩定訓練的關鍵指標。研究發現:在固定溫度下,多樣性不會總隨訓練進行持續變動,而是不同溫度下會最終收斂到相近水平;而一旦初始多樣性與預期收斂值相差較大,模型的訓練就容易受到影響。傳統標準溫度對最新推理模型而言較低,容易因此產生影響。

MicroCoder-GRPO提出根據模型初始輸出多樣性動態確定訓練溫度:測量初始多樣性趨勢,選擇能使多樣性平穩收斂的溫度值。文章還發現“先低溫后高溫”的分階段方法優于全程固定溫度,但需避免連續的溫度過渡,即便是短暫的漸變也可能對多樣性造成影響。

修改三:去除KL散度+高裁剪比率

沿用DAPO的設計思路,MicroCoder-GRPO將KL散度權重設為0,并采用更高的裁剪比率。實驗證明,保留KL散度會持續影響輸出多樣性、限制輸出長度增長,導致性能“先漲后跌”;去除后,模型獲得持續的性能提升。

三項修改共同作用下,MicroCoder-GRPO在最新代碼測試集上相比DAPO基線取得明顯提升,且在拓展測試上下文長度時更為顯著。



數據:MicroCoder-Dataset

算法之外,數據難度也是代碼模型能力的重要影響因素。

四階段數據處理流水線

MicroCoder-Dataset的構建分四個階段:“收集”從多元平臺收集真實競賽題目;“處理”統一語言、去噪、格式標準化,并用LLM自動生成和篩選測試用例;“篩選”實施軟硬約束及自適應難度過濾;“驗證”進行人工抽查確??勺x性和測試用例準確性。

自動難度過濾:預測-校準-選擇

難度過濾是MicroCoder-Dataset的核心創新。研究團隊設計了一套五維難度評估矩陣,由LLM對每道題進行三次獨立打分,取平均后計算加權難度分。

這五個維度的權重設計有其理論依據,參考了Bloom教育目標分類法、McCabe和Halstead方法,將重心放在真正考驗推理和編程能力的維度上,而非語義理解和記憶。

隨后,以模型實際通過率為基準對預測分進行校準,在LiveCodeBench數據集上確定易、中、難的分界值,預測分布與實際分布幾乎完全吻合。過濾后,簡單題占比降至25%以下,困難題占比提升至50%以上。

數據集特點

最終,MicroCoder-Dataset包含超過13K經嚴格篩選的真實競賽題,全部來自實際競賽平臺而非LLM生成。聚類分析表明各平臺題目互補,與測試集之間沒有重合。

效果對比

在相同訓練下,MicroCoder-Dataset在300步訓練內取得的性能增益是DeepCoder數據集的3倍。以DAPO訓練最新推理模型為例,相比DeepCoder,MicroCoder在LeetCode上整體提升約6.0個百分點,難度越高,增益越明顯。



訓練評估框架:MicroCoder-Evaluator

代碼評估的準確性直接決定強化學習的質量。

問題:原版評估器的誤判

LiveCodeBench原版評估器采用嚴格精確匹配策略:直接等值比較、精確浮點計算、僅做基本空白去除。這種方式會將大量格式正確但略有差異的正確答案判為錯誤,例如返回列表與元組的格式差異、浮點精度差異,產生噪聲,干擾訓練。

解決方案:多方法回退的綜合驗證

MicroCoder-Evaluator采用6-7種方法組成的回退鏈進行綜合輸出驗證,依次嘗試不同的比較策略:支持列表、元組、字符串、集合等格式的自動類型轉換;進行浮點近似比較;多行分割與空白規范化等預處理;單個方法失敗后自動切換至下一種方法,全程高容錯。

效果

與LiveCodeBench原版評估器相比,MicroCoder-Evaluator將評估準確率提升約25%,即更準確地識別了正確解法的變體,減少了誤判噪聲。訓練曲線對比顯示,使用MicroCoder-Evaluator的模型在早期訓練階段可以獲得更可靠的學習反饋,最終測試準確率更高且收斂更快。

此外,通過優化并行處理策略,MicroCoder-Evaluator將每個訓練步驟的執行速度提升約40%,顯著提升了訓練效率。

訓練洞察:34條跨越七大維度的經驗

MicroCoder項目通過超過30組受控實驗完整地記錄了現代代碼模型強化學習訓練中的經驗,覆蓋七大維度,以下列出各維度的核心洞察:

代碼評估器:評估準確性對訓練效果影響顯著,尤其在早期階段。高容錯評估帶來更可靠的結果反饋,能有效防止次優收斂。原版LiveCodeBench評估器的嚴格匹配策略會產生誤判,在訓練初期產生影響。

溫度動態:模型對溫度的魯棒性隨訓練進行而增強。不同溫度下,輸出多樣性變化但最終收斂到相近水平。當初始多樣性低于收斂預期時,可能導致訓練失敗。

訓練數據:數據難度影響泛化能力。在簡單數據集上表現優秀并不意味著在測試集上同樣優秀,只有挑戰性更高的訓練問題才能帶來真正的泛化提升。更難的問題會促使模型生成更長的解題路徑,輸出長度增長速度和最終長度均更大。

上下文長度與擴展:更長的最大輸出與更高的最終準確率、更快的輸出增長和更高的多樣性直接相關。早期訓練階段的輸出長度限制會產生“不可逆”影響,一旦模型在短輸出限制下訓練足夠長時間,后續即便增大上下文,性能也無法完全恢復。

截斷掩碼策略:掩碼比例在訓練速度與峰值性能之間形成平衡,更高的掩碼比例能更快達到初始峰值,但較低的掩碼比例能延長上升階段并達到更高的峰值。30%的條件掩碼在輸出長度增長速率上已接近全掩碼,同時顯著優于全掩碼在訓練穩定性等方面的表現。

批大小與在線訓練:較小的訓練批大小產生更接近在線訓練的行為,加快多樣性收斂,但影響訓練穩定性;較大的批大小產生離線訓練行為,穩定性更強。最優選擇來自兩者之間的平衡。

KL散度與裁剪比率:標準KL散度會持續影響輸出多樣性并限制輸出長度增長,形成“性能先漲后跌”的形式。去除KL散度是支持長期持續性能提升的重要條件。

完整的34條洞察已在項目主頁的MicroCoder-Insights博客中完整整理,覆蓋每個維度的具體實驗和結論,是目前最為完整的現代代碼模型強化學習訓練經驗庫之一。

項目價值

代碼大模型的強化學習訓練長期借鑒數學推理任務的經驗。MicroCoder首次完整提出,這一遷移路徑存在代際斷層,不同模型世代之間,訓練動態、數據需求與算法設計的有效假設已發生質變而非量變,打破了該領域固有認知,明確了新一代代碼模型的研究方向。

在算法設計層面,條件截斷掩碼與多樣性驅動溫度選擇,對強化學習訓練中訓練穩定性與策略探索性之間的平衡提出了可執行的兼顧方案,具有超出代碼生成任務本身的方法論參考價值。

本項目通過超過三十組受控實驗完整整理34條訓練經驗與洞察,覆蓋算法、數據、評估、上下文、溫度等七大核心維度,是目前代碼大模型后訓練領域最為完整、有效的知識沉淀之一,對研究內容的整理分享是模型訓練社區最有影響力的開源項目之一。



作者介紹:



MicroCoder第一作者李宗謙,劍橋大學自然語言處理博士生,劍橋信托學者,劍橋國際生全額博士獎學金,在微軟亞洲研究院完成系列工作。他在微軟、谷歌、紅杉、真格等有實習工作經歷,2025年完成一作論文9篇,發表于NeurIPS、ACL等會議,參與工作發表Nature,對學界、業界、創業有濃厚興趣,是當前大語言模型領域值得關注的年輕研究員。

項目主頁:
https://github.com/ZongqianLi/MicroCoder
算法論文:
https://arxiv.org/abs/2603.07777
數據集論文:
https://arxiv.org/abs/2603.07779
訓練經驗博客:https://github.com/ZongqianLi/MicroCoder/blob/main/MicroCoder-Insights.md

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
外網刷屏!上海街頭武警巡邏,老外慌忙躲避,中國人卻淡定玩手機

外網刷屏!上海街頭武警巡邏,老外慌忙躲避,中國人卻淡定玩手機

涵豆說娛
2026-03-25 11:40:08
澳門乒乓世界杯賽程:3月30日國乒對陣表,CCTV5直播

澳門乒乓世界杯賽程:3月30日國乒對陣表,CCTV5直播

小犙拍客在北漂
2026-03-29 17:51:00
5天已過,日本沒有對華道歉,卻反手威脅臺海,中方通牒送進東京

5天已過,日本沒有對華道歉,卻反手威脅臺海,中方通牒送進東京

夸大其詞的說
2026-03-30 01:31:51
這首詞來歷不明,卻在網上瘋傳,讓無數人讀完久久不說話

這首詞來歷不明,卻在網上瘋傳,讓無數人讀完久久不說話

長風文史
2026-03-23 18:47:08
國民黨有兩個黨主席:一個地上,一個地下

國民黨有兩個黨主席:一個地上,一個地下

雪中風車
2026-02-26 08:36:13
炸穿俄能源命門!250萬桶/日出口直接卡死,普京的石油帝國正崩塌

炸穿俄能源命門!250萬桶/日出口直接卡死,普京的石油帝國正崩塌

老馬拉車莫少裝
2026-03-29 14:17:37
佟麗婭回老家放飛自我,啃羊排沾滿臉肉汁,露虎牙一笑顏值絕美

佟麗婭回老家放飛自我,啃羊排沾滿臉肉汁,露虎牙一笑顏值絕美

看盡落塵花q
2026-03-29 17:34:43
張雪峰自曝每天就睡兩個小時,助理非要給他買除顫儀

張雪峰自曝每天就睡兩個小時,助理非要給他買除顫儀

金牌娛樂
2026-03-29 08:06:36
'最風流'央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

'最風流'央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

君笙的拂兮
2026-03-28 22:24:08
教師大局已定:2026年全國教師隊伍將迎來四大新變化

教師大局已定:2026年全國教師隊伍將迎來四大新變化

戶外阿毽
2026-03-27 12:30:20
風向突變!中東傳來噩耗,黎巴嫩跪倒在黎明前,向美以舉起白旗

風向突變!中東傳來噩耗,黎巴嫩跪倒在黎明前,向美以舉起白旗

呂甒極限手工
2026-03-30 01:48:00
隨筆丨莫讓不該開始的戰爭成為不可收拾的危局

隨筆丨莫讓不該開始的戰爭成為不可收拾的危局

新華社
2026-03-28 18:00:03
北京五環外四十平小屋,他背了三十年房貸,父母以為他搶了銀行

北京五環外四十平小屋,他背了三十年房貸,父母以為他搶了銀行

科學發掘
2026-03-30 00:05:03
吃瓜,江蘇某設計院員工大掀桌子!

吃瓜,江蘇某設計院員工大掀桌子!

黯泉
2026-03-29 21:22:06
世上有兩個國家,一個誰也打不過,一個誰也不敢打

世上有兩個國家,一個誰也打不過,一個誰也不敢打

近史談
2026-03-28 23:06:25
17歲費曼長到188cm!陪媽媽看展太帥了,王麗萍罕見出鏡氣質絕了

17歲費曼長到188cm!陪媽媽看展太帥了,王麗萍罕見出鏡氣質絕了

觀魚聽雨
2026-03-27 16:48:38
女孩當小姐,一晚要提供4到5次上門服務,被親人點到不赴約

女孩當小姐,一晚要提供4到5次上門服務,被親人點到不赴約

情感藝術家
2026-02-26 10:48:00
日本爆發抗議:高市道歉!小泉道歉!中國對不起!

日本爆發抗議:高市道歉!小泉道歉!中國對不起!

觀威海
2026-03-29 12:43:40
辟謠辟謠!廣州供電局“瘋狂”辟謠!

辟謠辟謠!廣州供電局“瘋狂”辟謠!

新快報新聞
2026-03-29 16:34:02
+23.1!哈登打出身價,騎士商討續約事宜,2年7500萬或成溢價合同

+23.1!哈登打出身價,騎士商討續約事宜,2年7500萬或成溢價合同

體育大朋說
2026-03-29 22:20:04
2026-03-30 03:00:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12366文章數 176428關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現!李榮浩喊話單依純侵權

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

旅游
時尚
家居
數碼
教育

旅游要聞

2026上海旅游產業博覽會開幕,一城三館聯動書寫文商旅體展消費新篇章

來到1980的周也,好毛利蘭

家居要聞

曲線華爾茲 現代簡約

數碼要聞

內存條價格被曝出現斷崖式下跌,一天跌去百元

教育要聞

建議給家長放春秋假,否則的話,學生放春秋假就失去意義

無障礙瀏覽 進入關懷版