網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

QwenLong-L1.5發(fā)布：讓30B MoE模型長(zhǎng)文本推理能力媲美GPT-5

2025-12-29 14:50:14　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

作為大模型從業(yè)者或研究員的你，是否也曾為一個(gè)模型的 “長(zhǎng)文本能力” 而興奮，卻在實(shí)際應(yīng)用中發(fā)現(xiàn)它并沒(méi)有想象中那么智能？

你大概率也遇到過(guò)以下困境之一：

虛假的繁榮：模型在 “大海撈針” (Needle-in-a-Haystack) 測(cè)試中輕松取得高分，營(yíng)造了一種長(zhǎng)文本能力已經(jīng)解決的 “虛假繁榮”。但一旦任務(wù)從簡(jiǎn)單的信息定位，升級(jí)為需要串聯(lián)分散證據(jù)、整合全局信息的多跳推理 (multi-hop reasoning) 時(shí)，模型的表現(xiàn)便會(huì)急轉(zhuǎn)直下，難以構(gòu)建起完整的邏輯鏈條，暴露出其在深度理解上的真實(shí)短板。

訓(xùn)練的噩夢(mèng)：長(zhǎng)文本、多任務(wù)的訓(xùn)練數(shù)據(jù)就像一個(gè)成分復(fù)雜的 “大雜燴”，其多源、多域的特性，讓標(biāo)準(zhǔn)的 RL 算法嚴(yán)重 “水土不服”。你精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)（Reward Function）很可能因?yàn)閿?shù)據(jù)分布的劇烈變化而產(chǎn)生偏差，導(dǎo)致模型性能不升反降。最終，監(jiān)控圖上那劇烈震蕩的獎(jiǎng)勵(lì)和熵（Entropy）曲線，無(wú)情地宣告著訓(xùn)練過(guò)程的 “翻車” 與崩潰。

窗口的天花板：即使上下文窗口被擴(kuò)展到 256K，1M 甚至更長(zhǎng)，它也終究是一個(gè)有限的 “物理內(nèi)存”。然而，現(xiàn)實(shí)世界的知識(shí)流 —— 分析整個(gè)代碼倉(cāng)庫(kù)、研讀一份完整的年度財(cái)報(bào)、或是精讀一部專業(yè)巨著 —— 其信息量輕易就能突破這個(gè)上限。這使得模型在處理這些 “超框”（Out-of-Window）任務(wù)時(shí)，不得不依賴分塊處理等妥協(xié)方案，最終導(dǎo)致關(guān)鍵全局信息的丟失和端到端推理能力的降級(jí)。

如果這些場(chǎng)景讓你倍感熟悉，那么問(wèn)題很可能不在于你不夠努力，而在于業(yè)界缺少一套完整、端到端的長(zhǎng)文本推理后訓(xùn)練 “配方”（Post-training Recipe）。

針對(duì)這一系列挑戰(zhàn)，通義文檔智能團(tuán)隊(duì)正式推出QwenLong-L1.5—— 一個(gè)基于 Qwen3-30B-A3B 打造的長(zhǎng)文本推理專家。我們的核心貢獻(xiàn)，正是提供了這套缺失的 “配方”，它系統(tǒng)性地統(tǒng)一了：

可擴(kuò)展的高質(zhì)量數(shù)據(jù)合成管線
為長(zhǎng)文本定制的強(qiáng)化學(xué)習(xí)方法
突破物理窗口的智能體架構(gòu)

這套組合拳，旨在一次性解決從 “學(xué)不好” 到 “用不了” 的全鏈路難題。

技術(shù)報(bào)告： https://huggingface.co/papers/2512.12967
GitHub 倉(cāng)庫(kù)： https://github.com/Tongyi-Zhiwen/Qwen-Doc

深入拆解：我們的三大「法寶」

要讓模型真正掌握長(zhǎng)文本推理，零敲碎打的優(yōu)化是遠(yuǎn)遠(yuǎn)不夠的。我們提出了一套系統(tǒng)性的 “組合拳”，包含三大核心法寶，從根本上重塑模型的學(xué)習(xí)與思考方式。

法寶一：高質(zhì)量 “精神食糧” —— 多跳推理數(shù)據(jù)合成流水線

模型的 “食糧” 決定了它的 “智商”。如果只給模型投喂簡(jiǎn)單的 “大海撈針” 式任務(wù)，就如同只讓學(xué)生做單選題，卻期望他能寫出長(zhǎng)篇論述文。

為了教會(huì)模型真正的 “思考”，我們打造了一條新穎的數(shù)據(jù)合成流水線。其核心思想是 “先拆解，后組合”，專造需要 “多跳溯源 (multi-hop grounding) 和全局推理” 的難題。這就像用樂(lè)高積木拼城堡：我們先把一本巨著拆解成一個(gè)個(gè)知識(shí) “積木”（原子事實(shí)），再根據(jù)復(fù)雜的 “圖紙”（如知識(shí)圖譜、多文檔表格），把這些分布在不同章節(jié)的積木拼成一個(gè)宏偉的 “城堡”（復(fù)雜問(wèn)題）。

這條流水線由三大 “出題引擎” 驅(qū)動(dòng)，能程序化地生成無(wú)窮無(wú)盡的高質(zhì)量挑戰(zhàn)：

知識(shí)圖譜引導(dǎo) (KG-Guided)：自動(dòng)挖掘文檔間的深層邏輯鏈，生成環(huán)環(huán)相扣的多跳推理題，強(qiáng)制模型進(jìn)行跨段落、跨文檔的關(guān)聯(lián)思考。
跨文檔表格引擎 (Cross-document Table Engine)：從多個(gè)非結(jié)構(gòu)化文檔中自動(dòng)抽取出數(shù)據(jù)，整合成統(tǒng)一的結(jié)構(gòu)化表格，據(jù)此生成需要聚合、統(tǒng)計(jì)與復(fù)雜計(jì)算的數(shù)值推理題。
多智能體自我進(jìn)化 (MASE)：設(shè)計(jì)一個(gè)由 “出題者”、“解題者”、“檢驗(yàn)者” 組成的多智能體框架，基于無(wú)標(biāo)簽文檔自動(dòng)合成通用長(zhǎng)文本任務(wù)，通過(guò) “出題 - 解題 - 檢驗(yàn)” 的循環(huán)，結(jié)合歷史合成任務(wù)提升任務(wù)難度和廣度。

法寶二：穩(wěn)定高效的 RL 優(yōu)化策略

強(qiáng)化學(xué)習(xí)（RL）是提升模型推理能力的關(guān)鍵，但在長(zhǎng)文本、多任務(wù)場(chǎng)景下，標(biāo)準(zhǔn)的 RL 方法會(huì)面臨兩大嚴(yán)峻挑戰(zhàn)，極易導(dǎo)致訓(xùn)練崩潰。

第一個(gè)挑戰(zhàn)源于數(shù)據(jù)分布的異構(gòu)性。我們的長(zhǎng)文本訓(xùn)練數(shù)據(jù)來(lái)自代碼、學(xué)術(shù)文獻(xiàn)、財(cái)報(bào)等多個(gè)領(lǐng)域，任務(wù)類型也涵蓋了問(wèn)答、計(jì)算、分析等。這種復(fù)雜性導(dǎo)致在訓(xùn)練的每個(gè)批次（mini-batch）內(nèi)，數(shù)據(jù)分布都會(huì)發(fā)生劇烈偏移（distributional drift）。

這種偏移會(huì)嚴(yán)重干擾獎(jiǎng)勵(lì)信號(hào)（reward）的穩(wěn)定性，并對(duì)優(yōu)勢(shì)函數(shù)（advantage function）的估計(jì)引入巨大噪聲，使得梯度更新方向變得極不可靠。為解決此問(wèn)題，我們采取了雙重策略：

任務(wù)均衡采樣（Task-balanced Sampling）：在構(gòu)建每個(gè)訓(xùn)練批次時(shí)，強(qiáng)制從不同的任務(wù)類型（如多跳推理、數(shù)值計(jì)算、對(duì)話記憶等）中均勻抽取樣本，從源頭上保證了批次內(nèi)數(shù)據(jù)分布的相對(duì)均衡。

任務(wù)專屬優(yōu)勢(shì)估計(jì)（Task-specific Advantage Estimation）：在計(jì)算優(yōu)勢(shì)函數(shù)時(shí)，我們不再對(duì)整個(gè)批次的獎(jiǎng)勵(lì)進(jìn)行標(biāo)準(zhǔn)化，而是在每個(gè)任務(wù)類型內(nèi)部獨(dú)立進(jìn)行。這能有效隔離不同任務(wù)間迥異的獎(jiǎng)勵(lì)分布（如 0/1 的稀疏獎(jiǎng)勵(lì)與 0-1 的密集獎(jiǎng)勵(lì)），從而為每個(gè)任務(wù)提供更準(zhǔn)確、更穩(wěn)定的優(yōu)勢(shì)信號(hào)。

第二個(gè)挑戰(zhàn)是長(zhǎng)文本推理中的信用分配難題（Credit Assignment Problem）。在生成式任務(wù)中，一個(gè)最終錯(cuò)誤的答案（negative response）往往包含了大量完全正確的中間推理步驟。傳統(tǒng)的 RL 算法通過(guò)一個(gè)單一的負(fù)向獎(jiǎng)勵(lì)來(lái)懲罰整個(gè)序列，這種 “一刀切” 的做法會(huì)錯(cuò)誤地懲罰那些正確的、具有探索價(jià)值的步驟，不僅壓制了模型的探索能力，甚至可能導(dǎo)致 “熵坍塌”（entropy collapse）和訓(xùn)練早停。

為此，我們提出了自適應(yīng)熵控制策略優(yōu)化（Adaptive Entropy-Controlled Policy Optimization, AEPO）算法。AEPO 的核心是一種基于模型自身不確定性（以策略熵衡量）的動(dòng)態(tài)梯度屏蔽機(jī)制：

當(dāng)模型在高不確定性（高熵）狀態(tài)下生成了錯(cuò)誤答案時(shí)，AEPO 會(huì)主動(dòng)屏蔽（mask）其負(fù)向梯度。這保護(hù)了模型的探索性行為，避免因懲罰不成熟的嘗試而喪失學(xué)習(xí)潛力。

反之，當(dāng)模型在高置信度（低熵）狀態(tài)下依然犯錯(cuò)時(shí)，負(fù)向梯度會(huì)被正常施加，以堅(jiān)決糾正這些高置信度的錯(cuò)誤。

通過(guò)這種動(dòng)態(tài)的、智能的梯度控制，AEPO 將模型策略的熵穩(wěn)定在一個(gè)健康的區(qū)間，完美平衡了探索與利用，從根本上解決了長(zhǎng)文本 RL 中的不穩(wěn)定性問(wèn)題。

法寶三：突破極限的 “外置大腦”—— 記憶管理框架

256K 的上下文窗口，本質(zhì)上是一種有限的 “短期記憶”。當(dāng)面對(duì)浩如煙海的真實(shí)世界知識(shí)流時(shí)，我們需要的不是一個(gè)更大的窗口，而是一個(gè)全新的工作模式。

為此，我們?yōu)槟Ｐ驮O(shè)計(jì)了一套記憶管理框架 (Memory Management Framework)，這相當(dāng)于給了它一個(gè)可無(wú)限擴(kuò)展的 “智能筆記本”。在閱讀超長(zhǎng)文檔時(shí)，模型不再試圖將所有內(nèi)容硬塞進(jìn) “短期記憶”，而是學(xué)會(huì)了邊讀邊記要點(diǎn)（迭代式記憶更新），形成結(jié)構(gòu)化的記憶，并在需要時(shí)高效檢索和利用這些 “筆記”。

但這并非一個(gè)孤立的工具。通過(guò)巧妙的多階段融合 RL 訓(xùn)練 (multi-stage fusion RL training)，我們將這種 “筆記能力” 與模型與生俱來(lái)的 “過(guò)目不忘”（窗口內(nèi)推理）能力無(wú)縫地融合在了一起。最終得到的，是一個(gè)統(tǒng)一的模型 —— 一個(gè)既能 “深思” 又能 “博覽” 的全能選手，真正突破了物理窗口的束縛。

效果展示

性能全面飛躍，30B moe 模型實(shí)現(xiàn)媲美頂級(jí)旗艦的效果！

QwenLong-L1.5 在多個(gè)權(quán)威長(zhǎng)文本推理基準(zhǔn)上取得了令人矚目的成績(jī)，其表現(xiàn)可以總結(jié)為：

整體性能飛躍：相比基線模型 Qwen3-30B-A3B-Thinking，QwenLong-L1.5 的平均分暴漲 9.9 分！這證明了我們?nèi)缀笥?xùn)練 “配方” 的巨大成功。
比肩頂級(jí)旗艦：在多個(gè)權(quán)威長(zhǎng)文本榜單上，我們的 30B-A3B 模型取得了與 GPT-5、Gemini-2.5-Pro 等業(yè)界頂級(jí)閉源模型相媲美的性能，展現(xiàn)了極強(qiáng)的競(jìng)爭(zhēng)力。
精準(zhǔn)的能力躍升：更值得注意的是，我們的性能提升精準(zhǔn)地體現(xiàn)在了最能考驗(yàn)深度推理能力的復(fù)雜任務(wù)上。在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基準(zhǔn)上，我們分別取得了+31.72、+9.69 和 +6.16 的性能增長(zhǎng)！

這并非巧合，而是精準(zhǔn)地驗(yàn)證了我們 “高質(zhì)量精神食糧”（可編程數(shù)據(jù)合成）的有效性 —— 我們專門為模型打造了什么樣的難題，它就在解決這些難題上獲得了最強(qiáng)的能力！

意外之喜：通用能力不降反升！

訓(xùn)練 “專才” 是否會(huì)犧牲 “通才” 能力？這是大模型微調(diào)中常見(jiàn)的 “蹺蹺板” 難題。

我們的答案是：不僅不會(huì)，反而會(huì)相互促進(jìn)！

實(shí)驗(yàn)結(jié)果顯示，經(jīng)過(guò)長(zhǎng)文本強(qiáng)化訓(xùn)練后，QwenLong-L1.5 不僅沒(méi)有出現(xiàn) “偏科” 或 “遺忘”，反而在一系列通用能力上也獲得了顯著提升：

在數(shù)學(xué)推理 (AIME25) 任務(wù)上表現(xiàn)更優(yōu)；
在智能體記憶 (BFCL) 任務(wù)中展現(xiàn)出更強(qiáng)的狀態(tài)追蹤能力；
在長(zhǎng)對(duì)話 (LongMemEval) 場(chǎng)景下，記憶和理解能力大幅增強(qiáng)。

這有力地證明了，提升長(zhǎng)程信息整合能力，是一種基礎(chǔ)性的 “認(rèn)知升級(jí)”，其收益會(huì)輻射到模型的各項(xiàng)核心能力之中。

挑戰(zhàn)極限：征服 1M~4M Token 超長(zhǎng)文本！

當(dāng)任務(wù)長(zhǎng)度遠(yuǎn)超物理上下文窗口時(shí)，模型真正的擴(kuò)展能力才得以體現(xiàn)。

借助我們的 “外置大腦”（記憶管理框架），QwenLong-L1.5 在處理百萬(wàn)、甚至四百萬(wàn)級(jí)別的超長(zhǎng)任務(wù)時(shí)，展現(xiàn)出了卓越的性能。

結(jié)果顯示，QwenLong-L1.5 在這些極限挑戰(zhàn)中，性能遠(yuǎn)超同類智能體方法，充分驗(yàn)證了我們框架強(qiáng)大的可擴(kuò)展性。這表明，我們不僅提升了模型在窗口內(nèi)的能力，更賦予了它突破物理窗口限制、處理無(wú)限信息流的巨大潛力。

總結(jié)

總結(jié)：我們提出的 QwenLong-L1.5 及其背后的 “數(shù)據(jù)合成 + RL 優(yōu)化 + 記憶管理” 三位一體的后訓(xùn)練框架，為解決大模型長(zhǎng)文本推理難題提供了一條經(jīng)過(guò)驗(yàn)證的、可復(fù)現(xiàn)的路徑。

開(kāi)源呼吁：我們相信開(kāi)放與共享的力量。相關(guān)技術(shù)細(xì)節(jié)已在論文中公布，代碼也在 https://github.com/Tongyi-Zhiwen/Qwen-Doc 開(kāi)源。歡迎大家下載使用、交流探討，共同推動(dòng)長(zhǎng)文本技術(shù)的發(fā)展！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.