337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

QwenLong-L1.5發(fā)布:讓30B MoE模型長(zhǎng)文本推理能力媲美GPT-5

0
分享至



作為大模型從業(yè)者或研究員的你,是否也曾為一個(gè)模型的 “長(zhǎng)文本能力” 而興奮,卻在實(shí)際應(yīng)用中發(fā)現(xiàn)它并沒(méi)有想象中那么智能?

你大概率也遇到過(guò)以下困境之一:

虛假的繁榮: 模型在 “大海撈針” (Needle-in-a-Haystack) 測(cè)試中輕松取得高分,營(yíng)造了一種長(zhǎng)文本能力已經(jīng)解決的 “虛假繁榮”。但一旦任務(wù)從簡(jiǎn)單的信息定位,升級(jí)為需要串聯(lián)分散證據(jù)、整合全局信息的多跳推理 (multi-hop reasoning) 時(shí),模型的表現(xiàn)便會(huì)急轉(zhuǎn)直下,難以構(gòu)建起完整的邏輯鏈條,暴露出其在深度理解上的真實(shí)短板。

訓(xùn)練的噩夢(mèng): 長(zhǎng)文本、多任務(wù)的訓(xùn)練數(shù)據(jù)就像一個(gè)成分復(fù)雜的 “大雜燴”,其多源、多域的特性,讓標(biāo)準(zhǔn)的 RL 算法嚴(yán)重 “水土不服”。你精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)(Reward Function)很可能因?yàn)閿?shù)據(jù)分布的劇烈變化而產(chǎn)生偏差,導(dǎo)致模型性能不升反降。最終,監(jiān)控圖上那劇烈震蕩的獎(jiǎng)勵(lì)和熵(Entropy)曲線,無(wú)情地宣告著訓(xùn)練過(guò)程的 “翻車” 與崩潰。

窗口的天花板: 即使上下文窗口被擴(kuò)展到 256K,1M 甚至更長(zhǎng),它也終究是一個(gè)有限的 “物理內(nèi)存”。然而,現(xiàn)實(shí)世界的知識(shí)流 —— 分析整個(gè)代碼倉(cāng)庫(kù)、研讀一份完整的年度財(cái)報(bào)、或是精讀一部專業(yè)巨著 —— 其信息量輕易就能突破這個(gè)上限。這使得模型在處理這些 “超框”(Out-of-Window)任務(wù)時(shí),不得不依賴分塊處理等妥協(xié)方案,最終導(dǎo)致關(guān)鍵全局信息的丟失和端到端推理能力的降級(jí)。

如果這些場(chǎng)景讓你倍感熟悉,那么問(wèn)題很可能不在于你不夠努力,而在于業(yè)界缺少一套完整、端到端的長(zhǎng)文本推理后訓(xùn)練 “配方”(Post-training Recipe)。

針對(duì)這一系列挑戰(zhàn),通義文檔智能團(tuán)隊(duì)正式推出QwenLong-L1.5—— 一個(gè)基于 Qwen3-30B-A3B 打造的長(zhǎng)文本推理專家。我們的核心貢獻(xiàn),正是提供了這套缺失的 “配方”,它系統(tǒng)性地統(tǒng)一了:

  • 可擴(kuò)展的高質(zhì)量數(shù)據(jù)合成管線
  • 為長(zhǎng)文本定制的強(qiáng)化學(xué)習(xí)方法
  • 突破物理窗口的智能體架構(gòu)

這套組合拳,旨在一次性解決從 “學(xué)不好” 到 “用不了” 的全鏈路難題。



  • 技術(shù)報(bào)告: https://huggingface.co/papers/2512.12967
  • GitHub 倉(cāng)庫(kù): https://github.com/Tongyi-Zhiwen/Qwen-Doc

深入拆解:我們的三大「法寶」

要讓模型真正掌握長(zhǎng)文本推理,零敲碎打的優(yōu)化是遠(yuǎn)遠(yuǎn)不夠的。我們提出了一套系統(tǒng)性的 “組合拳”,包含三大核心法寶,從根本上重塑模型的學(xué)習(xí)與思考方式。

法寶一:高質(zhì)量 “精神食糧” —— 多跳推理數(shù)據(jù)合成流水線

模型的 “食糧” 決定了它的 “智商”。如果只給模型投喂簡(jiǎn)單的 “大海撈針” 式任務(wù),就如同只讓學(xué)生做單選題,卻期望他能寫出長(zhǎng)篇論述文。

為了教會(huì)模型真正的 “思考”,我們打造了一條新穎的數(shù)據(jù)合成流水線。其核心思想是 “先拆解,后組合”,專造需要 “多跳溯源 (multi-hop grounding) 和全局推理” 的難題。這就像用樂(lè)高積木拼城堡:我們先把一本巨著拆解成一個(gè)個(gè)知識(shí) “積木”(原子事實(shí)),再根據(jù)復(fù)雜的 “圖紙”(如知識(shí)圖譜、多文檔表格),把這些分布在不同章節(jié)的積木拼成一個(gè)宏偉的 “城堡”(復(fù)雜問(wèn)題)。



這條流水線由三大 “出題引擎” 驅(qū)動(dòng),能程序化地生成無(wú)窮無(wú)盡的高質(zhì)量挑戰(zhàn):

  • 知識(shí)圖譜引導(dǎo) (KG-Guided): 自動(dòng)挖掘文檔間的深層邏輯鏈,生成環(huán)環(huán)相扣的多跳推理題,強(qiáng)制模型進(jìn)行跨段落、跨文檔的關(guān)聯(lián)思考。
  • 跨文檔表格引擎 (Cross-document Table Engine): 從多個(gè)非結(jié)構(gòu)化文檔中自動(dòng)抽取出數(shù)據(jù),整合成統(tǒng)一的結(jié)構(gòu)化表格,據(jù)此生成需要聚合、統(tǒng)計(jì)與復(fù)雜計(jì)算的數(shù)值推理題。
  • 多智能體自我進(jìn)化 (MASE): 設(shè)計(jì)一個(gè)由 “出題者”、“解題者”、“檢驗(yàn)者” 組成的多智能體框架,基于無(wú)標(biāo)簽文檔自動(dòng)合成通用長(zhǎng)文本任務(wù),通過(guò) “出題 - 解題 - 檢驗(yàn)” 的循環(huán),結(jié)合歷史合成任務(wù)提升任務(wù)難度和廣度。

法寶二:穩(wěn)定高效的 RL 優(yōu)化策略

強(qiáng)化學(xué)習(xí)(RL)是提升模型推理能力的關(guān)鍵,但在長(zhǎng)文本、多任務(wù)場(chǎng)景下,標(biāo)準(zhǔn)的 RL 方法會(huì)面臨兩大嚴(yán)峻挑戰(zhàn),極易導(dǎo)致訓(xùn)練崩潰。

第一個(gè)挑戰(zhàn)源于數(shù)據(jù)分布的異構(gòu)性。我們的長(zhǎng)文本訓(xùn)練數(shù)據(jù)來(lái)自代碼、學(xué)術(shù)文獻(xiàn)、財(cái)報(bào)等多個(gè)領(lǐng)域,任務(wù)類型也涵蓋了問(wèn)答、計(jì)算、分析等。這種復(fù)雜性導(dǎo)致在訓(xùn)練的每個(gè)批次(mini-batch)內(nèi),數(shù)據(jù)分布都會(huì)發(fā)生劇烈偏移(distributional drift)。



這種偏移會(huì)嚴(yán)重干擾獎(jiǎng)勵(lì)信號(hào)(reward)的穩(wěn)定性,并對(duì)優(yōu)勢(shì)函數(shù)(advantage function)的估計(jì)引入巨大噪聲,使得梯度更新方向變得極不可靠。為解決此問(wèn)題,我們采取了雙重策略:

任務(wù)均衡采樣(Task-balanced Sampling): 在構(gòu)建每個(gè)訓(xùn)練批次時(shí),強(qiáng)制從不同的任務(wù)類型(如多跳推理、數(shù)值計(jì)算、對(duì)話記憶等)中均勻抽取樣本,從源頭上保證了批次內(nèi)數(shù)據(jù)分布的相對(duì)均衡。

任務(wù)專屬優(yōu)勢(shì)估計(jì)(Task-specific Advantage Estimation): 在計(jì)算優(yōu)勢(shì)函數(shù)時(shí),我們不再對(duì)整個(gè)批次的獎(jiǎng)勵(lì)進(jìn)行標(biāo)準(zhǔn)化,而是在每個(gè)任務(wù)類型內(nèi)部獨(dú)立進(jìn)行。這能有效隔離不同任務(wù)間迥異的獎(jiǎng)勵(lì)分布(如 0/1 的稀疏獎(jiǎng)勵(lì)與 0-1 的密集獎(jiǎng)勵(lì)),從而為每個(gè)任務(wù)提供更準(zhǔn)確、更穩(wěn)定的優(yōu)勢(shì)信號(hào)。

第二個(gè)挑戰(zhàn)是長(zhǎng)文本推理中的信用分配難題(Credit Assignment Problem)。在生成式任務(wù)中,一個(gè)最終錯(cuò)誤的答案(negative response)往往包含了大量完全正確的中間推理步驟。傳統(tǒng)的 RL 算法通過(guò)一個(gè)單一的負(fù)向獎(jiǎng)勵(lì)來(lái)懲罰整個(gè)序列,這種 “一刀切” 的做法會(huì)錯(cuò)誤地懲罰那些正確的、具有探索價(jià)值的步驟,不僅壓制了模型的探索能力,甚至可能導(dǎo)致 “熵坍塌”(entropy collapse)和訓(xùn)練早停。



為此,我們提出了自適應(yīng)熵控制策略優(yōu)化(Adaptive Entropy-Controlled Policy Optimization, AEPO)算法。AEPO 的核心是一種基于模型自身不確定性(以策略熵衡量)的動(dòng)態(tài)梯度屏蔽機(jī)制:

當(dāng)模型在高不確定性(高熵)狀態(tài)下生成了錯(cuò)誤答案時(shí),AEPO 會(huì)主動(dòng)屏蔽(mask)其負(fù)向梯度。這保護(hù)了模型的探索性行為,避免因懲罰不成熟的嘗試而喪失學(xué)習(xí)潛力。

反之,當(dāng)模型在高置信度(低熵)狀態(tài)下依然犯錯(cuò)時(shí),負(fù)向梯度會(huì)被正常施加,以堅(jiān)決糾正這些高置信度的錯(cuò)誤。

通過(guò)這種動(dòng)態(tài)的、智能的梯度控制,AEPO 將模型策略的熵穩(wěn)定在一個(gè)健康的區(qū)間,完美平衡了探索與利用,從根本上解決了長(zhǎng)文本 RL 中的不穩(wěn)定性問(wèn)題。

法寶三:突破極限的 “外置大腦”—— 記憶管理框架

256K 的上下文窗口,本質(zhì)上是一種有限的 “短期記憶”。當(dāng)面對(duì)浩如煙海的真實(shí)世界知識(shí)流時(shí),我們需要的不是一個(gè)更大的窗口,而是一個(gè)全新的工作模式。

為此,我們?yōu)槟P驮O(shè)計(jì)了一套記憶管理框架 (Memory Management Framework),這相當(dāng)于給了它一個(gè)可無(wú)限擴(kuò)展的 “智能筆記本”。在閱讀超長(zhǎng)文檔時(shí),模型不再試圖將所有內(nèi)容硬塞進(jìn) “短期記憶”,而是學(xué)會(huì)了邊讀邊記要點(diǎn)(迭代式記憶更新),形成結(jié)構(gòu)化的記憶,并在需要時(shí)高效檢索和利用這些 “筆記”。

但這并非一個(gè)孤立的工具。通過(guò)巧妙的多階段融合 RL 訓(xùn)練 (multi-stage fusion RL training),我們將這種 “筆記能力” 與模型與生俱來(lái)的 “過(guò)目不忘”(窗口內(nèi)推理)能力無(wú)縫地融合在了一起。最終得到的,是一個(gè)統(tǒng)一的模型 —— 一個(gè)既能 “深思” 又能 “博覽” 的全能選手,真正突破了物理窗口的束縛。

效果展示

性能全面飛躍,30B moe 模型實(shí)現(xiàn)媲美頂級(jí)旗艦的效果!



QwenLong-L1.5 在多個(gè)權(quán)威長(zhǎng)文本推理基準(zhǔn)上取得了令人矚目的成績(jī),其表現(xiàn)可以總結(jié)為:

  • 整體性能飛躍: 相比基線模型 Qwen3-30B-A3B-Thinking,QwenLong-L1.5 的平均分暴漲 9.9 分!這證明了我們?nèi)缀笥?xùn)練 “配方” 的巨大成功。
  • 比肩頂級(jí)旗艦: 在多個(gè)權(quán)威長(zhǎng)文本榜單上,我們的 30B-A3B 模型取得了與 GPT-5、Gemini-2.5-Pro 等業(yè)界頂級(jí)閉源模型相媲美的性能,展現(xiàn)了極強(qiáng)的競(jìng)爭(zhēng)力。
  • 精準(zhǔn)的能力躍升: 更值得注意的是,我們的性能提升精準(zhǔn)地體現(xiàn)在了最能考驗(yàn)深度推理能力的復(fù)雜任務(wù)上。在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基準(zhǔn)上,我們分別取得了+31.72、+9.69 和 +6.16 的性能增長(zhǎng)!

這并非巧合,而是精準(zhǔn)地驗(yàn)證了我們 “高質(zhì)量精神食糧”(可編程數(shù)據(jù)合成)的有效性 —— 我們專門為模型打造了什么樣的難題,它就在解決這些難題上獲得了最強(qiáng)的能力!

意外之喜:通用能力不降反升!

訓(xùn)練 “專才” 是否會(huì)犧牲 “通才” 能力?這是大模型微調(diào)中常見(jiàn)的 “蹺蹺板” 難題。

我們的答案是:不僅不會(huì),反而會(huì)相互促進(jìn)!



實(shí)驗(yàn)結(jié)果顯示,經(jīng)過(guò)長(zhǎng)文本強(qiáng)化訓(xùn)練后,QwenLong-L1.5 不僅沒(méi)有出現(xiàn) “偏科” 或 “遺忘”,反而在一系列通用能力上也獲得了顯著提升:

  • 在數(shù)學(xué)推理 (AIME25) 任務(wù)上表現(xiàn)更優(yōu);
  • 在智能體記憶 (BFCL) 任務(wù)中展現(xiàn)出更強(qiáng)的狀態(tài)追蹤能力;
  • 在長(zhǎng)對(duì)話 (LongMemEval) 場(chǎng)景下,記憶和理解能力大幅增強(qiáng)。

這有力地證明了,提升長(zhǎng)程信息整合能力,是一種基礎(chǔ)性的 “認(rèn)知升級(jí)”,其收益會(huì)輻射到模型的各項(xiàng)核心能力之中。

挑戰(zhàn)極限:征服 1M~4M Token 超長(zhǎng)文本!

當(dāng)任務(wù)長(zhǎng)度遠(yuǎn)超物理上下文窗口時(shí),模型真正的擴(kuò)展能力才得以體現(xiàn)。

借助我們的 “外置大腦”(記憶管理框架),QwenLong-L1.5 在處理百萬(wàn)、甚至四百萬(wàn)級(jí)別的超長(zhǎng)任務(wù)時(shí),展現(xiàn)出了卓越的性能。



結(jié)果顯示,QwenLong-L1.5 在這些極限挑戰(zhàn)中,性能遠(yuǎn)超同類智能體方法,充分驗(yàn)證了我們框架強(qiáng)大的可擴(kuò)展性。這表明,我們不僅提升了模型在窗口內(nèi)的能力,更賦予了它突破物理窗口限制、處理無(wú)限信息流的巨大潛力。

總結(jié)


總結(jié):我們提出的 QwenLong-L1.5 及其背后的 “數(shù)據(jù)合成 + RL 優(yōu)化 + 記憶管理” 三位一體的后訓(xùn)練框架,為解決大模型長(zhǎng)文本推理難題提供了一條經(jīng)過(guò)驗(yàn)證的、可復(fù)現(xiàn)的路徑。

開(kāi)源呼吁:我們相信開(kāi)放與共享的力量。相關(guān)技術(shù)細(xì)節(jié)已在論文中公布,代碼也在 https://github.com/Tongyi-Zhiwen/Qwen-Doc 開(kāi)源。歡迎大家下載使用、交流探討,共同推動(dòng)長(zhǎng)文本技術(shù)的發(fā)展!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
別再傻等了!繼承父母房產(chǎn)拖著不過(guò)戶,3年和20年結(jié)局天差地別

別再傻等了!繼承父母房產(chǎn)拖著不過(guò)戶,3年和20年結(jié)局天差地別

復(fù)轉(zhuǎn)這些年
2026-03-22 17:27:58
才4天!瘋?cè)徒Y(jié)束了!超3200萬(wàn)人都錯(cuò)了!

才4天!瘋?cè)徒Y(jié)束了!超3200萬(wàn)人都錯(cuò)了!

籃球大圖
2026-03-23 10:14:17
島國(guó)片中那些被破解的無(wú)碼作品,女主角人美燈大,姿勢(shì)硬核

島國(guó)片中那些被破解的無(wú)碼作品,女主角人美燈大,姿勢(shì)硬核

全是紀(jì)錄片
2026-03-22 21:50:35
瘋了!曼城雙巨星換巴薩神童,哈蘭德逼宮引爆重磅交易

瘋了!曼城雙巨星換巴薩神童,哈蘭德逼宮引爆重磅交易

奶蓋熊本熊
2026-03-23 06:59:39
地鐵出口A、B、C、D藏著方向規(guī)律,記住這套方法 全國(guó)出行不繞遠(yuǎn)路

地鐵出口A、B、C、D藏著方向規(guī)律,記住這套方法 全國(guó)出行不繞遠(yuǎn)路

水泥土的搞笑
2026-03-17 13:38:42
宇樹(shù)王興興年薪曝光!網(wǎng)友破防了!

宇樹(shù)王興興年薪曝光!網(wǎng)友破防了!

廣告案例精選
2026-03-23 08:43:11
本田的“萬(wàn)億跌落”,只用了一個(gè)季度

本田的“萬(wàn)億跌落”,只用了一個(gè)季度

觀察者網(wǎng)
2026-03-21 08:58:17
伊朗新任最高領(lǐng)袖傳出死訊:真沒(méi)了,還是一場(chǎng)更大的煙霧彈

伊朗新任最高領(lǐng)袖傳出死訊:真沒(méi)了,還是一場(chǎng)更大的煙霧彈

桂系007
2026-03-20 23:50:32
俄羅斯讓中國(guó)心涼?真正可怕的不是西方圍堵,而是我們低估了自己

俄羅斯讓中國(guó)心涼?真正可怕的不是西方圍堵,而是我們低估了自己

愛(ài)史紀(jì)
2026-03-23 02:56:48
中國(guó)駐以色列大使館:盡快回國(guó)

中國(guó)駐以色列大使館:盡快回國(guó)

南方都市報(bào)
2026-03-23 11:15:22
差一秒就虧大了!錦州加油站擠爆,遼寧車主稱有人白排半小時(shí)哭暈

差一秒就虧大了!錦州加油站擠爆,遼寧車主稱有人白排半小時(shí)哭暈

火山詩(shī)話
2026-03-23 07:42:25
細(xì)節(jié)流出!拉里賈尼遇襲事件疑點(diǎn)叢生,恐有詐!

細(xì)節(jié)流出!拉里賈尼遇襲事件疑點(diǎn)叢生,恐有詐!

劉哥談體育
2026-03-23 07:21:45
開(kāi)戰(zhàn)以來(lái)首次,以色列承認(rèn)被打痛了,內(nèi)塔尼亞胡度過(guò)最痛苦的一夜

開(kāi)戰(zhàn)以來(lái)首次,以色列承認(rèn)被打痛了,內(nèi)塔尼亞胡度過(guò)最痛苦的一夜

壹只灰鴿子
2026-03-22 11:44:23
至少連續(xù)9場(chǎng)40+有多難?NBA僅3人達(dá)成,喬丹無(wú)緣第一

至少連續(xù)9場(chǎng)40+有多難?NBA僅3人達(dá)成,喬丹無(wú)緣第一

麥子的籃球故事
2026-03-23 12:44:48
廢除漢字幾十年后,韓語(yǔ)終于被確診“中國(guó)拼音”,韓國(guó)人又破防了

廢除漢字幾十年后,韓語(yǔ)終于被確診“中國(guó)拼音”,韓國(guó)人又破防了

棠棣分享
2026-03-23 05:07:26
歐冠轉(zhuǎn)會(huì)血淚史:那些讓豪門腸子悔青的失敗交易

歐冠轉(zhuǎn)會(huì)血淚史:那些讓豪門腸子悔青的失敗交易

茅塞盾開(kāi)本尊
2026-03-22 13:18:38
油價(jià)大變動(dòng)!3月23日最新加油站95/92號(hào)汽油與0號(hào)柴油價(jià)格正式揭曉

油價(jià)大變動(dòng)!3月23日最新加油站95/92號(hào)汽油與0號(hào)柴油價(jià)格正式揭曉

小怪吃美食
2026-03-23 09:57:40
遼寧多地發(fā)布紅色預(yù)警!能見(jiàn)度小于50米

遼寧多地發(fā)布紅色預(yù)警!能見(jiàn)度小于50米

環(huán)球網(wǎng)資訊
2026-03-23 08:50:06
霍爾木茲斷航!第一個(gè)亞洲國(guó)家已斷糧倒下,下一個(gè)受害者浮出水面

霍爾木茲斷航!第一個(gè)亞洲國(guó)家已斷糧倒下,下一個(gè)受害者浮出水面

興史興談
2026-03-22 23:50:28
善惡到頭終有報(bào),如今73歲的唐國(guó)強(qiáng),已經(jīng)走上了一條不歸路!

善惡到頭終有報(bào),如今73歲的唐國(guó)強(qiáng),已經(jīng)走上了一條不歸路!

吳蒂旅行ing
2026-03-20 05:20:46
2026-03-23 13:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12564文章數(shù) 142591關(guān)注度
往期回顧 全部

科技要聞

雷軍、蔡崇信最新發(fā)聲,提到同一件事

頭條要聞

紫金礦業(yè)將取得赤峰黃金控制權(quán) 交易對(duì)價(jià)合計(jì)超182億

頭條要聞

紫金礦業(yè)將取得赤峰黃金控制權(quán) 交易對(duì)價(jià)合計(jì)超182億

體育要聞

46歲生日快樂(lè)!巴薩全隊(duì)穿10號(hào)致敬小羅

娛樂(lè)要聞

劉燁47歲生日,安娜曬全家福為其慶生

財(cái)經(jīng)要聞

連續(xù)暴跌 亂世黃金失靈?

汽車要聞

嵐圖汽車香江鳴鑼 一場(chǎng)關(guān)于"國(guó)家隊(duì)"的突圍實(shí)驗(yàn)

態(tài)度原創(chuàng)

教育
時(shí)尚
本地
健康
軍事航空

教育要聞

60+60到底等于多少,不說(shuō)數(shù)學(xué),不說(shuō)物理,說(shuō)說(shuō)語(yǔ)文

“這條裙子”才是今年春天的頂流,怎么搭都好看

本地新聞

這里是寶雞 嫽滴很!

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

軍事要聞

伊朗回應(yīng)美方威脅:將在戰(zhàn)場(chǎng)上堅(jiān)決對(duì)抗

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版