網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里發(fā)布最新萬(wàn)億參數(shù)大模型 Qwen3-Max

2025-09-06 01:18:43　來(lái)源: 鯨選AI

北京舉報(bào)

分享至

剛剛，阿里發(fā)布最新的1萬(wàn)億參數(shù)大模型Qwen3-Max ，這是基于Qwen3-235B-A22B-2507系列發(fā)布的最新版本。

與 253B 版本相比，在推理能力、指令遵循、多語(yǔ)言支持和長(zhǎng)尾知識(shí)覆蓋方面有重大改進(jìn)：

1) 數(shù)學(xué)、編程、邏輯和科學(xué)任務(wù)中有更高準(zhǔn)確率；

2) 更強(qiáng)的指令遵循能力 & 減少幻覺(jué)現(xiàn)象，并為開放式問(wèn)答、寫作和對(duì)話生成更高質(zhì)量的回復(fù)；

3) 支持超過(guò) 100 種語(yǔ)言，具有更強(qiáng)的翻譯和常識(shí)推理能力；

4）針對(duì)檢索增強(qiáng)生成（RAG）+ 工具調(diào)用優(yōu)化（無(wú)“思考”模式）；

具體看測(cè)評(píng)，在這份Qwen3-Max、Qwen3235B-A22B、Kimi K2、Claude Opus 4 Nonthinking、Deepseek-V3.1參與的榜單中（圖二），

通義千問(wèn)Qwen3-Max-Instruct-Preview在五大基準(zhǔn)測(cè)試，成為當(dāng)前綜合成績(jī)最強(qiáng)的AI大模型。

測(cè)評(píng)涵蓋五大核心能力維度：

SuperGPQA（科學(xué)與邏輯推理）
AIME25（高階數(shù)學(xué)解題）
LiveCodeBench v6（編程實(shí)戰(zhàn)能力）
Arena-Hard v2（多領(lǐng)域高難挑戰(zhàn)）
LiveBench（實(shí)時(shí)綜合表現(xiàn)）

參評(píng)模型簡(jiǎn)評(píng)：

Qwen3-Max各項(xiàng)都達(dá)到了SOTA

在AIME25美國(guó)數(shù)學(xué)邀請(qǐng)賽模擬題中獲80.6分，超第二名10分以上；
Arena-Hard v2高難挑戰(zhàn)賽中以86.1分登頂，表現(xiàn)出復(fù)雜問(wèn)題拆解能力；
LiveBench實(shí)時(shí)綜合體育以79.5分獲得榜首；

Qwen3235B在實(shí)例任務(wù)中緊隨其后，尤其在編程（LiveCodeBench）與綜合能力（LiveBench）中表現(xiàn)尚可，是企業(yè)級(jí)部署之選。

?Kimi K2在LiveBench中以76.4分逼近榜首，表現(xiàn)出實(shí)時(shí)響應(yīng)與多輪交互能力，但在數(shù)學(xué)領(lǐng)域仍有提升空間。（不確定是不是0905版本）

??Anthropic的Claude Opus 4表現(xiàn)穩(wěn)定，尤其在代碼生成（LiveCodeBench）中位列前三，適合通用型任務(wù)場(chǎng)景，無(wú)明顯短板。（不怕你斷供了）

??Deepseek-V3.1暫居末位雖然在部分任務(wù)中表現(xiàn)尚可。

Qwen3-Max有沒(méi)有一貫的過(guò)載現(xiàn)象，后續(xù)實(shí)測(cè)將給出答案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.