剛剛,阿里發(fā)布最新的1萬(wàn)億參數(shù)大模型Qwen3-Max ,這是基于Qwen3-235B-A22B-2507系列發(fā)布的最新版本。
與 253B 版本相比,在推理能力、指令遵循、多語(yǔ)言支持和長(zhǎng)尾知識(shí)覆蓋方面有重大改進(jìn):
1) 數(shù)學(xué)、編程、邏輯和科學(xué)任務(wù)中有更高準(zhǔn)確率;
2) 更強(qiáng)的指令遵循能力 & 減少幻覺(jué)現(xiàn)象 ,并為開放式問(wèn)答、寫作和對(duì)話生成更高質(zhì)量的回復(fù);
3) 支持超過(guò) 100 種語(yǔ)言,具有更強(qiáng)的翻譯和常識(shí)推理能力;
4)針對(duì)檢索增強(qiáng)生成(RAG)+ 工具調(diào)用優(yōu)化(無(wú)“思考”模式);
具體看測(cè)評(píng),在這份Qwen3-Max、Qwen3235B-A22B、Kimi K2、Claude Opus 4 Nonthinking、Deepseek-V3.1參與的榜單中(圖二),
通義千問(wèn)Qwen3-Max-Instruct-Preview在五大基準(zhǔn)測(cè)試,成為當(dāng)前綜合成績(jī)最強(qiáng)的AI大模型。
測(cè)評(píng)涵蓋五大核心能力維度:
SuperGPQA(科學(xué)與邏輯推理)
AIME25(高階數(shù)學(xué)解題)
LiveCodeBench v6(編程實(shí)戰(zhàn)能力)
Arena-Hard v2(多領(lǐng)域高難挑戰(zhàn))
LiveBench(實(shí)時(shí)綜合表現(xiàn))
參評(píng)模型簡(jiǎn)評(píng):
Qwen3-Max各項(xiàng)都達(dá)到了SOTA
在AIME25美國(guó)數(shù)學(xué)邀請(qǐng)賽模擬題中獲80.6分,超第二名10分以上;
Arena-Hard v2高難挑戰(zhàn)賽中以86.1分登頂,表現(xiàn)出復(fù)雜問(wèn)題拆解能力;
LiveBench實(shí)時(shí)綜合體育以79.5分獲得榜首;
Qwen3235B在實(shí)例任務(wù)中緊隨其后,尤其在編程(LiveCodeBench)與綜合能力(LiveBench)中表現(xiàn)尚可,是企業(yè)級(jí)部署之選。
?Kimi K2在LiveBench中以76.4分逼近榜首,表現(xiàn)出實(shí)時(shí)響應(yīng)與多輪交互能力,但在數(shù)學(xué)領(lǐng)域仍有提升空間。(不確定是不是0905版本)
??Anthropic的Claude Opus 4表現(xiàn)穩(wěn)定,尤其在代碼生成(LiveCodeBench)中位列前三,適合通用型任務(wù)場(chǎng)景,無(wú)明顯短板。 (不怕你斷供了)
??Deepseek-V3.1暫居末位雖然在部分任務(wù)中表現(xiàn)尚可。
Qwen3-Max有沒(méi)有一貫的過(guò)載現(xiàn)象,后續(xù)實(shí)測(cè)將給出答案。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.