337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

MiniMax M2.5 發布:10B 激活參數,打進頭部模型

0
分享至

今天這篇本來早上就該發的

MiniMax 凌晨發了 M2.5,一看數據就知道得寫,但這兩天實在有點累,拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句,恭喜,這次發的東西確實硬

有個事情官方沒說:M2.5 為 229B,激活只有 10B


https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。編程跟 Opus 4.6 基本持平,多語言編程直接拿了全行業最高。搜索和工具調用也到了頂尖水平


M2.5 核心 benchmark 一覽

第一梯隊里參數規模最小的旗艦模型。10B 激活參數打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比

看看經濟賬:M2.5 有兩個版本,能力完全一樣,速度和價格不同

快的叫 M2.5-Lightning,100 TPS,每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
慢的叫 M2.5,50 TPS,價格再砍一半,每百萬 token 輸入 0.3 美金、輸出 1.2 美金。

兩個版本都支持緩存,按輸出價格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20


換成更具象的數字:在以每秒輸出 100 個 token 的情況下,連續工作一小時只需要 1 美金,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美金。

1 萬美金,夠一個 Agent 連續跑 4 年

這個賬算得過來之后,很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測,M2.5 單任務的總成本只有 Opus 4.6 的 10%

編程
編程 benchmark

有個細節挺有意思。M2.5 在訓練過程中自己演化出了一個「寫 Spec」的行為,動手寫代碼之前會先從架構師視角把功能、結構、UI 設計全部拆解規劃一遍。這個行為是涌現出來的,不是手動設計的

訓練覆蓋了 10 多種語言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超過 20 萬個真實環境上跑

能力不只是修 bug,從 0 到 1 的系統設計、1 到 10 的開發、10 到 90 的功能迭代、90 到 100 的 code review 和系統測試,全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項目,包含 Server 端 API、業務邏輯、數據庫

MiniMax 把 VIBE benchmark 升級了一個 Pro 版,任務復雜度和領域覆蓋度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表現相當


VIBE Pro 對比

腳手架泛化性也驗過了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。換了腳手架照樣打

搜索和工具調用
搜索 benchmark

MiniMax 自建了一個評測集叫 RISE(Realistic Interactive Search Evaluation),專門測真實專業任務上的搜索能力。邏輯是這樣的:人類專家做搜索任務的時候,用搜索引擎本身只占一小部分,大量工作是在專業網頁里深度探索。M2.5 在這類場景上表現很強

比上一代還省。在 BrowseComp、Wide Search、RISE 多項任務上,M2.5 用更少的搜索輪次拿到了更好的結果,輪次消耗比 M2.1 少了大約 20%

模型學會了用更短的路徑逼近答案

辦公
辦公場景對比

這塊 MiniMax 找了金融、法律、社科領域的資深從業者一起做訓練數據,把行業的隱性知識帶進了模型訓練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升

他們內部的 GDPval-MM 評測框架會同時評交付質量和 Agent 執行軌跡的專業性,還監控全流程 token 成本。對比主流模型平均勝率 59.0%

速度

M2.5 比 M2.1 完成 SWE-Bench 任務快了 37%

具體來說:端到端運行時間從平均 31.3 分鐘降到 22.8 分鐘,跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務的 token 消耗從 3.72M 降到了 3.52M

變快了,還變省了

迭代速度

108 天,M2、M2.1、M2.5 三個版本

在 SWE-Bench Verified 上,M2 系列的進步曲線斜率比 Claude、GPT、Gemini 系列都陡


M2 系列 vs 同行的進步速度,自己看斜率

MiniMax 說「行業最快的進步速度」,從這張圖看,不虛

Agent RL

技術層面簡單記幾個點

M2.5 的核心訓練框架叫 Forge,原生 Agent RL 框架。通過引入中間層完全解耦了訓推引擎和 Agent,支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環境之間的泛化性很強


Forge 架構

算法上用的是他們去年初提出的 CISPO 算法保障 MoE 模型訓練穩定性,加上 Process Reward 做全鏈路監控,再用真實任務耗時作為 Reward 來平衡效果和速度。訓練側通過樹狀合并樣本實現了大約 40 倍加速


Agent RL 算法與 Reward 設計

MiniMax 說后續會單獨發一篇技術博客詳細講 RL scaling,到時候可以再看看

MiniMax 內部在用

MiniMax 內部已經全面上線 M2.5,覆蓋研發、產品、銷售、HR、財務
整體任務的 30% 由 M2.5 自主完成,編程場景里新提交代碼的 80% 由模型生成

產品側,MiniMax Agent 做了一套標準化的 Office Skills,在 MAX 模式下會根據文件類型自動加載對應能力。用戶還可以把 Office Skills 和行業經驗結合起來創建可復用的「專家」(Expert),目前平臺上已經有超過 1 萬個用戶創建的 Expert

模型權重會在 HuggingFace 開源,支持本地部署


更多 benchmark 還沒完...但先碎覺

這兩天,國產模型扎堆發布,GLM-5、DeepSeek 更新、M2.5,春節前的密度有點離譜

以及....這些 AI 廠的春節發布,還沒完

然后...晚安...碎覺...

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
炒股養家直言:半倉一只股,跌7%補倉漲15%止盈,散戶穩盈關鍵

炒股養家直言:半倉一只股,跌7%補倉漲15%止盈,散戶穩盈關鍵

一方聊市
2026-03-23 22:37:04
“準80后”長江學者,任知名大學副校長

“準80后”長江學者,任知名大學副校長

雙一流高校
2026-03-24 00:07:08
主持人問張晉:你老婆陪了劉鑾雄6年,張晉的回答如教科書般標準

主持人問張晉:你老婆陪了劉鑾雄6年,張晉的回答如教科書般標準

查爾菲的筆記
2026-03-23 18:06:01
演完《我的山與海》,又演《冬去春來》,豪門夢斷,如今定居浙江

演完《我的山與海》,又演《冬去春來》,豪門夢斷,如今定居浙江

芬霏劇時光
2026-03-23 20:01:05
黑豆立大功!醫生建議:心臟不好的老人,盡量常吃這9樣

黑豆立大功!醫生建議:心臟不好的老人,盡量常吃這9樣

橘子約定
2026-02-27 09:33:44
湖人打殘陣活塞也落下風?兩輪換出戰成疑,主隊六將預計缺陣

湖人打殘陣活塞也落下風?兩輪換出戰成疑,主隊六將預計缺陣

謝說籃球
2026-03-23 17:21:57
陳天橋:那一夜梁文鋒拒絕了我的投資,卻讓我決定投入10億美金去做另一件事

陳天橋:那一夜梁文鋒拒絕了我的投資,卻讓我決定投入10億美金去做另一件事

獵云網
2026-03-19 15:28:10
中國駐以色列使館最新提醒: 別報僥幸心理 盡快回國或撤離

中國駐以色列使館最新提醒: 別報僥幸心理 盡快回國或撤離

每日經濟新聞
2026-03-23 11:39:50
最新官宣!國乒再添1人出征倫敦世乒賽,8人名單正式出爐

最新官宣!國乒再添1人出征倫敦世乒賽,8人名單正式出爐

羅納爾說個球
2026-03-23 19:36:20
這是一張鞏俐年輕時劇照,演的特別真實的,四十歲以上基本都看

這是一張鞏俐年輕時劇照,演的特別真實的,四十歲以上基本都看

小椰的奶奶
2026-03-24 01:51:33
對話當事人|“梅姨”案受害者披露最新案情細節:她春節前就已落網

對話當事人|“梅姨”案受害者披露最新案情細節:她春節前就已落網

上游新聞
2026-03-23 16:57:04
北京某央企設計院爛掉了!

北京某央企設計院爛掉了!

黯泉
2026-03-23 20:00:53
95后女教師自拍不雅視頻售賣后續:本人顏值照曝光,網友為之惋惜

95后女教師自拍不雅視頻售賣后續:本人顏值照曝光,網友為之惋惜

一盅情懷
2026-03-23 16:55:49
蘋果2TB 產品僅1498 元,真的離譜啊

蘋果2TB 產品僅1498 元,真的離譜啊

科技堡壘
2026-03-22 11:21:01
比門將觸球還少! 阿森納王牌斷崖崩盤 阿爾特塔終于看清現實

比門將觸球還少! 阿森納王牌斷崖崩盤 阿爾特塔終于看清現實

奶蓋熊本熊
2026-03-24 01:47:19
驚天逆轉!伊朗,吹響進攻號角!

驚天逆轉!伊朗,吹響進攻號角!

大嘴說天下
2026-03-23 21:32:12
2025年島國人氣女老師TOP10戰力榜,榜首竟有超1300部!

2025年島國人氣女老師TOP10戰力榜,榜首竟有超1300部!

碧波萬覽
2026-03-24 00:26:05
你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

夜深愛雜談
2026-03-16 22:21:03
“報備”了遭強拆,想“報批”無人理?南京一業主稱裝修遭遇“封閉陽臺之困”

“報備”了遭強拆,想“報批”無人理?南京一業主稱裝修遭遇“封閉陽臺之困”

極目新聞
2026-03-23 20:19:53
北京飛上海航班客艙發生火情!東航:旅客手機掉落座椅縫隙,受擠壓冒煙起燃

北京飛上海航班客艙發生火情!東航:旅客手機掉落座椅縫隙,受擠壓冒煙起燃

上觀新聞
2026-03-23 14:46:05
2026-03-24 03:11:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
339文章數 50關注度
往期回顧 全部

數碼要聞

華為發布多款新品:Mate 80 Pro Max風馳版領銜

頭條要聞

特朗普:伊朗還有最后一次機會

頭條要聞

特朗普:伊朗還有最后一次機會

體育要聞

不敢放手一搏,你拿什么去爭冠?

娛樂要聞

鐘麗緹就女兒考拉爭議道歉:女兒還小

財經要聞

市場見底了嗎?誰在拋售?機構火線解讀

科技要聞

裁掉2萬多名員工后,扎克伯格對自己下手了

汽車要聞

東風雪鐵龍新凡爾賽C5X上市 官方一口價11.37萬起

態度原創

藝術
教育
游戲
手機
親子

藝術要聞

砸10億!蘇寧易購總部大樓,張近東雄心的象征

教育要聞

高三學生對教材中 “受精作用” 表述提意見,人教社回信

Xbox合作伙伴直播公布 3月27日早上2點舉行

手機要聞

傳聞折疊屏iPhone采用雙層玻璃設計,進一步弱化折痕

親子要聞

牛奶引起咳嗽,真正原因是什么?好多小孩,喝奶粉容易咳嗽,這是為啥

無障礙瀏覽 進入關懷版