網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

聊聊小米開源的MiMo-V2-Flash，這次，為推理而生。

2025-12-20 13:03:37　來源: 數(shù)字生命卡茲克

天津舉報(bào)

分享至

周末加更一篇，我還是覺得，小米前兩天開源的那個(gè)模型，值得單獨(dú)來聊一聊。

當(dāng)天晚上其實(shí)就打算寫了，結(jié)果被OpenAI截胡了，這一拖，就拖到了今天。

就是前兩天深夜，小米搞了一個(gè)大的。

沒有任何預(yù)兆的，直接開源了一個(gè)大模型， MiMo-V2-Flash。

說實(shí)話，十年米粉看到以后，還是有點(diǎn)激動(dòng)的。

小米，作為硬件廠商的代表，終于出手了。

成績也不錯(cuò)，在O penRouter上的調(diào)用量排名上，一路上漲。

今天看，又漲了將近2倍，已經(jīng)來到了第六了，這個(gè)漲幅還是挺恐怖的。

而且還有一個(gè)非常有意思的是，那天，也是雷總的生日。

這絕對(duì)不是巧合（狗頭保命）。

這次， MiMo-V2-Flash 發(fā)布即開源，還附帶了技術(shù)報(bào)告。

說真的，這個(gè)技術(shù)報(bào)告，真的究極詳細(xì)了。

就很多有趣的經(jīng)驗(yàn)值得分享。

然后，還做了一個(gè)線上對(duì)話產(chǎn)品，也是為了方便大家進(jìn)行快速便捷的體驗(yàn)。

網(wǎng)址在此： https://aistudio.xiaomimimo.com/

我這兩天，零零散散的花了一些時(shí)間，讀完了技術(shù)報(bào)告，又體驗(yàn)了一下模型之后，我覺得，這個(gè)模型還是有一點(diǎn)意思的。

就如同他們自己在Blog上所說的那樣。

Blazing speed meets frontier performance。

極速性能，前沿體驗(yàn)。

老規(guī)矩，先看跑分。

差不多在開源世界里，屬于第一梯隊(duì)水平，跟Kimi-K2 Thinking和DeepSeek-V3.2互有勝負(fù)。

跟閉源模型，也能掰掰手腕，但是坦誠的講，Gemini 3.0 Pro還是太強(qiáng)了。。。

在Artificial Analysis上，綜合排名也是開源第二。

不過這些跑分，我覺得現(xiàn)在大家看看就就行了，真正在技術(shù)報(bào)告里有比較有意思的創(chuàng)新的點(diǎn)，還是在于他們生為一個(gè)硬件為核心的公司，所一直追求的。

能跑多快，能跑多省。

小米，為發(fā)燒而生。

MiMo，為Reasoning而生。

在MiMo的世界里，最核心的，是速度、成本、是延遲。

是能不能把它塞進(jìn)手機(jī)、塞進(jìn)汽車、塞進(jìn)一個(gè)能面向于普通消費(fèi)者的未來里。

這次 MiMo-V2-Flash是個(gè)MoE模型，總參數(shù)309B，激活參數(shù)量15B。

基本上，跟DeepSeek-V3.2相比，MiMo-V2-Flash的推理成本略低，而推理速度大約是 V3.2 的三倍左右。

跟Gemini 2.5 Pro相比的話，MiMo-V2-Flash的推理速度接近，但推理成本大約低了20倍。

在價(jià)格上，達(dá)到了非常離譜的數(shù)據(jù)。

每百萬輸入token為0.1美元，每百萬輸出token為0.3美元。

這個(gè)數(shù)據(jù)有多離譜，我覺得還是需要放一下一些其他大模型價(jià)格對(duì)比。

GPT-5.2：$1.75/輸入，$14/輸出。

Gemini 3 Pro（<200k上下文）：$2/輸入，$12/輸出。

Gemini 3 Flash：$0.50/輸入，$3/輸出。

Kimi K2 Thinking：$0.60/輸入，$2.50/輸出。

DeepSeek-V3.2（思考模式）：$0.28/輸出入，$0.43/輸出。

相信大家現(xiàn)在就知道， MiMo-V2-Flash的價(jià)格和性能對(duì)比，還有他的推理速度，有多離譜了，可能會(huì)是常規(guī)開發(fā)普惠的又一利器。

而整個(gè)模型里面，我覺得最棒的點(diǎn)，其實(shí)有兩個(gè)，一個(gè)叫長文本，一個(gè)叫吐字速度。

一個(gè)一個(gè)說。

先說長文本。

過去所有大模型做長文本，都會(huì)遇到一個(gè)非常樸素的問題，就是你讓它看的東西越長，它腦子里要記的上下文緩存（KV cache）就越大，算注意力的時(shí)候就越廢。

就比如說考試寫作文。

最傳統(tǒng)的大模型寫作文，大概是這樣的流程，就是每寫一個(gè)字，都要從頭到尾把自己剛寫的所有內(nèi)容，重新讀一遍想一遍，然后才敢寫下一個(gè)字。

寫到第1000個(gè)字時(shí)，你可以理解成，它已經(jīng)把前面999個(gè)字復(fù)習(xí)了999遍。

是不是聽著就很酸爽，如果想象不到有多痛苦的，大家現(xiàn)在可以自己試一試。。。

這其實(shí)就是所謂的全局注意力，就是你每添一個(gè)詞，大模型腦子里都要把前文全刷一遍，它很怕漏掉什么細(xì)節(jié)。

理論上，這樣最穩(wěn)妥、最嚴(yán)謹(jǐn)，但有一個(gè)致命問題，就是太費(fèi)勁，太慢了。

就好像你在寫古詩，一邊寫一邊從第一頁開始把整本《唐詩三百首》背一遍，確認(rèn)自己沒有撞韻，再寫下一個(gè)字。

非要用一個(gè)詞來描述這種行為，那我覺得，就是，自虐。

后來大家覺得不能這么算下去啊，要不然到時(shí)候就算你顯卡堆成一座山，速度也快不起來，更別提長文本了。

所以就有一大堆加速方法被發(fā)明出來了，什么注意力結(jié)構(gòu)、稀疏連接、特化硬件啥的都出現(xiàn)了。

小米的搞得這個(gè)Hybrid Attention，本質(zhì)上就干了一件特別樸素的事，承認(rèn)一個(gè)現(xiàn)實(shí)，也就是人類看東西，不是每一秒都在看全局。

其實(shí)你讀小說的時(shí)候，其實(shí)也是局部認(rèn)真，全局大概知道個(gè)意思。

你的眼睛，肯定主要盯著眼前這一兩頁，這是滑動(dòng)窗口。

偶爾翻回前面看看人物關(guān)系圖、章節(jié)標(biāo)題，這是全局注意。

MiMo-V2-Flash把這個(gè)節(jié)奏，直接寫進(jìn)了模型結(jié)構(gòu)里。

它的大部分時(shí)間，只看最近的 128 個(gè) token，就像你只記得眼前這一段對(duì)話，每隔一段，就抬頭看一下全局，防止走偏。

這就是MiMo-V2-Flash采用的全局注意力（GA）與滑動(dòng)窗口注意力（SWA）1:5 的混合方案，長上下文下KV cache和注意力計(jì)算，能有接近6倍下降。。。

然后最有意思的事，他們還加了一個(gè)東西，叫“attention sink bias”。

你大概就可以理解成，讓模型可以把有些東西選擇性的不看，讓注意力沉底，不被各種噪音干擾。

人類其實(shí)也一樣，你坐在洗腳城大廳，旁邊有人吵架、有人刷短視頻、有人喊服務(wù)員，你不可能每句話都聽進(jìn)去。你真正能活下去的能力，是你能把這些噪音當(dāng)成背景音，眼神空焦一下，注意力直接沉下去，只抓你要的那點(diǎn)信息。

MiMo做的，就是把這種我選擇性忽略的能力工程化了。

更有意思的是，他們也做了實(shí)驗(yàn)，沒有這個(gè)sink bias，性能會(huì)掉，加上以后不僅回來了，甚至能跟全局注意力打平甚至更好。

所謂MiMo-V2-Flash為了解決成本問題，其實(shí)做了不少有趣的事情，而且雖然看著很多技術(shù)名詞，但是本質(zhì)上，非常的生活化。

就是，承認(rèn)記得太多也是負(fù)擔(dān)，學(xué)會(huì)在正確的地方選擇性忘記，把算力留給真正重要的部分。

長文本搞定之后，然后是第二個(gè)：吐字速度。

很多人以為大模型慢，是因?yàn)樗粔驈?qiáng)。

其實(shí)更真實(shí)的原因是，就是大模型生成文字這件事，本質(zhì)上非常流水線，一口一口吐，吐一個(gè)才知道下一個(gè)。

就像你讓一個(gè)師傅現(xiàn)場寫春聯(lián)，他寫完上聯(lián)最后一個(gè)字，才知道下聯(lián)第一個(gè)字怎么對(duì)，那速度怎么可能快的起來，還寫個(gè)屁。

所以，MiMo-V2-Flash也用了一個(gè)有趣的東西，叫Multi-Token Prediction（MTP，多詞預(yù)測）。

這玩意別被名字嚇到，其實(shí)也特別生活化。

本質(zhì)上就是，你別一個(gè)字一個(gè)字寫，你先打個(gè)草稿，一次性多寫幾個(gè)字，然后再快速檢查一遍，沒問題就直接用，有問題就退回重寫。

論文里會(huì)說得更技術(shù)一點(diǎn)，MTP可以作為“draft model”用于speculative decoding（推測解碼），也就是先草稿、后驗(yàn)收的機(jī)制。

而且不是當(dāng)一個(gè)工程上的外掛搞得，最開始的預(yù)訓(xùn)練階段，這玩意就直接塞了進(jìn)去，讓模型學(xué)的一直就是先草稿、再檢查這套節(jié)奏。

在微調(diào)階段，又加了更多層MTP，把這種多字并行的本事練得更熟了。

等到真正上線推理的時(shí)候，它直接開三層 MTP 并行，就相當(dāng)于你手下有三組實(shí)習(xí)生輪班打草稿，主模型坐在中間挑挑揀揀，最后形成一條流暢的回答。

結(jié)果就是你前面看到的那個(gè)很夸張的數(shù)字。

在實(shí)際場景里，三層MTP可以做到2到2.6倍的加速，單條回復(fù)能跑到150 token/s，全局吞吐可以拉到5000到15000 token/s。

我錄了一個(gè)回答，無加速，大家可以看看，20秒4000字，真的已經(jīng)非常快了。

所以，其實(shí)通過上面這些有趣的東西，你就能看出來。

這個(gè)模型的特點(diǎn)了。

和DeepSeek-V3.2能力相近，但速度大概快三倍。

和Gemini 2.5 Pro能力接近，速度差不多，但成本低了近二十倍。

也就是，同樣干一份工，我能用更少的錢、更少的電、跑得更快、更穩(wěn)。

真的，對(duì)于一個(gè)硬件公司來說，這幾乎是刻在DNA里的執(zhí)念。

手機(jī)時(shí)代，小米喜歡在發(fā)布會(huì)上講同價(jià)位性能最強(qiáng)。

到大模型時(shí)代，它只是把同一套工程價(jià)值觀，搬到了另一個(gè)戰(zhàn)場。

我也大概測了一下模型的能力。

在代碼這塊，還挺有意思。

比如我之前測Gemini 3 Pro的時(shí)候，有一個(gè)體素3D世界的Prompt：

設(shè)計(jì)并創(chuàng)建一個(gè)非常有創(chuàng)意、精致且細(xì)節(jié)豐富的像素3D場景：一只胖乎乎的奶龍坐在一座美麗的花園中央，旁邊是小池塘、石燈籠和彎曲的小路，周圍長滿樹木，其中包括幾棵盛開的櫻花樹。讓整個(gè)場景足夠震撼、層次豐富，在不同高度和區(qū)域布置各種小細(xì)節(jié)，比如長椅、小橋、石子路、草叢、花壇等，并使用色彩豐富的體素來表現(xiàn)。可以使用任何庫來完成這個(gè)效果，但要確保我能把所有內(nèi)容粘貼到一個(gè)單獨(dú)的 HTML 文件中，并直接在 Chrome 中打開。JavaScript 庫的引入方式請(qǐng)使用 importmap 和 ES 模塊（ESM）導(dǎo)入。

而這次我扔到MiMo-V2-Flash里，也一次性直出了。

各種交互啥的也都沒啥問題。

而且功能也都給你做全了，櫻花特效都能關(guān)，也能自動(dòng)旋轉(zhuǎn)，最細(xì)節(jié)的事，奶龍脖子那里，還有一個(gè)會(huì)一閃一閃發(fā)光的小立方體，還挺精致的。

還有一個(gè)測模型svg能力的時(shí)候，一個(gè)Prompt：

做一個(gè)長滾動(dòng)網(wǎng)頁，用 5 層以上視差背景和 SVG 插畫講一個(gè)小故事，滾動(dòng)時(shí)觸發(fā)漸進(jìn)式動(dòng)畫和文字漸顯。

這塊完成的也不錯(cuò)。

每個(gè)小動(dòng)畫，屬實(shí)是都到位了。

比如前幾天，Gemini流星雨，我就想，讓Mimo給我做一個(gè)可以手勢控制的流星網(wǎng)頁。

對(duì)，就這么一個(gè)超級(jí)簡單的Prompt。

MiMo-V2-Flash一次成型。

像左揮手就是藍(lán)色流星，像右揮手，就是紅色流星。

然后我又基于這個(gè)，改了一個(gè)識(shí)別手勢，刮彩票的。

這次出了小小的BUG，不過對(duì)話兩次，也改成功了。

就非常的有意思，很好玩。

然后又一句話做了一個(gè)像素畫板。

也成功了。

整體看下來，代碼能力不差，不過坦誠的講，前端審美離最頭部的模型，還有一些差距。

在寫作上，直出效果還行。

但是還是會(huì)有中文大模型的堆砌詞藻空洞的問題，很多句子看著很華麗，但是其實(shí)比較的空，不包含任何信息量。

但是已經(jīng)比一些中文大模型好一些了。

而在文風(fēng)復(fù)刻任務(wù)上，其實(shí)也差不多。

這是我用我的文風(fēng)復(fù)刻的我自己的文章。

有些句子寫的不錯(cuò)，而且那些經(jīng)常被惡心的不是...而是...句式基本沒用過，在很多時(shí)候，調(diào)一調(diào)還是可以的用的。

從更長遠(yuǎn)一點(diǎn)看，小米做這件事的意義，我覺得還是會(huì)往硬件去。

當(dāng)未來，真的萬物皆Agent的時(shí)候。

在手機(jī)、在車機(jī)、在路由器、在眼鏡上、在所有的智能家居里，那顆小小的模型，能不能跑得快、跑得穩(wěn)、跑得起。

這個(gè)是最重要的。

這也是，一家硬件公司最熟悉的戰(zhàn)場。

在這個(gè)戰(zhàn)場里，小米過去十幾年已經(jīng)證明過自己一次了，我到現(xiàn)在還記得我買小米1的興奮。

作為一個(gè)十年米粉，我真的也很想自私地說一句。

如果哪天我跑Agent、搭小網(wǎng)頁、操控我家里的所有家具，用的那顆本地小模型，背后跑的就是 MiMo，那會(huì)是一件挺讓人開心的事。

開源是一種表態(tài)。

工程是一種信仰。

看好小米。

以上，既然看到這里了，如果覺得不錯(cuò)，隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時(shí)間收到推送，也可以給我個(gè)星標(biāo)?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克

>/ 投稿或爆料，請(qǐng)聯(lián)系郵箱：wzglyay@virxact.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.