大反轉(zhuǎn)！全網(wǎng)猜了一周 DeepSeek V4，結(jié)果是小米干的

2026-03-19 08:38:52　來源: AppSo

廣東舉報

分享至

上周，兩個沒有署名的匿名模型悄然上架知名 API 聚合平臺 OpenRouter，代號分別是「Hunter Alpha」和「Healer Alpha」。它們沒有任何宣傳，調(diào)用量卻開始以一種不尋常的速度持續(xù)攀升。

其中，Hunter Alpha 更是多天登頂日榜，累計調(diào)用量突破 1T tokens。社區(qū)開始議論。最主流的猜測指向 DeepSeek，認(rèn)為這是 DeepSeek V4 的內(nèi)測版本。

OpenClaw 創(chuàng)始人 Peter Steinberger 也在 X 平臺發(fā)文打聽，進(jìn)一步點(diǎn)燃了社區(qū)的猜測熱情。

就在剛剛，小米官方正式宣布，Hunter Alpha 和 Healer Alpha 均為小米 MiMo-V2 系列大模型的早期內(nèi)測版本。謎底揭曉的同時，小米 MiMo 大模型負(fù)責(zé)人羅福莉也在 X 平臺公開認(rèn)領(lǐng)。

上下滑動查看更多內(nèi)容，林俊旸也現(xiàn)身評論區(qū)

巧合的是，羅福莉正是 DeepSeek 的前研究員，換句話說，來自 DeepSeek 的她，在小米做了讓全網(wǎng)以為是 DeepSeek 的模型。

劃重點(diǎn)，小米此次一口氣發(fā)布三款模型，雖各有側(cè)重，但共同指向同一個方向：讓 AI 從「會對話」進(jìn)化為「能完成任務(wù)」：

MiMo-V2-Pro 是旗艦文本基座，專為高強(qiáng)度 Agent 工作場景而生，主打推理、規(guī)劃與工具調(diào)用。

MiMo-V2-Omni 是全模態(tài) Agent 基座，原生融合文本、視覺與音頻感知，打通從理解到執(zhí)行的完整鏈路。

MiMo-V2-TTS 是語音合成大模型，目標(biāo)是為 Agent 賦予有溫度、有情感的聲音表達(dá)能力，構(gòu)成全棧的最后一環(huán)。

MiMo-V2-Pro：量大管飽，定價只要競品的五分之一

MiMo-V2-Pro 的總參數(shù)量突破 1T，激活參數(shù)為 42B，較前代 MiMo-V2-Flash 擴(kuò)大約 3 倍。

參數(shù)量大幅增長，但推理效率并未因此下降，這得益于其創(chuàng)新的混合注意力架構(gòu)（Hybrid Attention）。

該架構(gòu)的混合比例從前代的 5:1 進(jìn)一步提升至 7:1，輕量 MTP（Multi Token Prediction）層的引入也加快了實(shí)際生成速度。

同時，MiMo-V2-Pro 支持高達(dá) 1M 的超長上下文窗口，這在處理長程 Agent 任務(wù)時具有明顯的結(jié)構(gòu)性優(yōu)勢。

在全球權(quán)威大模型綜合智能排行榜 Artificial Analysis 上，MiMo-V2-Pro 目前位列全球第八，國內(nèi)第二。

基準(zhǔn)測評之外，小米更強(qiáng)調(diào)「實(shí)際體感」。在 Coding Agent、通用 Agent 和 Tool Use 等維度，MiMo-V2-Pro 與 Claude Sonnet 4.6 處于同一梯隊(duì)。

在小米內(nèi)部工程師的深度評測中，MiMo-V2-Pro 的代碼工程能力已接近 Claude Opus 4.6，擁有更出色的系統(tǒng)設(shè)計能力與更優(yōu)雅的代碼風(fēng)格。

Hunter Alpha 匿名內(nèi)測期間，調(diào)用量最高的幾類應(yīng)用多為編程專用工具，這一數(shù)據(jù)本身就是對模型能力最直接的市場驗(yàn)證。

在 OpenClaw 框架內(nèi)，MiMo-V2-Pro 還展示了前端開發(fā)能力，能夠一步生成設(shè)計精致、功能完備的網(wǎng)頁，兼顧視覺質(zhì)感與實(shí)際可用性。

定價層面，MiMo-V2-Pro 的 API 價格僅為同級別競品的 1/5。256K 上下文以內(nèi)，輸入每百萬 tokens 定價 1 美元，輸出 3 美元；1M 上下文范圍內(nèi)，則為輸入 2 美元，輸出 6 美元。

這個定價策略的信號很明確：小米希望以價格優(yōu)勢快速推動 MiMo-V2-Pro 在開發(fā)者生態(tài)中的滲透。

為此，小米還聯(lián)合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 五大 Agent 框架團(tuán)隊(duì)，提供為期一周的限時免費(fèi)接口支持，各框架的具體限免信息可關(guān)注 MiMo 官方與 MiMo 開放平臺公告。

目前，MiMo-V2-Pro 已正式開放 API 服務(wù)，開發(fā)者可前往 https://platform.xiaomimimo.com 接入體驗(yàn)。官方模型體驗(yàn)頁面 https://aistudio.xiaomimimo.com 同步上線了 MiMo Claw 功能，支持免費(fèi)體驗(yàn) MiMo-V2-Pro 的 Agent 能力。

MiMo-V2-Omni：能看、能聽、還能自己砍價

如果說 MiMo-V2-Pro 是大腦，MiMo-V2-Omni 的野心則更大，它試圖讓這個大腦同時擁有眼睛、耳朵和手。

MiMo-V2-Omni 是小米首個在基座層面統(tǒng)一感知與行動的全模態(tài)模型，從底層架構(gòu)開始就將文本、視覺與音頻深度融合。

音頻理解是 MiMo-V2-Omni 最具差異化的能力之一。它支持超過 10 小時的連續(xù)長音頻理解，覆蓋從環(huán)境聲分類到多說話人分離的復(fù)雜場景，綜合表現(xiàn)超越 Gemini 3 Pro。

圖像理解方面，MiMo-V2-Omni 在多學(xué)科視覺推理與復(fù)雜圖表分析上超越 Claude Opus 4.6，逼近 Gemini 3 Pro 等頂尖閉源模型水平。

視頻理解方面，模型支持原生音視頻聯(lián)合輸入，而非將音頻和視頻分開處理，在架構(gòu)層面帶來了真正的多模態(tài)理解優(yōu)勢。

在 Agent 實(shí)操場景中，MiMo-V2-Omni 展現(xiàn)出令人印象深刻的端到端任務(wù)完成能力。

比如結(jié)合 OpenClaw 框架，它可以像真人一樣操控瀏覽器：在社交媒體翻閱評測內(nèi)容，整理購買建議，切換到京東跨店比價，聯(lián)系客服爭取優(yōu)惠，直到完成下單，遇到多標(biāo)簽頁切換、實(shí)時交互要求，均能見招拆招。

在純文本智能體任務(wù)上，MiMo-V2-Omni 同樣保持了高度競爭力，在 OpenClaw 榜單 PinchBench 上的表現(xiàn)比肩 Gemini 3 Pro。

Healer Alpha 匿名內(nèi)測期間，模型在 PinchBench 上拿下均分第一，社區(qū)用戶好評與基準(zhǔn)測評結(jié)果形成了難得的雙向印證。

辦公場景方面，MiMo-V2-Omni 已與金山辦公展開合作，接入 WPS 靈犀，支持直接生成高質(zhì)量的 Word 文檔、結(jié)構(gòu)化 Excel、排版規(guī)范的 PDF 與完整 PPT。MiMo Studio 的 Claw 模塊也已全面打通金山 WebOffice 生態(tài)，原生支持 Word、Excel、PPT、PDF 四大主流格式，覆蓋超 95% 的日常文檔類型。

WPS 靈犀體驗(yàn)地址：lingxi.wps.cn

MiMo-V2-Omni 已開放 API，支持 256K 上下文長度，輸入定價每百萬 tokens 0.4 美元，輸出 2 美元，同樣可在 https://platform.xiaomimimo.com 接入。

MiMo-V2-TTS：會打哈欠、會醉酒、還能唱歌

一個完整的 Agent，不應(yīng)該只會思考和行動，它還需要開口說話。MiMo-V2-TTS 正是為了填補(bǔ)這個缺口。

MiMo-V2-TTS 基于小米自研 Audio Tokenizer 和多碼本語音文本聯(lián)合建模架構(gòu)，經(jīng)過上億小時語音數(shù)據(jù)的大規(guī)模預(yù)訓(xùn)練。

「上億小時」這個數(shù)據(jù)量級，意味著模型得以覆蓋極為豐富的說話風(fēng)格、口音與場景，這是泛化能力的基礎(chǔ)。

多維度強(qiáng)化學(xué)習(xí)后訓(xùn)練階段，模型圍繞韻律自然度、音質(zhì)穩(wěn)定性、音色克隆質(zhì)量與場景語氣適配等多個維度持續(xù)優(yōu)化。

得益于多層碼本建模架構(gòu)，強(qiáng)化學(xué)習(xí)階段可以直接利用語音相關(guān)獎勵信號對模型進(jìn)行優(yōu)化，而非依賴間接的文本側(cè)反饋，這讓多維獎勵信號能夠更有效地作用于生成過程。

MiMo-V2-TTS 支持從整體基調(diào)定調(diào)到句內(nèi)局部情緒的多粒度控制，能在同一句話內(nèi)完成語氣轉(zhuǎn)折與情感遞變，這在同類產(chǎn)品中并不多見。

模型能夠智能識別標(biāo)點(diǎn)符號、語氣詞、強(qiáng)調(diào)標(biāo)記等格式信號，并將其自動轉(zhuǎn)化為自然的語音表達(dá)，全程無需用戶手動標(biāo)注。

方言支持涵蓋東北話、四川話、河南話、粵語、臺灣腔等，同時具備角色扮演式風(fēng)格演繹與高質(zhì)量歌聲合成能力，讓同一個模型既能說、能演、也能唱。

官方表示，未來 MiMo-V2-TTS 將與 MiMo-V2-Omni 深度融合，讓 Agent 不僅能看懂世界、理解世界，更能用富有表現(xiàn)力的聲音去講述這個世界。

AI，才是真正打通人車家全生態(tài)的那根線

三款模型集中發(fā)布，時間節(jié)點(diǎn)和產(chǎn)品組合都不是偶然。羅福莉在聲明中坦言，從聊天范式到 Agent 范式的轉(zhuǎn)變發(fā)生得太快，「連我們自己都難以置信」。

但小米 MiMo 團(tuán)隊(duì)其實(shí)早有布局。羅福莉披露，1T 基礎(chǔ)模型在數(shù)月前就已開始訓(xùn)練，最初目標(biāo)是提升長上下文推理效率。混合注意力架構(gòu)、1M 超長上下文窗口、MTP 低延遲推理，這些架構(gòu)決策并非追隨潮流，而是在需要之前就構(gòu)建好的結(jié)構(gòu)性優(yōu)勢。

推動團(tuán)隊(duì)加速轉(zhuǎn)向 Agent 方向，源于一個關(guān)鍵時刻。羅福莉第一次體驗(yàn)到復(fù)雜 Agent 框架時受到強(qiáng)烈沖擊，隨即對團(tuán)隊(duì)下達(dá)強(qiáng)硬指令：MiMo 團(tuán)隊(duì)中，明天對話次數(shù)少于 100 次的成員可以辭職。

這個有些極端的要求背后，是她對 Agent 范式的堅(jiān)定判斷。結(jié)果是，團(tuán)隊(duì)的想象力被徹底激發(fā)，研究速度隨之大幅提升。

這種研發(fā)節(jié)奏，疊加上小米本就擁有的生態(tài)基礎(chǔ)，讓這次發(fā)布的意義超出了單純的模型競賽。

小米長期推進(jìn)「人車家全生態(tài)」戰(zhàn)略，通過澎湃 OS 將手機(jī)、汽車（SU7 系列）與智能家居設(shè)備全面打通。這套生態(tài)的物理層面早已互聯(lián)，但此前缺少一個真正意義上能跨設(shè)備理解意圖、自主規(guī)劃并完成任務(wù)的智能中樞。

現(xiàn)在，MiMo-V2-Pro 負(fù)責(zé)推理規(guī)劃，MiMo-V2-Omni 負(fù)責(zé)多模態(tài)感知與執(zhí)行，MiMo-V2-TTS 負(fù)責(zé)語音表達(dá)，三者疊加，構(gòu)成了驅(qū)動整個生態(tài)運(yùn)轉(zhuǎn)的完整 AI 能力棧。

miclaw（小米手機(jī)端 AI 智能體）已接入 MiMo 大模型，具備系統(tǒng)級執(zhí)行能力與「人車家全生態(tài)」的深度集成，是這套能力棧落地的第一個具體形態(tài)。WPS 靈犀、小米瀏覽器相繼接入，也在說明同一件事：MiMo 不只是一個對話產(chǎn)品，而是正在被嵌入進(jìn)各類應(yīng)用場景的基礎(chǔ)能力層。

多年來，各大科技公司都在描述「AI 將打通一切」的愿景，而帶著 Agent 基因的 MiMo-V2 系列模型和深諳生態(tài)打法的小米，顯然已經(jīng)做好了準(zhǔn)備。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.