上周,兩個沒有署名的匿名模型悄然上架知名 API 聚合平臺 OpenRouter,代號分別是「Hunter Alpha」和「Healer Alpha」。它們沒有任何宣傳,調(diào)用量卻開始以一種不尋常的速度持續(xù)攀升。
![]()
其中,Hunter Alpha 更是多天登頂日榜,累計調(diào)用量突破 1T tokens。社區(qū)開始議論。最主流的猜測指向 DeepSeek,認(rèn)為這是 DeepSeek V4 的內(nèi)測版本。
![]()
OpenClaw 創(chuàng)始人 Peter Steinberger 也在 X 平臺發(fā)文打聽,進(jìn)一步點(diǎn)燃了社區(qū)的猜測熱情。
就在剛剛,小米官方正式宣布,Hunter Alpha 和 Healer Alpha 均為小米 MiMo-V2 系列大模型的早期內(nèi)測版本。謎底揭曉的同時,小米 MiMo 大模型負(fù)責(zé)人羅福莉也在 X 平臺公開認(rèn)領(lǐng)。
![]()
上下滑動查看更多內(nèi)容,林俊旸也現(xiàn)身評論區(qū)
巧合的是,羅福莉正是 DeepSeek 的前研究員,換句話說,來自 DeepSeek 的她,在小米做了讓全網(wǎng)以為是 DeepSeek 的模型。
![]()
劃重點(diǎn),小米此次一口氣發(fā)布三款模型,雖各有側(cè)重,但共同指向同一個方向:讓 AI 從「會對話」進(jìn)化為「能完成任務(wù)」:
MiMo-V2-Pro 是旗艦文本基座,專為高強(qiáng)度 Agent 工作場景而生,主打推理、規(guī)劃與工具調(diào)用。
MiMo-V2-Omni 是全模態(tài) Agent 基座,原生融合文本、視覺與音頻感知,打通從理解到執(zhí)行的完整鏈路。
MiMo-V2-TTS 是語音合成大模型,目標(biāo)是為 Agent 賦予有溫度、有情感的聲音表達(dá)能力,構(gòu)成全棧的最后一環(huán)。
![]()
MiMo-V2-Pro:量大管飽,定價只要競品的五分之一
MiMo-V2-Pro 的總參數(shù)量突破 1T,激活參數(shù)為 42B,較前代 MiMo-V2-Flash 擴(kuò)大約 3 倍。
參數(shù)量大幅增長,但推理效率并未因此下降,這得益于其創(chuàng)新的混合注意力架構(gòu)(Hybrid Attention)。
該架構(gòu)的混合比例從前代的 5:1 進(jìn)一步提升至 7:1,輕量 MTP(Multi Token Prediction)層的引入也加快了實(shí)際生成速度。
同時,MiMo-V2-Pro 支持高達(dá) 1M 的超長上下文窗口,這在處理長程 Agent 任務(wù)時具有明顯的結(jié)構(gòu)性優(yōu)勢。
![]()
在全球權(quán)威大模型綜合智能排行榜 Artificial Analysis 上,MiMo-V2-Pro 目前位列全球第八,國內(nèi)第二。
![]()
基準(zhǔn)測評之外,小米更強(qiáng)調(diào)「實(shí)際體感」。在 Coding Agent、通用 Agent 和 Tool Use 等維度,MiMo-V2-Pro 與 Claude Sonnet 4.6 處于同一梯隊(duì)。
在小米內(nèi)部工程師的深度評測中,MiMo-V2-Pro 的代碼工程能力已接近 Claude Opus 4.6,擁有更出色的系統(tǒng)設(shè)計能力與更優(yōu)雅的代碼風(fēng)格。
Hunter Alpha 匿名內(nèi)測期間,調(diào)用量最高的幾類應(yīng)用多為編程專用工具,這一數(shù)據(jù)本身就是對模型能力最直接的市場驗(yàn)證。
在 OpenClaw 框架內(nèi),MiMo-V2-Pro 還展示了前端開發(fā)能力,能夠一步生成設(shè)計精致、功能完備的網(wǎng)頁,兼顧視覺質(zhì)感與實(shí)際可用性。
![]()
定價層面,MiMo-V2-Pro 的 API 價格僅為同級別競品的 1/5。256K 上下文以內(nèi),輸入每百萬 tokens 定價 1 美元,輸出 3 美元;1M 上下文范圍內(nèi),則為輸入 2 美元,輸出 6 美元。
這個定價策略的信號很明確:小米希望以價格優(yōu)勢快速推動 MiMo-V2-Pro 在開發(fā)者生態(tài)中的滲透。
為此,小米還聯(lián)合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 五大 Agent 框架團(tuán)隊(duì),提供為期一周的限時免費(fèi)接口支持,各框架的具體限免信息可關(guān)注 MiMo 官方與 MiMo 開放平臺公告。
目前,MiMo-V2-Pro 已正式開放 API 服務(wù),開發(fā)者可前往 https://platform.xiaomimimo.com 接入體驗(yàn)。官方模型體驗(yàn)頁面 https://aistudio.xiaomimimo.com 同步上線了 MiMo Claw 功能,支持免費(fèi)體驗(yàn) MiMo-V2-Pro 的 Agent 能力。
MiMo-V2-Omni:能看、能聽、還能自己砍價
如果說 MiMo-V2-Pro 是大腦,MiMo-V2-Omni 的野心則更大,它試圖讓這個大腦同時擁有眼睛、耳朵和手。
MiMo-V2-Omni 是小米首個在基座層面統(tǒng)一感知與行動的全模態(tài)模型,從底層架構(gòu)開始就將文本、視覺與音頻深度融合。
音頻理解是 MiMo-V2-Omni 最具差異化的能力之一。它支持超過 10 小時的連續(xù)長音頻理解,覆蓋從環(huán)境聲分類到多說話人分離的復(fù)雜場景,綜合表現(xiàn)超越 Gemini 3 Pro。
圖像理解方面,MiMo-V2-Omni 在多學(xué)科視覺推理與復(fù)雜圖表分析上超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等頂尖閉源模型水平。
![]()
視頻理解方面,模型支持原生音視頻聯(lián)合輸入,而非將音頻和視頻分開處理,在架構(gòu)層面帶來了真正的多模態(tài)理解優(yōu)勢。
在 Agent 實(shí)操場景中,MiMo-V2-Omni 展現(xiàn)出令人印象深刻的端到端任務(wù)完成能力。
比如結(jié)合 OpenClaw 框架,它可以像真人一樣操控瀏覽器:在社交媒體翻閱評測內(nèi)容,整理購買建議,切換到京東跨店比價,聯(lián)系客服爭取優(yōu)惠,直到完成下單,遇到多標(biāo)簽頁切換、實(shí)時交互要求,均能見招拆招。
在純文本智能體任務(wù)上,MiMo-V2-Omni 同樣保持了高度競爭力,在 OpenClaw 榜單 PinchBench 上的表現(xiàn)比肩 Gemini 3 Pro。
![]()
Healer Alpha 匿名內(nèi)測期間,模型在 PinchBench 上拿下均分第一,社區(qū)用戶好評與基準(zhǔn)測評結(jié)果形成了難得的雙向印證。
辦公場景方面,MiMo-V2-Omni 已與金山辦公展開合作,接入 WPS 靈犀,支持直接生成高質(zhì)量的 Word 文檔、結(jié)構(gòu)化 Excel、排版規(guī)范的 PDF 與完整 PPT。MiMo Studio 的 Claw 模塊也已全面打通金山 WebOffice 生態(tài),原生支持 Word、Excel、PPT、PDF 四大主流格式,覆蓋超 95% 的日常文檔類型。
WPS 靈犀體驗(yàn)地址:lingxi.wps.cn
MiMo-V2-Omni 已開放 API,支持 256K 上下文長度,輸入定價每百萬 tokens 0.4 美元,輸出 2 美元,同樣可在 https://platform.xiaomimimo.com 接入。
MiMo-V2-TTS:會打哈欠、會醉酒、還能唱歌
一個完整的 Agent,不應(yīng)該只會思考和行動,它還需要開口說話。MiMo-V2-TTS 正是為了填補(bǔ)這個缺口。
MiMo-V2-TTS 基于小米自研 Audio Tokenizer 和多碼本語音文本聯(lián)合建模架構(gòu),經(jīng)過上億小時語音數(shù)據(jù)的大規(guī)模預(yù)訓(xùn)練。
「上億小時」這個數(shù)據(jù)量級,意味著模型得以覆蓋極為豐富的說話風(fēng)格、口音與場景,這是泛化能力的基礎(chǔ)。
多維度強(qiáng)化學(xué)習(xí)后訓(xùn)練階段,模型圍繞韻律自然度、音質(zhì)穩(wěn)定性、音色克隆質(zhì)量與場景語氣適配等多個維度持續(xù)優(yōu)化。
得益于多層碼本建模架構(gòu),強(qiáng)化學(xué)習(xí)階段可以直接利用語音相關(guān)獎勵信號對模型進(jìn)行優(yōu)化,而非依賴間接的文本側(cè)反饋,這讓多維獎勵信號能夠更有效地作用于生成過程。
MiMo-V2-TTS 支持從整體基調(diào)定調(diào)到句內(nèi)局部情緒的多粒度控制,能在同一句話內(nèi)完成語氣轉(zhuǎn)折與情感遞變,這在同類產(chǎn)品中并不多見。
模型能夠智能識別標(biāo)點(diǎn)符號、語氣詞、強(qiáng)調(diào)標(biāo)記等格式信號,并將其自動轉(zhuǎn)化為自然的語音表達(dá),全程無需用戶手動標(biāo)注。
方言支持涵蓋東北話、四川話、河南話、粵語、臺灣腔等,同時具備角色扮演式風(fēng)格演繹與高質(zhì)量歌聲合成能力,讓同一個模型既能說、能演、也能唱。
官方表示,未來 MiMo-V2-TTS 將與 MiMo-V2-Omni 深度融合,讓 Agent 不僅能看懂世界、理解世界,更能用富有表現(xiàn)力的聲音去講述這個世界。
AI,才是真正打通人車家全生態(tài)的那根線
三款模型集中發(fā)布,時間節(jié)點(diǎn)和產(chǎn)品組合都不是偶然。羅福莉在聲明中坦言,從聊天范式到 Agent 范式的轉(zhuǎn)變發(fā)生得太快,「連我們自己都難以置信」。
但小米 MiMo 團(tuán)隊(duì)其實(shí)早有布局。羅福莉披露,1T 基礎(chǔ)模型在數(shù)月前就已開始訓(xùn)練,最初目標(biāo)是提升長上下文推理效率。混合注意力架構(gòu)、1M 超長上下文窗口、MTP 低延遲推理,這些架構(gòu)決策并非追隨潮流,而是在需要之前就構(gòu)建好的結(jié)構(gòu)性優(yōu)勢。
推動團(tuán)隊(duì)加速轉(zhuǎn)向 Agent 方向,源于一個關(guān)鍵時刻。羅福莉第一次體驗(yàn)到復(fù)雜 Agent 框架時受到強(qiáng)烈沖擊,隨即對團(tuán)隊(duì)下達(dá)強(qiáng)硬指令:MiMo 團(tuán)隊(duì)中,明天對話次數(shù)少于 100 次的成員可以辭職。
這個有些極端的要求背后,是她對 Agent 范式的堅(jiān)定判斷。結(jié)果是,團(tuán)隊(duì)的想象力被徹底激發(fā),研究速度隨之大幅提升。
這種研發(fā)節(jié)奏,疊加上小米本就擁有的生態(tài)基礎(chǔ),讓這次發(fā)布的意義超出了單純的模型競賽。
![]()
小米長期推進(jìn)「人車家全生態(tài)」戰(zhàn)略,通過澎湃 OS 將手機(jī)、汽車(SU7 系列)與智能家居設(shè)備全面打通。這套生態(tài)的物理層面早已互聯(lián),但此前缺少一個真正意義上能跨設(shè)備理解意圖、自主規(guī)劃并完成任務(wù)的智能中樞。
現(xiàn)在,MiMo-V2-Pro 負(fù)責(zé)推理規(guī)劃,MiMo-V2-Omni 負(fù)責(zé)多模態(tài)感知與執(zhí)行,MiMo-V2-TTS 負(fù)責(zé)語音表達(dá),三者疊加,構(gòu)成了驅(qū)動整個生態(tài)運(yùn)轉(zhuǎn)的完整 AI 能力棧。
miclaw(小米手機(jī)端 AI 智能體)已接入 MiMo 大模型,具備系統(tǒng)級執(zhí)行能力與「人車家全生態(tài)」的深度集成,是這套能力棧落地的第一個具體形態(tài)。WPS 靈犀、小米瀏覽器相繼接入,也在說明同一件事:MiMo 不只是一個對話產(chǎn)品,而是正在被嵌入進(jìn)各類應(yīng)用場景的基礎(chǔ)能力層。
多年來,各大科技公司都在描述「AI 將打通一切」的愿景,而帶著 Agent 基因的 MiMo-V2 系列模型和深諳生態(tài)打法的小米,顯然已經(jīng)做好了準(zhǔn)備。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.