337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

小米 MiMo-V2 三張牌:1T 參數旗艦、全模態 Omni、情感 TTS,分別在解決什么

0
分享至


上周,OpenRouter 上悄悄出現了兩個沒有任何介紹的匿名模型:Hunter AlphaHealer Alpha。沒有宣發,沒有官方認領,只有調用量在持續攀升——多天沖上日榜前列,開發者社區開始炸鍋。


有人猜這是 DeepSeek V4,參數規格高度吻合,連 OpenClaw 創始人 Peter Steinberger 也忍不住在 X 上公開發帖打聽身份。

3 月 19 日凌晨,謎底揭曉:Hunter Alpha 是MiMo-V2-Pro的早期測試版,Healer Alpha 是MiMo-V2-Omni的早期測試版。兩個模型的主人,是小米。


當天,小米 MiMo 官方同步正式發布三款新模型:MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS。只看名字可能會覺得這又是一輪常規迭代;把三者放在一起看,小米這次真正想講的是"我已經開始搭一整套 Agent 能力底座"。官方給 Pro 的定位是旗艦基座模型,給 Omni 的定位是全模態 Agent 模型,給 TTS 的定位是給 Agent 補上"聲音、情緒和表達力"。三個模型覆蓋了從"大腦"到"感知與執行"再到"輸出層"的完整鏈路。

MiMo-V2-Pro 負責想,MiMo-V2-Omni 負責看、聽、做,MiMo-V2-TTS 負責說。這波發布最值得看的,也正是這條清晰的路線:小米在把 AI 從"對話框里的回答機器",往"能調用工具、理解界面、處理真實任務、自然表達"的系統層智能體方向推進。

一、MiMo-V2-Pro:對標 Claude 去的 Agent 旗艦,偏偏只賣五分之一的價

先看MiMo-V2-Pro。按照官方說法,這是面向真實世界 agentic workload 的旗艦基座模型,目標是去完成任務。模型總參數超過 1T,激活參數42B,支持1M token上下文;架構上延續上一代 Hybrid Attention,混合比例從 5:1 提升至 7:1,同時保留輕量級 MTP 層以提升生成效率。官方強調的關鍵詞很明確:complex workflows、production engineering tasks、tool-call stability、multi-step reasoning。

跑分上,MiMo-V2-Pro 是這次三款里官方公開數據最完整的。小米在官方頁直接標注:按 Artificial Analysis Intelligence Index,MiMo-V2-Pro 全球第 8、中文大模型第 2


Agent 相關 benchmark 上,它在PinchBench 拿到 84.0,在ClawEval 拿到 61.5,兩項均為全球第 3,官方明確標注"接近 Claude Opus 4.6"。對照數據:PinchBench 上 Claude Sonnet 4.6 為 86.9、Claude Opus 4.6 為 86.3、Gemini 3 Pro 為 70.7;ClawEval 上 Claude Opus 4.6 和 Sonnet 4.6 均為 66.3,Gemini 3 Pro 為 51.9,GPT-5.2 為 50.0。這兩個評測考的是工具調用、多步規劃、復雜任務鏈上的穩定性——Agent 場景里最核心也最難做的部分。MiMo-V2-Pro 在這個維度上,已經和 Claude Opus 4.6 基本站在同一梯隊。


驗證方式上,小米沒有只放幾張實驗室對比圖。Hunter Alpha 在 OpenRouter 上跑了一周盲測——總調用量超過 1T tokens,多天登頂日榜。官方展示的調用來源幾乎全是 coding/agent 工具,尤以OpenClaw、Kilo Code、Roo Code為主。開發者對它的感知,從一開始就落在"能干活"上。

案例上,官方給了兩個方向。一個是前端開發:在 OpenClaw 里,MiMo-V2-Pro 可以根據一條 prompt 直接生成完整網頁,官方展示的例子是一個90 年代印刷雜志風格的網頁,版式、字體、噪點和翻頁感這些細節都有覆蓋。

用同樣的提示詞在 MiMo Claw 實測了一下,生成的網頁有目錄交互、完整頁面元素、整體排版也算得上美觀,圖片渲染稍有瑕疵,但完成度已經相當不錯。

不到三分鐘,一次性生成的版本,無抽卡

另一個官方案例更直接:讓它做一個 3D 塔防游戲,要求使用 Three.js 或 Babylon.js,實現 3D 渲染、關卡模式、敵人波次、升級路徑、動態背景和完整控制邏輯。官方想傳達的很清楚——這個模型瞄準的是端到端工程交付,代碼補全只是其中最基礎的一層。

價格是 MiMo-V2-Pro 另一個值得單獨說的點。官方頁把 API 價格和 Claude 4.6 系列并排列出:256K 以內,輸入/輸出分別為 $1/$3 每百萬 tokens;256K 到 1M 為 $2/$6。Claude Sonnet 4.6 是 $3/$15,Claude Opus 4.6 是 $5/$25。同等 Agent 能力梯隊,價格約為五分之一——這個價差對大規模調用的 agent 框架來說,是實質性的成本差異,也是小米最直接的市場切入點。


二、MiMo-V2-Omni:感知與行動原生綁定,最有想象空間的那款

如果說 Pro 是"大腦",MiMo-V2-Omni才是這次最有未來感的東西。官方對它的定義是omni foundation model:把圖像、視頻、音頻編碼器直接融合進同一個共享 backbone,形成一條統一感知流。更關鍵的是訓練目標——這個模型從一開始,就同時學三件事:場景是什么、接下來會發生什么、現在該做什么。感知和行動在架構層就是綁定的。

官方公開的 benchmark 數據,感知側六個分數:MMAU-Pro 69.4、BigBench Audio 94.0、MMMU-Pro 76.8、CharXiv RQ 80.1、Video-MME 85.3、FutureOmni 66.7。從對照表可以直接讀出:MMAU-Pro 69.4高于 Gemini 3 Pro 的 67.0;CharXiv RQ 80.1高于 Claude Opus 4.6 的 77.4;FutureOmni 66.7高于 Gemini 3 Pro 的 62.9 和 Claude Opus 4.6 的 60.3。官方總結:音頻理解整體超過 Gemini 3 Pro,圖像理解超過 Claude Opus 4.6,視頻理解支持原生音視頻聯合輸入,并具備 future reasoning 能力。


行動側數據更值得關注:MM-BrowserComp 52.0、OmniGAIA 49.8、ClawEval 54.8、PinchBench 85.6。其中MM-BrowserComp 52.0明顯高于 Gemini 3 Pro 的 37.2 和 GPT-5.2 的 47.4;PinchBench 85.6高于 Gemini 3 Pro 的 70.7、Gemini 3 Flash 的 75.0 和 GPT-5.2 的 77.0,非常接近 Claude Opus 4.6 的 86.3。MM-BrowserComp 測的是模型在真實瀏覽器環境里完成任務的能力,這個分數比兩個主要對手高出 5-15 個百分點,是執行維度上相當顯著的差距。


代碼與任務能力上還有SWE-Bench Verified 74.8、GDPVal 1410。


官方給了三個案例,每個都指向一類具體場景。

第一個是自動駕駛視覺大腦:給它一段海邊小鎮的行車記錄儀視頻,讓它實時識別潛在風險。模型的輸出是"并線風險、盲區、行人橫穿、車道收窄、街邊雙排停車帶來的側向風險"——已經接近駕駛決策層的信息,目標檢測只是基礎。

第二個是跨平臺購物 Agent:任務是扮演一個喜歡旅行攝影的學生,在小紅書上搜三款小米 17 的選購建議,整理推薦,再去京東下單,并盡量和客服談到更低價格。整個流程里,MiMo-V2-Omni 在 OpenClaw 配合下自主瀏覽帖子、比較賣家、與客服自然語言談價、加購并走到結算,期間還處理了非標準 DOM、多標簽頁上下文管理、平臺反自動化打斷后的恢復,全程沒有人工干預。任務鏈結構——跨平臺、跨模態、遇到干擾后自主恢復——已經非常接近真實電商和辦公場景里 Agent 工作流的復雜度。

第三個案例更極端:從零做一個 15 秒介紹視頻,然后上傳到 TikTok。模型先自己設計 4 個鏡頭,再合成低頻 bass、電子音、轉場 whoosh 和 glitch 細節音效;渲染中碰到中文字體報錯,自己診斷并修復;打開 TikTok 上傳頁后,發現描述輸入框不是標準文本元素,自行分析 DOM、找到正確交互方式,填完文案、發布、點贊、評論,最后確認視頻通過審核公開上線。這個案例想說明的是:Omni 已經開始展現出閉環自主完成任務的能力——從內容生成到平臺發布,中間出了問題,自己解決。

三、MiMo-V2-TTS:給 Agent 裝上情感,被低估最久的那層體驗

第三個模型MiMo-V2-TTS,表面看起來最不"炸",但可能是最容易直接走進產品的那一個。行業這兩年幾乎所有討論都集中在推理能力、工具調用、代碼質量上,但真正到產品里,用戶接觸到的是最后那層——它怎么說話,有沒有情緒,是否自然,是不是像一個真實存在的智能體。這層體驗長期被當成錦上添花,但在終端產品里,它直接影響用戶粘性。MiMo-V2-TTS 要做的,就是把這層認真填上。官方的說法很直接:給 Agent 一個聲音,甚至給它"靈魂"。

技術上,MiMo-V2-TTS 建在小米自研的Audio Tokenizermulti-codebook joint speech-text modeling架構上,預訓練數據超過1 億小時語音數據,后續做了多維度強化學習。重點在三件事:多粒度風格控制、自然韻律還原、唱歌能力。它可以理解自由文本風格描述,比如"剛睡醒、略微沙啞"、"幾乎是耳語式的深情表達"、"憤怒但盡量克制",而不是只能從 happy/sad/angry/neutral 的下拉菜單里選。

更細的一層,是它可以在生成時同步輸出非語言事件——咳嗽、停頓、遲疑、嘆氣、笑聲等,強調的是這些信號在建模階段就和上下文一并處理,而不是后期拼進去的音效。它還支持方言和角色音色,包括東北話、四川話、粵語、臺灣普通話,以及孫悟空、林黛玉這類角色風格。目標是把一段文本表演出來,而不只是念出來。

最值得單獨說的是唱歌。官方明確寫明支持 singing voice synthesis,并表示這可能是當前首個在商業可用 API 中原生同時支持說話和唱歌的 TTS 能力。同一套架構,既能做耳語式對話,也能生成帶音高和節奏的演唱,中間不用切模型、不用切模式。對內容生產、虛擬人、陪伴型 Agent、AI 主播和短視頻工具來說,這是非常直接的能力補充。

需要說明的是,目前官方公開頁里,MiMo-V2-TTS 沒有像 Pro 和 Omni 那樣給出一套完整的 benchmark 排名表,更多展示的是能力樣例和產品方向。TTS 的質量本身就很難量化,最終檢驗只能靠真實產品里的用戶體驗。這個模型的核心命題只有一個:能不能把人機交互的體驗往上拉一個臺階。

四、寫在最后

把這三款模型放在一起看,小米在推進的目標已經超出了"能對話、會回答的大模型"范疇,落點在 Agent 時代的系統層底座。MiMo-V2-Pro 負責規劃、推理、長上下文和復雜工具鏈;MiMo-V2-Omni 負責多模態理解、界面感知和跨環境執行;MiMo-V2-TTS 負責把這一切變成自然、可持續交互的產品體驗。

有意思的是,小米這次挑的案例——自動駕駛、電商談價、短視頻生成上傳、3D 游戲搭建、方言情緒語音——幾乎全是小米自己生態里能直接落地的場景。

至于最終效果怎樣,網址在此:

https://mimo.xiaomi.com/zh

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
塵埃落定!世乒賽大名單確定,樊振東做出犧牲,溫瑞博被寄予厚望

塵埃落定!世乒賽大名單確定,樊振東做出犧牲,溫瑞博被寄予厚望

曹說體育
2026-04-08 12:12:29
美國完全陷入中國的圈套!紐約時報:特朗普正在領導超級大國自殺

美國完全陷入中國的圈套!紐約時報:特朗普正在領導超級大國自殺

混沌錄
2026-04-07 22:00:06
滿倉迎大漲,但牛市大周期的結束已經不遠

滿倉迎大漲,但牛市大周期的結束已經不遠

重遠投資觀
2026-04-08 15:37:14
我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這4件事

我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這4件事

東林夕亭
2026-03-27 09:07:57
66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

比利
2026-03-21 13:00:22
長和旗下巴拿馬港口公司正式對馬士基啟動仲裁程序

長和旗下巴拿馬港口公司正式對馬士基啟動仲裁程序

界面新聞
2026-04-08 13:23:00
陳麗華,吃到“唐僧肉”的女首富

陳麗華,吃到“唐僧肉”的女首富

難得君
2026-04-08 08:36:45
成都“牽手門”事件女主現今狀況曝光,太慘了......

成都“牽手門”事件女主現今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
訂單排到2028年!光通信這波不是炒概念,是真金白銀的產業爆發

訂單排到2028年!光通信這波不是炒概念,是真金白銀的產業爆發

Thurman在昆明
2026-04-08 08:36:14
上海交大發現:不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

上海交大發現:不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

蜉蝣說
2026-04-07 17:42:34
這哪是「浪姐7」?劃水躺平不背歌詞的姐姐真不少,讓人看的無語

這哪是「浪姐7」?劃水躺平不背歌詞的姐姐真不少,讓人看的無語

娛樂圈筆娛君
2026-04-08 16:20:51
美籍華人回國最新規定

美籍華人回國最新規定

逍遙論經
2026-04-08 06:20:35
遲重瑞,已皈依佛門,不生孩子家族顯赫,財富差距掩蓋了他的才華

遲重瑞,已皈依佛門,不生孩子家族顯赫,財富差距掩蓋了他的才華

喜歡歷史的阿繁
2026-04-08 17:53:34
“霍爾木茲決戰”,緊急叫停了

“霍爾木茲決戰”,緊急叫停了

中國新聞周刊
2026-04-08 11:48:29
王輔一將軍逝世,生前被譽為“軍史活辭典”

王輔一將軍逝世,生前被譽為“軍史活辭典”

澎湃新聞
2026-04-08 22:32:27
我干了50年風水師,我發現真正能改變命運的,只有三個字

我干了50年風水師,我發現真正能改變命運的,只有三個字

千秋文化
2026-04-04 21:29:57
大的要來了!穆杰塔巴擼掉伊朗革命衛隊總司令,換了個不怕死的

大的要來了!穆杰塔巴擼掉伊朗革命衛隊總司令,換了個不怕死的

Ck的蜜糖
2026-04-09 00:49:05
炸裂62犯83罰6人畢業!王洪澤麥考爾證明自己,廣東加時逆轉青島

炸裂62犯83罰6人畢業!王洪澤麥考爾證明自己,廣東加時逆轉青島

后仰大風車
2026-04-08 22:17:59
半個世紀后,人類終于繞回月亮背后,順手拍了幾張絕版壁紙

半個世紀后,人類終于繞回月亮背后,順手拍了幾張絕版壁紙

果殼
2026-04-08 16:12:00
郝蕾果真是微胖界尤物,穿蕾絲紅裙高調亮相,身材和氣場絕了

郝蕾果真是微胖界尤物,穿蕾絲紅裙高調亮相,身材和氣場絕了

庭小娛
2026-03-09 13:05:02
2026-04-09 04:56:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
266文章數 32關注度
往期回顧 全部

數碼要聞

銘凡M1 Lite-125U迷你機首發2119元起 搭載Ultra 5 125U

頭條要聞

伊朗武裝部隊:伊朗對美以絕不信任

頭條要聞

伊朗武裝部隊:伊朗對美以絕不信任

體育要聞

40歲,但實力倒退12年

娛樂要聞

侯佩岑全家悉尼度假,一家四口幸福滿溢

財經要聞

天津海河乳業回應直播間涉黃

科技要聞

造出地表最強AI,卻死活不給你用!

汽車要聞

20萬級滿配華為全家桶 華境S是懂家庭的大六座

態度原創

本地
房產
親子
健康
公開課

本地新聞

跟著歌聲游安徽,聽古村回響

房產要聞

正式動工!珠城馬場地塊,簽約華爾道夫!

親子要聞

胡圖圖說他差幾分就能兌換發卡

干細胞抗衰4大誤區,90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版