鳳凰網(wǎng)科技訊 3月19日,小米發(fā)布面向Agent時代的全模態(tài)基座模型Xiaomi MiMo-V2-Omni。該模型從底層構(gòu)建融合文本、視覺、語音的全模態(tài)架構(gòu),將感知與行動深度綁定,原生支持多模態(tài)感知、工具調(diào)用、函數(shù)執(zhí)行及GUI操作能力。
![]()
在正式發(fā)布前,小米將一個早期測試版本以“Healer Alpha”為代號匿名上架OpenRouter。上線期間調(diào)用量持續(xù)攀升,在OpenClaw測評榜單PinchBench上取得均分第一。
據(jù)官方介紹,MiMo-V2-Omni在音頻理解方面支持環(huán)境聲分類、多說話人分離、音頻-視覺聯(lián)合推理及超10小時長音頻理解,綜合表現(xiàn)超越Gemini 3 Pro。圖像理解方面,在多學科視覺推理與復雜圖表分析任務中超越Claude Opus 4.6,逼近Gemini 3 Pro等閉源模型水平。視頻理解方面支持原生音視頻聯(lián)合輸入,具備情境感知與未來推理能力。
![]()
智能體能力方面,該模型可在與真實數(shù)字環(huán)境交互的評測基準上比肩Gemini 3 Pro。在Browser Use場景中,結(jié)合OpenClaw框架可實現(xiàn)瀏覽器操控,完成信息檢索、比價、與客服交互及下單等任務。與金山辦公合作,接入WPS Office后,模型可根據(jù)指令生成Word文檔、結(jié)構(gòu)化Excel、排版規(guī)范的PDF及PPT。
![]()
![]()
MiMo-V2-Omni已開放API服務,支持256K上下文長度,輸入0.4元/百萬tokens,輸出2元/百萬tokens。小米聯(lián)合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等五大Agent開發(fā)框架團隊,為全球開發(fā)者提供為期一周的限時免費接口支持。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.