網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

雷軍的AI福將？羅福莉交出萬億參數(shù)模型大作業(yè)，林俊旸點贊

2026-03-20 22:32:14　來源: 搜狐科技

北京舉報

分享至

出品｜搜狐科技

作者｜常博碩

編輯| 楊錦

真相大白了，Hunter Alpha原來是小米羅福莉的“作業(yè)”。

事情還要回溯到3月11日，當天全球最大API聚合平臺OpenRouter上突然出現(xiàn)了一個代號為Hunter Alpha的模型。短短七天內(nèi)，累計調(diào)用量突破1萬億Token，連續(xù)多日登頂榜單。

這個模型沒有標注開發(fā)者身份，于3月11日以“隱身模型”形式發(fā)布，且向開發(fā)者提供免費訪問。測試顯示，該系統(tǒng)具備1萬億參數(shù)規(guī)模和高達100萬token的上下文窗口。

由于模型自稱是主要以中文訓練的中國AI模型，知識截止時間為2025年5月，不管是性能參數(shù)還是知識時間節(jié)點都和DeepSeek之前的模型風格很相似，于是市場便紛紛猜測這可能是DeepSeek在正式發(fā)布前對其下一代系統(tǒng)進行的秘密測試。

然而，昨天小米 MiMo 團隊正式認領了該模型，Hunter Alpha是小米旗艦模型MiMo-V2-Pro的內(nèi)部測試版本。目前，小米AI團隊領軍人物是前DeepSeek 核心研究員羅福莉，或許這也是為什么Hunter Alpha會讓大家“幻視”DeepSeek吧。

小米也想上桌

在小米新品發(fā)布會上，雷軍正式發(fā)布小米首款自研旗艦大模型Xiaomi MiMo-V2-Pro，此外，小米還推出了相關系列模型MiMo-V2-Omni 和 TTS。

過去一年，小米在AI領域的存在感并不強。既沒有阿里那樣做基模也不像DeepSeek 在社區(qū)靠開源爆火，更像是硬件和生態(tài)玩家。但這次Hunter Alpha的表現(xiàn)直接說明，小米已經(jīng)擁有一支能做萬億級模型的團隊。

此次小米共發(fā)布三款模型，MiMo-V2-Pro（原Hunter Alpha）是一款面向Agent時代的旗艦基座模型。總參數(shù)量1萬億，激活參數(shù)控制在42B，并支持1M超長上下文。

MiMo-V2-Omni（原Healer Alpha）：全模態(tài)理解模型。專為需要快速反應和低延遲的真實場景打造，能夠同時處理文本、圖像、音頻乃至長達一小時的視頻輸入。

MiMo-V2-TTS則是一款擬人語音大模型。

具體來看，MiMo-V2-Pro是此次受關注最高的一款模型，也是小米正式進軍智能體時代的標志。與傳統(tǒng)以對話體驗為核心優(yōu)化目標的語言模型不同，它的設計起點并非“生成回答”，而是作為 Agent 系統(tǒng)的中樞，能夠理解目標、規(guī)劃步驟、調(diào)用外部工具，并在多階段執(zhí)行過程中持續(xù)修正路徑，最終完成任務閉環(huán)。

從模型架構來看，MiMo-V2-Pro 采用超大規(guī)模稀疏化設計，總參數(shù)規(guī)模達到萬億級（1T），其中單次推理的激活參數(shù)約為 42B。

這一結構本質(zhì)上是對 MoE（Mixture-of-Experts）體系的進一步工程化實現(xiàn)，大規(guī)模專家網(wǎng)絡承載知識容量，同時在推理階段僅激活部分子網(wǎng)絡，這就能夠在不增加計算成本的情況下擴展模型表達能力。

在注意力機制上，MiMo-V2-Pro 引入改進后的路由注意力（Hybrid Attention）結構，將局部窗口注意力與全局注意力進行分層組合。通過窗口化機制限制計算復雜度的同時還能通過全局路徑保留長距離依賴。

這就使得模型能夠在長上下文場景下維持穩(wěn)定推理，不會出現(xiàn)典型的注意力退化問題。

MiMo-V2-Pro的上下文窗口進一步擴展至100萬Token。在多步驟任務執(zhí)行中，模型可以在單次上下文內(nèi)保留完整的中間狀態(tài)、工具調(diào)用結果以及歷史決策路徑，從而避免頻繁的上下文重建或外部檢索。這一特性對于Agent系統(tǒng)尤為關鍵，使其能夠在長鏈路任務中保持一致性與連貫性。

在此前以Hunter Alpha代號進行的匿名測試階段，這些能力已經(jīng)有所體現(xiàn)。根據(jù)OpenRouter官網(wǎng)的調(diào)用數(shù)據(jù)，模型在上線后使用場景更多是代碼生成、開發(fā)工具與自動化任務。

從跑分上來看，MiMo-V2-Pro表現(xiàn)確實很不錯。

在通用Agent能力評估（ClawEval）中，MiMo-V2-Pro得分61.5，逼近Claude Opus 4.6；在PinchBench測試中排名全球前三。在編碼能力方面，其表現(xiàn)甚至超過Claude Sonnet 4.6，接近更高端的Opus級別。

定價上，MiMo-V2-Pro在256K上下文長度內(nèi)，輸入token單價為每百萬1美元，輸出為每百萬3美元；即使擴展到100萬上下文，輸入也只需每百萬2美元，輸出每百萬6美元，價格約Claude Opus 4.6的五分之一。

林俊旸點贊羅福莉

羅福莉，是這次 MiMo 模型體系中一個繞不開的關鍵人物。她本科畢業(yè)于北京師范大學計算機專業(yè)，碩士畢業(yè)于北京大學計算語言學研究所。曾任職于阿里巴巴達摩院、幻方量化及DeepSeek（深度求索）。

在阿里期間，她主導開發(fā)了多語言預訓練模型VECO；在DeepSeek期間，她是MoE大模型DeepSeek-V2的關鍵開發(fā)者之一。2025年11月，羅福莉加入小米，負責領導MiMo大模型團隊。

這次的MiMo-V2-Pro，是羅福莉加入小米后交的第一份大作業(yè)。

在模型公布后，她在自己的社交主頁寫道：MiMo-V2-Pro、Omni 和 TTS 正式發(fā)布。這是我們首個真正為智能體時代打造的全棧模型系列。我稱之為一次悄無聲息的突襲——并非因為我們事先計劃好的，而是因為從聊天模式到智能體模式的轉變發(fā)生得太快，連我們自己都難以置信。在這期間，我們經(jīng)歷了一個既激動人心又痛苦不堪，同時又令人著迷的過程。

據(jù)羅福莉表示，1T 基礎模型早在幾個月前就開始訓練了。最初的目標是提高長上下文推理的效率。混合注意力機制帶來了真正的創(chuàng)新，卻又不至于過度擴張。事實證明，它正是智能體時代的理想基礎。1M 的上下文窗口。MTP 推理技術實現(xiàn)了超低延遲和成本。這些架構決策并非一時風尚，而是我們在需要之前就構建的結構性優(yōu)勢。真正改變一切的是第一次體驗到復雜的智能體框架。

她還透露，自己給團隊下了硬性指標：MiMo團隊中，每天與AI對話少于100次的人都可以辭職。

在羅福莉看來，一旦團隊的想象力被智能系統(tǒng)的功能所激發(fā)，這種想象力就直接轉化為研發(fā)速度。

她還透露，當模型足夠穩(wěn)定值得開源的時候，她會選擇開源。隨后，前阿里巴巴通義千問（Qwen）系列大模型核心技術負責人林俊旸點贊了該帖，并評論道：“太棒了。”

模型發(fā)布后，雷軍第一時間表示，“我們剛發(fā)布萬億參數(shù)大模型 Mimo-V2-Pro。在全球大模型綜合智能排行榜 Artificial Analysis 上，位列全球第八。按大模型品牌來排名，排在全球第五，超過了xAI Grok。我們模型剛剛完成，未來一段時間，還會快速迭代增強。”

同時他也承認，小米一直以來在AI領域相對比較低調(diào)，實際進展可能比大家看到的要快很多。

對于進軍AI這件事，雷軍并不吝嗇，他表示：“我們今年的研發(fā)和資本投入就將超過160億元。我相信，只要我們堅持持續(xù)投入，小米在AI時代一定會交出一份靚麗的答卷。”

運營編輯 |曹倩審核｜孟莎莎

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.