網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

真實測評MiniMax M2.7，不吹不夸，它到底什么水平？

學校校醫(yī)到底什么水平

2026-03-20 16:38:25　來源: 沃垠AI

四川舉報

分享至

大家好，我是冷逸。

最近，模型圈又卷起來了。GLM、MiniMax甚至小米都相繼發(fā)布了新模型。

眾所周知，國產(chǎn)御三家有四位：Qwen、GLM、MiniMax和Kimi。

剛我去掃了眼，在實時更新的龍蝦榜PinchBench上，MiniMax M2.7已經(jīng)干到了全球第四（GLM和GPT分數(shù)一樣，有兩個第三名）。

給大家簡單介紹下這個龍蝦榜，它不是傳統(tǒng)benchmark那種，看模型答得準不準，而是看模型能不能完成一件完整的事情。

當然，PinchBench不代表模型的真實水平，僅代表模型在Agent任務上的成功率情況。

所以，今天我想重點測評一下MiniMax M2.7在真實場景中的表現(xiàn)。

本文會相繼用到Claude Code、OpenClaw、MaxClaw和MiniMax Agent網(wǎng)頁端等不同平臺來測試，并會在每個Case前做說明。

一手實測

測試主要分為6個場景，重點評估模型的執(zhí)行過程和最終結果。

1）龍蝦任務：搜索→整理表格→做信息圖→發(fā)到飛書

龍蝦任務，主要在MaxClaw里測（他們已經(jīng)接上了M2.7）。

第一個任務是：

打開豆瓣網(wǎng)頁 https://movie.douban.com 搜索最近熱門的電影，結合熱度、評分和上映時間綜合篩選10部電影，整理成Excel表格，并根據(jù)Excel表格的信息設計一個可視化HTML。最后，把Excel和HTML一并發(fā)到我的飛書上。

這里的任務一共有5步：聯(lián)網(wǎng)檢索→總結內(nèi)容→生成表格→編寫代碼→自動發(fā)到飛書。

比較考驗模型的多步驟執(zhí)行能力和工具調用能力。

M2.7一次過，直接交付了Excel表格和信息圖Html。

來看下最終的結果：Excel和HTML。

Excel表格

可視化HTML

還行，而且它給Excel表格做了一個底色設計，分成了封面和原始數(shù)據(jù)兩個子表給我。

當然，如果我們的提示詞要求得更多，它會生成得更精細。只不過，我們這里主要考驗的，是模型對長任務的指令理解和執(zhí)行能力。

2）龍蝦任務：自動做視頻

接著，我又讓它用libtv-skills給我做個視頻（skill教程可以看這篇文章：LibTV）。

任務是：

用libtv-skills幫我生成40秒的短漫劇，主題是：
《像素荒原》 (The Pixel Wasteland)
視覺核心：實拍與低多邊形（Low-Poly）CGI的實時混合渲染。世界在“高清現(xiàn)實”與“崩壞馬賽克”間切換。
劇情：主角行走在繁華都市，但他走過的地方，建筑瞬間退化為粗糙的幾何色塊，行人變成靜止的貼圖。他試圖奔跑逃離“渲染延遲”，卻發(fā)現(xiàn)自己的雙手也開始像素化消散。結尾，鏡頭拉遠，整個城市只是一個老舊顯示器上即將斷電的畫面，最后一聲電流音后，屏幕徹底黑屏，只映出觀眾自己的臉。
隱喻：探討數(shù)字存在主義危機，利用故障藝術（Glitch Art）風格制造強烈的不安感與哲學反思。

來看下結果。

這個視頻的所有工作流，全由MiniMax M2.7驅動的龍蝦自己調用libtv-skills完成，劇本、分鏡圖、分鏡視頻，以及最后的視頻合成，都一氣呵成。

視頻質量，還不錯。

不過，有個小細節(jié)大家要注意，MaxClaw本身就支持視頻生成（接的Hailuo模型）。如果你不強制調用skill，它會生成鏡頭片段，而不是完整的視頻。

整體來看，M2.7在龍蝦上的任務成功率還是挺高的，前面我這2個case都是one short，一次生成。

那M2.7能夠在龍蝦榜上排名全球第四，也就可以理解了。

3）編程任務：3D

下面3個編程任務，都是在Claude Code里進行測試。

先測一個3D Case，看下模型的空間想象和邏輯推理能力，看它能否準確理解指令，并創(chuàng)建一個零BUG的視覺圖形。

照例，還是我們的3D魔方。

提示詞：Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 
中文：創(chuàng)建一個HTML文件，其中使用Three.js（通過CDN方式引入）來實現(xiàn)一個功能完備的3D魔方模擬程序。該魔方必須能夠自動完成自己的“解謎”過程。

沒問題。而且，這回它的UI比上一個版本M2.5看起來更高級一些。

不過，這個Case并非one short。第一個版本，在打亂和還原的動畫過程中會出現(xiàn)部分方塊顏色丟失的情況，這是因為方塊的位置和顏色沒有正確更新。

簡單反饋問題后，第二版就修復這個問題了。

4）編程任務：前端

既然審美在線，我們也同步測一下它寫前端的能力。

讓M2.7給一款AI鼠標「小沃」設計產(chǎn)品宣傳頁。

這個前端，還是比較好看的，尤其是這個VI和配色，我很喜歡。

有點遺憾的是，目前M2.7還不具備視覺理解能力。如果有視覺理解能力，它的應用場景會更豐富。

5）編程任務：用skills做網(wǎng)站

我們繼續(xù)上點強度，讓它調用Skills來生成一個網(wǎng)站。

需求是：

用Knowledge Site Creator Skills為「Token」創(chuàng)建一個知識學習網(wǎng)站，既要嚴謹，又要有趣味，頁面高級審美。
關于token的知識，可以參考這篇文章：https://mp.weixin.qq.com/s/hlL2U4XizvBQJynNJixlOQ

這次One short，效果還不錯，配色和排版是我喜歡的調調。

不過，有個小缺陷，M2.7似乎不能直接讀公眾號url，內(nèi)容是我手動給Claude Code的。

6）辦公任務：出報告、圖表和PPT

辦公任務，換到了MiniMax Agent網(wǎng)頁端進行測試。

體驗地址：agent.minimaxi.com

這次，我們直接復刻MiniMax官方案例，看看能不能復現(xiàn)。

任務是：

基于騰訊2025年財報信息，構建騰訊的營收模型，讀取多個研報，設計對應的假設，基于最新的信息對騰訊營收建模，然后選擇合適的 PPT 模版產(chǎn)出 PPT ，并寫一個 Word 文檔研究報告和 Excel 圖表。

首先看它建的Excel財務模型。

這份財務分析模型還是挺全面的，像業(yè)績總覽、收入分析、盈利分析、核心業(yè)務（游戲）分析、估值分析這些該有的部分都有。說明M2.7模型，知道一個初級分析師在干什么活。

數(shù)據(jù)方面，我也對了一下，沒有差錯。

就是涉及到有復雜表格時（比如有多個坐標軸），模型用Python寫的圖表并沒有完整地呈現(xiàn)出來。

不過問題不大，我們自己再改改就好了。畢竟，初始數(shù)據(jù)的搜索和整理，這才是最耗時的。M2.7已經(jīng)幫我們把最麻煩的事情搞定了。對于分析師來說，這差不多已經(jīng)節(jié)約了至少半天時間。

然后是Word研究報告。

整體23頁，近萬字，研報該有的它都有。

數(shù)據(jù)方面，我也隨便挑了幾頁對比了一下，完全準確。

左邊是M2.7做的研報，右邊是真實的財報

當然，Word文檔里的一些字體、格式、排版還是會有點小問題，但我覺得問題不大，自己手動改改就好了。

最主要是，這份近萬字的研報，它竟然沒有出現(xiàn)任何的幻覺問題，這說明M2.7在長任務上的上下文能力是真滴恐怖。

它讓產(chǎn)出結果真實、可信，可以直接走進我們的真實工作流。

最后，再來看下它整的PPT。

這排版、UI一看就很高級，如果你讓我來手搓，我是真的整不出來。

而以上這三件套，是一個Prompt完成，并不是單獨生成的。這M2.7在復雜任務上的指令遵循能力，是真的強。

整個體驗下來，我感覺M2.7在各個方面都又一次進化了。

從Coding能力到Agentic能力，從工具調用到長程任務，從高難度的龍蝦場景到日常的辦公場景，都能全方位hold住。

而且有點意思的是，這個模型是MiniMax第一個由模型自己深度參與迭代的模型。

這句話讀起來可能有點繞，簡單說就是，他們用AI搞了一個Agent harness，然后用這個系統(tǒng)去訓練、評測模型，人類把控方向，模型負責構建，最終形成模型迭代自己的數(shù)據(jù)飛輪。

也就是，用AI打造下一代AI。

據(jù)說，他們還會加大AI自動化的力度，去推出自己的新一代模型。

如果這個飛輪真的轉起來，接下來的事情，可能會比我們想象的更有意思。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.