大家好,我是冷逸。
最近,模型圈又卷起來了。GLM、MiniMax甚至小米都相繼發(fā)布了新模型。
眾所周知,國產(chǎn)御三家有四位:Qwen、GLM、MiniMax和Kimi。
剛我去掃了眼,在實時更新的龍蝦榜PinchBench上,MiniMax M2.7已經(jīng)干到了全球第四(GLM和GPT分數(shù)一樣,有兩個第三名)。
![]()
給大家簡單介紹下這個龍蝦榜,它不是傳統(tǒng)benchmark那種,看模型答得準不準,而是看模型能不能完成一件完整的事情。
當然,PinchBench不代表模型的真實水平,僅代表模型在Agent任務上的成功率情況。
所以,今天我想重點測評一下MiniMax M2.7在真實場景中的表現(xiàn)。
本文會相繼用到Claude Code、OpenClaw、MaxClaw和MiniMax Agent網(wǎng)頁端等不同平臺來測試,并會在每個Case前做說明。
![]()
一手實測
測試主要分為6個場景,重點評估模型的執(zhí)行過程和最終結果。
1)龍蝦任務:搜索→整理表格→做信息圖→發(fā)到飛書
龍蝦任務,主要在MaxClaw里測(他們已經(jīng)接上了M2.7)。
第一個任務是:
打開豆瓣網(wǎng)頁 https://movie.douban.com 搜索最近熱門的電影,結合熱度、評分和上映時間綜合篩選10部電影,整理成Excel表格,并根據(jù)Excel表格的信息設計一個可視化HTML。最后,把Excel和HTML一并發(fā)到我的飛書上。
這里的任務一共有5步:聯(lián)網(wǎng)檢索→總結內(nèi)容→生成表格→編寫代碼→自動發(fā)到飛書。
比較考驗模型的多步驟執(zhí)行能力和工具調用能力。
M2.7一次過,直接交付了Excel表格和信息圖Html。
![]()
來看下最終的結果:Excel和HTML。
![]()
Excel表格
![]()
可視化HTML
還行,而且它給Excel表格做了一個底色設計,分成了封面和原始數(shù)據(jù)兩個子表給我。
當然,如果我們的提示詞要求得更多,它會生成得更精細。只不過,我們這里主要考驗的,是模型對長任務的指令理解和執(zhí)行能力。
2)龍蝦任務:自動做視頻
接著,我又讓它用libtv-skills給我做個視頻(skill教程可以看這篇文章:LibTV)。
任務是:
用libtv-skills幫我生成40秒的短漫劇,主題是:
《像素荒原》 (The Pixel Wasteland)
視覺核心:實拍與低多邊形(Low-Poly)CGI的實時混合渲染。世界在“高清現(xiàn)實”與“崩壞馬賽克”間切換。
劇情:主角行走在繁華都市,但他走過的地方,建筑瞬間退化為粗糙的幾何色塊,行人變成靜止的貼圖。他試圖奔跑逃離“渲染延遲”,卻發(fā)現(xiàn)自己的雙手也開始像素化消散。結尾,鏡頭拉遠,整個城市只是一個老舊顯示器上即將斷電的畫面,最后一聲電流音后,屏幕徹底黑屏,只映出觀眾自己的臉。
隱喻:探討數(shù)字存在主義危機,利用故障藝術(Glitch Art)風格制造強烈的不安感與哲學反思。
來看下結果。
這個視頻的所有工作流,全由MiniMax M2.7驅動的龍蝦自己調用libtv-skills完成,劇本、分鏡圖、分鏡視頻,以及最后的視頻合成,都一氣呵成。
視頻質量,還不錯。
不過,有個小細節(jié)大家要注意,MaxClaw本身就支持視頻生成(接的Hailuo模型)。如果你不強制調用skill,它會生成鏡頭片段,而不是完整的視頻。
整體來看,M2.7在龍蝦上的任務成功率還是挺高的,前面我這2個case都是one short,一次生成。
那M2.7能夠在龍蝦榜上排名全球第四,也就可以理解了。
3)編程任務:3D
下面3個編程任務,都是在Claude Code里進行測試。
先測一個3D Case,看下模型的空間想象和邏輯推理能力,看它能否準確理解指令,并創(chuàng)建一個零BUG的視覺圖形。
照例,還是我們的3D魔方。
提示詞:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself.
中文:創(chuàng)建一個HTML文件,其中使用Three.js(通過CDN方式引入)來實現(xiàn)一個功能完備的3D魔方模擬程序。該魔方必須能夠自動完成自己的“解謎”過程。![]()
沒問題。而且,這回它的UI比上一個版本M2.5看起來更高級一些。
![]()
不過,這個Case并非one short。第一個版本,在打亂和還原的動畫過程中會出現(xiàn)部分方塊顏色丟失的情況,這是因為方塊的位置和顏色沒有正確更新。
簡單反饋問題后,第二版就修復這個問題了。
4)編程任務:前端
既然審美在線,我們也同步測一下它寫前端的能力。
讓M2.7給一款AI鼠標「小沃」設計產(chǎn)品宣傳頁。
![]()
![]()
這個前端,還是比較好看的,尤其是這個VI和配色,我很喜歡。
有點遺憾的是,目前M2.7還不具備視覺理解能力。如果有視覺理解能力,它的應用場景會更豐富。
5)編程任務:用skills做網(wǎng)站
我們繼續(xù)上點強度,讓它調用Skills來生成一個網(wǎng)站。
需求是:
用Knowledge Site Creator Skills為「Token」創(chuàng)建一個知識學習網(wǎng)站,既要嚴謹,又要有趣味,頁面高級審美。
關于token的知識,可以參考這篇文章:https://mp.weixin.qq.com/s/hlL2U4XizvBQJynNJixlOQ這次One short,效果還不錯,配色和排版是我喜歡的調調。
不過,有個小缺陷,M2.7似乎不能直接讀公眾號url,內(nèi)容是我手動給Claude Code的。
6)辦公任務:出報告、圖表和PPT
辦公任務,換到了MiniMax Agent網(wǎng)頁端進行測試。
![]()
體驗地址:agent.minimaxi.com
這次,我們直接復刻MiniMax官方案例,看看能不能復現(xiàn)。
任務是:
基于騰訊2025年財報信息,構建騰訊的營收模型,讀取多個研報,設計對應的假設,基于最新的信息對騰訊營收建模,然后選擇合適的 PPT 模版產(chǎn)出 PPT ,并寫一個 Word 文檔研究報告和 Excel 圖表。首先看它建的Excel財務模型。
這份財務分析模型還是挺全面的,像業(yè)績總覽、收入分析、盈利分析、核心業(yè)務(游戲)分析、估值分析這些該有的部分都有。說明M2.7模型,知道一個初級分析師在干什么活。
數(shù)據(jù)方面,我也對了一下,沒有差錯。
就是涉及到有復雜表格時(比如有多個坐標軸),模型用Python寫的圖表并沒有完整地呈現(xiàn)出來。
![]()
不過問題不大,我們自己再改改就好了。畢竟,初始數(shù)據(jù)的搜索和整理,這才是最耗時的。M2.7已經(jīng)幫我們把最麻煩的事情搞定了。對于分析師來說,這差不多已經(jīng)節(jié)約了至少半天時間。
然后是Word研究報告。
整體23頁,近萬字,研報該有的它都有。
數(shù)據(jù)方面,我也隨便挑了幾頁對比了一下,完全準確。
![]()
![]()
![]()
左邊是M2.7做的研報,右邊是真實的財報
當然,Word文檔里的一些字體、格式、排版還是會有點小問題,但我覺得問題不大,自己手動改改就好了。
最主要是,這份近萬字的研報,它竟然沒有出現(xiàn)任何的幻覺問題,這說明M2.7在長任務上的上下文能力是真滴恐怖。
它讓產(chǎn)出結果真實、可信,可以直接走進我們的真實工作流。
最后,再來看下它整的PPT。
這排版、UI一看就很高級,如果你讓我來手搓,我是真的整不出來。
而以上這三件套,是一個Prompt完成,并不是單獨生成的。這M2.7在復雜任務上的指令遵循能力,是真的強。
![]()
整個體驗下來,我感覺M2.7在各個方面都又一次進化了。
從Coding能力到Agentic能力,從工具調用到長程任務,從高難度的龍蝦場景到日常的辦公場景,都能全方位hold住。
而且有點意思的是,這個模型是MiniMax第一個由模型自己深度參與迭代的模型。
這句話讀起來可能有點繞,簡單說就是,他們用AI搞了一個Agent harness,然后用這個系統(tǒng)去訓練、評測模型,人類把控方向,模型負責構建,最終形成模型迭代自己的數(shù)據(jù)飛輪。
也就是,用AI打造下一代AI。
據(jù)說,他們還會加大AI自動化的力度,去推出自己的新一代模型。
如果這個飛輪真的轉起來,接下來的事情,可能會比我們想象的更有意思。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.