337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

真實測評MiniMax M2.7,不吹不夸,它到底什么水平?

學校校醫(yī)到底什么水平

0
分享至

大家好,我是冷逸。

最近,模型圈又卷起來了。GLM、MiniMax甚至小米都相繼發(fā)布了新模型。

眾所周知,國產(chǎn)御三家有四位:Qwen、GLM、MiniMaxKimi

剛我去掃了眼,在實時更新的龍蝦榜PinchBench上,MiniMax M2.7已經(jīng)干到了全球第四(GLM和GPT分數(shù)一樣,有兩個第三名)。


給大家簡單介紹下這個龍蝦榜,它不是傳統(tǒng)benchmark那種,看模型答得準不準,而是看模型能不能完成一件完整的事情。

當然,PinchBench不代表模型的真實水平,僅代表模型在Agent任務上的成功率情況。

所以,今天我想重點測評一下MiniMax M2.7在真實場景中的表現(xiàn)。

本文會相繼用到Claude Code、OpenClaw、MaxClaw和MiniMax Agent網(wǎng)頁端等不同平臺來測試,并會在每個Case前做說明。


一手實測

測試主要分為6個場景,重點評估模型的執(zhí)行過程和最終結果。

1)龍蝦任務:搜索→整理表格→做信息圖→發(fā)到飛書

龍蝦任務,主要在MaxClaw里測(他們已經(jīng)接上了M2.7)。

第一個任務是:

打開豆瓣網(wǎng)頁 https://movie.douban.com 搜索最近熱門的電影,結合熱度、評分和上映時間綜合篩選10部電影,整理成Excel表格,并根據(jù)Excel表格的信息設計一個可視化HTML。最后,把Excel和HTML一并發(fā)到我的飛書上。

這里的任務一共有5步:聯(lián)網(wǎng)檢索→總結內(nèi)容→生成表格→編寫代碼→自動發(fā)到飛書。

比較考驗模型的多步驟執(zhí)行能力和工具調用能力。

M2.7一次過,直接交付了Excel表格和信息圖Html。


來看下最終的結果:Excel和HTML。


Excel表格


可視化HTML

還行,而且它給Excel表格做了一個底色設計,分成了封面和原始數(shù)據(jù)兩個子表給我。

當然,如果我們的提示詞要求得更多,它會生成得更精細。只不過,我們這里主要考驗的,是模型對長任務的指令理解和執(zhí)行能力。

2)龍蝦任務:自動做視頻

接著,我又讓它用libtv-skills給我做個視頻(skill教程可以看這篇文章:LibTV)。

任務是:

用libtv-skills幫我生成40秒的短漫劇,主題是:
《像素荒原》 (The Pixel Wasteland)
視覺核心:實拍與低多邊形(Low-Poly)CGI的實時混合渲染。世界在“高清現(xiàn)實”與“崩壞馬賽克”間切換。
劇情:主角行走在繁華都市,但他走過的地方,建筑瞬間退化為粗糙的幾何色塊,行人變成靜止的貼圖。他試圖奔跑逃離“渲染延遲”,卻發(fā)現(xiàn)自己的雙手也開始像素化消散。結尾,鏡頭拉遠,整個城市只是一個老舊顯示器上即將斷電的畫面,最后一聲電流音后,屏幕徹底黑屏,只映出觀眾自己的臉。
隱喻:探討數(shù)字存在主義危機,利用故障藝術(Glitch Art)風格制造強烈的不安感與哲學反思。

來看下結果。

這個視頻的所有工作流,全由MiniMax M2.7驅動的龍蝦自己調用libtv-skills完成,劇本、分鏡圖、分鏡視頻,以及最后的視頻合成,都一氣呵成。

視頻質量,還不錯。

不過,有個小細節(jié)大家要注意,MaxClaw本身就支持視頻生成(接的Hailuo模型)。如果你不強制調用skill,它會生成鏡頭片段,而不是完整的視頻。

整體來看,M2.7在龍蝦上的任務成功率還是挺高的,前面我這2個case都是one short,一次生成。

那M2.7能夠在龍蝦榜上排名全球第四,也就可以理解了。

3)編程任務:3D

下面3個編程任務,都是在Claude Code里進行測試。

先測一個3D Case,看下模型的空間想象和邏輯推理能力,看它能否準確理解指令,并創(chuàng)建一個零BUG的視覺圖形。

照例,還是我們的3D魔方。

提示詞:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 
中文:創(chuàng)建一個HTML文件,其中使用Three.js(通過CDN方式引入)來實現(xiàn)一個功能完備的3D魔方模擬程序。該魔方必須能夠自動完成自己的“解謎”過程。


沒問題。而且,這回它的UI比上一個版本M2.5看起來更高級一些。


不過,這個Case并非one short。第一個版本,在打亂和還原的動畫過程中會出現(xiàn)部分方塊顏色丟失的情況,這是因為方塊的位置和顏色沒有正確更新。

簡單反饋問題后,第二版就修復這個問題了。

4)編程任務:前端

既然審美在線,我們也同步測一下它寫前端的能力。

讓M2.7給一款AI鼠標「小沃」設計產(chǎn)品宣傳頁。



這個前端,還是比較好看的,尤其是這個VI和配色,我很喜歡。

有點遺憾的是,目前M2.7還不具備視覺理解能力。如果有視覺理解能力,它的應用場景會更豐富。

5)編程任務:用skills做網(wǎng)站

我們繼續(xù)上點強度,讓它調用Skills來生成一個網(wǎng)站。

需求是:

用Knowledge Site Creator Skills為「Token」創(chuàng)建一個知識學習網(wǎng)站,既要嚴謹,又要有趣味,頁面高級審美。
關于token的知識,可以參考這篇文章:https://mp.weixin.qq.com/s/hlL2U4XizvBQJynNJixlOQ

這次One short,效果還不錯,配色和排版是我喜歡的調調。

不過,有個小缺陷,M2.7似乎不能直接讀公眾號url,內(nèi)容是我手動給Claude Code的。

6)辦公任務:出報告、圖表和PPT

辦公任務,換到了MiniMax Agent網(wǎng)頁端進行測試。


體驗地址:agent.minimaxi.com

這次,我們直接復刻MiniMax官方案例,看看能不能復現(xiàn)。

任務是:

基于騰訊2025年財報信息,構建騰訊的營收模型,讀取多個研報,設計對應的假設,基于最新的信息對騰訊營收建模,然后選擇合適的 PPT 模版產(chǎn)出 PPT ,并寫一個 Word 文檔研究報告和 Excel 圖表。

首先看它建的Excel財務模型。

這份財務分析模型還是挺全面的,像業(yè)績總覽、收入分析、盈利分析、核心業(yè)務(游戲)分析、估值分析這些該有的部分都有。說明M2.7模型,知道一個初級分析師在干什么活。

數(shù)據(jù)方面,我也對了一下,沒有差錯。

就是涉及到有復雜表格時(比如有多個坐標軸),模型用Python寫的圖表并沒有完整地呈現(xiàn)出來。


不過問題不大,我們自己再改改就好了。畢竟,初始數(shù)據(jù)的搜索和整理,這才是最耗時的。M2.7已經(jīng)幫我們把最麻煩的事情搞定了。對于分析師來說,這差不多已經(jīng)節(jié)約了至少半天時間。

然后是Word研究報告。

整體23頁,近萬字,研報該有的它都有。

數(shù)據(jù)方面,我也隨便挑了幾頁對比了一下,完全準確。




左邊是M2.7做的研報,右邊是真實的財報

當然,Word文檔里的一些字體、格式、排版還是會有點小問題,但我覺得問題不大,自己手動改改就好了。

最主要是,這份近萬字的研報,它竟然沒有出現(xiàn)任何的幻覺問題,這說明M2.7在長任務上的上下文能力是真滴恐怖。

它讓產(chǎn)出結果真實、可信,可以直接走進我們的真實工作流。

最后,再來看下它整的PPT。

這排版、UI一看就很高級,如果你讓我來手搓,我是真的整不出來。

而以上這三件套,是一個Prompt完成,并不是單獨生成的。這M2.7在復雜任務上的指令遵循能力,是真的強。


整個體驗下來,我感覺M2.7在各個方面都又一次進化了。

從Coding能力到Agentic能力,從工具調用到長程任務,從高難度的龍蝦場景到日常的辦公場景,都能全方位hold住。

而且有點意思的是,這個模型是MiniMax第一個由模型自己深度參與迭代的模型。

這句話讀起來可能有點繞,簡單說就是,他們用AI搞了一個Agent harness,然后用這個系統(tǒng)去訓練、評測模型,人類把控方向,模型負責構建,最終形成模型迭代自己的數(shù)據(jù)飛輪。

也就是,用AI打造下一代AI。

據(jù)說,他們還會加大AI自動化的力度,去推出自己的新一代模型。

如果這個飛輪真的轉起來,接下來的事情,可能會比我們想象的更有意思。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃天鵝就雞蛋角黃素抽檢結果發(fā)布聲明

黃天鵝就雞蛋角黃素抽檢結果發(fā)布聲明

澎湃新聞
2026-03-25 15:39:05
9020mAh!新機官宣:3月26日,正式發(fā)布上市!

9020mAh!新機官宣:3月26日,正式發(fā)布上市!

科技堡壘
2026-03-26 11:29:06
歷史唯一!9場比賽,僅差51次助攻啊,約基奇又又要創(chuàng)造歷史

歷史唯一!9場比賽,僅差51次助攻啊,約基奇又又要創(chuàng)造歷史

球童無忌
2026-03-25 16:56:03
一夜之間,這兩個城市房價上漲了!

一夜之間,這兩個城市房價上漲了!

靚仔情感
2026-03-26 13:57:14
舉火燒天!楊瀚森接球順下單臂隔扣班克斯,目前9中9獨攬20分

舉火燒天!楊瀚森接球順下單臂隔扣班克斯,目前9中9獨攬20分

懂球帝
2026-03-26 10:15:02
毛主席有多明智?成立新疆生產(chǎn)建設兵團,七十年后誰都得服

毛主席有多明智?成立新疆生產(chǎn)建設兵團,七十年后誰都得服

諾言卿史錄
2026-03-26 09:06:41
伊朗開始收“買路錢”了:想過霍爾木茲海峽?拿200萬美元來

伊朗開始收“買路錢”了:想過霍爾木茲海峽?拿200萬美元來

Ck的蜜糖
2026-03-26 16:57:49
湖南省委書記到鳳凰,乘坐世界首條磁浮旅游專線

湖南省委書記到鳳凰,乘坐世界首條磁浮旅游專線

觀察者網(wǎng)
2026-03-25 21:33:09
廣東球迷高喊:流氓教練杜鋒下課!杜鋒回應:感謝現(xiàn)場觀眾 非常熱情

廣東球迷高喊:流氓教練杜鋒下課!杜鋒回應:感謝現(xiàn)場觀眾 非常熱情

晚霧空青
2026-03-26 16:09:03
悲催!丈夫月收入從2萬到四五千,從程序員到送快遞,女子想離婚

悲催!丈夫月收入從2萬到四五千,從程序員到送快遞,女子想離婚

火山詩話
2026-03-15 10:23:17
研究所所長猥褻下屬后續(xù),女主多張高清照曝光,知情人再爆料

研究所所長猥褻下屬后續(xù),女主多張高清照曝光,知情人再爆料

觀察鑒娛
2026-03-26 09:25:28
鄧超孫儷正式解綁:16年婚姻,各自安好

鄧超孫儷正式解綁:16年婚姻,各自安好

二胡的歲月如歌
2026-03-26 14:50:14
正式翻臉:沙特與阿聯(lián)酋開放軍事基地,放任美軍暴打伊朗

正式翻臉:沙特與阿聯(lián)酋開放軍事基地,放任美軍暴打伊朗

雅兒姐在遛彎
2026-03-26 08:24:39
大瓜!張雪峰女兒只能分得16.5%遺產(chǎn)

大瓜!張雪峰女兒只能分得16.5%遺產(chǎn)

蘭亭墨未干
2026-03-26 14:52:45
490億元的大項目即將開建!!

490億元的大項目即將開建!!

新浪財經(jīng)
2026-03-26 11:14:48
“住宅禁放骨灰盒”新規(guī)出爐,引爭議!網(wǎng)友:可以去化房地產(chǎn)庫存

“住宅禁放骨灰盒”新規(guī)出爐,引爭議!網(wǎng)友:可以去化房地產(chǎn)庫存

火山詩話
2026-03-26 11:11:22
特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

劉蕳愛下廚
2026-03-25 15:08:52
美以聯(lián)合空襲伊拉克

美以聯(lián)合空襲伊拉克

第一財經(jīng)資訊
2026-03-26 12:56:50
快訊!美國要打大仗了!

快訊!美國要打大仗了!

達文西看世界
2026-03-26 09:29:08
戰(zhàn)場奇跡!1臺烏軍機器人死守陣地45天硬剛俄軍沖殺和機槍掃射

戰(zhàn)場奇跡!1臺烏軍機器人死守陣地45天硬剛俄軍沖殺和機槍掃射

子桑說
2026-03-25 17:27:05
2026-03-26 17:28:49
沃垠AI incentive-icons
沃垠AI
努力分享一些有用、有趣的AI干貨
64文章數(shù) 20關注度
往期回顧 全部

數(shù)碼要聞

七彩虹iGame Z890 ULTRA-S W V20主板上市,2399元

頭條要聞

國防部:日本侵略過所有周邊國家 至今都沒有真正反省

頭條要聞

國防部:日本侵略過所有周邊國家 至今都沒有真正反省

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

張雪峰家人首發(fā)聲 不設追思會喪事從簡

財經(jīng)要聞

長護險誰能享受?享受多少?解答來了

科技要聞

Meta高管狂分百億期權,700名員工卻下崗

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

手機
教育
旅游
游戲
軍事航空

手機要聞

iPhone「自己打電話」是Bug!蘋果終于承認了,怎么回事?

教育要聞

2026湖北高職單招工作啟動

旅游要聞

德陽綿竹:賞花、覽文旅精品......沿山旅游“火”起來

商業(yè)互吹or真心話?制作人玩《紅色沙漠》忘記工作

軍事要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版