品玩3月18日訊,MiniMax正式發(fā)布其M2系列模型的全新版本——M2.7。該模型的核心突破在于能夠深度參與自身迭代,構(gòu)建復雜的Agent Harness,并利用Agent Teams、復雜Skills與工具搜索等能力,開啟了模型的自我進化過程。在研發(fā)中,M2.7被用于構(gòu)建強化學習框架中的數(shù)十個復雜技能,實現(xiàn)了對自身訓練、評測與優(yōu)化流程的驅(qū)動與優(yōu)化。
在軟件工程領域,M2.7表現(xiàn)優(yōu)異。其在SWE-Pro基準測試中得分達56.22%,接近Opus水平;在端到端項目交付基準VIBE-Pro上得分55.6%;在對復雜系統(tǒng)理解要求極高的Terminal Bench 2中得分57.0%。實際應用中,它能將線上生產(chǎn)故障恢復時間縮短至3分鐘以內(nèi),并具備原生多智能體(Agent Teams)協(xié)作能力。
在專業(yè)辦公領域,模型在涵蓋多領域?qū)I(yè)知識的GDPval-AA評測中ELO得分高達1495。其能夠深度處理Word、Excel、PPT等辦公文檔,進行多輪高保真編輯,并能像分析師一樣閱讀金融年報、構(gòu)建預測模型并生成完整的研究報告、PPT和Excel圖表。在包含40個復雜技能的場景下,其技能遵循率仍保持在97%。
此外,M2.7顯著加強了身份保持與情商能力,為互動娛樂場景的創(chuàng)新拓展了空間。該模型已在MiniMax Agent與開放平臺全量上線。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.