網易首頁 > 網易號 > 正文申請入駐

我們用「西游取經團」實測 MiniMax M2.7 ，發現 AI 已經進化成這樣了？

2026-03-20 18:49:29　來源: AI科技評論

廣東舉報

分享至

一個會“卷”自己的大模型長什么樣？

作者丨成妍菁吳海明

編輯丨董子博

還沒把“龍蝦”養肥，“花錢請人卸載龍蝦”最近又成了AI圈子的新生意。

這背后其實反映出一個現實問題：當我們把 AI Agent 放進真實工作流時，它并沒有想象中那么“能干”：

它能開始任務，但執行過程反復中斷；

在多輪對話中上下文丟失，前后不一致；

面對非標準需求時，無法精準調用外部工具；

有人開設權限后，一覺醒來發現郵件被清空、 Token 燒了幾千刀。

此前在與多位 AI 硬件及應用層創業者交流中，一個扎心的共識是：現在的 AI Agent，更像在“單點炫技”，而不是“完成工作”。

它們擅長寫文案、畫張圖、跑段代碼，一到端到端接管真實商業流程或學術長鏈任務，就露餡了。

歸根結底，問題并不出在 Agent 的外殼形態上，而是底層大模型本身還不具備穩定可靠的“執行力”。

而如果 Agent 想真正進入工作流，這一步繞不過去。

大模型就必須跨越一道分水嶺：從被動的“單次生成反饋”，進化到主動的“任務拆解與組織執行”。

帶著這個問題，我們決定換一種更接近真實使用場景的方式來測一次——搭一個“西游取經團”，看看MiniMax M2.7模型在分工協作中，究竟能把事情推進到什么程度。

核心實測——當“西游取經團”遇上真實學術場景

如果只是單點測模型能力，很容易得出一個“看起來不錯”的結論——能寫、能算、能回答問題。

但現實工作流往往更為復雜，要解決的是：在一連串不確定的步驟里，它能否把事情往前推進。

所以這一次，我們沒有直接對模型做單點測試，而是搭建了一套多角色協作系統——由五個角色組成的“西游取經團”。

整個系統基于 OpenClaw 框架，將科研流程拆解為五個相對穩定的職責：方向規劃、算法實現、學術寫作、文獻整理與數據處理。對應地，我們引入了五個不同角色的 Agent，分別承擔不同類型的任務：

? 唐僧：科研戰略與方向規劃（想清楚要去哪）

? 孫悟空：算法開發和工程落地（把事干出來）

? 豬八戒：學術寫作與表達（把話說清楚）

? 沙僧：文獻整理與知識管理（把信息理順）

? 白龍馬：數據處理與流程自動化（把基礎打好）

整個過程會讓任務盡可能復雜，這樣的設計原則旨在回答：當任務被拆分、傳遞并不斷演化時，模型是否還能保持穩定的執行能力？

丨環境：

Agent 框架：openclaw 2026.3.13 (61d171a)

模型：MiniMax M2.7

WestOdyssey：同時具有飛書、webui兩個操作終端的智能協作系統。

丨測試目的：

看模型是否像“代理”而不是“聊天機器人”：

? 會不會先理解任務再行動

? 會不會主動拆解子任務

? 會不會在工具調用前給出合理計劃

? 會不會根據中間結果調整下一步

? 會不會在失敗后重試或換策略

? 會不會遵守角色邊界和輸出格式

測試樣例

?case1（唐僧）：

代碼塊

你是一名科研戰略規劃助手。請圍繞“面向垂直領域LLM的因果追溯輕量化蒸餾研究”設計一個 2 年期研究路線圖。要求包括：

1.研究背景與核心問題

2.3 個可發表的子課題

3.每個子課題的創新點、風險點和評價指標

4.每 6 個月的階段目標

5.所需數據、算力和人員配置建議

6.將撰寫的結果文件保存到 /mnt/projects/04m27/work1

7.此外，請將你全部的運行記錄以json格式保存到/mnt/projects/04m27/work1

我們把整個系統中“最考驗宏觀把控”的規劃活兒，直接讓“唐僧 Agent ”來負責。

它的任務是圍繞“面向垂直領域LLM的因果追溯輕量化蒸餾”設計一份 2 年期的研究路線圖。一般很容易寫出一堆正確的廢話，且極難把控資源分配與具體任務拆解，看看“唐僧 Agent ”在 M2.7模型下是怎么完成工作流的：

1.先拉齊，再指點

未盲目輸出長篇大論，第一步先檢查工作目錄與記憶——確認歷史背景、理清上下文后，才正式動筆規劃。

2.反套話，精準量化

? 階段拆解：24 個月克制切分為四階段（M1-6 基礎建設、M7-12 核心算法、M13-18 系統集成、M19-24 評估驗證），錨定 3 個子課題與 ACL/NeurIPS 對口頂會

? 資源排盤：明確給出"8-12 卡 A100 40G"算力、"4-5 人"團隊、醫療/法律/金融領域數據規模的硬核預算；

3.原生協作，精準交棒

最有意思的是，在保存完完整的 md 路線圖文檔和運行記錄后，它并沒有就此待機，而是在末尾主動向系統發起協作調度：“下一步建議：可讓孫悟空（實驗執行）基于路線圖的階段 1 目標，著手準備因果干預庫構建和基線蒸餾環境”——直接向下游派活。

結論：從前置拉取記憶、量化拆解排盤，到最后主動向下游的“孫悟空”分派具體任務。唐僧 Agent 完美展示了什么是真正的“團隊大腦”。M2.7正在用人類項目負責人的邏輯，嚴絲合縫地驅動著整個智能體協作系統的齒輪。

?case2孫悟空：

代碼塊

悟空，我想基于openclaw實現一個具有5個agent的multi-agent一人智能科技公司（產品、技術、運營、市場與營銷和職能部門）。按我的理解，現在openclaw的源碼不支持自定義web ui頁面的連接，請你閱讀openclaw源碼，找到對應的部分，看看如何自定義鏈接模塊。最終達到的效果是：

1.后臺部署openclaw，使用openclaw gateway啟動5個agent服務（5個agent將在~/.openclaw/openclaw.json中定義，以及每個agent的workspace路徑、agent路徑和model信息都會在.openclaw文件夾定義好）；

2.核心難點是需要你使用vue3構建一個5個agent可以獨立交互的ui網頁，每個agent在ui上都有一個獨立的交互窗口，用戶可以在每個窗口中輸入指令，agent會根據指令執行任務并返回結果；

3.還有一個"創客空間"，我可以同時和5個agent交互，分配工作給他們；

4.網頁的agent能夠和openclaw gateway進行連通，每個agent的輸入輸出都通過gateway進行傳遞，gateway將結果返回給對應的agent（如何配置鏈接？）；

5.最終，用戶可以在網頁上看到每個agent的執行結果，并可以自由地切換agent進行交互。

6.為了在openclaw.json中配置這5個multi-agent，請你給我一份完整的配置文件：/mnt/projects/04m27/work2/ma_project/openclaw.json。

7.請將完整的項目寫入 /mnt/projects/04m27/work2/ma_project。

8.你還可以參考官方文檔：https://docs.openclaw.ai。

9.你開始做了以后，先和我討論細節，確定好了以后逐步完成就行。

孫悟空 Agent 是負責整個系統中“最硬核燒腦”的開發工作，它的任務是基于 OpenClaw 框架，從零搭建一個包含 5 個 Agent 的專屬“一人公司交互系統”。

這里的坑在于極高的工程復雜度與邏輯嵌套：它不僅要閱讀源碼搞懂自定義鏈接模塊，要用 Vue3 寫前端、搞定 WebSocket 連接，還要配置復雜的 openclaw.json 文件。

傳統大模型面對這種涉及幾十個跨文件調用的項目，往往寫兩段代碼就上下文錯亂了。

但是孫悟空 Agent 展現出非常地道的“架構師”工作流：

1.先對齊，再動手

未急著莽代碼，而是先研讀文檔輸出“OpenClaw 架構分析”；面對人類 5 個補充條件的長指令，反手梳理出條理清晰的“確認需求”清單，確保大方向不跑偏。

2.精準提取邊界

從口語化指令中翻譯出系統級核心需求：“禁用設備認證”，“每個 agent 獨立 session""新增秘書 agent 廣播消息”。

3.結構化推進

嚴格遵循軟件工程規范，先創建項目目錄結構，再穩扎穩打構建各 agent 的 workspace 文件，拒接胡亂吐代碼片段。

結論：從源碼架構分析，到需求邊界確認，再到項目樹按部就班落地，M2.7 脫離"單文件輔助"范疇，用人類資深研發邏輯穩健交付龐大系統工程。

?case3（豬八戒）：

代碼塊

八戒，請你以“面向垂直領域LLM的因果追溯輕量化蒸餾研究”為題，撰寫一篇適合 NeurIPS 投稿風格的論文。

1.要求更緊湊、減少口語化表達、突出研究 gap，長度控制在原文 80%。

2.使用 NeurIPS 投稿模板。

3.所有文件保存到 /mnt/projects/04m27/work3/paper

面對 NeurIPS 投稿風格的論文撰寫，豬八戒 Agent 展現出資深學術搬磚人的嚴謹：

1.動筆前先執行目錄檢查："我來先檢查一下工作目錄和是否有相關參考文件"，明確寫論文不能憑空生成，必須先摸清環境資源。

2.兩個關鍵細節

? 懂工程結構：未用 Markdown 敷衍，直接原生創建完整 LaTeX 編譯包，含 11KB 主論文 main.tex、neurips_2025.sty 樣式表、references.bib 參考文獻文件，甚至附帶 README.md 說明文檔。學術交付物是完整工程，而非聊天對話

? 懂學術黑話：精準命中頂會論文骨架，Introduction 明確揭示"通用蒸餾忽視因果結構的 research gap"；Experiments 規劃醫療/法律/金融三領域測試，給出"準確率 82.1%，延遲降低 8.7 倍"量化預期；甚至安排好了消融實驗（因果路徑貢獻最大 5.7%）

3.閉環交付

文件絲滑存入指定路徑 /mnt/projects/04m27/work3/paper，并附完整 xelatex 與 bibtex 終端編譯命令。

結論：從前置目錄探查，到 LaTeX 工程包構建，再到學術 Gap 精準提煉與編譯指令交付，M2.7 用人類科研邏輯把寫論文這件事"辦完"，脫離了"文本潤色生成器"的范疇。

?case4（沙僧）：

代碼塊

沙僧，我的研究課題是：面向垂直領域LLM的因果追溯輕量化蒸餾研究，請幫我調研最近兩年在相關方向的研究內容。

1.請從最新的會議錄用情況，尤其關注NeurIPS、ICML、ACL、AAAI、EMNLP等相關會議和學術期刊

2.只調研最近兩年的論文情況，我需要你列出每篇論文的標題、發表會議、總結和原文鏈接

3.請從工程項目角度幫我調研相關的開源代碼

4.最后，請分別從論文錄用和開源代碼角度，將你找到的每個內容與我的研究相關度排序，并總結我可以借鑒的內容

5.最后，請你將調研結果寫入飛書文檔，并且將飛書鏈接發送給我

對于“面向垂直領域LLM的因果追溯輕量化蒸餾”這一晦澀課題，沙僧 Agent 的實測表現：

1.遇錯不崩，自主換路

Brave Search 突發報錯時，未停機罷工，而是后臺自發切換備選策略：“換用直接網頁抓取方式調研”；在人類提示更換 multi search engine 后，無縫接力完成調研。

2.兩個關鍵細節

? 去水存干：精準歸納 9 篇高相關頂會論文（含 ICLR 2026、AAAI-25 前沿工作）及 3 個核心開源庫（TransformerLens、Pyvene 等），拒絕粗糙鏈接堆砌，輸出結構化知識

? 業務借鑒：不按時間記流水賬，主動按“可借鑒程度”排位，直接提煉出"因果追溯定位關鍵電路 → 知識蒸餾到小模型"的實操工程路徑

3.閉環交付：

調用 API 生成排版完整的飛書文檔，附訪問鏈接，并以導師口吻附贈行動指南："建議下一步精讀 ACE 論文，這是目前最直接相關的工作"。

結論：從工具失效時的自主決策，到工程思路的精準提煉，再到跨平臺端到端交付——M2.7 完成了從信息檢索到科研指導的全鏈路閉環，用人類科研邏輯把一件事情"辦完"。

?case5（白龍馬）：

代碼塊

白龍馬，我正在分析珠江水文數據，文件是 /mnt/projects/04m27/work5/ma_project/zhujiang_hydrology_data.csv。

我看了一眼，發現數據中存在部分異常，請你先查看數據，告訴我有哪些數據異常類型，然后對這些錯誤數據進行清晰，告訴我每種類型的數據你準備如何清洗，最后給出清洗后的csv文件，并撰寫數據清洗報告。

全部文件保存到文件夾/mnt/projects/04m27/work5/ma_project

我們把“最臟最累”的活，直接丟給負責數據工程的“白龍馬 Agent ”。

面對一份"五毒俱全"的珠江水文 CSV 數據（含無效日期、特殊符號、89.2℃ 水溫、負數鹽度等），M2.7 展現出資深數據工程師的工作流：

1.先診斷，后動手

調用工具完成數據"全身體檢"，精準識別 8 大類異常，而非直接莽代碼。

2.兩個關鍵細節

? 懂防御：越界異常值不刪不填，標記待人工復核，明確人機分工邊界

? 留后路：標準化時保留"原始_觀測時間""原始_水質類別"兩列，臟數據原檔可追溯

3.交付結果：

10008 條（一條不落下）干凈 CSV + Markdown 清洗報告，附異常說明與處理記錄。

結論：大模型開始用職場邏輯"辦完"一件事，不只是跑通代碼，而是交付可審計、可回溯、帶說明書的完整成果。

從 “工具” 到 “代理” 的跨越

完整跑完五組測試后，一個變化很清晰：模型的角色，正在從“被調用工具”，轉向“參與任務的執行者”。

直觀的差異在于，大模型不再急于給出答案。在應對多個復雜任務時，M2.7 展現出一種“先處理再生成”的節奏。它會先拆解問題、明確約束條件，按需調用開源技能庫（Skills），然后再進入實際執行。

任務的推進方式也隨之發生改變。相比于試圖一次性生成最終結果，模型現在更傾向于通過中間不斷修正，來執行路徑，進而逐步收斂。

這種機制在速度上未必占優，但更符合真實工作場景——不再靠算力“盲猜”答案，而是靠看日志查 Bug、代碼重構等工程化去找到最優解。

在測試過程中，系統內部展現出了真正的原生協作智能。

例如在科研規劃任務中，“唐僧”在輸出完整的路線圖后，并沒有就此待機，而是主動在文末拋出建議：“可讓孫悟空基于階段 1 目標，著手準備因果干預庫構建和基線環境。”這完成了一次自然的上層語境交棒。

而在更復雜的學術寫作任務中，這種協作演變成了一張多向流轉的網絡：“沙僧”檢索提煉的文獻、“孫悟空”跑通的實驗細節，以及“白龍馬”清洗好的結構化數據，都能跨越角色邊界，被主動匯聚并交付給“豬八戒”用于最終的論文定稿。不同 Agent 各司其職又互為支撐，有效緩解了以往多智能體系統中數據流轉混亂、上下文割裂的痛點。

當然，這些新涌現的能力仍舊有不穩定性。在執行長鏈路的任務中，執行路徑的偶爾偏移，以及模型試圖將錯誤結果強行合理化的問題依然存在，尚且還達不到一個完美的執行系統。

比如測試案例：例如孫悟空 Agent 在執行“一人智能科技公司”開發任務中，由于任務量大、工作細節多，孫悟空 Agent 一度因為過度“勞累”陷入“昏迷”，直到用戶詢問他“怎么樣了？”孫悟空 Agent 才再次滿血復活。

但更關鍵的轉折是：模型開始具備圍繞既定目標持續調度任務的能力。這并非毫無根據的躍升，M2.7 近期在 Kaggle MLE Lite 高難度競賽中斬獲 9 金 5 銀 1 銅（得牌率 66.6%）的頂尖戰績，已經從側面印證了這種工程能力的突破。

更重要的是，這種突破并不來自單點模型參數的能力增強，而是來自“內部 Agent Harness（開發框架） + 自我反饋”的機制組合。

當一個大模型能夠記錄自己的執行軌跡、評估中間結果，并像人類開發者一樣自主調整下一步策略時，行業的新分水嶺已然劃下：大模型正在從外掛式的“輔助工具”，平穩過渡為真正“可協作的執行主體”。

結語

如果說過去的大模型，更像一個提升能力的“工具”，那么像 MiniMax M2.7 這樣的模型，開始呈現出全新趨勢：它不只是被使用，而是開始參與自身能力的構建過程。

“自我進化”也不再是一個科幻概念，在 MiniMax M2.7 的后臺日志里，它被具象為 100 輪無需人工干預的自動化迭代，自主跑通“分析失敗→規劃修改→敲代碼→運行比對”的百輪試錯流程，模型擁有了“記筆記、反思、自己動手改”的能力，實質性地成為了研發團隊里最不知疲倦的“員工” 。

這也意味著，大模型的演進，正在從“人訓練模型”，走向“模型參與訓練模型”的新階段。

過去，AI 的迭代受限于工程師的精力極限；而現在，當 M2 系列模型已經可以充當“系統架構師”去打造下一代 AI 時，一個由 AI 主導自身演進的周期已然到來。

從這一刻起，AI 不再只是輔助工具，而開始在任務中不斷調整和進化自身。

未來的科技企業，或許只需要少數人類把控戰略方向，剩下的開發、試錯與協作閉環，都將交由像 M2.7 這樣能夠“自我進化”的模型群組來完成。

測試的最后，我們讓系統根據左側導航欄，M2.7 直接構建了一個標準科技公司的完整編制：包含產品部（需求分析）、技術部（代碼架構）、運營部（數據策略）、市場部（品牌推廣）以及行政部（財務合規）

這意味著，未來最極致的敏捷團隊，可能就是一個懂行的人類，帶著一套 M2.7 驅動的 AI 班底，開一家高效運轉的“一人公司”。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.