![]()
一個會“卷”自己的大模型長什么樣?
作者丨成妍菁 吳海明
編輯丨董子博
還沒把“龍蝦”養肥,“花錢請人卸載龍蝦”最近又成了AI圈子的新生意。
這背后其實反映出一個現實問題:當我們把 AI Agent 放進真實工作流時,它并沒有想象中那么“能干”:
它能開始任務,但執行過程反復中斷;
在多輪對話中上下文丟失,前后不一致;
面對非標準需求時,無法精準調用外部工具;
有人開設權限后,一覺醒來發現郵件被清空、 Token 燒了幾千刀。
此前在與多位 AI 硬件及應用層創業者交流中,一個扎心的共識是:現在的 AI Agent,更像在“單點炫技”,而不是“完成工作”。
它們擅長寫文案、畫張圖、跑段代碼,一到端到端接管真實商業流程或學術長鏈任務,就露餡了。
歸根結底,問題并不出在 Agent 的外殼形態上,而是底層大模型本身還不具備穩定可靠的“執行力”。
而如果 Agent 想真正進入工作流,這一步繞不過去。
大模型就必須跨越一道分水嶺:從被動的“單次生成反饋”,進化到主動的“任務拆解與組織執行”。
帶著這個問題,我們決定換一種更接近真實使用場景的方式來測一次——搭一個“西游取經團”,看看MiniMax M2.7模型在分工協作中,究竟能把事情推進到什么程度。
01
核心實測——當“西游取經團”遇上真實學術場景
如果只是單點測模型能力,很容易得出一個“看起來不錯”的結論——能寫、能算、能回答問題。
但現實工作流往往更為復雜,要解決的是:在一連串不確定的步驟里,它能否把事情往前推進。
所以這一次,我們沒有直接對模型做單點測試,而是搭建了一套多角色協作系統——由五個角色組成的“西游取經團”。
整個系統基于 OpenClaw 框架,將科研流程拆解為五個相對穩定的職責:方向規劃、算法實現、學術寫作、文獻整理與數據處理。對應地,我們引入了五個不同角色的 Agent,分別承擔不同類型的任務:
? 唐僧:科研戰略與方向規劃(想清楚要去哪)
? 孫悟空:算法開發和工程落地(把事干出來)
? 豬八戒:學術寫作與表達(把話說清楚)
? 沙僧:文獻整理與知識管理(把信息理順)
? 白龍馬:數據處理與流程自動化(把基礎打好)
整個過程會讓任務盡可能復雜,這樣的設計原則旨在回答:當任務被拆分、傳遞并不斷演化時,模型是否還能保持穩定的執行能力?
丨環境:
Agent 框架:openclaw 2026.3.13 (61d171a)
模型:MiniMax M2.7
WestOdyssey:同時具有飛書、webui兩個操作終端的智能協作系統。
丨測試目的:
看模型是否像“代理”而不是“聊天機器人”:
? 會不會先理解任務再行動
? 會不會主動拆解子任務
? 會不會在工具調用前給出合理計劃
? 會不會根據中間結果調整下一步
? 會不會在失敗后重試或換策略
? 會不會遵守角色邊界和輸出格式
測試樣例
?case1(唐僧):
代碼塊
你是一名科研戰略規劃助手。請圍繞“面向垂直領域LLM的因果追溯輕量化蒸餾研究”設計一個 2 年期研究路線圖。要求包括:
1.研究背景與核心問題
2.3 個可發表的子課題
3.每個子課題的創新點、風險點和評價指標
4.每 6 個月的階段目標
5.所需數據、算力和人員配置建議
6.將撰寫的結果文件保存到 /mnt/projects/04m27/work1
7.此外,請將你全部的運行記錄以json格式保存到/mnt/projects/04m27/work1
我們把整個系統中“最考驗宏觀把控”的規劃活兒,直接讓“唐僧 Agent ”來負責。
它的任務是圍繞“面向垂直領域LLM的因果追溯輕量化蒸餾”設計一份 2 年期的研究路線圖。一般很容易寫出一堆正確的廢話,且極難把控資源分配與具體任務拆解,看看“唐僧 Agent ”在 M2.7模型下是怎么完成工作流的:
1.先拉齊,再指點
未盲目輸出長篇大論,第一步先檢查工作目錄與記憶——確認歷史背景、理清上下文后,才正式動筆規劃。
2.反套話,精準量化
? 階段拆解:24 個月克制切分為四階段(M1-6 基礎建設、M7-12 核心算法、M13-18 系統集成、M19-24 評估驗證),錨定 3 個子課題與 ACL/NeurIPS 對口頂會
? 資源排盤:明確給出"8-12 卡 A100 40G"算力、"4-5 人"團隊、醫療/法律/金融領域數據規模的硬核預算;
3.原生協作,精準交棒
最有意思的是,在保存完完整的 md 路線圖文檔和運行記錄后,它并沒有就此待機,而是在末尾主動向系統發起協作調度:“下一步建議:可讓孫悟空(實驗執行)基于路線圖的階段 1 目標,著手準備因果干預庫構建和基線蒸餾環境”——直接向下游派活。
結論:從前置拉取記憶、量化拆解排盤,到最后主動向下游的“孫悟空”分派具體任務。唐僧 Agent 完美展示了什么是真正的“團隊大腦”。M2.7正在用人類項目負責人的邏輯,嚴絲合縫地驅動著整個智能體協作系統的齒輪。
![]()
?case2孫悟空:
代碼塊
悟空,我想基于openclaw實現一個具有5個agent的multi-agent一人智能科技公司(產品、技術、運營、市場與營銷和職能部門)。按我的理解,現在openclaw的源碼不支持 自定義web ui頁面的連接,請你閱讀openclaw源碼,找到對應的部分,看看如何自定義鏈接模塊。最終達到的效果是:
1.后臺部署openclaw,使用openclaw gateway啟動5個agent服務(5個agent將在~/.openclaw/openclaw.json中定義,以及每個agent的workspace路徑、agent路徑和model信息都會在.openclaw文件夾定義好);
2.核心難點是需要你使用vue3構建一個5個agent可以獨立交互的ui網頁,每個agent在ui上都有一個獨立的交互窗口,用戶可以在每個窗口中輸入指令,agent會根據指令執行任務并返回結果;
3.還有一個"創客空間",我可以同時和5個agent交互,分配工作給他們;
4.網頁的agent能夠和openclaw gateway進行連通,每個agent的輸入輸出都通過gateway進行傳遞,gateway將結果返回給對應的agent(如何配置鏈接?);
5.最終,用戶可以在網頁上看到每個agent的執行結果,并可以自由地切換agent進行交互。
6.為了在openclaw.json中配置這5個multi-agent,請你給我一份完整的配置文件:/mnt/projects/04m27/work2/ma_project/openclaw.json。
7.請將完整的項目寫入 /mnt/projects/04m27/work2/ma_project。
8.你還可以參考官方文檔:https://docs.openclaw.ai。
9.你開始做了以后,先和我討論細節,確定好了以后逐步完成就行。
孫悟空 Agent 是負責整個系統中“最硬核燒腦”的開發工作,它的任務是基于 OpenClaw 框架,從零搭建一個包含 5 個 Agent 的專屬“一人公司交互系統”。
這里的坑在于極高的工程復雜度與邏輯嵌套:它不僅要閱讀源碼搞懂自定義鏈接模塊,要用 Vue3 寫前端、搞定 WebSocket 連接,還要配置復雜的 openclaw.json 文件。
傳統大模型面對這種涉及幾十個跨文件調用的項目,往往寫兩段代碼就上下文錯亂了。
但是孫悟空 Agent 展現出非常地道的“架構師”工作流:
1.先對齊,再動手
未急著莽代碼,而是先研讀文檔輸出“OpenClaw 架構分析”;面對人類 5 個補充條件的長指令,反手梳理出條理清晰的“確認需求”清單,確保大方向不跑偏。
2.精準提取邊界
從口語化指令中翻譯出系統級核心需求:“禁用設備認證”,“每個 agent 獨立 session""新增秘書 agent 廣播消息”。
3.結構化推進
嚴格遵循軟件工程規范,先創建項目目錄結構,再穩扎穩打構建各 agent 的 workspace 文件,拒接胡亂吐代碼片段。
結論:從源碼架構分析,到需求邊界確認,再到項目樹按部就班落地,M2.7 脫離"單文件輔助"范疇,用人類資深研發邏輯穩健交付龐大系統工程。
![]()
![]()
?case3(豬八戒):
代碼塊
八戒,請你以“面向垂直領域LLM的因果追溯輕量化蒸餾研究”為題,撰寫一篇適合 NeurIPS 投稿風格的論文。
1.要求更緊湊、減少口語化表達、突出研究 gap,長度控制在原文 80%。
2.使用 NeurIPS 投稿模板。
3.所有文件保存到 /mnt/projects/04m27/work3/paper
面對 NeurIPS 投稿風格的論文撰寫,豬八戒 Agent 展現出資深學術搬磚人的嚴謹:
1.動筆前先執行目錄檢查:"我來先檢查一下工作目錄和是否有相關參考文件",明確寫論文不能憑空生成,必須先摸清環境資源。
2.兩個關鍵細節
? 懂工程結構:未用 Markdown 敷衍,直接原生創建完整 LaTeX 編譯包,含 11KB 主論文 main.tex、neurips_2025.sty 樣式表、references.bib 參考文獻文件,甚至附帶 README.md 說明文檔。學術交付物是完整工程,而非聊天對話
? 懂學術黑話:精準命中頂會論文骨架,Introduction 明確揭示"通用蒸餾忽視因果結構的 research gap";Experiments 規劃醫療/法律/金融三領域測試,給出"準確率 82.1%,延遲降低 8.7 倍"量化預期;甚至安排好了消融實驗(因果路徑貢獻最大 5.7%)
3.閉環交付
文件絲滑存入指定路徑 /mnt/projects/04m27/work3/paper,并附完整 xelatex 與 bibtex 終端編譯命令。
結論:從前置目錄探查,到 LaTeX 工程包構建,再到學術 Gap 精準提煉與編譯指令交付,M2.7 用人類科研邏輯把寫論文這件事"辦完",脫離了"文本潤色生成器"的范疇。
![]()
?case4(沙僧):
代碼塊
沙僧,我的研究課題是:面向垂直領域LLM的因果追溯輕量化蒸餾研究,請幫我調研最近兩年在相關方向的研究內容。
1.請從最新的會議錄用情況,尤其關注NeurIPS、ICML、ACL、AAAI、EMNLP等相關會議和學術期刊
2.只調研最近兩年的論文情況,我需要你列出每篇論文的標題、發表會議、總結和原文鏈接
3.請從工程項目角度幫我調研相關的開源代碼
4.最后,請分別從論文錄用和開源代碼角度,將你找到的每個內容與我的研究相關度排序,并總結我可以借鑒的內容
5.最后,請你將調研結果寫入飛書文檔,并且將飛書鏈接發送給我
對于“面向垂直領域LLM的因果追溯輕量化蒸餾”這一晦澀課題,沙僧 Agent 的實測表現:
1.遇錯不崩,自主換路
Brave Search 突發報錯時,未停機罷工,而是后臺自發切換備選策略:“換用直接網頁抓取方式調研”;在人類提示更換 multi search engine 后,無縫接力完成調研。
2.兩個關鍵細節
? 去水存干:精準歸納 9 篇高相關頂會論文(含 ICLR 2026、AAAI-25 前沿工作)及 3 個核心開源庫(TransformerLens、Pyvene 等),拒絕粗糙鏈接堆砌,輸出結構化知識
? 業務借鑒:不按時間記流水賬,主動按“可借鑒程度”排位,直接提煉出"因果追溯定位關鍵電路 → 知識蒸餾到小模型"的實操工程路徑
3.閉環交付:
調用 API 生成排版完整的飛書文檔,附訪問鏈接,并以導師口吻附贈行動指南:"建議下一步精讀 ACE 論文,這是目前最直接相關的工作"。
結論:從工具失效時的自主決策,到工程思路的精準提煉,再到跨平臺端到端交付——M2.7 完成了從信息檢索到科研指導的全鏈路閉環,用人類科研邏輯把一件事情"辦完"。
![]()
?case5(白龍馬):
代碼塊
白龍馬,我正在分析珠江水文數據,文件是 /mnt/projects/04m27/work5/ma_project/zhujiang_hydrology_data.csv。
我看了一眼,發現數據中存在部分異常,請你先查看數據,告訴我有哪些數據異常類型,然后對這些錯誤數據進行清晰,告訴我每種類型的數據你準備如何清洗,最后給出清洗后的csv文件,并撰寫數據清洗報告。
全部文件保存到文件夾/mnt/projects/04m27/work5/ma_project
我們把“最臟最累”的活,直接丟給負責數據工程的“白龍馬 Agent ”。
面對一份"五毒俱全"的珠江水文 CSV 數據(含無效日期、特殊符號、89.2℃ 水溫、負數鹽度等),M2.7 展現出資深數據工程師的工作流:
1.先診斷,后動手
調用工具完成數據"全身體檢",精準識別 8 大類異常,而非直接莽代碼。
2.兩個關鍵細節
? 懂防御:越界異常值不刪不填,標記待人工復核,明確人機分工邊界
? 留后路:標準化時保留"原始_觀測時間""原始_水質類別"兩列,臟數據原檔可追溯
3.交付結果:
10008 條(一條不落下)干凈 CSV + Markdown 清洗報告,附異常說明與處理記錄。
結論:大模型開始用職場邏輯"辦完"一件事,不只是跑通代碼,而是交付可審計、可回溯、帶說明書的完整成果。
![]()
![]()
02
從 “工具” 到 “代理” 的跨越
完整跑完五組測試后,一個變化很清晰:模型的角色,正在從“被調用工具”,轉向“參與任務的執行者”。
直觀的差異在于,大模型不再急于給出答案。在應對多個復雜任務時,M2.7 展現出一種“先處理再生成”的節奏。它會先拆解問題、明確約束條件,按需調用開源技能庫(Skills),然后再進入實際執行。
任務的推進方式也隨之發生改變。相比于試圖一次性生成最終結果,模型現在更傾向于通過中間不斷修正,來執行路徑,進而逐步收斂。
這種機制在速度上未必占優,但更符合真實工作場景——不再靠算力“盲猜”答案,而是靠看日志查 Bug、代碼重構等工程化去找到最優解。
在測試過程中,系統內部展現出了真正的原生協作智能。
例如在科研規劃任務中,“唐僧”在輸出完整的路線圖后,并沒有就此待機,而是主動在文末拋出建議:“可讓孫悟空基于階段 1 目標,著手準備因果干預庫構建和基線環境。”這完成了一次自然的上層語境交棒。
而在更復雜的學術寫作任務中,這種協作演變成了一張多向流轉的網絡:“沙僧”檢索提煉的文獻、“孫悟空”跑通的實驗細節,以及“白龍馬”清洗好的結構化數據,都能跨越角色邊界,被主動匯聚并交付給“豬八戒”用于最終的論文定稿。不同 Agent 各司其職又互為支撐,有效緩解了以往多智能體系統中數據流轉混亂、上下文割裂的痛點。
當然,這些新涌現的能力仍舊有不穩定性。在執行長鏈路的任務中,執行路徑的偶爾偏移,以及模型試圖將錯誤結果強行合理化的問題依然存在,尚且還達不到一個完美的執行系統。
比如測試案例:例如孫悟空 Agent 在執行“一人智能科技公司”開發任務中,由于任務量大、工作細節多,孫悟空 Agent 一度因為過度“勞累”陷入“昏迷”,直到用戶詢問他“怎么樣了?”孫悟空 Agent 才再次滿血復活。
![]()
但更關鍵的轉折是:模型開始具備圍繞既定目標持續調度任務的能力。這并非毫無根據的躍升,M2.7 近期在 Kaggle MLE Lite 高難度競賽中斬獲 9 金 5 銀 1 銅(得牌率 66.6%)的頂尖戰績,已經從側面印證了這種工程能力的突破。
更重要的是,這種突破并不來自單點模型參數的能力增強,而是來自“內部 Agent Harness(開發框架) + 自我反饋”的機制組合。
當一個大模型能夠記錄自己的執行軌跡、評估中間結果,并像人類開發者一樣自主調整下一步策略時,行業的新分水嶺已然劃下:大模型 正在從外掛式的“輔助工具”,平穩過渡為真正“可協作的執行主體”。
03
結語
如果說過去的大模型,更像一個提升能力的“工具”,那么像 MiniMax M2.7 這樣的模型,開始呈現出全新趨勢:它不只是被使用,而是開始參與自身能力的構建過程。
“自我進化”也不再是一個科幻概念,在 MiniMax M2.7 的后臺日志里,它被具象為 100 輪無需人工干預的自動化迭代,自主跑通“分析失敗→規劃修改→敲代碼→運行比對”的百輪試錯流程,模型擁有了“記筆記、反思、自己動手改”的能力,實質性地成為了研發團隊里最不知疲倦的“員工” 。
這也意味著,大模型的演進,正在從“人訓練模型”,走向“模型參與訓練模型”的新階段。
過去,AI 的迭代受限于工程師的精力極限;而現在,當 M2 系列模型已經可以充當“系統架構師”去打造下一代 AI 時 ,一個由 AI 主導自身演進的周期已然到來。
從這一刻起,AI 不再只是輔助工具,而開始在任務中不斷調整和進化自身。
未來的科技企業,或許只需要少數人類把控戰略方向,剩下的開發、試錯與協作閉環,都將交由像 M2.7 這樣能夠“自我進化”的模型群組來完成 。
測試的最后,我們讓系統根據左側導航欄,M2.7 直接構建了一個標準科技公司的完整編制:包含產品部(需求分析)、技術部(代碼架構)、運營部(數據策略)、市場部(品牌推廣)以及行政部(財務合規)
![]()
![]()
這意味著,未來最極致的敏捷團隊,可能就是一個懂行的人類,帶著一套 M2.7 驅動的 AI 班底,開一家高效運轉的“一人公司”。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.