網易首頁 > 網易號 > 正文申請入駐

告別昂貴賬單，Token直降68%，多智能體動態協作編程來了

2026-04-07 13:16:40　來源: 機器之心Pro

河北舉報

分享至

本文的主要作者來自上海交通大學自動化與感知學院 i-WiN 中心團隊，團隊負責人是上海交通大學講席教授關新平。本文的通訊作者為 i-WiN 中心陳彩蓮教授和關新平教授，指導老師還包括中心的許齊敏副研究員、徐磊和張延洲助理研究員。本文的第一作者為上海交通大學博士生王思宇，研究方向涉及多模態大模型、CAD 生成、多智能體、Agentic RL 等。

在當下 Vibe Coding 火熱的背景下，軟件開發正迅速從 “人寫代碼” 轉向 “人指揮智能體寫代碼”。以 Claude Code、OpenClaw 為代表的系統，讓智能體能夠自主完成編碼、調試乃至完整任務流程。然而，面對系統級開發或競賽級算法等復雜問題，單一模型的能力邊界依然明顯，多智能體協作逐漸成為主流范式

但現有方法大多仍停留在兩種典型路徑。一類如 Claude Code 的Agent Teams，通過并行調用多個模型來提升能力上限，但也帶來了極高的 Token 成本；另一類則以當下熱門的 OpenClaw 為代表，通過技能組合與流程編排實現多智能體管理，在工程上更可控。

然而，這類方法的協作結構大多仍依賴預定義規則或靜態流程，本質上解決的是 “如何組織調用”，而非 “如何根據任務動態調整協作方式”。這就像不論修自行車還是造火箭，都派同一個十人專家組開三天會，導致智能體冗余通訊與大量的 Token 消耗，最終給用戶帶來了極高的自主編程成本

上海交通大學 i-WiN 團隊最新提出多智能體框架AgentConductor，通過引入一個經過強化學習訓練后的3B 參數指揮智能體，從根本上解決了這個問題。它會先評估任務難度，并生成一張以 YAML 表示的交互拓撲圖：簡單任務使用輕量團隊，復雜任務則使用更復雜的交互圖，實現能力與成本的自適應匹配。

圖 1.(a) 拓撲結構的 YAML 表示與實際圖結構的映射；(b) AgentConductor 拓撲生成與演化過程展示

更關鍵的是，AgentConductor 并非一次性規劃：當生成代碼運行失敗時，指揮智能體會根據環境反饋的錯誤信息，結合記憶中的歷史軌跡，對拓撲進行端到端重新生成，從而探索新的協作形式。實驗結果表明，該方法在顯著提升編碼準確率（+14.6%）的同時，將 Token 成本降低了 68%。這說明真正高效的 AI 編程團隊需要的是一種面向任務、可隨執行反饋動態演化的協作結構，而非僵化的一刀切工作流。相關論文已經公開，代碼將于近期開源。

論文名稱：AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation
論文鏈接：https://arxiv.org/abs/2602.17100

社區影響力

圖 2 展示了 AgentConductor 工作在國際 AI 社區 (X, 前身 Twitter) 引發的廣泛關注與認可。這項工作被知名 AI 分享博主 DAIR.AI 當日置頂宣傳并評為 2026 年 2 月 23 日–3 月 1 日 Top AI Papers，并獲得新銳 AI 科技博主 Rohan Paul 對 i-WiN 團隊和論文的高度評價。

圖 2.AgentConductor 得到 DAIR.AI 與 Rohan Paul 等賬號推薦

核心特色與方法介紹

1. 基于 YAML 的新型多智能體交互圖結構

相比傳統多智能體拓撲，我們在表示形式與交互機制兩個層面進行了設計與優化。

1.1 表示形式

傳統方法多采用連接矩陣等數學形式來描述交互圖，不僅可讀性差，也難以直接編輯與校驗，更無法由大模型端到端生成；近期工作嘗試使用自然語言描述，但存在拓撲不嚴格、難以結構化約束等問題。我們使用 YAML 結構化表示交互圖 (圖 1 (a))，使其既具備可讀性，又支持程序化校驗與約束，并可由 LLM 直接生成。這種形式在設計上與當前流行的Skill 配置文件具有一致性，便于理解與落地。

圖 3. 本文交互拓撲結構與傳統方法的對比

1.2 交互形式

如圖 3 所示，傳統鏈式、樹狀拓撲分別限制并行性、通信范圍或連接靈活性，而全連接結構又過于復雜。我們融合多種拓撲優勢，支持層內并行和跨層通訊且每個智能體可任意鏈接之前的歷史節點，在提升表達能力的同時避免不必要的通信開銷

2. 訓練范式

2.1 SFT + GRPO 的兩階段訓練范式

AgentConductor 采用兩階段訓練策略，只訓練一個指揮智能體：

監督微調（SFT）：基于 GPT-4o 生成的 4,500 個高質量拓撲樣本（覆蓋三檔難度），賦予基礎模型拓撲先驗；

基于 GRPO 的多輪端到端 Agentic 強化學習訓練：將環境反饋的代碼報錯和多輪的拓撲文本一起作為軌跡 (Trajectory) 來用于智能體的強化學習訓練，基于 GRPO 算法優化模型的拓撲生成策略以最大化復合獎勵，最終實現低 Token 成本的高質量代碼生成。

圖 4. AgentConductor 的總體框架

2.2 拓撲密度評估函數

為實現任務自適應，我們將問題分成三檔難度，并根據從 Token 成本到拓撲密度的形式化映射，提出了拓撲密度評估函數并作為獎勵函數一部分。綜合刻畫節點數、邊密度與圖深度對通信成本的影響。

我們在論文中證明，多智能體系統的平均通信成本可形式化為：

其中 d 為圖深度， m 為提示詞最大長度。相比之下，傳統方法大多簡單的通過矩陣的秩來衡量交互密度，丟失了多智能體交互的數學含義

實驗結果展示

我們在三個競賽級（APPS, LiveCodeBench, CodeContests）與兩個基礎代碼數據集（HumanEval, MBPP）上評估 AgentConductor（基于 Qwen-2.5-3B-Instruct）：

表 1. AgentConductor 的 pass@1 準確率對比

表 2. AgentConductor 在性能、成本及平均拓撲密度方面的比較結果

表 1 說明，AgentConductor 以僅 3B 參數量，在 APPS 上顯著超越最強基線，同時減少了最多 68% 的 completion token 消耗，并實現最高拓撲稀疏度。更重要的是，系統展現出細粒度難度適配能力：在 easy 任務上使用極簡拓撲（平均 3–4 節點），在 hard 任務上自動擴展至 8–10 節點，而多數基線無論難度均維持固定密度。（* 更多結果詳見論文）

結語：多智能體系統正在學會組織自己

過去，多智能體系統常被視為“堆人力”的暴力解法：越多AI越好。但AgentConductor 證明，智能協作的關鍵不在于數量，更在于結構的適應性。它標志著多智能體研究從“靜態工作流”邁向“動態生態系統”。 AgentConductor 不僅是一項工程優化，更代表了一種新范式：將多智能體協作視為可學習、可演化的結構化決策過程。通過將任務難度、執行反饋與通信成本統一納入強化學習框架，我們實現了準確率與效率的協同提升。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.