![]()
本文的主要作者來自上海交通大學自動化與感知學院 i-WiN 中心團隊,團隊負責人是上海交通大學講席教授關新平。本文的通訊作者為 i-WiN 中心陳彩蓮教授和關新平教授,指導老師還包括中心的許齊敏副研究員、徐磊和張延洲助理研究員。本文的第一作者為上海交通大學博士生王思宇,研究方向涉及多模態大模型、CAD 生成、多智能體、Agentic RL 等。
在當下 Vibe Coding 火熱的背景下,軟件開發正迅速從 “人寫代碼” 轉向 “人指揮智能體寫代碼”。以 Claude Code、OpenClaw 為代表的系統,讓智能體能夠自主完成編碼、調試乃至完整任務流程。然而,面對系統級開發或競賽級算法等復雜問題,單一模型的能力邊界依然明顯,多智能體協作逐漸成為主流范式
但現有方法大多仍停留在兩種典型路徑。一類如 Claude Code 的Agent Teams,通過并行調用多個模型來提升能力上限,但也帶來了極高的 Token 成本;另一類則以當下熱門的 OpenClaw 為代表,通過技能組合與流程編排實現多智能體管理,在工程上更可控。
然而,這類方法的協作結構大多仍依賴預定義規則或靜態流程,本質上解決的是 “如何組織調用”,而非 “如何根據任務動態調整協作方式”。這就像不論修自行車還是造火箭,都派同一個十人專家組開三天會,導致智能體冗余通訊與大量的 Token 消耗,最終給用戶帶來了極高的自主編程成本
上海交通大學 i-WiN 團隊最新提出多智能體框架AgentConductor,通過引入一個經過強化學習訓練后的3B 參數指揮智能體,從根本上解決了這個問題。它會先評估任務難度,并生成一張以 YAML 表示的交互拓撲圖:簡單任務使用輕量團隊,復雜任務則使用更復雜的交互圖,實現能力與成本的自適應匹配。
![]()
圖 1.(a) 拓撲結構的 YAML 表示與實際圖結構的映射;(b) AgentConductor 拓撲生成與演化過程展示
更關鍵的是,AgentConductor 并非一次性規劃:當生成代碼運行失敗時,指揮智能體會根據環境反饋的錯誤信息,結合記憶中的歷史軌跡,對拓撲進行端到端重新生成,從而探索新的協作形式。實驗結果表明,該方法在顯著提升編碼準確率(+14.6%)的同時,將 Token 成本降低了 68%。這說明真正高效的 AI 編程團隊需要的是一種面向任務、可隨執行反饋動態演化的協作結構,而非僵化的一刀切工作流。相關論文已經公開,代碼將于近期開源。
![]()
- 論文名稱:AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation
- 論文鏈接:https://arxiv.org/abs/2602.17100
社區影響力
圖 2 展示了 AgentConductor 工作在國際 AI 社區 (X, 前身 Twitter) 引發的廣泛關注與認可。這項工作被知名 AI 分享博主 DAIR.AI 當日置頂宣傳并評為 2026 年 2 月 23 日–3 月 1 日 Top AI Papers,并獲得新銳 AI 科技博主 Rohan Paul 對 i-WiN 團隊和論文的高度評價。
![]()
圖 2.AgentConductor 得到 DAIR.AI 與 Rohan Paul 等賬號推薦
核心特色與方法介紹
1. 基于 YAML 的新型多智能體交互圖結構
相比傳統多智能體拓撲,我們在表示形式與交互機制兩個層面進行了設計與優化。
1.1 表示形式
傳統方法多采用連接矩陣等數學形式來描述交互圖,不僅可讀性差,也難以直接編輯與校驗,更無法由大模型端到端生成;近期工作嘗試使用自然語言描述,但存在拓撲不嚴格、難以結構化約束等問題。我們使用 YAML 結構化表示交互圖 (圖 1 (a)),使其既具備可讀性,又支持程序化校驗與約束,并可由 LLM 直接生成。這種形式在設計上與當前流行的Skill 配置文件具有一致性,便于理解與落地。
![]()
圖 3. 本文交互拓撲結構與傳統方法的對比
1.2 交互形式
如圖 3 所示,傳統鏈式、樹狀拓撲分別限制并行性、通信范圍或連接靈活性,而全連接結構又過于復雜。我們融合多種拓撲優勢,支持層內并行和跨層通訊且每個智能體可任意鏈接之前的歷史節點,在提升表達能力的同時避免不必要的通信開銷
2. 訓練范式
2.1 SFT + GRPO 的兩階段訓練范式
AgentConductor 采用兩階段訓練策略,只訓練一個指揮智能體:
監督微調(SFT):基于 GPT-4o 生成的 4,500 個高質量拓撲樣本(覆蓋三檔難度),賦予基礎模型拓撲先驗;
基于 GRPO 的多輪端到端 Agentic 強化學習訓練:將環境反饋的代碼報錯和多輪的拓撲文本一起作為軌跡 (Trajectory) 來用于智能體的強化學習訓練,基于 GRPO 算法優化模型的拓撲生成策略以最大化復合獎勵,最終實現低 Token 成本的高質量代碼生成。
![]()
圖 4. AgentConductor 的總體框架
2.2 拓撲密度評估函數
為實現任務自適應,我們將問題分成三檔難度,并根據從 Token 成本到拓撲密度的形式化映射,提出了拓撲密度評估函數并作為獎勵函數一部分。綜合刻畫節點數、邊密度與圖深度對通信成本的影響。
我們在論文中證明,多智能體系統的平均通信成本可形式化為:
![]()
其中 d 為圖深度, m 為提示詞最大長度。相比之下,傳統方法大多簡單的通過矩陣的秩來衡量交互密度,丟失了多智能體交互的數學含義
實驗結果展示
我們在三個競賽級(APPS, LiveCodeBench, CodeContests)與兩個基礎代碼數據集(HumanEval, MBPP)上評估 AgentConductor(基于 Qwen-2.5-3B-Instruct):
![]()
表 1. AgentConductor 的 pass@1 準確率對比
![]()
表 2. AgentConductor 在性能、成本及平均拓撲密度方面的比較結果
表 1 說明,AgentConductor 以僅 3B 參數量,在 APPS 上顯著超越最強基線,同時減少了最多 68% 的 completion token 消耗,并實現最高拓撲稀疏度。更重要的是,系統展現出細粒度難度適配能力:在 easy 任務上使用極簡拓撲(平均 3–4 節點),在 hard 任務上自動擴展至 8–10 節點,而多數基線無論難度均維持固定密度。(* 更多結果詳見論文)
結語:多智能體系統正在學會組織自己
過去,多智能體系統常被視為“堆人力”的暴力解法:越多AI越好。但AgentConductor 證明,智能協作的關鍵不在于數量,更在于結構的適應性。它標志著多智能體研究從“靜態工作流”邁向“動態生態系統”。 AgentConductor 不僅是一項工程優化,更代表了一種新范式:將多智能體協作視為可學習、可演化的結構化決策過程。 通過將任務難度、執行反饋與通信成本統一納入強化學習框架,我們實現了準確率與效率的協同提升。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.