337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

告別昂貴賬單,Token直降68%,多智能體動態協作編程來了

0
分享至



本文的主要作者來自上海交通大學自動化與感知學院 i-WiN 中心團隊,團隊負責人是上海交通大學講席教授關新平。本文的通訊作者為 i-WiN 中心陳彩蓮教授和關新平教授,指導老師還包括中心的許齊敏副研究員、徐磊和張延洲助理研究員。本文的第一作者為上海交通大學博士生王思宇,研究方向涉及多模態大模型、CAD 生成、多智能體、Agentic RL 等。

在當下 Vibe Coding 火熱的背景下,軟件開發正迅速從 “人寫代碼” 轉向 “人指揮智能體寫代碼”。以 Claude Code、OpenClaw 為代表的系統,讓智能體能夠自主完成編碼、調試乃至完整任務流程。然而,面對系統級開發或競賽級算法等復雜問題,單一模型的能力邊界依然明顯,多智能體協作逐漸成為主流范式

但現有方法大多仍停留在兩種典型路徑。一類如 Claude Code 的Agent Teams,通過并行調用多個模型來提升能力上限,但也帶來了極高的 Token 成本;另一類則以當下熱門的 OpenClaw 為代表,通過技能組合與流程編排實現多智能體管理,在工程上更可控。

然而,這類方法的協作結構大多仍依賴預定義規則或靜態流程,本質上解決的是 “如何組織調用”,而非 “如何根據任務動態調整協作方式”。這就像不論修自行車還是造火箭,都派同一個十人專家組開三天會,導致智能體冗余通訊與大量的 Token 消耗,最終給用戶帶來了極高的自主編程成本

上海交通大學 i-WiN 團隊最新提出多智能體框架AgentConductor,通過引入一個經過強化學習訓練后的3B 參數指揮智能體,從根本上解決了這個問題。它會先評估任務難度,并生成一張以 YAML 表示的交互拓撲圖:簡單任務使用輕量團隊,復雜任務則使用更復雜的交互圖,實現能力與成本的自適應匹配。



圖 1.(a) 拓撲結構的 YAML 表示與實際圖結構的映射;(b) AgentConductor 拓撲生成與演化過程展示

更關鍵的是,AgentConductor 并非一次性規劃:當生成代碼運行失敗時,指揮智能體會根據環境反饋的錯誤信息,結合記憶中的歷史軌跡,對拓撲進行端到端重新生成,從而探索新的協作形式。實驗結果表明,該方法在顯著提升編碼準確率(+14.6%)的同時,將 Token 成本降低了 68%。這說明真正高效的 AI 編程團隊需要的是一種面向任務、可隨執行反饋動態演化的協作結構,而非僵化的一刀切工作流。相關論文已經公開,代碼將于近期開源。



  • 論文名稱:AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation
  • 論文鏈接:https://arxiv.org/abs/2602.17100

社區影響力

圖 2 展示了 AgentConductor 工作在國際 AI 社區 (X, 前身 Twitter) 引發的廣泛關注與認可。這項工作被知名 AI 分享博主 DAIR.AI 當日置頂宣傳并評為 2026 年 2 月 23 日–3 月 1 日 Top AI Papers,并獲得新銳 AI 科技博主 Rohan Paul 對 i-WiN 團隊和論文的高度評價。



圖 2.AgentConductor 得到 DAIR.AI 與 Rohan Paul 等賬號推薦

核心特色與方法介紹

1. 基于 YAML 的新型多智能體交互圖結構

相比傳統多智能體拓撲,我們在表示形式與交互機制兩個層面進行了設計與優化。

1.1 表示形式

傳統方法多采用連接矩陣等數學形式來描述交互圖,不僅可讀性差,也難以直接編輯與校驗,更無法由大模型端到端生成;近期工作嘗試使用自然語言描述,但存在拓撲不嚴格、難以結構化約束等問題。我們使用 YAML 結構化表示交互圖 (圖 1 (a)),使其既具備可讀性,又支持程序化校驗與約束,并可由 LLM 直接生成。這種形式在設計上與當前流行的Skill 配置文件具有一致性,便于理解與落地。



圖 3. 本文交互拓撲結構與傳統方法的對比

1.2 交互形式

如圖 3 所示,傳統鏈式、樹狀拓撲分別限制并行性、通信范圍或連接靈活性,而全連接結構又過于復雜。我們融合多種拓撲優勢,支持層內并行和跨層通訊且每個智能體可任意鏈接之前的歷史節點,在提升表達能力的同時避免不必要的通信開銷

2. 訓練范式

2.1 SFT + GRPO 的兩階段訓練范式

AgentConductor 采用兩階段訓練策略,只訓練一個指揮智能體:

監督微調(SFT):基于 GPT-4o 生成的 4,500 個高質量拓撲樣本(覆蓋三檔難度),賦予基礎模型拓撲先驗;

基于 GRPO 的多輪端到端 Agentic 強化學習訓練:將環境反饋的代碼報錯和多輪的拓撲文本一起作為軌跡 (Trajectory) 來用于智能體的強化學習訓練,基于 GRPO 算法優化模型的拓撲生成策略以最大化復合獎勵,最終實現低 Token 成本的高質量代碼生成。



圖 4. AgentConductor 的總體框架

2.2 拓撲密度評估函數

為實現任務自適應,我們將問題分成三檔難度,并根據從 Token 成本到拓撲密度的形式化映射,提出了拓撲密度評估函數并作為獎勵函數一部分。綜合刻畫節點數、邊密度與圖深度對通信成本的影響。

我們在論文中證明,多智能體系統的平均通信成本可形式化為:



其中 d 為圖深度, m 為提示詞最大長度。相比之下,傳統方法大多簡單的通過矩陣的秩來衡量交互密度,丟失了多智能體交互的數學含義

實驗結果展示

我們在三個競賽級(APPS, LiveCodeBench, CodeContests)與兩個基礎代碼數據集(HumanEval, MBPP)上評估 AgentConductor(基于 Qwen-2.5-3B-Instruct):



表 1. AgentConductor 的 pass@1 準確率對比



表 2. AgentConductor 在性能、成本及平均拓撲密度方面的比較結果

表 1 說明,AgentConductor 以僅 3B 參數量,在 APPS 上顯著超越最強基線,同時減少了最多 68% 的 completion token 消耗,并實現最高拓撲稀疏度。更重要的是,系統展現出細粒度難度適配能力:在 easy 任務上使用極簡拓撲(平均 3–4 節點),在 hard 任務上自動擴展至 8–10 節點,而多數基線無論難度均維持固定密度。(* 更多結果詳見論文)

結語:多智能體系統正在學會組織自己

過去,多智能體系統常被視為“堆人力”的暴力解法:越多AI越好。但AgentConductor 證明,智能協作的關鍵不在于數量,更在于結構的適應性。它標志著多智能體研究從“靜態工作流”邁向“動態生態系統”。 AgentConductor 不僅是一項工程優化,更代表了一種新范式:將多智能體協作視為可學習、可演化的結構化決策過程。 通過將任務難度、執行反饋與通信成本統一納入強化學習框架,我們實現了準確率與效率的協同提升。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
亞洲、歐洲都在搶!美國原油被買爆了……

亞洲、歐洲都在搶!美國原油被買爆了……

財聯社
2026-04-07 15:05:08
從8.3飆到9.6,這是國產真·神劇

從8.3飆到9.6,這是國產真·神劇

獨立魚
2026-04-07 21:09:03
成都“牽手門”事件女主現今狀況曝光,太慘了......

成都“牽手門”事件女主現今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
真有東西啊!3.8秒底線球配合盡顯執教功力,球迷:確實比楊鳴強

真有東西啊!3.8秒底線球配合盡顯執教功力,球迷:確實比楊鳴強

弄月公子
2026-04-07 22:17:09
斯里蘭卡警方確認:殺害中國籍女子后潛逃的嫌疑人已落網

斯里蘭卡警方確認:殺害中國籍女子后潛逃的嫌疑人已落網

紅星新聞
2026-04-07 10:35:08
特朗普無法再拖兩天,伊核電站被炸,決戰提前?中方先一步發預警

特朗普無法再拖兩天,伊核電站被炸,決戰提前?中方先一步發預警

格林的公主
2026-04-08 02:30:12
網傳全紅嬋遭微信群長期網暴,若屬實,體育管理部門責無旁貸

網傳全紅嬋遭微信群長期網暴,若屬實,體育管理部門責無旁貸

胡言炫語
2026-04-08 02:39:28
特朗普稱4月7日即同伊朗達成協議的最終期限 “不可更改”

特朗普稱4月7日即同伊朗達成協議的最終期限 “不可更改”

財聯社
2026-04-06 23:28:10
中共上海市委 上海市人民政府關于高質量建設現代化人民城市的實施意見

中共上海市委 上海市人民政府關于高質量建設現代化人民城市的實施意見

上觀新聞
2026-04-07 19:10:08
伊朗提出戰爭賠償,特朗普答應賠2.5萬億美元,但掏錢的不是美國

伊朗提出戰爭賠償,特朗普答應賠2.5萬億美元,但掏錢的不是美國

人生錄
2026-04-07 17:19:08
打伊朗惹出大禍,900萬人逼特朗普下臺,共和黨選定總統替代者?

打伊朗惹出大禍,900萬人逼特朗普下臺,共和黨選定總統替代者?

興史興談
2026-04-07 03:50:09
騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

往史過眼云煙
2026-04-07 22:23:40
里夫斯+東契奇都去歐洲,湖人:這就有點離譜

里夫斯+東契奇都去歐洲,湖人:這就有點離譜

體育新角度
2026-04-07 18:53:49
“自動鉛筆”事件火了,面相學果然權威,帶入同學視角天都塌了!

“自動鉛筆”事件火了,面相學果然權威,帶入同學視角天都塌了!

番外行
2026-04-04 12:52:45
你祖上有啥很大的機緣轉折點?網友:但凡發生一下改變,就沒你了

你祖上有啥很大的機緣轉折點?網友:但凡發生一下改變,就沒你了

帶你感受人間冷暖
2026-02-13 15:23:12
隨著遼寧贏福建9分!吉林大勝四川19分!CBA積分榜有變

隨著遼寧贏福建9分!吉林大勝四川19分!CBA積分榜有變

老吳說體育
2026-04-07 21:36:39
鄭麗文要簽署兩岸和平協議,蔣經國后終于出現第二個推動統一的人

鄭麗文要簽署兩岸和平協議,蔣經國后終于出現第二個推動統一的人

暮雪無痕
2026-02-03 08:52:46
一地雞毛!成本暴增40億,兩年閉店654萬家

一地雞毛!成本暴增40億,兩年閉店654萬家

新零售參考Pro
2026-04-07 17:13:15
任務失敗毀尸滅跡? 美媒稱美軍第二場救援為假,挖掘濃縮鈾才是真

任務失敗毀尸滅跡? 美媒稱美軍第二場救援為假,挖掘濃縮鈾才是真

軒逸阿II
2026-04-08 03:29:49
李國慶怒撕與輝同行:董宇輝20人質檢團,沒看穿汽修廠變澳洲工廠

李國慶怒撕與輝同行:董宇輝20人質檢團,沒看穿汽修廠變澳洲工廠

談史論天地
2026-04-07 16:13:25
2026-04-08 04:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12701文章數 142616關注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

特朗普:伊朗人愿為自由承受轟炸

頭條要聞

特朗普:伊朗人愿為自由承受轟炸

體育要聞

裁判機構:VAR錯誤推翻巴薩紅牌

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產

財經要聞

10萬億財政轉移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

藝術
親子
游戲
手機
公開課

藝術要聞

深圳最慘地王復活?70億起拍,曾規劃中國第一高樓!

親子要聞

春天娃長個黃金期,喝對黑豆水,個子悄悄往上竄

PlayStation全新炸裂計劃公開!利好所有玩家

手機要聞

驍龍8 Elite Gen6再次曝光:5.3GHz+LPE協處理器,友商沒法接招!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版