![]()
AI 的「自我制造」 時代正在到來。
![]()
如果你用過 Cursor、Copilot、CodeBuddy、Claude Code 這類 LLM Agent 產品,很快就會有這樣的感受:強大的基座模型固然重要,而優質的智能體才是把模型能力兌現成 “可靠交付” 的關鍵。
智能體往往通過搭建一套腳手架來實現—— 它包含提示詞設計、工作流編排、工具設計、失敗反思機制、記憶組織方式等關鍵模塊。正是這套看不見的 “底層架構”,決定了智能體的行為模式:在一套成熟的腳手架支撐下,同一個基座模型能按部就班完成復雜任務:讀 repo → 跑測試 → 定位失敗 → 輸出最小補丁;而換一套粗糙的腳手架,模型就可能陷入盲目修改、重復試錯的困境,甚至越做越偏。
提示詞怎么寫、工作流怎么編排、工具怎么調用、失敗后如何反思、記憶如何組織 —— 這些智能體腳手架的實現細節,直接決定了這個智能體是 “高效助手” 還是 “麻煩制造者”。
但現實是,這些腳手架幾乎全靠手工打磨,這帶來兩方面的問題。
1、成本方面:對于每個細分領域,都要投入若干智能體研發工程師長期跟進效果,帶來高昂的成本,這阻礙了智能體向更多細分領域的普及;
2、性能方面:現實場景中,智能體研發工程師對智能體細節優化能力良莠不齊,導致無法長期對智能體優化做出有效的迭代。一個好的智能體腳手架和差的腳手架的差別很大;例如,測試發現, SWE-bench Verified 中 37% 的錯誤換個腳手架就能夠被解決。
想象一下:如果 AI 能像人類工程師一樣,從一次次試錯中摸清門道,自己設計出適配特定領域的智能體,而不是靠人類從零開始搭建 —— 這會不會徹底改變我們使用大模型的方式?
為了探索這種范式的可能性,來自浙大、騰訊等機構的研究者提出了ReCreate框架:它不依賴人類手工設計,而是讓智能體自主分析交互經驗、定位優化方向、迭代完善腳手架,最終實現 “用智能體構建智能體” 的全新范式。
01
核心觀念:從 “看結果” 到 “學過程”
傳統方法的致命缺陷,在于把智能體的執行過程壓縮成了一個冰冷的性能數值 —— 就像只看考試分數,卻不管學生哪個題沒做對、也不管學生如何思考的,自然無法精準改進。而 ReCreate 的核心洞察是:交互經驗里藏著成功與失敗的全部密碼。
智能體在解決任務時留下的每一步推理、每一次工具調用、每一次環境反饋,甚至是那些看似無用的嘗試,都是寶貴的教學素材。比如在數據科學任務中,智能體可能會直接用訓練集評估模型性能,導致誤以為模型效果很好;在軟件工程任務中,可能因為提交前的操作順序錯誤,導致生成的補丁為空。這些細節,光看最終分數永遠無法發現,但恰恰是優化腳手架的關鍵。
ReCreate 的優越性,就在于把 “黑箱優化” 變成了 “白箱調試”—— 它不依賴抽象的性能指標,而是直接剖析智能體的交互軌跡、執行日志和環境狀態,從中提煉出可落地的改進方案。這就像醫生不再只看體檢報告上的異常數值,而是通過完整病歷和癥狀軌跡精準診斷病因,治療自然更有效。
![]()
這里的圖示能直觀展示ReCreate框架的雙循環結構——Agent在內層循環解決問題,ReCreate-Agent 在外層循環分析經驗并優化自身。現有Agent搜索的方法只依賴于Agent的執行分數(Scores),而ReCreate通過分析完整的交互經驗(Experience)來找到Agent優化的方向。
02
技術內核:Agent as Optimizer的三重設計
要實現從交互經驗到腳手架改進的跨越,ReCreate 搭建了一套 “Agent as Optimizer” 的架構,靠三個核心組件打通了 “經驗提取 - 推理歸因 - 迭代優化” 的閉環:
1、經驗存儲與檢索:在海量日志中精準定位關鍵線索
智能體的交互數據往往龐大且雜亂,直接投喂給 LLM 會造成信息過載。ReCreate 把每一次任務交互都整理成一系列可檢索的文件,這個文件系統構成了ReCreate-Agent的環境,專門用于檢索和分析軌跡中的證據。
這個由交互經驗構成的環境中還內置了證據檢索器 —— 它會自動索引錯誤、測試失敗、文件操作等關鍵事件,讓ReCreate-Agent能像偵探查案一樣,從最終結果反向追溯到問題根源。比如發現一個任務失敗了,優化器可以直接定位到哪一步工具調用導致失敗,而不用在海量日志里大海撈針。
2、推理歸因 - 把交互經驗轉化為精準改進
光有經驗還不夠,關鍵是要把交互經驗變成腳手架的 “升級包”。ReCreate 的優化器會先通過推理環節分析經驗:這個失敗是因為缺少某個規則?還是因為重復操作沒有自動化?或是工作流程順序錯了?然后通過創造環節生成針對性改進:需要加規則就補充約束,需要自動化就創建工具,需要調整流程就優化步驟。
除此之外,ReCreate-Agent還配有“行動路由器”,能根據成功或失敗的證據決定修改或創造腳手架的哪個部分 —— 是調整智能體的規則流程,還是優化推理策略;需要新增工具,還是調整記憶模式。
例如,在成功案例中,如果ReCreate-Agent發現可復用的模式,會自動將其提取為skills,作為后續任務的工具和經驗;在失敗案例中,ReCreate-Agent發現缺少某種規則而導致失敗,則會更新規則庫,加入可以規避這類失敗的規則。
這就像一位精準的工匠,不會對著作品盲目敲打,而是哪里有問題就針對性修補。
3、分層更新機制:從個體經驗到通用規律
如果只針對單個任務優化,智能體很容易 “學死” —— 在這個任務上表現很好,換個任務就失靈。ReCreate 的分層更新機制解決了這個問題:首先收集多個任務的實例級改進建議,再通過領域級更新提煉出通用模式。
比如多個數據科學任務都出現了 “未劃分驗證集” 的問題,就會把 “必須使用訓練 - 驗證分割進行評估” 變成通用規則,而不是只在某個任務中臨時添加。這樣一來,智能體學到的就是領域通用知識,而不是單個任務的 “特化技巧”。
![]()
值得注意的是,ReCreate 和同類方法完全不同:它不依賴粗粒度性能指標,也不用預定義模塊池(區別于現有的ADAS、AgentSquare),更能從 0 開始創建智能體(區別于只能現有Self-Evolve方法),真正實現了 “經驗驅動的白箱優化”。
另外,ReCreate的工具實現方式采用skills,完全可以實現在不同智能體之間的遷移和組合。
03
實驗結果:小成本,大提升
為驗證 ReCreate 框架的實際效能,研究者在軟件工程(SWE)、數據科學(DS)、數學(Math)、數字助理(Digital)四大核心領域,選取 13 個權威基準測試集展開全面評估。實驗不僅對比了傳統手工設計方案、自進化方法及自動化智能體生成技術,還通過消融實驗、成本分析等多維度驗證。
1、相比于傳統方案,多個領域任務通過率大幅提升
在所有測試場景中,ReCreate 的平均性能較當前最強對比方法提升超 5%,多個核心任務實現大幅提升:
? 數據科學領域的 NumPy 任務,通過率從 62% 提升至 77%,解決了數據處理中工具調用不規范、流程缺失等關鍵問題;
? 數學領域表現尤為突出,代數任務通過率從 81.45% 提升至 92.74%,數論與概率統計任務更是實現 100% 通過率,展現了對復雜推理場景的強大適配能力;
? 數據科學下的機器學習子任務,通過率從 34.32% 提升至 42.88%,成功規避了模型評估無驗證集、特征工程不規范等常見陷阱。
2、突破手工腳手架性能壁壘,超越人類專家設計
長期以來,手工設計的腳手架被視為領域智能體的通用范式,但ReCreate 憑借經驗驅動的迭代優化實現了突破:
? 數據科學領域的 Data Wrangling 任務,手工方案通過率僅 42.81%,ReCreate 優化后達到 51.94%,成功解決了數據清洗、格式轉換中的流程混亂問題;
? 可視化任務 Matplotlib 中,ReCreate 將通過率從 78.52% 提升至 85.19%,自動生成的圖表優化工具和流程規范大幅降低了語法錯誤和邏輯偏差。
? 在軟件工程領域的 Django 項目測試中,人類專家設計的腳手架通過率為 58.29%,而 ReCreate 將這一數值提升至 60.19%;
![]()
3、成本指數級下降,無需大規模評估快速收斂
與 ADAS 等依賴預定義模塊池和大規模重復評估的自動化生成方法相比,ReCreate 憑借精準的經驗歸因機制,實現了成本與性能的平衡:
? 成本較 ADAS 降低 36%-82%,在相同大小的開發集下,ADAS 單次智能體生成15輪以上的迭代,而 ReCreate 僅需 2 輪開發集上的迭代即可實現更優的性能;
? 迭代效率顯著提升,無需海量任務試錯,僅通過分析關鍵交互軌跡就能定位優化方向,在 Django 項目中,從初始腳手架到最優狀態僅需 4 個任務批次的經驗積累;
![]()
04
進一步驗證:消融實驗與分析實驗
1、消融實驗:經驗組件的不可替代性
為明確各核心組件的作用,研究者開展了針對性消融實驗,結果顯示:
? 移除完整交互軌跡后,性能平均下降 8.3%,證明 step-by-step 的推理過程、工具調用記錄是精準診斷失敗原因的關鍵,缺失后無法定位流程順序錯誤、重復操作等隱性問題;
? 去除執行結果與評估反饋后,性能下降 6.7%,說明任務執行結果、測試結果等具象反饋是錨定優化方向的核心依據,缺少后易導致優化脫離實際場景;
? 關閉環境狀態訪問后,性能下降 3.2%,驗證了 Docker 沙箱中的代碼庫狀態、文件系統信息等環境數據,對解決 “提交空補丁”” 文件路徑錯誤 “ 等場景化問題的重要性。
![]()
2、領域適配性:不同領域的優化路徑差異化展現
ReCreate 在不同領域展現出高度自適應的優化能力,其行為模式與領域特性深度匹配:
? 軟件工程領域:ReCreate重點優化代碼編輯工具與提交流程,自動創建 “方法替換工具”(replace_method.py)等工具,避免手工修改的語法錯誤,同時明確”提交前必須運行特定測試” 等流程和記憶;
? 數據科學領域:ReCreate聚焦評估流程規范與特征工程工具,自動添加多個特征工程skills,把領域內可泛化的成功案例提煉成為可復用的skills;
? 數字助理領域:ReCreate傾向于進行軌跡分析與記憶更新,針對多步驟工具調用場景優化流程順序,挑戰級任務通過率從 34.05% 提升至 40.29%,復雜指令理解準確率顯著提高。
3、推理能力消融:核心能力的決定性作用
ReCreate 的優化效果高度依賴 ReCreate-Agent 的推理能力,針對性消融實驗清晰展現了這一核心前提:
? 當使用推理能力較弱的 GPT-5-mini 作為 ReCreate-Agent 時,在多數領域無法超越人類設計的腳手架。其中軟件工程領域通過率僅 57.09%,數據科學領域 DA-Code 任務通過率 37.13%,較 Claude-4.5-opus 版本平均下降 8.5%;
? 僅保留初始領域信息、移除 ReCreate-Agent 的推理優化環節后,除數學領域因任務邏輯相對固定仍有一定表現外,其余領域性能大幅滑坡。數字助理挑戰級任務通過率從 40.29% 降至 34.05%,數據科學機器學習任務從 42.88% 回落至 34.32%,與原始基線持平;
? 采用 Claude-4.5-opus 作為 ReCreate-Agent 時,憑借強大的推理歸因能力,能精準定位交互軌跡中的各類問題,并轉化為針對性優化,最終在全領域實現對人類設計腳手架的超越,驗證了強推理能力是 ReCreate 實現 “白箱優化” 的關鍵支撐。這說明當前最強的模型已經可以在設計Agent這樣的任務上超越人類了。
![]()
4、魯棒性驗證:溫度敏感性與泛化能力測試
? 溫度穩定性:在 ReCreate-Agent 的不同采樣溫度(0.0、0.5、1.0)下,平均性能波動不超過 1%,證明前沿大模型的推理能力已足夠支撐穩定的智能體優化,無需依賴特定的推理方式;
? 泛化能力:通過分層更新機制,ReCreate 將多個任務的實例級改進提煉為領域通用規則,在未見過的測試任務中,性能保持率達 95% 以上,遠高于傳統方法的 80%,避免了 “單任務特化” 陷阱。
![]()
更值得關注的是,在多個Case Study中可以發現:即使從極其簡陋的初始腳手架開始, ReCreate 也能在交互經驗的驅動下,逐步進化出復雜的工具集、嚴謹的推理規則和高效的記憶機制。比如在 Django 任務中,它會自動創建 “函數替換”工具,避免手動修改代碼的語法錯誤;還會積累 “提交前必須運行特定測試” 的經驗記憶,從而降低失敗率。
05
未來啟示:AI 的 “自我制造” 時代正在到來
ReCreate 的價值,核心在于為領域智能體的構建提供了一條更務實的路徑 —— 用經驗驅動的方式解決了手工設計的痛點。對開發者而言,這意味著無需投入大量精力從零搭建適配特定領域的腳手架:無論是缺少成熟方案的小眾科研場景,還是需求快速迭代的工業任務,只要提供基礎任務數據和環境,ReCreate 就能自主沉淀規律、優化流程,生成貼合需求的專業智能體,大幅降低開發成本和試錯周期。
ReCreate 契合了人類學習的本質:不是靠他人灌輸的完美指令,而是在實踐中試錯、在反思中沉淀、在迭代中成長。隨著模型的能力逐漸突破某個邊界,Agent 開始像人類一樣 “從做中學”,智能體的創造或許將不再是少數專家的專利,而是Agent自身的本能。這一天,已經不再遙遠。
06
搭建 ReCreate 框架的人
本研究的第一作者郝哲正,現為浙江大學計算機學院2025級博士研究生,研究方向聚焦于 AI Agents 與 LLM RL,導師為陳佳偉研究員。
2023年-2024年,郝哲正曾師從李學龍、聶飛平教授,在機器學習領域發表多篇研究工作。2025 年以來,郝哲正從事代碼智能體的研究與構建。
![]()
本研究的通訊作者為董漢德、陳佳偉。
董漢德,騰訊技術專家,畢業于中國科學技術大學,負責騰訊CodeBuddy產品大模型研發。在大模型領域具有豐富的研究和落地經驗,包括大模型訓練、智能體等細分領域,谷歌學術引用超1500次。當下,主要致力于研發利用AI Agent產品收集到的用戶數據訓練高質量大模型的訓練范式。
![]()
陳佳偉,浙江大學計算機學院“百人計劃”研究員,博士生導師,于2020年獲得浙江大學計算機科學與技術博士學位,曾師從陳純院士、何向南教授,主要致力于推薦系統、大語言模型、智能體等領域的研究,谷歌學術引用超5000次,特別是在用戶行為分析與建模方面取得了一系列成果,曾獲SIGIR 2023最佳論文提名獎(CCF-A類)、WSDM 2025最佳論文獎(清華A類),多項成果也在快手、抖音、螞蟻、省公安等企事業單位落地應用,服務于上億用戶。
![]()
Paper: ReCreate: Reasoning and Creating Domain Agents Driven by Experience
Arxiv: https://arxiv.org/pdf/2601.11100
Github: https://github.com/zz-haooo/ReCreate
Huggingface: https://huggingface.co/papers/2601.11100
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.