網易首頁 > 網易號 > 正文申請入駐

Agent2World來了，把世界模型做成可運行的符號環境

2026-02-02 15:24:04　來源: 機器之心Pro

河北舉報

分享至

讓模型真正 “能行動”，往往需要一個可執行、可驗證的符號世界模型（Symbolic World Model）：它不是抽象的文字描述，而是能被規劃器或執行器直接調用的形式化定義 —— 例如 PDDL 領域 / 問題，或可運行的環境代碼 / 模擬器。一旦世界被 “寫成可運行的規則”，我們就能在同一套約束下進行推演、測試與復現：模型不再停留在 “會說”，而是能回答 “如果我這樣做，會發生什么”，并用執行結果檢驗自己是否真的理解了這個世界。

問題在于，現有自動生成路線普遍陷入三重困局：腳本式工作流、知識邊界封閉、表示覆蓋單一。許多方法仍沿用固定的 “生成 — 修復” 腳本，并以解析 / 規則匹配 / 固定檢查集等靜態校驗為主：它們或許能修語法與格式，卻常常抓不住只有在交互執行中才暴露的行為級錯誤（例如狀態更新不一致、目標不可達、獎勵機制失效）。與此同時，當任務規格含糊、缺失關鍵規則或背景常識時，系統缺少主動檢索與補全機制，只能依賴模型記憶 “猜”。更關鍵的是，既有研究往往只覆蓋一種世界模型表示（只做 PDDL，或只做可執行代碼），導致同一任務難以在不同符號表達之間共享驗證閉環與改進經驗，限制了方法的通用性與可擴展性。

為攻克這一難題，研究團隊提出 Agent2World：一個工具增強（tool-augmented）的多智能體框架，用 “知識合成（Knowledge Synthesis）→ 世界模型實現（World Model Generation）→ 評估驅動精煉（Evaluation-Driven Refinement）” 的三階段閉環，把 “查資料補規格 + 寫實現 + 交互測試糾錯” 內化為可復用的生成范式，從而穩定產出高可執行、可驗證的符號世界模型。

實驗結果顯示，Agent2World 在 Text2World (PDDL)、CWMB (MuJoCo) 和 ByteSized32 (文本游戲) 三大基準上均實現了 SOTA 性能。更關鍵的是，該框架展現了可持續改進潛力：基于 Agent2World 生成的高質量軌跡進行微調（SFT）后，模型性能顯著躍升 —— 與訓練前的同一模型相比，平均相對性能提升了 30.95%，有力證明了其作為高質量世界模型數據合成引擎的工程與研究價值。

論文地址： https://arxiv.org/abs/2512.22336
項目地址： https://agent2world.github.io/
模型地址： https://huggingface.co/agent2world/llama3.1_8b_instruct_full_sft_v1_3_epoch
代碼地址： https://github.com/DeepExperience/agent2world

一、深層歸因：為何傳統 “腳本式” 生成難以為繼？

在 Agent2World 之前，自動生成世界模型的主流方案常采用固定的 “草稿 — 修復（Draft-Repair）” 腳本：生成代碼 → 跑錯 → 看報錯改代碼。它能修語法，但很難保證 "跑起來" 的世界是對的。

被動腳本的死循環：缺乏前瞻性規劃，復雜任務里常陷入 “改一個 bug 引出新 bug” 的低效迭代。
規格缺口帶來的幻覺：描述不完整時，模型往往只能靠記憶 "猜" 規則邊界、接口細節與隱含前提，導致看似能跑、實則不自洽。
表示覆蓋單一的 "符號孤島"：既有研究往往只覆蓋一種世界模型表示 —— 要么偏向 PDDL 的形式化規劃，要么偏向可執行環境代碼。兩條路線各自為戰，生成、驗證與修復經驗難以跨表示共享與遷移，同一問題在不同符號表達下往往需要重做一套流程，最終限制了方法的通用性與可擴展性。

歸根結底，難點不只是 “寫出代碼”，而是要在真實約束下穩定產出可執行、可復現、可迭代的世界模型；而 “腳本式流程 + 單一表示覆蓋” 的組合，正是阻礙這一目標的核心瓶頸之一。

二、方法拆解：把 "軟件開發團隊" 裝進模型里

Agent2World 的核心不是 "多拉幾個 agent 聊天"，而是把世界模型生成拆成軟件工程式三階段：Researcher 補規格、Developer 做實現、Testing Team 用單測 + 仿真交互做行為級驗收，并把驗收反饋反哺修復。

1. Deep Researcher：主動打破知識壁壘

現實任務往往信息不完備：目標相對清晰，但規則邊界、參數范圍、動作約束與接口細節并不完整，在不確定性與知識缺口的疊加下，極易導致事實性錯誤與幻覺。Deep Researcher 首先將任務描述分析并拆成一組待澄清問題（例如：允許的動作集合、狀態變量定義、終止條件、異常情況與邊界輸入等），它配備了網絡搜索和檢索工具，能夠迭代地從互聯網檢索構建世界模型所需的知識，并最終輸出一個結構化的中間表示，其中缺失的信息已得到補充。

2. Model Developer：統一跨模態表達

在獲得補全后的規格后，Model Developer 負責生成目標世界模型（例如 PDDL 域 / 問題，或可執行的環境代碼）。這一階段不以 “寫得像” 為目標，而以 “能執行、接口連通、與規格一致” 為硬約束。

因此 Developer 會在受控沙盒中進行基礎運行檢查與增量修復：一方面保證文件組織、函數簽名、依賴與調用鏈正確；另一方面確保狀態轉移、動作前置條件與效果、終止判定等核心邏輯與規格對齊。該階段的輸出是一個可以被執行器 / 規劃器直接調用的環境實例。

3. Testing Team：雙重防線杜絕幻覺

這是框架中的關鍵組成部分。不同于以往依賴靜態驗證器的方法，Testing Team 引入了動態的、行為級的雙重驗證機制，專門捕捉只有在交互中才會暴露的邏輯錯誤。

Unit Tester：它自動分析代碼結構，生成 Pytest 風格的單元測試用例。重點驗證接口契約（Contract）、謂詞邏輯和不變式（Invariants）。例如，檢查 step () 函數返回的狀態維度是否與定義一致，或 PDDL 中的動作前置條件是否完備。
Simulation Tester：這是一個基于 ReAct 框架的智能體，以交互方式在環境中采集軌跡并診斷深層的問題，如動力學錯誤 —— 例如 “機器人執行了移動動作但坐標未更新”、“獎勵函數在達到目標后未正確觸發” 或 “狀態轉移違背物理常識”。

一旦發現問題，Testing Team 會輸出包含錯誤分析（Analysis）和修復建議（Suggest Fix）的結構化報告，驅動 Developer 進行針對性修復，直到通過所有測試或達到收斂條件。

進階：從推理到訓練，構建 "自進化" 的數據飛輪

Agent2World 的價值遠不止于一個推理框架，它本質上是一個全自動的高質量數據合成引擎。研究團隊通過 “任務合成 — 軌跡篩選 — 經驗蒸餾” 的嚴密流程，將多智能體協作中的有效修復策略蒸餾為單體模型的生成與修復偏好。

數據合成：驗證器引導的拒絕采樣，為了避免數據泄露并提升泛化性，團隊并未直接使用測試集題目，而是自主合成（Self-Synthesized）了大量涵蓋不同領域的全新任務。在此基礎上，系統利用 “驗證器引導的拒絕采樣（Verifier-Guided Rejection Sampling）” 機制，從海量生成結果中篩選出 1526 條既通過沙盒運行、又通過雙重測試校驗的軌跡。這套數據集完整記錄了 Developer 從錯誤代碼到修復成功的高密度軌跡，為模型提供了極高價值的邏輯糾錯樣本。
監督微調：在訓練階段，團隊精準提取 Model Developer 的交互軌跡對 Llama-3.1-8B-Instruct 進行監督微調。訓練的核心目標并非讓模型單純模仿多智能體對話，而是讓其學習 Developer “如何理解模糊規格” 以及 “如何根據 Testing Team 的報錯修復代碼”。通過這種方式，單體模型成功 “繼承” 了多智能體系統中 “根據反饋迭代（Iterative Refinement）” 的能力。

三、實驗驗證：橫掃三大基準，驗證 "數據飛輪" 效應

Agent2World 在 Text2World（PDDL）/ CWMB（MuJoCo 可執行模擬器）/ ByteSized32（文本游戲環境）三大基準上都拿到領先表現。

1. Text2World (PDDL)：

從 “能跑” 到 “懂邏輯” 的顯著提升。以 GPT-4.1-mini 為底座，在衡量 PDDL 代碼生成的基準中，Agent2World Multi 明顯降低了代碼 “跑不通” 的失敗率，實現了 93.1% 的代碼可執行率（Executability），相比強基線 Text2World ($EC=3$) 提升了 14.9 個百分點。更重要的是，它在衡量語義正確性的 Component-wise F1 指標上達到了 75.4（基線僅為 60.1），提升幅度達 15.3 分。這表明模型不再只是機械地模仿 PDDL 語法，而是更加理解了謂詞約束與邏輯門控，生成了既符合語法又具備可解性的高質量規劃域。

2. CWMB (MuJoCo)

不僅預測得準，更要 “好用” 。CWMB 同時評估 “仿真代碼是否能預測動力學”（Accuracy）與 “作為世界模型能否支撐下游規劃 / 控制”（Overall Normalized Return, R）。在 GPT-4o-mini 上，Agent2World Multi 的 Overall R 達到 0.4811，相比此前最強基線 GIF-MCTS 的 0.3488 提升了 +0.132；并且在離散動作空間的預測準確率上與強基線持平（0.917 vs 0.914）。這說明，性能的提升并非來自單純的下一幀預測相似度，而是源于模型實現了 “可用于規劃的行為級一致性”，真正支撐起了下游控制任務。

3. ByteSized32 (Text Games)

常識推理與物理現實的高度一致性。在極度依賴常識推理的文本游戲中，Deep Researcher 的主動知識檢索發揮了很大的作用。Agent2World Multi 在核心指標 “物理現實對齊度（Physical Reality Alignment）” 上取得了 0.4768 的高分，相比單智能體版本（Single Agent）大幅提升了 0.2848 。此外，在技術有效性（Technical Validity）上，模型生成的游戲代碼初始化成功率接近 99% 。這些數據表明，通過引入外部知識與多輪測試，模型成功消除了大量違反常識的 “物理幻覺”（如錯誤的狀態轉移或不合邏輯的物品交互），生成了邏輯嚴密且更穩定的文本環境。

4. 模型微調實驗

基于自主合成的高質量軌跡數據（訓練僅使用 Model Developer 軌跡），團隊對 Llama-3.1-8b-instruct 進行了監督微調。實驗表明，這種 “以 Agent 養 Model” 的策略帶來了顯著的泛化能力提升：微調后的模型在未見過的測試任務（Unseen Tasks）上，平均相對性能提升了 30.95%。特別是在 Text2World 任務中，模型生成的代碼可執行率（Executability）提升高達 16.9%。這有力證明了，無需依賴昂貴的超大模型，僅憑小參數模型配合優質的 “自我修正” 合成數據，也能實現向高性能世界模型構建者的跨越。

5. 消融實驗

缺一不可的雙引擎（基于 CWMB 驗證）為了探究 Agent2World 卓越性能的來源，團隊在 CWMB（物理控制）任務上進行了嚴苛的組件消融實驗。結果證實，Deep Researcher 與 Testing Team 均是構建高可靠世界模型不可或缺的組件：

移除 Deep Researcher（知識引擎缺失）：模型生成的模擬器在整體歸一化回報（Overall Normalized Return, R）上出現顯著下滑。這表明，在缺乏對物理參數與 API 規范的主動檢索時，模型定義的環境規則會出現 “失真”，導致下游 Agent 無法在模擬中學習到在真實環境中有用的策略。
但當移除unit tester后，在離散動作空間的預測準確率顯著下降約 30%。移除simulation tester，也會同比下降約3%。這揭示了一個關鍵發現：“能運行” 不等于 “物理正確”。沒有動態交互產生的行為級反饋，模型很難在該設置下修正深層的動力學錯誤（如重力模擬偏差），生成的模擬器也因此失去了實用價值。

四、結語：開啟 AI 自主理解環境的新可能

Agent2World 的提出，標志著統一多智能體框架在符號世界模型生成領域的成功應用。它不僅打破了 PDDL 規劃與可執行代碼之間的表征壁壘，更通過 "網絡知識合成 - 迭代式模型開發 - 評估驅動仿真測試" 的精密閉環，在無需人工標注與人工驗收的前提下，實現自動化的生成 — 測試 — 修復閉環，從而穩定產出可執行、可復現、可迭代的符號世界模型。這一突破不僅在三大基準測試中一致性地刷新了 SOTA，更為未來 AI 系統從自然語言中可靠地理解并形式化復雜的現實環境，開辟了全新的可能性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.