2025 年 9 月,The Information 報道 Anthropic 曾討論在接下來一年內投入超過 10 億美元用于 RL 環境建設
![]()
https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers
10 億美元,只買一樣東西:讓模型「練習」的場地和題目
Epoch AI 最近發了一篇報告,采訪了 18 位來自 RL 環境初創公司、neolab(Cursor 這類應用型 AI 公司)和前沿實驗室的從業者
![]()
https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers
通過這份報告,讓我們看一下這個正在快速成長的隱秘市場
為什么 RL 環境突然重要了
o1 證明了一件事:在有明確答案的任務上做強化學習,能顯著提升模型的推理能力
Andrej Karpathy 在 2025 年度總結里說:通過在大量可驗證任務和不同環境上訓練大模型,大模型會自發涌現出在人類看來像是推理的策略
![]()
各家實驗室現在瘋狂擴展訓練任務的類型和數量,同時持續加大 RL 訓練的算力投入
但問題來了,沒有多樣化、高質量的環境和任務,盲目堆算力做 RL 很可能是在燒錢。Mechanize 估計 RL 訓練期間每個任務大約消耗 2400 美元的算力。如果任務質量不行,這些算力就浪費了
創建高質量的環境和任務,已經成為擴展模型能力的關鍵瓶頸
什么是 RL 環境
對于 RL 環境,這里有三個組件:環境、任務、評分器
環境
模型可以執行動作的沙盒。可能是一個 Docker 容器里跑著的代碼倉庫,可能是一個模擬的網站,可能是一個 Excel 克隆。定義了模型能做什么(寫代碼、點按鈕、搜文檔)以及這些動作會產生什么效果
任務
一個具體的目標。比如「修復這個 bug 讓測試通過」「在這個 Airbnb 克隆里找到最便宜的兩居室」「用這份數據做個數據透視表」
評分器
判斷模型做得對不對、好不好。可以是單元測試,可以是另一個大模型按標準打分
三者組合起來,模型反復嘗試任務,評分器給反饋,模型根據反饋調整策略
![]()
RL 環境示意
幾個具體的例子:
Git 倉庫環境:任務是修復 bug 使單元測試通過,類似 SWE-bench。評分器運行測試,檢查是否通過
![]()
Airbnb 克隆環境:任務是在指定城市和日期找最便宜的兩居室。環境是帶有真實房源、價格和篩選器的模擬網站。評分器驗證最終答案是否正確
![]()
Bloomberg 終端克隆環境:任務是查找一批公司的 5 年復合年增長率。評分器檢查返回的數字是否正確
![]()
Excel 克隆環境:任務是根據原始數據創建數據透視表。評分器將輸出與參考答案對比
![]()
對于 Excel 這類電腦操作環境,單個環境可能支持數百個不同任務。對于編程環境,更常見的是每個環境只包含一個任務,因為設置倉庫狀態相對便宜
誰在做,多少錢
四類玩家:
專業初創公司
專注于構建 RL 環境,覆蓋軟件工程、電腦操作、數學、金融等領域。Chris Barber 整理了一份名單:pavlovslist.com
傳統數據供應商
Mercor、Surge、Handshake、Turing 這些過去主要提供人工標注數據的公司,現在也開始賣 RL 環境。一位創始人說,主要價值是「他們有人」:如果需要快速擴大任務創建規模,他們能比自己招人更快地配置項目
實驗室內部團隊
xAI、Anthropic 都在招 RL 環境相關崗位。Cursor 這類 neolab 可以利用用戶數據來構建訓練任務。一位創始人指出,最近「內部化的趨勢明顯增加」
產品公司
Salesforce、Slack 這類公司比任何人都更了解自己產品的界面和邊界情況。我們正在看到實驗室與產品公司之間的合作:Benchling 與 Anthropic 合作生物工作流,OpenAI 與 Shopify、Stripe 合作購物場景
![]()
成本方面:
合同規模通常是每季度六到七位數。一位創始人說合同經常是每季度七位數或更多
環境成本取決于保真度。SemiAnalysis 報道網站復刻品(UI 健身房)每個約 2 萬美元。但像 Slack 這樣復雜產品的高質量復刻可能要 30 萬美元
任務成本多位受訪者認同每個 200 到 2000 美元的范圍。特別復雜的軟件工程任務可能到 2 萬美元,但很少見
獨占權顯著影響定價。兩位創始人獨立表示,獨家交易大約是非獨家的 4 到 5 倍
![]()
整體支出在快速增長,但仍然只是算力成本的一小部分。OpenAI 2026 年的研發算力支出預計約 190 億美元。即使 Anthropic 花 10 億美元買 RL 環境,相比算力支出仍然是零頭
領域演變
最早是數學和編程
數學任務容易產出,不需要構建復雜環境,只需要有可驗證答案的任務。但一位創始人觀察到,數學任務容易創建,遷移到其他能力的效果不太好。一位受訪者說「數學可能在萎縮」
編程仍是主要需求來源
而且正在超越 SWE-bench 風格的任務。一位創始人說:「我看到代碼環境從簡單的 PASS_TO_PASS 和 FAIL_TO_PASS 類型任務,轉向更加產品化。軟件工程師實際上是怎么工作的?他們有 GitHub、有 Linear、有代碼 IDE」
![]()
主要增長領域是企業工作流
提交費用報告、在電子表格中創建數據透視表、根據簡報生成幻燈片、在 CRM 中更新客戶記錄
一位創始人說:「我認為企業工作流今年會爆發。實驗室非常看重有價值且可量化的東西,企業工作流正好符合這兩點」
環境形式多樣:MCP 風格的工具集成、Playwright 風格的瀏覽器交互、基于截圖的電腦操作。很多依賴于 Slack 或 SAP 等應用的克隆
一位實驗室研究員警告:「使用網站克隆有很多好的理由,但大家都在 vibe code 出有 bug 的網站,這沒什么用。存在大量沒用的爛環境」
兩個領域都在往長時間跨度任務發展。一位創始人說:「長時間跨度是未來方向。讓智能體執行完整的端到端任務,涉及在多個標簽頁、瀏覽器之間導航,然后提交涉及多跳步驟的東西」
什么才是好的 RL 環境
獎勵黑客是頭號顧慮
受訪者一致認為,防止獎勵黑客(reward hacking)是最重要的質量標準
![]()
一位 neolab 研究員說:「獎勵黑客是個大問題。模型可能通過搜索答案來作弊,或者如果你在腳本化倉庫時不小心,它可能會檢出未來的 commit。必須要魯棒。這是底線」
另一位說:「可靠性最重要:高獎勵必須意味著任務確實被解決了,而不是被黑掉了」
創建魯棒的評分器很少能一次成功。一位創始人說:「需要很多很多次迭代來檢查獎勵黑客」
難度校準
任務需要有挑戰性但不能不可能完成。如果通過率是 0% 或 100%,模型就學不到東西
![]()
多位受訪者提到希望最低通過率在 2% 到 3%,或者在 64 或 128 次嘗試中至少成功一次
整體分布也很重要。一位研究員說:「RL 環境的一個非常重要的特性是平滑的梯度:任務難度的多樣性」。可能需要混合搭配:一些任務 0%,一些 5%,一些 30%。訓練一段時間后,0% 的任務變得可學習。一旦任務達到約 70% 的通過率,可能會丟棄它轉向更難的任務
保質擴量是核心瓶頸
一位創始人說:「保質擴量是大家看到的頭號瓶頸。找到專家并不難,但管理他們和做質量控制很難」
一位 neolab 研究員說:「不容易找到人來監督這個數據構建、RL 環境構建的過程。承包商,你需要激勵他們。當然,你在付錢給他們。但你怎么確保他們不是只在用大模型?你怎么確保他們是真的驗證過的?激勵承包商和做質量控制是苦活」
![]()
一位創始人說,他們增加收入的限制因素就是在保持質量的前提下擴大任務創建的難度
需要什么技能
構建環境主要是工程技能。創建好的任務需要不同的東西
一位創始人說:「領域知識和專家級的提示詞能力比 ML 技能對創建任務更重要」
一位研究員補充說產品感覺也很重要:「你需要知道人們實際上是怎么使用這些工具的」
一位研究員說:「你不一定需要是 AI 研究員,但也許一個重度 Claude Code 用戶、一個像 Riley Goodside 那樣的提示詞密語者,可能比 AI 研究員更擅長判斷前沿在哪里」
另一位簡單總結:「最擅長這個的人可能是那些創建了真正被使用的基準測試的人」
最后
RL 環境已經從一個技術細節,變成了前沿 AI 訓練的關鍵一環
目前來看,這個領域還在快速變化,一年后的情況可能會大不相同
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.