網易首頁 > 網易號 > 正文申請入駐

悶聲賺錢的 RL 生意：每個任務，200-20000 美元

2026-01-13 13:49:42　來源: 賽博禪心

北京舉報

分享至

2025 年 9 月，The Information 報道 Anthropic 曾討論在接下來一年內投入超過 10 億美元用于 RL 環境建設

https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

10 億美元，只買一樣東西：讓模型「練習」的場地和題目

Epoch AI 最近發了一篇報告，采訪了 18 位來自 RL 環境初創公司、neolab（Cursor 這類應用型 AI 公司）和前沿實驗室的從業者

https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

通過這份報告，讓我們看一下這個正在快速成長的隱秘市場

為什么 RL 環境突然重要了

o1 證明了一件事：在有明確答案的任務上做強化學習，能顯著提升模型的推理能力

Andrej Karpathy 在 2025 年度總結里說：通過在大量可驗證任務和不同環境上訓練大模型，大模型會自發涌現出在人類看來像是推理的策略

各家實驗室現在瘋狂擴展訓練任務的類型和數量，同時持續加大 RL 訓練的算力投入

但問題來了，沒有多樣化、高質量的環境和任務，盲目堆算力做 RL 很可能是在燒錢。Mechanize 估計 RL 訓練期間每個任務大約消耗 2400 美元的算力。如果任務質量不行，這些算力就浪費了

創建高質量的環境和任務，已經成為擴展模型能力的關鍵瓶頸

什么是 RL 環境

對于 RL 環境，這里有三個組件：環境、任務、評分器

環境
模型可以執行動作的沙盒。可能是一個 Docker 容器里跑著的代碼倉庫，可能是一個模擬的網站，可能是一個 Excel 克隆。定義了模型能做什么（寫代碼、點按鈕、搜文檔）以及這些動作會產生什么效果

任務
一個具體的目標。比如「修復這個 bug 讓測試通過」「在這個 Airbnb 克隆里找到最便宜的兩居室」「用這份數據做個數據透視表」

評分器
判斷模型做得對不對、好不好。可以是單元測試，可以是另一個大模型按標準打分

三者組合起來，模型反復嘗試任務，評分器給反饋，模型根據反饋調整策略

RL 環境示意

幾個具體的例子：

Git 倉庫環境：任務是修復 bug 使單元測試通過，類似 SWE-bench。評分器運行測試，檢查是否通過

Airbnb 克隆環境：任務是在指定城市和日期找最便宜的兩居室。環境是帶有真實房源、價格和篩選器的模擬網站。評分器驗證最終答案是否正確

Bloomberg 終端克隆環境：任務是查找一批公司的 5 年復合年增長率。評分器檢查返回的數字是否正確

Excel 克隆環境：任務是根據原始數據創建數據透視表。評分器將輸出與參考答案對比

對于 Excel 這類電腦操作環境，單個環境可能支持數百個不同任務。對于編程環境，更常見的是每個環境只包含一個任務，因為設置倉庫狀態相對便宜

誰在做，多少錢

四類玩家：

專業初創公司
專注于構建 RL 環境，覆蓋軟件工程、電腦操作、數學、金融等領域。Chris Barber 整理了一份名單：pavlovslist.com

傳統數據供應商
Mercor、Surge、Handshake、Turing 這些過去主要提供人工標注數據的公司，現在也開始賣 RL 環境。一位創始人說，主要價值是「他們有人」：如果需要快速擴大任務創建規模，他們能比自己招人更快地配置項目

實驗室內部團隊
xAI、Anthropic 都在招 RL 環境相關崗位。Cursor 這類 neolab 可以利用用戶數據來構建訓練任務。一位創始人指出，最近「內部化的趨勢明顯增加」

產品公司
Salesforce、Slack 這類公司比任何人都更了解自己產品的界面和邊界情況。我們正在看到實驗室與產品公司之間的合作：Benchling 與 Anthropic 合作生物工作流，OpenAI 與 Shopify、Stripe 合作購物場景

成本方面：

合同規模通常是每季度六到七位數。一位創始人說合同經常是每季度七位數或更多

環境成本取決于保真度。SemiAnalysis 報道網站復刻品（UI 健身房）每個約 2 萬美元。但像 Slack 這樣復雜產品的高質量復刻可能要 30 萬美元

任務成本多位受訪者認同每個 200 到 2000 美元的范圍。特別復雜的軟件工程任務可能到 2 萬美元，但很少見

獨占權顯著影響定價。兩位創始人獨立表示，獨家交易大約是非獨家的 4 到 5 倍

整體支出在快速增長，但仍然只是算力成本的一小部分。OpenAI 2026 年的研發算力支出預計約 190 億美元。即使 Anthropic 花 10 億美元買 RL 環境，相比算力支出仍然是零頭

領域演變

最早是數學和編程

數學任務容易產出，不需要構建復雜環境，只需要有可驗證答案的任務。但一位創始人觀察到，數學任務容易創建，遷移到其他能力的效果不太好。一位受訪者說「數學可能在萎縮」

編程仍是主要需求來源

而且正在超越 SWE-bench 風格的任務。一位創始人說：「我看到代碼環境從簡單的 PASS_TO_PASS 和 FAIL_TO_PASS 類型任務，轉向更加產品化。軟件工程師實際上是怎么工作的？他們有 GitHub、有 Linear、有代碼 IDE」

主要增長領域是企業工作流

提交費用報告、在電子表格中創建數據透視表、根據簡報生成幻燈片、在 CRM 中更新客戶記錄

一位創始人說：「我認為企業工作流今年會爆發。實驗室非常看重有價值且可量化的東西，企業工作流正好符合這兩點」

環境形式多樣：MCP 風格的工具集成、Playwright 風格的瀏覽器交互、基于截圖的電腦操作。很多依賴于 Slack 或 SAP 等應用的克隆

一位實驗室研究員警告：「使用網站克隆有很多好的理由，但大家都在 vibe code 出有 bug 的網站，這沒什么用。存在大量沒用的爛環境」

兩個領域都在往長時間跨度任務發展。一位創始人說：「長時間跨度是未來方向。讓智能體執行完整的端到端任務，涉及在多個標簽頁、瀏覽器之間導航，然后提交涉及多跳步驟的東西」

什么才是好的 RL 環境

獎勵黑客是頭號顧慮

受訪者一致認為，防止獎勵黑客（reward hacking）是最重要的質量標準

一位 neolab 研究員說：「獎勵黑客是個大問題。模型可能通過搜索答案來作弊，或者如果你在腳本化倉庫時不小心，它可能會檢出未來的 commit。必須要魯棒。這是底線」

另一位說：「可靠性最重要：高獎勵必須意味著任務確實被解決了，而不是被黑掉了」

創建魯棒的評分器很少能一次成功。一位創始人說：「需要很多很多次迭代來檢查獎勵黑客」

難度校準

任務需要有挑戰性但不能不可能完成。如果通過率是 0% 或 100%，模型就學不到東西

多位受訪者提到希望最低通過率在 2% 到 3%，或者在 64 或 128 次嘗試中至少成功一次

整體分布也很重要。一位研究員說：「RL 環境的一個非常重要的特性是平滑的梯度：任務難度的多樣性」。可能需要混合搭配：一些任務 0%，一些 5%，一些 30%。訓練一段時間后，0% 的任務變得可學習。一旦任務達到約 70% 的通過率，可能會丟棄它轉向更難的任務

保質擴量是核心瓶頸

一位創始人說：「保質擴量是大家看到的頭號瓶頸。找到專家并不難，但管理他們和做質量控制很難」

一位 neolab 研究員說：「不容易找到人來監督這個數據構建、RL 環境構建的過程。承包商，你需要激勵他們。當然，你在付錢給他們。但你怎么確保他們不是只在用大模型？你怎么確保他們是真的驗證過的？激勵承包商和做質量控制是苦活」

一位創始人說，他們增加收入的限制因素就是在保持質量的前提下擴大任務創建的難度

需要什么技能

構建環境主要是工程技能。創建好的任務需要不同的東西

一位創始人說：「領域知識和專家級的提示詞能力比 ML 技能對創建任務更重要」

一位研究員補充說產品感覺也很重要：「你需要知道人們實際上是怎么使用這些工具的」

一位研究員說：「你不一定需要是 AI 研究員，但也許一個重度 Claude Code 用戶、一個像 Riley Goodside 那樣的提示詞密語者，可能比 AI 研究員更擅長判斷前沿在哪里」

另一位簡單總結：「最擅長這個的人可能是那些創建了真正被使用的基準測試的人」

最后

RL 環境已經從一個技術細節，變成了前沿 AI 訓練的關鍵一環

目前來看，這個領域還在快速變化，一年后的情況可能會大不相同

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
AI取代程序員還遠！新基準BeyondSWE：頂尖模型通過率暴跌至45%

新智元 2026-03-20 21:23:15
1 跟貼 1

MoGraphGPT：基于模塊化大模型與圖形控制的2D交互場景創作

機器之心Pro 2026-03-20 17:17:16
0 跟貼 0

AI編程元年：初級開發者被「團滅」？

新智元 2026-03-21 12:38:36
8 跟貼 8
讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0

從能力到商品：Skills市場正在重塑開發者的生產方式

36氪 2026-03-20 10:24:05
19 跟貼 19

從經歷到知識：UIUC、清華PlugMem如何重構Agent記憶

新智元 2026-03-21 19:19:12
0 跟貼 0
Rabbit又行了？油管大V改口，將發第二款AI硬件

鈦媒體APP 2026-03-21 15:54:59
0 跟貼 0

支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
三維空間太難懂？2

機器之心Pro 2025-12-31 13:49:19
0 跟貼 0
專訪OpenAI首席科學家：我們離“AI自己做研究”有多遠？

DeepTech深科技 2026-03-21 22:57:35
0 跟貼 0
AI錄音卡也有“龍蝦能力”了！紀要報告PPT一體生成

智東西 2026-03-20 20:20:32
0 跟貼 0
微信聊天遭老板監視，主流殺毒軟件失明

每日經濟新聞 2025-12-25 19:02:17
0 跟貼 0
從Excel到AI：月薪3W+數據分析師是這樣走通的

51Testing軟件測試網 2026-03-20 16:24:47
0 跟貼 0
為何那些移民美國的中國精英，現在大部分都后悔了？真相太扎心

奇點使者 2026-03-17 18:37:04
2 跟貼 2
把π寫進代碼里盜取4000萬？這場高智商犯罪最后竟輸給了生理本能

實時解說 2026-03-17 10:30:42
1 跟貼 1
女子擺攤賣包子，前婆婆隔幾天就給她抱來一捆小蔥，女子：我和她兒子已經離婚十年了，她一直力所能及幫我

氧氣周末 2026-03-21 11:20:01
0 跟貼 0
搞不懂Skills？看看Claude Code內部工程師們是怎么玩的

機器之心Pro 2026-03-20 14:21:04
3 跟貼 3
GxP領域的寶藏軟件-合規電子表格系統WindSheet

藥理毒理開發 2026-03-18 07:36:50
0 跟貼 0
男子野外干活，意外挖出神秘洞穴，里面驚現“神秘生物”

旅行者生活 2026-03-19 16:04:31
0 跟貼 0
別再一個個數了！這6個技巧，解決你90%的Excel計數問題！

秋葉excel 2026-03-17 11:35:40
0 跟貼 0
excel如何將日期轉換為標準格式

部落窩教育 2026-03-18 07:00:00
0 跟貼 0
英國法國留學歸來的美女，一個人在上海開軟件公司，痛并快樂著

行者東談西說 2026-03-19 20:24:32
12 跟貼 12
三捆美元買不住十斤大米

一樣剪輯 2026-03-20 17:29:33
1 跟貼 1
“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
38758 跟貼 38758
徐三娃丈母娘曬幾十斤酸菜，撬紫花地丁摘清明草擺攤看生意咋樣

大王手工 2026-03-19 02:12:21
0 跟貼 0
Excel動態條形同比圖

Excel從零到一 2026-03-18 19:02:05
5 跟貼 5
成本0.3美元，耗時26分鐘！CudaForge：顛覆性低成本CUDA優化框架

機器之心Pro 2025-11-17 18:45:03
0 跟貼 0
excel如何按類別進行數據匯總？

部落窩教育 2026-03-20 07:00:00
0 跟貼 0
過去一周是一場清算，全球市場開始正視“伊朗戰爭不會很快結束”

華爾街見聞官方 2026-03-21 11:32:37
1 跟貼 1
趕走中企后，巴拿馬自食苦果，隔空喊話中方求恢復

皓籃球 2026-03-21 01:43:52
0 跟貼 0
達利歐：霍爾木茲海峽大決戰即將爆發

極目新聞 2026-03-21 16:52:14
11634 跟貼 11634
香港物價真的有那么貴嗎？聽說是全球最貴物價之一！

搞笑壯漢夫妻 2026-03-18 09:13:22
0 跟貼 0
成品油價即將迎來“五連漲”，下周一加滿一箱油可能將多花80元，周末記得加滿油

揚子晚報 2026-03-21 07:37:10
23498 跟貼 23498
今天大肥豬肥肉瘦肉都冒油花，排骨賣出白菜價，本地人吃豬肉真狠

玖叔vlog 2026-03-19 05:00:00
0 跟貼 0
強美元背景下，金價油價為何背道而馳？

郭施亮 2026-03-20 10:16:12
0 跟貼 0
這，就是大上海！普通人的天堂

陳教授 2026-03-20 13:40:35
3 跟貼 3
大學生擺攤被大爺驅趕，雙方出現口角，“我還要和你解釋嗎”！

歡樂段子手 2026-03-21 11:03:10
1 跟貼 1
樹上的神奇生物，自然界的奇妙發現！

搞笑著哥 2026-03-21 01:28:41
0 跟貼 0
清華團隊：1.5B 模型新基線！用「最笨」的 RL 配方達到頂尖性能

機器之心Pro 2025-11-13 14:56:23
0 跟貼 0

賽博禪心

拜AI古佛，修賽博禪心

337文章數 49關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

時尚

親子

旅游

教育

手機 / 數碼

房產 / 家居

悶聲賺錢的 RL 生意：每個任務，200-20000 美元

宇樹招股書拆解，人形機器人出貨量第一！

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

誰在決定字母哥未來？

田栩寧終于涼了？出軌風波影響惡劣

通脹警報拉響，加息潮要來了？

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

斯托揚畫作：她們的眼神能勾動你的心！

這個趨勢好適合亞洲人！不用花大錢也能跟

寶媽必學，讓孩子警惕這種視覺和言語侵犯！

【花Young貴陽】春日限定！十里河灘海棠花盛開引客來

高考地理中的湖岸沉積

伊朗發射3800公里射程的導彈最令美軍戰栗的細節披露

伊朗發射3800公里射程的導彈最令美軍戰栗的細節披露

小鵬汽車2025年Q4盈利凈賺3.8億全年營收767億