網易首頁 > 網易號 > 正文申請入駐

Clawdbot 之后，我們離能規?；涞氐?Agent 還差什么？

2026-02-03 20:39:59　來源: FounderPark

北京舉報

分享至

OpenClaw （原名 Clawdbot）爆火。

對于個人極客來說，OpenClaw 是有趣的。但對于企業和商業環境來說，問題立刻暴露：昂貴（燒 Token）、不可控（安全邊界模糊）、存在隱私問題，且難以協作。

可以說，目前的 Agent 更多還是驚艷的 Demo，不是可以規?；漠a品。

Monolith 礪思資本辦了一場「After the Model」技術沙龍，聊了聊：Agent 離規模化落地還有哪些難題？

在活動中，一個被反復提及的觀點是：Agent 需要是一個可持續工作的系統，而非單次任務的跑通。

這意味著，光有「模型智力」是遠遠不夠的。想跨過工程這條鴻溝，必須還要「死磕」這幾個硬指標：穩定性、高吞吐量、成本控制、精確的狀態管理。

以下是活動的一些核心 Insight，供從業者參考。

??關注 Founder Park，最及時最干貨的創業分享

Founder Park 聯合扣子，舉辦了一場 Skill 招募大賽。如果你手里有一套在用、能交付結果的方法論，很適合來試試！

歡迎飛書掃碼加群：

進群后，你有機會得到：

可落地的 Skill 搭建方法
從一個想法或一套 SOP，拆解成真正能跑起來的 Skill

Skill 的展示與放大通道
不只是自己用，而是被更多人看到、用到

被看見后的實際激勵
好的 Skill，有機會獲得明確回報

01教模型做事的成本太高，

不能用黃金蓋平房

任何系統的可持續性，最終都得回歸到單位經濟模型（UE）。如果 Agent 創造的價值覆蓋不了它消耗的成本，那么無論模型多么先進，這個系統在商業上都是不可持續的。

當前 Agent 的門檻主要存在于數據與設施上。

在 SFT（監督微調）模式下，我們依賴人類專家來教模型做事。但在 GUI Agent（讓 AI 操作電腦界面）這種高門檻任務中，這種依賴變成了難以承受的負擔。

為了獲得高質量的 GUI 任務數據，部分從業者發現，他們需要雇傭「985 高校的高年級博士生」來進行標注，而即使是這樣高水平的人力，標注一條數據也需要耗費 20 分鐘。

這種高昂的時間與人力成本直接限制了數據的規模，團隊最終只標注了 200 多個任務，無法進一步擴大。

簡單點說，我們實際上正在用黃金蓋平房——依靠堆砌專家人力來換取智能的提升，在復雜 Agent 場景下是不可持續的。

這反向逼迫行業必須轉向 RL（強化學習）——讓 Agent 在虛擬環境里自己試錯、自我博弈，擺脫對昂貴人工數據的依賴。只有這樣，才能把數據成本從"按人頭算"變成"按算力算"，實現邊際成本的下降。

但是，RL 的門檻也不低。

傳統的工業級 RL 訓練往往依賴龐大的算力集群。即使是經過優化的訓練流程，仍然需要 16 張顯卡（8 卡采樣、8 卡訓練）以及大量的 CPU 資源來支撐仿真環境。

對于大多數中小企業或學術團隊而言，這是一筆不菲的開銷。如果無法通過 RL 實現數據的自我生成，Agent 的商業模式會被高昂的人力成本直接鎖死。

破局的關鍵是構建高仿真環境，讓 Agent 通過自主探索產生海量交互數據，再通過設計有效的獎勵信號，用 RL 訓練出更強的策略。

02光速的 GPU 算力，

但被迫在龜速的操作系統上訓 Agent

當前 Agent 訓練面臨的悖論還有：光速的 GPU 算力，配上了龜速的操作系統。

在傳統的 RL 任務（比如下棋、打游戲）中，環境反饋是毫秒級的，步長短、速度快。

但在 GUI Agent 場景下，Agent 執行一個動作——比如在虛擬機里點擊 Excel 按鈕——需要經歷"虛擬機渲染→截屏→圖像回傳→視覺模型處理"的漫長鏈路。

實際訓練中，完成一個 Step 的交互甚至需要30 秒以上，令人難以忍受。

極高的延遲又進一步導致了計算資源的極度浪費——在傳統的 RL 流程中，架構通常是緊耦合的。這意味著，當 GPU 在更新模型時，環境在等待；而當環境在采樣數據時，GPU 又在空轉。

這種時空的錯配、互相阻塞導致了極低的計算利用率。

除了速度慢，環境的復雜度也呈指數級上升。

不同于文本生成，GUI Agent 面臨的是一個像素級（Pixel-level）的動作空間，理論上它可以在屏幕上的任意坐標進行點擊或拖拽，這使得動作空間接近無限。

這使得獎勵極為稀疏。比如"將 Excel 內容打印為 PDF"這樣的任務，Agent 需要連續執行幾十個步驟。在這個過程中，環境往往一片死寂，不會告訴 Agent 中間某次點擊是對是錯，只有最后一步才能得到結果。

這種「長程視野 + 稀疏反饋 + 無限空間」的組合，構成了 Agent 所在環境的真實面貌——它是一個充滿了摩擦的環境。我們不能再用訓練聊天機器人的邏輯來訓練 Agent。

對于創業公司而言，這意味著必須投入資源去構建仿真訓練環境，這比單純購買 H100 顯卡更考驗團隊的技術沉淀。

03基礎設施：太重、太貴、玩不起

如何解決環境問題？

在現場，不同的分享者分別從橫向擴展與縱向輕量化兩個維度，給出了 Infra 重構的答案：解耦（Decoupling）。

橫向解耦：打破采樣與訓練的同步鎖

面對 GUI Agent 交互速度極慢的問題，有研究者提出了一種名為 Dart（Decoupled Agent RL）的框架。

其核心邏輯是將采樣端與訓練端在物理上徹底分開。

在這一架構下，采樣端不再等待模型更新，而是利用 Kubernetes（K8s）并行啟動上百個 Docker 容器作為 Environment，持續不斷地生產軌跡數據。數據通過一個基于 MySQL 的軌跡管理器進行異步調度，再輸送給訓練端。

這種設計雖然引入了 Off-policy（數據和模型不同步）的挑戰，需要通過數據篩選機制來平衡，但收益是巨大的，至少有三層：

消除了 GPU 等待環境反饋的空轉時間
實現了 5.5 倍的環境利用率提升
整體訓練吞吐量翻了近一倍

這也意味著，Agent 的 Infra 必須具備處理異步數據流的能力，而非傳統的同步批處理，將訓練過程轉變成了一個持續流動的、高吞吐的流水線。

Dart 框架

縱向解耦：降低算力門檻

Infra 的另一個痛點在于「重」。

現有的工業級框架（如 Verl, OpenRLHF）往往針對大規模集群，代碼量龐大且模塊耦合嚴重，對于學術界或資源受限的初創團隊而言，修改算法邏輯或適配小規模集群的門檻極高。

另一位研究者展示了輕量化的解耦思路——開發模塊化框架，將算法邏輯、模型架構與分布式引擎分離。

這種 RL-Centric 的設計理念，把工程復雜度封裝在模塊邊界內，實現了"邏輯即實現"——研究者可以像搭積木一樣，通過插件化配置自由組合 GAE、GRPO、PPO 等算法組件，大幅降低了處理底層分布式的負擔。

同時他們還通過 CPU Offload 技術實現了顯存復用——推理采樣時將訓練參數卸載至 CPU，優化更新時再加載回 GPU，顯著降低了硬件門檻。

RLLaVA 框架

所有這些技術細節背后的邏輯都趨于一致：要讓 AI Agent 可行，首先得把它的工位（基礎設施）配齊?，F有的工具太重、太貴、太慢。因此，我們需要更輕量、模塊化的中間件，讓中小團隊也能玩得起 Agent 訓練。

這也正是 Infra 領域的創業機會。

04Long Context 并不等同于記憶

算力和環境之外，另一個問題是狀態管理。

Transformer 架構雖然強大，但它缺乏可讀寫存儲器，無法顯式地存儲或更新中間的推理狀態，也沒有循環或遞歸機制。

在處理簡單問答時，這種無狀態特性不是大問題；但在面對復雜的軟件開發或長程邏輯推理時，這種缺陷是致命的。

由于缺乏對推理狀態的有效管理，模型在解決復雜遞歸任務時，往往會出現推理鏈路斷裂或邏輯漂移。

這些問題，相信重度使用 AI 的用戶都能感受到。

學術界與工業界也正在嘗試從架構底層進行修補。諸如Mamba 等 State Space Models（SSM）、Linear Attention 機制、Stack 機制，正在成為解決這一問題的熱門方向。

這些新架構試圖通過更高效的狀態壓縮與傳遞機制，讓模型具備原生的狀態推演能力，從而彌補 Transformer 在長程狀態管理上的先天不足。

另一個思路是改變推理的載體。當前大多數 Agent 依賴自然語言進行思維鏈推理，但自然語言在精確計算和狀態追蹤上有局限。

一種思路是讓模型學會用代碼思考——代碼天然具備變量、函數和邏輯流，比自然語言更適合精確的狀態管理。

Code Thinking

在工程落地層面，一個常見誤區是把 Long Context（長上下文）等同于"記憶"。但單純拉長上下文窗口既不經濟也不實用。

實際場景中，記憶被劃分為兩類：用戶側記憶和執行側記憶。前者類似傳統用戶畫像，記錄用戶偏好和基本信息，大多數 AI 客服已具備雛形。后者是 Agent 自我進化的關鍵——不僅要記住「用戶是誰」，更要記住「我上次是如何完成任務的」，包括執行軌跡和經驗教訓。

當再次遇到類似任務時，Agent 應能復用成功路徑或規避踩過的坑，而非從零開始。

在記憶架構上，一種思路是將其設計為file system 式的分層存儲。當 Agent 需要回顧時，它執行的是讀取文件的操作，而非在上下文窗口中大海撈針。

對于一個系統而言，「記憶」的本質不應該是記住所有的對話歷史，而是能夠像計算機一樣，精確地管理每一個變量的周期與狀態。

總而言之，對于企業級應用來說，客戶不在乎你的上下文窗口有多長，只在乎 AI 能不能記住「我上次說過什么」以及「公司的業務規則是什么」諸如此類問題。

解決健忘問題，是 Agent 從玩具走向企業級員工的入場券。

05護城河變了，

贏家也會變

盡管這場沙龍是一場偏向技術、工程層面的交流，但我們仍能從中提取出很多信號。

過去我們認為護城河在于模型本身，但隨著開源模型能力的快速逼近，護城河正在從"單點模型能力"向"系統整合能力"擴展。

未來的贏家，不一定是模型最強的團隊，而是那些能通過優秀的 Infra 架構、低成本的數據閉環和高效的記憶管理，最大化釋放模型能力的團隊。工程化能力正在成為新的差異化來源。

其次，我們需要注意，賣鏟子的邏輯變了，Agent Infra 是被低估的洼地。

正如沙龍中所討論到的，為了讓 Agent 真正落地，我們需要全新的基礎設施，不是傳統的云計算，而是專門為 Agent 設計的諸如異步訓練框架、解耦的采樣環境和向量化記憶文件系統之類的 Agent Native Infra。

目前的 Agent 開發棧依然非常原始。這意味著，誰能為 Agent 開發者提供好用的「IDE」、「調試器」和「虛擬訓練場」，誰就有機會成為 AI 2.0 時代的 Databricks 或 Snowflake。

最后，隨著 GUI 等復雜場景的出現，人工標注的成本顯然已不可持續。

未來的數據壁壘，不再是誰爬取了更多的互聯網文本，而是誰能構建更逼真的仿真環境，讓 Agent 在其中自我博弈、自我進化。這種通過 RL 產生的高質量合成數據，將是下一階段最稀缺的資源。

我們永遠處在一個不斷出現噪音，排出噪音的商業環境中，Agent 的深水區才剛剛開始。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

超級創業者時代：如何讓個人擁有組織級能力

36氪 2026-03-19 15:50:57
0 跟貼 0
馮侖：累成狗還快樂的人，算是活明白了

馮侖風馬牛 2026-03-16 12:03:43
1 跟貼 1

企業家心靈空間的三座大山：身體山、事業山、關系山丨企業家幸福課

吳曉波頻道 2026-03-26 08:34:02
0 跟貼 0

小模型讀書大模型思考：上海AI Lab提出新知識推理解耦方法DRIFT

機器之心Pro 2026-03-16 11:33:51
2 跟貼 2
明明是兩個不同的齒輪，轉起來卻能絲滑通過，這算法真絕了！

搞笑大蘑菇 2026-03-27 13:35:59
164 跟貼 164

未來一年大模型的關鍵詞是什么？小米MiMo大模型負責人羅福莉：“進化”

每日經濟新聞 2026-03-27 18:26:29
46 跟貼 46

供應鏈管理數智化的殘酷真相：99%的失敗，與那1%的“唯一解”

鈦媒體APP 2026-03-05 19:29:15
0 跟貼 0
算法堡壘與數字騎士：從美以伊沖突看“軍事革命”

第一財經資訊 2026-03-27 17:51:07
0 跟貼 0

霍爾木茲海峽"鎖死"全球能源五角大樓醞釀"致命一擊"

上游新聞 2026-03-27 22:22:04
8931 跟貼 8931
從工業體系看常規戰爭中東大為何難被戰勝的底層邏輯

Boba奔波兒灞 2026-03-26 01:16:42
1 跟貼 1
從“養蝦”狂歡到落地“最后一公里”：騰訊智能體走向深水區

每日經濟新聞 2026-03-28 16:13:14
0 跟貼 0
Agent的苦澀覺醒：智能正從語言走向經驗

華爾街見聞官方 2026-03-02 09:43:30
8 跟貼 8
“龍蝦”出現后，大模型時代的共識被推翻了

虎嗅APP 2026-03-28 02:41:40
741 跟貼 741
GitHub修改Copilot隱私政策：4月24日起默認使用用戶交互數據訓練AI

鈦媒體APP 2026-03-27 09:20:08
7 跟貼 7
Harness發威！Claude被榨干的秘訣公開了

智東西 2026-03-26 20:57:04
0 跟貼 0
黑客帝國在谷歌成真？絕密AI曝光: 服務器擠爆，布林狂肝代碼不停

新智元 2026-03-28 11:44:54
6 跟貼 6
國產玩家亮劍世界模型！把全模態卷到頂后，天工AI不藏了

量子位 2026-03-27 22:05:37
1 跟貼 1
龍蝦為啥越養越貴，越用越蠢？

鈦媒體APP 2026-03-28 19:53:33
0 跟貼 0
谷歌干掉「請再說一次」！Gemini 3.1毫秒級接話，實時Agent時代來了

新智元 2026-03-28 11:43:16
6 跟貼 6
社會模擬邁入可控、可量化時代：為AI Agent加上「認知滑條」

機器之心Pro 2026-03-27 17:03:16
0 跟貼 0
深度｜華為 AI，迎來大變

新智元 2026-03-28 17:07:57
1 跟貼 1
動點，隱圓，函數圖象，全部都考到了！

大鵬老師講數學 2026-03-28 05:27:00
0 跟貼 0
732M模型超越7B！機器人操控新范式：從視頻中「悟」物理

新智元 2026-03-27 21:37:19
0 跟貼 0
國務院食安辦、市場監管總局約談相關地方市級人民政府負責人督辦“3?15”晚會曝光問題整改

新京報 2026-03-28 19:17:17
9 跟貼 9
清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0
SpatialActor通過解耦語義與幾何，為具身智能注入強魯棒空間基因

機器之心Pro 2025-12-05 13:50:29
0 跟貼 0
AEPO：智能體熵平衡策略優化，讓探索更穩，推理更深！

機器之心Pro 2025-11-04 13:44:22
0 跟貼 0
小哥幫老媽地里插秧，用木棍組裝框架，這辦法插秧快多了！

松離搞笑家 2026-03-28 17:14:33
1 跟貼 1
刷屏的機器人，還困在「數據流水線」里

36氪 2026-02-11 12:00:06
0 跟貼 0
遠程團隊3年踩坑：把辦公室習慣搬進Zoom，協作效率暴跌40%

我是一個粉刷匠2 2026-03-28 11:48:34
0 跟貼 0
開發商算錯賬：AI房產App有3層成本，第3層吃掉35%預算

全棧遛狗員 2026-03-28 12:07:04
0 跟貼 0
對話南理工楊劍飛：機器人走進家庭之前，必須先學會如何與人共處

DeepTech深科技 2025-12-28 18:38:06
0 跟貼 0
銀河通用機器人“表演”變“上崗”，端到端大模型銀河星腦有多強

量子位 2026-02-18 10:56:58
0 跟貼 0
印度又官宣自研五代機！17年就憋出個模型，能趕超中美俄嗎？

浩然簡史 2026-03-28 16:39:42
0 跟貼 0
生存游戲大挑戰，沒有算法全憑運氣，活下來就能一夜暴富

小叮當剪輯 2026-03-27 08:31:06
0 跟貼 0
廣州：下周一起，公立醫院掛號費調整

南方都市報 2026-03-28 11:52:00
1274 跟貼 1274
GLM-5.1上線，編程表現貼Opus 4.6開大，Coding plan瞬間斷貨

量子位 2026-03-28 14:04:04
31 跟貼 31
深圳龍華文體中心游泳館的負責人可能也挺鬧心的吧

歲月有情1314 2026-03-28 17:21:10
2 跟貼 2
CVPR 2026 | ReFTA：打破張量化PEFT的「權重重建」瓶頸

機器之心Pro 2026-03-27 10:27:53
0 跟貼 0
54張撲克牌的含義，打斷腿也得知道，竟然還有這種算法

搞笑童蒙弟 2026-03-27 08:37:49
1 跟貼 1

FounderPark

關注AI創業，專注和創業者聊真問題

1184文章數 160關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

本地

旅游

數碼

健康

手機 / 數碼

房產 / 家居

Clawdbot 之后，我們離能規?；涞氐?Agent 還差什么？

臥底"科技與狠活"培訓:化工調味劑泛濫

美媒：和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

美媒：和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

“我是全家最差勁的運動員”

陳牧馳陳冰官宣得子 曬一家三口握拳照

華為盤古大模型負責人王云鶴確認離職

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

和田曦薇一樣嫩嘟嘟，這3個變美技巧你一定不能錯過！

在濰坊待了三天，沒遇到一個“濰坊人”

好用的男士剃須刀哪個牌子好？綜合表現出眾的十大剃須刀排名甄選

干細胞抗衰4大誤區,90%的人都中招

Clawdbot 之后，我們離能規?；涞氐?Agent 還差什么？

美媒：和歐盟"外長"發生激烈交鋒魯比奧"顯然很惱火"

美媒：和歐盟"外長"發生激烈交鋒魯比奧"顯然很惱火"

陳牧馳陳冰官宣得子曬一家三口握拳照

置換補貼價4.28萬起第五代宏光MINIEV正式上市

和田曦薇一樣嫩嘟嘟，這3個變美技巧你一定不能錯過！

在濰坊待了三天，沒遇到一個“濰坊人”

好用的男士剃須刀哪個牌子好？綜合表現出眾的十大剃須刀排名甄選