337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Clawdbot 之后,我們離能規?;涞氐?Agent 還差什么?

0
分享至

OpenClaw (原名 Clawdbot)爆火。

對于個人極客來說,OpenClaw 是有趣的。但對于企業和商業環境來說,問題立刻暴露:昂貴(燒 Token)、不可控(安全邊界模糊)、存在隱私問題,且難以協作。

可以說,目前的 Agent 更多還是驚艷的 Demo,不是可以規?;漠a品。

Monolith 礪思資本辦了一場「After the Model」技術沙龍,聊了聊:Agent 離規模化落地還有哪些難題?

在活動中,一個被反復提及的觀點是:Agent 需要是一個可持續工作的系統,而非單次任務的跑通。

這意味著,光有「模型智力」是遠遠不夠的。想跨過工程這條鴻溝,必須還要「死磕」這幾個硬指標:穩定性、高吞吐量、成本控制、精確的狀態管理。

以下是活動的一些核心 Insight,供從業者參考。

??關注 Founder Park,最及時最干貨的創業分享

Founder Park 聯合扣子,舉辦了一場 Skill 招募大賽。如果你手里有一套在用、能交付結果的方法論,很適合來試試!

歡迎飛書掃碼加群:

進群后,你有機會得到:

  • 可落地的 Skill 搭建方法

    從一個想法或一套 SOP,拆解成真正能跑起來的 Skill

  • Skill 的展示與放大通道

    不只是自己用,而是被更多人看到、用到

  • 被看見后的實際激勵

    好的 Skill,有機會獲得明確回報

01教模型做事的成本太高,

不能用黃金蓋平房

任何系統的可持續性,最終都得回歸到單位經濟模型(UE)。如果 Agent 創造的價值覆蓋不了它消耗的成本,那么無論模型多么先進,這個系統在商業上都是不可持續的。

當前 Agent 的門檻主要存在于數據與設施上。

在 SFT(監督微調)模式下,我們依賴人類專家來教模型做事。但在 GUI Agent(讓 AI 操作電腦界面)這種高門檻任務中,這種依賴變成了難以承受的負擔。

為了獲得高質量的 GUI 任務數據,部分從業者發現,他們需要雇傭「985 高校的高年級博士生」來進行標注,而即使是這樣高水平的人力,標注一條數據也需要耗費 20 分鐘。

這種高昂的時間與人力成本直接限制了數據的規模,團隊最終只標注了 200 多個任務,無法進一步擴大。

簡單點說,我們實際上正在用黃金蓋平房——依靠堆砌專家人力來換取智能的提升,在復雜 Agent 場景下是不可持續的。

這反向逼迫行業必須轉向 RL(強化學習)——讓 Agent 在虛擬環境里自己試錯、自我博弈,擺脫對昂貴人工數據的依賴。只有這樣,才能把數據成本從"按人頭算"變成"按算力算",實現邊際成本的下降。

但是,RL 的門檻也不低。

傳統的工業級 RL 訓練往往依賴龐大的算力集群。即使是經過優化的訓練流程,仍然需要 16 張顯卡(8 卡采樣、8 卡訓練)以及大量的 CPU 資源來支撐仿真環境。

對于大多數中小企業或學術團隊而言,這是一筆不菲的開銷。如果無法通過 RL 實現數據的自我生成,Agent 的商業模式會被高昂的人力成本直接鎖死。

破局的關鍵是構建高仿真環境,讓 Agent 通過自主探索產生海量交互數據,再通過設計有效的獎勵信號,用 RL 訓練出更強的策略。

02光速的 GPU 算力,

但被迫在龜速的操作系統上訓 Agent

當前 Agent 訓練面臨的悖論還有:光速的 GPU 算力,配上了龜速的操作系統。

在傳統的 RL 任務(比如下棋、打游戲)中,環境反饋是毫秒級的,步長短、速度快。

但在 GUI Agent 場景下,Agent 執行一個動作——比如在虛擬機里點擊 Excel 按鈕——需要經歷"虛擬機渲染→截屏→圖像回傳→視覺模型處理"的漫長鏈路。

實際訓練中,完成一個 Step 的交互甚至需要30 秒以上,令人難以忍受。

極高的延遲又進一步導致了計算資源的極度浪費——在傳統的 RL 流程中,架構通常是緊耦合的。這意味著,當 GPU 在更新模型時,環境在等待;而當環境在采樣數據時,GPU 又在空轉。

這種時空的錯配、互相阻塞導致了極低的計算利用率。

除了速度慢,環境的復雜度也呈指數級上升。

不同于文本生成,GUI Agent 面臨的是一個像素級(Pixel-level)的動作空間,理論上它可以在屏幕上的任意坐標進行點擊或拖拽,這使得動作空間接近無限。

這使得獎勵極為稀疏。比如"將 Excel 內容打印為 PDF"這樣的任務,Agent 需要連續執行幾十個步驟。在這個過程中,環境往往一片死寂,不會告訴 Agent 中間某次點擊是對是錯,只有最后一步才能得到結果。

這種「長程視野 + 稀疏反饋 + 無限空間」的組合,構成了 Agent 所在環境的真實面貌——它是一個充滿了摩擦的環境。我們不能再用訓練聊天機器人的邏輯來訓練 Agent。

對于創業公司而言,這意味著必須投入資源去構建仿真訓練環境,這比單純購買 H100 顯卡更考驗團隊的技術沉淀。

03基礎設施:太重、太貴、玩不起

如何解決環境問題?

在現場,不同的分享者分別從橫向擴展與縱向輕量化兩個維度,給出了 Infra 重構的答案:解耦(Decoupling)。

橫向解耦:打破采樣與訓練的同步鎖

面對 GUI Agent 交互速度極慢的問題,有研究者提出了一種名為 Dart(Decoupled Agent RL)的框架。

其核心邏輯是將采樣端與訓練端在物理上徹底分開。

在這一架構下,采樣端不再等待模型更新,而是利用 Kubernetes(K8s)并行啟動上百個 Docker 容器作為 Environment,持續不斷地生產軌跡數據。數據通過一個基于 MySQL 的軌跡管理器進行異步調度,再輸送給訓練端。

這種設計雖然引入了 Off-policy(數據和模型不同步)的挑戰,需要通過數據篩選機制來平衡,但收益是巨大的,至少有三層:

  • 消除了 GPU 等待環境反饋的空轉時間

  • 實現了 5.5 倍的環境利用率提升

  • 整體訓練吞吐量翻了近一倍

這也意味著,Agent 的 Infra 必須具備處理異步數據流的能力,而非傳統的同步批處理,將訓練過程轉變成了一個持續流動的、高吞吐的流水線。


Dart 框架

縱向解耦:降低算力門檻

Infra 的另一個痛點在于「重」。

現有的工業級框架(如 Verl, OpenRLHF)往往針對大規模集群,代碼量龐大且模塊耦合嚴重,對于學術界或資源受限的初創團隊而言,修改算法邏輯或適配小規模集群的門檻極高。

另一位研究者展示了輕量化的解耦思路——開發模塊化框架,將算法邏輯、模型架構與分布式引擎分離

這種 RL-Centric 的設計理念,把工程復雜度封裝在模塊邊界內,實現了"邏輯即實現"——研究者可以像搭積木一樣,通過插件化配置自由組合 GAE、GRPO、PPO 等算法組件,大幅降低了處理底層分布式的負擔。

同時他們還通過 CPU Offload 技術實現了顯存復用——推理采樣時將訓練參數卸載至 CPU,優化更新時再加載回 GPU,顯著降低了硬件門檻。


RLLaVA 框架

所有這些技術細節背后的邏輯都趨于一致:要讓 AI Agent 可行,首先得把它的工位(基礎設施)配齊?,F有的工具太重、太貴、太慢。因此,我們需要更輕量、模塊化的中間件,讓中小團隊也能玩得起 Agent 訓練。

這也正是 Infra 領域的創業機會。

04Long Context 并不等同于記憶

算力和環境之外,另一個問題是狀態管理。

Transformer 架構雖然強大,但它缺乏可讀寫存儲器,無法顯式地存儲或更新中間的推理狀態,也沒有循環或遞歸機制。

在處理簡單問答時,這種無狀態特性不是大問題;但在面對復雜的軟件開發或長程邏輯推理時,這種缺陷是致命的。

由于缺乏對推理狀態的有效管理,模型在解決復雜遞歸任務時,往往會出現推理鏈路斷裂或邏輯漂移。

這些問題,相信重度使用 AI 的用戶都能感受到。

學術界與工業界也正在嘗試從架構底層進行修補。諸如Mamba 等 State Space Models(SSM)、Linear Attention 機制、Stack 機制,正在成為解決這一問題的熱門方向。

這些新架構試圖通過更高效的狀態壓縮與傳遞機制,讓模型具備原生的狀態推演能力,從而彌補 Transformer 在長程狀態管理上的先天不足。

另一個思路是改變推理的載體。當前大多數 Agent 依賴自然語言進行思維鏈推理,但自然語言在精確計算和狀態追蹤上有局限。

一種思路是讓模型學會用代碼思考——代碼天然具備變量、函數和邏輯流,比自然語言更適合精確的狀態管理。


Code Thinking

在工程落地層面,一個常見誤區是把 Long Context(長上下文)等同于"記憶"。但單純拉長上下文窗口既不經濟也不實用。

實際場景中,記憶被劃分為兩類:用戶側記憶執行側記憶。前者類似傳統用戶畫像,記錄用戶偏好和基本信息,大多數 AI 客服已具備雛形。后者是 Agent 自我進化的關鍵——不僅要記住「用戶是誰」,更要記住「我上次是如何完成任務的」,包括執行軌跡和經驗教訓。

當再次遇到類似任務時,Agent 應能復用成功路徑或規避踩過的坑,而非從零開始。

在記憶架構上,一種思路是將其設計為file system 式的分層存儲。當 Agent 需要回顧時,它執行的是讀取文件的操作,而非在上下文窗口中大海撈針。

對于一個系統而言,「記憶」的本質不應該是記住所有的對話歷史,而是能夠像計算機一樣,精確地管理每一個變量的周期與狀態。

總而言之,對于企業級應用來說,客戶不在乎你的上下文窗口有多長,只在乎 AI 能不能記住「我上次說過什么」以及「公司的業務規則是什么」諸如此類問題。

解決健忘問題,是 Agent 從玩具走向企業級員工的入場券。

05護城河變了,

贏家也會變

盡管這場沙龍是一場偏向技術、工程層面的交流,但我們仍能從中提取出很多信號。

過去我們認為護城河在于模型本身,但隨著開源模型能力的快速逼近,護城河正在從"單點模型能力"向"系統整合能力"擴展。

未來的贏家,不一定是模型最強的團隊,而是那些能通過優秀的 Infra 架構、低成本的數據閉環和高效的記憶管理,最大化釋放模型能力的團隊。工程化能力正在成為新的差異化來源。

其次,我們需要注意,賣鏟子的邏輯變了,Agent Infra 是被低估的洼地。

正如沙龍中所討論到的,為了讓 Agent 真正落地,我們需要全新的基礎設施,不是傳統的云計算,而是專門為 Agent 設計的諸如異步訓練框架、解耦的采樣環境和向量化記憶文件系統之類的 Agent Native Infra。

目前的 Agent 開發棧依然非常原始。這意味著,誰能為 Agent 開發者提供好用的「IDE」、「調試器」和「虛擬訓練場」,誰就有機會成為 AI 2.0 時代的 Databricks 或 Snowflake。

最后,隨著 GUI 等復雜場景的出現,人工標注的成本顯然已不可持續。

未來的數據壁壘,不再是誰爬取了更多的互聯網文本,而是誰能構建更逼真的仿真環境,讓 Agent 在其中自我博弈、自我進化。這種通過 RL 產生的高質量合成數據,將是下一階段最稀缺的資源。

我們永遠處在一個不斷出現噪音,排出噪音的商業環境中,Agent 的深水區才剛剛開始。


轉載原創文章請添加微信:founderparker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國民黨內炸鍋!馬英九鄭麗文徹底撕破臉,鄭麗文或成第二個洪秀柱

國民黨內炸鍋!馬英九鄭麗文徹底撕破臉,鄭麗文或成第二個洪秀柱

愛下廚的阿釃
2026-03-27 01:08:12
茉莉花茶也開始割韭菜?張一元高碎都要搶,這是茶還是理財產品?

茉莉花茶也開始割韭菜?張一元高碎都要搶,這是茶還是理財產品?

仙味少女心
2026-03-27 18:55:10
長不大的巨嬰?那不勒斯向盧卡庫發出最后通牒 再不歸隊直接除名

長不大的巨嬰?那不勒斯向盧卡庫發出最后通牒 再不歸隊直接除名

雪狼侃體育
2026-03-28 14:05:08
原來她是張雪峰前妻,90后歷史學博士?,兩人離婚后曾一起上節目

原來她是張雪峰前妻,90后歷史學博士?,兩人離婚后曾一起上節目

大鐵貓娛樂
2026-03-25 13:03:57
“人體藝術”,絕非色情!

“人體藝術”,絕非色情!

文刀萬
2026-03-06 06:05:03
試管嬰兒對女性傷害有多大?網友:同感,只有經歷過的人才會懂

試管嬰兒對女性傷害有多大?網友:同感,只有經歷過的人才會懂

帶你感受人間冷暖
2026-03-15 18:54:19
廣東:堅決擁護黨中央決定

廣東:堅決擁護黨中央決定

新京報
2026-03-27 22:09:18
“這種衣服咋能穿出門?”女孩被3.9萬人圍觀,家教太松不是好事

“這種衣服咋能穿出門?”女孩被3.9萬人圍觀,家教太松不是好事

妍妍教育日記
2026-03-08 08:00:10
央媒點名批評國乒!直擊3大問題,孫穎莎典型案例,王勵勤遇難題

央媒點名批評國乒!直擊3大問題,孫穎莎典型案例,王勵勤遇難題

鳥語花香的季節
2026-03-28 20:59:04
穿過霍爾木茲海峽

穿過霍爾木茲海峽

經濟觀察報
2026-03-28 18:18:18
NBA要動真格!三套反擺爛方案正式出爐,擺爛隊徹底慌了

NBA要動真格!三套反擺爛方案正式出爐,擺爛隊徹底慌了

球童無忌
2026-03-28 23:15:07
一大波救市政策來了!

一大波救市政策來了!

巢客HOME
2026-03-27 21:14:50
婆婆拿走我28萬嫁妝卡說幫保管,我掛失重辦,小姑子打來80通電話

婆婆拿走我28萬嫁妝卡說幫保管,我掛失重辦,小姑子打來80通電話

游戲收藏指南
2026-03-28 21:13:59
70艘貨船被扣留,美方指責中國公報私仇,中方回應反將一軍

70艘貨船被扣留,美方指責中國公報私仇,中方回應反將一軍

你在彼方
2026-03-28 11:26:19
張雪峰追悼會于3月28日上午7點舉行,女兒張姩菡發文緬懷爸爸

張雪峰追悼會于3月28日上午7點舉行,女兒張姩菡發文緬懷爸爸

楠楠自語
2026-03-27 19:03:36
伊媒:伊朗若遭美國地面入侵將打擊曼德海峽

伊媒:伊朗若遭美國地面入侵將打擊曼德海峽

參考消息
2026-03-26 11:02:08
大外交|美國“帶著炸彈談判”,中方密集外交促和:斡旋伊朗局勢的關鍵變量

大外交|美國“帶著炸彈談判”,中方密集外交促和:斡旋伊朗局勢的關鍵變量

澎湃新聞
2026-03-27 22:10:26
2米26徐昕,完勝莫蘭德,球迷:CBA頂級中鋒!

2米26徐昕,完勝莫蘭德,球迷:CBA頂級中鋒!

體育哲人
2026-03-28 20:55:45
你的腎是如何一步步被榨干的?

你的腎是如何一步步被榨干的?

蝌蚪五線譜
2026-03-12 17:45:03
遼寧77-93廣州4壞消息!姜宇星辣眼,三后衛狂鐵,布羅金頓無地位

遼寧77-93廣州4壞消息!姜宇星辣眼,三后衛狂鐵,布羅金頓無地位

籃球資訊達人
2026-03-28 22:09:18
2026-03-29 00:32:49
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
1184文章數 160關注度
往期回顧 全部

財經要聞

臥底"科技與狠活"培訓:化工調味劑泛濫

頭條要聞

美媒:和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

科技要聞

華為盤古大模型負責人王云鶴確認離職

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

時尚
本地
旅游
數碼
健康

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

旅游要聞

泰安市岱岳區萬畝古梨園梨花盛開

數碼要聞

好用的男士剃須刀哪個牌子好?綜合表現出眾的十大剃須刀排名甄選

干細胞抗衰4大誤區,90%的人都中招

無障礙瀏覽 進入關懷版