前陣子被捧上神壇的OpenClaw,現(xiàn)在已經(jīng)成了人人喊打的吞金獸。
很多人把問題歸咎于大模型不夠聰明,或者開源項目 Bug 太多。但我們體驗一周后,可以明確告訴大家:都不是。核心原因就倆字:錯配。
龍蝦有很多創(chuàng)新,從心跳保活機制到全屏信息識別接管無 API 軟件,再到單模型全場景默認配置的算力濫用,OpenClaw 從誕生起就是為開發(fā)者調(diào)試而設(shè)計的,壓根沒料到會破圈到我們普通人手上。
![]()
OpenClaw三大Token黑洞
這種設(shè)計場景和使用場景的嚴重錯配,才是它越養(yǎng)越貴、越用越蠢的根本原因。
今天我們就來拆解龍蝦這三大致命 Token 黑洞,講講 OpenClaw 的進化方向,幫你判斷到底要不要養(yǎng)龍蝦、又該怎么養(yǎng)。歡迎來到《這事鈦大了》。
首先是第一大Token黑洞:心跳保活機制。它是開發(fā)者的神器,也是很多人一覺醒來欠費幾百塊的罪魁禍首。它的設(shè)計初衷是通過定時同步數(shù)據(jù),讓AI了解電腦的實時狀態(tài)。這也是 OpenClaw 能像人類一樣接管電腦的關(guān)鍵。對開發(fā)者來說,它主要解決了兩大難題:
一是環(huán)境對齊,通過定期同步屏幕和剪貼板,大模型始終能知道電腦當(dāng)下發(fā)生了啥,收到命令就能無縫執(zhí)行,不至于出現(xiàn)狀態(tài)斷層;二是保障長任務(wù)穩(wěn)定,在數(shù)據(jù)爬取、跨表格生成這種動不動幾個小時的長周期任務(wù)里,心跳機制能避免因為網(wǎng)絡(luò)波動或者模型超時導(dǎo)致任務(wù)崩盤,原理類似微信文件的斷點續(xù)傳。
![]()
龍蝦完整技術(shù)架構(gòu)圖 引自ByteMonk
這個面向開發(fā)者的創(chuàng)新,之所以會成為普通用戶的Token黑洞,關(guān)鍵在于大模型的底層技術(shù)邏輯。Transformer 架構(gòu)本身是無狀態(tài)的,每次見面都會忘記你是誰,所以大模型每次 API 調(diào)用,必須帶上完整上下文才能正常運行。
每次心跳校驗,都要上傳屏幕 OCR 結(jié)果、會話摘要等全量數(shù)據(jù),閑置開銷甚至超過實際干活的花費。
之所以這么設(shè)計,是因為開發(fā)場景對穩(wěn)定性要求極高,一次重度任務(wù)中斷可能意味著幾天白忙。但咱普通人不靠這玩意賺錢,所以根本燒不起。
更離譜的是,為了避免AI人設(shè)崩塌,龍蝦每次打包的上下文里,除了實時屏幕畫面和對話信息,還必須捆綁 AGENT.md 和 SOUL.md 里幾千字的固定配置文件。就像老板每次給員工派活,都要先逼他背一遍公司章程一樣。 這筆高頻繳納的系統(tǒng)提示詞稅,也導(dǎo)致Token消耗直接起飛。
![]()
龍蝦記憶層架構(gòu) 引自ByteMonk
新手優(yōu)化方法有兩個。
一是調(diào)低心跳頻率,把默認間隔拉長到幾小時,沒有任務(wù)時直接關(guān)閉心跳。
二是分層運行,用本地小模型處理心跳任務(wù),只有在遇到需要強推理的復(fù)雜任務(wù)時,再呼叫云端GPT、Claude這類大模型。
此外,業(yè)界也在探索更高效的解決方案。
第一種是上下文緩存技術(shù),能直接砍掉八九成消耗,原理是在云端 API 把系統(tǒng)提示詞、歷史對話標(biāo)記為固定前綴生成緩存,后續(xù)心跳只需要傳輸增量信息,模型復(fù)用緩存就能跳過重復(fù)計算。目前主流API已經(jīng)跟進類似設(shè)計,可這些緩存的存活時長往往只有5到10分鐘,你想用低成本緩存,反而要調(diào)高心跳頻率,不然緩存過期就白費了。總之變著法讓你多掏錢。
第二種方案更徹底,那就是把龍蝦的按時輪詢改成事件驅(qū)動模式。主流思路有兩種,一是把屏幕監(jiān)控這類任務(wù)直接交給Windows等操作系統(tǒng),只有微信彈窗之類特定事件觸發(fā)時才喚醒模型,但這條路需要完善生態(tài),還要做好用戶隱私保障。
二是視覺差分攔截,用SSIM結(jié)構(gòu)相似度等低算力算法提前比對屏幕,畫面沒變化直接取消請求,實現(xiàn)Token零消耗,操作門檻更低。
而OpenClaw的第二大 Token 黑洞,也是它最致命的資源錯配,就是單模型。龍蝦默認用同一個大模型處理全場景所有請求。
如果你為了省錢,選擇包月套餐,會發(fā)現(xiàn)很多AI廠家為了控制成本,給你的都是10B以下的小模型,任務(wù)執(zhí)行智商直線下降,需要你時刻跟在模型屁股后面糾錯。本來想靠 AI 偷懶,反而讓自己成了AI的保姆。
可如果你選擇高價接入深度思考模型,又會發(fā)現(xiàn)它們的強項是復(fù)雜邏輯推理、長流程規(guī)劃和異常處理等高難度工作。但在實際運行中,這些模型卻要承擔(dān)大量常規(guī)調(diào)度、固定流程觸發(fā)之類機械性操作。關(guān)鍵是OpenClaw已經(jīng)內(nèi)置了像素級鍵鼠控制和窗口管理能力,模型只需要輸出標(biāo)準化指令。用頂級大模型干這種粗活,不只是大材小用,還會帶來兩個致命副作用:
第一,執(zhí)行準確率不升反降。高端深度模型思維鏈更長、發(fā)散性更強,面對簡單的機械操作很容易陷入過度推理,加上普通用戶大多不會設(shè)置場景化硬約束,點一下就能搞定的事,往往會反復(fù)出錯。
第二,Token消耗猛漲。深度模型處理簡單操作時,也會生成大量無用的推理和說明內(nèi)容,不僅白白消耗 Token、增加成本,還會占滿上下文窗口,拖慢任務(wù)執(zhí)行速度。
![]()
龍蝦Gateway 網(wǎng)關(guān)層架構(gòu) 引自ByteMonk
所以,并不是大模型不夠聰明,而是沒做好算力分層,把聰明用錯了地方。
優(yōu)化思路就是讓對的模型干對的事,把機械執(zhí)行類的工作,交給10B參數(shù)以內(nèi)的輕量化專用模型處理,像Qwen2-VL-7B之類多模態(tài)模型,顯存只需要5-6GB,推理速度快,服從性也高。只有到需要動腦子的復(fù)雜場景,才去調(diào)用昂貴的頂級深度思考模型,把好鋼用在刀刃上。
這套大小模型分層協(xié)同的優(yōu)化思路,像微軟 AutoGen、阿里通義 AgentScope、百度智能云 AgentBuilder 等全球頭部 AI 智能體框架都有嘗試,是業(yè)內(nèi)公認的降本提效方向之一。
OpenClaw 最后一個 Token 黑洞,是無差別的全屏掃描。
龍蝦能從眾多AI 智能體中殺出重圍,靠的就是強悍的端側(cè)計算機視覺能力:依托全屏掃描與 OCR 識別,它能像人一樣盯屏操作,精準定位操作按鈕、自動操控鍵鼠,還能強制接管沒開放 API 的本地軟件,這是它的核心優(yōu)勢,也是吞噬 Token 的黑洞
由于默認全量掃描屏幕,龍蝦并不能區(qū)分有效信息與冗余內(nèi)容,哪怕只是簡單的“打開瀏覽器” ,屏幕邊角的廣告甚至桌面壁紙,都會被全部識別打包傳給模型。
更要命的是,大模型的圖像計費邏輯與文本完全不同,它的Token消耗是和屏幕分辨率掛鉤的。在 ViT 架構(gòu)的底層邏輯中,模型無法像人眼那樣一眼掃全圖,必須把高清截圖拆分為512×512 像素的區(qū)塊逐一運算。像4K或者帶魚屏,哪怕截圖里就一個確認按鈕,也會被拆成數(shù)十個區(qū)塊,大量算力浪費在無效像素上,單次Token消耗直接飆升到幾千。
目前這個問題還沒有特別完善的解決方案,有開發(fā)者選擇激活窗口聚焦,只掃描當(dāng)前操作窗口;也有人在研發(fā)非交互元素過濾,只識別可操作控件。像Anthropic 采用的 Computer Use 計算機控制,則通過“像素計數(shù)”設(shè)計,把電腦屏幕畫面映射成了一個二維坐標(biāo)網(wǎng)格。識別后能直接返回X軸和Y軸的精準操作坐標(biāo),不需要額外的視覺定位步驟,交互邏輯更接近人類操作。
![]()
龍蝦執(zhí)行層架構(gòu) 引自ByteMonk
講到這里,大家應(yīng)該明白了。普通用戶頭疼的這三大Token黑洞,其實就是openclaw給開發(fā)者群體準備的三大創(chuàng)新。
技術(shù)沒有原罪,錯配才是原罪。龍蝦很好,問題是它并不是給我們普通人準備的。要想真正解決上述問題,你必須把自己變成開發(fā)者,去不斷折騰和優(yōu)化。
如果覺得上述操作太麻煩,想直接上手大廠現(xiàn)成產(chǎn)品,我們后續(xù)也會推出全維度橫向測評,幫你選出最靠譜的成品方案。后續(xù)鈦媒體AGI還將持續(xù)圍繞 OpenClaw 的全場景使用,推出更多深度評測內(nèi)容。感謝你的關(guān)注,我們下期見。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.