網易首頁 > 網易號 > 正文申請入駐

羅福莉：各位醒醒吧，該結束token虛假狂歡了

2026-04-07 10:14:49　來源: 硅星人

北京舉報

分享至

作者｜董道力
郵箱｜ dongdaoli@pingwest.com

這兩天，所謂“Anthropic封禁OpenClaw”的報道鋪天蓋地，但事實上Anthropic 是停止了OpenClaw這種第三方產品直接通過Claude Pro等固定付費的訂閱方式來調用能力的路徑。

你真的想用Anthropic 的模型和產品，要么通過官方來使用這種訂閱模式，要么可以使用按量充費的API額度，封禁是沒有封禁，只是限制了調用和對應的“收費”方式。

相比于錯誤理解成“封禁”并第一時間聯想到“過河拆橋”的一堆討論，小米 MiMo 大模型負責人羅福莉的一篇長文是少有的對這個事情真正認真分析，并聊到點子上的。

她認為，Anthropic 的動作并不意外，此前我們一直在一場無法持續的虛假token消耗狂歡里，現在該醒醒了。

訂閱制不適合第三方 Agent

羅福莉首先對 Claude Code 的訂閱設計給出正面評價，認為這是業內少有的、認真對待算力分配問題的產品設計。其邏輯是：輕度用戶用的少，補貼重度用戶，總體均衡。

但她隨即指出，這套邏輯有一個隱藏前提：用戶用的必須是 Anthropic 自己的框架。一旦脫離 Claude Code，就會出問題。

她以 OpenClaw 作為案例，指出第三方 harness 同時破壞了兩個層面的均衡。

第一層是請求次數。她在推文中寫道："我沒辦法嚴格計算第三方 harness 接入造成的損失，但我近距離看過 OpenClaw 的上下文管理，很糟糕。在單次用戶查詢里，它會觸發多輪低價值工具調用，每輪作為獨立 API 請求發出，每個請求攜帶的上下文窗口往往超過 100K tokens。實際請求次數是 Claude Code 原生框架的數倍。折算成 API 定價，真實成本大概是訂閱價格的數十倍。"

簡單說，同一件事，OpenClaw 要跑十趟，原生框架跑一趟。

第二個層面是緩存效率。她在評論區補充道："更大的問題是，很多第三方 harness 在接近上下文長度限制時，每隔幾步就壓縮一次工具返回結果，導致 cache 命中率極低。"

Claude 的緩存機制依賴上下文前綴的一致性，前綴匹配，才能復用緩存、跳過重復計算。但每次壓縮都會改寫上下文內容，導致前綴失配，緩存作廢，模型被迫重新全量讀入。

兩個問題疊在一起，把每一次查詢的實際 token 消耗都推向極值。

OpenClaw 的用戶幾乎清一色是重度用戶，而即便是輕度用戶，通過 OpenClaw 發出的每一次請求，在成本結構上也等同于重度用戶。

訂閱制賴以成立的分布假設就此坍塌，補貼關系不復存在，Anthropic 單方面承擔成本缺口。

就像健身房辦卡，就是賭一些用戶辦了卡但不來，從而補貼天天去健身房用戶的成本，而 OpenClaw 讓每個用戶 7x24 小時的都去高強度訓練，健身房成本就下不來了。

短期陣痛，長期改善工程紀律

而對于用戶的憤怒，羅福莉認為這個短痛是有用的。

她寫道："第三方 harness 還是可以調用 Claude，只是不能再搭訂閱的便車了。短期內，這批用戶會感受到成本沖擊，輕松跳升數十倍。但這個壓力，恰恰會推動這些 harness 去改進上下文管理、最大化 prompt cache 命中率、減少無效 token 消耗。痛苦最終會轉化為工程紀律。"

訂閱制的問題在于，它讓 harness 開發者從來不需要為單次請求的 token 消耗負責。上下文管理差不要緊，cache 命中率低不要緊，反正成本由 Anthropic 的服務器悄悄吸收。

但一旦回到 API 計費，這個結構就變了。token 浪費會直接體現在賬單上，"優化效率"從可做可不做，變成了有商業壓力驅動的工程需求。

每個開發者單獨決策時都傾向于多用，整體生態的調用質量因此持續惡化。計費結構的改變，是把外部性內部化的強制手段。

Tokens 價格戰只會導致惡性循環

相比于感慨Anthropic 過河拆橋，抄襲OpenClaw后要用自己第一方工具收割用戶的討論，羅福莉提出了一個更加有點“皇帝新衣”味道的提醒：

今天單純為了token消耗而狂歡，以及模型廠商們由此出發打的各種價格戰，將難以為繼。是時候醒醒了。

她寫道："我勸 LLM 公司不要在還沒搞清楚 coding plan 怎么定價之前，就跟著降價內卷。低價賣 token、同時向第三方全面開放，對用戶看起來很友好，但那是一個陷阱。Anthropic 剛從這個陷阱里走出來。如果用戶在劣質 harness、不穩定推理服務、降配模型上反復碰壁，最終什么都沒做成，用戶體驗和留存都不會好看。"

這個陷阱的機制是：大模型公司推出 coding plan 向第三方 harness 開放，和 Claude 一樣會入不敷出。為了控制成本，平臺只能降低算力或換用更便宜的低智模型。用戶表面上有充足的額度，但什么都做不好，留存自然也不用說。

問題的根源在于計費結構。Coding Plan 本質上是按訂閱周期加請求次數的粗放額度包，開發者買的是一段時間內的粗略使用權，感受不到單次請求的真實成本。

當第三方 harness 接入時，上下文管理粗放、冗余請求、低 cache 命中率造成的算力浪費，成本完全由平臺默默吸收。

訂閱制切斷了用量與成本之間的信號傳導，重度用戶通過低效 harness 透支的算力，最終迫使平臺要么封禁第三方，要么靠降速、限流、降配模型來止損，這正是 Anthropic 走到今天這一步的路徑。

當然，羅福莉的另一個目的也是為她在小米做的嘗試和方案“做廣告”。

MiMo 的 Token Plan 走的是另一條路。MiMo 沒有封掉第三方入口，而是改變了計費結構：按實際 token 消耗量配額，開發者購買以 Credit 為單位的 token 額度。

無論使用原生框架還是 OpenClaw 等第三方 harness，每一個浪費的 token 都直接從用戶的額度包里扣。平臺不再為低效 harness 買單，用得多付得多，用得糙成本高，"用量-成本"的關系重新透明起來。

她將這套邏輯定位為：不是不讓用，而是讓計費結構本身成為約束機制，推動生態向高效率方向演化。

低價訂閱的問題不在于便宜本身，而在于它切斷了信號傳導。在定價邏輯沒想清楚之前跟進，復制的可能不是 Anthropic 的優勢，而是它剛剛踩過的坑。

競爭正式進入下一個階段

羅福莉在推文最后把視野拉到了更大的框架上。

她寫道："全球算力的供給速度，已經追不上 Agent 場景下 token 消耗的增速。真正的出路不是更便宜的 token，而是協同進化，更高 token 效率的 agent harness，乘以更強大、更高效的模型。Anthropic 這次，不管主觀意圖是什么，客觀上把整個生態，無論開源還是閉源，都推向了這個方向。Agent 時代不屬于燒算力最多的人，而屬于用算力最聰明的人。"

羅福莉在推文最后正是在挑戰過去幾年 AI 行業信奉的"算力競賽"敘事。

主流邏輯一直是：算力更多，模型更強，成本更低，用戶更多，形成正向飛輪。

但 Agent 場景打破了這個等式。當一次用戶查詢可以觸發數十次 API 調用，每次攜帶超過 100K tokens 的上下文，算力消耗的增速就不再是線性的。單純壓低 token 價格，只會加速這個消耗，而不會改變其結構。

這意味著，下一輪競爭的核心指標，可能不再是"每 token 多便宜"，而是"每 token 能完成多少有效工作"。誰先在這個維度上建立優勢，誰就能在全球算力供給跟不上 Agent 需求增速的窗口期里，占據真正有利的位置。

Anthropic 這次調整，無論出于什么動機，都在客觀上把整個生態推向了這個方向。

快把燒token變成某種愛好和社交展示資本的人們吐槽吐槽Anthropic 就罷了，對于各類Harness產品以及模型廠商們來說，這事真正的信號意義其實很強，如果還是想著趁亂靠免費量大管飽去接住一波流量用戶，就太不合時宜了。

一個階段性的狂歡是時候讓位于在工程和基礎設施設計上的真正重要的工作了。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.