3月15日,全球最大AI模型聚合平臺OpenRouter發布了一組數據,中國大模型在這一周的調用量達到4.69萬億Token,連續第二周壓過美國,全球調用量排名前三的位置被中國模型包攬。
同一時期,月之暗面公司的Kimi正經歷一場從資本到市場的連環爆發。
據證券時報報道,2025年12月底至今,Kimi完成三輪融資,估值在不到三個月內翻了四倍,升至180億美元,成為國內估值最快突破百億美元的“十角獸”公司。
新一輪10億美元融資正在進行。
受Kimi K2.5模型及Kimi Claw火爆出圈帶動,1月底以來,Kimi20天收入超過2025年全年。
全球支付巨頭Stripe的數據顯示,Kimi個人訂閱用戶1月支付訂單數環比增長8280%,2月環比再漲123.8%,沖進Stripe全球榜單前十。
海外開發者發現知名AI編程工具Cursor發布的新模型Composer 2疑似基于Kimi K2.5開發,馬斯克在社交平臺回復“是的,這就是Kimi 2.5”,Kimi隨后表示感謝。
![]()
此前馬斯克還曾對月之暗面的技術報告表示“令人印象深刻的結果”。
兩件事,一個指向中國AI基建的整體水位,另一個指向單一明星公司的聲量與資本神話。
表面上看,都是好消息。
但如果把這兩條線放在一起,用同一個用戶視角去觀察,就會看到一種被高速增長掩蓋的緊張感。
我使用Kimi查資料時,最常遇到的就是那句“高峰時段算力不足”。
起初以為只是個別產品的運營波動,直到看到4.69萬億Token這個數字,才意識到那句提示語背后站著的不是某個公司的服務器告急,而是整個行業的供需方程式正在被改寫。
Kimi的算力不足,是中國大模型4.69萬億Token周調用量這個宏觀數據在個體身上的具體折射。
宏觀數據講的是總盤子,但總盤子是由無數個用戶每一次點擊、每一個智能體晝夜不停的輪詢堆積出來的。
Kimi作為頭部應用,它的算力緊張恰恰說明那個“總盤子”已經大到了讓供給端出現明顯缺口的程度。
AI智能體是這一輪需求爆炸的直接推手。
以OpenClaw為代表的智能體框架,把大模型從回答問題的工具變成了自動執行任務的數字員工。
一個配置合理的智能體可以全天候工作,消耗的Token是普通聊天的幾十倍甚至上百倍。
Kimi K2.5恰好成為開源智能體框架OpenClaw的首選模型,海外開發者的調用量因此激增,直接加劇了算力緊張。
這個細節很重要,Kimi的算力緊張不是來自國內用戶的自然增長,而是被一個技術范式轉變推到了風口。
AI智能體正在從極客玩物變成規模化部署的生產力工具,每一輪調用都是持續的、長鏈路的、高度密集的,不再像人類聊天那樣有間歇和停頓。
其模式對算力的消耗方式,與過去的應用場景完全不同。
與此同時,4.69萬億Token的周調用量里,智能體貢獻了巨大份額。
摩根大通預測,中國的AI推理Token消耗量將從2025年的約10千萬億增長到2030年的約3900千萬億,五年增長約370倍。
數字所指向的,正是眼下發生的智能體浪潮。
另一個容易被忽略的細節,是應用場景的深化。
AI正在從聊天走向編程、多模態處理這些更消耗Token的復雜任務。
Kimi K2.5的技術報告中提到的視覺文本聯合優化,本身就是因為處理視頻和長圖文時的令牌生成效率成為瓶頸。
一個視頻的處理任務,其單次消耗遠超日常對話。
而編程場景中,模型需要反復生成、調試、修正,每一輪都是Token的密集消耗。
用戶規模也在加速擴張。
微信兼容OpenClaw這件事,預示著AI應用正從小眾工具走向全民應用。
當智能體嵌入到國民級社交產品中,需求的基數將不再是幾十萬開發者,而是數億普通用戶。
全民化的擴散速度,遠比芯片產能的擴張要快。
供給側的物理極限,則是更硬的約束。
高性能芯片獲取難、成本高,在當前國際環境下,即便Kimi資金充裕,也難以在短時間內獲得足夠的高性能計算芯片來滿足暴漲的需求。
全球范圍內,高性能計算芯片的產能擴張速度遠慢于需求的增長速度,供應短缺是普遍現象。
中國大模型總調用量的增長,并非建立在算力無限供應的基礎上,而是在全球芯片供應緊張、硬件成本持續上漲的硬約束下實現的。
Kimi作為其中的一員,自然也受制于這個天花板。
2026年3月,阿里云、百度智能云、騰訊云相繼宣布上調AI算力產品價格或調整Token計費標準,算力成本壓力已經傳導到終端。
全行業都在為算力短缺買單,Kimi的高峰時段算力不足,正是成本壓力傳導到用戶體驗層面的直接體現。
從技術層面看,Kimi應對算力瓶頸的方式是從架構、推理、系統三個層面進行系統性重構。
架構層通過混合注意力機制將長程記憶計算復雜度降至線性,結合稀疏化專家模型與動態路由讓簡單任務僅激活少量專家網絡,并通過視覺文本聯合優化實現負載均衡,視頻處理長度提升四倍而算力消耗未同比例增長。
推理層借助Toggle Token策略將輸出Token減少25%至30%,以智能體集群編排將復雜任務拆解為多模型并行處理,延遲降低4.5倍,再通過分級服務將簡單問答路由至輕量級模型,精準配置算力資源。
系統層通過解耦編碼器進程使多模態效率達到純文本訓練的90%,利用顯存管理與KV Cache復用緩解顯存壓力,并以異構算力適配擴大可用算力池邊界。
以上技術優化的方向非常清晰,從“暴力堆料”轉向“精細運營”,用算法換取算力,用效率緩解短缺。
但一個必須面對的事實是,在4.69萬億Token的宏觀需求面前,物理算力的絕對缺口依然存在。
高峰期的“算力不足”,實際上是平臺在保障核心用戶體驗與控制運營成本之間做出的動態平衡結果。
技術優化可以緩解壓力,但無法從根本上消除供給與需求之間的巨大落差。
接下來,大模型在算力消耗上的技術改善空間依然巨大。
但更值得關注的,是中美大模型在算力效率這個維度上正在展開的競爭。
過去幾年,中美AI競賽的核心指標是模型參數量、上下文長度、多模態能力。
現在,算力效率正在成為新的制高點。
美國企業憑借高端芯片的供給優勢,長期沿用大力出奇跡的路徑,用更強的單卡性能掩蓋架構上的粗放。
中國企業則在芯片供應受限的硬約束下,被迫在架構創新、推理優化、系統調度上走得更深。
Kimi Linear架構、Toggle Token策略、Agent Swarm并行、異構算力適配,這些都是在供給受限條件下長出來的能力。
阿里云推出的Aegaeon GPU池化系統,通過Token級別的精細調度讓一個GPU同時服務多個模型,將所需GPU數量削減82%,也是這種壓力倒逼創新的典型。
國金證券的判斷值得關注,國產算力全鏈景氣加速,有望量價齊升。
在供需雙側強邏輯的擠壓下,2026年算力產業鏈將進入“全鏈通脹”周期,行業景氣度從核心芯片向AIDC、云與算力服務、配套電力設備及服務器等環節全面外溢。
判斷的背后,是算力從“夠不夠”變成“貴不貴”的轉折點。
OpenClaw重塑云計算的供需結構,云廠商的商業邏輯從單純的底層算力租賃躍升為Agent數字員工的工位提供商。
通過一鍵部署和價格補貼搶占應用入口,云廠商逐步掌控下一代AI應用的底層分發權。
如此變化意味著,算力不再只是基礎設施,而是成為應用層競爭的門票。
回到用戶最直接的感受。
使用Kimi時遇到“高峰時段算力不足”,表面看是一個產品體驗問題,深層次看是中國AI產業在Token時代初期,需求爆發式增長與供給結構性短缺之間矛盾的典型體現。
那個提示語告訴我們,中國AI已經走到了一個臨界點,再往前每一步,都需要技術、資本、產業鏈三端協同發力。
技術優化可以緩解燃眉之急,融資能夠解決短期的現金流問題,但高性能算力全球供給緊張的基本面,不是光靠技術優化和錢就能馬上解決的。
也因此,4.69萬億Token這個數字帶來的不只是自豪感,更是一個清醒的提醒,需求的狂飆已經撞上了物理世界的墻。
中美大模型在算力效率上的競爭,將是未來幾年最值得觀察的維度。
美國企業擁有更寬松的芯片供給環境,但未必在架構創新和系統調度上擁有絕對優勢。
中國企業在供給受限條件下被迫打磨出來的精細化運營能力,反而可能成為一種差異化的競爭壁壘。
Kimi K2.5被Cursor模型套用,馬斯克公開表示認可,種種細節本身就說明技術層面的能力已經跨越了某種門檻。
算力效率的競爭,是一場軟硬一體化的綜合較量。
![]()
誰的架構更省算力,推理策略更精簡,系統調度更極致,誰就能在同樣的硬件條件下支撐更多的用戶和更復雜的應用場景。
眼下,Kimi用戶的“算力不足”提示,4.69萬億Token的周調用量,馬斯克的技術認可,180億美元的估值躍升,共同構成這一轉型的多面鏡像。
鏡像之中,既有中國AI產業的創新活力與商業潛力,也有物理約束與供給短缺的現實壓力。
未來的勝負手,在于技術優化、商業模式、生態協同、政策支持的系統整合能力。
月之暗面披露的技術方案,是這一整合能力的初步展示;而完全釋放這一能力,仍需跨越算力供給的漫長隧道。
全文完
愿本文令有緣讀到的朋友滿意,如您喜歡,煩請給文章一個點贊、在看或者轉發,也請關注我的公號。
感恩生命里與你的每一次相逢,都是時光饋贈的溫柔奇跡。
作者簡介
![]()
當你關注財經和時事熱點時,我愿與你分享背后的故事和觀點
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.