337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

聊聊 Token 出海的生意經:模型開源給世界,中國賺什么?

0
分享至


1

本周末有一條 AI 新聞挺有意思,跟大家聊聊。

AI 編程工具 Cursor 在 3 月 19 日發布了新模型 Composer 2,官網上寫的是「自有模型」。

Cursor 是目前全球最火的 AI 編程工具,本質上是一個深度集成了 AI 能力的 VS Code 修改版(國內類似的是字節的 TRAE)。從 2024 年 10 月 Composer 1 發布以來,外界就一直懷疑它的模型是套殼的,但找不到證據。

這次證據來了。發布不到 24 小時,一位開發者 @fynnso 想了個巧妙的辦法:自己架一臺服務器充當模型接口,然后在本地 Cursor 里把模型地址指向自己的服務器。這樣 Cursor 發出的請求就暴露了:模型 ID 是 kimi-k2p5-rl-0317-s515-fast。

Composer 2 的底座,是月之暗面的 Kimi K2.5。

截圖傳開后,Cursor 第一時間堵了漏洞,但沒什么用了。馬斯克也轉發確認。


Cursor 的一位負責人最終回應,承認使用了 K2.5,但強調是通過合作伙伴 Fireworks AI 獲得的合法授權。Kimi 官方也確認了這條授權鏈。從法律層面看,Cursor 并沒有侵權。

關于這件事的討論其實很多了,但我想聊另一個視角。

2

過去兩年,AI 領域有一條暗線。

2023 年,國內 AI 創業的主流姿態是拿 Meta 的 Llama 做微調。那時候行業的共識是「落后硅谷兩個世代」。

2024 年 5 月,DeepSeek 發布了 V2。這家從量化基金幻方孵化出來的公司,用 MoE(混合專家模型)和 MLA(多模態學習架構)兩項技術把模型的調用成本大幅壓低。MoE 的邏輯我在之前的 DeepSeek 小傳里寫過,簡單說就是不讓大模型當全才,而是讓它成為一個專家團,需要誰就喚醒誰。MLA 則大幅降低了內存占用,顯存壓力比傳統架構降低了 67%-90%。

當時大家對 DeepSeek 的印象主要還是「便宜」。到 12 月 V3 發布,疊加了 FP8 低精度訓練等新技術,官方披露的完整訓練成本是 557.6 萬美元,大約是 Meta Llama 3.1 訓練成本的十分之一,性能卻跟 GPT-4 基本持平。

然后是 2025 年 1 月,R1 發布。

R1 為什么重要,我在小傳里也講過。最核心的一點:它用純強化學習(pure RL)達到了 OpenAI o1 的推理水平,不需要人工標注的題庫,不需要有監督的微調,讓模型自己跟自己博弈,自己評估什么是好的答案。這不是「我用更少的錢做了你做過的事」,而是「我走了一條沒人走過的路」。

R1 之后,OpenAI 的奧特曼從最初暗諷 DeepSeek「只是復制已知工作」,到后來承認「DeepSeek 的出現改變了過去幾年 OpenAI 遙遙領先的情況」。Meta 據報道成立了多個專項小組拆解 DeepSeek 的方法。

這是第一波。

第二波來自 Kimi。2026 年 1 月底,K2.5 發布。萬億參數的 MoE 模型,原生多模態,在代碼生成、視覺理解和 Agent 工具調用上表現都不錯。關鍵是它開源了,采用 Modified MIT 協議。

發布后不久,K2.5 在 OpenRouter(一個全球開發者用來選擇和調用 AI 模型的聚合平臺)的調用量沖到了第一名,排在 Gemini 3 Flash 和 Claude Sonnet 4.5 前面。當然,當時 K2.5 在 OpenClaw 生態里可以免費調用,這對調用量的拉動作用不小。

三年前,國內公司拿著 Llama 做微調?,F在,硅谷的頭部工具拿著 K2.5 做微調。這個變化的速度,超出了大多數人的預期。也是我們很多人之前沒想到的。

3

講到這里就要說到一個更基礎的問題了:開源模型的「供應鏈」到底是什么?

大多數人對「開源」的理解停留在:免費下載,自己用。會認為 DeepSeek 和 Kimi 的價值就是「幫家人們把價格打下來了」。

首先,這當然沒錯,但真實的商業世界里,開源模型的流轉路徑遠不止于此。

以 Cursor 這個案例為例,完整的鏈條是這樣的:

Kimi 開源 K2.5 → 硅谷的推理服務商 Fireworks AI 獲得授權,做托管、微調和強化學習訓練 → Fireworks AI 轉授權給 Cursor → Cursor 包裝成 Composer 2 提供給全球開發者。

中間每一層都有技術服務、有授權協議、有商業利益分配。這依然是商業行為,不是公益行為。

作為商業行為,開源模型的供應鏈正在像過去實體制造領域的中國供應鏈一樣,在全球產生影響。

一件優衣庫的衣服,從紗線到面料到成衣,供應鏈也在中國。新能源汽車的電池、光伏組件、稀土加工,全球市場對中國供應鏈的依賴程度很深。

這種依賴的形成是靠幾十年積累出來的成本優勢、工程能力和規模效應。全球品牌選擇中國供應鏈,跟喜歡跟誰交朋友關系不大,還是一筆經濟賬,即同樣的品質,成本更低;同樣的成本,交付更快。

AI 領域正在出現一個結構上有些類似的現象,原材料不是鋼鐵和棉花,是模型權重和推理算力。全球的 AI 應用層公司開始選擇中國的開源模型做底座,驅動力也很樸素,就是好用,便宜。

其實在科技領域是有知名的先例的: Android。Google 開源 AOSP,高通做芯片適配,三星華為做設備定制,運營商做渠道。用戶手里拿到的是一臺三星手機,但操作系統的底層邏輯、API 規范和生態標準是 Google 定義的。供應鏈上每一層都在賺錢,定義底座的那一層,話語權也相當大。

當然這還只是一個可能的方向,不是既成事實。還有很遠的路要走。

4

說到 AI 供應鏈,自然就要提到 2026 年開年的第一個 AI 大火的領域,養龍蝦。

OpenClaw 是一個開源 Agent 框架,奧地利開發者 Peter Steinberger 的作品。龍蝦需要一個大腦,或者說需要喂養飼料。OpenClaw 本身是框架,不提供模型,用戶得自己選?!究梢詤⒖嘉抑暗倪@篇:】

K2.5 成了 OpenClaw 官方推薦的主力模型。大廠跟進,字節的 ArkClaw、騰訊的 QClaw、智譜的 AutoClaw、MiniMax 的 MaxClaw、阿里的 CoPaw……2026 年 3 月密集上線。其中底層調用量最大的模型里就包括了 K2.5、DeepSeek、Qwen 系列、MiniMax。開源模型持續占據了 token 流量的主流。

這條鏈路跟實體供應鏈也有一些相似之處。富士康給蘋果代工,也給華為代工,也給小米代工。誰的手機賣得好,富士康都賺錢,因為它在供應鏈的位置足夠底層。

如果說 Cursor 事件暴露的是 B 端供應鏈里的故事,龍蝦生態展示的是 C 端供應鏈里的故事。兩條鏈路指向同一個事實:底座模型的位置,越來越像基礎設施了。

從龍蝦也能看得出,基礎設施的敘事也逐步變成現實。token 即未來 AI 時代的水電煤。

這個「水電煤」的市場到底有多大?有一組數據可以參考。

據華泰柏瑞基金的統計,中國整體日均 Token 消耗從 2024 年初的大約 1000 億,到 2025 年年中突破 30 萬億,2026 年 2 月已經到了 180 萬億的量級。龍蝦這類 Agent 應用每天全天候運行,消耗的 Token 量比過去的 Chatbot 對話高出幾個數量級。

3 月 16 日,阿里宣布成立 Alibaba Token Hub(ATH)事業群,跟電商、云智能并列,由 CEO 吳泳銘直接帶隊。整個事業群圍繞一件事:創造 Token、輸送 Token、應用 Token。通義實驗室造模型,MaaS 業務線搭平臺,千問做 C 端,新成立的悟空事業部做 B 端。

Token 這個詞以前只在技術社區里用,現在被一家萬億市值的公司拿來命名核心事業群。

如果 Token 真的在變成 AI 時代的水電煤,那誰能穩定、低成本地提供大量 Token,誰就在這個生態里有位置。開源模型在這件事上有天然優勢:部署靈活、成本可控、不依賴單一供應商。DeepSeek 和 Kimi 這類把成本打下來同時保持性能的開源模型,就相當于這個市場里的低成本發電廠。他們會是這個市場里非常重要的一類玩家。

5

為什么中國的開源模型會受歡迎?

Cloudflare 做過實測,在 Workers AI 平臺上用 K2.5 替代其他模型,推理成本降低了 77%。Cursor 自己披露的數據也說明了選擇邏輯:Composer 2 性能略低于 GPT-5.4,但生成速度更快,成本最低。對一家年化收入 20 億美元的公司來說,這筆賬很好算。

再看龍蝦生態。K2.5 在 OpenRouter 的定價大約是每百萬輸入 token 0.5 美元、輸出 2.8 美元。Claude Sonnet 4.5 是 3 美元和 15 美元。差六到七倍。龍蝦的使用場景是高頻調用,一個復雜任務可能要跑上百步甚至上千步。在這種場景下,六倍的成本差異不是「省一點」的問題,是「能不能供養它跑得起來」的問題。

這跟 DeepSeek 當年打下來的價格基礎一脈相承。V3 把每百萬 token 的價格打到了人民幣個位數,R1 更是把推理模型的價格拉到了 OpenAI o1 的幾十分之一。當時我寫 DeepSeek 小傳的時候提過,任何一個市場里出現這樣的價差,都會引起劇烈震蕩。2.6 萬塊錢的手機現在只賣 1000 塊錢,試想這種沖擊力。

光便宜恐怕也不行。

DeepSeek 用那個價格提供的,是跟行業頂尖產品同等水平的服務。K2.5 也是一樣,Cursor 的 Composer 2 在 Cursor 自己官方的測試 CursorBench 上的得分超過了 Claude Opus 4.6,而它的底座就是 K2.5。

這聽起來似乎在說 K2.5 比 Claude 更強,當然也不能這么說。畢竟跟多數人用 ChatBot 的體感應該是不一樣的。

Cursor 副總裁 Lee Robinson 在回應中提到,最終模型只有大約 1/4 的算力來自底座,剩下 3/4 是 Cursor 自己做的繼續預訓練和大規模強化學習。

聯合創始人 Aman Sanger 進一步解釋,團隊在多個底座上做了評估,K2.5 在編程相關的指標上表現最強,然后在此基礎上做了針對編程場景的繼續預訓練(調整任務分布和能力側重)和 4 倍算力的強化學習訓練。經過這些處理之后,Composer 2 在各項 benchmark 上的表現跟原始的 K2.5「已經非常不同了」。

換句話說,Cursor 選 K2.5 不是因為它「比 Claude 聰明」,而是因為它作為底座在編程方向上的潛力最好,經過大量定向訓練之后能達到很高的性價比,能接近頂尖閉源模型,但成本低得多。

這其實也是整個開源生態的價值所在:不需要從零訓練一個千億參數的模型,拿一個強底座做垂直場景的深度優化,就能在特定任務上跟閉源巨頭打得有來有回。Cursor 不是唯一這么做的,Cognition 的 Windsurf 也采用了類似路徑。



DeepSeek 在成本端打開的空間,K2.5 在 Agent 和代碼兩個關鍵場景里進一步延伸了,構成了中國 AI 供應鏈的基本敘事。Kimi 的 K2.5 發布后得到了極高的關注,20 天收入超過 2025 全年。海外收入首次反超國內。三個月內估值從 43 億美元漲到 180 億。

說到估值,有一個對比值得想想。

Cursor 的新一輪融資傳言估值 500 億美元。它的估值歷程是:2023 年 10 月 5000 萬,2024 年 8 月 4 億,12 月 26 億,2025 年 11 月 293 億?;鸺皆鲩L。

支撐這個增長的敘事很重要,「我們有自己的模型研發能力」。Composer 1 和 Composer 2 都在強化這個故事。

而提供底座的 Kimi,估值 180 億美元,大約是 Cursor 目標估值的三分之一。放在供應鏈的語境里看,這就好比一個品牌商的市值是核心供應商的三倍,但品牌商的產品核心來自這個供應商。不是說這個比例一定不合理,Cursor 的產品力、用戶粘性和商業模式確實有自身的價值,但至少說明市場對「底座」和「殼」的定價,可能還存在一些認知上的時間差。

類似的情況不止 Cursor 一家。前段時間很火的 Manus,主打 AI Agent,也沒有自己的底層模型,完全依賴第三方。就因為產品和場景受到認同,被 Meta 開出了 20 億的價碼。

更值得關注的是橫向對比。Kimi 180 億美元,大約是 OpenAI 的 2%,Anthropic 的不到 10%。DeepSeek 目前沒有公開融資,梁文鋒用幻方的資金自給自足,84% 的控股幾乎沒被稀釋。這種獨立性讓他可以不受投資人壓力,專注長期研究。

這兩家公司的底層技術輸出正在被全球使用,它們的市場定價,還在被「全球 AI 基礎設施提供商」這個身份重估。

不過也有一種完全不同的看法:模型層最終會變成大宗商品(commodity),真正的價值在離用戶更近的應用層和數據層。按照這個邏輯,Cursor 的估值恰恰反映了它離用戶更近、離錢更近。兩種判斷都有各自的道理,現在下結論可能為時過早。

6

為什么小公司也有做模型的技術機會呢?

3 月中旬,楊植麟受黃仁勛邀請在英偉達 GTC 大會演講,是唯一受邀的中國大模型公司代表。他講的是 Kimi 團隊剛發表的論文《Attention Residuals》。


這篇論文的切入點很有意思。殘差連接是深度學習領域從 2015 年 ResNet 提出后就一直沿用的基礎架構組件,10 年來幾乎沒人質疑它。大多數團隊選擇在注意力機制、MoE 這些上層模塊上做優化,Kimi 在嘗試從最底層的默認配置去找空間。

馬斯克和 Karpathy 都點贊了這篇文章。而論文的一作是一個 17 歲的高中生。

除了 Attention Residuals,Kimi 還開源了 MuonClip(替代用了 11 年的 Adam 優化器)和 Kimi Linear(線性注意力方案)。楊植麟在 GTC 上把這些統稱為 Scaling Ladder,即通過嚴謹的規?;瘜嶒?,從那些看似已經定型的基礎技術里,找到新的改進空間。

把 DeepSeek 和 Kimi 放在一起看,能看到一個互補的格局。DeepSeek 的貢獻主要在訓練方法論層面,pure RL 重新定義了推理模型怎么訓練,MoE 和 MLA 的極致工程把訓練成本壓到了行業的十分之一。Kimi 的貢獻主要在網絡架構的基礎組件層面,從殘差連接到優化器到注意力機制,在最底層做創新。

這兩類工作有一個共同特點:它們都不是在跑分榜上爭排名,而是在做范式層面的事情。梁文鋒說過,很多人以為 AI 就是大力出奇跡,但真正的突破往往來自更巧妙的方法,而不是更多的資源。楊植麟在 GTC 上也表達了類似的意思:10 年前做研究主要靠發表新想法,但缺乏嚴謹的大規模實驗來驗證?,F在有了充足的計算資源和 Scaling Ladder 方法論,能夠更嚴格地從那些看似「已經定型」的技術里找到改進空間。

這跟國內很多大廠做模型的路徑有些不同。大廠的資源更充裕,產品線也更豐富,但核心動作往往是圍繞自己的業務做集成和優化。在「回到第一性原理去挑戰底層假設」這件事上,受限于業務壓力和組織慣性,大廠很難給出足夠的空間和耐心。

回到供應鏈的類比。實體制造業的供應鏈里,真正有持久話語權的不是組裝廠,而是定義核心零部件和技術標準的那一層:臺積電的先進制程,高通的基帶芯片,ARM 的指令集架構。AI 的供應鏈也一樣,如果底座模型不只是「好用又便宜」,還在輸出底層的技術組件和方法論,那它在供應鏈里的位置就不只是一個供應商,而更接近基礎設施和標準制定者了。

當然,這還只是一個趨勢,遠沒有到可以下結論的程度。

7

最后說幾句開源的未來。

開源不是一件輕松的事。它需要幾個條件同時滿足:技術上得有足夠強的模型,開源出去才有人用;商業上得忍得住短期讓利的「虧損期」;戰略上不能被價格戰和短期競爭帶偏。

比如 MiniMax 的最新模型 M2.7 已經轉閉源了,權重不再公開。

前不久千問發生的事也一定程度說明了開源面臨的挑戰。3 月初,阿里千問的技術負責人林俊旸宣布離職,主流的說法是,技術理想和公司戰略 KPI 之間存在不可調和的沖突。

Meta 方面,圍繞 Llama 4 的測試和路線出現了內部爭議,據報道 Meta 下一代模型可能轉向閉源。大廠做開源,似乎總會遇到同樣的問題:短期里,管理層很難看到開源的直接收益;長期里,開源團隊很難按大廠的節奏匯報成果。

即便有了商業閉環,開源模型的窗口期仍然有很多不確定因素。地緣政治在收緊,DeepSeek 已經在一些國家被限制使用,美國有參議員公開呼吁加強對華 AI 管制。

競爭對手也在發力,OpenAI 在加速推出新模型。投資人的耐心也有限,不是每個股東都能接受「先讓全世界免費用,長期再賺錢」這種延遲滿足的邏輯。

如果未來更多的模型公司轉向閉源,那些已經依賴上中國開源模型的全球應用層公司和開發者,就需要重新找方案了。

那么無論是 Cursor 和龍蝦對 Kimi 模型的調用,還是去年的 DeepSeek 的震驚全球,中國開源模型到底意味著什么呢?

討論時,很容易走向兩個極端。一邊有人帶著民族情緒說贏麻了,一邊可能從純技術視角判斷并沒有新的范式因此不過如此。開源模型自然有其場景價值,也有其局限和問題。真正的未來,是技術+商業+產品不斷迭代變化中發生的。

目前能看到的是,全球 AI 的基礎設施正在從「美國提供模型,全世界做應用」的單一結構,慢慢變成一個參與方更多、層次更復雜的供應鏈體系。DeepSeek 和 Kimi 為代表的中國開源模型,是這個變化里的重要變量。但也只是變量之一。

這個過程才剛剛開始。也期待 AI 供應鏈能跑出不同的技術競爭力,正如很多全球知名的智能硬件品牌,也是珠三角供應鏈水平的外溢一樣。

而這些更便宜、性能在持續追平的開源模型正在支撐很多主流編程工具和 Agent 框架。

對于我們這些普通從業者、開發者、內容生產者來說,最實際的收獲可能就是:我們能更便宜地用上更多的 AI 產品。

就說到這里,希望有啟發~


Claude、Gemini 亦有幫助。

題圖由 Midjourney 繪制。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
比張繼科還瘋狂!溫瑞博主管教練打敗日本名將后脫下褲子慶祝(附視頻)

比張繼科還瘋狂!溫瑞博主管教練打敗日本名將后脫下褲子慶祝(附視頻)

好乒乓
2026-04-17 12:35:24
理想的至暗時刻

理想的至暗時刻

新浪財經
2026-04-15 03:08:52
中國向伊朗提供58噸物資!特朗普反常討好中國,戰爭還能打下去嗎

中國向伊朗提供58噸物資!特朗普反常討好中國,戰爭還能打下去嗎

阿傖說事
2026-04-17 22:25:40
道指漲幅達2%

道指漲幅達2%

每日經濟新聞
2026-04-17 22:42:38
AI算力剛需!光通信9大核心技術+產業鏈龍頭全名單(值得收藏)

AI算力剛需!光通信9大核心技術+產業鏈龍頭全名單(值得收藏)

我不叫阿哏
2026-04-17 18:35:17
國內或將逐漸停止腸鏡檢查?做檢查對身體有影響?醫生告訴您真相

國內或將逐漸停止腸鏡檢查?做檢查對身體有影響?醫生告訴您真相

健康科普365
2026-04-17 20:05:08
女教師群聊“八卦”被拘,最新進展

女教師群聊“八卦”被拘,最新進展

澎湃新聞
2026-04-17 22:01:07
庫里遭遇傷病驚魂!勇士官宣對陣太陽出人意料的傷病報告

庫里遭遇傷病驚魂!勇士官宣對陣太陽出人意料的傷病報告

行舟問茶
2026-04-17 18:48:48
輸北京隊16分!揪出3個“廢柴”,坑慘了山東隊

輸北京隊16分!揪出3個“廢柴”,坑慘了山東隊

體育哲人
2026-04-17 22:53:57
1898 年,譚嗣同就義,他永遠不知,自己的后人有多讓人心疼

1898 年,譚嗣同就義,他永遠不知,自己的后人有多讓人心疼

小燕聊劇
2026-04-14 19:53:58
大國資源爭奪戰,已經開始!

大國資源爭奪戰,已經開始!

柏年說政經
2026-04-16 18:02:13
手握20多個冠軍,嫁外國名將帶夫定居廣州,如今是中山大學副教授

手握20多個冠軍,嫁外國名將帶夫定居廣州,如今是中山大學副教授

以茶帶書
2026-04-16 14:50:51
心梗是喝茶喝出來的?醫生:即使是鐵打的心臟,這幾種茶也要少喝

心梗是喝茶喝出來的?醫生:即使是鐵打的心臟,這幾種茶也要少喝

醫學原創故事會
2026-04-16 23:44:09
外交部:中方堅決有力應對新西蘭軍機多次抵近中國周邊空域偵察滋擾活動

外交部:中方堅決有力應對新西蘭軍機多次抵近中國周邊空域偵察滋擾活動

新京報
2026-04-17 15:31:38
演員向涵之連發9張媽媽照片,配文“不讓我發我就發”

演員向涵之連發9張媽媽照片,配文“不讓我發我就發”

韓小娛
2026-04-16 18:22:06
輸北京發布會!邱彪再攬責,直指沒投進機會球,親承克里斯未痊愈

輸北京發布會!邱彪再攬責,直指沒投進機會球,親承克里斯未痊愈

籃球資訊達人
2026-04-17 23:14:38
美防長:如伊朗拒絕達成協議美軍隨時準備重啟作戰

美防長:如伊朗拒絕達成協議美軍隨時準備重啟作戰

新京報
2026-04-16 20:32:40
1969年張治中逝世,國務院吵了一整晚,周總理拍板作出2項決定

1969年張治中逝世,國務院吵了一整晚,周總理拍板作出2項決定

浩渺青史
2026-04-17 13:50:53
中超積分榜現狀!重慶銅梁龍坐穩第2,國安6輪積分歸0,3隊仍負分

中超積分榜現狀!重慶銅梁龍坐穩第2,國安6輪積分歸0,3隊仍負分

夏侯看英超
2026-04-17 22:35:21
國際原油價格跌幅繼續擴大 美油跌破每桶90美元

國際原油價格跌幅繼續擴大 美油跌破每桶90美元

每日經濟新聞
2026-04-17 20:34:09
2026-04-17 23:39:00
后廠村的劉飛 incentive-icons
后廠村的劉飛
產品經理
62文章數 75關注度
往期回顧 全部

科技要聞

7家頭部平臺被罰沒35.97億元

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩的開掛動力! 阿維塔06T全系搭分布式電驅

態度原創

家居
本地
健康
時尚
親子

家居要聞

法式線條 時光靜淌

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

干細胞抗衰4大誤區,90%的人都中招

今日熱點:許光漢否認和周子瑜戀情;郝熠然與誠實一口終止合作……

親子要聞

心理學安全距離法:孩子躺平的最佳療愈方法

無障礙瀏覽 進入關懷版