從DeepSeek的訓(xùn)練方法論到Kimi的核心網(wǎng)絡(luò)突破,中國AI正從開源路線的跟隨者變?yōu)橐I(lǐng)者,在GTC舞臺上與黃仁勛共議Token經(jīng)濟學(xué)——這場由效率和創(chuàng)新驅(qū)動的新紀元,中國已穩(wěn)穩(wěn)確立航標(biāo)。
———— / BEGIN / ————
“Token是新的大宗商品。”
這是黃仁勛在GTC 2026年度開發(fā)者大會上的判斷。
趨勢已經(jīng)形成:無形的海量Token順著網(wǎng)線,賣到了全球各地,就像有形的大宗商品通過輪船、路網(wǎng)賣到全球各地一樣。
其中,中國的Token,最近在海外賣瘋了。
全球最大的AI模型API聚合平臺OpenRouter數(shù)據(jù)顯示,2月16日-2月22日一周時間里,中國模型的周調(diào)用量高達5.16萬億Token,而同期美國模型調(diào)用量只有2.7萬億Token。
平臺調(diào)用量排名前五的大模型,四款是中國的,分別為MiniMax的M2.5、月之暗面的Kimi K2.5、智譜的GLM5以及DeepSeek的V3.2。
外國人正在用真金白銀選擇中國AI大模型。
跨越性價比,邁入底層創(chuàng)新
早期,海外市場對中國模型的青睞或許始于“物美價廉”的Token。
但今年以來,中國團隊已經(jīng)開始在最基礎(chǔ)的架構(gòu)上,改寫AI 研發(fā)的底層邏輯。
最近,月之暗面團隊發(fā)布的論文《Attention Residuals》就是這一趨勢的代表,直接動搖了Transformer架構(gòu)中沿用近十年的基石——殘差連接。
自2015年何愷明提出ResNet以來,殘差連接以其“將輸入直接加到輸出上”的樸素邏輯,成為幾乎所有深度神經(jīng)網(wǎng)絡(luò)的標(biāo)配。
然而,這種固定權(quán)重、均勻累加的機制,像一臺沒有篩選功能的信息攪拌機。早期層計算出的寶貴特征,在向深層傳遞時,其相對貢獻度隨深度衰減,最終被淹沒在后續(xù)層輸出的“噪聲”中。
《Attention Residuals》打破了這個十年未動的默認配置。它為每一層配備一個可學(xué)習(xí)的查詢向量(query),讓該層根據(jù)當(dāng)前處理的內(nèi)容,動態(tài)決定最需要參考哪些前序?qū)拥慕Y(jié)果。
就像是給每一層加了一部手機,遇到具體需求時,能隨時精準查詢上面任何一層自己所需的數(shù)據(jù)。
這種回歸第一性原理的改進,相比傳統(tǒng)殘差連接,節(jié)省了約 20%的計算量,但其意義顯然更為深遠。
這也是為何向來推崇“打破常規(guī)”的馬斯克會對其公開點贊,前Open AI 聯(lián)合創(chuàng)始人Karpathy 也在看完研究后,發(fā)出需要“重新理解架構(gòu)”的感慨。
這說明,大模型的架構(gòu)優(yōu)化和技術(shù)創(chuàng)新已經(jīng)從 Attention、MoE 這些上層模塊,深入到了最底層的殘差連接。
而在大模型最硬核的技術(shù)深水區(qū)里,中國AI正在穩(wěn)穩(wěn)確立自己的新航標(biāo)。
![]()
堅持開源,貢獻中國突破
在過去一年,中國大模型已經(jīng)不是偶發(fā)的“單點突破”,而是集群發(fā)力。
全球業(yè)界已經(jīng)清晰地意識到,創(chuàng)新的發(fā)源地正在東移。
![]()
海外科技評論人Tuki發(fā)文稱,去年1月,Deepseek靠極致的推理成本和R1震撼了硅谷。緊接著,Kimi帶著更優(yōu)的運行成本來了。
這背后其實隱藏著一條更宏大的主線:當(dāng)下全球 AI 的競爭,本質(zhì)上已經(jīng)不僅是地域之間的角力,更是“開源”與“閉源”路線的交鋒。
作為全球開源模型的代表,DeepSeek帶來了訓(xùn)練方法論的創(chuàng)新,Kimi則從核心網(wǎng)絡(luò)架構(gòu)突破。
正是這種扎根底層的開源創(chuàng)新,賦予了中國團隊在全球頂級科技舞臺上的話語權(quán)。比如,Kimi創(chuàng)始人楊植麟成為本屆 GTC唯一受邀現(xiàn)場演講的獨立大模型公司創(chuàng)始人。
在GTC的主舞臺上,他圍繞Token效率、長文本、Agent集群,全面披露了開源模型K2.5的技術(shù)路線。
這向全球傳遞了一個非常明確的信號:中國的AI創(chuàng)新者不僅在跟隨,更在引領(lǐng)創(chuàng)新。
在大模型的訓(xùn)練方法、模型架構(gòu)等方面,中國AI不僅能夠取得原創(chuàng)性的創(chuàng)新成果,而且愿意以開源的方式回饋全球開發(fā)者。
價值重估,現(xiàn)金飛輪轉(zhuǎn)不停
全球?qū)χ袊鳤I創(chuàng)新能力的認可,最直觀的映射在資本市場。簡單來說,技術(shù)愿景最終需要真金白銀的投票。反映到資本市場上,就是估值提高。
二級市場上,今年剛上市的智譜、Minimax股價屢創(chuàng)新高。
一級市場上,Kimi在不到3個月,先后完成3輪融資,估值翻4倍,達到180億美元(約1200億人民幣)。
這一融資節(jié)奏和體量,在當(dāng)下愈發(fā)慎重的資本市場環(huán)境中,堪稱奇跡。
不過,如果僅僅將其歸結(jié)為資本對某一家公司“技術(shù)護城河”的盲目追捧,顯然是天真的。
資本真正在押注的,是中國AI產(chǎn)業(yè)跑通的一條與硅谷截然不同的道路。
硅谷巨頭習(xí)慣了“大力出奇跡”,用天價的算力和數(shù)據(jù)去暴力喂養(yǎng)模型,這本質(zhì)上是一種粗放的“高耗電”模式。一旦進入深水區(qū),極易被高昂的推理成本拖垮。
而以DeepSeek、Kimi為代表的中國團隊,走的是另一條路——在算法優(yōu)化和模型架構(gòu)上做到極致的精打細算。
無論是R1的訓(xùn)練方法,還是《Attention Residuals》對十年舊架構(gòu)的重構(gòu),本質(zhì)上都是發(fā)明了一種極低能耗、極高效率的“用電方式”。用更少的Token,榨取出了更高的模型智能。
在這個邏輯下,市場的投票也無比迅速。當(dāng)全球開發(fā)者和企業(yè)發(fā)現(xiàn),在這樣性價比的基座上運行復(fù)雜任務(wù),不僅邏輯更穩(wěn),而且調(diào)用成本極低時,流量與訂單便會激增。
這也解釋了,為什么Kimi在今年1月發(fā)布K2.5模型后,短短20天內(nèi)的商業(yè)收入,就超過了2025年的全年收入。
這種將技術(shù)突破轉(zhuǎn)化為開源基礎(chǔ)設(shè)施,同時又跑通商業(yè)飛輪的能力,才是支撐起中國大模型千億估值、并持續(xù)運轉(zhuǎn)的原因。
黃仁勛在GTC上斷言,Token是新時代的大宗商品。
而歷史告訴我們,在大宗商品的全球貿(mào)易網(wǎng)絡(luò)中,最終掌握定價權(quán)和主導(dǎo)權(quán)的,往往不是擁有最多原始粗礦的玩家,而是擁有高效提煉與轉(zhuǎn)化技術(shù)的人。
當(dāng)5.16萬億個中國Token順著網(wǎng)線流向全球,一個清晰的事實已經(jīng)浮出水面:
在這個由Token驅(qū)動的新紀元里,中國AI正在以令人驚嘆的效率和創(chuàng)新,重構(gòu)全球智能算力的貿(mào)易版圖。
參考資料
[2603.15031] Attention Residuals https://arxiv.org/abs/2603.15031
Kimi楊植麟:很多普遍使用的技術(shù)標(biāo)準正成為Scaling的瓶頸 https://m.thepaper.cn/newsDetail_forward_32787861
馬斯克驚嘆!DeepSeek和Kimi先后出手,捅破了Transformer的「潛規(guī)則」! https://mp.weixin.qq.com/s/BQNhy8vo1bMn5uNHyamYlQ
將注意力旋轉(zhuǎn) 90 度!今天,Kimi 的「注意力殘差」火了 https://mp.weixin.qq.com/s/rrWCapCip7PtYDHxMm73GA?scene=1
Kimi新架構(gòu)讓馬斯克嘆服!17歲高中生作者一戰(zhàn)成名 https://mp.weixin.qq.com/s/grWJ9EH_4RdeLymRetAT4w Attention
轉(zhuǎn)個方向,Transformer動到了骨髓 https://mp.weixin.qq.com/s/gUk77lcu0wKk0Y-f1pH2Jg
估值1200億,Kimi融資破紀錄了 https://mp.weixin.qq.com/s/Yu3pGfrEBrL4yZk41o8cug
哥飛銳評 kimi、MiniMax、Manus、Cursor - 小紅書 https://www.xiaohongshu.com/explore/69aaa0b60000000022032e7a?source=webshare&xhsshare=pc_web&xsec_token=ABrgGSSTkpeUbLZJmgcefNg8VQAZ5h1DF905Jb9Y6vFR0=&xsec_source=pc_share
深度丨2年,30倍,100億美元估值,一場比字節(jié)還快的極速增長 https://mp.weixin.qq.com/s/lMpNBzbSpu8bgQ2-_uFAdQ
月之暗面創(chuàng)始人楊植麟:中國技術(shù)不僅要好用還要參與制定規(guī)則,未來大模型要推出到K100 https://mp.weixin.qq.com/s/0QJhrwCbkL3nGXX8e5qjpA
黃仁勛GTC 2026演講全文:直指推理性能、“token經(jīng)濟學(xué)”、OpenClaw智能體革命…… https://mp.weixin.qq.com/s/Ta4jY8KfItjIVb82cW08aQ
20天收入超2025全年,龍蝦爆火的受益者Kimi能否彎道超車? https://mp.weixin.qq.com/s/mKkNhbKE4af6HWc-CMZWww?scene=1&click_id=8
本文來自公眾號:非凡油條 作者:豆腐乳兒
想要第一時間了解行業(yè)動態(tài)、面試技巧、商業(yè)知識等等等?加入產(chǎn)品經(jīng)理進化營,跟優(yōu)秀的產(chǎn)品人一起交流成長!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.