![]()
近期,DeepTech 密集報道了一系列 AI 在具體場景中落地的新突破。在曼哈頓,一位耶魯畢業的律師借助 Claude,僅用兩小時便完成了傳統中型律所團隊通宵才能交付的并購提案;一位從未寫過代碼的管道工程師利用 AI 工具分析診斷數據,在幾分鐘內鎖定了復雜管道網絡的故障源,而過去這通常需要高級工程師上門勘測數日;與此同時,開源 AI 智能體項目 OpenClaw 繼續以“人類歷史上增長最快的開源項目”之勢席卷全球,幫助不同行業的從業者實現了更復雜的 Agent 功能。
這些故事的共同點顯而易見:AI 正在抹平團隊與個體之間的產能鴻溝,“一人公司”(One Person Company)不再是愿景,而是觸手可及的現實。
然而,幾乎每一條案例的評論區,都出現了同一種聲音:“他們做到這些究竟燒掉了多少 token?”
是的,效率的躍升并非毫無代價。作為大語言模型處理信息的最小單位,AI 在具體場景中施展拳腳,離不開海量 token 的消耗。陶哲軒在用 AI 輔助破解數學難題時,首次嘗試便因消耗過量 Token 導致本地算力崩潰;據報道,OpenAI 工程師團隊一周處理的 token 量高達 2,100 億,相當于復寫 33 遍維基百科;而一些 OpenClaw 的重度用戶曬出的算力賬單更是驚人,月支出從數千美元到數萬美元不等。
與此同時,企業界也開始重新審視 token 的稀缺性與戰略價值。黃仁勛在近期 GTC 大會上提出了“token 經濟學”的概念,他認為數據中心正在演變為生產 token 的“AI 工廠”,token 需要根據相應的標準進行分層定價供給。同時,token 將成為繼工資、獎金、期權之后的“第四種薪酬”。在硅谷,工程師的身價評估體系也正在被呼吁重構,其中一項重要標準就是看他能高效調用多少 token。
token,這個曾經位于技術文檔底部的計量單位,正在躍升為 AI 時代的新貨幣。它既是生產力的燃料,也是稀缺資源的象征;它既是個體實現能力躍遷的杠桿,也可能成為新的數字鴻溝。
為了更深入地解讀 token 在 AI 時代的全新意義,我們邀請了上海交通大學副教授、無問芯穹聯合創始人戴國浩進行了一次深度對話。他長期致力于稀疏計算與軟硬件協同設計方向,研究內容包括結構化稀疏方法、動態編譯策略與細粒度并行架構,從而在有限硬件條件下提升算力表現。戴國浩也是 2024 年《麻省理工科技評論》“35 歲以下科技創新 35 人”中國入選者。
我們圍繞 token 從技術參數向經濟變量轉化的內在邏輯、底層算力效率的優化路徑,也對在個人層面如何更高效地使用 token 展開了討論。
以下是對話內容:
DeepTech:token 作為一個概念,過去幾年主要出現在技術討論中,例如推理成本、模型定價。但最近它開始出現在薪酬談判和企業預算里。在你看來,token 從一個技術參數變成一個經濟變量,這個轉變的背后發生了什么?
戴國浩:我認為最根本的原因在于模型的智能化水平已經達到了“可用”的階段。
如果以 2022 年底 ChatGPT 的發布為起點,到現在大約三年多時間。當時的模型更多還是一個對話系統,雖然具備一定的智能,可以進行自然語言交互,但很難真正嵌入到生產流程中,也無法直接轉化為生產力。
而現在,一個關鍵變化在于模型已經具備完成實際任務的能力。也就是說,當用戶獲得一定的 token 配額后,不再只是與模型進行對話,而是可以通過模型完成具體工作。這種能力的轉變,使得 token 不再只是一個技術層面的計量單位,而是成為可以直接對應生產結果的資源。
因此,token 從技術參數演變為經濟變量,本質上是由模型能力和整體智能水平的提升所驅動的。
DeepTech:從理論上看,模型能力的提升通常會帶來單位 token 成本的下降。但在現實中,我們看到不少云廠商選擇上調價格。同時,隨著像 OpenClaw 這類智能體應用的興起,越來越多用戶開始感受到高額 token 消耗所帶來的成本壓力。
你如何看待這種看似矛盾的現象?其背后是供需關系的變化,還是推理成本結構發生了改變,或是其他因素在起作用?
戴國浩:我剛才提到模型能力的提升,這實際上意味著“單個 token 的能力”在增強。
如果從經濟角度來理解,可以將其放入一個更完整的價值轉化鏈條中來看。之所以很多人將 AI 視為“第四次工業革命”,本質上是因為每一次工業革命,都是通過某種關鍵技術,創造出新的生產力形式。而所有生產力的核心,都是將輸入價值轉化為輸出價值。
在傳統工業體系中,例如蒸汽機或發電機,提供的是動力或電力,用于將原始物料加工為具有經濟價值的產品。而在這一輪 AI 變革中,模型能力的提升,使其本身也成為一種新的價值轉換機制。
如果將這一過程拆解,可以得到一個相對清晰的鏈條:
輸入價值→①→電能→②→token→③→生產力→④→輸出價值
其中①是供電體系,②是芯片和系統,③是模型和算法,④是社會評價體系
輸入價值首先是轉化為電能,然后電能通過芯片與計算系統轉化為算力,算力進一步轉化為 token,最后 token 再通過模型轉化為生產力;最終,這些生產力通過社會評價體系(例如代碼、文本內容等)被賦予具體的經濟價值。
在這個鏈條中,token 是一個關鍵中間環節。隨著模型能力的提升,“token 到生產力”的轉化效率顯著提高。換句話說,每一個 token 所能承載和釋放的價值變得更高。
這也解釋了為什么 token 會具備經濟屬性。可以類比為企業為員工配備工具:之所以配備計算機,是因為它能夠提升生產力,而不是提供一個沒有實際用途的工具。同理,當 token 能夠直接驅動生產時,它自然會被納入經濟體系。
另一方面,“成本下降”更多發生在“電能到 token”的階段,也就是算力效率的提升,例如硬件優化或系統效率提升。而“token 到生產力”的價值轉化,則屬于鏈條中的另一環節。
在模型尚不可用的階段,由于后端價值有限,企業往往需要通過低價甚至補貼來推動使用,包括大規模鋪量或持續優化成本結構。但當模型能力提升、后端價值顯著提高后,整個邏輯會從“推廣驅動”轉向“市場化驅動”。
在這種情況下,企業需要重新平衡成本與收益,即使技術仍在持續優化、推理效率不斷提升,價格上調也是市場化過程中的自然結果。因此,這種“成本下降但價格上升”的現象并不矛盾。本質上,一方面是底層技術效率在提升,另一方面是過去推廣階段所存在的成本缺口逐步被填補,最終形成一個可持續的商業閉環。
DeepTech:你的研究方向之一是稀疏注意力(sparse attention)等機制,這類方法會直接影響 token 的計算成本。如果沿著這一思路繼續推演,未來模型是否有可能具備“自適應計算能力”,即自動判斷哪些 token 需要精細計算,哪些可以簡化甚至跳過?這種機制在多大程度上會影響推理成本?
戴國浩:從具體技術來看,這種趨勢已經在發生,而且不僅限于稀疏注意力。
例如,稀疏專家(Mixture-of-Experts)、層級稀疏(layer skipping)、以及模型結構層面的多級配置(如投機解碼、大小模型協同),本質上都可以歸為“稀疏化”或“結構化”的探索。像 DeepSeek 等團隊,已經在稀疏注意力等方向上進行了實踐;同時,大規模模型(百億甚至千億參數級別)中,稀疏專家結構也已較為常見。此外,一些系統開始引入小模型與大模型協同,通過推測解碼(speculative decoding)提升整體吞吐效率。
這些方法的共同點在于:通過結構設計,而非單純增加參數規模,來提升計算效率與性能表現。
從更宏觀的角度看,智能系統的發展,本質上是在不斷逼近“最優結構”。在早期,由于對模型結構理解有限,采用稠密矩陣(dense architecture)是一種更直接、通用的表達方式,通過擴大數據和參數規模來獲得性能提升。但隨著理解的加深,結構性特征會逐漸顯現。例如殘差連接(residual connection)、卷積結構(convolution)等,都是在這一過程中被發現并固化下來的有效結構。
理論上,任何結構都可以用更大的稠密矩陣來近似表達,但在實際中,這樣的模型往往難以收斂,同時計算效率極低,因此并不可行。
回到 token 這一中間環節,未來一個重要方向是對 token 進行更細粒度的計算分配。例如,在推理過程中,不同 token 的復雜度是不同的:一些 token 可能只需要較淺層的計算即可得到結果,但另一些則需要更深層、更復雜的計算路徑。
因此,可以針對每個 token 動態分配計算資源,對其計算深度和計算量進行定制化設計。相比于“所有 token 都經過同樣深度模型”的方式,這種方法能夠在保證效果的同時顯著降低整體計算開銷。這也是為什么 token 在當前階段不僅是計量單位,更是計算調度與資源分配的核心對象,它也將逐漸成為一種關鍵的生產要素。
DeepTech:如果進一步拆解 token 的成本結構,除了模型本身,還包括 KV Cache 的顯存占用、帶寬,以及芯片架構等因素。在這些層面中,你認為當前優化空間最大的是哪一部分?
戴國浩:可以用一個相對簡化的模型來描述推理開銷:
那就是時間 ≈ 計算量 ÷(算力 × 利用率)
或者從存儲角度來看:
時間 ≈ 數據量 ÷(帶寬 × 利用率)
在這個框架下,不同變量對應不同層面的參與者:
首先,計算量主要由模型設計決定,例如參數規模(3B、30B、300B 等);其次,算力取決于芯片能力,例如算力規模(TFLOPS 級別差異);最后,利用率則與軟硬件協同優化密切相關。
此外,像 KV Cache 的顯存占用、注意力計算開銷等問題,本質上更多影響的是系統的帶寬利用率與整體資源利用效率。芯片本身的能力則與其架構設計和制造工藝有關。
在這一建模框架下,可以看到不同優化方向的邊界:
首先,單純降低模型計算量的空間其實有限,因為模型發展的首要目標仍然是提升智能水平,這是一個基本前提。因此,在模型設計層面,壓縮計算量并不是主要矛盾。相比之下,利用率的優化空間非常大。無論是算力利用率、帶寬利用率,還是緩存命中率,都存在顯著提升空間。
其次,芯片架構本身的設計也是一個重要方向。例如 英偉達黃仁勛 所提出的“AI Factory”理念,本質上是將芯片、系統軟件以及電力供給等多個層面打通,進行整體協同優化。總體來看,未來推理成本下降,更依賴于:一個是各層級資源利用率的提升,另一個是芯片架構與系統設計的持續演進。
而這些優化的最終目標,都是為了支撐更大規模、更高智能水平的模型發展。
DeepTech:那么從當前階段來看,性能優化的主要瓶頸更偏向算法側,還是硬件側?
戴國浩:我認為主要瓶頸仍然在硬件,以及硬件與算法的協同設計(co-design)。
算法的發展方向始終是探索更高水平的智能,這是不會改變的。但算法的迭代效率,很大程度上受限于硬件條件。例如,一個模型版本的迭代周期是一個月還是三個月,本質上取決于算力資源與系統效率。
因此,問題不僅在于是否存在更優的算法,還在于這些算法能否在現有硬件體系下高效實現。目前也有越來越多的團隊在嘗試算法與硬件的協同優化,但這一過程的效率,仍然受到硬件設計能力以及對硬件理解深度的制約。從這個角度來看,未來的關鍵競爭點,將越來越集中在軟硬件一體化的協同設計能力上。
DeepTech:前段時間,黃仁勛在 GTC 大會上提出了一個頗具沖擊力的觀點:未來員工的 token 消耗量應當與薪酬成正比,可以將 token 使用量視為生產效率的一種指標。與此同時,硅谷也出現了一種被稱為“tokenmaxxing”的現象:一些從業者會刻意提高 token 使用量,用不完甚至會產生焦慮。你如何看待這一觀點?無論是企業還是個人,應該建立怎樣的“token 觀”?
戴國浩:我傾向于從辯證的角度來看。
首先,我可以理解他為什么會提出這樣的觀點。結合他所強調的 AI Factory,本質上是在將算力體系轉化為“token 的生產系統”。在早期,當 AI 尚未形成完整的正向經濟循環時,GPU 只是數據中心或算力基礎設施中的一個組件,是供應鏈的一環。
但當 AI Factory 的概念成立之后,這套系統更像是一個“token 生產工廠”。如果進一步類比,可以將其視為一種“價值生成裝置”。在一種極端設想下,如果 token 的消耗可以直接映射為經濟回報,那么這套系統就具備類似“價值生成器”的屬性。
另一方面,我認為這一觀點也具備一定合理性。因為從工具屬性來看,可以類比為早期的軟件工程實踐。例如在十年前,程序員的產出有時會通過代碼量進行粗略衡量。代碼量在某種程度上反映了工具使用的強度和產出規模。
在今天,token 消耗可以被理解為一種新的“工作投入度量”。你使用了多少 token,某種程度上意味著你調用了多少模型能力,完成了多少任務。因此,它與產出之間確實存在一定相關性。
但問題在于,這種關系并不是線性的,也不是穩定的。如果回到我們前面討論的價值轉化鏈條,token 只是其中的一個中間環節。“token 到生產力”的轉化效率,取決于多個因素:例如使用的模型能力,模型之間的協同方式,token 的質量(例如 prompt 質量),或者是具體任務類型。
因此,我認同 token 消耗量與價值之間“存在相關性”,但更關鍵的是:如何使用 token。換句話說,高質量地使用 token(例如選擇合適模型、設計有效結構),比單純增加 token 消耗更重要。這可能才是未來個體需要重點關注的能力。
DeepTech:那是否有可能存在一個更合理的指標,而不是簡單用 token 消耗量來衡量生產效率?
戴國浩:如果在理想情況下,“token 到生產力”的轉化關系是標準化的,例如一個 token 可以穩定對應某種經濟價值,那么確實可以直接用 token 消耗來衡量產出。
但現實中,這一環節并不穩定,尤其是在當前階段。
對于一些高度標準化、確定性較強的行業(例如部分法律、會計等場景),隨著工具成熟,未來可能逐步接近這種“線性映射”。在這種情況下,將 token 使用量與產出掛鉤,是可以成立的。但對于更具創造性的工作,這種關系往往是非線性的。例如,有的人可能只使用較少的 token,就能產生更高價值的結果;而另一些人即使消耗更多 token,產出價值卻未必更高。
在這種情況下,更合理的評價方式,應該是將token 使用量”與“最終產出價值”進行聯合評估。從資源配置角度看,我們更應該鼓勵的是:用更少的 token 產生更高的價值。這也可以理解為一種更正確的 token 觀。
DeepTech:在最近的趨勢中,我們發現了許多使用者尤其關注一個問題:在實際使用大模型時,如何更高效、更具性價比地使用 token?你作為專業的從業人員,在日常使用中,有沒有一些經過驗證的方法或經驗,比如在 prompt 設計、任務拆解、模型選擇等方面?
戴國浩:這三個方面,其實都非常關鍵。
可以用一個類比來理解:在傳統的軟件團隊中,通常會有架構師和程序員的分工。程序員負責具體實現,而架構師負責整體設計,包括任務拆解、模塊劃分以及協作方式。
從當前大模型的能力來看,它已經可以高效完成很多“程序員層面”的執行工作,這一點并不困難。真正的挑戰在于更上層的結構設計。具體來說,可以對應三個關鍵環節:
第一是任務拆解。需要將一個復雜問題分解為多個子任務,并明確各自的邊界與目標。第二是 prompt 設計。本質上是對任務目標的精確表達,相當于對執行單元的“指令定義”。第三是模型選擇與調度。即讓“合適的模型做合適的事情”,例如簡單任務可以交給輕量模型處理,復雜任務再調用更強的模型。這三個環節,實際上構成了一個完整的“結構設計過程”。
此外,還有一個容易被忽視的點:人類輸入的 token 往往更高效。在一些推理型模型中(例如帶有長鏈路思考過程的模型),模型在內部會生成大量中間推理步驟,這些過程本身會消耗大量 token。而人類可以在前置階段,通過更清晰的任務定義,減少模型不必要的探索路徑,從而降低整體開銷。
結合這些經驗,我個人的使用方式是:先盡可能在前期將 prompt 定義得清晰、具體;然后,對任務進行結構化拆解;最后,在不同復雜度任務之間,靈活選擇模型(包括開源模型與高性能閉源模型的組合使用)。
從長期來看,這也意味著一個能力轉變。以程序員為例,需要逐漸從單純的“編碼者(coder)”,轉向“系統架構設計者(architect)”。只有在更高層面進行結構設計,才能真正提升整體效率。
DeepTech:黃仁勛在會上還提出了 token 的分層定價策略,沿著"模型智能程度 × 生成速度 × 上下文長度"三個維度來定價,形成從免費層到高速層 $150/百萬 token 的供給體系。在這方面,一些國內公司已經相繼響應。你認為這一框架對產業格局會產生怎樣的深層影響?它是否會加速大模型市場的兩極分化?
戴國浩:剛才你提到的幾個關鍵變量,包括模型智能水平、生成速度和上下文長度,其實可以歸為兩類,并分別對應我們之前討論的價值轉化鏈條中的不同環節。
其中,生成速度和上下文長度,主要影響“算力到 token”的轉化效率。這一部分與計算能力和存儲能力密切相關:上下文長度更多涉及存儲與帶寬,生成速度主要與計算能力相關,同時也受到訪存效率的影響。
模型的智能水平,則對應“token 到生產力”的轉化效率。
從這個角度看,這三個變量實際上構成了整個價值鏈條中的關鍵維度。因此,將 token 按不同能力層級進行劃分,本身是有內在合理性的。
進一步來說,不同行業、不同任務,對 token 的“價值密度”要求是不同的。高質量 token(例如由更強模型生成)在某些場景中能夠產生更高價值,因此在定價上進行分層,是符合基本經濟邏輯的。
至于具體的定價策略,我并不是這方面的專家,但從一般規律來看,一個比較普遍的現象是:價值越高的產品,其“性價比”往往反而越低。
這一點在很多行業中都存在。例如汽車、手機等領域,高端產品通常在絕對性能上更強,但單位性能的價格也更高。這樣的結構并不會導致行業失衡,反而使不同需求的用戶,都可以在同一價值鏈中找到適合自己的選擇。
如果將 AI 視為一種逐漸成熟的“商品”,那么類似的分層定價體系,大概率也會自然出現。
DeepTech:但 token 作為一種相對新的“商品”,用戶在理解和接受它的過程中,可能還需要時間。它不像傳統行業那樣已經形成穩定認知。
戴國浩:是的,一方面是認知上的適應過程,另一方面,技術本身仍處在快速發展階段。
AI 在未來會在更多行業中釋放價值,但目前仍處于一個早期拐點階段。已經開始在部分場景中形成明確價值,但整體滲透率還不高。如果回看三年前,以對話系統為主的模型確實很難直接產生經濟價值,而現在情況已經發生了明顯變化。
DeepTech:當前的云計算基礎設施,本質上是為人類工程師設計的,而不是為 agent(智能體)設計的。在這種情況下,這套架構是否在一定程度上限制了 token 效率的進一步釋放?如果以“token factory”為目標推進,你認為從硬件、軟件到調度和服務,各個層面需要進行怎樣的重構?這種變化會有多激進?
戴國浩:這個問題也可以從生產體系演進的角度來理解。
如果把 token factory 類比為一種新的“工廠”,那么它和傳統的電廠或水廠類似,本質上是在生產基礎資源。回看工業發展歷程,每一次工業革命都會引入新的基礎生產要素,從蒸汽到電力,再到信息計算能力,而每一次這種變化,都會帶來整個系統結構的重構。
從這個意義上看,以 token 為代表的大模型體系,正在成為一種新的基礎生產要素。雖然它目前仍建立在既有的電力和信息系統之上,但隨著其重要性不斷提升,底層架構發生系統性變化是一個必然趨勢。
外界對 token 有不同的類比,比如把它看作比特,或者類比為電力,這些說法各有其合理性。但更關鍵的一點在于,當 token 成為核心生產單元之后,整個系統的各個層級都會圍繞它進行重新組織。最先發生變化的,往往是接口層——如果 token 成為統一的計量單位,那么系統之間的交互、任務的度量、甚至算力與電力的轉換關系,都可能逐漸以 token 為核心來表達。
當然,這一判斷隱含了一個前提,即當前以 Transformer 為基礎、以 token 為核心處理單元的范式在一段時間內是穩定的。從目前來看,這一方向具有較高確定性,但仍然存在技術演進的不確定性。
在這個前提下,各個層面的變化其實已經在發生。以芯片為例,像 NVIDIA 的 GPU 架構,雖然仍然是通用計算架構,但在數據中心場景中,已經引入了大量針對 Transformer 的專用計算單元。本質上,這些優化都是在圍繞 token 的處理效率展開。整個過程是漸進式的:從最早的通用計算,到針對矩陣運算的加速,再到專門為 Transformer 結構優化,逐步向 token 對齊。類似的趨勢,也會在軟件、調度乃至服務層逐步體現出來。
DeepTech:如果整個體系都逐步對齊到 token,本質上意味著默認的計算范式仍然是以 Transformer 為基礎。但我們也看到一些新的架構在出現,比如 Mamba,或者擴散模型在語言建模中的嘗試。你覺得如果這些技術發展到某個階段,token 是否可能被替代,或者演化成新的計算單元?
戴國浩:這個問題可以分兩個層面來看。
在中短期內,一種范式是否會被替代,關鍵不在于它“是否更好”,而在于它是否能在整體效率上實現數量級的提升。因為現有體系不僅僅是技術本身,還包括完整的工業基礎、軟件生態以及價值評估體系,這些都是高度固化的,切換成本非常高。往往需要展現出一個數量級的提升的潛力,才有可能推動技術的汰換迭代。
目前確實出現了一些新的架構,比如 Mamba,以及基于擴散過程的語言模型。這些方法在某些特定任務上可能表現更優,但從整體來看,一方面還缺乏大規模工程驗證,另一方面也很難在短時間內嵌入現有體系。更重要的是,它們在實際落地時,仍然需要與現有接口對齊,最終輸出依然是 token 序列。因此,從現實路徑來看,這些技術更像是在現有范式內部進行優化,而不是直接替代。
如果把視角拉得更長遠,確實存在一種可能性,即未來出現完全不同的計算范式,例如連續計算甚至量子計算。這類體系一旦成立,可能會從根本上改變當前以離散 token 為基礎的計算方式。但同樣,它必須在關鍵效率指標上顯著優于現有體系,才有可能推動整個產業遷移。
在當前階段,我更傾向于認為,這樣的范式轉變還需要較長時間。更現實的問題仍然是,在以 token 為核心的既有體系中,如何持續提升轉化效率,以及如何完善整個基礎設施和應用生態。這可能才是當下更關鍵的方向。
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.