網易首頁 > 網易號 > 正文申請入駐

對話戴國浩：用Token重新理解AI的成本與價值

2026-03-31 15:01:56　來源: DeepTech深科技

北京舉報

分享至

近期，DeepTech 密集報道了一系列 AI 在具體場景中落地的新突破。在曼哈頓，一位耶魯畢業的律師借助 Claude，僅用兩小時便完成了傳統中型律所團隊通宵才能交付的并購提案；一位從未寫過代碼的管道工程師利用 AI 工具分析診斷數據，在幾分鐘內鎖定了復雜管道網絡的故障源，而過去這通常需要高級工程師上門勘測數日；與此同時，開源 AI 智能體項目 OpenClaw 繼續以“人類歷史上增長最快的開源項目”之勢席卷全球，幫助不同行業的從業者實現了更復雜的 Agent 功能。

這些故事的共同點顯而易見：AI 正在抹平團隊與個體之間的產能鴻溝，“一人公司”（One Person Company）不再是愿景，而是觸手可及的現實。

然而，幾乎每一條案例的評論區，都出現了同一種聲音：“他們做到這些究竟燒掉了多少 token？”

是的，效率的躍升并非毫無代價。作為大語言模型處理信息的最小單位，AI 在具體場景中施展拳腳，離不開海量 token 的消耗。陶哲軒在用 AI 輔助破解數學難題時，首次嘗試便因消耗過量 Token 導致本地算力崩潰；據報道，OpenAI 工程師團隊一周處理的 token 量高達 2,100 億，相當于復寫 33 遍維基百科；而一些 OpenClaw 的重度用戶曬出的算力賬單更是驚人，月支出從數千美元到數萬美元不等。

與此同時，企業界也開始重新審視 token 的稀缺性與戰略價值。黃仁勛在近期 GTC 大會上提出了“token 經濟學”的概念，他認為數據中心正在演變為生產 token 的“AI 工廠”，token 需要根據相應的標準進行分層定價供給。同時，token 將成為繼工資、獎金、期權之后的“第四種薪酬”。在硅谷，工程師的身價評估體系也正在被呼吁重構，其中一項重要標準就是看他能高效調用多少 token。

token，這個曾經位于技術文檔底部的計量單位，正在躍升為 AI 時代的新貨幣。它既是生產力的燃料，也是稀缺資源的象征；它既是個體實現能力躍遷的杠桿，也可能成為新的數字鴻溝。

為了更深入地解讀 token 在 AI 時代的全新意義，我們邀請了上海交通大學副教授、無問芯穹聯合創始人戴國浩進行了一次深度對話。他長期致力于稀疏計算與軟硬件協同設計方向，研究內容包括結構化稀疏方法、動態編譯策略與細粒度并行架構，從而在有限硬件條件下提升算力表現。戴國浩也是 2024 年《麻省理工科技評論》“35 歲以下科技創新 35 人”中國入選者。

我們圍繞 token 從技術參數向經濟變量轉化的內在邏輯、底層算力效率的優化路徑，也對在個人層面如何更高效地使用 token 展開了討論。

以下是對話內容：

DeepTech：token 作為一個概念，過去幾年主要出現在技術討論中，例如推理成本、模型定價。但最近它開始出現在薪酬談判和企業預算里。在你看來，token 從一個技術參數變成一個經濟變量，這個轉變的背后發生了什么？

戴國浩：我認為最根本的原因在于模型的智能化水平已經達到了“可用”的階段。

如果以 2022 年底 ChatGPT 的發布為起點，到現在大約三年多時間。當時的模型更多還是一個對話系統，雖然具備一定的智能，可以進行自然語言交互，但很難真正嵌入到生產流程中，也無法直接轉化為生產力。

而現在，一個關鍵變化在于模型已經具備完成實際任務的能力。也就是說，當用戶獲得一定的 token 配額后，不再只是與模型進行對話，而是可以通過模型完成具體工作。這種能力的轉變，使得 token 不再只是一個技術層面的計量單位，而是成為可以直接對應生產結果的資源。

因此，token 從技術參數演變為經濟變量，本質上是由模型能力和整體智能水平的提升所驅動的。

DeepTech：從理論上看，模型能力的提升通常會帶來單位 token 成本的下降。但在現實中，我們看到不少云廠商選擇上調價格。同時，隨著像 OpenClaw 這類智能體應用的興起，越來越多用戶開始感受到高額 token 消耗所帶來的成本壓力。

你如何看待這種看似矛盾的現象？其背后是供需關系的變化，還是推理成本結構發生了改變，或是其他因素在起作用？

戴國浩：我剛才提到模型能力的提升，這實際上意味著“單個 token 的能力”在增強。

如果從經濟角度來理解，可以將其放入一個更完整的價值轉化鏈條中來看。之所以很多人將 AI 視為“第四次工業革命”，本質上是因為每一次工業革命，都是通過某種關鍵技術，創造出新的生產力形式。而所有生產力的核心，都是將輸入價值轉化為輸出價值。

在傳統工業體系中，例如蒸汽機或發電機，提供的是動力或電力，用于將原始物料加工為具有經濟價值的產品。而在這一輪 AI 變革中，模型能力的提升，使其本身也成為一種新的價值轉換機制。

如果將這一過程拆解，可以得到一個相對清晰的鏈條：

輸入價值→①→電能→②→token→③→生產力→④→輸出價值

其中①是供電體系，②是芯片和系統，③是模型和算法，④是社會評價體系

輸入價值首先是轉化為電能，然后電能通過芯片與計算系統轉化為算力，算力進一步轉化為 token，最后 token 再通過模型轉化為生產力；最終，這些生產力通過社會評價體系（例如代碼、文本內容等）被賦予具體的經濟價值。

在這個鏈條中，token 是一個關鍵中間環節。隨著模型能力的提升，“token 到生產力”的轉化效率顯著提高。換句話說，每一個 token 所能承載和釋放的價值變得更高。

這也解釋了為什么 token 會具備經濟屬性。可以類比為企業為員工配備工具：之所以配備計算機，是因為它能夠提升生產力，而不是提供一個沒有實際用途的工具。同理，當 token 能夠直接驅動生產時，它自然會被納入經濟體系。

另一方面，“成本下降”更多發生在“電能到 token”的階段，也就是算力效率的提升，例如硬件優化或系統效率提升。而“token 到生產力”的價值轉化，則屬于鏈條中的另一環節。

在模型尚不可用的階段，由于后端價值有限，企業往往需要通過低價甚至補貼來推動使用，包括大規模鋪量或持續優化成本結構。但當模型能力提升、后端價值顯著提高后，整個邏輯會從“推廣驅動”轉向“市場化驅動”。

在這種情況下，企業需要重新平衡成本與收益，即使技術仍在持續優化、推理效率不斷提升，價格上調也是市場化過程中的自然結果。因此，這種“成本下降但價格上升”的現象并不矛盾。本質上，一方面是底層技術效率在提升，另一方面是過去推廣階段所存在的成本缺口逐步被填補，最終形成一個可持續的商業閉環。

DeepTech：你的研究方向之一是稀疏注意力（sparse attention）等機制，這類方法會直接影響 token 的計算成本。如果沿著這一思路繼續推演，未來模型是否有可能具備“自適應計算能力”，即自動判斷哪些 token 需要精細計算，哪些可以簡化甚至跳過？這種機制在多大程度上會影響推理成本？

戴國浩：從具體技術來看，這種趨勢已經在發生，而且不僅限于稀疏注意力。

例如，稀疏專家（Mixture-of-Experts）、層級稀疏（layer skipping）、以及模型結構層面的多級配置（如投機解碼、大小模型協同），本質上都可以歸為“稀疏化”或“結構化”的探索。像 DeepSeek 等團隊，已經在稀疏注意力等方向上進行了實踐；同時，大規模模型（百億甚至千億參數級別）中，稀疏專家結構也已較為常見。此外，一些系統開始引入小模型與大模型協同，通過推測解碼（speculative decoding）提升整體吞吐效率。

這些方法的共同點在于：通過結構設計，而非單純增加參數規模，來提升計算效率與性能表現。

從更宏觀的角度看，智能系統的發展，本質上是在不斷逼近“最優結構”。在早期，由于對模型結構理解有限，采用稠密矩陣（dense architecture）是一種更直接、通用的表達方式，通過擴大數據和參數規模來獲得性能提升。但隨著理解的加深，結構性特征會逐漸顯現。例如殘差連接（residual connection）、卷積結構（convolution）等，都是在這一過程中被發現并固化下來的有效結構。

理論上，任何結構都可以用更大的稠密矩陣來近似表達，但在實際中，這樣的模型往往難以收斂，同時計算效率極低，因此并不可行。

回到 token 這一中間環節，未來一個重要方向是對 token 進行更細粒度的計算分配。例如，在推理過程中，不同 token 的復雜度是不同的：一些 token 可能只需要較淺層的計算即可得到結果，但另一些則需要更深層、更復雜的計算路徑。

因此，可以針對每個 token 動態分配計算資源，對其計算深度和計算量進行定制化設計。相比于“所有 token 都經過同樣深度模型”的方式，這種方法能夠在保證效果的同時顯著降低整體計算開銷。這也是為什么 token 在當前階段不僅是計量單位，更是計算調度與資源分配的核心對象，它也將逐漸成為一種關鍵的生產要素。

DeepTech：如果進一步拆解 token 的成本結構，除了模型本身，還包括 KV Cache 的顯存占用、帶寬，以及芯片架構等因素。在這些層面中，你認為當前優化空間最大的是哪一部分？

戴國浩：可以用一個相對簡化的模型來描述推理開銷：

那就是時間 ≈ 計算量 ÷（算力 × 利用率）

或者從存儲角度來看：

時間 ≈ 數據量 ÷（帶寬 × 利用率）

在這個框架下，不同變量對應不同層面的參與者：

首先，計算量主要由模型設計決定，例如參數規模（3B、30B、300B 等）；其次，算力取決于芯片能力，例如算力規模（TFLOPS 級別差異）；最后，利用率則與軟硬件協同優化密切相關。

此外，像 KV Cache 的顯存占用、注意力計算開銷等問題，本質上更多影響的是系統的帶寬利用率與整體資源利用效率。芯片本身的能力則與其架構設計和制造工藝有關。

在這一建模框架下，可以看到不同優化方向的邊界：

首先，單純降低模型計算量的空間其實有限，因為模型發展的首要目標仍然是提升智能水平，這是一個基本前提。因此，在模型設計層面，壓縮計算量并不是主要矛盾。相比之下，利用率的優化空間非常大。無論是算力利用率、帶寬利用率，還是緩存命中率，都存在顯著提升空間。

其次，芯片架構本身的設計也是一個重要方向。例如英偉達黃仁勛所提出的“AI Factory”理念，本質上是將芯片、系統軟件以及電力供給等多個層面打通，進行整體協同優化。總體來看，未來推理成本下降，更依賴于：一個是各層級資源利用率的提升，另一個是芯片架構與系統設計的持續演進。

而這些優化的最終目標，都是為了支撐更大規模、更高智能水平的模型發展。

DeepTech：那么從當前階段來看，性能優化的主要瓶頸更偏向算法側，還是硬件側？

戴國浩：我認為主要瓶頸仍然在硬件，以及硬件與算法的協同設計（co-design）。

算法的發展方向始終是探索更高水平的智能，這是不會改變的。但算法的迭代效率，很大程度上受限于硬件條件。例如，一個模型版本的迭代周期是一個月還是三個月，本質上取決于算力資源與系統效率。

因此，問題不僅在于是否存在更優的算法，還在于這些算法能否在現有硬件體系下高效實現。目前也有越來越多的團隊在嘗試算法與硬件的協同優化，但這一過程的效率，仍然受到硬件設計能力以及對硬件理解深度的制約。從這個角度來看，未來的關鍵競爭點，將越來越集中在軟硬件一體化的協同設計能力上。

DeepTech：前段時間，黃仁勛在 GTC 大會上提出了一個頗具沖擊力的觀點：未來員工的 token 消耗量應當與薪酬成正比，可以將 token 使用量視為生產效率的一種指標。與此同時，硅谷也出現了一種被稱為“tokenmaxxing”的現象：一些從業者會刻意提高 token 使用量，用不完甚至會產生焦慮。你如何看待這一觀點？無論是企業還是個人，應該建立怎樣的“token 觀”？

戴國浩：我傾向于從辯證的角度來看。

首先，我可以理解他為什么會提出這樣的觀點。結合他所強調的 AI Factory，本質上是在將算力體系轉化為“token 的生產系統”。在早期，當 AI 尚未形成完整的正向經濟循環時，GPU 只是數據中心或算力基礎設施中的一個組件，是供應鏈的一環。

但當 AI Factory 的概念成立之后，這套系統更像是一個“token 生產工廠”。如果進一步類比，可以將其視為一種“價值生成裝置”。在一種極端設想下，如果 token 的消耗可以直接映射為經濟回報，那么這套系統就具備類似“價值生成器”的屬性。

另一方面，我認為這一觀點也具備一定合理性。因為從工具屬性來看，可以類比為早期的軟件工程實踐。例如在十年前，程序員的產出有時會通過代碼量進行粗略衡量。代碼量在某種程度上反映了工具使用的強度和產出規模。

在今天，token 消耗可以被理解為一種新的“工作投入度量”。你使用了多少 token，某種程度上意味著你調用了多少模型能力，完成了多少任務。因此，它與產出之間確實存在一定相關性。

但問題在于，這種關系并不是線性的，也不是穩定的。如果回到我們前面討論的價值轉化鏈條，token 只是其中的一個中間環節。“token 到生產力”的轉化效率，取決于多個因素：例如使用的模型能力，模型之間的協同方式，token 的質量（例如 prompt 質量），或者是具體任務類型。

因此，我認同 token 消耗量與價值之間“存在相關性”，但更關鍵的是：如何使用 token。換句話說，高質量地使用 token（例如選擇合適模型、設計有效結構），比單純增加 token 消耗更重要。這可能才是未來個體需要重點關注的能力。

DeepTech：那是否有可能存在一個更合理的指標，而不是簡單用 token 消耗量來衡量生產效率？

戴國浩：如果在理想情況下，“token 到生產力”的轉化關系是標準化的，例如一個 token 可以穩定對應某種經濟價值，那么確實可以直接用 token 消耗來衡量產出。

但現實中，這一環節并不穩定，尤其是在當前階段。

對于一些高度標準化、確定性較強的行業（例如部分法律、會計等場景），隨著工具成熟，未來可能逐步接近這種“線性映射”。在這種情況下，將 token 使用量與產出掛鉤，是可以成立的。但對于更具創造性的工作，這種關系往往是非線性的。例如，有的人可能只使用較少的 token，就能產生更高價值的結果；而另一些人即使消耗更多 token，產出價值卻未必更高。

在這種情況下，更合理的評價方式，應該是將token 使用量”與“最終產出價值”進行聯合評估。從資源配置角度看，我們更應該鼓勵的是：用更少的 token 產生更高的價值。這也可以理解為一種更正確的 token 觀。

DeepTech：在最近的趨勢中，我們發現了許多使用者尤其關注一個問題：在實際使用大模型時，如何更高效、更具性價比地使用 token？你作為專業的從業人員，在日常使用中，有沒有一些經過驗證的方法或經驗，比如在 prompt 設計、任務拆解、模型選擇等方面？

戴國浩：這三個方面，其實都非常關鍵。

可以用一個類比來理解：在傳統的軟件團隊中，通常會有架構師和程序員的分工。程序員負責具體實現，而架構師負責整體設計，包括任務拆解、模塊劃分以及協作方式。

從當前大模型的能力來看，它已經可以高效完成很多“程序員層面”的執行工作，這一點并不困難。真正的挑戰在于更上層的結構設計。具體來說，可以對應三個關鍵環節：

第一是任務拆解。需要將一個復雜問題分解為多個子任務，并明確各自的邊界與目標。第二是 prompt 設計。本質上是對任務目標的精確表達，相當于對執行單元的“指令定義”。第三是模型選擇與調度。即讓“合適的模型做合適的事情”，例如簡單任務可以交給輕量模型處理，復雜任務再調用更強的模型。這三個環節，實際上構成了一個完整的“結構設計過程”。

此外，還有一個容易被忽視的點：人類輸入的 token 往往更高效。在一些推理型模型中（例如帶有長鏈路思考過程的模型），模型在內部會生成大量中間推理步驟，這些過程本身會消耗大量 token。而人類可以在前置階段，通過更清晰的任務定義，減少模型不必要的探索路徑，從而降低整體開銷。

結合這些經驗，我個人的使用方式是：先盡可能在前期將 prompt 定義得清晰、具體；然后，對任務進行結構化拆解；最后，在不同復雜度任務之間，靈活選擇模型（包括開源模型與高性能閉源模型的組合使用）。

從長期來看，這也意味著一個能力轉變。以程序員為例，需要逐漸從單純的“編碼者（coder）”，轉向“系統架構設計者（architect）”。只有在更高層面進行結構設計，才能真正提升整體效率。

DeepTech：黃仁勛在會上還提出了 token 的分層定價策略，沿著"模型智能程度 × 生成速度 × 上下文長度"三個維度來定價，形成從免費層到高速層 $150/百萬 token 的供給體系。在這方面，一些國內公司已經相繼響應。你認為這一框架對產業格局會產生怎樣的深層影響？它是否會加速大模型市場的兩極分化？

戴國浩：剛才你提到的幾個關鍵變量，包括模型智能水平、生成速度和上下文長度，其實可以歸為兩類，并分別對應我們之前討論的價值轉化鏈條中的不同環節。

其中，生成速度和上下文長度，主要影響“算力到 token”的轉化效率。這一部分與計算能力和存儲能力密切相關：上下文長度更多涉及存儲與帶寬，生成速度主要與計算能力相關，同時也受到訪存效率的影響。

模型的智能水平，則對應“token 到生產力”的轉化效率。

從這個角度看，這三個變量實際上構成了整個價值鏈條中的關鍵維度。因此，將 token 按不同能力層級進行劃分，本身是有內在合理性的。

進一步來說，不同行業、不同任務，對 token 的“價值密度”要求是不同的。高質量 token（例如由更強模型生成）在某些場景中能夠產生更高價值，因此在定價上進行分層，是符合基本經濟邏輯的。

至于具體的定價策略，我并不是這方面的專家，但從一般規律來看，一個比較普遍的現象是：價值越高的產品，其“性價比”往往反而越低。

這一點在很多行業中都存在。例如汽車、手機等領域，高端產品通常在絕對性能上更強，但單位性能的價格也更高。這樣的結構并不會導致行業失衡，反而使不同需求的用戶，都可以在同一價值鏈中找到適合自己的選擇。

如果將 AI 視為一種逐漸成熟的“商品”，那么類似的分層定價體系，大概率也會自然出現。

DeepTech：但 token 作為一種相對新的“商品”，用戶在理解和接受它的過程中，可能還需要時間。它不像傳統行業那樣已經形成穩定認知。

戴國浩：是的，一方面是認知上的適應過程，另一方面，技術本身仍處在快速發展階段。

AI 在未來會在更多行業中釋放價值，但目前仍處于一個早期拐點階段。已經開始在部分場景中形成明確價值，但整體滲透率還不高。如果回看三年前，以對話系統為主的模型確實很難直接產生經濟價值，而現在情況已經發生了明顯變化。

DeepTech：當前的云計算基礎設施，本質上是為人類工程師設計的，而不是為 agent（智能體）設計的。在這種情況下，這套架構是否在一定程度上限制了 token 效率的進一步釋放？如果以“token factory”為目標推進，你認為從硬件、軟件到調度和服務，各個層面需要進行怎樣的重構？這種變化會有多激進？

戴國浩：這個問題也可以從生產體系演進的角度來理解。

如果把 token factory 類比為一種新的“工廠”，那么它和傳統的電廠或水廠類似，本質上是在生產基礎資源。回看工業發展歷程，每一次工業革命都會引入新的基礎生產要素，從蒸汽到電力，再到信息計算能力，而每一次這種變化，都會帶來整個系統結構的重構。

從這個意義上看，以 token 為代表的大模型體系，正在成為一種新的基礎生產要素。雖然它目前仍建立在既有的電力和信息系統之上，但隨著其重要性不斷提升，底層架構發生系統性變化是一個必然趨勢。

外界對 token 有不同的類比，比如把它看作比特，或者類比為電力，這些說法各有其合理性。但更關鍵的一點在于，當 token 成為核心生產單元之后，整個系統的各個層級都會圍繞它進行重新組織。最先發生變化的，往往是接口層——如果 token 成為統一的計量單位，那么系統之間的交互、任務的度量、甚至算力與電力的轉換關系，都可能逐漸以 token 為核心來表達。

當然，這一判斷隱含了一個前提，即當前以 Transformer 為基礎、以 token 為核心處理單元的范式在一段時間內是穩定的。從目前來看，這一方向具有較高確定性，但仍然存在技術演進的不確定性。

在這個前提下，各個層面的變化其實已經在發生。以芯片為例，像 NVIDIA 的 GPU 架構，雖然仍然是通用計算架構，但在數據中心場景中，已經引入了大量針對 Transformer 的專用計算單元。本質上，這些優化都是在圍繞 token 的處理效率展開。整個過程是漸進式的：從最早的通用計算，到針對矩陣運算的加速，再到專門為 Transformer 結構優化，逐步向 token 對齊。類似的趨勢，也會在軟件、調度乃至服務層逐步體現出來。

DeepTech：如果整個體系都逐步對齊到 token，本質上意味著默認的計算范式仍然是以 Transformer 為基礎。但我們也看到一些新的架構在出現，比如 Mamba，或者擴散模型在語言建模中的嘗試。你覺得如果這些技術發展到某個階段，token 是否可能被替代，或者演化成新的計算單元？

戴國浩：這個問題可以分兩個層面來看。

在中短期內，一種范式是否會被替代，關鍵不在于它“是否更好”，而在于它是否能在整體效率上實現數量級的提升。因為現有體系不僅僅是技術本身，還包括完整的工業基礎、軟件生態以及價值評估體系，這些都是高度固化的，切換成本非常高。往往需要展現出一個數量級的提升的潛力，才有可能推動技術的汰換迭代。

目前確實出現了一些新的架構，比如 Mamba，以及基于擴散過程的語言模型。這些方法在某些特定任務上可能表現更優，但從整體來看，一方面還缺乏大規模工程驗證，另一方面也很難在短時間內嵌入現有體系。更重要的是，它們在實際落地時，仍然需要與現有接口對齊，最終輸出依然是 token 序列。因此，從現實路徑來看，這些技術更像是在現有范式內部進行優化，而不是直接替代。

如果把視角拉得更長遠，確實存在一種可能性，即未來出現完全不同的計算范式，例如連續計算甚至量子計算。這類體系一旦成立，可能會從根本上改變當前以離散 token 為基礎的計算方式。但同樣，它必須在關鍵效率指標上顯著優于現有體系，才有可能推動整個產業遷移。

在當前階段，我更傾向于認為，這樣的范式轉變還需要較長時間。更現實的問題仍然是，在以 token 為核心的既有體系中，如何持續提升轉化效率，以及如何完善整個基礎設施和應用生態。這可能才是當下更關鍵的方向。

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.