【億邦原創】2025年3月24日,北京,國務院新聞辦公室發布會現場。國家數據局局長劉烈宏在介紹我國數據產業發展情況時,公布了一組極具沖擊力的數據:截至今年3月,我國日均詞元(Token)調用量已超過140萬億。相比2024年初的1000億,增長了1000多倍;相比2025年底的100萬億,短短三個月又增長了40%以上。
在中國加速智能化、綠色化和融合化發展的新征程中,這組數據本身已是重磅新聞。但比數字更引人注目的,是出現在劉烈宏局長發言中的一個細節——他將“Token”的中文譯名,首次在國家級新聞發布會的權威場合,正式確定為“詞元”。
在此之前,這個在數智化暨大模型時代高頻出現的詞匯,長期處于“不清晰”或“不準確”的狀態。各執一詞,莫衷一是。而今天,由國家數據局局長在國務院新聞辦宣讀出來,不僅意味著一個技術術語的譯名塵埃落定,更標志著對這一數字時代關鍵新事物的本質認知,終于有了定論。
一個外來詞的“正名”歷程
在中國文化傳統中,“名”的分量從未被輕看。孔子言“名不正則言不順”,荀子強調“制名以指實”。名與實的關系,從來不只是語言學問題,而是關乎認知、秩序與規律的哲學命題。這使得在人工智能時代,漢字似乎更擁有了特殊的競爭力。“Token”的譯名之爭,恰恰反映了這一事物在高速演進中,人們對它本質把握的漸進過程。
“Token”一詞初源于通信與計算機科學。在人工智能領域,最初也是指在自然語言處理中,對文本切分的最小單元,英文中基本就是一個個的單詞,而中文則可以是具有“意義”的一個字或一個詞。隨著大語言模型的崛起,Token的含義進一步擴展——它不僅是文本的基本單位,更是大語言模型運行的基本尺度,是算力消耗的度量標準,是數據要素的底層單元,是商業模式的計費基礎,是價值流轉的數字載體。如此復雜的內涵,使得尋找一個貼切的中文譯名變得格外困難。
此前,“令牌”之說最為流行,這一譯法取自Token在通信科學領域的含義,強調其“通行證”屬性,但難以涵蓋其在語義層面的本質。在一些場景中,直接以“分詞”命名。而“標記”則顯得有些過于泛化,失之精準。“代幣”則將Token框定在加密貨幣的語境中,對于大模型時代的Token而言,顯然是只見樹木不見森林。
而“詞元”一詞的確定,堪稱信達雅。“詞”字,指向Token在自然語言處理中的基礎功能——承載語義信息的最小單元。“元”字,則有“始也”“本也”“基也”之意,在中國哲學中具有根本性、本源性的內涵。二字合一,“詞元”既準確描述了這一概念在技術層面的具體所指,又暗合了其作為數字經濟新時代基礎要素的底層地位。“詞元”之定,不是簡單的翻譯選擇,而是對這一事物本質的深刻把握。
定名的基礎是數量級的增長
劉烈宏局長在發布會上公布的相關發展態勢數據,也為“詞元”這一概念的定名提供了有力的注腳。“詞元”日均調用量超過140萬億——這是一個怎樣的概念?如果以中國14億人口計算,意味著平均每人每天要調用10萬個詞元。當然,調用者并非僅為普通個體,還包括遍布全國的大模型應用、智能體服務、數據處理平臺。但即便如此,這一數字所揭示的,是詞元已從實驗室的概念、技術文檔的術語,徹底演變為經濟行為的重要計量單元。
從2024年初的日均1000億,到2025年底的日均100萬億,直到2026年3月的日均超過140萬億。短短兩年多時間,數量級的跨越式增長,折射出我國人工智能產業從“技術突破期”邁入“規模化應用期”的轉型,而作為人工智能產業發展基礎的數據要素,則從“基礎設施建設”邁入“價值釋放”的階段。
這一大跨步發展的核心,正是詞元作為基礎單元的全面滲透。正如一位專家所言,在模型訓練階段,詞元是語料標注的基本顆粒度;在模型推理階段,詞元是計算資源的分配單位;在商業應用層面,詞元是服務定價的計費依據;在產業生態中,詞元流轉構成了數據要素市場化的微觀基礎。可以說,理解今日之人工智能產業,離不開“詞元”這個基本視角。
正因如此,為“Token”確定一個準確、恰當的中文名稱,不僅是語言規范的需要,更是產業發展到一定階段后,對基礎概念進行理論定型的必然要求。從這個意義上說,“詞元”之定,是對規律的認識和尊重。即當一種技術要素發展到足以成為產業基礎、經濟單元、社會設施的時候,為其正名,就是對規律的確認。
定名背后的中國話語權構建
在科技產業領域,長期以來,大量專業術語直接使用英文縮寫或外文原詞,中文譯名遲遲難以確立,這背后既有技術追趕階段“拿來主義”的現實考量,也有話語體系建設滯后的深層原因。“詞元”的定名,提供了一個值得深思的樣本。它不是簡單的音譯,也不是機械的直譯,而是在深刻理解技術內涵、準確把握發展趨勢基礎上的意譯與創造。“詞”與“元”的組合,既有中國古典哲學的韻味,又精準對應現代信息科學的概念體系。這種命名方式,體現了在數字時代構建中國技術話語體系的自覺與能力。
當前,人工智能正在深刻重塑全球競爭格局。誰掌握了核心技術的定義權,誰就掌握了產業發展的主導權。術語命名看似細微,實則是話語權建設及至文明發展的基礎工程。“詞元”的確定,是我國在數字技術基礎概念領域的一次重要實踐。當“詞元”這個承載著中國智慧的譯名被正式確立,它所傳遞的不僅是一個技術術語的標準化,更是中國在人工智能時代對基礎概念進行定義的能力與自信。
“名者,實之賓也”,“名”一旦確立,便會反過來規范人們對“實”的認識,引導實踐的方向。從“詞元”出發,我們對于人工智能產業的理解將更加清晰,對于數據要素市場的計量將更加精準,對于數智化發展的規律把握將更加深刻,這個來自東方的命名,終將成為全球數字技術話語體系中不可或缺的部分。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.