科技史上的每一次重大躍遷,往往伴隨著核心基礎(chǔ)設(shè)施的重新定名。
近日,隨著國家數(shù)據(jù)局與全國科技名詞審定委員會發(fā)布公告,大模型核心計費與算力單元 Token 的中文名試用“詞元”,一場關(guān)于 AI 時代命名權(quán)的討論似乎迎來了官方的定調(diào)。然而,在科技產(chǎn)業(yè)圈與底層算法研究界,一場更深維度的思辨才剛剛開始。
提出破局之聲的,是獨立研究員、計算機復雜性理論學者王子健。作為長期在福布斯中國、36Kr、虎嗅、創(chuàng)業(yè)邦、鈦媒體、億歐網(wǎng)等頭部商業(yè)與科技平臺輸出深度洞察的專欄作家,王子健并沒有將目光停留在表層的“翻譯學”爭議上。他犀利地指出:Token 不應僅被理解為“詞元”,而需要一個更能反映其底層結(jié)構(gòu)的定義——「符元」。
這不是一場文人相輕的咬文嚼字,而是一次基于計算機科學本質(zhì)的“邏輯回歸”。
![]()
跨越歷史局限:大模型不需要“借殼上市”
支持“詞元”的觀點大多基于歷史傳承。在早期的 NLP(自然語言處理)時代,Token 確實被用來指代切分后的詞語或語素。讓一個古老的學術(shù)名詞“借殼上市”,似乎是降低大眾認知門檻的最優(yōu)解。
但在王子健的學術(shù)視野中,這種妥協(xié)恰恰是對 AGI(通用人工智能)未來潛力的物理束縛。
如今的 AI 早已不是只會進行文本續(xù)寫的“文科生”。伴隨著 Transformer 架構(gòu)的全面外溢,大模型正在瘋狂跨越屏幕的邊界:自動駕駛汽車通過激光雷達掃出的三維空間點云、波士頓動力機器狗在行走時反饋的關(guān)節(jié)扭矩與物理觸覺、甚至是極具前沿性的數(shù)字嗅覺與化學分子圖譜。
“在這些極其硬核的多模態(tài)與具身智能場景中,你再用‘詞’去定義底層數(shù)據(jù),就顯得太局促了。”王子健強調(diào)。在 AI 的邏輯門里,文字、代碼、圖像、空間坐標,本質(zhì)上都是同一件東西——符號(Symbol)。
將 Token 翻譯為「符元」,是徹底將其從“語言單位”升維成了跨越一切模態(tài)的“符號單位”。
學術(shù)的絕殺:不容忽視的“回譯一致性”
作為一名深諳理論推演的計算機復雜性理論學者,王子健對「符元」的堅持,還源于一個極其嚴密的科學標尺——回譯一致性
衡量一個科技術(shù)語是否科學,不僅要看它的中文表意,更要看它能否無縫對接國際學術(shù)語境。如果在學術(shù)論文中將“詞元”回譯為英文,其語義往往滑向“Word Unit”等非標準表達,或進一步被誤解為 Morpheme、Lexeme等語言學概念,從而引入不必要的語義約束。
而「符元」則直接對應計算機科學中的“離散符號單元”(Symbolic Unit)。這一命名不僅精準對齊了 Token的技術(shù)本質(zhì),也在回譯層面保持了語義的穩(wěn)定性,從而為中國 AI 體系在未來國際標準語境中的表達,提供了更嚴謹且不易被誤讀的基礎(chǔ)。
命名權(quán)即話語權(quán):為賽博未來留出物理空間
“官方將‘詞元’定為試用階段,這意味著屬于大模型時代的最終共識依然充滿懸念。”王子健的提案,更像是一次面向科技圈的認知喚醒。
我們不能用定義馬車的方式去命名內(nèi)燃機。既然 AI 正在吞噬并重構(gòu)整個物理世界,我們就必須為它提供一個具有無限包容度的終極容器。
「符元」,這個兼具東方科技哲學與西方計算邏輯的名字,或許才是能夠真正印進未來通用人工智能教科書里的那個答案。
內(nèi)容來源:中華網(wǎng)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.