![]()
一個泰國農民詢問作物補貼政策,一個尼日利亞母親用約魯巴語搜索疫苗接種時間表,一個巴西公民用葡萄牙語填寫稅務表格——他們面對的AI,運行能力只有英文用戶的零頭。不是智力不夠,是模型根本沒學過他們的語言。
這是當前AI行業最隱蔽的裂縫:超過92%的訓練數據是英語,全球約7000種語言中,主流大模型真正支持的只有50種左右。這里說的"支持",僅僅是"能給出回答",不涉及準確度。剩下的語言,要么被低質量的機器翻譯英語內容粗糙覆蓋,要么完全缺席。
行業忙著慶祝"人類水平"的基準測試成績,但這些基準測試 overwhelmingly 是英語的。對世界上大多數人來說,AI革命還沒真正抵達——它卡在海關,等著一個翻譯。
巴別塔的當代回聲
大約4000年前,巴比倫是地球上最國際化的城市。位于現代伊拉克境內,地處古代貿易路線的十字路口,阿卡德語、蘇美爾語、阿拉姆語、埃蘭語等數十種語言在此日常碰撞。商人、學者、外交官從美索不達米亞各地匯聚于此,這座城市之所以繁榮,正是因為它找到了跨越語言的橋梁——通過抄寫員、翻譯官,以及世界上第一批多語種圖書館。
《圣經》中巴別塔的故事背景就設在巴比倫,但講法不同:上帝將人類分散到世界各地,混淆他們的語言,使他們無法再相互理解。這是一個關于溝通斷裂的故事——共享的工程因語言不通而變得不可能。
我們正生活在一個奇怪的回聲里。人類建造了史上最強大的推理機器,能寫詩、證明定理、生成可運行的代碼。但這些機器用英語思考。當世界其他地方試圖與它們對話時,塔就崩塌了。不是智力不存在,而是語言屏障在信號抵達模型的推理核心之前,就已經將其腐蝕。
用英語問前沿大模型任何問題,你會得到 polished、準確、推理嚴密的回答。用泰語問同樣的問題,結果往往像用漏勺喝湯——信息還在,但精華流走了。
![]()
數據荒漠里的語言
大模型的能力邊界由訓練數據劃定。英語在互聯網上占據絕對優勢:維基百科60%以上內容、學術論文90%以上、高質量書籍和代碼庫的主流語言。這種優勢被直接繼承到模型權重里。
低資源語言的困境是雙重的。首先是數據量——斯瓦希里語、孟加拉語、泰盧固語等數億人使用的語言,數字化文本可能只有英語的幾千分之一。其次是數據質量——大量所謂"多語言"內容,實為英語材料的機器翻譯,帶著翻譯腔和事實錯誤進入訓練集。
一個模型在英語上學會的邏輯推理、事實核查、語境理解,在低資源語言上無法自動遷移。語言不只是詞匯替換,是整套思維方式的載體。當模型用"英語思維"處理泰語輸入,它其實在做一個損耗極大的轉碼游戲。
更隱蔽的傷害在于反饋循環。AI生成的低質量多語言內容又回流互聯網,成為下一代模型的訓練數據。劣幣驅逐良幣,數據荒漠逐漸擴大。
被折疊的用戶體驗
產品層面,這種不平等被界面設計巧妙掩蓋。聊天機器人的輸入框看起來對所有人平等開放,但背后的服務質量天差地別。
英文用戶享受的是原生體驗:復雜指令理解、多輪對話連貫、專業術語準確、文化語境恰當。非英語用戶得到的是降級版本:簡單查詢尚可應付,一旦涉及專業領域、微妙表達或本地知識,模型就開始"幻覺"——用自信的語氣編造答案。
![]()
這種降級對高教育程度、能切換英語的用戶影響有限。但對真正的全球多數——那些只會本地語言、依賴AI獲取關鍵信息的人——這是結構性排斥。他們被要求用第二甚至第三語言與機器交互,或者接受質量打折的服務。
技術民主化的承諾,在語言門檻前出現了分叉。
修補與重建
行業并非毫無作為。多語言預訓練、跨語言遷移學習、特定語言微調——這些技術方向都在推進。一些開源項目專注收集低資源語言的本土語料,繞過英語中心的中介。
但商業激勵結構是擰巴的。訓練數據的獲取成本、計算資源的分配、產品優先級的排序,都向高回報市場傾斜。英語用戶付費意愿強、數據反饋豐富、品牌效應顯著。邊緣語言社區的投入產出比,在 spreadsheet 上很難好看。
更深層的張力在于:大模型的"通用智能"敘事,與語言特定性的現實之間的矛盾。我們傾向于認為推理能力是抽象的、可遷移的,但證據表明,語言深度嵌入認知過程。一個從未真正"浸泡"在某語言中的模型,對該語言使用者的思維方式始終是陌生的。
巴比倫的抄寫員花了數千年積累多語言知識。我們似乎期待大模型用幾十年走完這條路,卻忘了它們的學習材料本身就不平衡。
下一次當你用中文向AI提問,得到看似流暢的回答時,可以多想一層:這個回答的"母語"是什么?它理解你的問題,還是僅僅在模擬理解?如果答案關乎你的健康、財務或法律權利,這種模擬的代價是什么?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.