這份中美AI競爭最權(quán)威報告，并沒說出全部真相

2026-04-19 08:45:58　來源: 觀察者網(wǎng)

上海舉報

分享至

【文/觀察者網(wǎng) 心智觀察所】

前幾天，斯坦福大學(xué)人本人工智能研究院（HAI）發(fā)布的《2026年AI指數(shù)年度報告》，是當(dāng)前全球范圍內(nèi)最具系統(tǒng)性和數(shù)據(jù)密度的AI領(lǐng)域綜合評估文獻之一。這份長達數(shù)百頁的年度報告，覆蓋了從研發(fā)管線、技術(shù)性能到經(jīng)濟影響、公共政策的全景圖譜，其數(shù)據(jù)來源橫跨Epoch AI、OpenAlex、GitHub、Hugging Face、Cloudscene等多個獨立數(shù)據(jù)庫，分析框架嚴謹、引用鏈條完整，在學(xué)術(shù)圈和政策圈的影響力毋庸置疑。

然而，正因其權(quán)威性，對它的批判性閱讀才更為重要。

報告在中美AI競爭這一核心議題上提出了一個標(biāo)志性判斷——“中美AI模型性能差距已實質(zhì)性閉合”（The U.S.-China AI model performance gap has effectively closed，如下圖）。簡單說，就是差距已經(jīng)可以忽略了。

這個結(jié)論本身并無問題，甚至可以說是對當(dāng)下事實的準確描述。但問題在于，報告圍繞這一結(jié)論所搭建的論證結(jié)構(gòu)，存在若干邏輯上的不周延之處；而更關(guān)鍵的是，這份報告受限于其方法論框架和數(shù)據(jù)覆蓋范圍，對“中國AI模型為什么能追平，以及憑什么可能超越”這個問題，留下了大量未被講透的空間。

先看報告的核心論據(jù)。報告以LMArena的Elo評分體系作為中美模型性能比較的主要標(biāo)尺。數(shù)據(jù)顯示，2025年2月，DeepSeek-R1以1400分一度逼平美國頂尖模型o1的1405分，差距僅0.4%；截至2026年3月，Anthropic的Claude Opus 4.6以1503分領(lǐng)先中國最佳模型Dola-Seed-2.0 Preview的1464分，差距2.7%。報告據(jù)此得出“差距閉合”的判斷，邏輯上是站得住腳的。但這里存在一個方法論層面的深層問題：Arena排行榜本身的可靠性正在被質(zhì)疑。

報告自身也引用了Singh等人2025年的研究，指出Arena的排名可能部分反映的是對平臺本身的適應(yīng)性優(yōu)化，而非模型的通用能力。如果評價標(biāo)尺本身可能存在系統(tǒng)性偏差，那么基于該標(biāo)尺得出的“差距閉合”結(jié)論，其置信度就需要打一個折扣——但報告在表述上并未對此做出充分的限定。更深層的問題在于，Arena的Elo評分本質(zhì)上測量的是“用戶偏好”而非“客觀能力”。

用戶在盲測中選擇偏好的輸出，這種評價方式天然偏向流暢性、風(fēng)格化和指令遵從度，而非推理深度、專業(yè)準確性或長鏈條任務(wù)完成率。中國模型在這些軟性維度上的進步是真實的，但如果我們關(guān)注的是AI在科學(xué)發(fā)現(xiàn)、工程實踐和復(fù)雜決策中的實際效用，Arena并不是最合適的衡量工具。

報告在專業(yè)領(lǐng)域基準測試如SWE-bench、FrontierMath、CorpFin等上的數(shù)據(jù)呈現(xiàn)，主要以模型名稱排列而非按國別分組，這使得讀者難以直觀地判斷中美模型在這些更硬核的評估維度上的相對位置。這不是一個疏忽，而是一種分析框架上的選擇，但這種選擇客觀上遮蔽了中國模型在多個專業(yè)領(lǐng)域已經(jīng)進入第一梯隊這一事實。

還有一個容易被忽略的邏輯問題存在于報告對“透明度”的論述中。報告在第一章反復(fù)強調(diào)，美國前沿實驗室如OpenAI、Anthropic、Google正變得越來越不透明——訓(xùn)練代碼、參數(shù)量、數(shù)據(jù)集規(guī)模、訓(xùn)練時長等關(guān)鍵信息不再公開披露。

報告將此視為阻礙外部研究者復(fù)現(xiàn)和審計的障礙，這一判斷完全正確。但報告沒有追問的是：這種不透明對中美比較本身意味著什么？當(dāng)美國模型的訓(xùn)練計算量只能通過間接方法估算，而中國模型如DeepSeek-V3反而公開了詳細的訓(xùn)練信息時，報告圖表中“美國模型訓(xùn)練計算量遠高于中國”的視覺印象，實際上可能部分來自估算方法對不透明模型的高估。

報告在腳注中提到Epoch AI對訓(xùn)練計算量的估算方法包括“基于硬件規(guī)格推算”和“基于基準性能反推”，這些間接方法對于未披露信息的模型存在較大的不確定性區(qū)間。但在正文的圖表呈現(xiàn)中，美國模型和中國模型的數(shù)據(jù)點被放在同一坐標(biāo)系中，未做任何不確定性標(biāo)注，給讀者造成了一種精確對比的錯覺。

接下來看報告在研發(fā)管線分析中的邏輯鏈條。

第一章詳細追蹤了“顯著AI模型”的國別分布，2025年美國發(fā)布50個、中國發(fā)布30個。這個數(shù)據(jù)來自Epoch AI的人工遴選數(shù)據(jù)庫，篩選標(biāo)準包括“前沿性突破”、“歷史意義”、或“高引用率”等。報告也承認這并非所有AI模型的普查，而是一種基于專家判斷的策展。問題在于，Epoch AI作為一個主要由西方學(xué)術(shù)圈運營的數(shù)據(jù)庫，其對“顯著性”的判斷標(biāo)準是否對中國模型存在系統(tǒng)性的低估？

中國的AI模型生態(tài)如魔搭社區(qū)、百度飛槳等活躍于國內(nèi)平臺，而非Hugging Face或GitHub的項目，這些模型在Epoch AI的篩選網(wǎng)絡(luò)中天然處于低可見度的位置。報告在開源軟件部分也坦承，中國開發(fā)者大量使用Gitee和GitCode等國內(nèi)平臺，而這些平臺的數(shù)據(jù)并未被納入分析——報告甚至在腳注中明確標(biāo)注了這一點。這意味著，“美國50個vs中國30個”這一看似清晰的數(shù)量對比，實際上可能建立在不對稱的數(shù)據(jù)采集基礎(chǔ)之上。報告的誠實之處在于它沒有掩飾這一局限，但其不足之處在于它沒有對這一局限的潛在影響做出定量或定性的修正。

中美主流模型序列發(fā)布時間線（截圖自該報告）

在算力和基礎(chǔ)設(shè)施維度上，報告提供了一個極具沖擊力的數(shù)據(jù)點：美國擁有5427個數(shù)據(jù)中心，是排名第二的德國（529個）的十倍以上，中國僅449個。但報告自己也提醒，數(shù)據(jù)中心的數(shù)量并不等于計算容量或利用率。

事實上，中國的數(shù)據(jù)中心建設(shè)采用了與美國截然不同的集約化模式——更少但更大、更集中、更面向AI訓(xùn)練優(yōu)化的超大規(guī)模設(shè)施。騰訊、阿里巴巴、字節(jié)跳動的智算中心單體算力密度，在全球范圍內(nèi)處于領(lǐng)先水平。將“數(shù)據(jù)中心數(shù)量”作為AI基礎(chǔ)設(shè)施實力的代理指標(biāo)，其實質(zhì)是用美國的基礎(chǔ)設(shè)施范式去度量中國的基礎(chǔ)設(shè)施投入，這在方法論上是有偏差的。

報告在論述中國AI發(fā)展時，還遺漏了幾個關(guān)鍵的結(jié)構(gòu)性優(yōu)勢。第一是效率路徑的范式意義。DeepSeek-V3的訓(xùn)練碳排放僅597噸二氧化碳當(dāng)量，而同期美國模型Grok 4高達72816噸，兩者相差超過120倍。報告將此數(shù)據(jù)呈現(xiàn)在環(huán)境影響章節(jié)中，但并未將其與中美競爭敘事打通。

事實上，DeepSeek-R1引入的GRPO訓(xùn)練方法，通過對比一組生成輸出而非依賴獨立評審模型來訓(xùn)練推理能力，所代表的不僅僅是一種技術(shù)創(chuàng)新，而是一種資源約束驅(qū)動的效率范式。在芯片禁令的壓力下，中國模型被迫走向用更少資源做更多事的路徑，而這種路徑一旦走通，其可擴展性反而可能超過美國式的暴力堆算力模式。報告承認DeepSeek-R1的發(fā)布引發(fā)了美國科技股超過一萬億美元的市值波動，但對這種效率優(yōu)勢的長期戰(zhàn)略意義缺乏深入分析。

在應(yīng)用落地的速度和規(guī)模方面，報告提到中國Apollo Go在2025年完成了1100萬次完全無人駕駛出行，同比增長175%，而美國Waymo的周出行量約45萬次。簡單換算，Apollo Go的年化出行量是Waymo的約四到五倍。但報告將這一數(shù)據(jù)點放在了自動駕駛技術(shù)進展的敘述中，而非中美競爭分析的框架內(nèi)。類似的遺漏還出現(xiàn)在工業(yè)機器人安裝量（報告在摘要中提到中國領(lǐng)先但未在前兩章展開）、AI在制造業(yè)和供應(yīng)鏈中的滲透率等維度上。

中美AI模型的碳排放

中國AI的比較優(yōu)勢，很大程度上不在于“模型能力的峰值”而在于“從模型到產(chǎn)品到大規(guī)模部署”的全鏈條速度，而這恰恰是當(dāng)前報告的分析框架——以基準測試和論文計量為核心——難以捕捉的。

有關(guān)開源生態(tài)的戰(zhàn)略縱深，報告記錄了一個值得深思的數(shù)據(jù)趨勢：在Hugging Face的模型下載份額中，美國開發(fā)者的占比從2020年的超過70%下降到2025年的不足25%，而中國開發(fā)者和“無國別標(biāo)注”用戶的份額持續(xù)上升。阿里巴巴的Qwen系列、DeepSeek系列、智譜的GLM系列，在全球開源社區(qū)中的影響力已經(jīng)與Meta的Llama形成了正面競爭。

報告在組織維度的數(shù)據(jù)中顯示，2025年阿里巴巴發(fā)布了11個顯著模型，僅次于OpenAI的19個和Google的12個，超過了Anthropic和Meta。但報告并未將這一趨勢放進中美競爭的分析框架中討論其戰(zhàn)略含義：中國企業(yè)正通過開源模型在全球范圍內(nèi)建立開發(fā)者生態(tài)和技術(shù)標(biāo)準影響力，“模型數(shù)量”和“基準評分”之外的一種全新競爭維度正在形成。這種通過開源輸出技術(shù)影響力的路徑，與中國在5G標(biāo)準制定中的經(jīng)驗一脈相承，但報告對此完全沒有觸及。

除此之外，報告詳細記錄了一個引人注目的趨勢：流入美國的AI研究人員自2017年以來下降了89%，僅過去一年就下降了80%。但報告在人才部分的數(shù)據(jù)來源Zeki并不覆蓋中國，這意味著我們看到了美國人才吸引力的衰退，卻無法看到中國人才池的擴張。中國每年培養(yǎng)的STEM博士數(shù)量已超過美國，且中國在全球高被引AI論文Top 100中的份額從2021年的33篇增長到2024年的41篇，首次逼近美國的46篇。清華大學(xué)在Epoch AI的累計顯著模型榜中與斯坦福并列第一（各26個）。

如果把這些散落在報告各處的數(shù)據(jù)點串聯(lián)起來，呈現(xiàn)的圖景遠比“差距閉合”更具沖擊力，它指向的是一種可能的“交叉”（crossover），而非僅僅是“追平”。

報告在投資數(shù)據(jù)上的處理方式也有不小的問題。報告指出2025年美國AI私人投資達2859億美元，是中國124億美元的23倍以上。但報告自己也在腳注中承認，僅看私人投資“可能低估了中國的AI總支出，因為中國有政府引導(dǎo)基金”。這種將核心修正條件放在腳注中的處理方式，在學(xué)術(shù)寫作中并不罕見，但對于一份面向政策制定者和媒體的報告而言，其效果是使正文中“23倍差距”的數(shù)字獲得了遠大于其實際信息量的傳播力。

中國政府通過國家大基金、地方政府AI產(chǎn)業(yè)基金、國有企業(yè)研發(fā)投入等渠道注入AI領(lǐng)域的資本規(guī)模，目前缺乏可靠的公開估算，但多個獨立來源認為其量級遠超私人投資的口徑。報告對此的處理，稱不上是誤導(dǎo)，但確實構(gòu)成了一種系統(tǒng)性的低估。

綜合來看，斯坦福AI指數(shù)報告的核心判斷“中美AI差距已經(jīng)閉合”是準確的，但這份報告并沒有完整地解釋這個故事。

中國AI的競爭力不僅來自模型性能本身的追趕，更來自效率范式的突破、應(yīng)用落地的加速、人才厚度的積累、以及國家戰(zhàn)略與產(chǎn)業(yè)生態(tài)的深度耦合。在一個Arena評分差距僅2.7%的世界里，決定下一階段競爭格局的變量，很可能不是誰的模型在基準測試上多得幾分，而是誰能更快地將模型能力轉(zhuǎn)化為產(chǎn)業(yè)價值和社會效用。在這些真正決定勝負的維度上，中國不僅不亞于美國，而且在多個關(guān)鍵方向上正在建立結(jié)構(gòu)性優(yōu)勢。遺憾的是，這些維度恰恰是斯坦福這份以基準測試和學(xué)術(shù)計量為核心方法論的報告，最不擅長捕捉的。

本文系觀察者網(wǎng)獨家稿件，文章內(nèi)容純屬作者個人觀點，不代表平臺觀點，未經(jīng)授權(quán)，不得轉(zhuǎn)載，否則將追究法律責(zé)任。關(guān)注觀察者網(wǎng)微信guanchacn，每日閱讀趣味文章。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.