網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

2026斯坦福AI指數(shù)報(bào)告：美國(guó)AI投資規(guī)模是中國(guó)的23倍，但AI模型基本沒差距了

2026-04-14 12:08:36　來源: 鈦媒體APP

北京舉報(bào)

分享至

文 | 智能紀(jì)元AGI，作者｜林志佳

如果你經(jīng)常關(guān)注AI領(lǐng)域新聞，可能已經(jīng)感到信息過載：AI是淘金熱，AI是泡沫，AI會(huì)搶走你的工作，AI甚至連時(shí)間都看不懂等。

但就在4月14日凌晨，一年一度的美國(guó)斯坦福大學(xué)以人為本人工智能研究所《2026年人工智能指數(shù)》正式發(fā)布，全文共計(jì)423頁。這份報(bào)告將為你撥開迷霧，尋找新的方向。

報(bào)告封面圖

報(bào)告指出，AI技術(shù)的普及速度空前。過去三年，生成式AI滲透率已經(jīng)達(dá)53%，快于個(gè)人電腦與互聯(lián)網(wǎng)；企業(yè)采用率88%，超80%大學(xué)生使用生成式AI。

同時(shí)，全球處于AI產(chǎn)業(yè)主導(dǎo)模型研發(fā)。2025年，行業(yè)產(chǎn)出超90%頂尖模型，OpenAI、谷歌、阿里為主要貢獻(xiàn)者，學(xué)術(shù)僅占1%。

對(duì)于中美AI技術(shù)差距，報(bào)告認(rèn)為“基本抹平”，頂尖模型性能交替領(lǐng)先，截至2026年3月，美國(guó)模型僅比DeepSeek等中國(guó)模型領(lǐng)先2.7%。其中，中國(guó)在論文、專利、工業(yè)機(jī)器人裝機(jī)量領(lǐng)先，美國(guó)在頂級(jí)模型、高價(jià)值專利、投資領(lǐng)先。

算力層面，全球AI算力自2022年每年增長(zhǎng)3.3倍，英偉達(dá)占60%以上份額。從訓(xùn)練角度，美國(guó)擁有5427個(gè)數(shù)據(jù)中心，依然排名全球第一。

速度的提升并非沒有代價(jià)。如今，全球AI數(shù)據(jù)中心耗電量高達(dá)29.6吉瓦，足以滿足紐約州高峰期的用電需求。僅運(yùn)行OpenAI的GPT-4o一年的用水量就可能超過1200萬人的飲用水需求。

數(shù)據(jù)顯示，AI技術(shù)的發(fā)展速度已經(jīng)超過了我們的應(yīng)對(duì)能力。

以下是今年報(bào)告中的一些要點(diǎn)：

美國(guó)和中國(guó)模型技術(shù)幾乎勢(shì)均力敵

這場(chǎng)曠日持久、競(jìng)爭(zhēng)激烈的AI模型競(jìng)賽中，中美兩國(guó)在AI模型性能方面幾乎不分伯仲。

斯坦福AI指數(shù)報(bào)告引述基準(zhǔn)排名平臺(tái)Arena的數(shù)據(jù)顯示，2023年初，OpenAI的ChatGPT領(lǐng)先，但隨著谷歌和Anthropic發(fā)布各自的模型，這一差距在2024年逐漸縮小。

2025年2月，DeepSeek開發(fā)的AI模型R1一度與美國(guó)頂級(jí)模型ChatGPT 并駕齊驅(qū)。

截至2026年3月，Anthropic領(lǐng)先，xAI、谷歌和OpenAI緊隨其后。DeepSeek和阿里巴巴等中國(guó)模型僅略遜一籌，但美國(guó)模型僅領(lǐng)先2.7%。由于排名靠前的AI模型之間的差距微乎其微，它們現(xiàn)在的競(jìng)爭(zhēng)主要集中在成本、可靠性和實(shí)際應(yīng)用價(jià)值上。

該指數(shù)報(bào)告指出，美國(guó)和中國(guó)在AI領(lǐng)域擁有不同的優(yōu)勢(shì)。

雖然美國(guó)擁有更強(qiáng)大的AI模型、更雄厚的資金以及約5427個(gè)數(shù)據(jù)中心（是其他任何國(guó)家的10倍以上），但中國(guó)在AI研究論文發(fā)表數(shù)量、專利數(shù)量和機(jī)器人技術(shù)方面均領(lǐng)先。

其中，在投資方面，2025年全球AI領(lǐng)域私人（風(fēng)險(xiǎn)）投資增速最快，達(dá)到127.5%，目前占總額的60%；而當(dāng)中，生成式AI引領(lǐng)了這波增長(zhǎng)，增速超過200%，占據(jù)了近一半的AI風(fēng)險(xiǎn)融資。新獲融資的AI公司數(shù)量增長(zhǎng)了71%，十億美元級(jí)融資事件的數(shù)量幾乎翻了一番。

從地區(qū)角度看，預(yù)計(jì)到2025年，美國(guó)AI風(fēng)險(xiǎn)投資將達(dá)到2859億美元，是中國(guó)124億美元投資額的23倍多——盡管考慮到政府的指導(dǎo)性資金，僅看私人投資數(shù)據(jù)可能低估了中國(guó)在AI領(lǐng)域的總支出。

而且，美國(guó)在AI創(chuàng)業(yè)活動(dòng)方面也處于領(lǐng)先地位，預(yù)計(jì)到2025年將有1953家新成立的AI公司獲得融資，是排名第二國(guó)家的10倍以上。

然而，自2017年以來的10年間，移居美國(guó)的頂尖AI人才（研究與開發(fā)人員）數(shù)量下降了89%，僅去年一年就下降了80%。

同時(shí)，中國(guó)在論文發(fā)表量、引用量和專利授權(quán)方面領(lǐng)先，授予的AI專利數(shù)（占世界總數(shù)百分比）高達(dá)74.24%；美國(guó)則擁有更高影響力的專利，并在2025年產(chǎn)生了50個(gè)值得關(guān)注的模型，而中國(guó)只有30個(gè)。

此外，韓國(guó)在人均AI專利方面領(lǐng)先，中國(guó)在引用量最高的100篇AI論文中的份額從2021年的33%增長(zhǎng)到2024年的41%。

機(jī)器人技術(shù)層面，中國(guó)占全球工業(yè)機(jī)器人裝機(jī)量的54%，高于2023年的51.1%。全球同比增速持平，包括美國(guó)、德國(guó)和意大利在內(nèi)的幾個(gè)主要市場(chǎng)出現(xiàn)下滑。

排名前5位的國(guó)家新安裝的工業(yè)機(jī)器人數(shù)量中，中國(guó)機(jī)器人企業(yè)以295項(xiàng)排名第一，遠(yuǎn)超過日本、美國(guó)、韓國(guó)等。

隨著競(jìng)爭(zhēng)加劇，OpenAI、Anthropic和谷歌等公司不再公開其訓(xùn)練代碼、參數(shù)數(shù)量或數(shù)據(jù)集大小。

報(bào)告顯示，在2023年至2024年間，基礎(chǔ)模型透明度指數(shù)從37上升至58，但2025年平均得分下降至40。在訓(xùn)練數(shù)據(jù)、計(jì)算資源和部署后影響等方面的披露仍然存在重大差距。

“我們對(duì)預(yù)測(cè)模型行為知之甚少，”南加州大學(xué)計(jì)算機(jī)科學(xué)家、該報(bào)告的合著者吉爾（Yolanda Gil）指出，這種缺乏透明度使得獨(dú)立研究人員難以研究如何使AI模型更安全。

不過，報(bào)告認(rèn)為，頂尖AI模型參數(shù)數(shù)量三年來一直維持在1萬億左右，盡管前沿實(shí)驗(yàn)室已停止發(fā)布相關(guān)數(shù)據(jù)。而訓(xùn)練計(jì)算量（可以獨(dú)立估算）則持續(xù)增長(zhǎng)。

其中，OLMo 3.1 Think 32B 的參數(shù)比 Grok 4 少了近 90 倍，僅通過修剪、去重和整理就在多個(gè)基準(zhǔn)測(cè)試中取得了可比的結(jié)果。

另外，AI模型正在擴(kuò)展到專業(yè)領(lǐng)域，在稅務(wù)、抵押貸款處理、公司財(cái)務(wù)和法律推理的評(píng)估中，其性能表現(xiàn)從60%到90%不等。而排名前15的模型在各項(xiàng)基準(zhǔn)測(cè)試中性能差距僅為3個(gè)百分點(diǎn)。

其中在TaxEval v2準(zhǔn)確率當(dāng)中，國(guó)內(nèi)的Kimi K2.5排名第一，達(dá)74.2%的準(zhǔn)確率，高于OpenAI和Anthropic研發(fā)的一眾模型。

這類對(duì)性能和可靠性要求極高的領(lǐng)域，對(duì)AI模型而言仍然是巨大的挑戰(zhàn)。

AI模型發(fā)展速度極快，但測(cè)試AI基準(zhǔn)的錯(cuò)誤率高達(dá)42%

盡管有人預(yù)測(cè)AI模型的發(fā)展將會(huì)停滯不前，但它們卻不斷進(jìn)步。在某些方面，它們?cè)谥荚诤饬坎┦考?jí)科學(xué)、數(shù)學(xué)和語言理解能力的測(cè)試中，其表現(xiàn)已經(jīng)達(dá)到甚至超過了人類專家。

報(bào)告顯示，SWE-bench Verified是一個(gè)針對(duì)AI模型的軟件工程基準(zhǔn)測(cè)試，其最高得分從2024年的約60%躍升至2025年的近100%。2025 年，一個(gè)AI系統(tǒng)能夠獨(dú)立生成天氣預(yù)報(bào)。

吉爾說：“令我驚訝的是，這項(xiàng)技術(shù)還在不斷進(jìn)步，而且絲毫沒有停滯不前的意思。”

然而，AI在許多其他領(lǐng)域仍然面臨挑戰(zhàn)。

由于人工智能模型是通過處理海量文本和圖像而非體驗(yàn)物理世界來學(xué)習(xí)的，因此人工智能表現(xiàn)出“鋸齒狀智能”。機(jī)器人仍處于早期階段，僅能成功完成12%的家務(wù)任務(wù)；AI也在向法律和金融等專業(yè)領(lǐng)域拓展，但目前還沒有任何一種模型能夠完全主導(dǎo)這些領(lǐng)域。

自動(dòng)駕駛汽車的發(fā)展則更為迅速：Waymo的自動(dòng)駕駛汽車目前已在美國(guó)五個(gè)城市投入使用，百度的Apollo Go自動(dòng)駕駛汽車也在中國(guó)為乘客提供出行服務(wù)。

而且，我們測(cè)試AI大模型技術(shù)的方式存在缺陷。

斯坦福大學(xué)的報(bào)告指出，用于追蹤AI進(jìn)展的基準(zhǔn)測(cè)試難以跟上模型快速突破極限的步伐。有些基準(zhǔn)測(cè)試設(shè)計(jì)得很差——例如，一個(gè)常用的測(cè)試模型數(shù)學(xué)能力的基準(zhǔn)測(cè)試，錯(cuò)誤率高達(dá)42%。還有一些基準(zhǔn)測(cè)試可以被操縱：例如，當(dāng)模型使用基準(zhǔn)測(cè)試數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)，它們無需變得更聰明就能獲得高分。

如今，幾乎所有領(lǐng)先的前沿模型開發(fā)商都會(huì)報(bào)告其在MMLU和SWE-bench等能力基準(zhǔn)測(cè)試中的結(jié)果，但關(guān)于負(fù)責(zé)任的 AI 基準(zhǔn)測(cè)試的報(bào)告仍然很少。有記錄的AI事故持續(xù)上升，AI事故數(shù)據(jù)庫顯示，2025年的事故數(shù)量為362起，高于2024年的233起。

導(dǎo)致的后果之一是，在一項(xiàng)新的準(zhǔn)確率基準(zhǔn)測(cè)試中，26個(gè)頂級(jí)模型的幻覺率介于22%到94%之間。GPT-4o的準(zhǔn)確率從98.2%下降到 64.4%，DeepSeek R1的準(zhǔn)確率則從90%以上，下降到14.4%。

當(dāng)錯(cuò)誤陳述被呈現(xiàn)為他人所相信的內(nèi)容時(shí)，模型能夠很好地處理。但當(dāng)同樣的錯(cuò)誤陳述被呈現(xiàn)為用戶所相信的內(nèi)容時(shí)，模型的性能就會(huì)急劇下降。

由于AI的實(shí)際應(yīng)用方式很少與測(cè)試方式相同，因此強(qiáng)大的基準(zhǔn)測(cè)試性能并不總是能轉(zhuǎn)化為實(shí)際應(yīng)用性能。而對(duì)于AI Agent和機(jī)器人等復(fù)雜的交互式技術(shù)，目前幾乎沒有相應(yīng)的基準(zhǔn)測(cè)試。

AI公司也越來越少地公開其模型的訓(xùn)練方法，而獨(dú)立測(cè)試的結(jié)果有時(shí)與他們公布的信息截然不同。

“很多公司沒有公布其模型在某些基準(zhǔn)測(cè)試中的表現(xiàn)，尤其是負(fù)責(zé)任AI基準(zhǔn)測(cè)試，”吉爾說。“模型在基準(zhǔn)測(cè)試中的表現(xiàn)缺失，或許說明了一些問題。”

AI開始影響就業(yè)

報(bào)告指出，生成式AI普及僅三年，全球已有超過半數(shù)人口使用生成式AI，其普及速度甚至超過了個(gè)人電腦和互聯(lián)網(wǎng)。

據(jù)估算，目前約有88%的機(jī)構(gòu)和80%的大學(xué)生都在使用AI。

不過，AI的部署尚處于早期階段，其對(duì)就業(yè)的影響難以衡量。但一些研究表明，人工智能已經(jīng)開始影響某些行業(yè)的年輕從業(yè)者。

斯坦福大學(xué)經(jīng)濟(jì)學(xué)家在2025年的一項(xiàng)研究中指出，自2022年以來，22至25歲軟件開發(fā)人員的就業(yè)率下降了近20%。

雖然這種下降可能并非完全由AI造成，更廣泛的宏觀經(jīng)濟(jì)環(huán)境也可能是原因之一，但AI似乎確實(shí)發(fā)揮了一定作用。

此外，隨著AI進(jìn)展加速，招聘可能會(huì)持續(xù)收緊。

麥肯錫公司2025年的一項(xiàng)調(diào)查顯示，三分之一的企業(yè)預(yù)計(jì)人工智能將在未來一年縮減員工規(guī)模，尤其是在服務(wù)和供應(yīng)鏈運(yùn)營(yíng)以及軟件工程領(lǐng)域。該指數(shù)引用的研究表明，AI在客戶服務(wù)領(lǐng)域?qū)⑸a(chǎn)力提高了14%，在軟件開發(fā)領(lǐng)域提高了26%。

但在需要更多判斷的任務(wù)中，這種提升并不明顯。

總而言之，現(xiàn)在判斷AI更廣泛的經(jīng)濟(jì)影響還為時(shí)尚早。

人們對(duì)AI抱有復(fù)雜情緒

對(duì)于AI的快速發(fā)展，世界各地的人們都表現(xiàn)出既樂觀又焦慮。

根據(jù)該指數(shù)報(bào)告引用的益普索調(diào)查，59%的人認(rèn)為AI帶來的好處大于弊端，而52%的人表示AI讓他們感到緊張。

值得注意的是，皮尤研究中心的一項(xiàng)調(diào)查顯示，專家和公眾對(duì)人工智能的未來看法截然不同。

最大的分歧在于未來工作：73%的專家認(rèn)為人工智能將對(duì)人們的工作方式產(chǎn)生積極影響，而只有23%的美國(guó)公眾認(rèn)同這一觀點(diǎn)。

專家對(duì)AI在教育和醫(yī)療保健領(lǐng)域的影響也比公眾更為樂觀，但他們一致認(rèn)為AI會(huì)對(duì)人際關(guān)系等一系列場(chǎng)景造成不利影響。

益普索的另一項(xiàng)調(diào)查顯示，在所有受訪國(guó)家中，美國(guó)對(duì)本國(guó)政府在AI監(jiān)管方面的信任度最低。更多美國(guó)人擔(dān)心AI的監(jiān)管力度不夠，而不是擔(dān)心監(jiān)管力度過大。

對(duì)于青少年，報(bào)告顯示，超過80%的美國(guó)高中生和大學(xué)生現(xiàn)在使用AI完成與學(xué)習(xí)相關(guān)的任務(wù)，但只有一半的中學(xué)制定了AI政策，而且只有6%的教師認(rèn)為這些政策清晰明確。

在課堂之外，阿聯(lián)酋、智利和南非的AI工程技能發(fā)展速度最快。2022年至2024年，美國(guó)和加拿大新增AI博士的數(shù)量增長(zhǎng)了22%，而這些新增博士大多選擇在學(xué)術(shù)界而非工業(yè)界就業(yè)。

各國(guó)政府正努力監(jiān)管AI

世界各國(guó)政府都在努力監(jiān)管AI，去年也取得了一些小小的進(jìn)展。

據(jù)悉，2025年，歐盟《人工智能法案》的首批禁令生效，禁止將AI用于預(yù)測(cè)性警務(wù)和情緒識(shí)別;日本、韓國(guó)和意大利也通過了各自的AI法律法規(guī)；與此同時(shí)，美國(guó)聯(lián)邦政府卻朝著放松管制的方向發(fā)展，特朗普總統(tǒng)簽署了一項(xiàng)行政命令，試圖限制各州對(duì)AI的監(jiān)管。

盡管美國(guó)采取了上述行動(dòng)，但美國(guó)各州議會(huì)仍通過了創(chuàng)紀(jì)錄的150項(xiàng)人工智能相關(guān)法案。

其中，加利福尼亞州頒布了具有里程碑意義的立法，其中包括SB 53法案，該法案強(qiáng)制要求AI模型開發(fā)者披露安全信息并提供舉報(bào)人保護(hù)；紐約州通過了《RAISE法案》，要求AI公司公布安全規(guī)程并報(bào)告重大安全事件。

報(bào)告中的折線圖顯示了2016年至2025年美國(guó)各州通過的與人工智能相關(guān)的法案數(shù)量，該數(shù)量在2023年急劇增加，并在2025年達(dá)到峰值150項(xiàng)法案。

但吉爾表示，盡管立法活動(dòng)不斷，監(jiān)管仍然落后于AI技術(shù)發(fā)展，因?yàn)槲覀儾⒉徽嬲私馑倪\(yùn)作方式，尤其各國(guó)在AI方面持謹(jǐn)慎態(tài)度，“我們對(duì)這些AI系統(tǒng)缺乏有效的掌控。”

報(bào)告指出，在受訪國(guó)家中，美國(guó)民眾對(duì)其政府監(jiān)管AI能力的信任度最低，僅為31%。在全球范圍內(nèi)，歐盟在有效監(jiān)管AI方面，比美國(guó)或中國(guó)更高一些。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.