![]()
從17.5%到0.3%:中美AI大模型差距的驚天逆轉(zhuǎn)
在人工智能領(lǐng)域,中美兩國一直是全球AI發(fā)展的兩大引擎。2025年4月7日,斯坦福大學(xué)以人為本人工智能研究所(HAI)發(fā)布了備受矚目的《2025年人工智能指數(shù)報告》,這份長達(dá)456頁的報告揭示了一個令人震驚的發(fā)現(xiàn):中美頂級AI大模型的性能差距從2023年的17.5%驟降至2024年的0.3%,幾乎可以忽略不計。
基準(zhǔn)測試中的差距變化
要理解這一差距縮小的意義,我們需要了解AI性能是如何衡量的。斯坦福報告使用了多項基準(zhǔn)測試來評估AI模型的性能,包括MMLU(大規(guī)模多任務(wù)語言理解)、MMMU、MATH和HumanEval等。這些基準(zhǔn)測試分別評估AI在語言理解、推理、數(shù)學(xué)和編程等不同能力上的表現(xiàn)。
2023年底,中美AI模型在這些基準(zhǔn)測試上的差距分別為:
MMLU:17.5個百分點
MMMU:13.5個百分點
MATH:24.3個百分點
HumanEval:31.6個百分點
到了2024年底,這些差距已經(jīng)顯著縮小到:
MMLU:0.3個百分點
MMMU:8.1個百分點
MATH:1.6個百分點
HumanEval:3.7個百分點
![]()
特別是在MMLU測試中,中國領(lǐng)先的模型與美國頂級模型之間的差距從近20個百分點縮小到僅僅0.3個百分點。這一進(jìn)步速度令人驚嘆,相當(dāng)于在不到一年的時間里,中國AI模型的性能提高了近17個百分點。
開源與閉源的較量
開源AI模型在2024年的崛起是推動這一差距縮小的重要因素。2024年初,領(lǐng)先閉源模型的表現(xiàn)比頂級開源模型高出8.0%。然而,到2025年2月,這一差距已經(jīng)大幅縮小。
![]()
以DeepSeek為代表的開源模型迅速崛起,性能逼近甚至在某些方面超過了閉源的美國模型。開源社區(qū)的協(xié)作模式和快速迭代能力成為中國AI快速進(jìn)步的重要推動力。
數(shù)量與質(zhì)量的雙重較量
模型數(shù)量差距
盡管在性能上差距大幅縮小,但在模型數(shù)量方面,美國仍然保持顯著優(yōu)勢。2024年,美國機(jī)構(gòu)開發(fā)了40個"值得關(guān)注的AI模型",而中國只有15個,歐洲僅3個。
![]()
投資差距:數(shù)字背后的實力對比
盡管在模型性能上差距縮小,但在AI投資方面,美國仍然保持著壓倒性優(yōu)勢。2024年,美國AI投資額達(dá)到1091億美元,是中國93億美元的12倍。
這種投資差距反映了兩國在AI生態(tài)系統(tǒng)方面的差異。美國擁有更為成熟的AI產(chǎn)業(yè)鏈、更豐富的數(shù)據(jù)資源和更強(qiáng)大的計算能力,這些因素共同構(gòu)成了美國AI持續(xù)創(chuàng)新的土壤。
技術(shù)進(jìn)步:推動差距縮小的關(guān)鍵因素
推理成本的戲劇性下降
2023年至2024年,AI模型推理成本實現(xiàn)了戲劇性下降。高端AI模型運行成本削減了99.7%。以MMLU基準(zhǔn)測試中表現(xiàn)相當(dāng)于GPT-3.5的AI模型為例,其推理成本大幅降低。
![]()
小模型的崛起
2022-2024年間,小模型性能顯著提升。2022年,在大規(guī)模多任務(wù)語言理解(MMLU)基準(zhǔn)測試中,得分超過60%的最小模型是PaLM,參數(shù)量為5400億。到了2024年,參數(shù)量減少了142倍,但性能卻保持了相當(dāng)水平。
解決復(fù)雜任務(wù)能力的飛躍
AI在解決復(fù)雜任務(wù)方面的能力也實現(xiàn)了顯著提升。在解決編碼問題上,AI的能力從2021年的4.4%躍升至2024年的71.1%。這一進(jìn)步表明AI已經(jīng)能夠處理更加復(fù)雜和專業(yè)的任務(wù),其應(yīng)用價值正在不斷提升。
開源社區(qū)的蓬勃發(fā)展
開源社區(qū)在中國AI發(fā)展中扮演了重要角色。開源模型的快速發(fā)展和廣泛應(yīng)用,使得中國能夠繞過一些技術(shù)壁壘,迅速提升AI能力。
開源社區(qū)的協(xié)作模式和快速迭代能力成為中國AI快速進(jìn)步的重要推動力。通過開源,中國AI研究者能夠直接參與全球AI技術(shù)前沿的探索,加速技術(shù)積累和創(chuàng)新。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.