![]()
(來(lái)源:麻省理工科技評(píng)論)
本文作者穆斯塔法·蘇萊曼(Mustafa Suleyman)是微軟 AI 的 CEO,DeepMind 聯(lián)合創(chuàng)始人之一。這是他為《麻省理工科技評(píng)論》撰寫(xiě)的署名評(píng)論文章。作為全球最大科技公司之一的 AI 業(yè)務(wù)負(fù)責(zé)人,蘇萊曼從算力、硬件、軟件和能源四個(gè)維度,解釋了為什么他認(rèn)為 AI 的“算力爆炸”遠(yuǎn)未見(jiàn)頂。以下是他的第一人稱敘述。
人類的大腦天生習(xí)慣于線性思維。走一小時(shí)路,你能覆蓋一段距離;走兩小時(shí),距離就翻倍。這種直覺(jué)在非洲草原上對(duì)我們大有助益,但在面對(duì) AI 以及它核心的指數(shù)級(jí)趨勢(shì)時(shí),它會(huì)讓我們徹底誤判。
從我 2010 年開(kāi)始從事 AI 研究到現(xiàn)在,投入前沿 AI 模型訓(xùn)練的數(shù)據(jù)量已經(jīng)增長(zhǎng)了驚人的 1 萬(wàn)億倍:從早期系統(tǒng)的約 101? 次浮點(diǎn)運(yùn)算(flops,即浮點(diǎn)運(yùn)算次數(shù),是計(jì)算的核心單位),增長(zhǎng)到如今最大模型的超過(guò) 102? 次。這是一次爆炸。AI 領(lǐng)域的其他一切都是由這個(gè)事實(shí)派生出來(lái)的。
懷疑論者常常預(yù)言 AI 的發(fā)展即將撞上天花板。但在這場(chǎng)史詩(shī)級(jí)的跨代算力躍遷面前,他們一次又一次被現(xiàn)實(shí)打臉。這些人的論據(jù)通常有三個(gè):摩爾定律正在放緩、可用的訓(xùn)練數(shù)據(jù)即將枯竭、能源供給跟不上算力擴(kuò)張的速度。
但只要把推動(dòng)這場(chǎng)革命的幾股力量拼在一起看,指數(shù)級(jí)的增長(zhǎng)其實(shí)相當(dāng)可預(yù)測(cè)。要理解這一點(diǎn),就得繞到新聞標(biāo)題背后,看看那個(gè)復(fù)雜而飛速演進(jìn)的真實(shí)圖景。
你可以把 AI 訓(xùn)練想象成一間屋子,里面坐滿了拿著計(jì)算器的人。過(guò)去很多年,提升算力的辦法就是往屋里塞更多人、配更多計(jì)算器。但這些人大部分時(shí)間其實(shí)都閑著,手指敲著桌面,等下一組數(shù)據(jù)送過(guò)來(lái)好開(kāi)始下一次運(yùn)算。每一次等待都是被白白浪費(fèi)掉的潛力。今天這場(chǎng)革命真正的突破,不只是讓計(jì)算器更多、更快(當(dāng)然也做到了這一點(diǎn)),而是讓所有的計(jì)算器永不停工,并且像一個(gè)整體那樣協(xié)同運(yùn)轉(zhuǎn)。
讓這一切成為可能的,是三項(xiàng)正在匯合的技術(shù)進(jìn)步。
第一,基礎(chǔ)的計(jì)算器本身變快了。Nvidia 的芯片在短短六年里把原始性能提升了七倍以上,從 2020 年的 312 teraflops 漲到了今天的 2250 teraflops。我們今年 1 月發(fā)布的 Maia 200 芯片,單位成本下的性能比我們現(xiàn)有硬件池中的任何一款都高出 30%。
第二,數(shù)據(jù)到達(dá)的速度也跟上來(lái)了。這要?dú)w功于一項(xiàng)叫做 HBM(高帶寬內(nèi)存)的技術(shù),它像微型摩天樓一樣把內(nèi)存芯片垂直堆疊起來(lái)。最新一代的 HBM3 帶寬是上一代的三倍,送數(shù)據(jù)的速度快到足以讓處理器一刻不閑。
第三,原本那間坐滿計(jì)算器操作員的屋子,變成了一整棟辦公樓,進(jìn)而變成了一個(gè)園區(qū),最后變成了一座城市。NVLink 和 InfiniBand 這類技術(shù)把數(shù)十萬(wàn)塊 GPU 連成一臺(tái)倉(cāng)庫(kù)大小的超級(jí)計(jì)算機(jī),作為一個(gè)統(tǒng)一的認(rèn)知實(shí)體運(yùn)行。幾年前,這還是做不到的。
這三件事合在一起,帶來(lái)了驚人的算力提升。2020 年在 8 塊 GPU 上訓(xùn)練一個(gè)語(yǔ)言模型要花 167 分鐘,如今在同等規(guī)模的現(xiàn)代硬件上不到 4 分鐘就能完成。對(duì)比一下就知道這有多夸張:按摩爾定律推算,這段時(shí)間性能提升頂多也就 5 倍,而我們實(shí)際看到的是 50 倍。2012 年開(kāi)啟現(xiàn)代深度學(xué)習(xí)熱潮的圖像識(shí)別模型 AlexNet 只用了 2 塊 GPU,如今最大的集群里 GPU 數(shù)量已經(jīng)超過(guò) 10 萬(wàn)塊,而且每一塊都遠(yuǎn)比當(dāng)年的強(qiáng)大。
軟件層面的革命同樣不容忽視。根據(jù) Epoch AI 的研究,達(dá)到同一性能水平所需的算力,大約每 8 個(gè)月就減半一次,這比傳統(tǒng)摩爾定律 18 到 24 個(gè)月翻一番的節(jié)奏快得多。按年度計(jì)算,一些最新模型的部署成本下降了最多 900 倍。部署 AI 正變得越來(lái)越便宜。
未來(lái)幾年的數(shù)字同樣令人瞠目。頭部實(shí)驗(yàn)室的算力規(guī)模正在以每年接近 4 倍的速度擴(kuò)張。從 2020 年到現(xiàn)在,訓(xùn)練前沿模型所用的算力每年增長(zhǎng) 5 倍。預(yù)計(jì)到 2027 年,全球與 AI 相關(guān)的算力總量將達(dá)到 1 億塊 H100 等效算力,三年內(nèi)增長(zhǎng)十倍。把這些趨勢(shì)疊加起來(lái),到 2028 年底,有效算力可能還會(huì)再增長(zhǎng)大約 1000 倍。到 2030 年,我們每年新增的算力規(guī)模可能達(dá)到 200 吉瓦,相當(dāng)于英國(guó)、法國(guó)、德國(guó)、意大利四國(guó)峰值用電量的總和。
這一切換來(lái)的是什么?我相信它會(huì)推動(dòng) AI 從聊天機(jī)器人進(jìn)化為接近人類水平的智能體:一種半自主的系統(tǒng),能連續(xù)寫(xiě)好幾天代碼,能執(zhí)行持續(xù)數(shù)周乃至數(shù)月的項(xiàng)目,能打電話、談合同、管物流。別再把 AI 想成只會(huì)回答問(wèn)題的基礎(chǔ)助手,你該想象的是一整支能思考、能協(xié)作、能干活的 AI 團(tuán)隊(duì)。我們現(xiàn)在只是剛剛走到這場(chǎng)轉(zhuǎn)型的山腳下,它的影響會(huì)遠(yuǎn)遠(yuǎn)超出科技行業(yè)。每一個(gè)建立在腦力勞動(dòng)之上的行業(yè)都將被重塑。
最明顯的制約是能源。一臺(tái)冰箱大小的 AI 機(jī)架功耗就高達(dá) 120 千瓦,相當(dāng)于 100 戶家庭的用電量。但這種對(duì)能源的饑渴,正好撞上了另一條指數(shù)曲線:過(guò)去 50 年,太陽(yáng)能的成本下降了將近 100 倍;過(guò)去 30 年,電池價(jià)格下降了 97%。一條用清潔能源支撐算力擴(kuò)張的路徑,正在逐漸浮現(xiàn)。
錢已經(jīng)砸下去了,工程也在交付。1000 億美元級(jí)別的集群、10 吉瓦的用電規(guī)模、倉(cāng)庫(kù)級(jí)別的超級(jí)計(jì)算機(jī)……這些已經(jīng)不再是科幻。在美國(guó)和世界各地,這些項(xiàng)目正在動(dòng)工。我們正在走向一個(gè)真正的"認(rèn)知豐裕"時(shí)代。在微軟 AI,這就是我們的超級(jí)智能實(shí)驗(yàn)室正在規(guī)劃和建造的未來(lái)。
那些習(xí)慣了線性世界的懷疑者,還會(huì)繼續(xù)預(yù)言回報(bào)遞減,也會(huì)繼續(xù)被現(xiàn)實(shí)打臉。算力爆炸就是我們這個(gè)時(shí)代的技術(shù)故事,而它才剛剛開(kāi)始。
https://www.technologyreview.com/2026/04/08/1135398/mustafa-suleyman-ai-future/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.