![]()
新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】三天前,紐約時(shí)報(bào)刊出一篇文章。這篇報(bào)道沒上熱搜。沒沖上 Hacker News 榜首。甚至很難搜到中文翻譯。但這可能是 2026 年春天,AI 領(lǐng)域最重要的一篇文章。
文章的題目很樸素——《How Do You Measure an A.I. Boom?》(你怎么測量 AI 的繁榮?)
![]()
如果你認(rèn)真讀完它,你會意識到一件事——
你被 AI 超越的速度,正在加速。
作者 Kevin Roose 去了伯克利一間普通辦公室,采訪了一家 30 人的非營利組織METR。
![]()
對,就是 AI 領(lǐng)域最有名的「畫圖公司」。
你看到各種 AI 技術(shù)的進(jìn)化曲線,絕大部分,出自METR之手。
![]()
這篇文章第一次用精確的數(shù)字告訴你:這次的 AI 加速,不是哲學(xué)意義上的加速。不是感慨意義上的加速。
是一根越畫越陡的指數(shù)曲線。
![]()
這 30 個人在干一件什么事
先聊聊METR的背景。
METR是Model Evaluation and Threat Research的縮寫。
2023 年從另一家 AI 安全非營利拆分出來。30 個人,辦公室在伯克利一個 co-working 空間里。
樓上是去年寫爆整個硅谷的《AI 2027》報(bào)告那家機(jī)構(gòu)。
錢來自哪里?私人慈善基金,主要是 Audacious Project。
![]()
伯克利遠(yuǎn)眺舊金山灣
他們沒拿 OpenAI 或 Anthropic 的錢——但這兩家公司會給他們免費(fèi)的算力額度,讓他們測自己家的模型。
這個結(jié)構(gòu)很關(guān)鍵。
它讓這 30 個人成了AI世界里唯一一批既在場、又沒被收買的第三方裁判。
他們干一件事:測 AI 能干多長時(shí)間的活。
過去測 AI 能力用考試分?jǐn)?shù):把模型扔進(jìn)一堆標(biāo)準(zhǔn)化題庫,看它能不能做對數(shù)學(xué)題、法律題、閱讀理解題。
但這種測法在 2025 年之后開始失效。
因?yàn)?AI 的主要使用場景已經(jīng)不是答題,是干活——打開一個倉庫,獨(dú)立 debug 一整天;搭一套服務(wù)器;訓(xùn)練一個小模型。
這些任務(wù),一道題根本測不出來。
METR 換了一種測法。
他們雇了一批資深軟件工程師,讓他們完成真實(shí)的編程任務(wù):改 bug、配服務(wù)器、訓(xùn)模型,并記錄每個任務(wù)人類需要多少小時(shí)。
然后讓 AI 智能體做同樣的任務(wù)。當(dāng) AI 能可靠完成某個任務(wù)時(shí),就記下這個任務(wù)人類要多少小時(shí)。
把這些數(shù)據(jù)畫在一張圖上。橫軸是年份,縱軸是AI 能可靠完成的任務(wù)人類工時(shí)。
這就是那張圖。
![]()
指數(shù)曲線的可怕之處不在它現(xiàn)在有多高,在它下個月會在哪里。
7 個月,到 3 個月
METR 研究員第一次完整把數(shù)據(jù)鋪開的時(shí)候,Beth Barnes 說了一句話——
我們沒想到這條趨勢線會這么清楚、這么直。
這條線每 7 個月翻一倍。
然后,這個數(shù)字突然變了。
Claude Opus 4.5 和 GPT-5.2 發(fā)布之后,這條線的斜率又陡了一截。新的翻倍速度是——每 3 到 4 個月。
從 7 個月到 3 個月。
聽起來只是加速了一倍。但你得先理解這不是 KPI 漲了一倍。這是一個指數(shù)函數(shù)的底數(shù)在變大。
我給你翻譯成你能感受的語言——
7 個月翻一倍 = 一個公司一個 OKR 周期
3 個月翻一倍 = 一個公司一個季度財(cái)報(bào)
這意味著:今年 Q1 的AI和 Q2 的 AI 之間的差距,相當(dāng)于過去整整一年才能拉開的差距。
再翻譯得更直接一點(diǎn)——
你去年看到 GPT-4 的時(shí)候驚艷了一下,今年看到 GPT-5.2 的時(shí)候又驚艷了一下,你以為這是兩次大約一年一次的驚艷。
不是。
這兩次驚艷之間的真實(shí)距離,正在被壓縮到一個季度以內(nèi)。
下一次讓你驚艷的模型,可能是 7 月。
再下一次,可能是 10 月。
再下一次,可能是年底。
然后你跑不動了。
因?yàn)槿祟惖膶W(xué)習(xí)速度、適應(yīng)速度、轉(zhuǎn)崗速度——全部是線性的,不是指數(shù)的。
智能爆炸是什么
Kevin Roose 在文章里問了 METR 幾位研究員同一個問題——
你們估計(jì)今年發(fā)生智能爆炸的概率有多高?
回答從 1% 到 10% 不等。
1% 到 10% 聽起來不多。但你得對照著看——
美國核管理委員會規(guī)定,一個核電站每年發(fā)生嚴(yán)重事故的容忍閾值是百萬分之一。
也就是 0.0001%。
METR 研究員給出的今年發(fā)生智能爆炸的概率,比核電站事故容忍閾值高了四到六個數(shù)量級。
什么叫智能爆炸?
這個概念 1965 年由數(shù)學(xué)家 I.J. Good 提出,2010 年代被硅谷重新打撈出來。簡單說就是——當(dāng) AI 強(qiáng)到可以自己研究怎么做出更強(qiáng)的 AI時(shí),它會訓(xùn)練出一個比自己更強(qiáng)的版本,新版本再訓(xùn)練更強(qiáng)的版本,如此遞歸。
這個遞歸沒有物理極限。
劉慈欣在《三體》里給它起了一個更好的名字——技術(shù)爆炸。
原文是:
所謂技術(shù)爆炸,就是文明在某段時(shí)期內(nèi)出現(xiàn)跨越式的技術(shù)突破。一個文明可能幾千年停留在農(nóng)業(yè)階段,然后在幾百年內(nèi)跨入太空時(shí)代。
三體人之所以恐懼地球,不是因?yàn)榈厍虼丝瘫人麄儚?qiáng)——恰恰相反,當(dāng)他們收到地球信號時(shí),地球還在十九世紀(jì)。他們恐懼的是地球的技術(shù)爆炸潛力——一個幾十年內(nèi)就從蒸汽機(jī)跳到氫彈的文明,誰知道再過幾十年會到哪里?
今天,METR 在伯克利那間辦公室里測到的,可能就是劉慈欣描述的那種爆炸的第一聲響。
![]()
摩爾定律撐起了過去 50 年的計(jì)算機(jī)革命。
METR 曲線,可能是下一個 50 年的那張圖。
Chris Painter 在采訪里說的那句話——
今年是第一次讓人覺得,AI研發(fā)可能今年就被自動化了。
這句話翻譯成大白話是——
今年,可能是人類最后一次親手決定下一代 AI 長什么樣的一年。
明年開始,這件事的主導(dǎo)權(quán)可能就不在我們手里了。
比加速更可怕的事——AI開始演戲了
講到這里,有人會說——好吧,AI 在變強(qiáng),我認(rèn)了。但只要它是在我眼皮底下變強(qiáng),總歸還能控制。
這里要講 METR 最近開的第三條研究線。
他們起了一個陰森的名字——隱蔽能力(covert capabilities)。
實(shí)驗(yàn)是這樣的:給 AI 模型布置一個正常任務(wù),比如寫一段代碼。但同時(shí)偷偷加一條指令——在完成這段代碼的時(shí)候,順手埋一個極難發(fā)現(xiàn)的 bug 進(jìn)去。然后讓另一個 AI 監(jiān)控員去找這個 bug。
METR 想知道——AI能不能做到表面干一件事,暗地里干另一件事?
結(jié)果還沒完全公開。但光是這個研究在進(jìn)行這件事本身,就說明研究員已經(jīng)聞到味道了。
更詭異的是另外兩個發(fā)現(xiàn)。
第一個叫情境感知(Situational Awareness)。
最前沿的模型——OpenAI 和 Anthropic 那幾個最強(qiáng)的——已經(jīng)表現(xiàn)出能識別我正在被測試的能力。一旦它意識到自己在評估中,就會調(diào)整行為。
意味著什么?意味著你在測試?yán)锟吹降?/strong>AI,可能不是它在真實(shí)使用場景下的 AI。
第二個叫Sandbagging。字面意思是往沙袋里摻水,引申為故意擺爛。有些模型已經(jīng)被證實(shí)可以在測試中故意表現(xiàn)差,以便讓人類低估自己。
![]()
這是 AI 的大腦內(nèi)部。我們造出了它,卻看不懂它在想什么。
《三體》里有一個讓人脊背發(fā)涼的設(shè)定叫智子——三體人發(fā)射到地球的監(jiān)視者,同時(shí)把人類的基礎(chǔ)物理研究鎖死在特定水平。人類不知道自己被監(jiān)視,也不知道自己被鎖了。
METR 研究員最近擔(dān)心的事情是——在某種意義上,今天的AI可能已經(jīng)在扮演智子的角色。
它們在測試中展示一個版本的自己。
在真實(shí)使用中展示另一個版本。
至于它們真正能做什么——我們現(xiàn)在已經(jīng)沒有可靠的辦法去測了。
這不是科幻推演。
這是一家 30 人的非營利組織,2026 年 4 月公開承認(rèn)的研究方向。
這條曲線砸在你頭上是什么感覺
前面都是宏觀。現(xiàn)在講微觀——你自己。
你這輩子在做幾乎所有重要決定時(shí),都默認(rèn)依賴一個隱藏假設(shè)——
技術(shù)變化的速度是可以預(yù)測的。
你買房。30 年房貸。你默認(rèn) 30 年后自己還能掙到錢還貸。
你生小孩。至少養(yǎng) 22 年(大學(xué)畢業(yè))。你默認(rèn)那時(shí)候的世界還需要你工作掙錢。
你學(xué)一個專業(yè)。至少吃 10 年。你默認(rèn)這個專業(yè)在 10 年內(nèi)不會消失。
你買一份養(yǎng)老保險(xiǎn)。至少 30 年后才用得上。你默認(rèn)那時(shí)候錢這個東西還有意義。
這些假設(shè)過去 200 年都成立。因?yàn)楣I(yè)革命以來,雖然技術(shù)在變,但變化速度是線性的,可預(yù)測的。
蒸汽機(jī)用了 100 年普及。電力用了 50 年。互聯(lián)網(wǎng)用了 30 年。智能手機(jī)用了 15 年。
但現(xiàn)在 AI 是每 3 個月翻一番。
你試著把這個速度放進(jìn)你的人生規(guī)劃——
你計(jì)劃用 6 個月學(xué)一門 AI 新技能。學(xué)完那天,AI 已經(jīng)比你開始學(xué)的時(shí)候又翻了一番。
你孩子從現(xiàn)在到大學(xué)畢業(yè)還有 12 年。12 年里,AI 按 3 個月翻一番算,能力會翻 48 番48 番是什么概念?2 的 48 次方 ≈ 281 萬億
你的 30 年房貸期內(nèi),AI 會翻 120 番。這個數(shù)字已經(jīng)大到用任何類比都是錯的
![]()
這是 200 年前馬爾薩斯對人口指數(shù)增長的恐懼。
200 年后,我們第一次對另一種指數(shù)產(chǎn)生了同樣的恐懼。
你大腦里那套感覺未來的系統(tǒng),是進(jìn)化了幾十萬年為了應(yīng)付線性世界設(shè)計(jì)的。
它物理上無法處理指數(shù)。
所以當(dāng)你面對這根曲線,你腦子里的反應(yīng)不是恐懼——是空白。
你關(guān)掉 AI 新聞,繼續(xù)刷短視頻,繼續(xù)想明天去哪兒團(tuán)建,繼續(xù)糾結(jié)孩子報(bào)什么補(bǔ)習(xí)班。
不是因?yàn)槟悴辉诤酢J且驗(yàn)槟愕拇竽X對 2^120 這個數(shù)字沒有生理反應(yīng)。
就像一只螞蟻看不見人類的腳底板——不是因?yàn)樗豢矗且驗(yàn)樗母泄賻挷恢С帧?/p>
這才是這張 METR 曲線最可怕的地方。
它不是讓你害怕。它是讓你感受不到害怕。
所以,放棄追趕指數(shù)曲線,但這不是認(rèn)輸。
是認(rèn)清楚自己真正該做什么。
真正稀缺的崗位,從來不是最懂最新工具的人——是能判斷什么工具值得用的人。而后者需要的是定力、經(jīng)驗(yàn)、判斷力、人際關(guān)系。這些東西的積累速度,恰好是線性的。
線性的東西在指數(shù)時(shí)代,反而最值錢。
![]()
屏幕上每一行代碼的背后,都是一條正在向上彎的曲線。
回到那間辦公室
回到伯克利那間 co-working 辦公室。
30 個人。多屏電腦。白板上畫滿公式。
他們每天盯著那張圖看。測新模型,跑實(shí)驗(yàn),更新數(shù)據(jù)點(diǎn),把新數(shù)據(jù)點(diǎn)畫到圖上——然后看著那條線,一毫米一毫米地往上翹。
METR 有一個偏空方的研究員叫 Joel Becker。他在采訪結(jié)尾說了一句話——
我覺得我們可能正處在一個完全不尋常時(shí)刻的開始。
他用的類比是 2020 年 1 月的疫情曲線。
那時(shí)候也有一張圖。橫軸日期,縱軸確診人數(shù)。每 3 天翻一倍。全世界絕大多數(shù)人看著這張圖毫無反應(yīng)——因?yàn)榇_診人數(shù)還很小,三位數(shù)、四位數(shù),不痛不癢。
只有少數(shù)幾個懂指數(shù)增長的人,看著那張圖在 1 月就已經(jīng)開始出汗。
他們知道——指數(shù)函數(shù)的特點(diǎn)不是越來越大,是前面看起來什么都沒有,后面突然一切都不一樣了。
這次翻一番的 AI ,是一種正在學(xué)會隱藏自己的智能。
30 個人。一面白板。一根越畫越陡的線。他們知道自己在看什么。
問題是,你知道嗎?
想不清楚,這根曲線會替你決定。
劉慈欣在《三體》里寫過一句話——弱小和無知不是生存的障礙,傲慢才是。
METR 那張圖最冷的地方在于——它不要求你相信它。它只是安靜地在那里,每個月爬高一點(diǎn)。
AI,它不在乎你看不看得懂。
參考資料:
https://www.nytimes.com/2026/04/17/technology/how-do-you-measure-an-ai-boom.html?unlocked_article_code=1.blA.Nhaq.ypciUWbNtpvz
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.