337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2性能爆表,但紅色警報(bào)沒有解除

0
分享至


就在剛剛,ChatGPT-5.2發(fā)布了。

這是OpenAI成立以來,首次發(fā)布紅色警報(bào)(Code Red)后的第一款產(chǎn)品。

雖然在時(shí)間上,GPT-5.2只跟5.1相隔了一個(gè)月。但是從公布的性能數(shù)據(jù)來看,GPT-5.2較上一代提升巨大,而且遠(yuǎn)超谷歌和Anthropic的同期產(chǎn)品。

然而OpenAI的紅色警報(bào)并未因此解除,這家公司仍處于危機(jī)之中。

究其原因,現(xiàn)在的市場已經(jīng)逐漸開始對OpenAI祛魅,而是更冷靜地審視每一分算力背后的投入產(chǎn)出比。在這種前所未有的環(huán)境之下,OpenAI不僅需要證明自己是最強(qiáng)的,還需要證明自己不可被替代。

01

首先要說的,就是GPT-5.2的數(shù)學(xué)能力。

長期以來,業(yè)界普遍認(rèn)為大語言模型雖然能寫代碼、能聊天,但在嚴(yán)格的數(shù)學(xué)推理上總是差強(qiáng)人意。這次GPT-5.2 Thinking在AIME 2025數(shù)學(xué)競賽中拿到了100%的滿分。


AIME是美國數(shù)學(xué)邀請賽,題目難度遠(yuǎn)超普通高中數(shù)學(xué),需要扎實(shí)的數(shù)學(xué)功底和靈活的解題思路。GPT-5.2能在這樣的測試中全部答對,說明它在數(shù)學(xué)推理上已經(jīng)達(dá)到了相當(dāng)高的水平。

在更高難度的FrontierMath測試中,GPT-5.2 Thinking解決了40.3%的專家級數(shù)學(xué)難題。這個(gè)測試專門針對前沿?cái)?shù)學(xué)研究設(shè)計(jì),許多題目連專業(yè)數(shù)學(xué)家都需要花費(fèi)大量時(shí)間思考。能解決其中40%的問題,已經(jīng)展現(xiàn)出在輔助科學(xué)研究方面的潛力。

除了推理和數(shù)學(xué),GPT-5.2在專業(yè)工作領(lǐng)域也表現(xiàn)突出。

在OpenAI新推出的GDPval基準(zhǔn)測試中,GPT-5.2 Thinking在涵蓋44種職業(yè)的知識工作任務(wù)上,有70.9%的情況下?lián)魯』虼蚱搅隧敿庑袠I(yè)專家。

這些任務(wù)包括制作演示文稿、構(gòu)建復(fù)雜的財(cái)務(wù)模型、撰寫專業(yè)文檔等。OpenAI表示,它完成這些任務(wù)的速度是人類專家的11倍以上,成本卻不到1%。

在軟件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上達(dá)到55.6%的準(zhǔn)確率,在SWE-bench Verified上達(dá)到80%。這些測試評估的是模型在真實(shí)代碼庫中修復(fù)bug、實(shí)現(xiàn)新功能的能力。

早期測試者反饋,它在前端開發(fā)和復(fù)雜UI實(shí)現(xiàn)上尤其出色,甚至能夠根據(jù)一條提示就生成包含3D效果和物理模擬的完整應(yīng)用。

GPT-5.2在長文檔理解上也有明顯進(jìn)步。在OpenAI的MRCRv2測試中,它成為首個(gè)在256k token長度下,針對4-needle變體任務(wù)達(dá)到近乎100%準(zhǔn)確率的模型。

這意味著用戶可以上傳數(shù)百頁的報(bào)告、合同或研究論文,模型仍能準(zhǔn)確理解分散在不同位置的相關(guān)信息,并進(jìn)行綜合分析。


在視覺理解方面,GPT-5.2的錯(cuò)誤率在圖表推理和軟件界面理解任務(wù)上幾乎減半。它對圖像中物體的空間位置有了更準(zhǔn)確的把握。

OpenAI展示了一個(gè)例子:即使輸入一張模糊的主板照片,GPT-5.2也能準(zhǔn)確識別出各個(gè)組件的位置并標(biāo)注邊界框,而前代模型只能識別出少數(shù)部分且位置偏差較大。


此次發(fā)布包含三個(gè)版本。GPT-5.2 Instant定位為日常工作的快速助手,適合信息查詢、技術(shù)寫作和翻譯等任務(wù)。GPT-5.2 Thinking專注于深度推理,在編程、數(shù)據(jù)分析和復(fù)雜文檔處理上表現(xiàn)最佳,是專業(yè)工作的首選。GPT-5.2 Pro則是最智能的版本,適合那些"值得等待高質(zhì)量答案"的高難度問題。

同時(shí)這次發(fā)布最引人注目的,不僅是模型本身的能力提升,更是一個(gè)令人驚訝的效率數(shù)據(jù):在ARC-AGI-1測試中,GPT-5.2 Pro實(shí)現(xiàn)了約390倍的效率改進(jìn)。

一年前,OpenAI曾驗(yàn)證過一個(gè)未發(fā)布的o3預(yù)覽版本,在ARC-AGI-1測試中達(dá)到88%的準(zhǔn)確率,但每個(gè)任務(wù)的成本約為4500美元。如今,GPT-5.2 Pro不僅將準(zhǔn)確率提升至90.5%,還將單任務(wù)成本降至11.64美元。這種量級的效率提升,意味著原本只能在實(shí)驗(yàn)室中演示的能力,現(xiàn)在有可能真正走向?qū)嶋H應(yīng)用。


ARC-AGI測試被設(shè)計(jì)用來衡量抽象推理能力,它要求模型在面對從未見過的模式時(shí),仍能找出規(guī)律并給出答案。這種能力接近人類所謂的“舉一反三”。

GPT-5.2 Pro在ARC-AGI-1驗(yàn)證集上的表現(xiàn),使其成為首個(gè)突破90%門檻的模型。在難度更高的ARC-AGI-2上,GPT-5.2 Thinking也達(dá)到了52.9%的準(zhǔn)確率,創(chuàng)下了鏈?zhǔn)剿季S模型的新紀(jì)錄。

02

GPT-5.2是奧特曼啟動(dòng)Code Red后的一次強(qiáng)有力證明,但競爭的結(jié)果不會(huì)由單一基準(zhǔn)測試決定。真正的較量在于誰能更好地理解用戶需求,誰能在保持技術(shù)領(lǐng)先的同時(shí)控制成本,誰能在不同應(yīng)用場景中提供更可靠的服務(wù)。

一個(gè)來自GitHub的開源基準(zhǔn)測試給出了答案。在lechmazur維護(hù)的NYT Connections測試中,GPT-5.2的表現(xiàn)并不如預(yù)期。


NYT Connections是《紐約時(shí)報(bào)》推出的一個(gè)文字游戲,要求玩家從16個(gè)詞語中找出四組相關(guān)的詞匯。這個(gè)測試被設(shè)計(jì)成了一個(gè)LLM基準(zhǔn),通過加入額外的干擾詞來增加難度,目前包含759個(gè)謎題。這種測試考察的是模型對語言的細(xì)微理解、聯(lián)想能力和分類推理。

在這個(gè)排行榜上,Gemini 3 Pro Preview以96.8%的準(zhǔn)確率位居第一。緊隨其后的是xAI的Grok 4.1 Fast Reasoning,準(zhǔn)確率為93.5%。OpenAI的模型中,表現(xiàn)最好的是GPT-5 Pro,準(zhǔn)確率為83.9%,排在第八位。GPT-5.2在高推理模式下的準(zhǔn)確率為77.9%,排名第11位。

這個(gè)結(jié)果多少有些出人意料。GPT-5.2在數(shù)學(xué)競賽中能拿滿分,在專業(yè)工作任務(wù)中能超越人類專家,但在這個(gè)看似簡單的文字游戲上,卻落后于競爭對手近20個(gè)百分點(diǎn)。

深入分析會(huì)發(fā)現(xiàn),這并不是簡單的性能問題。NYT Connections測試的是模型對語言文化背景的理解,對詞語之間隱含關(guān)聯(lián)的把握,以及在多個(gè)可能性中做出合理選擇的能力。

比如BANK、INTEREST、RATE、LOAN可能組成金融類別,也可能BANK與SHORE、BEACH、COAST組成河岸類別。

模型需要同時(shí)考慮多個(gè)維度的關(guān)聯(lián),并找到最合理的分組方式。

Gemini 3 Pro在這個(gè)測試上的領(lǐng)先,說明谷歌在語言理解的某些維度上確實(shí)有獨(dú)到之處。Grok系列模型的表現(xiàn)也值得注意,xAI雖然起步較晚,但在特定任務(wù)上已經(jīng)展現(xiàn)出競爭力。

有趣的是,測試數(shù)據(jù)還顯示,在最新的100個(gè)謎題中,各模型的排名基本保持一致,這說明訓(xùn)練數(shù)據(jù)污染的可能性不大。模型之間的差距是實(shí)質(zhì)性的,而非來自對題目的記憶。

這個(gè)測試的存在,給AI社區(qū)提供了一個(gè)更全面的視角。模型能力的評估不應(yīng)該只看幾個(gè)主流基準(zhǔn)測試,也需要關(guān)注那些看似邊緣但實(shí)則反映深層能力的測試。

NYT Connections考察的聯(lián)想和分類能力,在實(shí)際應(yīng)用中同樣重要,比如在信息檢索、內(nèi)容推薦、知識圖譜構(gòu)建等場景中。

從這個(gè)角度看,奧特曼的Code Red警報(bào)確實(shí)還不能解除。雖然GPT-5.2在很多領(lǐng)域表現(xiàn)出色,但它并沒有在所有維度上都取得領(lǐng)先。競爭對手在某些方向上依然保持著優(yōu)勢,甚至在擴(kuò)大差距。

03

技術(shù)競爭最終要落到商業(yè)層面。OpenAI在市場上的處境,比技術(shù)指標(biāo)的對比要復(fù)雜得多。

從定價(jià)策略來看,GPT-5.2在API層面的價(jià)格定在每百萬輸入token 1.75美元,每百萬輸出token 14美元,比前代GPT-5.1分別貴了40%。

GPT-5.2 Pro價(jià)格也提高了,每百萬輸入token 21美元,每百萬輸出token 168美元。


這個(gè)漲價(jià)幅度不小,OpenAI的解釋是新模型能力更強(qiáng),性價(jià)比實(shí)際上更高。但對于大量調(diào)用API的開發(fā)者來說,成本的增加是實(shí)實(shí)在在的。

相較之下,Gemini 3 Pro的核心型號為gemini-3-pro-preview,其token定價(jià)按上下文窗口長度區(qū)分,提示詞≤20 萬 token 時(shí),輸入每百萬token 2美元、輸出每百萬token 12美元,提示詞>20萬token時(shí),輸入和輸出價(jià)格分別翻倍至每百萬token 4美元和18美元。

Claude 方面,最新的 Opus 4.5定價(jià)大幅下調(diào),輸入每百萬token 5美元、輸出每百萬token 25美元,相比前代降幅約2/3,上下文窗口為200K token,且無長上下文加價(jià)情況。

當(dāng)競爭對手們?nèi)鏕emini和Claude都在通過大幅降價(jià),試圖讓AI變成像水電一樣廉價(jià)的基礎(chǔ)設(shè)施時(shí),OpenAI 卻反其道而行之,不僅沒有參與價(jià)格戰(zhàn),反而坦然地掛出了高昂的價(jià)格標(biāo)簽。這只能說明一件事:奧特曼正在試圖把 GPT 變成一件“奢侈品”。

在商業(yè)邏輯中,奢侈品的定義往往不在于“有用”,而在于“稀缺”和“極致”。OpenAI 正在賭,賭這個(gè)世界上存在一部分最高端的智力需求,它們對價(jià)格不敏感,但對質(zhì)量有著近乎偏執(zhí)的要求。

對于這部分用戶,只要能提供那個(gè)唯一的、最正確的答案,168美元的價(jià)格不僅不貴,反而是一種身份和能力的篩選。

這或許才是“紅色警報(bào)”在商業(yè)層面的真正回響。它不再是擔(dān)心落后,而是擔(dān)心平庸。

OpenAI正在進(jìn)行一場危險(xiǎn)的博弈:它試圖通過高價(jià)策略,將自己與“普通 AI”徹底區(qū)隔開來,建立起類似愛馬仕或蘋果那樣的品牌護(hù)城河。

但這也意味著,它從此失去了“差不多就行”的容錯(cuò)空間。可問題就在于一旦這件昂貴的“奢侈品”在實(shí)際體驗(yàn)中無法提供碾壓式的優(yōu)越感,那么用戶轉(zhuǎn)身離開的速度。

況且,能挽救OpenAI的遠(yuǎn)不止一個(gè)高性能的模型那么簡單,奧特曼現(xiàn)在需要的,是一個(gè)足夠動(dòng)人的新故事。


歡迎在評論區(qū)留言~
如需開白請加小編微信:dongfangmark


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
崩盤預(yù)警!阿森納遭致命打擊,世界級巨星缺席,歐冠懸了

崩盤預(yù)警!阿森納遭致命打擊,世界級巨星缺席,歐冠懸了

瀾歸序
2026-04-07 04:20:37
張本智和目睹王楚欽奪冠呆若木雞!113天0冠 日本一哥地位恐不保

張本智和目睹王楚欽奪冠呆若木雞!113天0冠 日本一哥地位恐不保

念洲
2026-04-06 12:36:38
哈耶克:如果允許人類自由遷徙,人流的方向就是文明的方向!

哈耶克:如果允許人類自由遷徙,人流的方向就是文明的方向!

未央看點(diǎn)
2026-04-06 00:00:47
為何好多小國都莫名其妙反華?馬斯克一語道破本質(zhì)

為何好多小國都莫名其妙反華?馬斯克一語道破本質(zhì)

秋巷雨瀟瀟
2026-04-05 18:53:20
不說話,不吃植入零食,偶像包袱又重,他上《五哈6》干嘛來了?

不說話,不吃植入零食,偶像包袱又重,他上《五哈6》干嘛來了?

街上的行人很刺眼
2026-04-05 15:32:10
內(nèi)塔尼亞胡警告特朗普

內(nèi)塔尼亞胡警告特朗普

第一財(cái)經(jīng)資訊
2026-04-07 08:00:28
濟(jì)寧馬拉松火了!賽前參賽包被吐槽寒酸,賽后完賽包竟藏大反轉(zhuǎn)

濟(jì)寧馬拉松火了!賽前參賽包被吐槽寒酸,賽后完賽包竟藏大反轉(zhuǎn)

老王談跑步
2026-04-06 17:01:43
金與正積極評價(jià)韓國總統(tǒng)就無人機(jī)事件的表態(tài)

金與正積極評價(jià)韓國總統(tǒng)就無人機(jī)事件的表態(tài)

澎湃新聞
2026-04-06 22:52:01
降維打擊!場均37.3分16.3籃板2.3蓋帽,真正7年啊,終于爆發(fā)了

降維打擊!場均37.3分16.3籃板2.3蓋帽,真正7年啊,終于爆發(fā)了

球童無忌
2026-04-06 21:23:45
春日經(jīng)濟(jì)新圖景丨鳥啼春曉 “觀鳥經(jīng)濟(jì)”助燃春日消費(fèi)

春日經(jīng)濟(jì)新圖景丨鳥啼春曉 “觀鳥經(jīng)濟(jì)”助燃春日消費(fèi)

新華社
2026-04-06 09:15:22
馬克·庫班:大公司CEO面臨“AI困境”,進(jìn)或退都會(huì)引發(fā)投資者不滿

馬克·庫班:大公司CEO面臨“AI困境”,進(jìn)或退都會(huì)引發(fā)投資者不滿

IT之家
2026-04-06 15:12:10
一季度車市下跌17%,請繼續(xù)刮骨療毒

一季度車市下跌17%,請繼續(xù)刮骨療毒

汽車公社
2026-04-06 09:43:25
特斯拉車主:全程 500 多公里,Model Y 跑完還剩 20% 電量!

特斯拉車主:全程 500 多公里,Model Y 跑完還剩 20% 電量!

新浪財(cái)經(jīng)
2026-04-05 14:34:08
蘋果緊急提醒:刪這3處緩存,iPhone瞬間騰出20G,老機(jī)必看

蘋果緊急提醒:刪這3處緩存,iPhone瞬間騰出20G,老機(jī)必看

小8說科技
2026-04-06 11:56:28
安徽6歲失聯(lián)女童遇害:35歲女嫌犯被抓,身份被扒,作案動(dòng)機(jī)披露

安徽6歲失聯(lián)女童遇害:35歲女嫌犯被抓,身份被扒,作案動(dòng)機(jī)披露

溫柔看世界
2026-04-06 23:26:07
東契奇赴歐治療引爭議!專家直言不理解 稱沒有證據(jù)表明歐洲水平更高

東契奇赴歐治療引爭議!專家直言不理解 稱沒有證據(jù)表明歐洲水平更高

銜春信
2026-04-07 08:47:08
宋喆直播賣棗笑塌全網(wǎng)!百萬流量零成交,滿屏王寶強(qiáng)彈幕扎心到爆

宋喆直播賣棗笑塌全網(wǎng)!百萬流量零成交,滿屏王寶強(qiáng)彈幕扎心到爆

誮惜顏a
2026-01-13 01:12:10
馬特烏斯批評維尼修斯:只要放鏟他,他就只會(huì)抱怨、哭哭啼啼

馬特烏斯批評維尼修斯:只要放鏟他,他就只會(huì)抱怨、哭哭啼啼

懂球帝
2026-04-07 08:00:08
張蕾看書帶火了一種貴婦穿搭:白襯衫+闊腿褲+波波頭,時(shí)髦又高級

張蕾看書帶火了一種貴婦穿搭:白襯衫+闊腿褲+波波頭,時(shí)髦又高級

蓓小西
2026-04-07 09:17:56
1-1!本菲卡又爆冷:穆帥葡超不敗+差榜首7分無力爭冠,爭二都難

1-1!本菲卡又爆冷:穆帥葡超不敗+差榜首7分無力爭冠,爭二都難

體育知多少
2026-04-07 09:36:35
2026-04-07 09:55:00
直面派 incentive-icons
直面派
講述值得講述的真實(shí)故事
258文章數(shù) 237關(guān)注度
往期回顧 全部

科技要聞

年化營收300億美元!Anthropic砸算力大單

頭條要聞

特朗普:伊朗人民甘愿承受苦難 他們"想聽炸彈的聲音"

頭條要聞

特朗普:伊朗人民甘愿承受苦難 他們"想聽炸彈的聲音"

體育要聞

官方:中國女足球員邵子欽加盟本菲卡

娛樂要聞

唐嫣羅晉新加坡遛娃,6歲女兒身高搶鏡

財(cái)經(jīng)要聞

2026年,全國租房市場還有波降價(jià)潮

汽車要聞

阿維塔06T快上市了 旅行車還能這么玩?

態(tài)度原創(chuàng)

藝術(shù)
教育
時(shí)尚
家居
游戲

藝術(shù)要聞

鄭麗文來大陸,馬英九題字瞬間爆紅,書法愛好者該如何入門?

教育要聞

強(qiáng)基計(jì)劃專業(yè),怎么選才不后悔?頂尖學(xué)霸“用腳投票”的真實(shí)結(jié)果,出乎所有人意料!

伊姐清明熱推:電視劇《冰湖重生》;電視劇《月鱗綺紀(jì)》......

家居要聞

溫馨多元 愛的具象化

傳聞《古墓麗影:亞特蘭蒂斯遺產(chǎn)》延期至2027年

無障礙瀏覽 進(jìn)入關(guān)懷版