★ 設(shè)為星標(biāo) | 只講人話,帶你玩轉(zhuǎn)AIGC。
GPT-5.2 終于發(fā)布了!
雖然我已經(jīng)以 Gemini 為主,但 GPT 的每次更新仍然受到極大的關(guān)注(包括我)。
![]()
這次到底更新了些啥?
簡(jiǎn)單來(lái)說(shuō),各項(xiàng)指標(biāo)超越 Gemini 3 Pro,讓 OpenAI 居然又重回了王座。
![]()
但,并沒(méi)有形成那種“外星人降臨”的碾壓優(yōu)勢(shì)。
不過(guò),細(xì)節(jié)里全是魔鬼。我們具體來(lái)扒一扒。
OpenAI 官方開(kāi)篇定調(diào)非常高,直接說(shuō) GPT-5.2 是迄今為止功能最強(qiáng)大的專業(yè)知識(shí)工作模型。
啥叫專業(yè)知識(shí)工作模型?
把官方那堆技術(shù)黑話翻譯一下,意思就是:它不再滿足于當(dāng)你的陪聊對(duì)象,它現(xiàn)在想做你的“腦力合伙人”。
這一次,OpenAI 顯然是急了,它甚至不屑于跟你談什么“通用智能”的夢(mèng)想,而是把“搞錢”這三個(gè)字寫(xiě)在了臉上。
它這次的技能點(diǎn),全點(diǎn)在了打工人的痛點(diǎn)上:做表(Excel)、畫(huà)餅(PPT)、寫(xiě)代碼,以及那些讓人頭禿的長(zhǎng)文檔。
它就是為了創(chuàng)造“經(jīng)濟(jì)價(jià)值”而生的 。
到底有多強(qiáng)?聊聊 GDPval。
為了證明自己“值錢”,OpenAI 甚至拋棄了那些傳統(tǒng)的 MMLU 考試分?jǐn)?shù)。
他們拋出了一個(gè)聽(tīng)起來(lái)就充滿金錢味道的新指標(biāo):GDPval。 (這名字一聽(tīng)就是奔著生產(chǎn)總值GDP去的)
可能很多人沒(méi)聽(tīng)說(shuō)過(guò)這個(gè)評(píng)測(cè)集。 這是 OpenAI 專門為了衡量“真實(shí)世界打工能力”搞出來(lái)的。
他們?cè)?44 個(gè)核心職業(yè)(律師、市場(chǎng)經(jīng)理、工程師等)里,找了一幫平均工齡 14 年的資深專家,出了 1320 道真實(shí)的“地獄級(jí)工作任務(wù)” 。
注意,不是做選擇題。 是讓你真的去改合同、寫(xiě)全案 PPT、優(yōu)化生產(chǎn)線圖紙。這些任務(wù),人類專家平均要花 7 個(gè)小時(shí)才能做完 。
結(jié)果呢?經(jīng)過(guò)雙盲測(cè)試,GPT-5.2 在 70.9% 的情況下,干得比這些人類專家更好,或者至少打個(gè)平手 。
![]()
圖:在 GDPval 中,模型嘗試完成涵蓋美國(guó) GDP 貢獻(xiàn)最大的九大行業(yè)中 44 個(gè)職業(yè)的特定知識(shí)工作
這才是最恐怖的。
它的參照系不是剛畢業(yè)的大學(xué)生,而是行業(yè)專家。 也就是說(shuō),在一個(gè)有著十幾年經(jīng)驗(yàn)的采購(gòu)經(jīng)理面前,GPT-5.2 干出來(lái)的活兒,有七成的時(shí)候,比他干得還好。
甚至于說(shuō),GPT-5.2 Thinking 生成的電子表格和幻燈片在復(fù)雜程度和格式方面都有所提高。
![]()
說(shuō)白了: 以前的 GPT 是個(gè)學(xué)霸,現(xiàn)在的 GPT-5.2 是個(gè)熟手。
那么,它是怎么做到這一點(diǎn)的?
這背后其實(shí)是一場(chǎng)架構(gòu)級(jí)的革命。
OpenAI 官方直言不諱:這是自 GPT-5 以來(lái),GPT 系列在智能體編程(Agentic Coding)領(lǐng)域跨度最大的一次飛躍。
![]()
圖:在SWE-Bench Pro中(在新窗口中打開(kāi))? ? ?,給定一個(gè)代碼庫(kù),模型必須生成一個(gè)補(bǔ)丁來(lái)解決一個(gè)實(shí)際的軟件工程任務(wù)。
為了證明自己不是自嗨,他們這次直接拉來(lái)了 Windsurf 和 Devin 站臺(tái)。 這兩位可是現(xiàn)在 AI 編程界的頂流。
官方直接宣布,GPT-5.2 將成為這兩個(gè)工具的默認(rèn)核心模型 。
這說(shuō)明啥?說(shuō)明這玩意兒已經(jīng)經(jīng)受住了最殘酷的生產(chǎn)環(huán)境考驗(yàn)。
但真正讓我覺(jué)得牛逼的,是背后的技術(shù)邏輯發(fā)生了質(zhì)變。
以前我們?yōu)榱俗?AI 干點(diǎn)復(fù)雜的活,得搭建一套脆弱的“多智能體系統(tǒng)”。
就像拉了一群各懷鬼胎的實(shí)習(xí)生在開(kāi)會(huì),一個(gè)負(fù)責(zé)想,一個(gè)負(fù)責(zé)寫(xiě),一個(gè)負(fù)責(zé)改,管理起來(lái)極其麻煩,還容易崩 。
而 GPT-5.2 直接解鎖了一種全新的架構(gòu):?jiǎn)我怀?jí)智能體(Single Mega-agent)。
這就好比把那一屋子實(shí)習(xí)生全裁了,換來(lái)了一個(gè)精通 20 多種工具的全能大神 。它不僅反應(yīng)更快、腦子更靈光,而且維護(hù)起來(lái)簡(jiǎn)單了 100 倍。
除了腦子好,它的“手眼”也進(jìn)化了。
為了配得上“超級(jí)智能體”這個(gè)稱號(hào),OpenAI 這次給 GPT-5.2 裝上了更強(qiáng)的配件:
1. 手更快了
以前的 AI 調(diào)用工具(比如聯(lián)網(wǎng)搜素、畫(huà)圖、跑代碼)總有種“卡頓感”。但官方這次特別強(qiáng)調(diào):延遲大幅降低,而且工具調(diào)用能力變得極強(qiáng)。
這意味著什么?
意味著它在多個(gè)工具之間切換,絲滑得像是在切菜。
它不再是一個(gè)個(gè)蹦字的聊天機(jī)器人,而是一個(gè)能瞬間調(diào)起計(jì)算器、瀏覽器、代碼解釋器的“快手”。嗯?
2. 眼睛更尖了
看一眼官方放出的演示圖: 它能直接看懂復(fù)雜的波浪模擬參數(shù),甚至能精準(zhǔn)識(shí)別電路板上的每一個(gè)元器件。
![]()
圖:GPT 5.2 可以識(shí)別出元部件
這說(shuō)明它的視覺(jué)能力已經(jīng)脫離了“認(rèn)貓認(rèn)狗”的初級(jí)階段,開(kāi)始進(jìn)入工業(yè)級(jí)的精細(xì)識(shí)別了。
配合長(zhǎng)上下文能力 ,不管是幾千行的代碼屎山,還是幾十頁(yè)的復(fù)雜電路圖,它都能一口吞下,并且過(guò)目不忘。
實(shí)際上,這使得專業(yè)人士能夠使用 GPT-5.2 處理長(zhǎng)篇文檔,例如報(bào)告、合同、研究論文、筆錄和多文件項(xiàng)目,同時(shí)在數(shù)十萬(wàn)個(gè)詞元中保持一致性和準(zhǔn)確性。
![]()
圖:GPT 5.2 的長(zhǎng)上下文處理
所以,GPT-5.2 特別適合深度分析、綜合和復(fù)雜的多源工作流程。
但真正的“重頭戲”,是這個(gè):ARC-AGI 2
如果說(shuō) GDPval 是測(cè)它能不能干活,那 ARC-AGI 2 就是測(cè)它到底有沒(méi)有腦子。
老粉都知道,ARC 評(píng)測(cè)集是 AI 圈最難啃的骨頭,甚至沒(méi)有之一。
它是由 Keras 之父 Fran?ois Chollet 搞出來(lái)的,專門用來(lái)反死記硬背的。
比如這種題目:
![]()
圖:ARC AGI2 題目
![]()
圖:ARC AGI2 題目
以前的模型,MMLU 這種考試能拿 90 分,一碰到 ARC 這種需要“舉一反三”的智力題,立馬現(xiàn)原形,得分低得可憐。
大家猜猜上一代的 GPT-5.1 Thinking 拿了多少分?
17.6%。
但這次,GPT-5.2 干到了多少?52.9%。
兄弟們,這是 3 倍的暴漲。這不是“擠牙膏”,這是直接把牙膏管踩爆了。
為了讓大家有個(gè)概念,目前市面上最強(qiáng)的競(jìng)品 Gemini 3 Pro 和 Claude,在這個(gè)榜單上的分?jǐn)?shù)大約在 31% - 37% 之間(取決于版本)。
![]()
也就是說(shuō),OpenAI 這一次在純智商層面,不僅甩開(kāi)了對(duì)手,更是跨越了一個(gè)巨大的鴻溝。
這意味著 GPT-5.2 終于突破了那層窗戶紙:它開(kāi)始具備真正的通用推理能力了。
它遇到?jīng)]見(jiàn)過(guò)的新問(wèn)題,不再是去翻記憶庫(kù)里的答案(因?yàn)楦緵](méi)有),而是像人類一樣,現(xiàn)場(chǎng)觀察規(guī)律、現(xiàn)場(chǎng)推理、現(xiàn)場(chǎng)解決。
順便提一嘴,在另一個(gè)數(shù)學(xué)競(jìng)賽 AIME 2025 里,GPT-5.2 直接拿了 100% 的滿分。
這可是全美高中數(shù)學(xué)聯(lián)賽。 以前我們還在討論 AI 能不能及格,現(xiàn)在它已經(jīng)把卷子做穿了。
相比于它能多寫(xiě)兩行代碼,我覺(jué)得這一點(diǎn),才是這次更新里最硬核、最不容忽視的里程碑。
總結(jié)一下:
GPT-5.2 Instant、思考版和 Pro 版本今日開(kāi)始推送,首先面向 Plus、Pro、Business 和 Enterprise 套餐用戶。
免費(fèi)版和 Go 用戶將于明天獲得訪問(wèn)權(quán)限。
GPT-5.2 在我心中,是一個(gè)極其合格,甚至有點(diǎn)“過(guò)于務(wù)實(shí)”的迭代。
它沒(méi)有像過(guò)去那樣,瘋狂去卷那些虛頭巴腦的考試分?jǐn)?shù),而是把所有的技能點(diǎn),都死磕在了“怎么幫白領(lǐng)干活”這件事上。
它不跟你談星辰大海,只跟你談降本增效;不跟你炫耀參數(shù),只給你看GDPval。
這個(gè)點(diǎn),我覺(jué)得就很酷,非常的剛需。
雖然從“好玩”或者“科幻感”的角度來(lái)說(shuō),GPT-5.2 可能沒(méi)有 Gemini 3 Pro 原生多模態(tài)帶來(lái)的那種絲滑震撼。
(畢竟谷歌同步發(fā)行了 Nano Banana Pro,期待 GPT Image 早日發(fā)布)
但如果你是為了工作,為了搞錢,為了早點(diǎn)下班去陪家人。那 GPT-5.2 可能是目前地表最強(qiáng)、也是最值得你掏錢的生產(chǎn)力工具 。
好了,就扒到這里,如果覺(jué)得這篇文章對(duì)你有用,別忘點(diǎn)贊,??并轉(zhuǎn)發(fā)給你的朋友哦~
我們下次再見(jiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.