337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.2發布，真正的牛馬打工人專屬AI來了。

2025-12-12 11:06:08　來源: 數字生命卡茲克

北京舉報

0

分享至

在各種小道消息，各種預測之后。

終于，在OpenAI十周年的這一天。

也就是今天的凌晨2點，GPT-5.2終于跟大家見面了。

這是Gemini 3 Pro爆火，第一次讓OpenAI沒有領先優勢，奧特曼在內部官宣紅色警戒狀態之后，他們掏出的第一款模型。

也是OpenAI的十周年獻禮。

而這款模型的特點也非常有意思。

OpenAI的原話是：

We are introducing GPT?5.2, the most capable model series yet for professional knowledge work.（我們正式發布 GPT-5.2，這是迄今為止在專業知識工作方面能力最強的一代模型系列。）

專業知識工作，記住這個關鍵詞，后面要考。

我們先從各種跑分上看，其實能看到，一些跑分其實沒有質的飛躍，有一種數碼廠開始擠牙膏的感覺。。。

對比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。

在軟件工程（SWE-Bench Pro）、科學問題（GPQA Diamond）、數學競賽（AIME 2025）這些傳統評測集上。

GPT-5.2確實又強了一些，也回到了第一的位置，全面領先。

在前端審美還有3D元素上，表現的更牛逼了。

在視覺理解能力上也更強了。

比如要求模型識別圖像輸入中的組件，并返回帶有近似邊界框的標簽。

即使在低質量的圖像上，GPT-5.2也能識別主要區域并放置與每個組件真實位置大致匹配的框，而GPT-5.1只標注了幾個部分，對它們的空間排列理解不是很好。

但是這些東西，說實話，確實也就那樣，大家很難體感上還覺得有多牛逼。

就像芯片廠子告訴你，我的手機芯片性能又提升了25%，你聽了以后，哦確實強，但是完全不影響你繼續刷抖音和小紅書對吧。

不過有兩個評測集，是我覺得這次GPT-5.2最大的亮點，且一定要單拎出來，跟大家單獨聊一下的。

一個是ARC-AGI-2，一個是GDPval。

這兩個，非常有意思。

先說ARC-AGI-2。

過去的AI評測，比如MMLU，考的主要是是知識。

比如它會問你“美國第一任總統是誰？”、“光合作用的化學方程式是什么？”。

這種評測呢，坦率的講，對于一個讀了半個互聯網的AI來說，有點像開卷考試，它有很大概率不是真的推理出來的，而是背出來的。

這就導致一個問題，在實際的評測中，我們分不清AI是真的聰明，還是只是記性好。

于是，Fran?ois Chollet，就是那位Keras（一個著名的機器學習框架）之父，2019年第一次在論文《On the Measure of Intelligence》里，提出了ARC這個變態測試。

而這個測試，跟知識儲備一毛錢關系都沒有。

全名叫，Abstraction and Reasoning Corpus，抽象與推理語料庫。

設計目標就是測模型的通用智能的能力。

大概就是，不看你在某一道題上有多熟練，而是是看你在沒見過的新題上，能不能自己推理出規則、舉一反三。

目前正式版發展到了第二代，也就是ARC-AGI-2，我給大家放一下，ARC-AGI-2里面的一些典型的題目，大家就懂了。

這種能力，現在稱為流體智力

（Fluid Intelligence），意思就是指不依賴于已有的知識，在全新情境下進行邏輯推理、識別模式和解決問題的能力。

悟性開竅的能力。

說白了，就是你的

這玩意兒對AI來說，難于登天。

因為它在互聯網上找不到任何現成的答案，它必須當場理解、當場推理

在很長一段時間里，頂級AI的得分都低得可憐。

在ARC-AGI-2上，之前GPT-5.1的得分是17.6%，而GPT-5.2，直接飆到了52.9%。

直接翻了三倍。

這是一個很恐怖的數據。

GPT-5.2的模型，直接在排行榜上屠榜了。

而且，效率還很高。

基本都在同成本區間，能力做到了最高。

在真正的智力水平上，GPT-5.2確實達到了目前的最優。

這就比較有意思了。

然后是第二個，也是我自己現在最關心、也是我認為最重要的一個：

GDPval。

可能很多人沒聽說過這個評測集。

他是OpenAI自己在2個半月前新出的。

其實你看這個名字也能看出來一點端倪。

val，就是生產總值的那個GDP。

GDP

他們要用一個全新的標準，來衡量AI在上的表現。

真實世界中、具有經濟價值的任務

過去，我們說一個模型牛逼，是因為它代碼寫得好，或者知識答得準，或者考試分數高。

這當然很重要，但就像我常說的，這個世界不只有程序員和科學家。

還有律師、設計師、市場經理、護士、建筑師、銷售……

無數專業知識工作者。

他們工作的價值，其實很難用一張考卷來衡量。

于是，OpenAI他們在美國貢獻GDP最高的9個行業里，選取了44個核心職業，然后，他們找到了在這些行業里平均有14年工作經驗的資深專家，讓他們出了1320道專業知識任務，并且每一項，都基于真實工作成果。

比如，給律師的任務，可能就是一份真實的合同草案和客戶需求，讓他去審閱和修改。

給市場經理的任務，可能就是一堆產品資料和市場數據，讓他寫一份營銷方案PPT。

給制造工程師的任務，可能就是一張產品設計圖，讓他優化生產流程。

這些任務，不僅有文字，還可能包含PDF、Excel表格、圖片、PPT，是高度復雜的、多模態的、沒有標準答案的真實工作。

整套任務的平均用時，是人類專家要花 7 個小時才能做完，有些甚至是一兩周的活。

然后，模型和人類的成果，會被同領域的另一批專家進行盲評。

他們也不知道誰是AI，誰是人類。

評委只需要回答一個問題：你更愿意把哪份交給客戶？是這份，還是這份？

結果，GPT-5.2 Thinking在這套 GDPval 上，贏或打平行業專家的比例，達到了70.9%，而GPT-5.2Pro 模型是74.1%。

注意，這里的參照系不是普通實習生，而是行業專家。

也就是說，在一個有著十幾年經驗的采購經理、或者審計師面前，GPT-5.2干出來的活兒，有七成的時候，比專家干得好，或者至少一樣好。

而 GPT-5，只有 38.8%。

這個進步的速度，還有有一點快的。

看一下官方放的case的對比，還是比較直觀的。

我們過去的模型，都花過于著重的筆墨在編程開發上了，我并不是說編程開發不重要，它很重要，很牛逼。

但，其他的領域的工作，我也覺得應該被重視。

而GDPval，就是我認為最重要的一個指標。

而且這次GPT-5.2，在上下文上，也有大幅的加強。

用我們以前的大海撈針測試，在一個256K的巨型文檔里面埋四根針，讓AI來根據文檔內容回答。

GPT-5.2干到了離譜的100%，這也是我印象中，唯一一個能干到100%的。

8根針的正確度會下降，但是這個衰減，已經比GPT-5.1牛逼太多了。

而且，還有最新的知識庫截止日期：

牛逼的知識工作處理+最新的知識庫截止日期+更棒的智力+準確性超高的上下文。

這簡直，就是真正的天選牛馬搭子，對打工人的加持，實在是太強了。

這是真正，奔著大眾、奔著實用去的。

目前今天會開放給ChatGPT付費會員，明天會開放給免費會員，會直接替代GPT-5.1，但是如果你是付費會員的話，還會在老模型中存續3個月。

就是這。

可惜截止到我發文的凌晨6點這一刻，作為尊貴的200刀的ChatGPT Pro會員，我還是沒有拿到GPT-5.2的體驗資格。

一些所謂的ChatGPT上的為GPT-5.2專用的文件精修，也只能等拿到實測以后，再出一篇GPT-5.2的打工合集了。

然后開發者的話，已經可以通過API調用。

價格上，會比5.1貴一些。

整體上，GPT-5.2的所有消息差不多就這樣了。

而我自己一直期待的，成人模式。

還是沒有到來。

奧特曼自己這個龜兒子說的是12月上線。

也不知道能不能等到。

反正他說，下周還會再送一些小的圣誕禮物。

盲猜一手OpenAI家的生圖模型，或者成人模式。

對于一個創作者來說，這兩玩意，真的很需要。。。

最后總結，GPT-5.2在我心中，是一個合格的迭代，并沒有跟很多模型一樣，專注于純粹的傳統刷分，而是聚焦在了廣大白領打工人身上，幫大家解決實際工作中的問題。

這個點，我覺得就很酷，非常的剛需。

但是從路線上來說，感覺GPT-5.2還是被原生多模態的Gemini 3 Pro壓了一頭，12月大概率還是要發個生圖模型出來的，不知道對標Banana，會不會有新的驚喜。

總之，還是保持期待。

反正每一個新模型的發布，只要是我覺得有意思的。

也一定會熬夜給大家帶來第一時間的解讀。

我們以后。

還是，不見不散~

晚安。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

媒體：鄭麗文受邀訪大陸核心原因從當前局勢看不難猜

看看新聞Knews 2026-03-30 22:31:04
398 跟貼 398
“直接崩了，一天掉了一百多元！”有人瘋狂拋售，國際巨頭接連發布新技術……格局將被改變？

都市快報橙柿互動 2026-03-29 12:26:05
1678 跟貼 1678

中方決定對日本國會眾議員古屋圭司采取反制措施

央視新聞客戶端 2026-03-30 10:43:13
2128 跟貼 2128

交通運輸部檢查指導組在吉林檢查時發現“百噸王”多發頻發

界面新聞 2026-03-30 11:14:13
46 跟貼 46
保定一小店售賣咸菜絲燒餅意外爆火，排隊人數太多店鋪宣布暫停營業，店主：流量太大了，我們承接不住，也擔心影響燒餅品質

極目新聞 2026-03-26 22:43:02
2642 跟貼 2642

山東設立中小學春秋假期:原則上每次3天，安排在每學期期中前后

齊魯壹點 2026-03-30 20:46:10
596 跟貼 596

上海男籃的難題又來了！

新民晚報 2026-03-30 10:42:17
401 跟貼 401
中國將在長江水下開高鐵

環球網資訊 2026-03-30 09:38:29
1254 跟貼 1254

太心疼！全紅嬋談體重時哽咽：“我接受不了那么胖的自己”

上觀新聞 2026-03-30 13:07:07
903 跟貼 903
美國如果發動地面戰本次戰事軍費或突破10萬億美元

都市快報橙柿互動 2026-03-30 13:49:54
1034 跟貼 1034
約80層樓高的神女大扶梯，把巫山縣城推向了臺前

新京報 2026-03-30 16:45:46
120 跟貼 120
釋新聞｜50多年來最遠載人航天，NASA“阿爾忒彌斯2”號任務有何看點？

澎湃新聞 2026-03-30 20:30:27
20 跟貼 20
國航中朝航線恢復運行

財聯社 2026-03-30 08:14:40
910 跟貼 910
LV，賣不動了？

中國新聞周刊 2026-03-30 18:15:39
106 跟貼 106
很多廣東人跟風！緊急提醒：別亂挖，嚴重可致死

南方都市報 2026-03-30 07:49:58
268 跟貼 268
獨家對話！帶崩全球存儲股的谷歌論文陷學術爭議，中國學者指其“嚴重失實”且“知錯不改”：使用了我們的方法，但刻意回避相似性

每日經濟新聞 2026-03-30 18:24:12
47 跟貼 47
大愛善舉全國累計器官捐獻志愿登記人數超733萬

人民資訊 2026-03-30 10:39:04
380 跟貼 380
“全體員工享受三天帶薪春假”，大人和孩子都需要“春天”

學申論的談妹 2026-03-30 09:12:42
423 跟貼 423
官方：著力防治平臺經濟等內卷式競爭

財聯社 2026-03-30 13:13:19
89 跟貼 89
“張飛古道已經重開”消息不實（2026·03·30）

今日辟謠 2026-03-30 18:53:07
39 跟貼 39
今年，蚊子瘋狂？

中國新聞周刊 2026-03-30 22:24:41
0 跟貼 0
畢節一副局長被曝曾公開在微博宣布自己不是中國人

映射生活的身影 2026-03-31 02:04:09
0 跟貼 0
湖南永州一貨車司機被高壓電擊中身亡，同車的妻子幸運逃生，當地：隨車吊的吊臂掛斷了高壓線，詳情正核實

臺州交通廣播 2026-03-31 02:09:07
0 跟貼 0

張雪峰反復提的這7所大學，畢業就是鐵飯碗，關鍵分數還不高！

張雪峰反復提的這7所大學，畢業就是鐵飯碗，關鍵分數還不高！

優墨出品

2026-03-30 19:24:31

于東來自曝：30歲開始吃藥，哪天說不定沒了就沒了...“上班是為了生活，不是把生活全交給公司！”

于東來自曝：30歲開始吃藥，哪天說不定沒了就沒了...“上班是為了生活，不是把生活全交給公司！”

品牌新

2026-03-30 12:11:01

掙了老百姓幾個億，死后卻被人排長隊送別，他做對了什么？

掙了老百姓幾個億，死后卻被人排長隊送別，他做對了什么？

李昕言溫度空間

2026-03-28 15:50:27

登陸時間確定，鄭麗文欣喜發聲，連戰成關鍵“啟蒙”，藍要員力挺

登陸時間確定，鄭麗文欣喜發聲，連戰成關鍵“啟蒙”，藍要員力挺

小陸搞笑日常

2026-03-30 13:43:51

昔日網紅品牌被曝大幅關店，很多人曾排隊幾小時就為這一口！跌出頭部梯隊后“斷臂求生”

昔日網紅品牌被曝大幅關店，很多人曾排隊幾小時就為這一口！跌出頭部梯隊后“斷臂求生”

新民晚報

2026-03-30 18:14:45

不要對發達國家生活水平有濾鏡，2026年發達國家老百姓實際生活水平比中國已經高不了多少

不要對發達國家生活水平有濾鏡，2026年發達國家老百姓實際生活水平比中國已經高不了多少

寧南山

2026-03-30 08:37:47

從楊主席訪伊朗受怠慢，聊聊如今為何有伊朗人稱我們“秦腔窮”？

從楊主席訪伊朗受怠慢，聊聊如今為何有伊朗人稱我們“秦腔窮”？

阿胡

2026-03-30 12:52:29

驚訝！伊朗大捷！用一場標志性大勝，讓美軍創下戰后最大戰損記錄

驚訝！伊朗大捷！用一場標志性大勝，讓美軍創下戰后最大戰損記錄

軍機Talk

2026-03-30 11:02:14

動手了？烏克蘭猛攻克里米亞大橋！摧毀俄軍炮兵基地

動手了？烏克蘭猛攻克里米亞大橋！摧毀俄軍炮兵基地

項鵬飛

2026-03-30 20:00:03

連大學都沒上過的“學渣”，卻當了央視30年名嘴，如今成女性榜樣

連大學都沒上過的“學渣”，卻當了央視30年名嘴，如今成女性榜樣

珺瑤婉史

2026-03-30 00:30:03

重磅！我國臺辦正式宣布，鄭麗文訪問大陸行程確定，盧秀燕不裝了

重磅！我國臺辦正式宣布，鄭麗文訪問大陸行程確定，盧秀燕不裝了

DS北風

2026-03-30 11:58:08

邵佳一：正視與喀麥隆的差距；很感謝隊員們都在努力適應我的想法

邵佳一：正視與喀麥隆的差距；很感謝隊員們都在努力適應我的想法

懂球帝

2026-03-30 14:38:26

連微博CEO都親自下場了，羅永浩這回，怕是真要翻車了！

連微博CEO都親自下場了，羅永浩這回，怕是真要翻車了！

青青子衿

2026-03-30 22:10:08

全紅嬋哽咽談體重減不下來：餓到不行，希望大家不要再罵我了！

全紅嬋哽咽談體重減不下來：餓到不行，希望大家不要再罵我了！

新民周刊

2026-03-30 15:38:07

單依純舞臺上歇斯底里的表演，不停高喊“好想談戀愛”

單依純舞臺上歇斯底里的表演，不停高喊“好想談戀愛”

爆角追蹤

2026-03-30 07:15:45

西班牙宣布對參與美伊戰事的軍用飛機關閉領空

西班牙宣布對參與美伊戰事的軍用飛機關閉領空

每日經濟新聞

2026-03-30 15:35:32

幾乎全是假貨！利潤高達2400%，為何有些消費者前赴后繼爭相購買

幾乎全是假貨！利潤高達2400%，為何有些消費者前赴后繼爭相購買

米果說識

2026-03-30 14:32:41

核武器殉爆？以色列政府發布危險物質泄露，伊朗這回中大樂透了！

核武器殉爆？以色列政府發布危險物質泄露，伊朗這回中大樂透了！

掉了顆大白兔糖

2026-03-30 18:24:01

伊朗女足球員：澳方承諾給我們房子、車子和永居權，來說服我們留下

伊朗女足球員：澳方承諾給我們房子、車子和永居權，來說服我們留下

懂球帝

2026-03-30 13:45:07

官方：CCTV5轉播U23國足vs越南U23的比賽

官方：CCTV5轉播U23國足vs越南U23的比賽

懂球帝

2026-03-30 15:20:05

數字生命卡茲克

反復橫跳于不同的AI領域，努力分享一些很酷的AI干貨

485文章數 600關注度

往期回顧全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

特朗普：對伊朗襲擊以煉油廠的回應“很快到來”

頭條要聞

特朗普：對伊朗襲擊以煉油廠的回應“很快到來”

體育要聞

想進世界杯，意大利還要過他這一關

娛樂要聞

全紅嬋聊到體重哭了，每天只吃一頓飯

財經要聞

本輪地緣沖突，A股憑什么走出獨立行情

汽車要聞

限時12.58萬起銀河星耀8遠航家系列上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

游戲

時尚

藝術

軍事航空

教育要聞

靜待花開：一位母親與青春期兒子的“破冰”之旅——林亭亭家教好故事

《紅色沙漠》Steam熱更新上線修復光線重建問題

“小白鞋”今年春夏又火了！這5雙怎么搭都好看

藝術要聞

這個62歲大爺厲害了！他畫的超寫實美女騙了多少人？.....

軍事要聞

第三艘航母出動數千名士兵抵達美軍大舉增兵中東戰場

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<tfoot id="iiiii"><noscript id="iiiii"></noscript></tfoot>

<tfoot id="iiiii"></tfoot>

<tr id="iiiii"></tr>

<sup id="iiiii"></sup>