網易首頁 > 網易號 > 正文申請入駐

GPT-5幾個預測：用戶翻倍，編程登頂，屠殺一眾模型

2025-08-08 05:46:50　來源: 鯨選AI

北京舉報

分享至

在GPT-4橫空出世后，始終不見新一代大模型。暌違2年半，大家的心情如下，終于在今晚等到了GPT-5。

毫無意外，GPT-5登頂了大模型各種測評榜單。OpenAI發布的GPT-5四個模型，在Artificial Analysis Intelligence Index v2.2中排名如下：

GPT-5 (high)– 得分 69

GPT-5 (medium)– 得分 68

GPT-5 (low)– 得分 63

GPT-5 (minimal)– 得分 44

解釋下，在這個綜合指數排名中，官方說明里列出了 8 個子基準——MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、IFBench 以及 AA-LCR。每個模型的得分是在這 8 組測試中表現的匯總（通常是加權平均或標準化后的平均值）。

但其實GPT-5最大的跨越，是統一智能架構。

現在，用戶不用費力區分什么時候用4o，什么時候用o3等眾多模型，ChatGPT將統一用GPT-5提供服務，它整合了高效響應模型和深度推理模型（GPT-5 thinking），通過實時智能路由自動判斷何時快速響應，減少不必要的算力浪費；自主判斷何時深度思考，給用戶最深刻的回答。

而在LLM Arena 更新的榜單中，GPT-5拿到幾乎所有類別的第一名，包括數學、指令遵循、多輪對話、編碼、WebDev等等，僅僅創意性寫作這個類別上稍弱于 Gemini 2.5pro。

具體看，GPT-5在多個權威基準測試中取得了突破性成績：

1）數學推理：AIME 2025 無工具輔助達到 94.6%；

2）多模態理解：MMMU 基準測試達到 84.2%；

3）科學推理：GPT-5 Pro 在 GPQA 測試中無工具輔助達到 88.4%；

4）代碼編程：在 SWE-bench Verified（軟件工程任務）中：GPT-5直接回答準確率為 52.8%，加入思考鏈后提升至 74.9%，相比之下GPT-4o 表現為 30.8%，OpenAI o3 為 69.1%。

在 Aider Polyglot（多語言代碼編輯任務）中：GPT-5加入思考鏈后準確率達 88.0%，無思考僅 26.7%，而 GPT-4o 為 25.8%，OpenAI o3 為 79.6%。

所以，GPT-5依托思考鏈技術，在復雜任務中表現得更得心應手。

多說一句，GPT-5 在編程方面擊敗了 Claude Opus 4.1，成為全球最佳編程模型！連Cursor和微軟Copilot都第一時間接入了GPT-5 ，以后AI Coding市場要更熱鬧了。

拋開GPT-5的能力升級，更為重要的意圖改進，可能是在以下三點：

1、

相比上一代模型大幅減少幻覺和廢話，讓AI更可信。

與 GPT-4o 相比：GPT-5事實性錯誤減少 45%；開放事實上的幻覺減少 6 倍；缺失數據上的欺騙性回答減少 80%。

直播中舉例，沒有數據的問題，不會像以前直接遣詞造句，裝模做樣地編造回答?，F在會直接告訴無法回答，還會給一個解決方案。這也意味著GPT-5 更準確，更誠實。

雖然宣稱GPT-5的幻覺率大幅減少，但是OpenAI的工作人員幻覺率可挺高，直播中出現了大烏龍。

這張翻車的直播PPT圖中，柱狀圖顯示數值52.8 比 69.1 高，而 69.1 又被顯示為與 30.8 相同量級。

或許是因為AI，人類數學能力已經出現了大幅衰退，笑Cry。

2、

GPT-5 更具有多維的人類情感，而不是單純的討好人類。

GPT-5這次新增 4 個聊天個性：憤世嫉俗者、機器人、傾聽者、書呆子?？稍谠O置中的 Customize ChatGPT 里自主選擇。而且GPT-5 將諂媚（AI 過度奉承）減少了>60%。當你犯錯時，會減少“你是對的”。

3、在健康領域的回答更實用。

GPT-5在 HealthBench 基準測試中得分創歷史新高，達到 46.2%。直播中，一位患上癌癥的女性將診斷書輸入 ChatGPT，ChatGPT 將GPT-5將難懂的語言整理得易于理解。

當然，還有這點不得不提，就是OpenAI竟然玩起了性價比。將GPT-5 與 Claude Opus 4.1 進行比較，可見GPT-5 要便宜得多。

便宜到底好不好用，以下這些海外生成的案例可參考：

1、音樂節拍器生成測試

現實世界的信息是多模態的——文字、圖像、音頻、視頻等多種形式共同構成了人類的認知輸入。我們測試Chat GPT5 對音樂領域規則的理解，也考驗其將抽象需求轉化為，可執行邏輯的工程化能力。

生成的音樂很帶感，網友直呼：“我的耳朵要懷孕了”，“也許它會徹底改變音樂產業“

@sama

2、建筑生成器

GPT-5也能協助建筑行業進行工作，全程沒碰過一行代碼，卻非常智能的生成了3D樓房。

“做一個程序化的粗野主義建筑生成器，能讓我通過拖拽以各種酷炫方式編輯建筑”，然后又讓它 “再改進一下

3、簡筆畫對比

GPT-5 在自行車測試中的表現比 4o 好得多。

GPT-5 在和Claude Sonnet 4測試繪制游戲手柄中也好很多

4、指示GPT-5創建一個音樂可視化工具 + 迷你作曲家

5、編碼能力測試：

在發布會上，主講人宣稱對安全系統進行了一系列的升級，國外網友（@PranavJoshi28）對 AI 能否設計并實現一個 “安全、規范、可維護” 的后端身份認證與權限系統進行了的綜合測試，這一項測試既涉及具體技術的落地，也考驗對安全最佳實踐和工程化思想的理解。

提示詞：創建基礎的 RBAC（基于角色的訪問控制）使用 JWT（JSON Web Token）密碼存儲應使用 bcrypt，但首先要將密碼與 pepper（一種額外的加密鹽）結合，并用 SHA-256（生成 32 字節）進行哈希處理，之后再用 bcrypt 加密，以避免 72 字節的截斷問題需維護遷移文件（不使用 ORM 或查詢構建器），并設有單獨的 up（升級）和 down（降級）文件夾使用 Zod 進行類型檢查和 schema 驗證生成訪問令牌和刷新令牌（支持令牌輪換）使用刷新令牌數據庫來實現令牌的黑名單管理、撤銷或過期處理

國外網友評價：大部分準確，需要較少的調整。

但網友測試GPT-5，檢測出9.9-9.11=-0.21，這種難以想象的錯誤。

在GPT-5發布后，鯨哥預測：

?因為GPT-5 人人可免費使用，以及回答效率更高，OpenAI的全球用戶在今天周月活數7億基礎上將翻倍。

?AI編程將走出小眾，程序員大面積失業。因為GPT-5編程能力出眾，一直拒絕OpenAI收購的Cursor，都第一時間接入了GPT-5,你就知道未來大部分AI編程軟件，會齊刷刷都接入GPT-5，AI編程效率進一步提高。

?GPT-5的多模態，以及多尺寸，將幫助其占領大多數AI場景，很多大模型將因為競爭性不足，而被GPT-5踢了場子。

盡管馬斯克還不服氣，認為Grok 4 Heavy還占據著最智能的大模型寶座，但是GPT-5這次務實地推進，將改變除了桂冠外的一切。

一位國外網友站在長遠的角度評價，GPT-5 只是點火器：

? GPT-5.5 Copilot+（內部測試階段）

? GPT-6 → AGI 認知層

? Sora + Sky + Whisper = 完全感官認知

? AutoCode + Memory API = 世界操作系

你認可嗎？

https://x.com/godofprompt/status/1953529048971588015

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.