337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

OpenAI發布o3/o4-mini:"最智能"模型,圖片推理、工具調用全都有

0
分享至

本周果然是諸神之戰!

繼 GPT-4.1 發布、可靈2.0 發布、Claude 上線 Research、Gemini 全面上線 Veo 2 等等之后,OpenAI 帶來了 o3 滿血版和 o4-mini。



先來劃重點:

  • 本次發布的模型,分別是 o3 和 o4-mini;
  • 綜合看o4-mini性價比最高,o3能力最為綜合;
  • 兩個模型均為多模態推理模型,在代碼、科學方面表現出色;



*網友實測,認為Benchmark又要更新了

多模態推理也是本次官宣的重點。我們順手拿蘋果手表對o3做了測試:



*識別略有出入,真實型號是S9。不過這幾個型號確實外觀無太大差別,肉眼直接分辨也有難度。

Sam Altman本人也對這次發布劃了重點



ChatGPT 的 Pro、Plus、Teams 用戶將從今天開始能夠使用新模型,免費用戶可以通過打開“深度思考”按鈕來試用 o4-mini。



*ChatGPT更新的頁面

"OpenAI 迄今為止最強大的模型們"

OpenAI 聯創之一 Greg Brockman 主持直播,開場白簡單直接,直接宣布今天的重點:“發布兩款新模型,o3 和 o4-mini”。



首先被拋出的新模型描述就是,o3 和 o4-mini 是 OpenAI 目前為止最智能的模型。相比前代 o 系列模型,這兩款模型在深度思考方面的能力更突出,在回答問題之前會進行更長時間的思考。

另一個特點是,o3 滿血版和 o4-mini 可以使用 OpenAI 已經發布的所有工具能力,包括聯網搜索、永久記憶等等。當然,它們還是多模態的,可以直接對圖片進行推理。

強大的推理能力,以及廣泛的工具調用能力,使得這兩款模型非常適合科學研究、代碼生成或數學問題解答。

分開來看,o3 定位為OpenAI當前最強大、最前沿的推理引擎。尤其是在編程、商業/咨詢和創意構思等領域表現出色。

o4-mini 則更強調性價比,是一款專為快速、成本效率優化的推理模型,它的體量更小,性價比更高,在數學、編程和視覺任務方面有著不錯的表現。

從科學方面的測評結果來看,o3 與 o4-mini 顯著領先于前代 o 系列模型。而在 o3 與 o4-mini 之間來進行比較,得分差距并不是十分明顯,多數情況下,o4-mini 會略微領先于 o3。



現場直播中也給出了一道 AIME 題目的測試結果:





對于這個數學問題,模型在給出了正確的常規解法和答案后,甚至還額外給出了一個相對更“聰明”的解法。

再來看代碼能力



本次發布的兩款新模型在代碼能力上相較前代 o 系列模型提升明顯。在 SWE-Bench Verified 評測集上,o3 與 o4-mini 分別取得了 69.1% 與 68.1% 的分數。可以提供參考的是,剛剛發布的 GPT-4.1 在這項測試上的成績為 54.6%,而 Claude 3.7 Sonnet 一般情況下得分是 62.3%。

OpenAI 發布的模型在代碼生成能力測評上,終于超越了這個領域的王者Claude。

從現場給出的代碼類任務的 case 來看,模型在接到代碼問題后,到最終生成并執行代碼之前,拆解出了一個個核心步驟。











本次發布的 o3 和 o4-mini 也都是多模態模型。



在官方給出的4項多模態測評數據結果中,o3 又一次全部超越了 o4-mini。

值得注意的是,在指令遵循方面,前幾天的 GPT-4.1 發布時,在 Scale MultiChallenge 榜單中得分僅排名第十。但本次發布的 o3 在這項測評中的成績,直接超越了原榜單第一名的 Gemini 2.5 Pro。



不僅在效果上超越了前代的 o 系列模型,在推理成本上也有顯著下降。

官方給出了新模型在 AIME 和 GPQA 兩個評測集上進行的模型效果與預估推理成本之間的對比結果。

在達到相同的推理效果時,新模型所花費的預計推理成本基本均小于前代模型。模型的推理成本優化效果在 o3 與 o1 進行對比時,提升十分的明顯。

OpenAI 稱對于大多數現實世界的使用,o3和o4 mini也將分別比o1和o3-mini更智能、更便宜。







*各模型 API 價格對比,圖源:機器之心

總之,o4-mini是性價比之選,o3是最新的任務效果天花板。o3-mini和o1,似乎都可以被替代了。

除了模型,還有 Agent

在介紹完新模型的信息后,Greg Brockman 還官宣了一個可以直接在命令行工具中運行的、具備推理能力的代碼 Agent——Codex CLI。

Sam Altman對此的解讀是,它可以和擅長Coding的o3和o4-mini搭配。



插播一句,今天OpenAI還被曝出,正在洽談以30億美元收購知名的AI輔助編程工具Windsurf。如果成真,將是OpenAI迄今為止規模最大的一筆收購。

在實際演示中,用戶只上傳了一張網友制作的小項目的帖子截圖。

模型先是對圖像中的內容進行了識別,然后就在沒有任何指令的情況下,開始嘗試猜測用戶關于這張圖片的具體需求。



僅通過自然語言描述需求后,Codex CLI 就直接生成了符合用戶要求的 HTML 文件。

在直播演示中,OpenAI Agent研究團隊成員,僅通過一張“圖像到 ASCII 風格轉換”的截圖,把這個圖拖進終端,Codex 就將此前截圖網友的項目準確完成,成功創建了一個簡單的ASCII風格圖像轉換工具。



在發布會的最后,Greg Brockman 還預告說,o3-pro 預計將在幾周內完成發布。

在萬眾期待的 GPT-5 遲遲未到的情況下,這幾天的接連出新,可能也是OpenAI的“緩兵之計”,希望用戶對 OpenAI 保留一些信心。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
7只狗被偷走后掉在公路上,結伴而行跨越17公里走回家,志愿者回應:幾只狗狗是鄰居,一直在一起玩耍,已安全到家

7只狗被偷走后掉在公路上,結伴而行跨越17公里走回家,志愿者回應:幾只狗狗是鄰居,一直在一起玩耍,已安全到家

揚子晚報
2026-03-20 07:44:08
CBA又曝出一大冷門!北京慘遭第15爆冷掀翻:遼籃該瑟瑟發抖了?

CBA又曝出一大冷門!北京慘遭第15爆冷掀翻:遼籃該瑟瑟發抖了?

籃球快餐車
2026-03-20 02:08:09
1年交付10臺,1300架訂單要生產130年?外媒:C919不是波音對手

1年交付10臺,1300架訂單要生產130年?外媒:C919不是波音對手

聞識
2026-03-19 12:52:20
不敢想這真人秀有多好笑!瞿穎胡兵孫浩戴軍李靜五人要上新綜藝了

不敢想這真人秀有多好笑!瞿穎胡兵孫浩戴軍李靜五人要上新綜藝了

露珠聊影視
2026-03-20 18:26:42
白人女性與黑人女性的體味差異,網友真實分享引發熱議

白人女性與黑人女性的體味差異,網友真實分享引發熱議

特約前排觀眾
2025-12-22 00:20:06
送外賣北大學子曾是高考市第一名 外賣平臺稱其實僅跑了5單 本人回應質疑

送外賣北大學子曾是高考市第一名 外賣平臺稱其實僅跑了5單 本人回應質疑

封面新聞
2026-03-19 16:00:21
特朗普要干票大的,數千美軍或搶灘登陸,占領伊朗沿海打通海峽

特朗普要干票大的,數千美軍或搶灘登陸,占領伊朗沿海打通海峽

書紀文譚
2026-03-20 14:40:10
廣州南沙甘蔗滯銷后全網呼吁助農,村干部:一天接100多個電話,周邊陸續有人來砍

廣州南沙甘蔗滯銷后全網呼吁助農,村干部:一天接100多個電話,周邊陸續有人來砍

愛下廚的阿椅
2026-03-20 18:35:37
1-0!小毛+楊銘銳眼前一亮!大連前兩輪“裝糖”?衛冕冠軍太慫了

1-0!小毛+楊銘銳眼前一亮!大連前兩輪“裝糖”?衛冕冠軍太慫了

刀鋒體育
2026-03-20 21:16:18
密春雷爭議已經4年了,從央視"消失"的董卿,終究是走到了這一步

密春雷爭議已經4年了,從央視"消失"的董卿,終究是走到了這一步

凡知
2026-03-18 18:35:53
人不會無故帶狀皰疹!醫生提醒:帶狀皰疹的人,多半有這幾習慣

人不會無故帶狀皰疹!醫生提醒:帶狀皰疹的人,多半有這幾習慣

新時代的兩性情感
2026-03-20 18:34:37
日媒通告全球:如果中日開戰,中國人會搶著當先鋒,引發高度關注

日媒通告全球:如果中日開戰,中國人會搶著當先鋒,引發高度關注

青煙小先生
2026-03-20 12:06:41
如果毛岸英不犧牲,毛主席會不會讓他接班?歷史早就給出了答案

如果毛岸英不犧牲,毛主席會不會讓他接班?歷史早就給出了答案

芊芊子吟
2026-03-19 23:35:03
33歲抗癌博主“潤哥”去世,確診時妻子剛懷上二胎,家人發布訃告

33歲抗癌博主“潤哥”去世,確診時妻子剛懷上二胎,家人發布訃告

環球網資訊
2026-03-19 20:13:07
內塔尼亞胡:要實現伊朗“政權更迭”,光靠空襲不行,得有“地面部分”;伊朗:以色列密謀襲擊沙特石油設施嫁禍伊朗

內塔尼亞胡:要實現伊朗“政權更迭”,光靠空襲不行,得有“地面部分”;伊朗:以色列密謀襲擊沙特石油設施嫁禍伊朗

每日經濟新聞
2026-03-20 08:48:03
公司負債數億元,男子2.72萬拍賣競得2000萬股權,優先購買權人提異議后被撤銷,高院已立案審查

公司負債數億元,男子2.72萬拍賣競得2000萬股權,優先購買權人提異議后被撤銷,高院已立案審查

紅星新聞
2026-03-20 18:01:07
宅基地確權“父改子”,今年辦最劃算!有兒子的家庭別錯過!

宅基地確權“父改子”,今年辦最劃算!有兒子的家庭別錯過!

另子維愛讀史
2026-03-17 22:07:26
布倫特原油突破107美元/桶

布倫特原油突破107美元/桶

每日經濟新聞
2026-03-20 18:05:02
湯姆張質疑山東衛視主持人大冰“雙標”且“認知有局限”

湯姆張質疑山東衛視主持人大冰“雙標”且“認知有局限”

歪歌社團
2026-03-20 01:23:37
亞足聯確認!亞洲6隊直通世界杯,中國女足排名逼近澳大利亞隊

亞足聯確認!亞洲6隊直通世界杯,中國女足排名逼近澳大利亞隊

何老師呀
2026-03-20 00:01:41
2026-03-20 21:47:00
四木相對論 incentive-icons
四木相對論
嘮嘮科技,看看世界
121文章數 2關注度
往期回顧 全部

科技要聞

新SU7只漲4千!雷軍:真怕交車慢挨罵

頭條要聞

頂樓從33層加蓋至35層 物業:開發商稱樓頂屬業主私有

頭條要聞

頂樓從33層加蓋至35層 物業:開發商稱樓頂屬業主私有

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典,“沈馬”CP再合體

財經要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅定

態度原創

教育
數碼
親子
藝術
時尚

教育要聞

浙大“尖子生作息表”被曝光:世界本不公平,你有多努力,就有多特殊!

數碼要聞

黑鯊風神Pro散熱器預約,到手僅399元!

親子要聞

萌娃知道老媽30歲了十分震驚,問到:老媽,你跟恐龍是哥們嗎?

藝術要聞

吳昌碩『圓扇花卉』清新俊逸

龍泉寶劍鍛制技藝傳承人鄒琦——以柔馭劍,冷鐵生花

無障礙瀏覽 進入關懷版