337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

親測(cè)OpenAI o3的10個(gè)案例,20美金/月雇跨學(xué)科博士做助理

0
分享至


一直以來(lái),OpenAI 的o1模型都是推理模型的巔峰,其DeepResearch功能就是憑借o系列的基座能力,在市場(chǎng)上贏得了口碑。

不過(guò),可能生成報(bào)告的模式,讓大家始終覺(jué)得搜索升級(jí)沒(méi)啥看頭,大家很難體會(huì)AI的研究能力。

在昨晚發(fā)布的o3和o4、o4 mini模型中,實(shí)現(xiàn)了以下能力的躍遷:

整體推理能力:對(duì)真實(shí)、復(fù)雜任務(wù)的專家打分顯示,o3 的重大錯(cuò)誤比上一代?o1?少?≈20?% ?視覺(jué)多模態(tài):在大學(xué)水平的多學(xué)科視覺(jué)推理基準(zhǔn)?MMMU,o3 82.9?%?→?GPT?4 34.9?%,絕對(duì)提升?≈48?分,相當(dāng)于 2.4?× 的相對(duì)提升 ?競(jìng)賽數(shù)學(xué):AIME?2024 單次作答 o3 91.6?%,而 GPT?4o 只有 12?% 左右,提升 >7?× ?上下文長(zhǎng)度:o3 200?k 輸入窗口?vs?GPT?4 8?k,且輸入/輸出 token 價(jià)格僅為 GPT?4 的約 1/3?2/3

AI呈現(xiàn)了一定程度的研究能力,為了能讓大家更直觀感受到大模型在各個(gè)領(lǐng)域場(chǎng)景下,高水平處理任務(wù)的能力。

鯨哥實(shí)測(cè)了10個(gè)案例,我們能看到o3的分步推理思考過(guò)程,很多復(fù)雜的問(wèn)題真正在研究,以及利用工具解決!


1、化身福爾摩斯,看圖猜測(cè)背景信息:

鯨哥在o3上傳了一張菜單,要求ChatGPT猜出來(lái)是哪家飯店。


可以看到o3分析了菜品和價(jià)格,并搜索了大眾點(diǎn)評(píng)的數(shù)據(jù),提出指紋式的菜名+價(jià)格組合只有在四季民福出現(xiàn),最終答對(duì)了!


2、識(shí)別圖片內(nèi)容信息,成為植物學(xué)家:

識(shí)圖能力在此前的眾多大模型中都已經(jīng)具備,但這次是給大模型加大難度,用一大束花,讓GPT識(shí)別都有哪些花束。


最終o3識(shí)別出了8種主要的花束,展現(xiàn)了對(duì)復(fù)雜內(nèi)容的理解。


3、做考公 圖推題,o3當(dāng)小學(xué)題題目做

在考公題目中,經(jīng)常有圖推題出現(xiàn)。這些題目往往具有一定的難度,考驗(yàn)?zāi)P蛯?duì)圖片理解以及意識(shí)推理的能力。


這道考公題并不容易,GPT用幾種形狀來(lái)找規(guī)律,最終選擇了答案D。當(dāng)然,這道題也有爭(zhēng)議,粉筆網(wǎng)給出的答案是D,但很多人認(rèn)為是B。

只是19秒做完這題,o3估計(jì)覺(jué)得這題沒(méi)多復(fù)雜,都是小學(xué)生題。


4、數(shù)學(xué)計(jì)算能力更強(qiáng),重大錯(cuò)誤比o1強(qiáng)20%

在數(shù)學(xué)計(jì)算中,此前o1開始計(jì)算哥德巴赫猜想,讓大家吃了一驚。當(dāng)然,也沒(méi)有計(jì)算出來(lái),卻顯示出推理大模型的強(qiáng)悍之處。

鯨哥拿一道DeepSeeK做錯(cuò)的數(shù)學(xué)題,考驗(yàn)o3的進(jìn)化能力。


這道題不太難,但是DS的幻覺(jué)率需要人為矯正。


而o3很快就得出了正確答案,數(shù)學(xué)題是推理模型的阿克琉斯之踵,o3有進(jìn)步。


5、調(diào)用OpenAI內(nèi)部工具,除了不能做視頻

在這里,我們先讓o3深度調(diào)研下『2025年北京夏天可能火的食物』這一主題。o3從全網(wǎng)內(nèi)容中獲取了最新的5款食物銷量,得出了結(jié)論。


o3最看好 乳茶2.0這款產(chǎn)品,接著讓o3做一張輕乳茶2.0的宣傳海報(bào),o3會(huì)思考任務(wù)交代中沒(méi)有明確提示要Midjourney生成,那就是不僅要生成Prompt,還需要調(diào)用4o模型直接生成圖片。


接著我們讓o3直接生成輕乳茶的電商網(wǎng)頁(yè),以動(dòng)態(tài)可視化的HTML網(wǎng)頁(yè)形式運(yùn)行?,F(xiàn)在GPT還可以直接運(yùn)行代碼,實(shí)時(shí)預(yù)覽,很方便。


可以看到右下角還有修復(fù)提示,這也是本次o3的重要提升,當(dāng)它意識(shí)到程序有Bug時(shí),就會(huì)實(shí)時(shí)提示可以修復(fù)真實(shí)代碼,這對(duì)于AI編程落地很關(guān)鍵。



6、創(chuàng)意視頻生成,后續(xù)結(jié)合Sora才有前景

o3其實(shí)作為L(zhǎng)LM,本身不支持生成視頻,但是我們還是要求他生成視頻,考驗(yàn)它解決問(wèn)題的思路,這里鯨哥給到的是飛機(jī)和魚的創(chuàng)意故事。


o3是逐幀生成了圖片,然后做成gif形式的視頻。

可以看到最終生成的視頻內(nèi)容,是一架飛機(jī)路過(guò),伸出了魚鉤,釣起魚飛走了。這個(gè)創(chuàng)意讓我想起來(lái)一個(gè)歌:『海鳥與魚相愛(ài),只是一場(chǎng)意外』


7、代碼能力和真實(shí)物理能力測(cè)試

這次公告中,官方稱在“修 bug”基準(zhǔn)?SWE中,o3 解決?69.1?% 問(wèn)題,而 GPT?4o 只解決 33?%左右,代碼能力 ≈2?倍提升。

實(shí)測(cè)中,生成代碼的審美確實(shí)沒(méi)什么進(jìn)步,以下是o3生成的100個(gè)小球碰撞的物理實(shí)驗(yàn),這個(gè)效果差強(qiáng)人意。


和下圖對(duì)比看,相比o1的還遜色不少,o系列模型確實(shí)在代碼編程方面,始終沒(méi)有超越Claude3.7。尤其前端UI這塊,水平還是差不少,GPT-4.1也不行。



8、科技商業(yè)問(wèn)題推理,最終寫成文章

在這道題中,鯨哥用比較有門檻的科技商業(yè)文作為寫作題目,而且要求中間插入數(shù)據(jù)分析以及戰(zhàn)略路徑歸納,最終得出結(jié)論。


生成的分析深度還可以,只是沒(méi)學(xué)會(huì)吳曉波老師的文筆。

一直以來(lái),ChatGPT的寫作能力都略遜Claude3.7,從目前看,語(yǔ)言的風(fēng)格化以及潤(rùn)色程度,比3.7確實(shí)還有距離,但是數(shù)據(jù)和邏輯分析,以及概念的引用都不錯(cuò)。像是個(gè)不經(jīng)常寫文章,而是經(jīng)常做研究的博士,寫出來(lái)比較硬的內(nèi)容。


9、視頻分析能力,對(duì)多媒體的理解能力

我們?cè)赮outube上找了個(gè)萬(wàn)人大合唱的合集,然后讓他分析這是什么內(nèi)容,以及為什么能爆火。


o3解讀出了都包括哪些歌,然后分析了爆火的底層邏輯。感覺(jué)對(duì)于IP孵化類博主是個(gè)福音,大家以后能用o3直接寫爆款分析課程了。


10、生成深度研究報(bào)告,o3表現(xiàn)更好

我們調(diào)用o3模型的深度思考能力,生成了一份行業(yè)報(bào)告。o3用了不到20分鐘生成了這份1萬(wàn)多字的報(bào)告。


還是先思考后搜索的思路,內(nèi)容較o1版也有一定程度的提升。

報(bào)告全文在這里:https://chatgpt.com/share/6800bf78-bac8-8005-82e4-07c686e121e6

o4mini更適合批量客服回答等強(qiáng)調(diào)性價(jià)比場(chǎng)景,所以本文沒(méi)有測(cè)試。Altman還提到,o3 Pro版本將在未來(lái)幾周內(nèi)到達(dá),能力應(yīng)該比本文測(cè)試的o3更強(qiáng),但也意味著價(jià)格更貴。

在Plus賬號(hào)中,你能大范圍使用ChatGPT 的所有能力,尤其o3的20美金每月費(fèi)用,相當(dāng)于花近200多元雇傭了一個(gè)跨學(xué)科博士生在身邊做助理,大家覺(jué)得值不值呢?

視頻內(nèi)容推薦:

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

許三歲
2026-04-07 13:28:38
中日車企對(duì)決泰國(guó)車展,日系車被干沉默了

中日車企對(duì)決泰國(guó)車展,日系車被干沉默了

財(cái)經(jīng)老莊
2026-04-07 06:25:54
伊朗接受巴基斯坦提出的?;鹛嶙h

伊朗接受巴基斯坦提出的?;鹛嶙h

環(huán)球網(wǎng)資訊
2026-04-08 07:11:11
贏福建9分!遼寧隊(duì)還有3大收獲,烏戈樂(lè)開了花

贏福建9分!遼寧隊(duì)還有3大收獲,烏戈樂(lè)開了花

體育哲人
2026-04-07 23:22:02
為何這么激動(dòng)?賽后烏戈一口氣表?yè)P(yáng)和感激了4名隊(duì)員,一人反復(fù)夸

為何這么激動(dòng)?賽后烏戈一口氣表?yè)P(yáng)和感激了4名隊(duì)員,一人反復(fù)夸

南海浪花
2026-04-08 07:32:17
孔帕尼:整場(chǎng)比賽感覺(jué)像是在刀尖上,可能隨時(shí)會(huì)向一方傾斜

孔帕尼:整場(chǎng)比賽感覺(jué)像是在刀尖上,可能隨時(shí)會(huì)向一方傾斜

懂球帝
2026-04-08 08:34:03
國(guó)羽亞錦賽爆冷!全英冠軍退賽混雙衛(wèi)冕冠軍出局,馮彥哲釋疑減重

國(guó)羽亞錦賽爆冷!全英冠軍退賽混雙衛(wèi)冕冠軍出局,馮彥哲釋疑減重

排球黃金眼
2026-04-07 23:51:04
17分大逆轉(zhuǎn),騎士鎖定前四!哈登攜5人缺陣施羅德22+11助強(qiáng)勢(shì)自證

17分大逆轉(zhuǎn),騎士鎖定前四!哈登攜5人缺陣施羅德22+11助強(qiáng)勢(shì)自證

鍋?zhàn)踊@球
2026-04-07 12:35:32
顧順章叛變后,直接出賣了四個(gè)負(fù)責(zé)人,第一個(gè)就讓整個(gè)中統(tǒng)傻了眼

顧順章叛變后,直接出賣了四個(gè)負(fù)責(zé)人,第一個(gè)就讓整個(gè)中統(tǒng)傻了眼

冰語(yǔ)歷史
2026-04-08 00:16:01
災(zāi)難!拜仁巨星全場(chǎng)擺爛,安聯(lián)王牌親手送皇馬生機(jī)

災(zāi)難!拜仁巨星全場(chǎng)擺爛,安聯(lián)王牌親手送皇馬生機(jī)

瀾歸序
2026-04-08 06:00:16
朝鮮兩名高官發(fā)動(dòng)兵變?yōu)閺埑蓾蓤?bào)仇,因細(xì)節(jié)敗露,金正恩一招鎮(zhèn)壓

朝鮮兩名高官發(fā)動(dòng)兵變?yōu)閺埑蓾蓤?bào)仇,因細(xì)節(jié)敗露,金正恩一招鎮(zhèn)壓

阿胡
2024-04-30 11:48:45
密歇根大學(xué)NCAA奪冠!四大主力都將會(huì)是今年NBA首輪秀?

密歇根大學(xué)NCAA奪冠!四大主力都將會(huì)是今年NBA首輪秀?

仰臥撐FTUer
2026-04-07 12:22:05
香蕉被點(diǎn)名!醫(yī)生提醒:高血糖患者常吃香蕉,很快或迎來(lái)這些后果

香蕉被點(diǎn)名!醫(yī)生提醒:高血糖患者常吃香蕉,很快或迎來(lái)這些后果

白話電影院
2026-04-07 20:07:56
誰(shuí)能被稱為“黨的創(chuàng)始人”,僅此12人!

誰(shuí)能被稱為“黨的創(chuàng)始人”,僅此12人!

兵卒史
2026-03-22 08:43:17
最懂蔣介石的侍衛(wèi)長(zhǎng)晚年直言:蔣最大的失誤,就是接受雅爾塔協(xié)定

最懂蔣介石的侍衛(wèi)長(zhǎng)晚年直言:蔣最大的失誤,就是接受雅爾塔協(xié)定

浩渺青史
2026-04-07 18:33:32
利物浦血虧!7500 萬(wàn)歐棄將伯納烏封神,紅軍腸子都悔青了

利物浦血虧!7500 萬(wàn)歐棄將伯納烏封神,紅軍腸子都悔青了

瀾歸序
2026-04-08 05:16:19
特朗普“首次承認(rèn)被黑吃黑”,被點(diǎn)名的庫(kù)爾德火速否認(rèn)三連

特朗普“首次承認(rèn)被黑吃黑”,被點(diǎn)名的庫(kù)爾德火速否認(rèn)三連

觀察者網(wǎng)
2026-04-07 14:42:00
這下嚴(yán)重了!三大運(yùn)營(yíng)商2025年移動(dòng)A...

這下嚴(yán)重了!三大運(yùn)營(yíng)商2025年移動(dòng)A...

新浪財(cái)經(jīng)
2026-04-07 20:10:59
車主福音!交管12123大更新,違章不拖沓,4次免罰到底能不能用?

車主福音!交管12123大更新,違章不拖沓,4次免罰到底能不能用?

周哥一影視
2026-04-08 06:33:14
銀行被炸,導(dǎo)致伊朗軍方工資無(wú)法發(fā)放

銀行被炸,導(dǎo)致伊朗軍方工資無(wú)法發(fā)放

桂系007
2026-04-05 23:37:29
2026-04-08 09:03:00
鯨選AI incentive-icons
鯨選AI
最新AI產(chǎn)品化與商業(yè)化案例速遞
146文章數(shù) 36關(guān)注度
往期回顧 全部

科技要聞

造出地表最強(qiáng)AI,卻死活不給你用!

頭條要聞

鄭麗文表態(tài):感謝大陸熱情接待 國(guó)民黨堅(jiān)持"九二共識(shí)"

頭條要聞

鄭麗文表態(tài):感謝大陸熱情接待 國(guó)民黨堅(jiān)持"九二共識(shí)"

體育要聞

科特迪瓦中場(chǎng)卡迪爾-凱塔被控過(guò)失殺人罪,面臨九年以上監(jiān)禁

娛樂(lè)要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財(cái)經(jīng)要聞

特朗普同意?;饍芍?伊朗:接受停火提議

汽車要聞

不止是大 極狐首款MPV問(wèn)道V9靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
本地
時(shí)尚
公開課

數(shù)碼要聞

售價(jià)413元!蘋果官網(wǎng)上架iPhone斜挎包:可放置AirTag追蹤器

房產(chǎn)要聞

重磅!三亞擬出安居房新政!

本地新聞

跟著歌聲游安徽,聽古村回響

闊腿褲失寵了?今年這幾條褲子最時(shí)髦!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版