![]()
過去幾周,我們見證了OpenAI旗艦級大語言模型從GPT-5.3迭代到GPT-5.4。可以將這些模型視為驅(qū)動AI計(jì)算的引擎。每次代際躍升通常會帶來性能和準(zhǔn)確性的提升。
實(shí)際的發(fā)布情況如果沒有記分卡可能會有些難以跟蹤。3月5日,OpenAI發(fā)布了GPT-5.4 Thinking,這是一個高性能的深度思考模型。兩天前,該公司發(fā)布了GPT-5.3(不是5.4)Instant模型,該模型"讓日常對話變得更加一致地有用和流暢",但不一定更準(zhǔn)確。
本周,OpenAI發(fā)布了GPT-5.4 mini和GPT-5.4 nano模型。這些模型專為快速、高效、大容量的AI工作負(fù)載而設(shè)計(jì)。它們基本上是經(jīng)濟(jì)型大語言模型產(chǎn)品。
對于許多AI工作流程來說,最有效的模型是能夠平衡強(qiáng)大性能、快速響應(yīng)和可靠工具使用的模型。
據(jù)OpenAI表示,"這些模型專為那些延遲直接影響產(chǎn)品體驗(yàn)的工作負(fù)載而構(gòu)建:需要響應(yīng)迅速的編碼助手、快速完成支持任務(wù)的智能體、捕獲和解釋屏幕截圖的計(jì)算機(jī)使用系統(tǒng),以及能夠?qū)崟r推理圖像的多模態(tài)應(yīng)用程序。"
該公司表示,"在這些環(huán)境中,最好的模型往往不是最大的那個——而是能夠快速響應(yīng)、可靠使用工具,并在復(fù)雜專業(yè)任務(wù)上仍能表現(xiàn)良好的模型。"
與GPT-5 mini相比,GPT-5.4 mini在編碼、推理、多模態(tài)理解和工具使用方面都有提升。該模型的運(yùn)行速度是GPT-5 mini的兩倍多。
GPT-5.4 nano是最小、最快的模型,專門針對分類、提取、排名和簡單編碼支持任務(wù)。
在考慮更小、更便宜的模型時,性能是決定因素。買家想知道他們的投資回報到底有多少。為了說明這種性能表現(xiàn),OpenAI展示了相比幾個月前發(fā)布的模型有顯著優(yōu)勢:
GPT-5.4 mini在基準(zhǔn)測試通過率方面接近GPT-5.4級別,同時提供更快的執(zhí)行速度。換句話說,更小、更輕的GPT-5.4 mini模型在衡量模型是否正確解決問題的基準(zhǔn)測試("通過率")上表現(xiàn)幾乎與完整的GPT-5.4模型一樣好。
GPT-5.4 nano處于中間位置。例如,它在SWE-bench Pro上得分52.39%,在Terminal Bench 2.0上得分46.30%,雖然不如GPT-5.4 mini高,但仍然比GPT-5 mini好得多。
技術(shù)專家公司Hebbia構(gòu)建幫助專業(yè)人士使用自然語言挖掘大量文檔集合的工具。他們的產(chǎn)品吸引了金融、法律和研究等領(lǐng)域的用戶,在這些領(lǐng)域,同時分析多個文檔并從中獲得見解的能力特別有用。
Hebbia首席技術(shù)官Aabhas Sharma表示:"GPT-5.4 mini為這一級別的模型提供了強(qiáng)大的端到端性能。在我們的評估中,它在多個輸出任務(wù)和引用回憶方面匹配或超越了競爭模型,成本卻低得多。它還比更大的GPT-5.4模型實(shí)現(xiàn)了更高的端到端通過率和更強(qiáng)的來源歸屬。"
數(shù)字工作空間Notion是互聯(lián)網(wǎng)生產(chǎn)力愛好者的寵兒。我正在我的Notion工作空間中寫這篇文章。該技術(shù)為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提供了一個家。你也可以使用Notion構(gòu)建用于信息管理的無代碼迷你應(yīng)用程序。
Notion AI工程負(fù)責(zé)人Abhisek Modi說:"GPT-5.4 mini以令人印象深刻的精確度處理專注、明確定義的任務(wù)。特別是在編輯頁面方面,它在處理復(fù)雜格式化時匹配并經(jīng)常超越GPT-5.2,而計(jì)算量只是后者的一小部分。"
Modi繼續(xù)說:"直到最近,只有最昂貴的模型才能可靠地處理智能體工具調(diào)用。今天,像GPT-5.4 mini和nano這樣的較小模型可以輕松處理它,這將讓我們的用戶在Notion上構(gòu)建自定義智能體時可以精確選擇他們需要的智能程度。"
當(dāng)你開始研究智能體如何適應(yīng)整個生態(tài)系統(tǒng)時,很明顯AI可以被構(gòu)建來鏡像現(xiàn)實(shí)世界的人類操作。例如,你可以將更強(qiáng)大的AI模型(如GPT-5.4 Thinking)與更快、更便宜的模型(如GPT-5.4 mini)結(jié)合起來,就像你可能有一個高級工程師管理一個初級工程師團(tuán)隊(duì)一樣。
智能體系統(tǒng)可以組合不同大小的模型,大模型規(guī)劃任務(wù),小模型執(zhí)行子任務(wù)。在這種情況下,GPT-5.4 mini可以處理子智能體工作,如搜索代碼庫、審查文件和處理文檔。
OpenAI說:"GPT-5.4 mini在多模態(tài)任務(wù)上也很強(qiáng)大,特別是與計(jì)算機(jī)使用相關(guān)的任務(wù)。該模型可以快速解釋密集用戶界面的屏幕截圖,以快速完成計(jì)算機(jī)使用任務(wù)。"
GPT-5.4 mini在API、Codex和ChatGPT版本中都可用。對于免費(fèi)和Go層用戶,GPT-5.4 mini可通過加號菜單中的"思考"選項(xiàng)訪問。OpenAI說:"對于所有其他用戶,GPT-5.4 mini可作為GPT-5.4 Thinking的速率限制回退。"
該公司表示,對于程序員,GPT-5.4 mini在Codex應(yīng)用程序、CLI、IDE擴(kuò)展和網(wǎng)絡(luò)中都可用。OpenAI說,mini模型"只使用GPT-5.4配額的30%,讓開發(fā)者在Codex中快速處理簡單的編碼任務(wù),成本約為三分之一。"此外,Codex還可以委托給GPT-5.4 mini子智能體,讓推理強(qiáng)度較低的工作在成本較低的模型上運(yùn)行。
從成本對比可以看出差異顯著:
相比之下,GPT-5.4的定價為每百萬輸入Token 2.50美元,每百萬輸出Token 15.00美元。這要貴得多。如果你試圖控制成本并且不需要額外的處理能力,使用mini和nano模型是有意義的。
Q&A
Q1:GPT-5.4 mini相比GPT-5 mini有哪些改進(jìn)?
A:GPT-5.4 mini在編碼、推理、多模態(tài)理解和工具使用方面都有提升,運(yùn)行速度是GPT-5 mini的兩倍多,在基準(zhǔn)測試通過率方面接近GPT-5.4級別,同時成本更低。
Q2:GPT-5.4 nano適合什么樣的任務(wù)?
A:GPT-5.4 nano是最小、最快的模型,專門針對分類、提取、排名和簡單編碼支持任務(wù)設(shè)計(jì),在SWE-bench Pro上得分52.39%,在Terminal Bench 2.0上得分46.30%。
Q3:如何在智能體系統(tǒng)中使用這些不同規(guī)模的模型?
A:智能體系統(tǒng)可以組合不同大小的模型,大模型如GPT-5.4 Thinking負(fù)責(zé)規(guī)劃任務(wù),小模型如GPT-5.4 mini執(zhí)行子任務(wù),比如搜索代碼庫、審查文件和處理文檔等工作。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.