337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

GPT-5.4 發布,OpenClaw的能力要被取代?OpenAI 新模型不僅會自己用電腦,編程能力也拉滿了

0
分享至


編譯 | Tina

今天,GPT-5.4 發布,那個熟悉的 OpenAI 又回來了。

GPT-5.4 是一款新的前沿模型,把 OpenAI 過去一段時間在推理能力(GPT-5.2)、頂級編程能力(GPT-5.3-Codex)以及原生計算機使用能力上的進展,整合到了同一個版本里。

這次發布的分量很重,光是“原生電腦操作”這一點,就已經足夠吸引眼球,而當它再疊加頂級的專業知識工作能力、100 萬 token 的上下文窗口,以及明顯提升的工具使用效率時,對所有希望用 AI 工作、與 AI 協作,或者基于 AI 搭建系統的人來說,這都意味著一次真正意義上的能力躍升。

OpenAI 開始搶 OpenClaw 的地盤?

在這個新模型上,最大的變化就是原生電腦操作能力的到來。OpenAI 的原話是,GPT-5.4 是其“首個原生具備電腦操作能力的通用模型”。


OSWorld Verified 的 computer use 基準測試上從 47.3% 提升到了 75%,而 BrowseComp 的準確率從 65.8% 提升至 82.7%。

這不只是“跑幾個 shell 命令”那么簡單,真正的意義在于:它可以進入你的桌面、訪問網頁,基本上能夠在你的電腦上完成很多原本只有人來操作的事情,而這些事通常是我們平時通過網頁端 ChatGPT 做不到的。

尤其是像 OpenClaw 這樣的產品,在最近幾個月,甚至可以說最近幾周,突然變得非常火,核心原因就在于,它已經改變了我們使用 AI 模型的方式。過去,我們更多只是停留在網頁端,通過 web app 和模型對話,電腦本地幾乎沒有真正參與進來。但現在,這種局面已經從根本上發生了變化。

從 OpenAI 給出的示例中,我們可以看到 GPT-5.4 可以熟練使用計算機,包括查看瀏覽器用戶界面截圖、點擊界面、發送電子郵件以及安排日歷。

另一個新的實驗功能 “Playwright (Interactive)”,允許 Codex 實時進行 Web 和 Electron 應用的可視化調試,甚至能在構建應用的同時直接測試——這正是借助它的原生電腦操作能力實現的。

OpenAI 研究員 SQ Mah 表示,這背后主要有兩項關鍵能力支撐:一是 CUA(computer use,計算機操作能力),二是通過圖像輸入生成高質量網站的能力。

與 GPT-5.3 Codex 相比,GPT-5.4 在使用 CUA 時,不再需要額外拉起一個全新的環境來執行操作。在 3D 游戲中,CUA 會自己點擊游戲界面,移動象棋位置,甚至通過實際操作來驗證規則是否正確生效。

在網站生成場景中,模型會調用 image gen 工具,生成圖片,然后通過 CUA 來檢查自己的工作:打開生成的圖片、檢查圖片內容、打開網站頁面也看一遍,然后把它們并排對比,確保生成的網站盡可能接近輸入的那張圖。

SQ Mah 還強調說,通過持久化的 CUA,他們發現,在一些讓模型測試自己工作的場景中,token 使用量實際上下降了三分之二。

其實,OpenAI 早在去年 1 月就推出了 CUA,但出于安全性和準確性的考量,這個項目并沒有真正被重視起來。



甚至一度讓人懷疑,OpenAI 是否已經放棄了這條路線。特別是在 GPT-4o 等項目吸引了幾乎全部關注的那段時間里,CUA 基本處于一種“銷聲匿跡”的狀態。


他們是不是放棄這個項目了?現在一點消息都沒有了。我其實一直在用 Azure/OpenAI,它已經預覽好幾個月了。雖然我申請了,但一直沒能獲得批準。


與 GPT-4o 等項目鋪天蓋地的宣傳相比,CUA 基本上銷聲匿跡了。而且它目前仍處于預覽階段,這意味著訪問權限受到嚴格限制,許多人甚至都無法嘗試...... 不過我不認為這條路線已經失敗。一旦“瀏覽器優先”的方案在穩定性、隱蔽性以及內置安全機制上真正成熟,它很可能會成為 agent 工作流的一次重大躍遷。

但從今天 GPT-5.4 的發布來看,情況顯然變了。OpenAI 不僅重新把這項能力帶回到臺前,還在 GitHub 上新發布了一些的 CUA sample app。


CUA 讓 ChatGPT 5.4 可以直接使用我們的電腦,這一點和 OpenClaw 的思路非常接近:本質上,大家都在爭奪同一個入口——讓 AI 直接使用電腦,而不再繼續受限于 API 和聊天窗口。不同的是,OpenClaw 更像是在模型之外搭建的一層 computer-use 框架,而 GPT-5.4 走得更直接:它把電腦操作能力原生整合進了模型本身。

這意味著,一旦模型自身已經具備了這類能力,而且還能被各種軟件、平臺和企業系統直接集成調用,它的競爭力就會迅速放大。對于那些年營收做到千萬、上億,甚至百億的公司來說,它們完全可以基于這樣的模型能力,做出自己的“OpenClaw 版本”——而且往往會更安全、更快,也更可靠。

從這個角度看,OpenClaw 這樣的開源項目依然很有價值,因為它們率先驗證了“AI 直接使用電腦”這條路線;但當模型廠商開始把這種能力原生做進模型里,整個競爭的重心就會發生變化。大家比拼的將不再只是一個外部框架,而是誰能更快把這項能力產品化、平臺化,并真正接入真實工作流。

所以在 agentic AI 能力這件事上,現在確實是一個非常令人興奮的階段。

一邊降成本,一邊降幻覺

這次升級明顯是在“照顧開發者和重度用戶”,其中一個關鍵原因是 GPT-5.4 帶來了工具搜索(tool search):模型不再把所有工具的完整定義一次性塞進上下文(這可能導致每次請求額外燒掉數萬 token),而是只拿到一個輕量列表,需要用哪個工具時再按需檢索具體定義。

在 Scale 的 MCP Atlas 基準中,啟用 36 個 MCP 服務器、測試 250 個任務時,tool-search 配置在不降低準確率的情況下,把總 token 使用量減少了 47%。對構建大型 agent 系統的開發者來說,這幾乎等同于:成本更低、響應更快。


幻覺問題也顯著下降。按 OpenAI 的說法,GPT-5.4 的單條事實陳述比 GPT-5.2 更不容易出錯(錯誤概率降低 33%),整體回答包含錯誤的概率也降低了 18%——這對依賴準確輸出的專業用戶來說,是非常實用的一次升級。

與此同時,在 Harvey 的 BigLaw Bench(法律文檔評測)中,GPT-5.4 的準確率達到了 91%。


編程能力也更強了

GPT-5.4 現在也成為 OpenAI 的主力編程模型——在大多數任務中,你不再需要在 ChatGPT 與 Codex 之間糾結選哪一個。


它在 SWE-Bench Pro 上與 GPT-5.3-Codex 持平或更強,同時也更快,尤其是在較低推理強度設置下。在對話里,你可以直接開始寫代碼,無需額外選擇。


Codex 還新增了 fast mode,在所有支持的模型上帶來最高 1.5 倍速度提升。OpenAI 還強調 GPT-5.4 在復雜前端任務上明顯更強,輸出既更精致好看,也更符合功能正確性。這一點,也已經從不少開發者的實際反饋中得到了印證。



能力升級,價格也升級

在 API 中,OpenAI 表示 GPT-5.4 Thinking 對應的模型名稱為 gpt-5.4,而 GPT-5.4 Pro 則對應 gpt-5.4-pro。價格如下:

GPT-5.4:

  • 輸入:$2.50 / 每 100 萬 token

  • 輸出:$15 / 每 100 萬 token

GPT-5.4 Pro:

  • 輸入:$30 / 每 100 萬 token

  • 輸出:$180 / 每 100 萬 token

從整體來看,與目前市面上的模型相比,GPT-5.4 在 API 運行成本上屬于較高的一檔,如下表所示。


還有一個重要變化:在 GPT-5.4 中,如果請求的 輸入 token 超過 272,000,費用將按正常價格的 2 倍計算,這反映了它支持比以往模型更大的提示上下文。

在 Codex 中,默認的 compaction(壓縮)上限是 272k token。只有當輸入超過 272k 時,才會觸發更高的長上下文價格。這意味著開發者只要把提示控制在這個范圍內,就不會觸發額外費用;如果需要更長上下文,也可以通過提高 compaction 上限來實現,但只有這些更大的請求才會按更高費率計費。

OpenAI 發言人還表示,在 API 中 最大輸出長度為 128,000 token,與之前的模型保持一致。

至于為什么 GPT-5.4 的基礎價格更高,OpenAI 的解釋主要有三個原因:

  1. 在復雜任務上的能力顯著提升,包括編程、計算機操作、深度研究、高級文檔生成和工具調用等;

  2. 來自 OpenAI 技術路線圖的一系列研究突破;

  3. 推理效率更高,在完成相同任務時需要更少的推理 token。

同時他們也強調,即使價格有所上調,GPT-5.4 的定價仍然低于許多同級別的前沿模型。

https://openai.com/zh-Hans-CN/index/computer-using-agent/

https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/

https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for

聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

會議推薦

2026,AI 正在以更工程化的方式深度融入軟件生產,Agentic AI 的探索也將從局部試點邁向體系化工程建設!

QCon 北京 2026 已正式啟動,本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線,推動技術探索從「AI For What」真正落地到可持續的「Value From AI」。從前沿技術雷達、架構設計與數據底座、效能與成本、產品與交互、可信落地、研發組織進化六大維度,系統性展開深度探索。開往 2026 的 Agentic AI 專列即將啟程!匯聚頂尖專家實戰分享,把 AI 能力一次夯到位!

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普裝都懶得裝了,坦白奪島就是為了伊朗石油,誰反對就是蠢貨

特朗普裝都懶得裝了,坦白奪島就是為了伊朗石油,誰反對就是蠢貨

阿龍聊軍事
2026-03-30 17:26:57
強雷雨+10級大風將襲,珠海:立即停止戶外活動和作業

強雷雨+10級大風將襲,珠海:立即停止戶外活動和作業

界面新聞
2026-03-30 09:24:18
北京今夜有雨!

北京今夜有雨!

首都之窗
2026-03-30 14:43:02
攤牌了!以色列給伊朗下最后通牒,平民緊急撤離,大戰要徹底掀桌

攤牌了!以色列給伊朗下最后通牒,平民緊急撤離,大戰要徹底掀桌

老馬拉車莫少裝
2026-03-27 22:37:51
新型出軌正在蔓延,啥也不干,比婚外情更傷人

新型出軌正在蔓延,啥也不干,比婚外情更傷人

十點讀書
2026-03-29 18:36:35
67歲王朔現狀:只能死在這兒了,女兒不讓死屋里,怕房子不好賣

67歲王朔現狀:只能死在這兒了,女兒不讓死屋里,怕房子不好賣

談史論天地
2026-03-27 17:05:03
公司不敢明說:45歲以上的員工,其實是最難辭退的

公司不敢明說:45歲以上的員工,其實是最難辭退的

中國民航人
2026-03-28 19:46:35
火箭大勝三喜臨門,申京狀態明顯回暖,兩替補低分高效

火箭大勝三喜臨門,申京狀態明顯回暖,兩替補低分高效

謝說籃球
2026-03-30 16:31:03
電池不耐用,2026 年 iPhone14系列能趕上換電池399活動嗎?

電池不耐用,2026 年 iPhone14系列能趕上換電池399活動嗎?

朱笑川
2026-03-28 21:35:18
哈梅內伊的終極反擊:用生命做誘餌,把美國這個巨人拖進了泥潭

哈梅內伊的終極反擊:用生命做誘餌,把美國這個巨人拖進了泥潭

百年歷史老號
2026-03-28 20:28:57
安徽一職業技術學院原黨總支書記嚴重違紀違法被開除黨籍和公職

安徽一職業技術學院原黨總支書記嚴重違紀違法被開除黨籍和公職

大閩門戶
2026-03-30 16:51:23
“半身裙”新穿法火出圈,配這4件上衣高級優雅,輕松擺脫路人感

“半身裙”新穿法火出圈,配這4件上衣高級優雅,輕松擺脫路人感

何有強
2026-03-30 16:09:27
離岸人民幣兌美元升破6.92

離岸人民幣兌美元升破6.92

每日經濟新聞
2026-03-30 08:41:06
西班牙宣布對參與美伊戰事的軍用飛機關閉領空

西班牙宣布對參與美伊戰事的軍用飛機關閉領空

每日經濟新聞
2026-03-30 15:35:32
美國的錢在中國叫“美元”,人民幣在國外叫什么?今天總算知道了

美國的錢在中國叫“美元”,人民幣在國外叫什么?今天總算知道了

小舟談歷史
2026-03-28 05:45:51
歐洲人在性方面有多開放?德國再創歷史!女廁所、女浴室隨便進了

歐洲人在性方面有多開放?德國再創歷史!女廁所、女浴室隨便進了

西樓知趣雜談
2026-03-24 14:38:30
55歲雪姨王琳cos冰雪女王炸場上海時裝周,這狀態是吃了防腐劑吧

55歲雪姨王琳cos冰雪女王炸場上海時裝周,這狀態是吃了防腐劑吧

觀魚聽雨
2026-03-29 16:26:45
人口告別世界第一?二孩催生無效后,國家終于向住房出手了

人口告別世界第一?二孩催生無效后,國家終于向住房出手了

豬小艷吖
2026-03-16 19:59:46
體育局正式宣布,陳夢正式上任,新崗位亮相,將與張繼科正面競爭

體育局正式宣布,陳夢正式上任,新崗位亮相,將與張繼科正面競爭

海棠未眠a
2026-03-30 15:26:24
名利雙收!張水華兩連冠后終獲得央媒認可 經濟學家:辭職了多好

名利雙收!張水華兩連冠后終獲得央媒認可 經濟學家:辭職了多好

念洲
2026-03-30 07:27:09
2026-03-30 18:15:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1397文章數 143關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

時尚
家居
教育
房產
軍事航空

來到1980的周也,好毛利蘭

家居要聞

東方法式美學 現代簡約

教育要聞

五年級狀元題,求面積,會的不多

房產要聞

32億,三開三罄!誰在硬控海口樓市高端局?

軍事要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

無障礙瀏覽 進入關懷版