網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ChatGPT 智能體上線：AI 正式進(jìn)入自主完成任務(wù)的時(shí)代（附一次實(shí)測小案例）

2025-07-18 21:49:13　來源: AI變革

黑龍江舉報(bào)

分享至

今天，我讓 ChatGPT 幫我做一個(gè)小研究：對(duì)比三家新能源公司的技術(shù)路線，并整理成一份5頁的PPT。沒想到，它真的自己打開網(wǎng)頁查資料，把核心觀點(diǎn)提煉出來，再組織成一份結(jié)構(gòu)清晰、可以直接使用的演示文稿。除了圖表樣式稍顯基礎(chǔ)，整體完成度已經(jīng)遠(yuǎn)超預(yù)期。

這次我用的是剛上線的ChatGPT 智能體（ChatGPT Agent）功能。

原本我以為，這只是大模型的又一次“新瓶裝舊酒”。但真正使用后，我意識(shí)到：AI 正在跨過“生成內(nèi)容”這道門檻，開始接手人類完整的任務(wù)流。

OpenAI 明確表示，這不是一次簡單升級(jí)，而是首次將多個(gè)模塊能力打通，構(gòu)建統(tǒng)一的“執(zhí)行型AI系統(tǒng)”。

從“建議者”到“執(zhí)行者”：AI 角色正在發(fā)生根本變化

過去我們對(duì)AI的預(yù)期，通常停留在“聊天”層面——生成文案、回答問題、列出建議、編寫代碼片段。但 ChatGPT 智能體新增了幾個(gè)關(guān)鍵能力模塊：

可視化網(wǎng)頁瀏覽：能主動(dòng)點(diǎn)擊網(wǎng)頁、滾動(dòng)頁面、填寫表單；
虛擬計(jì)算環(huán)境：可運(yùn)行 Python 代碼、讀取本地文件、調(diào)用 API；
文檔與表格編輯：生成可直接使用的.pptx和.xlsx文件；
多工具協(xié)同：可在對(duì)話中靈活切換瀏覽器、終端、數(shù)據(jù)接口；
中斷與恢復(fù)機(jī)制：支持你在任何步驟插話或重新定義任務(wù)目標(biāo)。

那么究竟什么叫“智能體”？說得再簡單不過了：它不是一個(gè)聊天機(jī)器人，而是一個(gè)具備執(zhí)行能力的數(shù)字角色。

比如你說：“幫我看看最近有哪些公司在做腦機(jī)接口，并整理一份投資建議。”

普通的 ChatGPT 也許能用知識(shí)庫告訴你幾個(gè)名字，但 ChatGPT 智能體的做法是：

自己打開網(wǎng)頁搜索資料；
瀏覽新聞、公司官網(wǎng)、論文；
提取關(guān)鍵信息，做總結(jié)歸類；
寫成一份結(jié)構(gòu)清晰的分析文檔或PPT；
最后交給你，問一句：“要不要我繼續(xù)找其他競品？”

整個(gè)過程，它會(huì)主動(dòng)判斷該用什么工具（瀏覽器、API、代碼），中間卡住了也會(huì)問你：“你是想要側(cè)重財(cái)務(wù)數(shù)據(jù)還是技術(shù)路線？”

數(shù)據(jù)支持：它不僅能做，還做得比人好

OpenAI 提供了一系列標(biāo)準(zhǔn)化評(píng)估數(shù)據(jù)，來驗(yàn)證 ChatGPT 智能體的執(zhí)行能力：

DSBench（數(shù)據(jù)科學(xué)任務(wù)）：數(shù)據(jù)分析任務(wù)準(zhǔn)確率高達(dá)89.9%，超過人類（64.1%）；

SpreadsheetBench（電子表格任務(wù)）：在支持.xlsx操作下得分45.5%，是 GPT?4o 的兩倍；

投行建模任務(wù)：構(gòu)建財(cái)務(wù)模型得分達(dá)71.3%，優(yōu)于多數(shù)人類初級(jí)分析師；
WebArena（網(wǎng)頁任務(wù)）：瀏覽、查詢、提交等任務(wù)完成率達(dá)78.2%，與人類基本持平。

這些數(shù)據(jù)背后，代表的是一個(gè)現(xiàn)實(shí)趨勢：具備操作能力的AI正在變得可用、可靠，并開始具備“交付結(jié)果”的能力。

操作示范，我們用 AGI Layer 實(shí)測了一次

為了測試智能體的實(shí)際可操作性，我們做了個(gè)小實(shí)驗(yàn)。給出的指令是：“分析當(dāng)前 AI Agent 市場格局，列出主要競品，并提出三條營銷策略。”

運(yùn)行之后，它自動(dòng)打開網(wǎng)頁查找資料、提取關(guān)鍵信息、整合內(nèi)容邏輯，幾分鐘后就生成了一份結(jié)構(gòu)完整的策略草稿。雖然內(nèi)容還稱不上“深度分析”，但作為初步調(diào)研與文案起稿，已經(jīng)具備實(shí)用價(jià)值。

這個(gè)小案例讓我們真實(shí)感受到：ChatGPT 智能體確實(shí)可以跨過“建議”這一步，真正執(zhí)行任務(wù)流。

架構(gòu)升級(jí)：從 Operator 到智能體的融合進(jìn)化

ChatGPT 智能體并不是“空降式”的功能，它背后其實(shí)是 OpenAI 過去半年產(chǎn)品路線的延續(xù)與集成。

Operator：可模擬人類操作瀏覽器，實(shí)現(xiàn)網(wǎng)頁滾動(dòng)、點(diǎn)擊、輸入等；
Deep Research：可以進(jìn)行跨站點(diǎn)信息整合、生成結(jié)構(gòu)化摘要。

此次 Agent 的發(fā)布，是將這兩項(xiàng)功能合并，并配上全新的多工具調(diào)度機(jī)制，使得 ChatGPT 首次具備“對(duì)話—任務(wù)—工具”三者閉環(huán)的操作路徑。

你可以在一場對(duì)話中：

提出任務(wù) → 被理解 → 被拆解 → 被執(zhí)行 → 被交付。

用戶體驗(yàn)：協(xié)作性大幅提升

比起過去那種“一問一答”的交互方式，ChatGPT 智能體在使用體驗(yàn)上更像是一位虛擬合作者：

可以中途打斷指令，修改目標(biāo)；
可以追加背景信息，它會(huì)重新理解；
可以讓它停下、總結(jié)進(jìn)度、調(diào)整策略。

這種協(xié)作感非常關(guān)鍵。因?yàn)楝F(xiàn)實(shí)任務(wù)往往是“邊做邊想”，而不是一口氣下達(dá)完整的指令。

過去 AI 模型不具備這種上下文記憶與任務(wù)持續(xù)性，而現(xiàn)在，ChatGPT 智能體正是從這個(gè)方向出發(fā)，逐步實(shí)現(xiàn)“工作流參與者”的定位。

控制機(jī)制：會(huì)執(zhí)行，更要可控

當(dāng) AI 開始實(shí)際執(zhí)行任務(wù)，安全與責(zé)任邊界成為必須解決的問題。

OpenAI 在 ChatGPT 智能體中引入了三重機(jī)制：

操作前確認(rèn)：所有“提交-購買-登錄”類操作需用戶授權(quán)；
Watch Mode 監(jiān)控模式：任務(wù)執(zhí)行過程中用戶可實(shí)時(shí)查看每一步；
任務(wù)過程透明可控：用戶隨時(shí)中斷、修改，或重設(shè)任務(wù)目標(biāo)。

此外，ChatGPT 智能體目前不啟用“長期記憶”功能，避免數(shù)據(jù)在多任務(wù)之間混用，降低信息泄露風(fēng)險(xiǎn)。

AI 的“做事能力”正在落地

ChatGPT 智能體的發(fā)布，意味著 AI 正式走出“內(nèi)容生成”階段，開始進(jìn)入“任務(wù)完成”階段。

這不僅改變了我們與AI的關(guān)系，也正在改變整個(gè)軟件產(chǎn)品設(shè)計(jì)邏輯——從“工具使用者”變成“任務(wù)委托者”。而像 AGI Layer 這樣的工具，則讓這種能力變得可以復(fù)制、封裝、分發(fā)，形成面向個(gè)人與中小企業(yè)的“輕自動(dòng)化工具棧”。

未來真正有價(jià)值的AI，是真正能完成你交代的每一件事的合作者。

專注 AI × 生產(chǎn)力工具趨勢，關(guān)注大模型落地、SaaS演進(jìn)與人機(jī)協(xié)作方式變革。如你有使用 ChatGPT Agent 的真實(shí)場景，歡迎留言交流你的經(jīng)驗(yàn)和感受。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.