337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

提示詞工程、上下文工程都過時(shí)了,現(xiàn)在是 Harness Engineering 的時(shí)代

0
分享至

Prompt Engineering 過時(shí)了,Context Engineering 也過時(shí)了。

2026 年開年,開發(fā)者社區(qū)最熱的關(guān)鍵詞叫 Harness Engineering。

2 月 5 日,HashiCorp 聯(lián)合創(chuàng)始人 Mitchell Hashimoto 在博客發(fā)文,把 AI 輔助開發(fā)中一種正在被越來越多頂尖團(tuán)隊(duì)采用的工程實(shí)踐正式命了名——Harness Engineering。六天后,OpenAI 發(fā)布了一份詳細(xì)的內(nèi)部實(shí)驗(yàn)報(bào)告,標(biāo)題直接用了這個(gè)詞。再之后,知名工程師 Martin Fowler 在 Twitter 上為 Thoughtworks 工程師對(duì)這份報(bào)告的深度分析站臺(tái)。

一個(gè)月之內(nèi),Harness Engineering 從一篇博客文章變成了開發(fā)者社區(qū)的高頻詞。

一個(gè)新的共識(shí)正在形成:在 AI Agent 編碼領(lǐng)域,決定結(jié)果好壞的最大變量,往往不是模型有多聰明,而是模型被放在了一個(gè)什么樣的環(huán)境里。

LangChain 的編碼 Agent 在 Terminal Bench 2.0 基準(zhǔn)測(cè)試上,通過僅優(yōu)化 Agent 運(yùn)行的外部環(huán)境(文檔結(jié)構(gòu)、驗(yàn)證回路、追蹤系統(tǒng)),排名從全球第 30 位躍升至第 5 位,得分從 52.8% 飆到 66.5%。底層模型一個(gè)參數(shù)都沒改。安全研究員 Can Boluk 僅僅改變了 Agent 的代碼編輯格式,Grok Code Fast 1 的基準(zhǔn)得分就從 6.7% 躍升至 68.3%。

而 OpenAI 的那份報(bào)告,則記錄了另一個(gè)更直觀的工程事實(shí):5 名工程師,五個(gè)月,零行手寫代碼,通過 Codex Agent 協(xié)作交付了超過 100 萬行代碼的生產(chǎn)級(jí)軟件產(chǎn)品。

模型能力的競(jìng)賽仍在繼續(xù),但真正在一線決定 Agent 工程產(chǎn)出質(zhì)量的杠桿,已經(jīng)轉(zhuǎn)移到了「環(huán)境」一側(cè)。

這個(gè)「環(huán)境」,就是 Harness。

??關(guān)注 Founder Park,最及時(shí)最干貨的創(chuàng)業(yè)分享

超 22000 人的「AI 產(chǎn)品市集」社群!不錯(cuò)過每一款有價(jià)值的 AI 應(yīng)用。

邀請(qǐng)從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

進(jìn)群后,你有機(jī)會(huì)得到:

  • 最新、最值得關(guān)注的 AI 新品資訊;

  • 不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼;

  • 最精準(zhǔn)的 AI 產(chǎn)品曝光渠道

01從 Prompt、Context 到 Harness,業(yè)界的認(rèn)知在逐漸升級(jí)

Harness Engineering 不是憑空冒出來的概念。從 Prompt 到 Context,每個(gè)概念都對(duì)應(yīng)著開發(fā)者社區(qū)對(duì)「如何讓 AI 可靠工作」這個(gè)問題的一次認(rèn)知升級(jí)。

2023 年:Prompt Engineering

這是 Prompt Engineering 的全盛期,寫好一條提示詞就能讓 AI 交付結(jié)果。Few-shot prompting、Chain-of-Thought、角色扮演,開發(fā)者社區(qū)圍繞這些技巧產(chǎn)出了大量教程和最佳實(shí)踐。但當(dāng) AI 從 chatbot 進(jìn)化為需要處理復(fù)雜任務(wù)的 Agent 時(shí),單條指令的局限性暴露無遺。LLM 領(lǐng)域最活躍的技術(shù)博主 Simon Willison 后來一句話總結(jié)了這個(gè)階段的問題:「prompt engineering 的社會(huì)推斷含義已經(jīng)偏離了本意。大多數(shù)人聽到 prompt engineering,想到的就是對(duì)著 ChatGPT 打字?!?/p>

2025 年中:Context Engineering

2025 年 6 月,OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 發(fā)帖:

「+1 for 'context engineering' over 'prompt engineering'...... 這是一門精微的藝術(shù)與科學(xué),用恰到好處的信息填充上下文窗口,以服務(wù)于下一步操作?!?/blockquote>

Shopify CEO Tobi Lutke 緊隨其后,發(fā)布了一條獲得 190 萬瀏覽量的帖子:

「我真的很喜歡 context engineering 這個(gè)詞。它更好地描述了核心技能:為任務(wù)提供讓 LLM 有可能解決它的全部上下文的藝術(shù)?!?/blockquote>

Simon Willison 在博客上做了總結(jié):

「我認(rèn)為 context engineering 會(huì)留下來。跟 prompt engineering 不同,它的推斷定義跟本意高度吻合。」

Context Engineering 的核心轉(zhuǎn)變?cè)谟冢航裹c(diǎn)從「寫好一條指令」擴(kuò)展到了「設(shè)計(jì)一個(gè)動(dòng)態(tài)系統(tǒng)來組裝上下文」。RAG、對(duì)話歷史、工具輸出、系統(tǒng)指令的編排,都成了工程師需要操心的事。

但 2025 年下半年,一線實(shí)踐者開始發(fā)現(xiàn):光有好的上下文,Agent 依然會(huì)失控。

2026 年 2 月:Harness Engineering

技術(shù)播客 Vanishing Gradients 的一集節(jié)目標(biāo)題直接點(diǎn)破了這個(gè)矛盾:「Why Agent Context Isn't Enough」(為何僅有 Agent 上下文依然不夠)。節(jié)目揭示了一個(gè)關(guān)鍵悖論:上下文窗口的擴(kuò)大,并不等于 Agent 性能的線性提升。即便模型理論上支持 100 萬 Token 的上下文,性能衰減在 25.6 萬 Token 左右便已出現(xiàn)。播客還記錄了一起造成 5 萬美元損失的事故:一個(gè)無人監(jiān)控的 Agent 陷入無限循環(huán),API 賬單累積到被人發(fā)現(xiàn)時(shí)已經(jīng)來不及了。

上下文可以告訴 Agent「知道什么」,但無法阻止 Agent「做不該做的事」。

Mitchell Hashimoto 在 2 月 5 日的博文中為這塊缺失的拼圖命了名:Engineer the Harness(工程化線束)。他的定義很簡(jiǎn)潔:

「每當(dāng)你發(fā)現(xiàn) Agent 犯了一個(gè)錯(cuò)誤,你就花時(shí)間設(shè)計(jì)一個(gè)解決方案,使 Agent 永遠(yuǎn)不再犯同樣的錯(cuò)誤?!?/blockquote>

六天后 OpenAI 官方的報(bào)告發(fā)布,業(yè)界的討論也逐漸熱了起來。

回過頭看,三個(gè)階段的關(guān)系用一句話就能說清:Prompt Engineering 管的是說什么,Context Engineering 管的是知道什么,Harness Engineering 管的是在什么環(huán)境里做事

02OpenAI 實(shí)驗(yàn)全解讀:不要把東西都塞進(jìn) AGENTS.md

OpenAI 的這份報(bào)告是理解 Harness Engineering 的核心文本。里面的工程細(xì)節(jié)值得展開。

實(shí)驗(yàn)設(shè)定

團(tuán)隊(duì)從 3 名工程師起步,最終擴(kuò)展至 7 名。五個(gè)月內(nèi)構(gòu)建并交付了一個(gè)內(nèi)部測(cè)試版軟件產(chǎn)品,已有外部 Alpha 測(cè)試用戶。代碼庫覆蓋應(yīng)用邏輯、基礎(chǔ)設(shè)施、工具鏈、文檔和內(nèi)部開發(fā)工具,全部由 Codex Agent 生成,無一行人類手動(dòng)編寫。

OpenAI 團(tuán)隊(duì)明確聲明這是一個(gè)「刻意設(shè)定的極端約束實(shí)驗(yàn)」(forcing function)。他們寫道,設(shè)定「零人類代碼」這條規(guī)則的目的,是倒逼團(tuán)隊(duì)去構(gòu)建能讓 Agent 大規(guī)??煽抗ぷ鞯墓こ袒A(chǔ)設(shè)施。換句話說,這個(gè)約束本身就是為了催生 Harness。

效率數(shù)據(jù)也很突出:平均每名工程師每日 3.5 個(gè) Pull Request 的合并吞吐量。代碼審查通過 Agent 對(duì) Agent 的循環(huán)實(shí)現(xiàn)了大規(guī)模自動(dòng)化,人工監(jiān)督僅保留在高層架構(gòu)決策環(huán)節(jié)。

報(bào)告作者 Ryan Lopopolo 寫了一句后來被反復(fù)引用的話:

「我們目前最困難的挑戰(zhàn),集中在設(shè)計(jì)環(huán)境、反饋回路和控制系統(tǒng)上?!?/blockquote>踩過的坑:AGENTS.md 的進(jìn)化

報(bào)告中實(shí)操價(jià)值最高的部分,是團(tuán)隊(duì)在文檔工程上的試錯(cuò)過程。

早期,團(tuán)隊(duì)犯了一個(gè)經(jīng)典錯(cuò)誤:把所有信息塞進(jìn)一個(gè)龐大的 AGENTS.md 文件。系統(tǒng)說明、架構(gòu)規(guī)范、代碼風(fēng)格、邊界條件...... 全部堆在同一份文檔里。結(jié)果 Agent 被信息淹沒,性能反而下降。

他們最終演化出的方案是一個(gè)漸進(jìn)式披露模型。AGENTS.md 被精簡(jiǎn)為約 100 行的「目錄」角色,指向一個(gè)結(jié)構(gòu)化的 docs/ 目錄:

    SECURITY.md           ← 安全約束

Codex 的發(fā)現(xiàn)機(jī)制是逐級(jí)讀?。簭娜峙渲?~/.codex/AGENTS.md 到項(xiàng)目根目錄,再到子目錄,就近優(yōu)先。比如 services/payments/ 下可以放一份 AGENTS.override.md,用 make test-payments 覆蓋根目錄的 npm test 規(guī)則。大小上限默認(rèn) 32 KiB。

這套目錄結(jié)構(gòu)背后的核心假設(shè)是:Agent 不需要在一開始就知道所有事情,它需要在正確的時(shí)機(jī)獲得正確粒度的信息。跟人類工程師入職的邏輯一樣——沒有人第一天就讀完公司所有文檔。

超越文檔:讓 Agent「看見」運(yùn)行時(shí)

靜態(tài)文檔之外,OpenAI 團(tuán)隊(duì)做了一件更激進(jìn)的事:把可觀測(cè)性數(shù)據(jù)直接暴露給 Agent。

日志、指標(biāo)、追蹤信息,通過本地可觀測(cè)性棧(每個(gè)工作樹獨(dú)立實(shí)例化)向 Codex Agent 開放。Agent 可以使用 LogQL 和 PromQL 查詢來驗(yàn)證服務(wù)啟動(dòng)時(shí)間和關(guān)鍵用戶旅程的性能指標(biāo)。

更進(jìn)一步,Agent 甚至可以通過 Chrome DevTools Protocol 操作瀏覽器:重現(xiàn) Bug、驗(yàn)證修復(fù)、直接對(duì) UI 行為進(jìn)行推理。

這意味著 Agent 不再只是一個(gè)「寫代碼的工具」。它能看見代碼運(yùn)行后發(fā)生了什么,并據(jù)此判斷自己寫的代碼到底對(duì)不對(duì)。

機(jī)械化的架構(gòu)圍欄

OpenAI 團(tuán)隊(duì)定義了嚴(yán)格的分層架構(gòu)依賴流向:Types → Config → Repo → Service → Runtime → UI。任何違反依賴方向的代碼都會(huì)被機(jī)械化攔截。

攔截機(jī)制有兩種。一是確定性 Linter。有一個(gè)細(xì)節(jié)值得說:工程師花了數(shù)小時(shí)重寫 Linter 的錯(cuò)誤輸出格式。目的只有一個(gè),讓 Agent 能「讀懂」出了什么問題,并據(jù)此自動(dòng)修復(fù)。Linter 輸出的受眾從人類變成了 AI——這件事本身就是 Harness Engineering 思維的典型體現(xiàn)。

二是基于 LLM 的審計(jì) Agent,用于檢查那些難以用形式化規(guī)則捕捉的語義違規(guī)。

兩種機(jī)制組合,確保了 Agent 生成的代碼在架構(gòu)層面的長(zhǎng)期一致性。團(tuán)隊(duì)的思路是:每當(dāng) Agent 犯一個(gè)新類型的錯(cuò)誤,就回頭加一條約束。日積月累,Harness 越來越健壯,Agent 能犯的錯(cuò)越來越少。

這正是 Hashimoto 所說的:「讓 Agent 永遠(yuǎn)不再犯同樣的錯(cuò)誤?!?/p>

03B?ckeler 的解讀:Harness Engineering 的三級(jí)框架

OpenAI 的報(bào)告是一手的工程記錄,信息密度很高但組織偏松散。Thoughtworks 的 Distinguished Engineer、生成式 AI 交付專家 Birgitta B?ckeler 在 martinfowler.com 上發(fā)表的分析文章,把這些實(shí)踐提煉成了一個(gè)清晰的三維框架。

Martin Fowler 本人在 2 月 17 日的 Twitter 帖子中稱贊了這篇報(bào)告:

「Harness Engineering 是對(duì) AI 使能軟件開發(fā)關(guān)鍵部分的有價(jià)值框架。Harness 包括上下文工程、架構(gòu)約束和垃圾回收。」

B?ckeler 將 Harness 的核心拆解為三個(gè)維度:

維度一:上下文工程(Context Engineering)

確保 Agent 在正確時(shí)機(jī)獲得正確信息。包括前面提到的漸進(jìn)式文檔披露、動(dòng)態(tài)可觀測(cè)性數(shù)據(jù)接入,以及 Agent 對(duì)瀏覽器行為的直接推理能力。B?ckeler 指出,這一維度與 2025 年中期流行的 Context Engineering 概念高度重合,但 Harness Engineering 將其納入了一個(gè)更完整的體系。

維度二:架構(gòu)約束(Architectural Constraints)

通過機(jī)械化手段強(qiáng)制執(zhí)行架構(gòu)邊界。包括確定性 Linter(輸出格式專為 Agent 設(shè)計(jì))和 LLM 審計(jì) Agent 的雙軌機(jī)制。B?ckeler 特別注意到,OpenAI 讓 Linter 的錯(cuò)誤消息直接包含修復(fù)建議,這使得整個(gè)「違規(guī) → 檢測(cè) → 修復(fù)」的循環(huán)可以在 Agent 內(nèi)部閉環(huán)完成,無需人工介入。

維度三:熵管理 / 垃圾回收(Entropy Management)

這是 B?ckeler 框架中我覺得最有意思的部分。她觀察到 OpenAI 團(tuán)隊(duì)部署了專用的清理 Agent,定期掃描文檔漂移、模式違規(guī)和依賴問題。

為什么要單獨(dú)拎出來?因?yàn)?Harness 本身也是代碼和文檔,它們同樣會(huì)腐化。隨著代碼庫規(guī)模增長(zhǎng),規(guī)則文件可能變得冗長(zhǎng)混亂,包含過時(shí)、矛盾或不再適用的指令。如果 Harness 自身腐化了,Agent 就會(huì)因?yàn)樽x到混亂指令而輸出混亂代碼。熵管理要解決的就是這個(gè)問題:約束系統(tǒng)本身不能隨時(shí)間退化。

B?ckeler 把三者的關(guān)系概括得很清楚:上下文工程讓 Agent「知道該做什么」,架構(gòu)約束確?!钢辉谶吔鐑?nèi)行事」,熵管理保障「整個(gè)系統(tǒng)不隨時(shí)間退化」。

她同時(shí)提了一個(gè)重要的補(bǔ)充:OpenAI 的報(bào)告主要關(guān)注代碼的內(nèi)部質(zhì)量和可維護(hù)性,但對(duì)功能性和行為驗(yàn)證的覆蓋不足。能通過所有 Linter 和架構(gòu)測(cè)試的代碼,不等于做了用戶真正需要的事情。這個(gè)提醒很實(shí)在,也指出了接下來需要補(bǔ)上的一塊。

04Stripe、LangChain,行業(yè)有了更多實(shí)踐者

如果說 OpenAI 的實(shí)驗(yàn)只是個(gè)案,說服力有限。如今 Harness Engineering 的邏輯正在多個(gè)頭部公司得到獨(dú)立驗(yàn)證。

Stripe:工業(yè)級(jí)的線束基礎(chǔ)設(shè)施

Stripe 的 Minions 體系每周合并超過 1,300 個(gè)由 AI 完全編寫的 Pull Request,人類僅負(fù)責(zé)審查。

Minions 的基礎(chǔ)設(shè)施透露了 Harness Engineering 在大型組織中的實(shí)際形態(tài):每個(gè) Agent 任務(wù)在獨(dú)立的預(yù)熱 devbox 中運(yùn)行,與 Stripe 工程師使用的機(jī)器完全相同,約 10 秒內(nèi)啟動(dòng),內(nèi)置 Stripe 代碼庫和服務(wù),與生產(chǎn)系統(tǒng)及互聯(lián)網(wǎng)完全隔離。

工具訪問通過名為 Toolshed 的中心化 MCP 服務(wù)器實(shí)現(xiàn),托管近 500 個(gè)工具,涵蓋內(nèi)部系統(tǒng)和外部 SaaS 平臺(tái)。Agent 與人類開發(fā)者享有完全一致的工具訪問權(quán)限。

Stripe 的架構(gòu)選擇也有意思:確定性節(jié)點(diǎn)與 Agent 節(jié)點(diǎn)混合的「藍(lán)圖」模式??深A(yù)測(cè)的步驟(推送到 Git、運(yùn)行 Linter、觸發(fā) CI)全部交給確定性代碼處理,只在需要判斷或創(chuàng)造力的環(huán)節(jié)才調(diào)用 LLM。這種設(shè)計(jì)把 LLM 限制在「可控盒子」里,大幅提升了系統(tǒng)的可預(yù)測(cè)性。

LangChain:一個(gè)干凈的對(duì)照實(shí)驗(yàn)

回到開頭的那組數(shù)據(jù)。LangChain 的編碼 Agent 在 Terminal Bench 2.0 上,通過僅優(yōu)化 Harness 而不修改底層模型,得分從 52.8% 提升至 66.5%,排名從第 30 躍升至第 5。

這個(gè)案例的價(jià)值在于變量控制做得很干凈:模型不變,Harness 變,結(jié)果劇變。在「環(huán)境比模型更重要」這個(gè)論點(diǎn)上,這可能是目前最直接的證據(jù)。

Anthropic 在內(nèi)部工程文檔中已經(jīng)將 Claude Code 定位為「靈活的 Agent 線束」。Harness 的概念正在被工具供應(yīng)商內(nèi)化為產(chǎn)品設(shè)計(jì)思路。

MCP(模型控制協(xié)議)已在 Linux 基金會(huì)下的 Agentic AI 基金會(huì)治理,月 SDK 下載量超過 9,700 萬,獲 OpenAI、Google、Microsoft 和 AWS 采用。Stripe 的 Toolshed 就是一個(gè) MCP 服務(wù)器。MCP 正在成為 Agent 工具訪問的通用標(biāo)準(zhǔn),而 Harness 工程的工具層將大規(guī)模遷移到這個(gè)協(xié)議上。

LangChain 的 State of Agent Engineering 報(bào)告提供了一組行業(yè)全景數(shù)據(jù):89% 的受訪者已為其 Agent 實(shí)施了可觀測(cè)性,但僅有 52% 實(shí)施了評(píng)估(Evals)。大多數(shù)團(tuán)隊(duì)已經(jīng)能「看見」Agent 在做什么,但還沒有建立系統(tǒng)性的機(jī)制來判斷「做得對(duì)不對(duì)」。評(píng)估體系怎么規(guī)模化,大概是 Harness Engineering 接下來一年繞不開的課題。

05工程師的核心工作,正從寫代碼轉(zhuǎn)向設(shè)計(jì)環(huán)境

一件事:工程師的核心工作,正在從寫代碼轉(zhuǎn)向設(shè)計(jì)讓 Agent 可靠運(yùn)行的環(huán)境。

OpenAI 實(shí)驗(yàn)中的工程師,日常工作已經(jīng)變成了三件事:

第一,構(gòu)建文檔與上下文體系。維護(hù) AGENTS.md 目錄、docs/ 下的架構(gòu)規(guī)范與設(shè)計(jì)文檔,編寫自定義 Linter(包括重寫 Linter 的錯(cuò)誤消息格式,使其對(duì) Agent 可讀且包含修復(fù)建議),建立可觀測(cè)性基礎(chǔ)設(shè)施使 Agent 能夠查詢運(yùn)行時(shí)數(shù)據(jù)。

第二,以機(jī)器可處理的方式定義業(yè)務(wù)意圖。工程師需要把業(yè)務(wù)目標(biāo)、質(zhì)量標(biāo)準(zhǔn)和邊界條件表達(dá)得足夠清晰和精確,使 Agent 能夠據(jù)此自主決策。這要求更強(qiáng)的系統(tǒng)性思維和抽象能力。

第三,構(gòu)建自動(dòng)化的防呆驗(yàn)證機(jī)制。合并門禁被最小化以避免瓶頸,系統(tǒng)轉(zhuǎn)而依賴強(qiáng)大的自動(dòng)化守衛(wèi)。Stripe 的實(shí)踐表明,預(yù)推送鉤子和本地 Linter 在 5 秒內(nèi)解決常見問題,是減少無效 Agent 循環(huán)的關(guān)鍵。

The Pragmatic Engineer 的創(chuàng)始人 Gergely Orosz 在報(bào)道 OpenClaw 創(chuàng)始人 Peter Steinberger 的工作方式時(shí),描述了一個(gè)很生動(dòng)的場(chǎng)景:Steinberger 是「在腦中保存項(xiàng)目高層結(jié)構(gòu)的軟件架構(gòu)師」,在使用 Agent 時(shí)只討論架構(gòu)和重大決策,完全不涉及具體代碼實(shí)現(xiàn)。

越來越多人開始覺得,這就是 Harness Engineering 對(duì)工程師的要求:系統(tǒng)理解的深度,比寫代碼的速度重要得多。

在組織層面,變化也很大。OpenAI 的 3-7 人團(tuán)隊(duì)完成了以前需要數(shù)十人規(guī)模的工程輸出。Stripe 讓單名工程師可以同時(shí)向多個(gè) Agent 分配不同任務(wù)。團(tuán)隊(duì)結(jié)構(gòu)正在向兩三人甚至單人團(tuán)隊(duì)收斂,完整擁有從規(guī)劃到上線的功能全生命周期?!负侠韴F(tuán)隊(duì)規(guī)?!沟牡讓佑?jì)算邏輯正在被重寫。

B?ckeler 在這一點(diǎn)上提出了一個(gè)所有技術(shù)管理者都該想想的問題,她稱之為「學(xué)徒缺口」(Apprentice Gap):如果初級(jí)開發(fā)者過早進(jìn)入 Agent 驅(qū)動(dòng)循環(huán),未經(jīng)歷手動(dòng)開發(fā)的鍛煉,他們可能缺乏未來構(gòu)建健壯 Harness 所需的深度系統(tǒng)直覺。她建議將「體驗(yàn)工程」(Experience Engineering)視為下一個(gè)核心挑戰(zhàn),設(shè)計(jì)保留手動(dòng)開發(fā)直覺的學(xué)習(xí)路徑。

06開發(fā)者可以做什么?

Hashimoto 的六階段采用旅程是目前操作性最強(qiáng)的個(gè)人路線圖。他自己正處在第五階段。以下是從他的博文和實(shí)踐中提煉的行動(dòng)建議:

起步:把同一個(gè)任務(wù)做兩遍。先自己手動(dòng)完成,再讓 Agent 重新做一遍。Hashimoto 說自己「真的把工作做了兩遍」,目的是建立對(duì) Agent 能力邊界的直覺。他總結(jié)了三個(gè)關(guān)鍵發(fā)現(xiàn):把會(huì)話拆成獨(dú)立清晰的任務(wù);把模糊需求拆成「規(guī)劃」和「執(zhí)行」兩個(gè)階段;給 Agent 自我驗(yàn)證的方法。

養(yǎng)成習(xí)慣:每天下班前 30 分鐘啟動(dòng) Agent。Hashimoto 說這「給了我第二天早晨一個(gè)熱啟動(dòng)」。三類任務(wù)特別適合這個(gè)時(shí)段:深度調(diào)研(Agent 掃描整個(gè)領(lǐng)域)、并行探索(多個(gè) Agent 同時(shí)試驗(yàn)?zāi):敕ǎssue 和 PR 分診。

關(guān)鍵躍遷:在你的項(xiàng)目里建一份 AGENTS.md。這不需要是一份完美的文檔。從最基本的內(nèi)容開始:項(xiàng)目的核心架構(gòu)說明、常見的 Agent 錯(cuò)誤及應(yīng)對(duì)方式、測(cè)試和 Lint 命令、Agent 絕對(duì)不能碰的部分。每次 Agent 犯錯(cuò),就回來補(bǔ)一條規(guī)則。日積月累,這份文檔就會(huì)長(zhǎng)成你的 Harness。

Hashimoto 還分享了一條心態(tài)層面的建議:「關(guān)掉 Agent 的桌面通知...... 作為人類,我的職責(zé)是控制何時(shí)中斷 Agent,而非被它中斷?!?/p>

對(duì)技術(shù)負(fù)責(zé)人來說,最實(shí)際的建議是:選一個(gè)新項(xiàng)目做試點(diǎn)。OpenAI 和 Stripe 的成功案例都有一個(gè)共同前提,要么從零開始,要么在成熟的內(nèi)部基礎(chǔ)設(shè)施上運(yùn)行。遺留代碼庫的改造是另一個(gè)量級(jí)的工程挑戰(zhàn)。此外,Evals(評(píng)估體系)是下一個(gè)必建能力。當(dāng)前僅有 52% 的團(tuán)隊(duì)部署了評(píng)估系統(tǒng),這個(gè)差距就是你的機(jī)會(huì)窗口。

OpenAI 的報(bào)告發(fā)布至今只有一個(gè)月。Hashimoto 自己也說,他還處在六階段的第五階段。行業(yè)里絕大多數(shù)團(tuán)隊(duì)還停留在前三個(gè)階段。

但方向已經(jīng)不可逆。

從 Prompt Engineering 到 Context Engineering 再到 Harness Engineering,三年間,開發(fā)者社區(qū)對(duì)「如何讓 AI 可靠地工作」這個(gè)問題的理解,已經(jīng)從「寫好一條指令」演進(jìn)到了「構(gòu)建一整個(gè)運(yùn)行環(huán)境」。

軟件工程團(tuán)隊(duì)的核心競(jìng)爭(zhēng)力,正在從「誰的工程師代碼寫得更好」轉(zhuǎn)向「誰的工程師能設(shè)計(jì)出更好的 Agent 運(yùn)行環(huán)境」。

正如 Ryan Lopopolo 在 OpenAI 報(bào)告中寫的那句話:

「我們目前最困難的挑戰(zhàn),集中在設(shè)計(jì)環(huán)境、反饋回路和控制系統(tǒng)上。」


轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
李昌鈺,制造冤獄的神探,戲演完了

李昌鈺,制造冤獄的神探,戲演完了

不正確
2026-03-28 10:31:14
江蘇空姐愛上大17歲頭等艙乘客,婚后贈(zèng)上海房產(chǎn)給丈母娘

江蘇空姐愛上大17歲頭等艙乘客,婚后贈(zèng)上海房產(chǎn)給丈母娘

生命之泉的奧秘
2026-03-28 11:25:23
50歲老虎伍茲被捕!特朗普難過:他是我很親密的朋友 了不起的人

50歲老虎伍茲被捕!特朗普難過:他是我很親密的朋友 了不起的人

念洲
2026-03-28 21:44:38
誰贏,他們幫誰,伊朗等來最大強(qiáng)援,美陷入死局,后悔也來不及了

誰贏,他們幫誰,伊朗等來最大強(qiáng)援,美陷入死局,后悔也來不及了

阿傖說事
2026-03-28 01:58:57
隨著伊東純也一劍封喉+比分1-0,日本掀翻歐洲勁旅,迎開門紅

隨著伊東純也一劍封喉+比分1-0,日本掀翻歐洲勁旅,迎開門紅

側(cè)身凌空斬
2026-03-29 04:38:44
牢A的新賽道?

牢A的新賽道?

關(guān)爾東
2026-03-28 20:20:30
沖上熱搜!今年蚊子可能迎來史詩級(jí)加強(qiáng)?網(wǎng)友:遭不住了

沖上熱搜!今年蚊子可能迎來史詩級(jí)加強(qiáng)?網(wǎng)友:遭不住了

深圳晚報(bào)
2026-03-28 22:25:02
大學(xué)生怒砸食堂后續(xù)!人已被抓,知情人爆猛料,賠幾十萬只是一角

大學(xué)生怒砸食堂后續(xù)!人已被抓,知情人爆猛料,賠幾十萬只是一角

奇思妙想草葉君
2026-03-28 18:03:09
87分鐘點(diǎn)球絕平!中國(guó)男足拿1分后,最新排名有變,主裁判罰爭(zhēng)議

87分鐘點(diǎn)球絕平!中國(guó)男足拿1分后,最新排名有變,主裁判罰爭(zhēng)議

侃球熊弟
2026-03-28 20:07:16
長(zhǎng)的太漂亮了,真正的珠圓玉潤(rùn),標(biāo)準(zhǔn)的東方美

長(zhǎng)的太漂亮了,真正的珠圓玉潤(rùn),標(biāo)準(zhǔn)的東方美

生活新鮮市
2026-03-27 07:21:32
1-0爆冷澳大利亞隊(duì)!恭喜中國(guó)隊(duì),久帥成功復(fù)仇!對(duì)手點(diǎn)球玩大了

1-0爆冷澳大利亞隊(duì)!恭喜中國(guó)隊(duì),久帥成功復(fù)仇!對(duì)手點(diǎn)球玩大了

大秦壁虎白話體育
2026-03-28 17:32:26
湖南省高院明確定性“錯(cuò)判”的刑案,長(zhǎng)沙司法系統(tǒng)為何死扛到底?

湖南省高院明確定性“錯(cuò)判”的刑案,長(zhǎng)沙司法系統(tǒng)為何死扛到底?

塔子山評(píng)說
2026-03-28 14:43:49
恥辱?韓國(guó)男足千場(chǎng)里程碑吞0-4!韓媒震驚:3后衛(wèi)防線崩潰+災(zāi)難

恥辱?韓國(guó)男足千場(chǎng)里程碑吞0-4!韓媒震驚:3后衛(wèi)防線崩潰+災(zāi)難

我愛英超
2026-03-29 06:18:23
好友曝張雪峰遺容狀態(tài)!化了妝像歐巴,黑眼圈遮不住,薛之謙發(fā)文

好友曝張雪峰遺容狀態(tài)!化了妝像歐巴,黑眼圈遮不住,薛之謙發(fā)文

阿纂看事
2026-03-28 18:44:03
戰(zhàn)事持續(xù)四周:超3000人死亡,硬核裝備損耗驚人,霍爾木茲開放為何這么難?

戰(zhàn)事持續(xù)四周:超3000人死亡,硬核裝備損耗驚人,霍爾木茲開放為何這么難?

網(wǎng)易新聞出品
2026-03-28 14:12:57
伊朗:報(bào)復(fù)“將不再局限于以牙還牙”

伊朗:報(bào)復(fù)“將不再局限于以牙還牙”

中國(guó)網(wǎng)
2026-03-28 16:18:36
足壇一夜動(dòng)態(tài):比利時(shí)5-2美國(guó) 日本1-0絕殺蘇格蘭 韓國(guó)0-4慘敗

足壇一夜動(dòng)態(tài):比利時(shí)5-2美國(guó) 日本1-0絕殺蘇格蘭 韓國(guó)0-4慘敗

念洲
2026-03-29 06:39:46
廣東一店主下單寄遞10箱茅臺(tái)酒總價(jià)超12萬元,司機(jī)用一張模糊“卸貨照”虛假“送達(dá)”后失聯(lián),平臺(tái):已與警方確認(rèn)找到司機(jī),貨物已追回

廣東一店主下單寄遞10箱茅臺(tái)酒總價(jià)超12萬元,司機(jī)用一張模糊“卸貨照”虛假“送達(dá)”后失聯(lián),平臺(tái):已與警方確認(rèn)找到司機(jī),貨物已追回

大象新聞
2026-03-27 21:45:04
剛剛,被全世界遺忘的馬杜羅,等來了美國(guó)法庭的判決

剛剛,被全世界遺忘的馬杜羅,等來了美國(guó)法庭的判決

滄海旅行家
2026-03-28 12:25:40
印度姑娘來中國(guó)旅行,回國(guó)時(shí)在機(jī)場(chǎng)嘆息:難怪印度比不過中國(guó)

印度姑娘來中國(guó)旅行,回國(guó)時(shí)在機(jī)場(chǎng)嘆息:難怪印度比不過中國(guó)

千秋文化
2026-03-26 21:24:03
2026-03-29 07:24:49
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
1184文章數(shù) 160關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

美媒:和歐盟"外長(zhǎng)"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長(zhǎng)"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價(jià)4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
手機(jī)
游戲
本地

和田曦薇一樣嫩嘟嘟,這3個(gè)變美技巧你一定不能錯(cuò)過!

藝術(shù)要聞

毛澤東手箋驚現(xiàn)美國(guó)拍賣會(huì),滿紙崢嶸往事......

手機(jī)要聞

首款驍龍8 Gen5小平板來了!OPPO Pad mini真機(jī)現(xiàn)身

《異替》現(xiàn)已登陸Steam

本地新聞

在濰坊待了三天,沒遇到一個(gè)“濰坊人”

無障礙瀏覽 進(jìn)入關(guān)懷版