網易首頁 > 網易號 > 正文申請入駐

我們對 Coding Agent 的評測，可能搞錯了方向

2026-01-16 20:47:06　來源: FounderPark

北京舉報

分享至

我們對 Coding Agent 的評測，可能搞錯了方向。

一個反復出現，但常常被忽略的現象是：用戶對 Agent 的不滿，往往不是因為它「做不到」，而是因為它「做得不好」。

「做得不好」集中表現在：Agent 不遵循明確給出的指令和潛在的工程規范。比如，系統提示里明確要求「不要使用 emoji」，Agent 卻在代碼注釋里加上笑臉；用戶要求「先備份再修改」，Agent 上手就是一鍵 [rm -rf] 刪除文件。

這些問題的共同特征是：任務最終可能完成了，但過程違反了規范。用戶要的不只是「能跑的代碼」，還有「符合團隊協作規范的代碼」。

這也暴露了當前主流評測體系的盲區。學術榜單，不管是SWE-bench verified，還是各種基于terminal環境的測試，核心理念幾乎都是結果導向指標。只問兩個問題：測試通過了嗎？Bug 修復了嗎？

這種評估方式，不看模型在沙盒里的輸出過程，也不看真實場景的交互體驗。最后的結果是：評估和真實使用場景，完全錯位。

為此，MiniMax 開源了一個新評測集：OctoCodingBench。用來評測 Coding Agent 在完成任務的過程中，有沒有遵守規矩。

測評結果很有意思：即便是最強的模型，在 2/3 的任務中，代碼可能是對的，但過程是錯的。

Hugging Face 鏈接：

huggingface.co/datasets/MiniMaxAI/OctoCodingBench

??關注 Founder Park，最及時最干貨的創業分享

超 19000 人的「AI 產品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的AI產品曝光渠道

01為什么 Coding Agent 需要新的 Bench？

如果遵循過程規范的 Coding Agent，才能被放心地引入真實的軟件工程流程中。那目前主流 Code Agent 的評估體系就出現了明顯的盲區。隨著 Claude Code、Codex、Cursor、Windsurf 等 Agent 產品的普及，社區正在形成一套面向 Agent 的倉庫協議體系。項目不再只是一堆代碼，同時也包含了多層次協作模式的說明：

[CLAUDE.md]/[AGENTS.md]：告訴 Agent「這個項目怎么玩」——命名約定、測試流程、禁用的危險操作等
Skills：封裝可復用的工作流 (如「生成 API 文檔」)，Agent 需要正確識別觸發時機并按規范調用
Memory：跨會話保存用戶偏好和任務進度，Agent 需要基于歷史狀態繼續工作，而非從頭開始

這些機制的出現，本質上是在構建一個多層級的指令系統。舉個例子，當用戶說「幫我重構這個模塊」時，Agent 需要同時滿足多個層級的約束：系統層面的安全規則（不能直接刪代碼）、當前用戶的即時指令（重構到什么程度）、倉庫中明確寫下的工程規范，以及歷史記憶中已經做出的決策（延續還是推翻）。更復雜的情況是，這些指令源之間可能沖突。用戶臨時說「這次就先不寫測試了」，但 [AGENTS.md] 里明確要求「每次提交必須有測試覆蓋」——Agent 該聽誰的?

然而一個尷尬的問題是，當前的學術榜單，無論是 SWE-bench verified，還是各類基于 terminal 環境的測試，其核心理念幾乎都是Outcome-based Metrics(結果導向指標)：測試是否通過? Bug 是否修復？這種結果導向的評估方式，根本無法刻畫模型在沙盒環境下的輸出過程，更不用說復雜現實場景的真實交互體驗，最終導致了評估和真實使用場景的錯位。

02OctoCodingBench：

面向工程可靠性的過程評估

要解決這個問題，評估范式本身需要發生根本性轉變——需要關注輸出過程本身。

基于這一動機，MiniMax 引入了 OctoCodingBench，從Check-level 準確率 (CSR)、 Instance-level 成功率 (ISR)兩個維度來進行評估，旨在充分觀測模型的完成任務時出現的過程指令不遵循問題，以盡可能接近真實用戶體驗。

其中，CSR 用來衡量 Coding Agent 遵循了多大比例的規則，ISR 則用來衡量 Coding Agent 是否遵循了每條規則。

一個合格的 Coding Agent，需要在完成任務的同時遵循：

System Prompt中的全局約束 (語言、格式、安全規則)
UserQuery的多輪指令更新
System Reminder提供的腳手架指令
Repository 規范文件(如 [CLAUDE.md]/[AGENTS.md]) 中的代碼風格、提交規范
Skills 文檔的正確調用流程
Memory/Preferences中記錄的用戶偏好和項目狀態

基于該評測集，MiniMax 針對現有的開源閉源模型進行了廣泛的評估，發現了一些很有啟發性的實驗結果：

所有模型的 Check-level準確率 (CSR) 可以達到 80%+，但 Instance-level 成功率 (ISR) 只有 10%-30%。換句話說，模型在單項約束上表現不錯，但一旦要求「全部規則同時滿足」，成功率就斷崖式下跌。
絕大模型模型的指令遵循能力會隨著輪次的變多逐漸下降。這印證了「過程合規」在長流程任務中的脆弱性。

不同交互輪次下 ISR 的變化

現階段模型表現普遍未能達到生產級要求，過程合規仍是盲區：
從榜單數據來看，即便是表現最強勁的 Claude 4.5 Opus，其 Instance-level 成功率（ISR）也僅為 36.2%。這意味著，在近三分之二的任務中，模型雖然可能寫出了能跑的代碼，但在過程規范上依然存在違規。這一低分現狀明確揭示了一個事實：Coding Agent 的「過程規范遵循」尚未被業界充分關注和優化，目前的模型嚴重偏科于「結果正確」，而忽視了「過程正確」。
開源模型正在快速追趕閉源模型：
觀察榜單可以發現，MiniMax M2.1 和 DeepSeek V3.2 的 ISR 分別達到了 26.1% 和 26%，已經超過了公認強大的閉源模型 Claude 4.5 Sonnet (22.8%) 和 Gemini 3 Pro (22.9%)，開源模型已經展現出了極強的競爭力。

03未來的研究方向

MiniMax 認為，下一代 Coding Agent 的訓練，需要引入Process Supervision(過程監督)：

細粒度的過程監督：不只監督模型的「測試通過」，還要監督模型「遵循命名規范」、「正確使用 Skills」、「沒有泄露 System 信息」等；
層級化的指令遵循：在訓練數據中標注指令沖突場景，讓模型學會在沖突情況下如何遵從指令層次的優先級行動；
可驗證的 Checklist：把「指令遵循」從模糊的整體印象，拆解成可自動化檢查的原子約束，既能用于評估，也能用于 RL 信號構建。

Coding Agent 的能力邊界，正在從「能否寫出能跑的代碼」，轉向「能否在復雜約束下協作式地完成任務」。這也映射出產品哲學的深層轉變：Agent 不是要替代人類開發者，而是要成為懂規矩、守紀律的團隊成員。

因此，過程規范（Process Specification）才是 Coding Agent 進化的核心命題。

當我們開始關注過程而非僅僅結果，當我們讓評估體系能夠捕捉「違規但成功」的危險模式，Coding Agent 才能真正從 Demo 走向生產環境。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.