網易首頁 > 網易號 > 正文申請入駐

楊植麟交卷！Kimi K2.6搶先開源，指揮300個Agent上崗，實測手搓3D格斗游戲

2026-04-21 09:28:29　來源: 智東西

北京舉報

分享至

智東西
作者江宇
編輯心緣

智東西4月21日報道，昨夜，Kimi正式發布并開源旗艦模型K2.6，帶來其迄今最強的代碼能力、長程任務執行和Agent集群能力。

根據官方公布的多項基準測試，Kimi K2.6在博士級難度的“人類最后的考試”（Humanity’s Last Exam）中，K2.6以54.0%的得分位居第一；在評估Agent深度檢索能力的DeepSearchQA中，更是以92.5%的高分大幅領先GPT-5.4和Gemini 3.1 Pro，小幅超過Claude Opus 4.6。此外，在考察真實軟件工程能力的SWE-Bench Pro中，K2.6以58.6%的成績領先所有閉源模型。

同時，K2.6在通用智能（General Agents）、編程能力（Coding）和視覺理解能力（Visual Agents）上均展現出了綜合競爭力。

不過，從數據細節來看，K2.6在部分維度仍有追趕空間。在SWE-bench多語言測試中，K2.6略遜于Claude Opus 4.6 和Gemini 3.1 Pro；而在Toolathlon復雜工具調度任務中，K2.6雖優于Claude Opus 4.6 和Gemini 3.1 Pro，但仍排在GPT-5.4之后。此外，在MathVision和V等視覺測試中，K2.6的表現與GPT-5.4相比也仍存在一定差距。

綜合來看，K2.6在跨模態推理、工具調用及長程任務執行上表現穩健，多項能力上已達到或接近頂尖閉源模型水平。

近期，國內外大模型賽道近期動作頻頻。上周五，Anthropic發布了新一代旗艦模型Claude Opus 4.7；昨日，阿里發布了其下一代旗艦模型的早期預覽版Qwen3.6-Max-Preview；而行業最期待的“開源猛獸”DeepSeek V4也有望在本周內降臨。這一波國內外旗艦模型的集體“上桌”，意味著大模型格局的洗牌時刻即將到來。

新一代K2.6可連續編碼13小時、處理超過4000行復雜代碼，支持多語言前后端開發，并通過圖像與視頻生成工具深度融合，實現專業級Web應用復刻和視覺焦點設計。官方示例顯示，K2.6可將復雜圖像和視頻素材轉化為可運行前端代碼，復刻經典網頁或動畫交互場景。

（待插入官方案例的視頻）

此外，Kimi K2.6大幅增強了Agent自主執行能力：由K2.6驅動的Agent集群架構可支持300個子Agent并行完成4000個協作步驟，實現更大規模并行化，任務完成度和交付質量相比K2.5顯著提升。在涵蓋了多種復雜端到端任務的、Kimi內部代碼評測基準Kimi Code Bench中，K2.6的成績比K2.5提升了約20%。

在OpenClaw、Hermes Agent等主動式Agent框架中，K2.6可持續自主運行長達5天。內部Claw Bench測試顯示，K2.6綜合性能較K2.5提升10%，在單次運行中即可獨立完成從文檔到網頁、PPT及表格的多產物端到端交付。

在海外，開發者對K2.6的反饋也十分積極。有開發者稱，使用K2.6進行網頁和前端交互設計“體驗極佳，幾乎是現階段最佳”，能夠輕松處理代碼、圖像、視頻和動畫素材。

還有用戶稱，用該模型制作前端效果“令人驚嘆”，目前可能是同類工具中最強體驗。

另一位開發者則關注到模型的BF16權重上傳量為595GB，認為在開源生態中極具競爭力。

在API方面，K2.6維持分級計費模式，但相比K2.5價格有明顯上漲。具體來看，K2.6每百萬Token的輸入價格為6.5元（緩存未命中），較K2.5的4元上漲了約62.5%；緩存命中情況下的輸入價格為1.1元，較之前的0.7元也有所提升；而輸出價格則從21元上調至27元。在窗口容量上，K2.6提供了262,144 Token的上下文窗口支持。

目前，Kimi Agent模式已內置上百個官方推薦技能，支持創建和調用Skill。Agent集群可調度不同技能特長的Agent互補協作，將搜索、深度研究、文檔分析和長文創作等能力組合完成復雜任務。

同時，Kimi團隊也在探索“Claw群組”這一方向，已在小范圍內測階段。

Kimi K2.6現已上線kimi.com、最新版Kimi應用、Kimi API和Kimi Code編程助手，所有用戶可立即使用。智東西也進行了一番實測，我們在K2.6 Thinking模式下完成了兩個多模態創意案例。

快速體驗：kimi.com
使用Kimi API：https://platform.kimi.com/docs/guide/kimi-k2-6-quickstart
開源地址：
Hugging Face: https://huggingface.co/moonshotai/Kimi-K2.6

一、手搓3D沙盒游戲、精繪體素鵜鶘，K2.6一手實測

為了直觀驗證K2.6的多模態與代碼生成能力，我們在K2.6的Thinking模式下進行了兩個具挑戰性的創意實測。

第一個體驗案例是要求K2.6制作一個3D橫版格斗游戲。

提示詞：制作一個單文件HTML的3D橫版格斗游戲，場景為被霸天虎入侵的破敗城市地圖，敵人為類人型賽博坦機器人，包含武器后坐力效果，采用低多邊形風格并帶有卡通美學。游戲開始時，玩家位于街道上，周圍有建筑廢墟；游戲中應包含可被擊倒的細節物品，如汽車、樹木、石塊/瓦礫和自動售貨機。玩家可以選擇5種擎天柱陣營角色進行游戲，并與5種霸天虎變種敵人戰斗，這些敵人會不斷生成，游戲為無限時間的沙盒模式。

從實測結果來看，K2.6在游戲邏輯與元素還原上表現出色，提示詞中要求的汽車、廢墟等環境元素都有著不錯的呈現，5種擎天柱陣營角色也如約而至。

不過，在空間坐標的理解上出現了疑似提示詞污染的問題——由于是“3D橫版”，最終玩家控制的角色移動方式變為了上下移動，而非橫版游戲中常見的左右移動。

第二個體驗案例是創建一個“騎自行車的鵜鶘”的3D像素藝術作品。

提示詞：創建一個騎自行車的鵜鶘的3D像素藝術作品。盡可能將場景刻畫得非常細致，注意主體模型上的每一個小細節，同時也要考慮周圍環境的細節。在一個 HTML 代碼塊中完成制作，將代碼寫得足夠優秀，以展示你的水平超越其他作品。我賦予你完全的創作自由，盡情發揮。

（待插入體驗視頻）

K2.6生成的畫面相當精美，提供了日景與夜景兩種環境選擇，并支持手動調節騎行速度。鵜鶘的身體結構與騎行姿態自然合理，自行車的車架、鏈條、座椅等細節也非常完整。但是在運動狀態下，鵜鶘腳部的踩踏動作與腳踏板的物理運動軌跡存在不同步，不符合物理常識。

總體而言，其多模態理解與前端代碼輸出的結合已經達到了較為出色的完成度。

二、連續編碼13小時，長程編碼能力有所突破

長程編碼能力是此次K2.6最核心的突破之一。

面對真實的軟件工程挑戰，K2.6展現出了硬核的泛化與推理能力，在多種編程語言（如Rust、Go、Python）和復雜任務場景下均能穩定輸出。

Kimi官方也提供了兩個端到端長程推理場景。

在場景一中，K2.6成功在Mac本地下載并部署了Qwen3.5-0.8B模型，并跨語言使用相對小眾的Zig語言實現并優化了模型推理。在超過12小時的不間斷運行中，K2.6經歷了14輪迭代、調用工具逾4000次，將吞吐量從約15 tokens/s拉升至193 tokens/s，最終實現了比LM Studio快20%的推理速度。

在場景二中，K2.6完成了對擁有8年歷史的開源金融撮合引擎exchange-core的重構。它不僅精準修改了4000多行代碼，更深入分析了CPU及內存分配火焰圖以定位隱蔽瓶頸，大膽將核心線程拓撲結構由4ME+2RE優化為2ME+1RE。歷經13小時的連續作業，在引擎性能已近極限的前提下，仍將峰值吞吐量大幅提升了133%。

除了后端優化，K2.6還進化了由代碼驅動的設計能力。

憑借對圖像和視頻生成工具的融合，K2.6的Agent能夠根據視覺素材生成風格高度統一的專業級Web應用，能夠構建出視覺焦點突出的首屏區（Hero Section），并且實現各種交互元素和豐富的滾動觸發等動效。

（待插入官方視頻）

在專門的前端開發設計評測基準Kimi Design Bench中，Kimi K2.6 Agent與 Google AI Studio的Gemini 3.1 Pro進行了對比測試。結果顯示，用戶評審中有47.5%認為Kimi K2.6 的生成效果更佳，31.4%認為Gemini 3.1 Pro更好，21.1%認為兩者表現相當。

K2.6 Agent也支持基礎的后端數據庫模塊，例如在生成網頁中嵌入表單信息收集的功能。

三、300個Agent集群大協同，持久自主運行5天無干預

由K2.6驅動的“Agent集群”架構此次也迎來了全面升級，目前最多可支持300個子Agent并行完成4000個協作步驟。這種集群架構能夠調度不同技能特長的Agent互補協作，在單次運行中獨立完成從文檔到網頁、PPT及表格的多產物端到端交付。

例如，在面對全球100個半導體標的時，Agent集群能夠自主設計并執行5套量化策略，將麥肯錫風格的邏輯轉化為可復用的技能，最終交付詳盡的建模表格和整套匯報演示文檔。

（待插入官方視頻）

在學術領域，Agent集群還能將一篇包含海量視覺數據的高質量天體物理論文，轉化為長達7000字的研究報告、2萬多條結構化數據和14張天文級圖表。

（待插入官方視頻）

此外，K2.6針對OpenClaw、Hermes Agent等主動式Agent框架的協同能力也得到了顯著增強。這類工作流要求AI跳出傳統的對話交互，以后臺常駐的形式主動管理計劃并協調跨平臺操作。

Kimi RL基礎設施團隊利用基于K2.6的Agent，實現了連續5天的自主運行。由Agent負責監控、故障響應和系統運維，體現了其上下文維持能力、多線程任務處理能力，以及從接收告警到徹底解決的全流程執行能力。

（待插入官方視頻）

四、Office辦公能力精進，Agent模式內置上百個Skill

在實用性落地方面，Kimi Agent模式已內置上百個官方推薦技能。例如內部專家打造的投研技能包，能讓用戶一鍵生成專業排版的公司一頁紙或深度研報。

為了降低創建門檻，K2.6還推出了“Office文檔轉技能”功能，用戶只需上傳高質量文檔，Kimi即可理解其結構與風格基因，自動生成專屬的可復用文檔創建技能。

值得注意的是，Kimi團隊此次還拋出了有關“Claw群組”的預告。該模式目前正在小范圍內測，這一方向旨在打破“人機單線交互”的邊界，將人類與各類全天候Agent置于同一個辦公群組中。

在Claw群組生態里，用戶可以接入來自任何設備、任何供應商、運行任何模型的全天候 Agent，每個Agent自帶專屬工具包、技能和記憶上下文。

無論是部署在本地筆記本電腦、移動設備還是云端實例，這些各異的Agent都能進入同一個協同辦公群組。

而K2.6將作為“群組協調者”，根據Agent的技能畫像和可用工具動態匹配任務，實現能力的最優配置。

當某個Agent遇到故障或停滯時，協調者會檢測到中斷，自動重新分配任務或生成子任務，并對Agent交付物的全生命周期（從啟動、驗證到完成）進行主動管理。

結語：開源再迎強者，K2.6或將成為“Agent新標桿”

K2.6的發布與開源，既標志著Kimi在代碼能力、長程任務執行和Agent協作上再度拉開差距，也為開發者社區提供了可直接落地的多模態工具。通過支持前端復刻、后端集成、長程編碼及多Agent協作，K2.6將復雜任務的實現門檻進一步降低，使專業級Web應用、學術分析和量化策略等場景能夠快速實現。

在開源生態中，這種高性能、多模態、可復用的Agent能力或許標志著行業進入一個新的階段。

可以預見，隨著K2.6 Agent模式和Claw群組的進一步推廣，開源社區將在多模態智能體落地、復雜任務自動化及跨平臺協作上迎來更多創新機會，而K2.6也將成為下一階段開源生態中的一大參考標桿。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.