![]()
智東西
作者 江宇
編輯 心緣
智東西4月21日報道,昨夜,Kimi正式發布并開源旗艦模型K2.6,帶來其迄今最強的代碼能力、長程任務執行和Agent集群能力。
![]()
根據官方公布的多項基準測試,Kimi K2.6在博士級難度的“人類最后的考試”(Humanity’s Last Exam)中,K2.6以54.0%的得分位居第一;在評估Agent深度檢索能力的DeepSearchQA中,更是以92.5%的高分大幅領先GPT-5.4和Gemini 3.1 Pro,小幅超過Claude Opus 4.6。此外,在考察真實軟件工程能力的SWE-Bench Pro中,K2.6以58.6%的成績領先所有閉源模型。
同時,K2.6在通用智能(General Agents)、編程能力(Coding)和視覺理解能力(Visual Agents)上均展現出了綜合競爭力。
不過,從數據細節來看,K2.6在部分維度仍有追趕空間。在SWE-bench多語言測試中,K2.6略遜于Claude Opus 4.6 和Gemini 3.1 Pro;而在Toolathlon復雜工具調度任務中,K2.6雖優于Claude Opus 4.6 和Gemini 3.1 Pro,但仍排在GPT-5.4之后。此外,在MathVision和V等視覺測試中,K2.6的表現與GPT-5.4相比也仍存在一定差距。
綜合來看,K2.6在跨模態推理、工具調用及長程任務執行上表現穩健,多項能力上已達到或接近頂尖閉源模型水平。
![]()
近期,國內外大模型賽道近期動作頻頻。上周五,Anthropic發布了新一代旗艦模型Claude Opus 4.7;昨日,阿里發布了其下一代旗艦模型的早期預覽版Qwen3.6-Max-Preview;而行業最期待的“開源猛獸”DeepSeek V4也有望在本周內降臨。這一波國內外旗艦模型的集體“上桌”,意味著大模型格局的洗牌時刻即將到來。
新一代K2.6可連續編碼13小時、處理超過4000行復雜代碼,支持多語言前后端開發,并通過圖像與視頻生成工具深度融合,實現專業級Web應用復刻和視覺焦點設計。官方示例顯示,K2.6可將復雜圖像和視頻素材轉化為可運行前端代碼,復刻經典網頁或動畫交互場景。
(待插入官方案例的視頻)
此外,Kimi K2.6大幅增強了Agent自主執行能力:由K2.6驅動的Agent集群架構可支持300個子Agent并行完成4000個協作步驟,實現更大規模并行化,任務完成度和交付質量相比K2.5顯著提升。在涵蓋了多種復雜端到端任務的、Kimi內部代碼評測基準Kimi Code Bench中,K2.6的成績比K2.5提升了約20%。
![]()
在OpenClaw、Hermes Agent等主動式Agent框架中,K2.6可持續自主運行長達5天。內部Claw Bench測試顯示,K2.6綜合性能較K2.5提升10%,在單次運行中即可獨立完成從文檔到網頁、PPT及表格的多產物端到端交付。
![]()
在海外,開發者對K2.6的反饋也十分積極。有開發者稱,使用K2.6進行網頁和前端交互設計“體驗極佳,幾乎是現階段最佳”,能夠輕松處理代碼、圖像、視頻和動畫素材。
![]()
還有用戶稱,用該模型制作前端效果“令人驚嘆”,目前可能是同類工具中最強體驗。
![]()
另一位開發者則關注到模型的BF16權重上傳量為595GB,認為在開源生態中極具競爭力。
![]()
在API方面,K2.6維持分級計費模式,但相比K2.5價格有明顯上漲。具體來看,K2.6每百萬Token的輸入價格為6.5元(緩存未命中),較K2.5的4元上漲了約62.5%;緩存命中情況下的輸入價格為1.1元,較之前的0.7元也有所提升;而輸出價格則從21元上調至27元。在窗口容量上,K2.6提供了262,144 Token的上下文窗口支持。
![]()
目前,Kimi Agent模式已內置上百個官方推薦技能,支持創建和調用Skill。Agent集群可調度不同技能特長的Agent互補協作,將搜索、深度研究、文檔分析和長文創作等能力組合完成復雜任務。
同時,Kimi團隊也在探索“Claw群組”這一方向,已在小范圍內測階段。
Kimi K2.6現已上線kimi.com、最新版Kimi應用、Kimi API和Kimi Code編程助手,所有用戶可立即使用。智東西也進行了一番實測,我們在K2.6 Thinking模式下完成了兩個多模態創意案例。
快速體驗:kimi.com
使用Kimi API:https://platform.kimi.com/docs/guide/kimi-k2-6-quickstart
開源地址:
Hugging Face: https://huggingface.co/moonshotai/Kimi-K2.6
一、手搓3D沙盒游戲、精繪體素鵜鶘,K2.6一手實測
為了直觀驗證K2.6的多模態與代碼生成能力,我們在K2.6的Thinking模式下進行了兩個具挑戰性的創意實測。
第一個體驗案例是要求K2.6制作一個3D橫版格斗游戲。
提示詞:制作一個單文件HTML的3D橫版格斗游戲,場景為被霸天虎入侵的破敗城市地圖,敵人為類人型賽博坦機器人,包含武器后坐力效果,采用低多邊形風格并帶有卡通美學。游戲開始時,玩家位于街道上,周圍有建筑廢墟;游戲中應包含可被擊倒的細節物品,如汽車、樹木、石塊/瓦礫和自動售貨機。玩家可以選擇5種擎天柱陣營角色進行游戲,并與5種霸天虎變種敵人戰斗,這些敵人會不斷生成,游戲為無限時間的沙盒模式。
![]()
從實測結果來看,K2.6在游戲邏輯與元素還原上表現出色,提示詞中要求的汽車、廢墟等環境元素都有著不錯的呈現,5種擎天柱陣營角色也如約而至。
![]()
不過,在空間坐標的理解上出現了疑似提示詞污染的問題——由于是“3D橫版”,最終玩家控制的角色移動方式變為了上下移動,而非橫版游戲中常見的左右移動。
第二個體驗案例是創建一個“騎自行車的鵜鶘”的3D像素藝術作品。
提示詞:創建一個騎自行車的鵜鶘的3D像素藝術作品。盡可能將場景刻畫得非常細致,注意主體模型上的每一個小細節,同時也要考慮周圍環境的細節。在一個 HTML 代碼塊中完成制作,將代碼寫得足夠優秀,以展示你的水平超越其他作品。我賦予你完全的創作自由,盡情發揮。
(待插入體驗視頻)
K2.6生成的畫面相當精美,提供了日景與夜景兩種環境選擇,并支持手動調節騎行速度。鵜鶘的身體結構與騎行姿態自然合理,自行車的車架、鏈條、座椅等細節也非常完整。但是在運動狀態下,鵜鶘腳部的踩踏動作與腳踏板的物理運動軌跡存在不同步,不符合物理常識。
總體而言,其多模態理解與前端代碼輸出的結合已經達到了較為出色的完成度。
二、連續編碼13小時,長程編碼能力有所突破
長程編碼能力是此次K2.6最核心的突破之一。
面對真實的軟件工程挑戰,K2.6展現出了硬核的泛化與推理能力,在多種編程語言(如Rust、Go、Python)和復雜任務場景下均能穩定輸出。
Kimi官方也提供了兩個端到端長程推理場景。
在場景一中,K2.6成功在Mac本地下載并部署了Qwen3.5-0.8B模型,并跨語言使用相對小眾的Zig語言實現并優化了模型推理。在超過12小時的不間斷運行中,K2.6經歷了14輪迭代、調用工具逾4000次,將吞吐量從約15 tokens/s拉升至193 tokens/s,最終實現了比LM Studio快20%的推理速度。
![]()
在場景二中,K2.6完成了對擁有8年歷史的開源金融撮合引擎exchange-core的重構。它不僅精準修改了4000多行代碼,更深入分析了CPU及內存分配火焰圖以定位隱蔽瓶頸,大膽將核心線程拓撲結構由4ME+2RE優化為2ME+1RE。歷經13小時的連續作業,在引擎性能已近極限的前提下,仍將峰值吞吐量大幅提升了133%。
![]()
除了后端優化,K2.6還進化了由代碼驅動的設計能力。
憑借對圖像和視頻生成工具的融合,K2.6的Agent能夠根據視覺素材生成風格高度統一的專業級Web應用,能夠構建出視覺焦點突出的首屏區(Hero Section),并且實現各種交互元素和豐富的滾動觸發等動效。
(待插入官方視頻)
在專門的前端開發設計評測基準Kimi Design Bench中,Kimi K2.6 Agent與 Google AI Studio的Gemini 3.1 Pro進行了對比測試。結果顯示,用戶評審中有47.5%認為Kimi K2.6 的生成效果更佳,31.4%認為Gemini 3.1 Pro更好,21.1%認為兩者表現相當。
![]()
K2.6 Agent也支持基礎的后端數據庫模塊,例如在生成網頁中嵌入表單信息收集的功能。
三、300個Agent集群大協同,持久自主運行5天無干預
由K2.6驅動的“Agent集群”架構此次也迎來了全面升級,目前最多可支持300個子Agent并行完成4000個協作步驟。這種集群架構能夠調度不同技能特長的Agent互補協作,在單次運行中獨立完成從文檔到網頁、PPT及表格的多產物端到端交付。
例如,在面對全球100個半導體標的時,Agent集群能夠自主設計并執行5套量化策略,將麥肯錫風格的邏輯轉化為可復用的技能,最終交付詳盡的建模表格和整套匯報演示文檔。
(待插入官方視頻)
在學術領域,Agent集群還能將一篇包含海量視覺數據的高質量天體物理論文,轉化為長達7000字的研究報告、2萬多條結構化數據和14張天文級圖表。
(待插入官方視頻)
此外,K2.6針對OpenClaw、Hermes Agent等主動式Agent框架的協同能力也得到了顯著增強。這類工作流要求AI跳出傳統的對話交互,以后臺常駐的形式主動管理計劃并協調跨平臺操作。
Kimi RL基礎設施團隊利用基于K2.6的Agent,實現了連續5天的自主運行。由Agent負責監控、故障響應和系統運維,體現了其上下文維持能力、多線程任務處理能力,以及從接收告警到徹底解決的全流程執行能力。
(待插入官方視頻)
四、Office辦公能力精進,Agent模式內置上百個Skill
在實用性落地方面,Kimi Agent模式已內置上百個官方推薦技能。例如內部專家打造的投研技能包,能讓用戶一鍵生成專業排版的公司一頁紙或深度研報。
為了降低創建門檻,K2.6還推出了“Office文檔轉技能”功能,用戶只需上傳高質量文檔,Kimi即可理解其結構與風格基因,自動生成專屬的可復用文檔創建技能。
![]()
值得注意的是,Kimi團隊此次還拋出了有關“Claw群組”的預告。該模式目前正在小范圍內測,這一方向旨在打破“人機單線交互”的邊界,將人類與各類全天候Agent置于同一個辦公群組中。
在Claw群組生態里,用戶可以接入來自任何設備、任何供應商、運行任何模型的全天候 Agent,每個Agent自帶專屬工具包、技能和記憶上下文。
無論是部署在本地筆記本電腦、移動設備還是云端實例,這些各異的Agent都能進入同一個協同辦公群組。
而K2.6將作為“群組協調者”,根據Agent的技能畫像和可用工具動態匹配任務,實現能力的最優配置。
當某個Agent遇到故障或停滯時,協調者會檢測到中斷,自動重新分配任務或生成子任務,并對Agent交付物的全生命周期(從啟動、驗證到完成)進行主動管理。
結語:開源再迎強者,K2.6或將成為“Agent新標桿”
K2.6的發布與開源,既標志著Kimi在代碼能力、長程任務執行和Agent協作上再度拉開差距,也為開發者社區提供了可直接落地的多模態工具。通過支持前端復刻、后端集成、長程編碼及多Agent協作,K2.6將復雜任務的實現門檻進一步降低,使專業級Web應用、學術分析和量化策略等場景能夠快速實現。
在開源生態中,這種高性能、多模態、可復用的Agent能力或許標志著行業進入一個新的階段。
可以預見,隨著K2.6 Agent模式和Claw群組的進一步推廣,開源社區將在多模態智能體落地、復雜任務自動化及跨平臺協作上迎來更多創新機會,而K2.6也將成為下一階段開源生態中的一大參考標桿。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.