文 | 字母AI
月之暗面發布了Kimi K2.6,這也是楊植麟的第一個X.6版本。
雖然版本號上只加了0.1,但這不是一次普通的版本更新。
K2.6能在單個工程任務中持續12小時、發起4000多次工具調用;在Agent Swarm場景中,官方稱其可橫向擴展到300個子agent、4000個協調步驟。
它開始真正“做事”了。
更有意思的是,就在K2.6發布前幾天,月之暗面開始急招推理平臺工程師,學歷要求只有“本科”。
3月份招Coding agent工程師時,更是打出“不限學歷”的旗號。
這個博士密度極高、論文產出如流水的頭部AI公司,為什么突然降低學歷門檻?
答案就藏在K2.6里。
0 1 K2.6到底有多能干?
官方披露了兩個工程案例。
月之暗面的工程師讓K2.6在Mac上部署Qwen3.5-0.8B模型,并用一門非常小眾的編程語言Zig,來優化推理性能。
結果呢?K2.6跑了12個小時,發起了4000多次工具調用,迭代了14個版本,最終把推理速度從15 tokens/秒提升到193 tokens/秒,比LM Studio還快20%。
但這不是重點,重點在于,從來沒有人教過K2.6怎么用Zig。都是它自己學的。
另一個案例更夸張。
K2.6接手了exchange-core,一個有8年歷史的開源金融撮合引擎。這個引擎已經被優化到接近性能極限,但K2.6還是找到了突破口。
13個小時,1000多次工具調用,4000多行代碼修改。K2.6像一個經驗豐富的系統架構師,分析CPU火焰圖、定位內存瓶頸、重構線程拓撲。最后,它把中等吞吐量提升了185%,性能吞吐量提升了133%。
這不是在做題,這是在解決真實的工程問題。
K2.6的能力可以歸納為四個方向,但每一個方向都不是簡單的“更強”。
第一是長周期編碼。
以前的AI寫代碼,基本上是“一次性交付”。你給它一個需求,它寫完代碼就結束了。但K2.6不一樣,它能持續工作十幾個小時,自己讀文件、跑測試、看報錯、改代碼、再測試,一直循環到任務完成。
它能跨語言泛化,Rust、Go、Python都沒問題。它能處理不同領域的任務,前端、DevOps、性能優化都能搞定。
企業測試的反饋很直接。Blackbox.ai說:“K2.6為開源模型樹立了新標準,尤其是在長周期、agent風格的編碼工作流中。”Factory.ai的內部測試顯示,K2.6比K2.5提升了15%,指令遵循更好,推理更徹底,編碼錯誤更少。
第二是代碼驅動的設計。
你給K2.6一個簡單的提示,比如“做一個科技公司的落地頁”,它不只是生成HTML和CSS,它會給你一個完整的前端界面,包含結構化布局、精心設計的首屏、交互組件、滾動觸發的動畫效果。
更厲害的是,K2.6已經不滿足于做靜態前端了。它開始做簡單的全棧應用,從用戶認證到數據庫操作,輕量級的場景它都能搞定。
月之暗面建立了內部的Kimi Design Bench,分為視覺輸入任務、落地頁構建、全棧應用開發、通用創意編程四個類別。K2.6在這些類別中的表現,已經可以和Google AI Studio掰手腕了。
第三是agent群體協作。
這是K2.6最讓人震撼的地方。
K2.5的Agent Swarm已經很強了,能協調100個子agent、執行1500個步驟。但K2.6直接把規模擴大到300個子agent、4000個協調步驟。
這不單純是數量上的堆疊。
K2.6能讓不同的agent發揮各自的專長:有的負責廣泛搜索,有的負責深度研究;有的分析大規模文檔,有的負責長篇寫作;有的生成文檔,有的生成網站,有的生成幻燈片,有的生成電子表格。
這些agent在K2.6的協調下,形成了一個整體。
舉個例子。
你給K2.6上傳一篇高質量的天體物理學論文,它能把這篇論文轉化為一個“技能”。
提取論文的推理流程、可視化方法、寫作風格。然后,它能基于這個技能,產出一篇40頁、7000字的新論文,外加一個包含20000多條記錄的數據集,以及14張天文級圖表。
第四是主動式agent。
K2.6不再是傳統的那種,只有你發了指令它才會行動的工具,K2.6開始主動工作了。
月之暗面的強化學習基礎設施團隊做了一個實驗,讓K2.6支持的agent自主運行5天,負責監控、事件響應、系統操作。
結果這個agent從告警到解決,全程自己搞定,不需要人工介入。
K2.6在OpenClaw和Hermes Agent這樣的持久化agent平臺上表現出色。它能跨多個應用程序持續運行,7×24小時執行任務,主動管理日程、執行代碼、協調跨平臺操作。
月之暗面建立了內部的Claw Bench,覆蓋編碼任務、即時通訊生態系統集成、信息研究與分析、定時任務管理、內存利用五個領域。在所有指標上,K2.6的任務完成率和工具調用準確性都顯著優于K2.5。
在基準測試中,K2.6的評分就足以說明一切問題。
![]()
HLE-Full(帶工具)得分54.0,超過GPT-5.4的52.1和Claude Opus 4.6的53.0。DeepSearchQA的F1分數92.5,準確率83.0。SWE-Bench Pro得分58.6, SWE-Bench Verified達到80.2。
02 月之暗面也想要一個郭達雅
就在幾天前,月之暗面開始急招Kimi Code平臺推理工程師。這個崗位的學歷要求是“本科”,補充一點,圖片中這個“7年”經驗是招聘發起者自己打錯了,實則為“3年”。
![]()
在這個博士學歷云集、論文產出如流水的頭部AI公司里,竟然會急招一個本科學歷的推理平臺工程師。
更有意思的是,3月份月之暗面招Coding agent工程師時,更是打出“不限學歷”的旗號。
這不是HR寫錯了要求。AI競爭的主戰場,正在從實驗室的算法創新,轉移到代碼智能和agent這樣,生產環境的工程落地。
你說這不巧了嗎,3月份從DeepSeek離職,4月份加入字節的郭達雅,他最擅長的正是agent和代碼智能。
月之暗面也想要一個郭達雅嗎?
可能不止于此。月之暗面想要的,是一個完整的agent生態。
當模型公司開始從論文、榜單、聊天框走向自動寫代碼、自動調用工具、自動完成任務時,瓶頸不再只是算法,也可能是工程師手里的網關、路由、限流、日志和成本表。
推理平臺工程師到底是做什么的?
這個崗位的核心業務,是為agent搭建穩定、可觀測、成本可控的模型調用基礎設施。
具體來說,就是在模型和應用之間建一套調度系統,讓幾十上百次的模型調用能穩定跑起來,成本可控,出問題能查。
工作內容包括這么幾塊。
第一是模型網關。
agent調用模型時不是直接訪問模型API,而是通過網關統一管理。網關負責請求分發、協議轉換、認證鑒權,還要處理不同模型提供商的接口差異。月之暗面已有K系列模型,但Kimi Code這類平臺仍需要多provider適配。
第二是多模型路由。
不是所有任務都需要最強的模型。簡單的代碼補全用輕量模型就夠了,復雜的架構設計才需要重模型。
路由系統要根據任務類型、上下文長度、響應速度要求,自動選擇合適的模型,避免出現高射炮打蚊子這樣的情況。
這需要你得了解不同的模型,知道它們完成不同任務的成本分別是多少,也需要實時的性能監控和動態調整。
第三是成本控制。
推理模型的token消耗是普通模型的數倍。
比如OpenAI的o1系列,它的reasoning_tokens可能是output_tokens的10多倍。這些內部推理標記雖然不返回給用戶,但算力也被消耗掉。
如果沒有精細的限流降級、token用量統計分析,成本會失控。你需要設計配額系統、優先級隊列、降級策略,保證核心業務不受影響的同時控制成本。
第四是鏈路管理。
就跟快遞一樣,貨物到哪了,你得能在APP上查到。
當一個agent任務涉及幾十次模型調用、幾十次工具調用時,就得追蹤好調用鏈路上的每一環。
用戶說“幫我修這個bug”, agent可能讀了十幾個文件、調了五次模型、跑了三次測試,最后失敗了。你需要知道是哪一步出了問題,是模型推理超時、工具調用失敗、還是上下文窗口溢出。
傳統的日志系統很難追蹤這種復雜鏈路,需要專門為agent設計的分布式追蹤、性能監控、異常告警系統。
第五是狀態管理。
之前模型推理是沒有狀態這個概念的。傳統的對話場景很簡單,用戶輸入一句話,模型返回一段文字,一次請求就結束了。
但agent不同,它需要進行多輪推理鏈,一個任務可能觸發幾十甚至上百次模型調用。
所以進入了agent時代,AI需要記住狀態的不是模型本身,而是圍繞模型搭建的agent runtime。平臺要記錄任務進度、工具調用結果、中間產物和失敗現場,并在下一次模型調用時把必要上下文重新組織進去。
早上8點我給模型安排了一個任務,下午我再看這個模型的時候,它就應該是執行過任務的模型。那么任務執行的結果、執行了多少次等信息,就是模型的狀態。
那又是為什么這個技術崗位的學歷門檻只有本科呢?
楊植麟心里明白,如今的月之暗面不缺能開發算法的博士,事實上“高學歷”對于月之暗面來說不是什么稀缺玩意,相反,能把推理能力工程化、產品化的人才是。
招聘簡介里強調“能在需求還不明確的時候自己判斷該做什么”、“還在一線寫代碼”,這種人才在傳統互聯網大廠的基礎架構團隊里有,在AI公司里卻是稀缺的。
17歲的高中生陳廣宇曾以實習生身份加入Kimi,并成為《Attention Residuals》的共同一作;4月初,Kimi又推出“穿越計劃”,尚未畢業的實習生只要通過3到6個月考察,就能提前拿到正式Offer和期權。
一個博士密度極高的模型公司,開始把高中生、在校生納入核心人才池,本質上說明AI公司的用人邏輯變了。
學歷仍是信號,但不再是門票。
真正值錢的是能不能在實際問題里證明自己的價值。
最具代表性的是月之暗面在今年3月份發布的那個“不限學歷”的Coding agent工程師崗位。
![]()
那張招聘海報上寫著:“熟悉Claude Code、Cursor、Codex、Cline等代碼輔助工具,越多越好;能源源不斷地說出Codex比Claude Code垃圾在哪里;能源源不斷地說出Claude比GPT-5垃圾在哪里。”
這些要求看起來有點玩笑的意味,但背后的邏輯很清晰。
月之暗面要的不是論文作者,他們要的是真正用過這些工具、知道坑在哪里、能快速迭代產品的工程師。
月之暗面急需這樣的人,因為他們的模型能力已經到位。
然而要讓這些能力真正支撐起大規模agent應用,基礎設施是瓶頸。當Anthropic的Claude Code上線不到一年ARR就達到25億美元時,楊植麟看到的是一個信號。
下一個階段比的不只是誰的模型參數更多、benchmark分數更高,比的是誰能讓這些能力穩定、高效、低成本地服務于真實業務場景。
這是一個從0到1構建新基礎設施的機會,也是推理計算時代的新職業方向。當AI公司開始為“本科學歷”的工程師開出有競爭力的薪資和期權時,說明整個行業的重心正在轉移。
從實驗室到生產環境,從論文到產品,從算法創新到工程落地,這條路上需要的不只是能發頂會論文的博士,也需要能把系統跑起來、讓用戶用得爽的工程師。
03 月之暗面的深層邏輯
把這些線索串起來,月之暗面的戰略路徑很清晰。
第一層是模型能力,K系列模型覆蓋通用、推理、代碼三個方向。
第二層是工程化,推理平臺讓模型能力可規模化調用。
第三層是生態,開放API,讓第三方基于Kimi構建產品。
這條路在國外是走不通的,企業級AI和開發者工具市場已經被Anthropic、OpenAI、Google等公司高度擠壓,后來者很難再用同樣路徑打開局面。
可是在國內,情況剛好相反。C端產品的競爭已經白熱化,豆包、元寶、千問,每家都在燒錢拉用戶。但B端市場,尤其是開發者工具市場,還有巨大空間。
于是月之暗面選擇了兩條腿走路。
一方面學Claude Code,自己做編程工具Kimi Code,這是直接面向開發者的產品。
另一方面又讓自己的模型適配Claude Code,通過API的方式讓第三方工具調用Kimi的能力,這也是為啥K2.6這么強調agent和代碼能力。
從技術演進的角度看,這是非常合理的。
AI行業正在從“模型創新驅動”轉向“工程化落地驅動”。繼續卷基座模型,比誰的性能更好,可普通用戶已經感受不到差異了。
關鍵問題從“模型夠不夠聰明”變成了“能不能幫我把事兒做成”。
這就需要agent能力,回歸到代碼智能的基本功上。
月之暗面的戰略選擇背后,還有一個更深層的邏輯:數據飛輪。
代碼任務和普通聊天不同,普通聊天很難判斷對錯,但代碼有天然的verifier。
能不能編譯、單測過不過、CI是否失敗、bug是否復現、benchmark是否提升、diff是否合理,這些都是客觀的評價標準。
用戶每一次讓agent改代碼,都會產生高價值軌跡。
讀了哪些文件、用了哪些工具、哪里報錯、怎么修復、測試結果如何。這些軌跡可以反過來做eval、SFT、RL、拒答策略、工具調用訓練。
這就是為什么所有大廠都在搶代碼智能這個賽道,擅長agent和代碼智能的郭達雅也因此變得人人都在瘋搶。
不只是因為開發者市場有付費能力,更是因為代碼任務能夠形成訓練閉環。
在合規授權、脫敏和企業協議允許的前提下,用戶的每一次使用,都會讓這些軌跡可以反過來成為eval、SFT、RL和工具調用訓練的材料。
這種飛輪效應一旦啟動,會形成強大的競爭壁壘。先發優勢會越來越明顯,后來者很難追趕。
月之暗面看到了這一點,所以他們在急招能“做過基礎設施”、“還在一線寫代碼”的工程師。這不只是填補團隊空缺,而是在搶占一個戰略窗口期。
2026年是推理模型從實驗室走向大規模應用的轉折年,誰能先把推理能力工程化、讓開發者用得爽,誰就能占據生態位。
技術能力只是一方面,時間窗口更關鍵。
國內市場的競爭更加激烈。
智譜的GLM-Code、阿里的通義靈碼、字節的豆包代碼助手,每家都在投入重兵。而就在這個節骨眼上,郭達雅從DeepSeek離職,加入字節跳動Seed團隊,擔任agent方向負責人之一。
這個消息在AI圈引發震動,不只是因為他的技術能力,更是因為他的技術標簽太精準了,直接暴露了字節整個2026年的戰略方向。
郭達雅是代碼智能與大模型推理方向的頂尖人才。
從畢業到進入DeepSeek,郭達雅做的是一套可以遷移、可以復用的技術體系。
代碼能力可以遷移到數學推理,數學推理的訓練方法可以遷移到通用推理和agent,這種技術遷移能力正是字節,乃至所有國內AI大廠都需要的。
字節在多模態領域全球領先,Seed 2.0的視頻生成能力有目共睹。
但在數學推理、代碼智能和agent能力上,字節落后于ChatGPT和Claude這樣的競品。
2026年啟動agent與Coding組織整合,梁汝波明確將AI模型能力列為戰略重點。郭達雅的加入,補齊了字節在代碼與推理方向上的關鍵拼圖。
此前有報道稱,郭達雅早在去年10月便已產生離職意向,其關注重點在agent方向,而當時該方向在DeepSeek內部優先級相對有限。
在后續去向選擇中,阿里曾較早與其接觸,提供的崗位是后訓練負責人,管理范圍更大,且在工作地點與現金待遇上具備一定吸引力。
不過最終促成其加入字節Seed團隊的關鍵因素,仍然是在研究方向本身。
字節承諾郭達雅,將agent視為字節的核心方向之一,不僅在模型能力演進中強化agent能力,也在產品側加速相關形態落地。
對于這個邏輯,月之暗面只會看得比我更透徹。
這種急迫不只是人才競爭的壓力,更是戰略窗口期的焦慮。2026年到2027年,可能是agent基礎設施格局確定的關鍵時期。
誰能在這個時間窗口建立起穩定的推理平臺、吸引到足夠多的開發者、形成數據飛輪,誰就能在接下來的競爭中占據主動。
我承認有些標題黨,月之暗面可能并不需要“郭達雅”這個人,但是他的技術標簽“代碼智能和推理能力”,絕對是月之暗面現在最渴望的。
在AI競爭的下半場,能把模型能力變成穩定服務的工程師,它的作用可能和能發頂會論文的博士一樣重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.