![]()
眨眼間,2026年2月了,
AI界的春節,
真的是模型下餃子。
當下,有三件事值得看,
1. ClaudeOpus4.6(閉源)
+Claude Sonnet 4.6(閉源)
![]()
2. GPT-5.3-Codex(閉源)
+ Germini 3.1 Pro(閉源)
3. KimiAgent產品
+Kimi K2.5模型(開源)
![]()
畢竟,閉源模型能知道的不多,
也就開源的有技術報告可以挖挖。
這一次,我和以下專家進行討論:
武漢人工智能研究院研究員朱貴波博士,
華為盤古大模型核心算法工程師,
阿里云無影AgentBay工程師,
波士頓動力(Boston Dynamics)強化學習算法工程師,
一位Kimi的產品同學。
我尊重專家的匿名意愿。
![]()
幾個核心觀察,
1.Agentic模型已是當下主流,打法是啥?
有別于此前(約12個月前)的推理模型,
大模型公司沒有拿得出手的這類Agentic模型,
面子砸在地板上。那打法是啥?
![]()
第一,如果模型與產品的協同得不好,
模型就會替代產品,
甚至“蠶食”產品功能。
Cursor被ClaudeCode賦予了更強的產品能力,
但是ClaudeCode出來也快干掉Cursor了。
包括Claude Cowork問世,
也干掉了一些創業公司。
模型能力增長干掉產品,干掉創業公司,
在AI圈不是新聞。
當然,Agentic模型還有更大的甜點,
在于和MaaS平臺協同,這個此處按下不表,
另篇他論。
第二,模型和產品協同得好,
模型讓產品贏在起跑線。
Agentic模型為提高了產品贏的概率,
產品經理有機會做出更強的產品,
因為,內建的“執行能力”在處理復雜任務上,
比從產品層面處理,高了一個維度。
Agentic模型的這種訓練,
不僅有目的,而且有針對性,
這個思路的效果,在KimiAgent產品上能看到。
整體上,是存在模型往上螺旋上升,
蠶食產品的現象,
所以,產品只能被逼著繼續往上去卷新的場景。
但是到底哪個速度更快?
哪個影響力更大?尚未定論。
2.很多老金礦的價值,誰都不能低估。
第一,強化學習是口老金礦,
單輪反饋強化學習卷完,卷Agentic RL,
Kimi和Anthropic在卷群體智能強化學習,
Opus 4.6模型和Kimi K2.5模型都用到了。
群體智能強化學習思路很簡潔,
但是怎么實現成為關鍵,
理論牛不牛似乎不在是決定性,
誰能用極致工程能力做出來,
在更大的規模上做出來,效果好,誰才牛。
![]()
第二,與視覺模態融合也是老金礦,
視覺給模型加持能力,
本質是模態融合得好,
理解能力進一步提高,
場景價值也能突顯,
比如,Agent這個場景,
它會因為視覺的存在更加智能。
篇幅有限,挑重點講,后面再寫。
![]()
Agentic模型到底在卷什么?
先談Agentic模型,
也就是專注Agent的這種,
不是光吐字那種,
比如,KimiAgent在辦公場景
(牛馬大戰PDF/Excel等),
直接6到飛起。
不用Ctrl+C按到手抽筋了,
這里的干活是指動手干辦公室臟活累活(任務),
不是吐字寫稿那種。
我有一個word列表,每年都整理,
文章標題,發稿時間,閱讀量,點贊數……
全年的量也不少,
再讓我手動粘成excel表,
想得美,
我的耐心,
已經在做Word文件的時候用完了。
這事必須AI來。
好處享受了,看看原理。
Kimi K2.5模型開源了,還配有技術報告:
《Kimi K2.5: Visual Agentic Intelligence》。‘
![]()
Kimi的節奏一向很快,
早在2025年11月中旬,
Kimi Agent的底層模型,
還是Kimi K2 Thinking模型,
到2025年12月的時候,
Kimi的Agent模式的底層模型是
Kimi K2.5。
可以看到,K2.5是典型的Agentic模型。
這模型有啥好?
當然,我可以捏著鼻子,
學ChatGPT說話:
“這類大模型性能的提升,
標志著人工智能向自主,
深度思考,工具協作的方向邁出了重要一步。”
Agentic模型為啥強?
在我眼里,大模型的本質就是,
你喂給它啥,它就會啥。
你想讓它會使用工具,
那就給它喂調用工具的數據。
當下是這類模型的時間窗口期,
廠商為了搶奪排位,又不少花錢,
沒有萬卡,很難加入戰斗。
而譚老師我買Claude Code會員的錢,
都快要辦分期了。
造的人和用的人都狠狠花錢,
AI再繼續漲價,人類可能要從昂貴的AI手里,
把失去的工作搶回來了。
聊完錢,再聊能力。
Agentic能力變強到底指啥能力變強?
指的是模型在干活的時候,
如何自己拿主意干活,
如何分步驟思考
如何把活干完,
數據就需要是:
工具怎么調用來的?調用的結果是啥?
你想讓它按步驟干活,
那干的活需要分哪幾個步驟等等。
總結下來就是:
第一,干活前,分解規劃:拆任務,拆步驟;
第二,多個工具一起干活,
該用哪個工具,還用得好。
第三,在相對長的時間內,執行多輪交互的任務。
第四,任務中,能來回調整,干出好結果。
這四個能力怎么訓練得到,就得廠商各自摸索。
常見的技術:
多任務管理、跨模態處理、長時推理。
目標都是提高模型干活時的能力。
![]()
過程就是把干活的那個結果寫訓練到模型里面。
Kimi產品同學說得很中肯,
“Kimi的Agent模式有了智能體的這種智能感”,
他也謙虛地說:
“但是,絕大多數有生產力價值的這種場景,
其實AI還是沒有服務得很好。
最核心的是,把模型能力做好,
排在對產品差異化的考慮之前。”
聽他這么說,相信Kimi內部,
對于模型和產品的博弈哲學有很深的思考。
![]()
強化學習這口老金礦,Kimi怎么挖的?
智能體從串行到并行了?
不能這么說。為此,
我請教了波士頓動力公司強化學習算法工程師,
他這樣告訴我:
群體智能(Swam)不是新概念。
本質上,智能體可以是一個比較強的中央式系統。
而這種多智能體系統是什么樣的呢?
首先,有一個比較強的中央系統,
再加上一堆執行器,
你可以理解為,它大腦很強。
但是,實際去執行工作的那些末端,
是飛機也好,是機器人也好,
甚至是一些小東西,
比如這些個程序也好,
所執行的東西并不復雜。
像Anthropic公司的Opus 4.6那樣,
它主要的工作其實是調度各種模型的過程。
這個調度本身并不復雜,
關鍵在于每個模型本身的執行能力,
這些模型每個都非常強大。
以前的智能體,每個智能體的算力可能沒那么強,
更多是依靠“大腦”來給它們詳細具體指令,
甚至包括一些細微的操作。
指導不細,干不好。
現在的這種智能體,你可以理解為,
它們之間的交流,
更像更接近于人與人之間的交流方式了。
這是因為本體智能的能力的上限不斷提升,
同時,能夠完成的任務周期時間也會越來越長。
所以說,智能體通過這樣的協作的模式的轉變,
辦事方式有變化。
過去的智能體怎么辦事呢?
一個智能體在那吭哧吭哧搞很久很久。
但是,這么玩是有上限的,
任務的復雜度不可能是非常高。
而現在挑戰不同了,
寫一個編譯器(Compiler)。
那么復雜的工作,僅僅通過一條提示詞,
或者說現在單個智能體能干的活,
以前的智能體做不到,因為上難度了。
編譯器現在被Anthropic做到了,
雖然這是一個昂貴實驗(2萬美元)。
![]()
在這個背景下的話,
你如何把多個智能體的智力按什么方式融合。
我覺得,在這個時間點上的話,
大家都已經在往這個群體智能的方向去想了。
另外,本質上,
這也是一種Scaling(規模擴展)技術.
過去,我們在擴展能力時,
主要是通過增加模型的上下文長度
(Context length),
和擴展模型的參數量來實現。
現在,擴展的重點變成了增加智能體的數量。
以前有過討論:如果我投入相同的算力,
是應該擴展智能體的數量,
還是應該擴大每個子智能體的規模,
讓它們具備更強的記憶能力?
這兩種方式大家都探索過很多,
很值得繼續討論,
如果你有好觀點,也歡迎探討交流。
再細看Kimi K2.5,
會發現一個有意思的點:
K2.5的Agent Swarm,
有一個Orchestrator(可訓練編排器)
每個智能體都被分配了具體的任務。
比如,AI研究員、物理研究員、
生命科學研究員等,
這是中心化的思路。
![]()
每個智能體的訓練目標是幫助整體群體完成任務,
而不是單獨優化自身行為。
這個獎勵函數用來衡量群體任務完成的質量,
由三個方面組成。
首先是并行度,任務越多、
智能體能同時完成的子任務越多,獎勵就越高。
其次是每個子任務完成的情況,
任務完成得越好,獎勵越高。
最后是整體任務的完成情況,
如果整體任務成功了,獎勵就越大。
獎勵也不是簡單的累計。
并行度和子任務完成度兩個方面的獎勵
有兩個權重,一個叫λ1,一個叫λ2。
接下來調整權重,
最后,還是以總體任務的成功率為準,給獎勵。
另外,資源限制方面,就是任務也不能無限多。
而Kimi K2.5訓練數據的獲取方式,
主要是通過合成的方式,
即拿到“提示詞訓練集”(Prompt Construction)。
Kimi K2.5展現了群體智能的潛力,
好巧不巧,這點和Opus 4.6,
“英雄所干略同”。
![]()
![]()
視覺是一等公民了嗎?
我們接著聊,
譚老師我歷來把視覺作為重點,
從未敢輕視。
有文章為證《2023年終盤點:圖文大模型編年簡史》
Kimi K2.5也把視覺視為重點,
你在知乎上好好看看Kimi的VLM算法小哥哥寫的感想,
發自內心的成就感,噴薄而出。
反觀有的大廠,GitHub口碑真是不忍直視。
其實,Kimi K2.5技術報告有幾個重點:
一個是視覺,一個是群體智能;
你說是什么超級革新的方法嗎?
表面上看都不是,
專家笑談:“這個方法雖然大家都知道,
但是真正訓出來的,也沒幾家。”
我始終認為,視覺是一個要死磕的技術路線,
最堅定的追隨者,非谷歌Gemini莫屬,
人家從頭到尾,一路死磕融合。
Nano、Banana這些小模型做PPT,
畫圖、文生圖效果賊穩,
現在連學生寫論文都用Gemini畫流程圖了
那些字、那些示意框,比以前準太多。
提示詞遵循得特別好,
畫流程圖時字在哪、
箭頭怎么指都明明白白。
這也是同一棵果樹上摘的果子(重視視覺融合)。
Kimi這次也是摘到果子了。
他們的算法工程師,
不認為K2.5是一個傳統意義上的VLM。
MoonViT這個架構,
對前序工作借鑒的基礎上,
數據上下的功夫也不少,
扛住了預訓練視覺數據15T總訓練量的規模,
圖片是2維,視頻3維,
給視覺提供了多一維度的信息量,
只要能處理的好額外學習時序和動態這部分獨特的能力,
性能可按預期提升。
K2.5所用的方法,
總是深思熟慮且實用,
比如,用一個極小的輸入來激活視覺能力,
這樣不僅有效,
且避免了傳統方法中,
對大量視覺數據的依賴。
通過冷啟動,讓模型能夠迅速啟動視覺能力,
使得視覺信息直接融入到文本推理過程當中。
用有限的數據量,
激活視覺能力。
![]()
這樣,有了K2 Thinking的能力,
(也就是上一版發純文本模型的能力),
視覺能力強,
Tool use能力也很強。
力圖多訓練出一個維度,
性能就上一個大臺階。
雖然阿里Qwen模型先發優勢極大,
而Kimi呈現出強勢的追趕勢頭。
有好看的了。
![]()
One More thing
思考得科幻一些,
AI寫代碼的產品從第一天起,
就是Agent形態的,
未來,代碼模型和Agent模型,
是否可能會匯合成一套,
反正模型也是把API視為工具的一種,
如果匯合成為一個大類,
而這一類大大有別于大語言模型,
也就是說,這兩類可能會走出模型差異化的道路。
AI的世界,卷卷更精彩。
(放一些PPT成果)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.