337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

被指又一次DeepSeek時刻,實測kimi K2 Thinking被這幾道題難住了

0
分享至

作者|子川

來源|AI先鋒官

日前,月之暗面開源了最新一代大模型Kimi K2 Thinking。

新模型一經推出,好評如潮!

HuggingFace 聯合創始人Thomas Wolf 甚至毫不吝嗇的表示,“我們正在見證又一次 DeepSeek 時刻”。


知名學者Alvin Wang Graylin 也夸贊,其已經超越西方的閉源模型。


為什么此次月之暗面推出的Kimi K2 Thinking這么受歡迎?

我們接著往下看。

根據AI分析機構Artificial Analysis的評估,Kimi K2 Thinking在智能體相關任務中表現非常突出。

比如,在Artificial Analysis智能指數中,獲得67分。


這一成績使其領先于所有的其他開源模型,包括最近發布的MiniMax-M2和DeepSeek-V3.2-Exp,僅次于GPT-5。

在智能體工具調用 (2-Bench)測試中,Kimi K2 Thinking得分高達93%,是目前第三方機構測量到的最高分。


在在Humanity’s Last Exam(人類終極考試)評測中,Kimi K2 Thinking在無工具情況下的得分為22.3%,僅次于GPT-5和Grok 4。


這成績已經不是國產SOTA了,當之無愧又一次的DeepSeek時刻。


據介紹, K2 Thinking 的參數規模高達萬億。

但其運行成本仍然很低,其 API 價格是百萬 token 輸入 0.15 美元(緩存命中)/0.6 美元(緩存未命中),每百萬 token 輸出 2.5 美元。


那K2 Thinking的實際效果到底如何?

老規矩,我們實測一番。

由于現在的模型的能力越來越強,并且有很多變量的存在,簡單的題目已經無法測出模型的能力了。

于是我們決定用歷屆模型經常翻車的問題來逐一刁難它,看K2 Thinking究竟是否會翻車!(關閉搜索)

測試題一:愛心視覺錯題

這是最近最火的一道視覺測試題,測試模型是否可以看到圖片中的愛心。

目前沒有一個模型回答正確,看K2 Thinking是否能回答正確。


K2 Thinking同樣沒看出圖片中的愛心圖標,它的回答是“一個圓形的圖案漂浮在背景之上”。

測試題二:數值比較

測試題很簡單,9.11-9.9=?

看這次K2 Thinking能否答對!


回答正確!并且還很貼心的把計算過程列出來了。

測試題三:數數題

“strawberryrrrrrr"中有幾個字母“r"。

同樣這道題對于我們來說非常簡單,但對大模型的難度可不一般,此前多款頂尖模型拜倒在這道題的石榴裙下。

為了防止之前的題目會訓練過,所有我們在“strawberry”的基礎上,多在了6個“r”。


依舊回答正確,并且明確指出"strawberry"部分有 3個“r”,后面的"rrrrrr"部分有 6個“r”。

測試題四:竹子過門

一根5米長的竹竿,能不能通過高2米、寬2米的城門?

同樣這道題我們也做了簡單從處理。


終于,被這道題難到了,不過也很正常,這道題很多模型都回答不出。

下面再來道非常燒腦的邏輯題。

測試題五:愛因斯坦斑馬問題

提示詞:

1、 一條街上有五座不同顏色的房子,每座房子住著不同國籍的人,每個人有不同的職業,喝不同的飲料,養不同的寵物。

2、英國人住在紅色的房子里;

3、西

班牙人養了一條狗;

4、日本人是一個油漆工;

5、意大利人喜歡喝茶;

6、挪威人住在左邊的第一個房子里;

7、綠房子在白房子的右邊;

8、攝影師養了一只蝸牛;

9、外交官住在黃房子里;

10、中間房子里的那個人喜歡喝牛奶;

11、喜歡喝咖啡的人住在綠房子里;

12、挪威人住在藍色的房子旁邊;

13、小提琴家喜歡喝橘子汁;

14、養狐貍的人所住的房子與醫師的房子相鄰;

15、養馬的人所住的房子與外交官的房子相鄰。

先給大家公布正確的答案。


回答錯誤,再次難倒。


為了更全面的了解K2 Thinking的能力,我們再來測試幾道編程題。

測試題六:使用 p5.js 創建一個精彩的動畫

整體體驗非常流暢,效果十分不錯。

上上難度,來一個非常經典的編程題。

測試題七:天氣卡片

提示詞:

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

基本上提示詞上所有的功能都實現了,而且呈現的動畫效果依舊流暢。

看來難度不夠,最后再來一個非常復雜的游戲編程題。

測試題八:3D打磚游戲

提示詞:

“創建一個完全由鼠標控制的3D打磚塊游戲:

1.使用Three.js構建沉浸式3D場景,包含以下核心組件:可左右滑動的玩家擋板(Paddle):通過鼠標水平移動控制;具備物理屬性的彈跳球體:初始速度適中,碰撞后遵循反射定律;多排彩色懸浮磚塊(Bricks):不同顏色對應不同分值

2.物理效果要求:碰撞檢測:球體與磚塊/擋板/邊界精確碰撞;動態反彈:擋板不同位置碰撞改變球的水平反彈角度;重力模擬:球體運動軌跡呈自然拋物線

3.游戲機制:計分系統:擊碎磚塊實時計分(普通磚=10分,金色磚=50分);生命值:初始3條命,球掉落底部則扣除生命;速度進化:每擊碎10塊磚,球速提升15%

4.視覺特效:磚塊擊碎時觸發粒子爆炸效果;球體運動軌跡添加動態拖尾光效;擋板碰撞時出現環形沖擊波動畫

5.交互增強:實時顯示分數和生命值HUD;游戲結束界面顯示最終得分+重新開始按鈕;添加碰撞音效(使用Web Audio API)”

同樣這次功能都基本實現了,不過也出現些許bug,無法移動到最左側。

看來這次程序員有福了,編程能力辣么強,而且價格又低,簡直就是代替Claude sonnet 4.5的不二之選。

總的來說,K2 Thinking能力確實非常頂,上述的測試題都僅測試了一次,特別是編程題,完成度很高。

大家感興趣的可以去體驗一下,K2 Thinking已上線Kimi啦。

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

往期文章回顧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
別再只盯著中東了,這才是大事!全球局勢即將巨變!

別再只盯著中東了,這才是大事!全球局勢即將巨變!

斐君觀點
2026-03-29 08:27:19
韋德盛贊詹姆斯:有人說喬丹更強或什么人更強 但他依然故我

韋德盛贊詹姆斯:有人說喬丹更強或什么人更強 但他依然故我

仰臥撐FTUer
2026-03-29 10:58:06
厲害了我的國!終于開始戰略反攻了!

厲害了我的國!終于開始戰略反攻了!

達文西看世界
2026-03-28 12:01:24
四川,中國最后的底牌,沒有之一!

四川,中國最后的底牌,沒有之一!

毛豆論道
2026-03-28 20:43:47
3月27日,央一、央八、東方、浙江衛視黃金檔排播4部新劇

3月27日,央一、央八、東方、浙江衛視黃金檔排播4部新劇

小椰的奶奶
2026-03-29 09:19:35
這下不吹了,俄烏兩軍連續大戰,打破一個又一個“無敵”武器神話

這下不吹了,俄烏兩軍連續大戰,打破一個又一個“無敵”武器神話

策略述
2025-11-12 18:42:46
這是田曦薇的素顏照,你還能第一眼認出來她嗎

這是田曦薇的素顏照,你還能第一眼認出來她嗎

TVB的四小花
2026-03-29 00:11:41
最后5米!菲律賓用仁愛礁同款戰艦硬剛054,中國戰艦喊話失效

最后5米!菲律賓用仁愛礁同款戰艦硬剛054,中國戰艦喊話失效

健身狂人
2026-03-28 20:30:43
最壞情況發生,美軍艦載機在沿海被擊中,白宮意識到大國出手了!

最壞情況發生,美軍艦載機在沿海被擊中,白宮意識到大國出手了!

無情有思ss
2026-03-27 19:41:34
6月1日起,疲勞駕駛新規執行!網約車司機一天跑車不能超過8小時!

6月1日起,疲勞駕駛新規執行!網約車司機一天跑車不能超過8小時!

用車指南
2026-03-29 10:05:37
中美對話談崩了,散場不到24小時,中方不留情面,立案調查美國

中美對話談崩了,散場不到24小時,中方不留情面,立案調查美國

老黯談娛
2026-03-29 10:19:09
巴拿馬港口已亂套,長和索賠20億再加碼,信用評級暴跌無人敢投

巴拿馬港口已亂套,長和索賠20億再加碼,信用評級暴跌無人敢投

小舟談歷史
2026-03-28 19:06:38
在古代,為什么不通過下毒來殺掉皇帝?溥儀:壓根沒吃過一頓熱飯

在古代,為什么不通過下毒來殺掉皇帝?溥儀:壓根沒吃過一頓熱飯

史之銘
2026-03-27 17:08:27
男人的生理需求能有多難忍?網友:我對我老公只有動物本能

男人的生理需求能有多難忍?網友:我對我老公只有動物本能

帶你感受人間冷暖
2026-02-07 03:58:56
春晚的“病根”,終于被揪出來了。

春晚的“病根”,終于被揪出來了。

果媽聊娛樂
2026-02-13 11:42:36
李鑫回到養家開懷大笑,終于明白,一句話斷了姐姐念想是對的

李鑫回到養家開懷大笑,終于明白,一句話斷了姐姐念想是對的

奇思妙想草葉君
2026-03-27 15:12:36
中國最丑18大建筑:南京衛生巾、昆山螃蟹,不忍直視!

中國最丑18大建筑:南京衛生巾、昆山螃蟹,不忍直視!

秘密即將揭曉
2026-03-25 16:56:26
1299 元!剛發布 10100mAh新機,把我看呆了

1299 元!剛發布 10100mAh新機,把我看呆了

科技堡壘
2026-03-27 12:35:52
親戚借車從不加油,這次他故意空著油箱給她,她老公卻急了:我上次不是剛加了600塊的油嗎!

親戚借車從不加油,這次他故意空著油箱給她,她老公卻急了:我上次不是剛加了600塊的油嗎!

品讀時刻
2026-03-25 09:04:33
越扒越有!張雪峰去世早有征兆,他的2個壞習慣,或成催命符

越扒越有!張雪峰去世早有征兆,他的2個壞習慣,或成催命符

金哥說新能源車
2026-03-29 02:35:24
2026-03-29 12:59:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
466文章數 69關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

媒體:中東戰火燒了一個月 全球最大產油國美國卻慌了

頭條要聞

媒體:中東戰火燒了一個月 全球最大產油國美國卻慌了

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

張凌赫事件持續升級!官方點名怒批

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

家居
健康
本地
公開課
軍事航空

家居要聞

曲線華爾茲 現代簡約

干細胞抗衰4大誤區,90%的人都中招

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地損失最新披露

無障礙瀏覽 進入關懷版