337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

美團新模型LongCat-Flash-Thinking-2601重思考模式拉風,附一手對比實測

0
分享至

作者|子川

來源|AI先鋒官

近日,美團重磅更新并開源自家模型LongCat-Flash-Thinking-2601


據介紹,此次發布的模型是LongCat-Flash-Thinking模型的升級版,擁有 5600 億個參數,并基于的 MoE 架構構建。

LongCat-Flash-Thinking-2601 最大的不同,就在于它引入了重思考模式(Heavy Thinking Mode)

簡單來說,這個模式讓模型能同時啟動 8 個大腦思考,從不同角度和深度推理同一個問題,最后總結出一個更全面、更可靠的結論。

給大家看一個簡單的例子就明白了。


提示詞:1+1為什么不等于2


可以看到,重思考模式相當于使用了8個模型同時進行推理工作,最后的給出的8個答案在進行反復驗證,最終會得到一個最終解。


除此之外,LongCat團隊在新模型中加入了額外的強化學習環節,針對性打磨模型的總結歸納能力,從而讓LongCat-Flash-Thinking-2601實現“想清楚再行動”的結果。

不過在體驗的時候,由于相當8款模型同時在推理,所以它的上下文非常容易耗光,會經常返回“當前對話上下文過長,建議精簡輸入后重試”。


那這款模型表現到底如何?我們先來看LongCat-Flash-Thinking-2601的紙面實力。


首先是大家最關注的編程能力上,LCB 評測拿到82.8 分,OIBench EN 評測獲47.7 分,這些成績處于同類模型第一梯隊。

數學推理方面,開啟重思考模式后更猛。

AIME-25 評測中取得100.0 分(滿分),IMO-AnswerBench 中以86.8 分達到當前 SOTA。

智能體工具調用上,τ2-Bench 評測88.2 分,VitaBench 評測29.3 分,均為開源 SOTA 水平。

智能體搜索方面,BrowseComp 任務73.1 分(全模型最優),RW Search 評測79.5 分

最關鍵的是什么?在工具調用的泛化能力上,LongCat-Flash-Thinking-2601 超越了 Claude-Opus-4.5-Thinking。


這一連串的SOTA似乎有點東西,那它的實際效果到底如何? 老規矩,我們直接上手實測。

此次參賽的對手分別是LongCat-Flash-Thinking-2601、DeepSeek-V3.2、Kimi K2 Thinking。

提示詞:
創建一個 3D HTML 山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色,并可切換等高線顯示。

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

可以明顯的看到LongCat-Flash-Thinking-2601的缺陷,對“河流”的幾何理解出現了偏差。它未能生成自然蜿蜒的水體,而是生成了一個圓柱體結構,導致視覺上更像是一根橫亙在山間的“水管”。

而且DeepSeek-V3.2出現了嚴重的幻覺,模型似乎在坐標系構建上徹底迷失,原本應是連綿起伏的山脈和流動的河水,被渲染成了兩條細長的線段。

功能較為完善的只有Kimi K2 Thinking ,山脈起伏、樹木點綴、動態的云朵與太陽一應俱全,光照邏輯也基本成立,但這也不得不吐槽一下,河流也是一條大水管!

或許這條題太難,給它們減低一下難度,做一個簡單的可視化登錄頁面。

提示詞:請創建一個現代化的登錄頁面,包含以下功能:

- 郵箱和密碼輸入框

- 登錄按鈕

- "記住我"和"忘記密碼"選項

- Google第三方登錄

- 注冊鏈接

要求:深色主題,未來科技風格,居中布局,良好的用戶體驗。

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

這次終于扳回一城,對于簡單的登錄頁面的UI,目前的模型已經是手拿把恰了,效果都大差不差,登錄、注冊等功能都有,主要是看每款模型的審美能力。

再換一題,來一個經典老題:天氣卡片,主要是考驗模型的審美能力。

提示詞:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

LongCat-Flash-Thinking-2601DeepSeek-V3.2這兩款模型雖然完成了動”的要求,但質感較為粗糙。

它們的動效缺乏物理運動的自然感,視覺元素較為扁平,最終呈現效果略顯廉價,像是一個早期的 Demo。

Kimi K2 Thinking 的表現則是會好很多,視覺上也更加的完整。

此次測試的主要內容是以代碼為主,主要測試代碼能力的原因很簡單:代碼從不說謊,行就是行,不行就是不行,可以一眼用肉眼分辨出好壞。

雖然這次只測試了三個項目,但LongCat-Flash-Thinking-2601的缺陷可以明顯看出。

雖然它在數學和搜索上拿分拿到手軟,甚至超越了 Claude。但在代碼實戰中,它卻明顯得有些“高分低能”了。

目前該模型已經上線,感興趣的用戶可以去體驗一下。

  • 體驗鏈接:https://longcat.ai

  • 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

  • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大意了!張雪峰不同時段坐姿,證明他越來越疲憊了,可惜錯過了

大意了!張雪峰不同時段坐姿,證明他越來越疲憊了,可惜錯過了

魔都姐姐雜談
2026-03-26 10:53:11
錢天一王昶參加好友婚禮,穿新中式情侶裝,王昶兜里裝了很多紅包

錢天一王昶參加好友婚禮,穿新中式情侶裝,王昶兜里裝了很多紅包

樂悠悠娛樂
2026-03-29 10:37:13
3.22眉山演唱會!徐子堯唱完深深鞠躬23秒,這才是刻在骨子里的教養

3.22眉山演唱會!徐子堯唱完深深鞠躬23秒,這才是刻在骨子里的教養

情感大頭說說
2026-03-30 00:49:29
一直模仿中國,卻處處弄巧成拙?越南證明了:中國行,不等于我行

一直模仿中國,卻處處弄巧成拙?越南證明了:中國行,不等于我行

小蔑談事
2026-03-28 21:20:57
三觀震碎!老戲骨修慶出軌女助理,罵女方地攤貨,還意淫劉亦菲

三觀震碎!老戲骨修慶出軌女助理,罵女方地攤貨,還意淫劉亦菲

一盅情懷
2026-03-28 15:37:36
甲鈷胺立大功!醫生研究發現:老人吃甲鈷胺,或能緩解5種癥狀

甲鈷胺立大功!醫生研究發現:老人吃甲鈷胺,或能緩解5種癥狀

39健康網
2026-01-30 20:09:01
臺灣地區,長期阻礙中國統一就是馬英九。這個人非常之狡猾!

臺灣地區,長期阻礙中國統一就是馬英九。這個人非常之狡猾!

安安說
2026-03-28 11:40:47
江山是誰的?——評雷艷紅教授言論背后的歷史觀之爭

江山是誰的?——評雷艷紅教授言論背后的歷史觀之爭

民間胡扯老哥
2026-03-29 20:26:03
調查發現:若50歲前沒患這4種疾病,以后患癌的幾率或微乎其微?

調查發現:若50歲前沒患這4種疾病,以后患癌的幾率或微乎其微?

醫學科普匯
2026-03-26 20:55:03
女兒正上大學突然失聯,2年后父親上網發現其已結婚生子!“閨女叫他們洗腦了!”婆家卻指娘家“偏心兄弟”:叫兒媳拾破衣服穿!

女兒正上大學突然失聯,2年后父親上網發現其已結婚生子!“閨女叫他們洗腦了!”婆家卻指娘家“偏心兄弟”:叫兒媳拾破衣服穿!

大象新聞
2026-01-27 17:45:03
馬筱梅曬小汪寶超圈粉,稱兒子大名汪小菲公布,曾稱沒有資格不拼

馬筱梅曬小汪寶超圈粉,稱兒子大名汪小菲公布,曾稱沒有資格不拼

甜檸檬吖
2026-03-29 16:34:58
這是今天娛樂圈最讓人悲痛的消
?息!

這是今天娛樂圈最讓人悲痛的消 ?息!

果媽聊娛樂
2026-03-29 13:33:21
民眾黨為救柯文哲再上凱道大抗議,真是“不得不為的愚蠢行為”

民眾黨為救柯文哲再上凱道大抗議,真是“不得不為的愚蠢行為”

娛樂的宅急便
2026-03-29 14:13:24
西媒曝皇馬新帥確認,克洛普達成協議夏窗執教,阿韋洛亞將被解雇

西媒曝皇馬新帥確認,克洛普達成協議夏窗執教,阿韋洛亞將被解雇

夏侯看英超
2026-03-29 21:15:54
美瘋了!Jennie 比基尼新聯名,直接把夏日氛圍感焊死

美瘋了!Jennie 比基尼新聯名,直接把夏日氛圍感焊死

橙星文娛
2026-03-28 14:47:30
美國天塌了!伊拉克威武,一天就干了美國十幾天官宣的死亡數。

美國天塌了!伊拉克威武,一天就干了美國十幾天官宣的死亡數。

可樂談情感
2026-03-29 20:14:28
美媒:中國不可怕,可怕的是中國只用10萬頭豬,就搞定了治沙難題

美媒:中國不可怕,可怕的是中國只用10萬頭豬,就搞定了治沙難題

樂天閑聊
2026-01-16 11:23:05
出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

霹靂炮
2026-03-14 22:49:47
老板娘總發這種照片給我,她什么意思?

老板娘總發這種照片給我,她什么意思?

太急張三瘋
2026-03-20 11:30:11
看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

米果說識
2026-03-06 22:02:30
2026-03-30 05:11:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
466文章數 69關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現!李榮浩喊話單依純侵權

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

時尚
藝術
數碼
本地
手機

來到1980的周也,好毛利蘭

藝術要聞

不守墨矩的揚州八怪

數碼要聞

內存條價格被曝出現斷崖式下跌,一天跌去百元

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

手機要聞

驍龍8 Elite Gen6系列規格大揭秘:LPDDR6、Adreno 850,都來了!

無障礙瀏覽 進入關懷版