337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

美團上線首個開源并可體驗的“重思考”模型,工具調用能力登頂

0
分享至

1月16日,美團LongCat官微消息,作為LongCat-Flash-Thinking模型的升級版,
LongCat-Flash-Thinking-2601現已開源。新模型在Agentic Search(智能體搜索)、Agentic Tool Use(智能體工具調用)、TIR(工具交互推理)等核心評測基準上,均達到開源模型SOTA水平。

值得一提的是,該模型在工具調用的泛化能力上優勢尤其明顯,在依賴工具調用的隨機復雜任務中,性能表現超越了Claude-Opus-4.5-Thinking,可大幅度降低真實場景下新工具的適配訓練成本;同時,新模型支持“重思考”模式,可同時啟動8個“大腦”執行任務,確保思考周全、決策可靠。

目前,該功能可在 https://longcat.ai網站免費體驗。

“重思考”功能全新上線 智能體工具調用能力登頂開源 SOTA

據介紹,全新推出的“重思考”模式,已讓“龍貓”學會了“深思熟慮”再行動。

具體來看,當遇到高難度問題時,新模型會把思考過程拆分成“并行思考”和“總結歸納”兩步進行:

并行思考階段,與人類面對難題會同時嘗試多種解法相似,“重思考”模式下的模型,會在保證思路多樣性的同時,獨立梳理出多條推理路徑尋找最優解;總結歸納階段,則會對多條路徑進行梳理、優化與合成,并將優化結果重新輸入,形成閉環迭代推理,推動思考持續深化。

除此之外,LongCat團隊在新模型中加入了額外的強化學習環節,針對性打磨模型的總結歸納能力,從而讓
LongCat-Flash-Thinking-2601實現了“想清楚再行動”的結果。

經過全面嚴謹的評估,
LongCat-Flash-Thinking-2601模型在編程、數學推理、智能體工具調用、智能體搜索等維度表現優異:



LongCat-Flash-Thinking-2601的平均性能比較(資料圖)

· 編程能力:
LongCat-Flash-Thinking-2601在LCB評測中取得82.8分,OIBench EN 評測獲47.7分,成績處于同類模型第一梯隊,代碼基礎能力扎實。

· 數學推理能力:在開啟“重思考”模式后表現突出,
LongCat-Flash-Thinking-2601在 AIME-25 評測中獲100.0分(滿分),IMO-AnswerBench中以86.8分達到當前SOTA。

· 智能體工具調用能力:在τ2-Bench評測中拿到88.2分,VitaBench評測中獲得29.3分,均獲得開源SOTA水平,在多領域工具調用場景下表現優異,適配實際應用需求。

· 智能體搜索能力:在BrowseComp任務中取得73.1分(全模型最優),RW Search 評測獲79.5分,
LongCat-Flash-Thinking-2601具備強勁的信息檢索與場景適配能力,達到開源領先水平。

為了更好測試智能體模型的泛化能力,團隊還提出了一種全新的評測方法——通過構建一套自動化任務合成流程,支持用戶基于給定關鍵詞,為任意場景隨機生成復雜任務,并為每個生成的任務配備對應的工具集與可執行環境。由于這類環境中的工具配置具有高度隨機性,該方法可通過評估模型在該類環境中的性能表現,衡量其泛化能力。

實驗結果表明,
LongCat-Flash-Thinking-2601在絕大多數任務中保持領先性能,印證了其在智能體場景下優秀的泛化能力。

技術解密:從“靶場”到“實戰”的訓練哲學

對于新模型的技術思路,LongCat團隊解釋稱,傳統智能體往往僅在數個簡單模擬環境里訓練,這帶來的問題就像只在靶場訓練的士兵,到了真實“戰場”可能會掉鏈子。而基于“環境擴展+多環境強化學習”核心技術,團隊為模型打造了多樣化的“高強度練兵場”,構建了多套高質量訓練環境,并在每套環境中集成60余種工具形成密集依賴關系圖譜與復雜聯動,支撐起高度復雜的任務場景。實驗也證明,訓練環境越豐富,模型在未知場景中的泛化能力越強。

得益于這套方案,
LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調用等核心基準測試中穩居前列。尤其在復雜隨機的分布外任務中,性能優于 Claude-Opus-4.5-Thinking。

此外,LongCat團隊針對性擴展自研強化學習基礎設施,在保留原有高效異步訓練特性的基礎上,實現大規模多環境智能體的穩定并行訓練,通過均衡搭配多環境任務、按難度與訓練進度智能分配算力,最大化提升訓練效率與資源利用率;該團隊還從復雜度、多樣性雙維度嚴控訓練任務,配套專屬數據庫及優化方案,杜絕模型“偏科”與訓練漏洞,讓這套全流程方案持續賦能模型,使其穩居智能體能力第一梯隊。

該團隊還表示,現實世界的智能體環境充滿不確定性,API調用失敗、返回異常信息、觀測數據不完整等“噪聲”問題,極易導致模型決策失誤。為此,團隊在訓練數據的過程中主動注入多類噪聲,模擬API的調用失敗、返回錯誤信息、數據缺失等場景,并用課程學習的方式循序漸進地進行模型訓練,在訓練過程中逐步增加噪聲的類型與強度——類比教新手騎車,首先會讓其在平坦路面做練習,等技能成熟后再逐步增加路面的復雜度。



帶噪聲/無噪聲評測集下的模型表現對比(資料圖)

經過系統化的抗干擾訓練,
LongCat-Flash-Thinking-2601(Training w/Noise組)擁有了極強的環境適應能力,在復雜場景中,也能穩定發揮、高效完成任務。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
尹錫悅終于見到愛妻,全程深情雙目注視,金建希卻沒抬頭看他一眼

尹錫悅終于見到愛妻,全程深情雙目注視,金建希卻沒抬頭看他一眼

徐醇老表哥
2026-04-15 11:54:59
持續兩個多小時 以色列黎巴嫩華盛頓會談結束

持續兩個多小時 以色列黎巴嫩華盛頓會談結束

財聯社
2026-04-15 02:36:17
事關伊朗,特朗普給了中國兩條路,王毅二話不說,馬上給俄發邀請

事關伊朗,特朗普給了中國兩條路,王毅二話不說,馬上給俄發邀請

面包夾知識
2026-04-14 14:06:45
一邊倒劇本!湖人必輸?數據不說謊:淘汰概率86%!

一邊倒劇本!湖人必輸?數據不說謊:淘汰概率86%!

籃球盛世
2026-04-15 13:53:08
發現一個現象:收入1萬以下的夫妻,吵架大都為了錢;1萬以上的家庭,吵架都是一方很強勢

發現一個現象:收入1萬以下的夫妻,吵架大都為了錢;1萬以上的家庭,吵架都是一方很強勢

二胡的歲月如歌
2026-04-13 08:04:02
蔣介石私生活有多混亂?貼身秘書晚年才敢說破,宋美齡的做法絕了

蔣介石私生活有多混亂?貼身秘書晚年才敢說破,宋美齡的做法絕了

芊芊子吟
2026-04-12 21:20:03
單方一味,只需一味中藥,這9種病皆可用

單方一味,只需一味中藥,這9種病皆可用

環京快爆
2026-04-14 10:52:47
字字扎心!王曉晨發文內涵俞灝明,多年付出全被嫌棄,根本看不上

字字扎心!王曉晨發文內涵俞灝明,多年付出全被嫌棄,根本看不上

翰飛觀事
2026-04-14 22:16:41
全程呲牙咧嘴,臺詞含糊不清,連影帝鐘漢良都帶不動這個拖油瓶!

全程呲牙咧嘴,臺詞含糊不清,連影帝鐘漢良都帶不動這個拖油瓶!

秋姐居
2026-04-14 17:17:34
美國海關4月20日將啟動關稅 退款

美國海關4月20日將啟動關稅 退款

每日經濟新聞
2026-04-15 07:33:38
特朗普不演了,警告中國有大麻煩,話音剛落,美國人推動罷免總統

特朗普不演了,警告中國有大麻煩,話音剛落,美國人推動罷免總統

阿笎評論哥
2026-04-15 12:13:41
“五一”假期航班被大批取消,主要涉及東南亞、大洋洲航線

“五一”假期航班被大批取消,主要涉及東南亞、大洋洲航線

南方都市報
2026-04-14 22:36:07
莫迪強硬警告:若短期內無法確保充足化肥供應,將面臨嚴重危機

莫迪強硬警告:若短期內無法確保充足化肥供應,將面臨嚴重危機

人生錄
2026-04-09 21:50:14
人民幣突然大漲!有存款的要透著樂,5類人受益,2類人要虧

人民幣突然大漲!有存款的要透著樂,5類人受益,2類人要虧

小談食刻美食
2026-04-15 08:28:21
開始搶人!美國一周挖走4位中國頂尖人才,年薪1億美金太驚人

開始搶人!美國一周挖走4位中國頂尖人才,年薪1億美金太驚人

百科密碼
2026-04-10 15:56:21
深圳龍華一樓盤每平方米降2萬引發深夜搶購 監管部門緊急調查

深圳龍華一樓盤每平方米降2萬引發深夜搶購 監管部門緊急調查

新京報
2026-04-14 19:26:38
定了!歐冠決賽必有新軍,利物浦遇雙重打擊,曼聯切爾西機會大增

定了!歐冠決賽必有新軍,利物浦遇雙重打擊,曼聯切爾西機會大增

嗨皮看球
2026-04-15 12:06:35
回顧:緬北女魔頭魏榕嗜好!經常“活剝驢耳”,3個閨蜜喜歡觀刑

回顧:緬北女魔頭魏榕嗜好!經常“活剝驢耳”,3個閨蜜喜歡觀刑

飛云如水
2024-11-13 06:54:13
隨著廣東險勝寧波,青島慘敗北京,CBA積分:季后賽12強基本確定

隨著廣東險勝寧波,青島慘敗北京,CBA積分:季后賽12強基本確定

云隱南山
2026-04-15 13:48:27
太陽爆冷出局!狄龍6犯離場,格林35分布克背鍋,阿夫迪亞轟41+12

太陽爆冷出局!狄龍6犯離場,格林35分布克背鍋,阿夫迪亞轟41+12

老侃侃球
2026-04-15 12:56:29
2026-04-15 14:55:00
讀懂數字財經
讀懂數字財經
用數據,說點財經人話
1886文章數 3569關注度
往期回顧 全部

科技要聞

手機無死角上網?亞馬遜砸百億硬剛馬斯克

頭條要聞

浙江61歲男子持長矛殺鄰居后自首 被判死刑立即執行

頭條要聞

浙江61歲男子持長矛殺鄰居后自首 被判死刑立即執行

體育要聞

三球準絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

曾志偉辦73歲生日派對,逾百藝人到場

財經要聞

業績失速的Lululemon:"健康"人設崩塌?

汽車要聞

海豹08內飾首秀 大滿配“海王”旗艦

態度原創

游戲
親子
健康
家居
公開課

卡普空《識質存在》開啟預載 4月17日正式發售!

親子要聞

amh值0.9還能自然懷孕嗎?試管促排期間不能吃哪些食物?

干細胞抗衰4大誤區,90%的人都中招

家居要聞

簡而不減 暖居之道

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版