337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

開源新紀錄!月之暗面 Kimi K2 實測超越 GPT-5 和 Claude 4.5,完全免費

0
分享至


開源模型的歷史性突破

就在美國AI巨頭OpenAI因高額支出承諾而備受質疑之際,中國開源AI供應商正在加速競爭——其中一家甚至在關鍵的第三方性能基準測試中趕超了OpenAI的旗艦付費專有模型GPT-5,而且是用一個完全免費的模型

月之暗面(Moonshot AI)今日發布的全新Kimi K2 Thinking模型,在推理、編程和智能體工具使用等基準測試中一舉超越了所有專有和開源競爭對手,登頂榜首。

盡管是完全開源,該模型目前在多項標準評估中的表現已超過OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5(思維模式)以及xAI的Grok-4——這標志著開放AI系統競爭力的一個歷史性拐點

開發者可以通過 platform.moonshot.ai 和 kimi.com 訪問該模型;權重和代碼托管在 Hugging Face 上。開源發布包含了聊天、推理和多工具工作流的API。

用戶可以直接通過其類似ChatGPT的網站以及Hugging Face空間試用Kimi K2 Thinking。

修改版開源協議:商業友好

月之暗面在Hugging Face上以修改版MIT協議正式發布了Kimi K2 Thinking。

該協議授予完整的商業和衍生權利——這意味著個人研究者和代表企業客戶工作的開發者可以免費訪問并在商業應用中使用——但增加了一項限制:

“如果軟件或任何衍生產品的月活躍用戶超過1億,或每月收入超過2000萬美元,部署方必須在產品用戶界面上顯著展示’Kimi K2’標識。”

對于大多數研究和企業應用,這一條款相當于一個輕量級的署名要求,同時保留了標準MIT協議的自由度。

這使得K2 Thinking成為目前可用的最寬松授權的前沿級模型之一

新的基準測試領跑者

Kimi K2 Thinking是一個基于萬億參數的混合專家(MoE)模型,每次推理激活320億參數

它將長程推理與結構化工具使用相結合,能夠在無需人工干預的情況下執行200-300次連續的工具調用

性能數據一覽

根據月之暗面公布的測試結果,K2 Thinking取得了:

  • 44.9% - Humanity’s Last Exam(HLE),達到業界最先進水平
  • 60.2% - BrowseComp(智能體網絡搜索和推理測試)
  • 71.3% -SWE-Bench Verified 和 83.1% - LiveCodeBench v6(關鍵編程評估)
  • 56.3% -Seal-0(真實世界信息檢索基準)

在這些任務中,K2 Thinking持續超越GPT-5的相應得分,并超過了幾周前MiniMax AI發布的前開源領跑者MiniMax-M2。

開源模型超越專有系統

GPT-5和Claude Sonnet 4.5 Thinking仍是領先的專有"思維"模型。

然而在同一基準測試套件中,K2 Thinking的智能體推理得分超過了兩者:例如在BrowseComp上,開源模型的60.2%明顯領先GPT-5的54.9%和Claude 4.5的24.1%。

K2 Thinking在GPQA Diamond上也略勝GPT-5一籌(85.7% vs 84.5%),并在AIME 2025和HMMT 2025等數學推理任務上與之持平。

只有在某些重度模式配置下——GPT-5聚合多條推理軌跡——專有模型才能重新取得平衡。

月之暗面的全開源權重發布能夠達到或超過GPT-5的得分,標志著一個轉折點。封閉前沿系統與公開可用模型之間的差距,在高端推理和編程領域已經事實上消失

超越MiniMax-M2:前任開源王者

就在一周半前,VentureBeat報道MiniMax-M2時,它還被譽為"開源LLM新王",在開源權重系統中取得了頂尖得分:

  • τ2-Bench: 77.2

  • BrowseComp: 44.0

  • FinSearchComp-global: 65.5

  • SWE-Bench Verified: 69.4

這些結果使MiniMax-M2在智能體工具使用方面接近GPT-5級別的能力。然而Kimi K2 Thinking現在以大幅優勢超越了它們。

其BrowseComp結果60.2%超過M2的44.0%,SWE-Bench Verified的71.3%也勝過M2的69.4%。即使在FinSearchComp-T3(47.4%)等金融推理任務上,K2 Thinking表現相當,同時保持了卓越的通用推理能力。

技術創新

從技術角度看,兩個模型都采用稀疏混合專家架構以提高計算效率,但月之暗面的網絡激活了更多專家,并部署了先進的量化感知訓練(INT4 QAT)

這種設計在不降低準確性的情況下使推理速度翻倍——這對于支持高達256k上下文窗口的長"思維token"會話至關重要。

智能體推理與工具使用

K2 Thinking的核心能力在于其顯式推理軌跡。模型輸出一個輔助字段reasoning_content,在每個最終響應之前揭示中間邏輯。這種透明性在長時間多輪任務和多步驟工具調用中保持了連貫性。

月之暗面發布的參考實現演示了模型如何自主執行"每日新聞報告"工作流:調用日期和網絡搜索工具、分析檢索內容、生成結構化輸出——同時保持內部推理狀態。

這種端到端的自主性使模型能夠在數百個步驟中進行規劃、搜索、執行和綜合證據,反映了正在崛起的"智能體AI"系統類別,這些系統以最少的監督運行。

效率與訪問成本

盡管規模達到萬億參數,K2 Thinking的運行成本保持適中。月之暗面列出的使用價格為:

  • $0.15 / 100萬tokens(緩存命中)
  • $0.60 / 100萬tokens(緩存未命中)
  • $2.50 / 100萬tokens(輸出)

這些價格甚至優于MiniMax-M2的$0.30輸入/$1.20輸出定價——比GPT-5($1.25輸入/$10輸出)低了一個數量級

對比背景:開源權重加速

M2和K2 Thinking的快速接連發布,展示了開源研究追趕前沿系統的速度有多快。MiniMax-M2證明了開源模型可以以一小部分計算成本接近GPT-5級別的智能體能力。月之暗面現在將這一前沿推進得更遠,將開源權重從平衡推向了徹底領先

兩個模型都依賴稀疏激活來提高效率,但K2 Thinking更高的激活數(320億 vs 100億活躍參數)在各個領域產生了更強的推理保真度。其測試時縮放——擴展"思維tokens"和工具調用輪次——提供了可測量的性能提升,無需重新訓練,這是MiniMax-M2中尚未觀察到的特性。

技術展望

月之暗面報告稱,K2 Thinking支持原生INT4推理和256k token上下文,性能下降微乎其微。其架構集成了量化、并行軌跡聚合(“重度模式”)以及針對推理任務調優的混合專家路由。

在實踐中,這些優化使K2 Thinking能夠維持復雜的規劃循環——代碼編譯-測試-修復、搜索-分析-總結——跨越數百次工具調用。這種能力支撐了它在BrowseComp和SWE-Bench上的優異表現,而推理連續性在這些任務中至關重要。

對AI生態系統的巨大影響

開放和封閉模型在高端的趨同,標志著AI格局的結構性轉變。曾經完全依賴專有API的企業,現在可以部署匹配GPT-5級別推理的開源替代方案,同時保留對權重、數據和合規性的完全控制

月之暗面的開放發布策略遵循了DeepSeek R1、Qwen3、GLM-4.6和MiniMax-M2設定的先例,但將其擴展到完整的智能體推理

對于學術和企業開發者來說,K2 Thinking提供了透明性和互操作性——檢查推理軌跡和針對特定領域智能體微調性能的能力。

戰略時機:對AI投資模式的挑戰

K2 Thinking的到來表明,月之暗面——這家2023年成立、獲得中國一些最大應用和科技公司投資的年輕初創公司——已經準備好在日益激烈的競爭中一展身手,而這正值AI行業最大玩家的財務可持續性受到越來越多審視之際。

就在一天前,OpenAI首席財務官Sarah Friar在WSJ Tech Live活動上表示,美國政府可能最終需要為該公司超過1.4萬億美元的計算和數據中心承諾提供"后盾"——這一評論被廣泛解讀為呼吁納稅人支持的貸款擔保,引發了爭議。

盡管Friar后來澄清OpenAI并未尋求直接的聯邦支持,但這一事件重新點燃了關于AI資本支出規模和集中度的辯論。

隨著OpenAI、微軟、Meta和Google都在競相確保長期芯片供應,批評者警告說,這是一場不可持續的投資泡沫和"AI軍備競賽",更多是由戰略恐懼驅動,而非商業回報——如果出現猶豫或市場不確定性,可能會"爆炸"并拖垮整個全球經濟,因為現在已經有太多交易和估值是基于對AI持續巨額投資和巨額回報的預期。

在這種背景下,月之暗面和MiniMax的開源權重發布給美國專有AI公司及其支持者帶來了更大壓力,要求他們證明投資規模和盈利路徑的合理性。

商業邏輯的根本性挑戰

如果企業客戶從免費開源的中國AI模型中獲得的性能可以與付費專有AI解決方案(如OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5或Google的Gemini 2.5 Pro)相當甚至更好——他們為什么還要繼續付費訪問專有模型?

硅谷的標桿企業如Airbnb已經引起關注,因為它們承認大量使用阿里巴巴的Qwen等中國開源替代方案,而非OpenAI的專有產品。

對于投資者和企業來說,這些發展表明,高端AI能力不再等同于高端資本支出。最先進的推理系統可能不是來自建造超大規模數據中心的公司,而是來自優化架構和量化以提高效率的研究團隊。

從這個意義上說,K2 Thinking的基準主導地位不僅僅是一個技術里程碑——它是一個戰略里程碑,到來的時機正值AI市場最大的問題已經從"模型能變得多強大"轉變為"誰能負擔得起維持它們"。

對企業的前瞻意義

在MiniMax-M2崛起后的幾周內,Kimi K2 Thinking已經超越了它——以及GPT-5和Claude 4.5——在幾乎每一個推理和智能體基準測試中。

該模型證明,開源權重系統現在可以在能力和效率上達到或超越專有前沿模型。

對于AI研究社區來說,K2 Thinking不僅僅是又一個開源模型:它是前沿已經變得協作化的證據。

今天可用的性能最佳的推理模型不是封閉的商業產品,而是任何人都可以訪問的開源系統。


原文來源: VentureBeat

整理:周華香

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
交管12123大升級:當天違章當天提醒,4次免罰是真是假?一次講透

交管12123大升級:當天違章當天提醒,4次免罰是真是假?一次講透

沙雕小琳琳
2026-04-08 06:25:34
網傳全紅嬋遭微信群長期網暴,若屬實,體育管理部門責無旁貸

網傳全紅嬋遭微信群長期網暴,若屬實,體育管理部門責無旁貸

胡言炫語
2026-04-08 02:39:28
快訊:伊朗同意停火,伊美談判將于10日在伊斯蘭堡開始

快訊:伊朗同意停火,伊美談判將于10日在伊斯蘭堡開始

都市快報橙柿互動
2026-04-08 07:15:31
周杰倫劃水爭議升級!在日本高亢唱滿兩小時,國內敷衍兄弟幫唱

周杰倫劃水爭議升級!在日本高亢唱滿兩小時,國內敷衍兄弟幫唱

萌神木木
2026-04-07 13:32:18
雙休、五險二金!一高校畢業生求職訴求引爭議,網友:還是太年輕

雙休、五險二金!一高校畢業生求職訴求引爭議,網友:還是太年輕

火山詩話
2026-04-08 05:53:05
(深入分析)特朗普已被逼到了懸崖邊上,因為中國擊中了其要害

(深入分析)特朗普已被逼到了懸崖邊上,因為中國擊中了其要害

阿胡
2025-04-12 11:30:46
定了!天津一知名醫院將搬遷!

定了!天津一知名醫院將搬遷!

天津人
2026-04-08 06:35:31
美國求錘得錘?外媒揭露:美國軍工巨頭,竟偷偷找中國代工

美國求錘得錘?外媒揭露:美國軍工巨頭,竟偷偷找中國代工

瘋狂小菠蘿
2026-04-06 14:15:10
重磅:文班亞馬因傷退出比賽,或缺席2-4周,馬刺的天塌了

重磅:文班亞馬因傷退出比賽,或缺席2-4周,馬刺的天塌了

姜大叔侃球
2026-04-07 10:22:29
大事!桃浦某盤,75折了!!!

大事!桃浦某盤,75折了!!!

新浪財經
2026-04-07 11:29:14
吃了20年才知道,它竟是“天然葉酸”,現在正當季,常吃身體棒

吃了20年才知道,它竟是“天然葉酸”,現在正當季,常吃身體棒

阿龍美食記
2026-04-07 10:42:05
從楊主席訪伊朗受怠慢,聊聊如今為何有伊朗人稱我們“秦腔窮”?

從楊主席訪伊朗受怠慢,聊聊如今為何有伊朗人稱我們“秦腔窮”?

阿胡
2026-03-30 12:52:29
IP社超級名模美神,擁有九頭身比例和E級別的傲人身材女神—RARA

IP社超級名模美神,擁有九頭身比例和E級別的傲人身材女神—RARA

吃瓜黨二號頭目
2026-04-07 13:14:00
蘇州樓市受到上海樓市的影響,蘇州玲瓏板塊房價從5.4萬降至5.3萬

蘇州樓市受到上海樓市的影響,蘇州玲瓏板塊房價從5.4萬降至5.3萬

有事問彭叔
2026-04-06 11:58:29
她靠“冒牌”出道走紅,成央視寵兒,四登春晚,如今靠浪姐又火了

她靠“冒牌”出道走紅,成央視寵兒,四登春晚,如今靠浪姐又火了

八斗小先生
2026-04-06 15:43:14
火箭官宣轉正戴維森!敲定季后賽15人名單 杜蘭特申京率隊沖冠

火箭官宣轉正戴維森!敲定季后賽15人名單 杜蘭特申京率隊沖冠

羅說NBA
2026-04-08 05:24:40
美股期貨全線跳水,美股芯片股盤前普跌,加密貨幣集體殺跌,原油拉升反彈

美股期貨全線跳水,美股芯片股盤前普跌,加密貨幣集體殺跌,原油拉升反彈

21世紀經濟報道
2026-04-07 19:36:56
蘋果iPhone Fold折疊屏開始試產 12月全球開售

蘋果iPhone Fold折疊屏開始試產 12月全球開售

PChome電腦之家
2026-04-07 11:18:51
凌晨3點 歐冠打響西甲內戰!亞馬爾沖擊4連斬 2人反戈巴薩

凌晨3點 歐冠打響西甲內戰!亞馬爾沖擊4連斬 2人反戈巴薩

葉青足球世界
2026-04-08 05:00:03
避開4強敵!中國女足1-0泰國,世界杯門票穩了

避開4強敵!中國女足1-0泰國,世界杯門票穩了

大漢體育解說
2026-04-08 02:59:05
2026-04-08 08:39:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
265文章數 17關注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

鄭麗文表態:感謝大陸熱情接待 國民黨堅持"九二共識"

頭條要聞

鄭麗文表態:感謝大陸熱情接待 國民黨堅持"九二共識"

體育要聞

科特迪瓦中場卡迪爾-凱塔被控過失殺人罪,面臨九年以上監禁

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產

財經要聞

特朗普同意停火兩周 伊朗:接受停火提議

汽車要聞

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

本地
游戲
親子
旅游
公開課

本地新聞

跟著歌聲游安徽,聽古村回響

《Swords & Slippers》新視頻 大雷妹子激情

親子要聞

6歲女孩確診性早熟!醫生:小心這些“營養品”和“餐具”

旅游要聞

誰懂啊!西安城墻下這處寶藏人文景觀,春天去直接封神

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版