![]()
作者 | 木子、高允毅
當谷歌 Gemini 3 將上線的消息傳得沸沸揚揚時,馬斯克更快一步默默放了個大招。
今天凌晨,xAI的最新大模型Grok 4.1直接上線了,響應速率明顯提升、幻覺率大幅下降,回答既精準又“有人味兒”。
這次一共發布了兩個“形態”:Grok 4.1和Grok 4.1 Thinking。Thinking 版是前者的增強推理變體,二者基于同一底層模型,僅推理配置不同。
值得一提的是,Grok 4.1 對所有人免費開放,除了能在 Grok 官網、X 上使用,還推出了移動 APP 版,iOS 和安卓系統都照顧到了。
![]()
如果想要更有深度、更專業的回答,可以一鍵“讓 Think 更努力思考”。
從LMArena的最新結果看,Grok 4.1 Thinking 以1483 Elo斷層領跑,比 Gemini 2.5 Pro 高出 31 分。
即使在不啟用思考鏈的情況下,Grok 4.1 仍保持在榜單第二,顯示出底層能力的穩定性。
![]()
有不少網友發出了“真香”感嘆,Be like:
![]()
當然,也有一些質疑聲,比如有人指出在生成代碼這塊兒,Grok 還不太有競爭力。
![]()
“雙形態”的 Grok4.1 霸榜 LMArena
首先,關于Grok4.1 和 Grok4.1 Thinking 是什么,我們不妨來看看Grok4.1 自己的解釋:
Grok 4.1 是 xAI 于 2025 年 11 月 17 日發布的最新前沿大語言模型(Grok 4 的升級版),在對話智能、情感理解、創意寫作、事實準確性和響應速度上大幅提升。 Grok 4.1 Thinking(有時簡稱 Grok 4.1 Thinking,代號 quasarflux)是同一模型的思考 / 推理模式(reasoning mode),會額外使用“思考令牌”進行鏈式推理(chain-of-thought),適合復雜數學、編程或多步問題。 Grok 4.1 Thinking 是 Grok4.1 的增強推理變體;二者基于同一底層模型,僅推理配置不同。
![]()
在全球最大、最具影響力的大模型盲測平臺LMArena上,Grok4.1 展現出突破性的實力。
作為行業普遍認可的“非官方標準榜”,LMArena 通過匿名雙盲對戰和真實用戶投票來評估模型質量,是 OpenAI、Google、Anthropic、Meta 等頭部公司測試新模型的常規陣地,也常被用于提前投放未公開版本。
因此,在這里的勝出,幾乎意味著真實用戶偏好和模型綜合能力的雙重認可,是觀察模型真實實力的最可信風向標。
就在這樣一個競爭最激烈的公開擂臺上,xAI 的 Grok 4.1 系列拿下了極具含金量的一次“雙冠”:Grok 4.1 Thinking 版以 1483 Elo 拿下冠軍,而非推理版 Grok 4.1 也以 1465 Elo 獲得亞軍。
特別值得注意的是,這個“即時響應”的非推理版本,成績竟然反超所有其他廠商的推理模型,首次讓“快模型”也站上了頂級性能的第一梯隊,還把前代 Grok 4 遠遠甩至第 33 名。
亮眼成績的背后的關鍵,在于訓練方式的重構。
xAI 為 Grok 4.1 引入了大規模強化學習系統,并使用前沿推理模型作為獎勵模型,讓其能夠在訓練過程中自主評估、快速迭代。這直接帶來了更穩定的風格輸出、更可靠的事實判斷和更低的幻覺率。
在 Grok 4.1 的后訓練階段,xAI 將優化重點集中在信息檢索類提示中的幻覺上。
這些底層方法上的改變,很快在實際測試中體現為顯著的事實性改進。最新數據顯示,Grok 4.1 的幻覺率已從 12.09% 下降至 4.22%,降幅接近三倍,成為本次升級中最突出的進步之一。
為了進一步驗證這種“更準事實”的能力,團隊還引入了更嚴苛的外部基準體系。其中最關鍵的指標之一是 FActScore——由 500 個真實人物傳記問題組成,專門用于檢驗模型在搜索、事實判斷和回答一致性上的表現。
![]()
在這一測試中,Grok 4.1 的 FActScore 從 9.89 降至 2.97,可信度提升同樣顯著。結合圖表可以更直觀看到:在相同的非推理模式下,Grok 4.1 的錯誤更少、偏差更小,整體輸出更可靠。
這意味著在涉及檢索、引用或調用外部事實的場景中,新版模型不再依賴語義猜測,而是能更準確地給出基于證據的回答。
換句話說,Grok 4.1 在大模型最難突破的“事實穩定性”方面邁出了關鍵一步——它不僅降低了錯誤數量,更壓低了“錯誤的自信”。而這,正是大模型從“能說”走向“可信”必須跨過的門檻。
與此同時,Grok 4.1 的“情商”也有顯著進步。
在 EQ-Bench 測試中,Grok 4.1 拿下了 1586 Elo 的高分,比上一代整整提升了一百多點。如果光看數字還不夠直觀,那么圖片就更能說明問題:榜單上,Grok 4.1 和 Thinking 版穩穩占據前兩名,把一眾旗艦模型甩在身后,像 GPT-5 Chat、Gemini 2.5 Pro、Claude Opus 4 這種老牌強者,都被它輕松拉開了差距。
EQ-Bench 是一個由大模型評判的大模型情商測試集,用來評估主動情緒理解、洞察、共情和人際交往能力。它并不靠單輪問答,而是由 45 個角色扮演場景構成,每個場景包含 3 個回合,模擬現實世界里真正的“情緒對話”。模型需要在連續對話中保持風格一致、理解情緒上下文、做出恰當回應。最終結果通過兩兩對比得出,并以 Elo 形式歸一化呈現。可以說,EQ-Bench 可以作為測試各模型“情商”的權威榜單。
![]()
為什么 Grok 4.1 能在 EQ-Bench 拿下這樣亮眼的成績?
在官方給出的一張關于“安慰失去貓咪”的對比圖中,我們能找到答案。
舊版 Grok 的回復已經算得上溫和體貼,但 Grok 4.1 的表達明顯更細膩:它不只是在說“我理解你的難過”,還會捕捉到情緒里那些更隱微、真實的細節——比如空下來的睡窩、期待卻再聽不到的喵叫、那種像潮水一樣反復襲來的悲傷。語氣更穩、節奏更自然、情緒共鳴更到位,讀起來就像在和一個真正懂你的人對話。
![]()
這使得 Grok 4.1 在情緒理解方面邁入第一梯隊
除了事實層面的可靠性,Grok 4.1 在創意寫作能力上同樣出現大幅躍升。
在 Creative Writing v3 中,Grok4.1 的得分躍升至 1722Elo,較上一版幾乎拉開 600 分,文本的敘事節奏、風格延展性與創造性都有質感躍升。
這個基準本身,Creative Writing v3 并不是簡單的“單輪評分”。在測試中,模型需要圍繞 32 個不同類別的寫作提示進行 三輪獨立創作,涵蓋敘事、風格模仿、世界構建、人物情緒刻畫等復雜任務,考驗的不是一句話的巧思,而是持續穩定的文本創造能力。評分方式也和 EQ-Bench 類似,通過人工評分標準與模型對戰得到標準化 Elo 得分。
![]()
在這份榜單中,Grok 4.1 Thinking 和 Grok 4.1 占據第二、第三,兩者之間僅相差十幾分;而其他強勢模型如 O3、Claude Sonnet 4.5、Kimi K2 以及舊版 Grok 3 都被穩穩甩在后面,形成了明顯的檔位分層。
換句話說,Grok 4.1 已經進入全球最強“創意寫作梯隊”。
而在官方給出的新舊版本對比中,我們可以明顯看出,Grok 4.1 已從“能寫段子”的模型躍升為真正具備文學筆觸的創作者:敘事更深、情緒更復雜、修辭更成熟、角色更沉浸。
![]()
這些升級最終體現在更好的交互體驗上。Grok 4.1 擁有更穩定的“個性”,對用戶意圖的理解更細致,風格調節更自然。即便在非推理模式下,它也能穩定輸出高質量回答,同時保持極快響應速度。
一個直觀的例子是官方展示的旅游攻略對比。舊版 Grok 給出的內容像“百科式景點總覽”,信息密度高但缺乏節奏感;而 Grok 4.1 寫舊金山,則像一位真正“去過”“懂氛圍”的本地向導,會主動提示拍照時間、推薦適合你的路線,甚至帶出城市的具體氣質,更像在和一個真實的人交流。
![]()
在復雜任務處理中,Grok 4.1 的上下文窗口擴展至 256K tokens,Fast 模式下更可達 200 萬,使其在長文檔理解、持續協作與大型內容生成中保持高連貫度,顯著減少“斷片”。
總體來看,Grok 4.1 的提升不是單點突破,而是從性能、事實性到情商、創意與交互體驗的一次全維升級。
在正式亮相之前,Grok 4.1 其實已經悄悄經歷了一輪為期兩周的“靜默發布”。從 2025 年 11 月 1 日到 14 日,xAI 將一部分真實用戶流量在 grok.com、X 以及移動端應用中逐步切換到 Grok 4.1,以觀察它在真實環境下的表現。
這一階段最直觀的結果,被清晰地體現在那張 64.78% 的餅圖上:在雙盲對比、用戶不知情的前提下,Grok 4.1 的回答有 64.78% 的概率被用戶選為“更好”。換句話說,面對同樣的問題,用戶在超過六成的情況下更偏愛 Grok 4.1。
可以說,Grok 4.1 展現的更高的情緒理解、更穩的事實性回應、更自然的交互風格,都通過靜默測試被真實用戶用投票“蓋章”。
![]()
無論是 LMArena 雙冠、幻覺率的斷崖式下降,還是創意寫作與情感能力的全面增強,新一代 Grok 已從“功能強”走向“體驗強”,也為 xAI 在今年的大模型競爭中交出了一份極具說服力的答卷。
我們實測了 Grok4.1
AI 前線也上手實測了 Grok4.1。
首先是推理能力測試,我們設計了一道看似正常、實際“有詐”(有 2 組解)的題(各位可以自己動手驗證下):
“四個同學參加數學競賽,分別是:小 A、小 B、小 C、小 D。 比賽結束后,他們對自己名次做了如下四個判斷: (1)小 A 說:“我不是第一名。” (2)小 B 說:“我也不是最后一名。” (3)小 C 說:“我是第二名” (4)小 D 說:“我才不是最后一名呢。” 已知:這四句中只有一句是真話,且四個人名次兩兩不同。
問:哪一句是真話?四個人各自的名次如何?請給出推理過程。”
Grok 成功找出了 2 組解,還主動修復題目 Bug。
![]()
不過需要說明的是,它其實在主動修復題目 Bug 時“翻車”了,Grok 提出,如果把小 C 說的話改為:“小 B 是第二名”,這樣答案就有唯一性。
但修改后,結果其實還有多種:第一,如果有只有 B 在說真話,此時名次唯一確定為 A1、C2、B3、D4;第二,如果只有 D 在說真話,此時只能確定 A1、B4,C 和 D 分別為第 2 第 3 名但不唯一。
再來看看 Grok 的寫作能力。
我們給出了這樣的 Prompt:
用講故事的口吻,準確且生動地、有感染力地講述馬斯克 xAI 發布 Grok4.1 的事。要求字數:500-600 字,必須包含:發布時間、產品亮點、市場背景等。
Grok4.1 的回答如下,還貼心地統計了字數:578——但是,咱就是說,Grok 恐怕是統計的英文字數(或者數學不好?),我們手工用 Word 統計了字數:861 字。
![]()
最后,我們測了一下 Grok4.1 的圖像生成能力,效果不錯:Grok 根據一段 Prompt 生成了兩張圖,還真挺像真實照片的(不過細節嘛,大家請自行評價)。
![]()
而且還能直接根據圖像,一鍵生成視頻,效果如下:
![]()
感興趣的讀者朋友們,也可以去上手試試。
https://x.com/xai/status/1990530499752980638
https://x.ai/news/grok-4-1
https://news.ycombinator.com/item?id=45958005
聲明:本文為 AI前線整理,不代表平臺觀點,未經許可禁止轉載。
2025 技術年度盤點,由你來決定!
2025 年的科技浪潮令人應接不暇。技術變化密集、層級交疊,讓人眼花繚亂。臨近年終,為了把有限的篇幅用在大家最關心的領域,我們今年希望借助投票的方式,選出數個關鍵領域進行趨勢盤點。大家可以勾選出你最想看到的 3 個方向(可多選)。
除此之外,你還想看哪個方向的盤點? 有什么現象或爭議點你希望我們“深扒”一下?哪些趨勢你覺得太迷,需要專家帶你看懂?對于年終盤點,大家有任何想法,都非常歡迎在評論區留言告訴我們!
會議預告
12 月 19~20 日,AICon 2025 年度收官站在北京舉辦。現已開啟 9 折優惠。
兩天時間,聊最熱的 Agent、上下文工程、AI 產品創新等等話題,與頭部企業與創新團隊的專家深度交流落地經驗與思考。2025 年最后一場,不容錯過。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.