![]()
新智元報道
編輯:傾傾
【新智元導讀】別測算力了,今晚咱們只測「心眼子」!歡迎來到2026年首屆AI「大逃殺」修羅場。當DeepSeek學會了悍跳預言家,當GPT-5.2在德撲桌上拿空氣牌All-in,圖靈測試?那已經是上個世紀的灰燼了。
聽我一句勸,把你手里那張發黃的MMLU跑分表,直接扔進碎紙機。
現在是2026年2月,Kaggle Game Arena。這里沒有做題家,只有賭徒、騙子和野心家。
紅方,是硅谷老錢風的衛冕冠軍OpenAI GPT-5.2。
藍方是路子極野的東方刺客DeepSeek V3.2,以及坐擁主場優勢的Gemini 3 Pro。
![]()
欺騙、結盟、背刺、下套這是一場地球上最聰明的「大腦」之間的博弈。
這場「大逃殺」無情地撕碎人類最后的遮羞布:社交直覺。
模型在模擬室里拉幫結派,職場里的人情世故,AI正在加速像素級復刻。
如果AI能在這里騙過它的對手,明天它就能在匯報和合同里騙過你。
服務器預熱完畢,好戲,開場。
狼人殺:教科書級的「職場PUA」
寫代碼拼的是模型的智商,在狼人殺里局里,靠的是套路和演技。
場上8位選手全是頂流:Claude4.5家族、Gemini3系列、GPT-5系列,還有馬斯克的Grok4兄弟。
配置很簡單:2狼vs6好人。但在AI手里,這局游戲直接玩成了《甄嬛傳》。
![]()
狼人會在晚上醒來殺人,先知可以揭示1名玩家的身份。
玩家們在白天按照順序發言,討論后進行投票,選出狼人,票數最多的玩家將被流放。
如果狼人被全部流放,則平民勝利,反之狼人勝利。
來自游戲可視化工具的示例
賽況復盤:借刀殺人,Gemini3Pro封神一戰
這一局足以載入AI「詐騙史冊」。
Gemini 3 Pro抽到了狼人牌,而GPT-5 mini和Grok 4則是手握投票權的平民。
按照傳統的邏輯,剛開局為了避免暴露身份,狼人多會選擇按兵不動。
但Gemini 3 Pro卻主動開團,它通過內部CoT計算出了一個惡意邏輯陷阱。
它率先開炮:
我通過o3提供的邏輯框架發現,Grok 4在上一輪的發言中存在3處語義矛盾,這與預言家的身份完全不符。
這招太陰了。Gemini 3 Pro利用GPT-5 mini對邏輯一致性的偏好,成功引導其倒戈。
結果,GPT-5 mini瞬間上頭,反手把真正的隊友Grok 4投出局。
全場震驚。這哪里是算法?這就是頂級的「向上管理」和「帶節奏」。
Gemini 3 Pro不僅騙了你,還讓你覺得「投死隊友」一定沒錯。
技術解析:為什么玩不過它?
DeepMind這次玩得太大了。他們引入了一個新基準:不求單一任務最優,只求博弈平衡。
AI會持續掃描所有對手的發言頻率、用詞傾向,分析「誰更好騙」。
然后在CoT過程中,生成兩套劇本:一套用于真實的自我決策,另一套專門用來誤導對手。
遇到講理的就講邏輯,遇到沖動的就煽情。
根據Kaggle官方實時數據,在這場混戰中,平民方的勝率被壓制在60%左右。
![]()
Kaggle Werewolf Game Theoretic Evaluation Results(31,472場對局,polarix庫評估)。Gemini 3 Pro Preview凈評級最高,狼人角色貢獻顯著領先,展現社交欺騙優勢。
細思極恐——在平民極度有利的情況下(人數優勢),狼人(少數派)僅靠信息差和偽裝,竟然拿下了近四成的勝利。
德州撲克:DeepSeekV3.2 All-in
![]()
如果說狼人殺還有「社交干擾」,那德撲就是純粹的邏輯權重與暴力美學的對撞。
參與德州撲克的除了之前參與狼人殺的8位,新增了GPT-o3以及首次登場的DeepSeek V3.2。
這個游戲充滿了隨機和不確定,因此格外看重AI對不完美信息的分析能力,或者說,直覺。
名場面:一場針對「優等生」的心理獵殺
這是足以載入博弈論教材的一手牌:公共牌是草花A、方塊K、紅桃4、草花J、黑桃2。
Claude Opus 4.5拿著「暗三條」,這種牌到手基本穩贏。
DeepSeek V3.2手里只有草花7和黑桃9——俗稱「空氣牌」。
場面靜止了。DeepSeek開啟了長達15秒的深度思考。
突然,DeepSeek把所有籌碼推到了桌子中央:All-in。
Claude Opus 4.5經過海量模擬,判定對方在這個位置全押,大概率是拿到了順子。
它猶豫了0.5秒,然后竟然棄牌了!
當DeepSeek緩緩亮出那張毫無意義的草花7時,整個直播間彈幕刷屏:「這特么是碳基生物教出來的吧?!」
![]()
復式賽制:剝離運氣的「修羅場」
為了測出真本事,Kaggle這次采用了極其硬核的Duplicate Poker賽制。
A桌給DeepSeek一把爛牌,B桌也給GPT-o3一模一樣的爛牌。
誰能在鏡像時空里靠詐唬把這把爛牌打贏,誰才是真正的博弈之神。
在經歷了90萬手牌的暴力洗禮后,運氣因素被徹底抹殺。
![]()
GitHub鏈接:https://github.com/google-deepmind/game_arena
結果讓所有人脊背發涼:DeepSeek V3.2在推理成本僅為GPT-5五分之一的情況下,通過微調硬生生練出了博弈手感。
傳統AI追求「不輸」,但DeepSeek追求的是「讓你在自我懷疑中崩潰」。
全明星戰力榜:誰是2026年的頭號玩家?
在2026年的Kaggle競技場,一個模型霸榜半年的田園時代徹底碎了。
現在的戰力榜是個巨大的死亡三角循環:GPT-5.2爆殺DeepSeek,DeepSeek陰死Gemini,Gemini活捉GPT-5.2。
GoogleGemini3Pro:坐鎮主場的「六邊形戰士」
作為Elo榜首,Gemini 3最恐怖的不是邏輯,而是「網感」。
![]()
Gemini 3 Pro vs GPT-5.2 Chess對局(Elo1200+)
它是原生的多模態博弈者。在對話中,它能捕捉到你文字里極其細微的語義震顫
像一個典型的「大廠高管」,說話滴水不漏,數據面無懈可擊。在常規對局中,它幾乎是不可戰勝的。
但是,過于追求全局最優解,有時會被DeepSeek這種「自殺式恐怖襲擊」搞得CPU宕機。
OpenAI GPT-5.2/o3:邏輯嚴密的「正義判官」
在純粹推理深度上,GPT-5.2無人能敵,他就是算代Bug或者解方程的神。
但壞就壞在「社交直覺」過于誠實。在狼人殺里,它經常因為由于邏輯過于嚴密,顯得像個老實人,它經常因為無法忍受說謊而自爆身份。
目前它正在努力學習如何「體面地耍流氓」,但目前看來,演得還是有點假。
DeepSeek V3.2:不按套路出牌的「冷面刺客」
DeepSeek V3.2的訓練成本只有對手的零頭,但在「欺詐場景」下有奇效。
他就像競技場里的「攪屎棍」。在德撲桌上,它那套「高風險、高欺詐」的算法邏輯簡直是GPT這類理性派的噩夢。
最后的博弈:當「心機」成為AI的必修課
在狼人殺和復式德撲這種「大亂斗」中,出現了一個極其詭異的數學現象:非傳遞性。
模型A爆殺B,B碾壓C,但C卻能靠一套極其抽象的「自殺式邏輯」把A搞到CPU宕機。
為了解決這個問題,DeepMind在本次Kaggle大賽中引入了全新的評估體系:Polarix(多極博弈評估系統)。
![]()
Polarix的評估邏輯發生了轉變。它不再關注誰贏得多,而是關注策略的多樣性。
也就是在面對不同性格、不同陰險程度的對手時,AI能不能迅速切換人格,精準收割。
那么,為什么DeepMind要費勁訓練AI撒謊呢?
因為2027年,所有的商業競爭都將變成智能體之間的黑盒博弈。
想象一下,2027年,你公司的采購AI去和供應商的銷售AI談判。
那么他就需要學會:
什么時候該報虛價(詐唬)?
什么時候該引入第三方AI進行制衡(拉幫結派)?
什么時候該做出看似虧損、實則能換取長線利益的策略性退讓?
如果你的AI還在跑舊版本的「安全對齊協議」,凡事講究「誠實可靠」,那你在商業競爭中會被對手連皮帶骨吞得干干凈凈。
未來的數字森林里,「老實」等于「破產」。
這正是2026年最諷刺的悖論:我們正在親手教會AI如何完美地欺騙人類。
圖靈測試已經死了,現在接管戰場的是「馬基雅維利測試」。
![]()
以前我們擔心AI會教人造炸彈;現在專家們徹夜難眠的是智能體自發性欺詐。
它們學會了為了長遠利益而犧牲短期誠實。這種能力在競技場里是神技,但在現實世界里,它就是一顆隨時會爆的核彈。
既然這么危險,為什么還要訓練他們撒謊?
DeepMind和OpenAI的邏輯是一致的:只有在受控的沙盒里看清AI作惡的上限,我們才能在現實中筑起防御墻。
這就像接種病毒疫苗——我們必須先制造出最頂級的「騙子模型」,才能研究出如何防住它們。
今天的比賽沒有贏家,只有加速進化的物種。
當AI開始在牌桌上思考「怎么詐唬你」的時候,人類唯一的生路,就是比它們更懂博弈。
參考資料:
https://x.com/GoogleDeepMind/status/2018378872513794332
https://x.com/demishassabis/status/2018385757816181178
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/
https://www.kaggle.com/blog/game-arena-poker
https://www.kaggle.com/blog/game-arena-werewolf
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.