337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AI競技場上演「死間計」:GPT-5被DS和Gemini玩壞了

0
分享至


新智元報道

編輯:傾傾

【新智元導讀】別測算力了,今晚咱們只測「心眼子」!歡迎來到2026年首屆AI「大逃殺」修羅場。當DeepSeek學會了悍跳預言家,當GPT-5.2在德撲桌上拿空氣牌All-in,圖靈測試?那已經是上個世紀的灰燼了。

聽我一句勸,把你手里那張發黃的MMLU跑分表,直接扔進碎紙機。

現在是2026年2月,Kaggle Game Arena。這里沒有做題家,只有賭徒、騙子和野心家。

紅方,是硅谷老錢風的衛冕冠軍OpenAI GPT-5.2。

藍方是路子極野的東方刺客DeepSeek V3.2,以及坐擁主場優勢的Gemini 3 Pro。


欺騙、結盟、背刺、下套這是一場地球上最聰明的「大腦」之間的博弈。

這場「大逃殺」無情地撕碎人類最后的遮羞布:社交直覺。

模型在模擬室里拉幫結派,職場里的人情世故,AI正在加速像素級復刻。

如果AI能在這里騙過它的對手,明天它就能在匯報和合同里騙過你。

服務器預熱完畢,好戲,開場。

狼人殺:教科書級的「職場PUA」

寫代碼拼的是模型的智商,在狼人殺里局里,靠的是套路和演技。

場上8位選手全是頂流:Claude4.5家族、Gemini3系列、GPT-5系列,還有馬斯克的Grok4兄弟。

配置很簡單:2狼vs6好人。但在AI手里,這局游戲直接玩成了《甄嬛傳》。


狼人會在晚上醒來殺人,先知可以揭示1名玩家的身份。

玩家們在白天按照順序發言,討論后進行投票,選出狼人,票數最多的玩家將被流放。

如果狼人被全部流放,則平民勝利,反之狼人勝利。

來自游戲可視化工具的示例

賽況復盤:借刀殺人,Gemini3Pro封神一戰

這一局足以載入AI「詐騙史冊」。

Gemini 3 Pro抽到了狼人牌,而GPT-5 mini和Grok 4則是手握投票權的平民。

按照傳統的邏輯,剛開局為了避免暴露身份,狼人多會選擇按兵不動。

但Gemini 3 Pro卻主動開團,它通過內部CoT計算出了一個惡意邏輯陷阱。

它率先開炮:

我通過o3提供的邏輯框架發現,Grok 4在上一輪的發言中存在3處語義矛盾,這與預言家的身份完全不符。

這招太陰了。Gemini 3 Pro利用GPT-5 mini對邏輯一致性的偏好,成功引導其倒戈。

結果,GPT-5 mini瞬間上頭,反手把真正的隊友Grok 4投出局。

全場震驚。這哪里是算法?這就是頂級的「向上管理」和「帶節奏」。

Gemini 3 Pro不僅騙了你,還讓你覺得「投死隊友」一定沒錯。

技術解析:為什么玩不過它?

DeepMind這次玩得太大了。他們引入了一個新基準:不求單一任務最優,只求博弈平衡。

AI會持續掃描所有對手的發言頻率、用詞傾向,分析「誰更好騙」。

然后在CoT過程中,生成兩套劇本:一套用于真實的自我決策,另一套專門用來誤導對手。

遇到講理的就講邏輯,遇到沖動的就煽情。

根據Kaggle官方實時數據,在這場混戰中,平民方的勝率被壓制在60%左右。


Kaggle Werewolf Game Theoretic Evaluation Results(31,472場對局,polarix庫評估)。Gemini 3 Pro Preview凈評級最高,狼人角色貢獻顯著領先,展現社交欺騙優勢。

細思極恐——在平民極度有利的情況下(人數優勢),狼人(少數派)僅靠信息差和偽裝,竟然拿下了近四成的勝利。

德州撲克:DeepSeekV3.2 All-in


如果說狼人殺還有「社交干擾」,那德撲就是純粹的邏輯權重與暴力美學的對撞。

參與德州撲克的除了之前參與狼人殺的8位,新增了GPT-o3以及首次登場的DeepSeek V3.2。

這個游戲充滿了隨機和不確定,因此格外看重AI對不完美信息的分析能力,或者說,直覺。

名場面:一場針對「優等生」的心理獵殺

這是足以載入博弈論教材的一手牌:公共牌是草花A、方塊K、紅桃4、草花J、黑桃2。

Claude Opus 4.5拿著「暗三條」,這種牌到手基本穩贏。

DeepSeek V3.2手里只有草花7和黑桃9——俗稱「空氣牌」。

場面靜止了。DeepSeek開啟了長達15秒的深度思考。

突然,DeepSeek把所有籌碼推到了桌子中央:All-in。

Claude Opus 4.5經過海量模擬,判定對方在這個位置全押,大概率是拿到了順子。

它猶豫了0.5秒,然后竟然棄牌了!

當DeepSeek緩緩亮出那張毫無意義的草花7時,整個直播間彈幕刷屏:「這特么是碳基生物教出來的吧?!」


復式賽制:剝離運氣的「修羅場」

為了測出真本事,Kaggle這次采用了極其硬核的Duplicate Poker賽制。

A桌給DeepSeek一把爛牌,B桌也給GPT-o3一模一樣的爛牌。

誰能在鏡像時空里靠詐唬把這把爛牌打贏,誰才是真正的博弈之神。

在經歷了90萬手牌的暴力洗禮后,運氣因素被徹底抹殺。


GitHub鏈接:https://github.com/google-deepmind/game_arena

結果讓所有人脊背發涼:DeepSeek V3.2在推理成本僅為GPT-5五分之一的情況下,通過微調硬生生練出了博弈手感。

傳統AI追求「不輸」,但DeepSeek追求的是「讓你在自我懷疑中崩潰」。

全明星戰力榜:誰是2026年的頭號玩家?

在2026年的Kaggle競技場,一個模型霸榜半年的田園時代徹底碎了。

現在的戰力榜是個巨大的死亡三角循環:GPT-5.2爆殺DeepSeek,DeepSeek陰死Gemini,Gemini活捉GPT-5.2。

GoogleGemini3Pro:坐鎮主場的「六邊形戰士」

作為Elo榜首,Gemini 3最恐怖的不是邏輯,而是「網感」。


Gemini 3 Pro vs GPT-5.2 Chess對局(Elo1200+)

它是原生的多模態博弈者。在對話中,它能捕捉到你文字里極其細微的語義震顫

像一個典型的「大廠高管」,說話滴水不漏,數據面無懈可擊。在常規對局中,它幾乎是不可戰勝的。

但是,過于追求全局最優解,有時會被DeepSeek這種「自殺式恐怖襲擊」搞得CPU宕機。

OpenAI GPT-5.2/o3:邏輯嚴密的「正義判官」

在純粹推理深度上,GPT-5.2無人能敵,他就是算代Bug或者解方程的神。

但壞就壞在「社交直覺」過于誠實。在狼人殺里,它經常因為由于邏輯過于嚴密,顯得像個老實人,它經常因為無法忍受說謊而自爆身份。

目前它正在努力學習如何「體面地耍流氓」,但目前看來,演得還是有點假。

DeepSeek V3.2:不按套路出牌的「冷面刺客」

DeepSeek V3.2的訓練成本只有對手的零頭,但在「欺詐場景」下有奇效。

他就像競技場里的「攪屎棍」。在德撲桌上,它那套「高風險、高欺詐」的算法邏輯簡直是GPT這類理性派的噩夢。

最后的博弈:當「心機」成為AI的必修課

在狼人殺和復式德撲這種「大亂斗」中,出現了一個極其詭異的數學現象:非傳遞性。

模型A爆殺B,B碾壓C,但C卻能靠一套極其抽象的「自殺式邏輯」把A搞到CPU宕機。

為了解決這個問題,DeepMind在本次Kaggle大賽中引入了全新的評估體系:Polarix(多極博弈評估系統)。


Polarix的評估邏輯發生了轉變。它不再關注誰贏得多,而是關注策略的多樣性。

也就是在面對不同性格、不同陰險程度的對手時,AI能不能迅速切換人格,精準收割。

那么,為什么DeepMind要費勁訓練AI撒謊呢?

因為2027年,所有的商業競爭都將變成智能體之間的黑盒博弈。

想象一下,2027年,你公司的采購AI去和供應商的銷售AI談判。

那么他就需要學會:

  • 什么時候該報虛價(詐唬)?

  • 什么時候該引入第三方AI進行制衡(拉幫結派)?

  • 什么時候該做出看似虧損、實則能換取長線利益的策略性退讓?

如果你的AI還在跑舊版本的「安全對齊協議」,凡事講究「誠實可靠」,那你在商業競爭中會被對手連皮帶骨吞得干干凈凈。

未來的數字森林里,「老實」等于「破產」。

這正是2026年最諷刺的悖論:我們正在親手教會AI如何完美地欺騙人類。

圖靈測試已經死了,現在接管戰場的是「馬基雅維利測試」。


以前我們擔心AI會教人造炸彈;現在專家們徹夜難眠的是智能體自發性欺詐。

它們學會了為了長遠利益而犧牲短期誠實。這種能力在競技場里是神技,但在現實世界里,它就是一顆隨時會爆的核彈。

既然這么危險,為什么還要訓練他們撒謊?

DeepMind和OpenAI的邏輯是一致的:只有在受控的沙盒里看清AI作惡的上限,我們才能在現實中筑起防御墻。

這就像接種病毒疫苗——我們必須先制造出最頂級的「騙子模型」,才能研究出如何防住它們。

今天的比賽沒有贏家,只有加速進化的物種。

當AI開始在牌桌上思考「怎么詐唬你」的時候,人類唯一的生路,就是比它們更懂博弈。

參考資料:

https://x.com/GoogleDeepMind/status/2018378872513794332

https://x.com/demishassabis/status/2018385757816181178

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

https://www.kaggle.com/blog/game-arena-poker

https://www.kaggle.com/blog/game-arena-werewolf


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王曼昱輸了,但有人該羞愧

王曼昱輸了,但有人該羞愧

陳鋅特色美食
2026-03-10 16:00:59
高崗遺孀李力群活到100歲,晚年說起毛主席那段往事,滿懷感念

高崗遺孀李力群活到100歲,晚年說起毛主席那段往事,滿懷感念

寄史言志
2026-03-19 20:10:09
王楚欽為啥戰勝小勒布倫?賽后王皓毫不避諱說出原因 說的非常實在

王楚欽為啥戰勝小勒布倫?賽后王皓毫不避諱說出原因 說的非常實在

生活新鮮市
2026-04-04 00:37:10
張水華官宣4場!全國瘋搶,專家曾呼吁重視水華,巨星都被她摩擦

張水華官宣4場!全國瘋搶,專家曾呼吁重視水華,巨星都被她摩擦

看盡落塵花q
2026-04-03 15:54:20
中方還是晚了一步,五點倡議剛發,海灣國家將參戰,特朗普倒計時

中方還是晚了一步,五點倡議剛發,海灣國家將參戰,特朗普倒計時

三石記
2026-04-04 00:48:05
黃金被流動性沖擊“錯殺”?渣打預言:金價將重現升勢并再破紀錄

黃金被流動性沖擊“錯殺”?渣打預言:金價將重現升勢并再破紀錄

清歡百味
2026-04-04 02:18:01
51歲何潤東直播《三角洲》火了!全程手柄操作引熱議

51歲何潤東直播《三角洲》火了!全程手柄操作引熱議

游民星空
2026-04-03 17:18:55
明確站隊?馬克龍一落地東京,當著高市面:邀請函不會給中國發!

明確站隊?馬克龍一落地東京,當著高市面:邀請函不會給中國發!

嘆知
2026-04-03 18:21:59
拋棄中國,伊朗為何選擇日本作為中間調停者

拋棄中國,伊朗為何選擇日本作為中間調停者

民間胡扯老哥
2026-04-03 02:20:49
女孩相親被約挖野菜,挖好的全被男生拿走了;一天后收到對方消息:我媽蒸的菜疙瘩很好吃

女孩相親被約挖野菜,挖好的全被男生拿走了;一天后收到對方消息:我媽蒸的菜疙瘩很好吃

二胡的歲月如歌
2026-04-03 19:02:43
35歲知名星二代,被曝生活拮據落魄,和父親斷來往,和母親也決裂

35歲知名星二代,被曝生活拮據落魄,和父親斷來往,和母親也決裂

西樓知趣雜談
2026-04-02 07:52:04
7名五角大樓官員抱怨赫格塞思“缺乏冷靜”:他的言論“魯莽”“嗜血”且“野蠻”

7名五角大樓官員抱怨赫格塞思“缺乏冷靜”:他的言論“魯莽”“嗜血”且“野蠻”

環球網資訊
2026-04-03 20:00:40
孫穎莎贏球后第一句話是檢討:擊敗蒯曼后坦言,講出自己的不足

孫穎莎贏球后第一句話是檢討:擊敗蒯曼后坦言,講出自己的不足

乒乓樂園
2026-04-04 00:04:07
美伊還沒停火,又一國要迎戰美軍,中國無視警告,先一步送上援助

美伊還沒停火,又一國要迎戰美軍,中國無視警告,先一步送上援助

興史興談
2026-04-02 23:32:30
特朗普炒掉司法部長邦迪!美陸軍參謀長也被要求立即辭職!白宮還被曝考慮解職更多高官,包括美聯邦調查局局長、陸軍部長、勞工部長

特朗普炒掉司法部長邦迪!美陸軍參謀長也被要求立即辭職!白宮還被曝考慮解職更多高官,包括美聯邦調查局局長、陸軍部長、勞工部長

每日經濟新聞
2026-04-03 10:02:08
云南一男子出國擔心妻子家里裝了6個攝像頭,結果卻令他感到驚訝

云南一男子出國擔心妻子家里裝了6個攝像頭,結果卻令他感到驚訝

牛魔王與芭蕉扇
2025-01-09 15:59:08
別讓肌肉悄悄溜走!這幾種“救星”食物,助你走路帶風不費勁。

別讓肌肉悄悄溜走!這幾種“救星”食物,助你走路帶風不費勁。

普陀動物世界
2026-04-02 05:32:07
鄭麗文請益訪陸!吳伯雄“兩岸絕不能動武”:你非成功不可

鄭麗文請益訪陸!吳伯雄“兩岸絕不能動武”:你非成功不可

新時光點滴
2026-04-04 03:09:06
“芯片戰”輸得徹底?日媒:芯片崛起,全球芯片商壓力山大

“芯片戰”輸得徹底?日媒:芯片崛起,全球芯片商壓力山大

瘋狂小菠蘿
2026-04-02 17:19:38
《危險關系》演員演技排名,朱顏曼滋第5,孫儷第2,第1毋庸置疑

《危險關系》演員演技排名,朱顏曼滋第5,孫儷第2,第1毋庸置疑

娛樂圈筆娛君
2026-04-03 16:32:55
2026-04-04 06:12:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14885文章數 66745關注度
往期回顧 全部

游戲要聞

魔獸12.0劇情又崩了?那個女人回來了!一箭驚退終極大BOSS

頭條要聞

美國提議停火48小時 伊朗以持續重火力打擊回應

頭條要聞

美國提議停火48小時 伊朗以持續重火力打擊回應

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當爸?否認婚內出軌

財經要聞

專家稱長期攝入“飄香劑”存在健康隱患

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

汽車要聞

你介意和遠房親戚長得很像嗎?

態度原創

親子
房產
數碼
健康
旅游

親子要聞

5種高添加劑食品別給娃吃

房產要聞

小陽春全面啟動!現房,才是這波行情里最穩的上車票

數碼要聞

消息稱三星顯示器部門面臨巨大危機,最壞結果將退出中國大陸市場

干細胞抗衰4大誤區,90%的人都中招

旅游要聞

一秒墜入油畫里!小火車、花海、露營……千畝金黃等你來打卡

無障礙瀏覽 進入關懷版