337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

谷歌Deep Think八語奧賽屠榜!自主攻克4大未解難題,科研壁壘崩塌

0
分享至


新智元報道

編輯:元宇

【新智元導讀】谷歌Deep Think橫掃亞歐多語種競賽,AI科研工具的語言壁壘正在被拆掉,數學與科學發現進入AI驅動新時代。

「Deep Think」在所有競賽中都擊敗/媲美競爭對手」!

剛剛,Google DeepMind高級研究員Conglong Li在X平臺連發12條帖子,甩出了一張前所未見的成績單。



一個AI,同一個大腦,八張不同語言的試卷,全部高分交卷。

在任何一個模型身上,這樣的成績實屬罕見。

從IMO金牌到區域賽全覆蓋

這次Deep Think拿下多個榜單高分,并非突然的單點爆發,而是一條已經持續了近一年的能力演進曲線。

首先登頂最硬核的推理賽場。

2025年7月,Gemini Deep Think首次在國際數學奧林匹克(IMO)達到金牌標準,42分拿下35分。同期在ICPC世界決賽也取得類似高水平表現。

這兩個成績,DeepMind官方博客已經正式公布。

Google DeepMind隨后把這兩項成績都寫進了官方博客,作為Deep Think邁過數學與編程「世界級競賽門檻」的標志。

接著,Deep Think開始從「世界冠軍級單項突破」,走向「跨語言、跨學科、跨場景的系統驗證」。

2026年2月,Google連發三篇博客。

一篇介紹Gemini 3.1 Pro模型本體,一篇介紹Deep Think專用推理模式的重大升級,一篇來自DeepMind科學發現團隊,直接把Deep Think定位成「人類智力倍增器」。

升級后的Deep Think交出了一串硬指標:

Humanity's Last Exam拿下48.4%(無工具輔助),ARC-AGI-2達到84.6%(ARC Prize基金會官方驗證),Codeforces競賽編程Elo評分3455,2025國際物理奧賽和化學奧賽筆試部分達到金牌水平。


這條路線非常清楚:先用IMO、ICPC這樣的世界級競賽,證明它的強大推理能力,然后再用多語種、區域賽和跨學科奧賽成績,證明它的跨語言、跨領域穩定遷移的通用深度推理能力。


Gemini Deep Think從IMO金牌到PhD級科研加速的能力演進

8語言成績單逐項細看

現在,把這張成績單真正攤開來看。

日語最亮眼。

2025年第35回日本數學奧賽本選(JMO Finals),滿分。

ICPC亞洲日本初賽,滿分。


其中,JMO本選這項成績甚至超過了當屆最高得分對應的80%水平,達到官方所說的「金獎相當」標準。

法語同樣滿分,100%。

中文就有意思了。

第41屆中國數學奧林匹克(CMO),Deep Think拿到86.3%,相當出色。但中國信息學奧賽(NOI)只有63.3%。

86.3%和63.3%之間的落差,畫出了AI推理能力的真實邊界。

在數學競賽里,模型面對的是抽象推導、證明構造和多步演繹,這恰好是Deep Think最擅長的能力帶。

但到了信息學競賽,問題就不只是「想明白」,還包括把邏輯翻譯成可執行代碼、控制邊界條件、兼顧復雜度約束,并且在實現層面避免失誤。

前者更接近純推理,后者則要求「推理+算法設計+工程化實現」同時過關。

其它語種,韓語、印地語、越南語、俄語、葡萄牙語對應的競賽結果里,Deep Think 也都實現了擊敗對手或至少持平。

如果把日語、法語、中文再合起來看,這次最不尋常的一點其實不是某一門單科刷到滿分,而是同一個模型、同一種Deep Think推理系統,在多種語言的競賽試卷上,都交出了第一梯隊的成績。

這份成績單可靠嗎?

但這里有一個關鍵的缺失:

Conglong Li并沒有列出競品的具體對比數據:所有成績,全部來自Google內部評測。沒有第三方獨立復現,沒有競賽官方認證,評測方法完全沒有公開。

每道題是做一次還是做很多次取最優?推理時用了多少算力?有沒有人工提示工程介入?

這些直接影響成績含金量的細節,也都沒提。

還有一點容易被忽略:這些考試全部是各國區域選拔賽,不是國際決賽。

區域賽的題目難度和國際決賽之間,隔著一個量級。

研究員明確說了,這些成績「將被納入模型卡」,截至發稿,模型卡尚未正式更新。

所以,目前這仍然好像是一張由考生自己打分、自己公布、尚未交給教務處蓋章的成績單。

多語言科研公平性

被忽視的真正戰場

為什么Google要專門花精力做8種語言的區域賽評測?

當前AI推理能力的評測,幾乎全部基于英語。

MATH、GSM8K、HumanEval、ARC-AGI……這些都是英語。

全世界的數學家、物理學家、工程師,只要母語不是英語,在使用AI科研工具時都要先過一道語言關。

Google選的這8種語言不是隨機的。

日語、韓語、中文覆蓋東亞科研重鎮,印地語、越南語覆蓋新興市場,法語、俄語、葡萄牙語覆蓋歐洲和南美。

加在一起,這是全球科研產出的大半壁江山。

DeepMind在官方博客里把Deep Think定位為「人類智力倍增器」,說它能「處理知識檢索和嚴格驗證,讓科學家專注于概念深度和創造性方向」。

結合這次的多語言成績,這句話的潛臺詞不難理解:這個倍增器,不僅限英語的科學家用。

更值得注意的是Deep Think在科研落地上已經走了多遠。

DeepMind公布了一個叫Aletheia的數學研究智能體,基于Deep Think驅動,能自主生成、驗證、修訂研究級數學問題的解法。


Aletheia由Deep Think驅動,能夠對研究級數學問題進行迭代式生成、驗證與修正

Aletheia已經參與產出了多篇研究論文,其中一篇完全由AI自主完成,計算了算術幾何中的特定結構常數。


另外,在700個開放數學問題的半自主評估中,它還獨立解決了4個此前未解的問題。

Gemini Deep Think模式在計算機科學、物理學、經濟學等領域也展現出巨大潛力。

在計算機科學領域,Deep Think幫助推翻了一個懸而未決十年的猜想,在物理學領域找到了宇宙弦引力輻射的新型解析解,在經濟學領域擴展了一個拍賣理論定理。


AI推理流程的示意圖,展示了在網絡層進行的大規模解空間探索如何被匯聚為結構化推理,并通過自動化與人工驗證加以確認。

通過與專家合作解決18個研究難題,Gemini Deep Think的高級版本幫助突破了算法、機器學習與組合優化、信息論以及經濟學領域長期存在的瓶頸。

這已經遠遠超出了「做競賽題」的范疇。

當競品還在卷英文benchmark排行榜的時候,Google已經在「AI科研加速器」領域找到了新戰場。

這件事請最重要的東西其實不是分數,它背后真正的信號是:AI科研工具的語言壁壘正在被當作一個工程問題來解決。

如果這條路走通了,全世界用日語、韓語、中文、印地語做研究的科學家,將第一次和英語母語者站在同一條起跑線上。

這一次,Google已經把牌攤在了桌上。

至于競爭對手誰會跟牌,相信我們很快也將看到。

參考資料:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
難怪張柏芝準備壽衣遺照!謝霆鋒不再隱瞞,終于坦白不娶王菲原因

難怪張柏芝準備壽衣遺照!謝霆鋒不再隱瞞,終于坦白不娶王菲原因

人類的關注
2026-04-08 13:30:06
一場戰爭徹底把中國打醒!美軍作戰最毒的是什么?中國用30年看清

一場戰爭徹底把中國打醒!美軍作戰最毒的是什么?中國用30年看清

小蘭聊歷史
2026-04-08 01:20:00
戴安娜秘密錄音曝光:和查爾斯一周三次夫妻生活,他卻想當卡米拉衛生棉

戴安娜秘密錄音曝光:和查爾斯一周三次夫妻生活,他卻想當卡米拉衛生棉

小魚愛魚樂
2026-02-17 07:05:58
我升經理月薪20萬,婆婆逼交18萬不交就離,老公附和,我秒答離婚

我升經理月薪20萬,婆婆逼交18萬不交就離,老公附和,我秒答離婚

娛樂洞察點點
2026-04-08 10:53:13
這是我見過最富態的女性,沒有之一

這是我見過最富態的女性,沒有之一

情感大頭說說
2026-04-08 12:07:23
十萬年的“毒藥”契約,人類憑什么敢簽?

十萬年的“毒藥”契約,人類憑什么敢簽?

物理系老郭
2026-04-08 09:30:14
雷軍曬了張圖,小米把豪車涂裝玩成了"隱形聯名"

雷軍曬了張圖,小米把豪車涂裝玩成了"隱形聯名"

報錯免疫體
2026-04-06 16:45:14
最后90分鐘:特朗普緊急叫停,兩周停火是和平曙光還是中場休息?

最后90分鐘:特朗普緊急叫停,兩周停火是和平曙光還是中場休息?

洋流上的棋局
2026-04-08 13:11:14
美國副總統萬斯在匈牙利指責烏克蘭干預匈牙利和美國大選

美國副總統萬斯在匈牙利指責烏克蘭干預匈牙利和美國大選

山河路口
2026-04-07 23:55:12
不要再盼房價暴跌了!2026年最慘的不是炒房客,而是我們普通人!

不要再盼房價暴跌了!2026年最慘的不是炒房客,而是我們普通人!

細說職場
2026-04-08 11:31:03
觸目驚心!陜西女教師案:5人背景強硬、串通毀證,正義不容遮掩

觸目驚心!陜西女教師案:5人背景強硬、串通毀證,正義不容遮掩

奇思妙想草葉君
2026-04-03 21:18:12
41.1℃熱破紀錄,海南島成“烸南島”!為什么越來越熱?

41.1℃熱破紀錄,海南島成“烸南島”!為什么越來越熱?

大象新聞
2026-04-08 07:49:01
霍思燕帶狗泰國奪冠!肥肚三層、發際線好假,女兒出鏡像女版杜江

霍思燕帶狗泰國奪冠!肥肚三層、發際線好假,女兒出鏡像女版杜江

每一次點擊
2026-04-07 12:01:22
河南惡魔富豪吳天喜,以資助之名接近女學生,禽獸真的存在

河南惡魔富豪吳天喜,以資助之名接近女學生,禽獸真的存在

星河逍遙游
2025-01-23 17:26:55
張倫碩自曝最受不了鐘麗緹一點:她那方面太厲害!女人看后都無語

張倫碩自曝最受不了鐘麗緹一點:她那方面太厲害!女人看后都無語

百言君
2026-04-06 23:11:58
你以為是遺憾,其實是躲過一劫:這段話太通透

你以為是遺憾,其實是躲過一劫:這段話太通透

杏花煙雨江南的碧園
2026-04-01 15:15:03
4 種最佳抗衰老的運動,平均壽命延長5-10年

4 種最佳抗衰老的運動,平均壽命延長5-10年

增肌減脂
2026-04-07 21:15:04
核心原材料價格大漲,中東戰火“燒”到衛生巾?出廠價已上漲10%至15%,多家品牌回應是否漲價→

核心原材料價格大漲,中東戰火“燒”到衛生巾?出廠價已上漲10%至15%,多家品牌回應是否漲價→

縱相新聞
2026-04-07 20:40:03
康克清告訴采訪人員,當年和主席住得近,沒少管主席和江青的家事

康克清告訴采訪人員,當年和主席住得近,沒少管主席和江青的家事

涼州辭
2026-04-07 20:50:03
阿森納客場1-0葡超豪門 進歐冠4強占先機 止2連敗 哈弗茨替補絕殺

阿森納客場1-0葡超豪門 進歐冠4強占先機 止2連敗 哈弗茨替補絕殺

我愛英超
2026-04-08 05:03:31
2026-04-08 15:08:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14924文章數 66754關注度
往期回顧 全部

科技要聞

造出地表最強AI,卻死活不給你用!

頭條要聞

美聯社:伊朗同意停火前中國出面介入 萬斯也參與斡旋

頭條要聞

美聯社:伊朗同意停火前中國出面介入 萬斯也參與斡旋

體育要聞

40歲,但實力倒退12年

娛樂要聞

楊穎鄧超低調現身觀眾席 支持陳赫話劇

財經要聞

特朗普同意停火兩周 伊朗:接受停火提議

汽車要聞

5門5座/新復古造型 繽果Pro將于4月14日開啟預售

態度原創

藝術
教育
手機
游戲
公開課

藝術要聞

齊白石『凌波仙子』

教育要聞

通知 | 2026年天津場高招咨詢會4月18日舉辦 近70所熱門高校參加

手機要聞

三星Galaxy XR頭顯推送安卓更新:2D視頻秒變3D效果等

養女兒游戲《Machine Child》發布Steam和諧還原補丁

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版