![]()
作者 | Kino
編輯 | 石瀨
過(guò)去24小時(shí),AI圈的頭條無(wú)疑被Gemini 3承包了。
![]()
相信大家都已經(jīng)看過(guò)下面這張刷屏的基準(zhǔn)測(cè)試對(duì)比圖了,實(shí)話說(shuō),我看到這張圖的第一反應(yīng)是好不真實(shí),差距大得好不真實(shí),我們很少見(jiàn)到如此全面且壓倒性的領(lǐng)先。
在AI領(lǐng)域,SOTA(State-of-the-Art,即最強(qiáng))的王座總是易主,但排行榜的頭名換來(lái)?yè)Q去,領(lǐng)先的優(yōu)勢(shì)卻往往極其微弱,長(zhǎng)期關(guān)注LLM軍備競(jìng)賽的我們,其實(shí)已經(jīng)對(duì)SOTA脫敏了。
但這次,Gemini 3 Pro的成績(jī)單徹底打破了這種常態(tài),不再是1%或2%的微弱優(yōu)勢(shì),而是動(dòng)輒20%甚至40%的斷層式領(lǐng)先(燃起來(lái)了)……
![]()
我們能直觀地看到,幾乎在所有關(guān)鍵指標(biāo)上,Gemini 3 Pro都遙遙領(lǐng)先前代Gemini 2.5 Pro和競(jìng)爭(zhēng)對(duì)手Claude Sonnet 4.5、GPT-5.1。
這些漂亮的跑分到底意味著什么?在展示我們的實(shí)測(cè)Case之前,我們先花點(diǎn)時(shí)間,解讀一下這張圖,搞懂這些測(cè)試的含金量,看看Gemini 3 Pro到底強(qiáng)在哪。
Humanity's Last Exam (人類(lèi)終極考試)是一個(gè)學(xué)術(shù)推理基準(zhǔn),涵蓋了人文學(xué)科到STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))的各種高難度問(wèn)題。它的特點(diǎn)是需要模型結(jié)合搜索和代碼執(zhí)行等工具來(lái)輔助解答,非常貼近現(xiàn)實(shí)世界的開(kāi)放性問(wèn)題。Gemini 3 Pro(37.5%)大幅領(lǐng)先所有對(duì)手,GPT-5.1(26.5%)次之,而Gemini 2.5 Pro和Claude Sonnet 4.5在此項(xiàng)上能力較弱。
ARC-AGI-2(抽象推理挑戰(zhàn))測(cè)試的是模型的視覺(jué)和抽象邏輯推理(看圖找規(guī)律),這對(duì)AI來(lái)說(shuō)是出了名的困難。而Gemini 3 Pro(31.1%)的表現(xiàn)不僅比Gemini 2.5 Pro(4.9%)強(qiáng)了6倍多,也幾乎是GPT-5.1(17.6%)和Claude Sonnet 4.5(13.6%)的兩倍。
再來(lái)看看數(shù)學(xué)與編程能力。
MathArena (數(shù)學(xué)競(jìng)技場(chǎng))是另一個(gè)極具挑戰(zhàn)的數(shù)學(xué)競(jìng)賽問(wèn)題集。Gemini 3 Pro(23.4%)再次實(shí)現(xiàn)了斷層領(lǐng)先:比 Gemini 2.5 Pro(0.5%)強(qiáng)了近47倍,也遠(yuǎn)遠(yuǎn)甩開(kāi)了Claude Sonnet 4.5(1.6%)和GPT-5.1(1.0%)。
SWE-Bench Verified要求模型在真實(shí)的、大型的Github代碼庫(kù)中,僅根據(jù)用戶提交的Bug報(bào)告來(lái)自主定位并修復(fù)Bug。這是Gemini 3Pro唯一沒(méi)有拿到第一的項(xiàng)目,Claude Sonnet 4.5(77.2%)和GPT-5.1(76.3%)以極其微弱的優(yōu)勢(shì)領(lǐng)先Gemini 3 Pro(76.2%)。
再來(lái)看多模態(tài)理解能力,包括模型理解和推理圖像、圖表、視頻和文檔的能力。
ScreenSpot-Pro (屏幕理解)專(zhuān)門(mén)測(cè)試模型理解軟件界面(UI)截圖的能力。Gemini 3 Pro(72.7%) ,而Gemini 2.5 Pro(11.4%)和GPT-5.1(3.5%)在此項(xiàng)上幾乎不可用。簡(jiǎn)單來(lái)說(shuō)就是,Gemini 3Pro在理解屏幕上有什么、按鈕在哪里的能力上遙遙領(lǐng)先,這對(duì)開(kāi)發(fā)能操作軟件的桌面智能體至關(guān)重要。
Video-MMMU (視頻知識(shí)獲取)測(cè)試模型從視頻內(nèi)容中學(xué)習(xí)和獲取知識(shí)的能力。Gemini 3 Pro (87.6%) 再次領(lǐng)先,表明它是最擅長(zhǎng)“看視頻”并理解其中內(nèi)容的模型。
接下來(lái),就是實(shí)戰(zhàn)環(huán)節(jié)。我們匯總了海內(nèi)外網(wǎng)友用Gemini 3Pro跑出的各種神仙Case,同時(shí)上手實(shí)測(cè)了一番。這些Case大都集中在編程、前端、網(wǎng)頁(yè)設(shè)計(jì)等場(chǎng)景,能很直觀地體現(xiàn)模型能力,而Gemini 3 Pro的表現(xiàn)實(shí)現(xiàn)了一個(gè)明顯的用戶體驗(yàn)層面上的躍升。
先說(shuō)省流結(jié)論:Gemini 3 Pro不僅能寫(xiě)代碼、生成高保真游戲原型,更能扮演網(wǎng)頁(yè)設(shè)計(jì)師+前端工程師的綜合角色,理解復(fù)雜的需求,交付一個(gè)審美和功能均在線的完整網(wǎng)站產(chǎn)品。
Dating App
a16z合伙人Justin More用Gemini 3 Pro打造了一個(gè)硅谷AI圈戀愛(ài)交友App,不僅UI精良,交互流暢,生成的個(gè)人簡(jiǎn)介也很符合硅谷和AI圈的刻板印象,比如它給Anthropic的研究員打上了Superalignment(超級(jí)對(duì)齊)的標(biāo)簽。匹配成功后,你還會(huì)收到一份契合度測(cè)評(píng),還能和對(duì)方的AI分身聊天。
來(lái)源X:@venturetwins
“地球Online”游戲原型
我讓Gemini 3 Pro制作一個(gè)可交互的“地球Online”游戲界面,畫(huà)面元素需要體現(xiàn)游戲特色,并且包含游戲玩法介紹、游戲須知、創(chuàng)建角色/登錄按鈕。
p.s. “地球Online”是把現(xiàn)實(shí)世界的生活比作一款大型多人在線角色扮演游戲,玩家就是我們每一個(gè)人,服務(wù)器就是地球。創(chuàng)建角色/登錄指的是“出生”,很多人會(huì)開(kāi)玩笑說(shuō)自己的“初始號(hào)”沒(méi)刷好,比如出生地、家庭背景、天賦等。
可交互網(wǎng)站
我要求它創(chuàng)建一個(gè)可交互的、中英雙語(yǔ)的個(gè)人作品集網(wǎng)站。網(wǎng)站需包含“關(guān)于我”、“作品集”和“聯(lián)系方式”三個(gè)板塊,風(fēng)格為極簡(jiǎn)藝術(shù),并指定了黃、粉紅、天藍(lán)、橙色四種主題色。
Gemini 3 Pro生成的效果堪稱(chēng)驚艷:一次性交付了一個(gè)完整、專(zhuān)業(yè)且設(shè)計(jì)感極強(qiáng)的網(wǎng)站。它不僅完美實(shí)現(xiàn)了四色主題和極簡(jiǎn)風(fēng)格,還構(gòu)建了包括首頁(yè)、作品頁(yè)、聯(lián)系人表單在內(nèi)的完整多頁(yè)面布局,可以實(shí)現(xiàn)中英雙語(yǔ)的一鍵切換。
![]()
![]()
![]()
![]()
你還可以上傳一張平面圖,讓Gemini 3 Pro變可交互網(wǎng)頁(yè),不僅還原度極高,而且功能齊全,交互流暢。前端已死。
![]()
![]()
X上一個(gè)前端程序員的感慨
更炸裂的還在后面,有網(wǎng)友讓Gemini 3為一個(gè)在上海舉辦的虛構(gòu)AI峰會(huì)(Let's Vision 26)創(chuàng)建一個(gè)官方網(wǎng)站,其生成的效果、完成度和設(shè)計(jì)感都達(dá)到了新高度。
Gemini 3不僅構(gòu)建了一個(gè)結(jié)構(gòu)完整的商業(yè)級(jí)Landing頁(yè)面,包含導(dǎo)航欄、購(gòu)票、招募演講者、合作伙伴,而且設(shè)計(jì)審美極其在線。視頻中展示了流暢的滾動(dòng)視差動(dòng)畫(huà)、復(fù)古的屏幕特效、以及一個(gè)包含多檔位并以人民幣計(jì)價(jià)的完整購(gòu)票系統(tǒng)。
來(lái)源X:crystalsssup
實(shí)時(shí)智能交互的視頻錄制工具
字節(jié)AI產(chǎn)品經(jīng)理Zara用Gemini 3搞了個(gè)智能視頻錄制工具“Sparks”,在錄制視頻時(shí),AI會(huì)實(shí)時(shí)分析你所說(shuō)的內(nèi)容,智能地提供接下來(lái)的提示和思路,這下再也不怕卡殼了……而且Gemini自帶原生的攝像頭集成能力,能直接導(dǎo)出為MP4格式。
90年代的主題公園游戲
有網(wǎng)友用Gemini 3 Pro花幾個(gè)小時(shí)重制了一個(gè)90年代的主題公園游戲,Gemini 3 Pro連玩家能自己調(diào)節(jié)薯片咸度都保留了(玩過(guò)原版的玩家都懂這個(gè)梗)。
來(lái)源X:@demishassabis
3D隧道躲避游戲
Gemini 3 Pro不僅理解了游戲的核心玩法(在旋轉(zhuǎn)的隧道中躲避障礙物),還僅憑一句提示詞就生成了可以直接運(yùn)行的完整游戲。從視頻中可以看到,這款游戲擁有流暢的3D視覺(jué)效果、動(dòng)態(tài)的速度和距離計(jì)數(shù)器,以及完整的碰撞檢測(cè)和“系統(tǒng)失敗”重啟機(jī)制。
來(lái)源X:@flavioAd
駕駛游戲《霓虹漂移》
這個(gè)同樣是Gemini 3一鍵生成的,視覺(jué)風(fēng)格極強(qiáng),而且擁有功能正常的車(chē)速表、可點(diǎn)擊的“TURBO BOOST”(渦輪增壓) 按鈕、用于更換車(chē)身顏色的“調(diào)色板”以及“軌道運(yùn)鏡”按鈕。
3D樂(lè)高編輯器
一位網(wǎng)友利用 Gemini 3.0 Pro,5分鐘構(gòu)建了一個(gè)功能完備的3D樂(lè)高編輯器。
Gemini 3 Pro一擊就中了用戶界面、復(fù)雜的三維邏輯和所有功能。它擁有一個(gè)包含不同規(guī)格積木的庫(kù)、一個(gè)用于搭建的3D網(wǎng)格畫(huà)布、一個(gè)調(diào)色板以及用于切換視角的控制器(3D、頂視、前視)。用戶可以流暢地在3D空間中選擇、放置、旋轉(zhuǎn)和著色積木。
來(lái)源X:@skirano
核電廠工作模擬
Gemini 3 Pro還能將專(zhuān)家級(jí)的物理學(xué)知識(shí)(核反應(yīng)堆原理)和3D模擬器結(jié)合,一鍵生成一個(gè)完整的、用于教育和模擬的復(fù)雜應(yīng)用,比如這個(gè)核電廠工作原理交互式3D模擬器。
來(lái)源X:@sebkrier
設(shè)計(jì)Agent
國(guó)內(nèi)AI圈KOL“歸藏”用Gemini 3 Pro做了一個(gè)設(shè)計(jì)Agent,可以看到,輸入一句簡(jiǎn)單的中文提示“做一個(gè)小狗宣傳片”,并設(shè)置類(lèi)型為“視頻”、風(fēng)格為“現(xiàn)代”,Agent就自動(dòng)生成了一段8秒鐘的1080P高清視頻。
![]()
「AI新榜交流群」進(jìn)群方式:添加微信“banggebangmei”并備注姓名+職業(yè)/公司+進(jìn)群,歡迎玩家們來(lái)群里交流,一起探索見(jiàn)證AI的進(jìn)化。
歡迎分享、點(diǎn)贊、推薦
一起研究AI
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.