337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

紅杉xbench評測:大模型的視覺能力,普遍低于3歲兒童

0
分享至

紅杉中國 xbench 和 UniPat AI 發(fā)了一個新的多模態(tài)評測集,叫 BabyVision,在這里:

核心發(fā)現(xiàn):當前最強的多模態(tài)模型,在純視覺任務上的得分,普遍低于3歲兒童

人類準確率 94.1%
而在模型當中,Gemini 3 Pro Preview 最高,49.7%
大多數(shù)模型,則在 12-22% 區(qū)間


這個評測的設計思路有點意思,和大家分享一下

先看一道題

三件物品,沿著線分別連到哪個顏色垃圾桶?


正確答案:A-藍B-黃C-綠
Gemini 3 Pro Preview 的錯誤答案:A-綠B-黃C-藍

人類怎么做這道題?從點出發(fā),沿著線走到終點
三歲小孩用手指頭比劃一下就能做對


模型怎么做?輸出一大段的推理過程,看起來很牛逼,但最后還是搞錯了
最頂尖的模型,在最基礎的視覺追蹤上,一敗涂地

這個評測在測什么

BabyVision 把視覺能力拆成了4大類,共22個子任務


精細辨別
分辨細微的視覺差異,比如找不同、補全拼圖、數(shù)相同圖案,共 8 個子任務

視覺追蹤
跟隨路徑、線條與運動軌跡,比如走迷宮、連線、地鐵圖找站,共 5 個子任務

空間感知
理解三維結構,比如數(shù)方塊、視角投影、折紙展開圖,共 5 個子任務

視覺模式識別
識別邏輯與幾何規(guī)律,比如旋轉(zhuǎn)規(guī)律、鏡像規(guī)律、邏輯推理,共 4 個子任務

這套測試有一個核心設計原則:嚴格控制語言依賴

題目要求很簡單,答案必須靠視覺信息本身得出
如果一道視覺題可以完全用文字描述且不丟信息,它本質(zhì)上就會退化成文本題,模型可以靠語言推理能力一路通關

BabyVision 要測的是:當語言幫不上忙的時候,模型還能不能「看懂」

然后結果就是:在BabyVision?Full上,16 位至少本科背景的測試者完成全量 388 題,人類準確率達 94.1%,大多數(shù)模型只在 12~19%之間,具體如下


為什么模型會翻車

研究團隊用了一個詞:unspeakable

這些視覺題無法在不損失信息的情況下被完整語言化
模型試圖把視覺壓縮成 token,細節(jié)在壓縮中消失

4類典型挑戰(zhàn):

挑戰(zhàn) 1:「非語言細節(jié)」(Observing Non-Verbal Details)


拼圖/補全題里,選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位

人類憑幾何直覺,就能秒選

模型一旦把形狀用語言概括成「像鉤子兩個腿差不多七八個六邊形」,細節(jié)就被抹平,選項在 token 空間里變得幾乎一樣

挑戰(zhàn) 2:追線追丟了(Manifold Understanding)


對于連線/繞線/軌跡之類的題,人類會始終鎖定一條線,穿過交叉,一路追到終點

模型往往把線翻譯成左/右/上/下的離散步驟,一遇到交叉點就出現(xiàn)分叉爆炸,容易換軌追錯線

挑戰(zhàn) 3:缺少真正的空間想象(Spatial Imagination)


三維方塊計數(shù)、視角投影、遮擋下的結構判斷
人類通常是把結構在腦中立起來,換個角度看,再數(shù)

模型容易犯兩類錯誤:漏掉隱藏塊投影關系搞錯
所以嘛,大模型目前還是缺少穩(wěn)定的 3D 內(nèi)部表征與變換能力

挑戰(zhàn) 4:圖形規(guī)律歸納難(Visual Pattern Induction)


這類題,要求從少量視覺示例里抽象出規(guī)則,再遷移到新圖

人類做的是關系映射,真正決定正確性的是「發(fā)生了什么變化」,具體的形狀、顏色、絕對位置都可以變,只有它們的「身份」不變

模型常常盯著表面屬性(顏色、形狀),把「結構規(guī)則」誤讀成「外觀統(tǒng)計」,導致遷移時幻覺規(guī)則

BabyVision-Gen

既然文本推理不夠用,一個自然的想法:能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?

BabyVision-Gen 就是這個方向的嘗試

從原基準中重新標注出 280 道適合「生成式作答」的題,要求模型輸出圖像或視頻來表達解題過程

研究團隊測了 Sora 2、Veo 3、Qwen-Image 等生成模型,比如用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑,下面這個是 Sora 的實現(xiàn)

這個,則是 NanoBanana 的


初步結論:生成式推理在視覺追蹤、精細辨別等 VLM 易翻車的任務上,出現(xiàn)了「更像人類」的行為

模型會真的去畫軌跡、做標注,但整體仍然缺乏穩(wěn)定,無法做到完全正確

把視覺推理「落地到視覺操作」上,可能是補齊短板的一條路

xbench 是什么

這個我得仔細說說,和 xbench 的朋友們可太熟了,一堆有趣的逗比,新模型出來后,我總是先去找他們?nèi)枺@東西靠譜么

xbench 是紅杉中國 2025 年 5 月發(fā)布的 AI 評測基準
這是全球首個由投資機構主導,核心設計是雙軌評估體系

AGI Tracking
驗證模型在特定能力維度的智能邊界,題目追求「足夠難、巧妙、有區(qū)分度」

Profession-Aligned
把 AI 系統(tǒng)當作數(shù)字員工,放在具體業(yè)務流程中考察效用價值

已經(jīng)發(fā)布的評測集包括 ScienceQA(研究生水平學科知識)、DeepSearch(中文互聯(lián)網(wǎng)深度搜索)、招聘和營銷兩個垂類場景

BabyVision 是 AGI Tracking 系列的新成員,專門測多模態(tài)的純視覺能力

Demis Hassabis 說過一句話:大模型可以在國際數(shù)學奧林匹克拿金牌,卻會在小學幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中

BabyVision 就是把這個 gap 量化出來

xbench 的設計思路是 Evergreen Evaluation
持續(xù)維護、動態(tài)更新,每月匯報最新模型表現(xiàn),每季度更新評估集

作為 AGI 賽道的投資者,紅杉是有驅(qū)動力去要判斷 AI 技術何時能達到市場可落地的閾值

傳統(tǒng)評測集容易被刷爆,題目泄露導致過擬合,跟真實業(yè)務價值脫節(jié),對于要投錢的事情,紅杉更會以足夠客觀的方式去評估

開源地址

website:
https://xbench.org/

blog:
https://unipat.ai/blog/BabyVision

github:
https://github.com/UniPat-AI/BabyVision

huggingface:
https://huggingface.co/collections/UnipatAI/babyvision

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
致命一擊!伊朗最后王炸,胡塞要出場了!

致命一擊!伊朗最后王炸,胡塞要出場了!

大嘴說天下
2026-03-20 21:10:22
我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這三件事

我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這三件事

東林夕亭
2026-03-19 09:04:30
太突然!老戲骨游飆猝逝,終年57歲!

太突然!老戲骨游飆猝逝,終年57歲!

地理三體說
2026-03-20 22:43:04
吃完香椿炒雞蛋后,男子多器官衰竭!這起悲劇,給所有人敲響警鐘

吃完香椿炒雞蛋后,男子多器官衰竭!這起悲劇,給所有人敲響警鐘

DrX說
2026-03-20 14:00:07
女子舉報重慶市民政局一干部母親名下有巨額財產(chǎn),法院判舉報人全網(wǎng)道歉,紀檢監(jiān)察部門已介入

女子舉報重慶市民政局一干部母親名下有巨額財產(chǎn),法院判舉報人全網(wǎng)道歉,紀檢監(jiān)察部門已介入

極目新聞
2026-03-20 17:51:29
課本上猛夸的4個歷史人物,長大后卻發(fā)現(xiàn):他們壞到骨子里

課本上猛夸的4個歷史人物,長大后卻發(fā)現(xiàn):他們壞到骨子里

長風文史
2026-03-19 14:01:22
錢沒到位就翻臉?伊朗總統(tǒng)公開喊話中國,背后藏著三個鬼主意!

錢沒到位就翻臉?伊朗總統(tǒng)公開喊話中國,背后藏著三個鬼主意!

Hi科普啦
2026-03-20 11:57:18
大變革!4月1日全國醫(yī)保新規(guī)落地,70-80歲老人,看病牢記三件事

大變革!4月1日全國醫(yī)保新規(guī)落地,70-80歲老人,看病牢記三件事

老特有話說
2026-03-20 12:35:16
伊朗又一重要人物遇害!戰(zhàn)事升級,胡塞武裝:可能封鎖曼德海峽

伊朗又一重要人物遇害!戰(zhàn)事升級,胡塞武裝:可能封鎖曼德海峽

策略述
2026-03-20 19:16:37
千億龍頭公告實控人、董事長被留置,系常州首富

千億龍頭公告實控人、董事長被留置,系常州首富

第一財經(jīng)資訊
2026-03-20 17:46:47
3輛“百噸王”被查 上海首次刑拘負責人

3輛“百噸王”被查 上海首次刑拘負責人

看看新聞Knews
2026-03-20 17:57:07
52歲北京炒股冠軍罕見發(fā)聲:洗盤如果洗不掉散戶,莊家會怎么辦?

52歲北京炒股冠軍罕見發(fā)聲:洗盤如果洗不掉散戶,莊家會怎么辦?

股經(jīng)縱橫談
2026-03-20 21:45:04
4S店賣一輛虧一輛?杭州經(jīng)銷商:一輛官方指導價12.59萬元的車,成交價已擊穿8.4萬元

4S店賣一輛虧一輛?杭州經(jīng)銷商:一輛官方指導價12.59萬元的車,成交價已擊穿8.4萬元

都市快報橙柿互動
2026-03-20 19:36:04
曝王一博被軟封殺!活動不過審,已630天未進組,女友受牽連

曝王一博被軟封殺!活動不過審,已630天未進組,女友受牽連

葉公子
2026-03-20 16:11:45
蔣介石未必是位合格的領導,但追隨他到底的將領,大多能安享晚年

蔣介石未必是位合格的領導,但追隨他到底的將領,大多能安享晚年

小院之觀
2026-03-20 08:00:12
“三姐妹給父親上墳被炸身亡案”家屬發(fā)聲:直播時兩次遭網(wǎng)友死亡威脅,警方已立案偵查

“三姐妹給父親上墳被炸身亡案”家屬發(fā)聲:直播時兩次遭網(wǎng)友死亡威脅,警方已立案偵查

大風新聞
2026-03-20 10:37:08
難以置信!一福建男子稱,感謝失業(yè)后妻子和他離婚,幫他減輕壓力

難以置信!一福建男子稱,感謝失業(yè)后妻子和他離婚,幫他減輕壓力

火山詩話
2026-03-20 09:50:39
醫(yī)保新規(guī)4月1日執(zhí)行,1965-1985年人群注意,6項操作越早辦越好!

醫(yī)保新規(guī)4月1日執(zhí)行,1965-1985年人群注意,6項操作越早辦越好!

另子維愛讀史
2026-03-20 22:25:31
金銀直線跳水!網(wǎng)友:“金價失控了”!

金銀直線跳水!網(wǎng)友:“金價失控了”!

瑯琊新聞網(wǎng)
2026-03-20 08:19:03
絕望!伊朗地下基地被炸塌,大批官兵活活悶死,最后時刻只剩哀歌

絕望!伊朗地下基地被炸塌,大批官兵活活悶死,最后時刻只剩哀歌

老馬拉車莫少裝
2026-03-20 21:06:13
2026-03-21 06:04:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
336文章數(shù) 49關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

英國授權美軍用其基地打伊朗 伊外長:將行使自衛(wèi)權回應

頭條要聞

英國授權美軍用其基地打伊朗 伊外長:將行使自衛(wèi)權回應

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典,“沈馬”CP再合體

財經(jīng)要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅定

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
手機
本地
公開課

數(shù)碼要聞

唯卓仕折疊閃光燈首發(fā)僅148元,你沖不沖?

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計劃】,即刻啟動!

手機要聞

折疊iPhone曝12月發(fā)貨,蘋果Plus機型或重啟

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版