337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

PixelRefer :讓AI從“看大圖”走向“看懂每個對象”

0
分享至



多模態大模型(MLLMs)雖然在圖像理解、視頻分析上表現出色,但多停留在整體場景級理解。

而場景級理解 ≠ 視覺理解的終點,現實任務(如自動駕駛、機器人、醫療影像、視頻分析)需要的是細粒度、對象級(object-level)詳細理解

然而,當下的研究工作,如英偉達的Describe Anything Model (DAM)局限于單個物體的描述,難以深入理解多對象屬性、交互關系及其時序演變,且犧牲了模型本身的通用理解能力。

針對這一問題,浙江大學、達摩院、香港理工大學聯合提出了一種創新的解決方案PixelRefer:一個統一的時空像素級區域級理解框架,可實現任意粒度下的精細視覺指代與推理,在多項像素級細粒度理解任務取得領先性能表現。和DAM-3B相比,輕量版的2B模型推理時間加快了4倍,顯存占用減半,且訓練數據量大大少于已有方法。



PixelRefer能夠對任意目標實現準確語義理解以及時空物體區域理解。









  • 論文標題:
  • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
  • 論文鏈接:
  • https://arxiv.org/abs/2510.23603
  • 項目網站鏈接:
  • https://circleradon.github.io/PixelRefer/
  • 代碼鏈接:
  • https://github.com/DAMO-NLP-SG/PixelRefer

先驗分析:大模型“如何看懂區域”?

為了探索解決以上問題,作者基于通用視覺基礎模型采用最直接的設計:將全局視覺token+像素級區域token+文本token一起喂給 LLM。當無物體指代區域時,模型則退化成通用視覺理解任務,從而實現區域理解的同時,保留通用模型本身的通用理解能力。

作者對LLM內從淺層到深層中分析視覺token、區域token以及其他類型token進行可視化分析。本文可以發現從淺層到深層,答案(Ans)優先關注像素級區域token,其attention分數一直很高,說明物體token表征對于模型的回答起到重要的作用。此外,全局圖像token(vision)則僅在淺層中(第一層)表現出較高的attention分布(Answer-to-image token attention),LLM的深層則表現較弱,甚至沒有影響,這個在通用視覺基礎模型研究中也被討論到。



淺層到深層的attention可視化

基于此分析,作者得出兩種設計方案:

  1. 高質量像素級物體表征很重要:對于像素級區域的表達,語義豐富的區域表征直接決定像素級語義理解的質量;
  2. 全局信息的冗余可以通過“預融合”優化:在 LLM 深層階段,全局視覺標記的作用顯著減弱,在深層階段反而變得冗余,說明其信息可提前注入對象標記中,以大幅減少計算開銷。

方法設計

為此,作者針對像素級細粒度理解定義了兩種框架,Vision-Object Framework (a)與Object-Only Framework (b):



PixelRefer(Vision-Object Framework)

對于PixelRefer,作者把全局視覺token+像素級區域token+文本token一起送入 LLM,既保留場景語境,又在對象級上精細推理。關鍵在于像素級區域表征token質量足夠高。為此,作者提出尺度自適應對象分詞器(Scale-Adaptive Object Tokenizer, SAOT) 來生成精確、緊湊、語義豐富的對象表示。

SAOT 圍繞兩個設計:(i)小目標容易在patch化后丟失細節;(ii)大目標的特征冗余嚴重

核心做法分三步:

  1. 動態尺度處理(Dynamic Object Processing)。按像素級區域大小自適應地放大小物體、縮小大物體,并進行上下文擴展(在目標周圍留出一定背景),保證既不丟細節也不過度冗余。隨后通過共享視覺編碼器取到區域級特征。
  2. 位置感知的掩碼特征抽取(Mask Feature + Relative Positional Encoding)。對區域內的有效特征做掩碼并疊加相對坐標投影,形成位置感知的對象token,為后續推理提供“這片語義在圖像哪里”的線索。作者還為被裁剪/擴展后的區域加入相對位置編碼來緩解對齊歧義,使對象token具備空間感知。
  3. 冗余聚合(Abundant Feature Aggregation)。對大/同質區域里高度相似的token,采用k-means 聚類合并,只保留n 個代表性token,既壓縮冗余又保留多視角細節。這一步實證上顯著降低了對象內部token的相似度,提高了表示“緊致度”。




PixelRefer-Lite (Object-Only Framework)

該變體僅使用對象標記進行 LLM 推理,借助對象中心信息融合模塊(Object-Centric Infusion Module, OCI)將全局特征在前處理階段融合入對象表示中。通過 Local-to-Object 和 Global-to-Object Attention,使目標的表征同時具備細節感知與全局語義,從而實現更完整的上下文融合。這樣一來,推理階段無需再使用全局視覺標記,顯著降低顯存與時間消耗,同時保持語義一致性與理解精度。



PixelRefer-Lite 實現了一個高效的推理框架,在保持高性能的同時將推理速度提升約 2–3 倍。

數據集

作者收集并開源了用于訓練的兩類數據集,分別是Foundational Object Perception(140萬樣本):涵蓋物體、部件、時序關系的識別與描述以及Visual Instruction Tuning(80萬樣本):覆蓋區域QA、視頻QA、多對象關系與未來事件預測QA。



性能結果

  • 對于圖像像素級細粒度理解benchmark



PixelRefer在多個圖像理解benchmark上已達到SOTA水平,不論是簡單的區域識別還是詳細理解,已成為最先進的模型,特別是在reasoning場景下,更是展現出了突出優勢。

  • 對于視頻像素級細粒度理解benchmark



在經典的VideoRefer-Bench上,不論是視頻區域的caption還是QA,均取得了領先性能,展現了通用而又全面的能力。

  • 對于推理時間與效率的計算



在基于圖片的benchmark DLC-Bench和基于視頻的benchmark上HC-STVG上均進行了測評,輕量版的PixelRefer-Lite-2B模型有較大的領先優勢,特別是在視頻上,相較于DAM-3B,推理時間縮短了約4倍,顯存占用減少了2倍。

  • 消融實驗:Scale-adaptive Object TokenizervsMaskPooling



  • 相較于之前簡單maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模塊有明顯的提升,特別是在小目標理解上,在LVIS和DLC-Bench上均提升了十幾個點。

  • 消融實驗:對于區域token的表征個數



研究意義與總結

PixelRefer的出現,標志著AI視覺理解從“看懂一張圖”邁向“理解世界的細節動態”,為多模態大模型的精細化視覺理解提供了新的方向。應用前景包括:

  • 自動駕駛的時序場景識別
  • 醫療影像的病灶級理解
  • 智能視頻剪輯與監控
  • 多模態對話與人機交互

未來的多模態AI,不僅會“看見世界”,更會理解世界的關系。PixelRefer的提出,正是通向通用視覺智能的一塊關鍵拼圖。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
知名歌手公開玩性感美女大作!網友賭他"最多十分鐘"

知名歌手公開玩性感美女大作!網友賭他"最多十分鐘"

游民星空
2026-03-26 17:09:32
特斯拉國內規模最大高速服務區超級充電站項目上線

特斯拉國內規模最大高速服務區超級充電站項目上線

新華社
2026-03-29 08:50:12
馮鞏在人民日報發文,撕開喜劇圈臟亂內幕,點破岳云鵬尷尬處境

馮鞏在人民日報發文,撕開喜劇圈臟亂內幕,點破岳云鵬尷尬處境

林雁飛
2026-03-27 14:42:10
海南昌江通報“史某輝申請國家賠償被依法中止辦理”:迅速成立聯合調查組

海南昌江通報“史某輝申請國家賠償被依法中止辦理”:迅速成立聯合調查組

界面新聞
2026-03-29 07:32:17
勇士消息:穆迪手術成功,鉑金渴望留隊,戰掘金出場更新

勇士消息:穆迪手術成功,鉑金渴望留隊,戰掘金出場更新

冷月小風風
2026-03-29 11:56:03
多位院士共識:低密度脂蛋白在安全值,無需用藥降脂

多位院士共識:低密度脂蛋白在安全值,無需用藥降脂

醫學科普匯
2026-03-28 22:55:03
億萬國人破防了!90歲院士平靜宣布,中國導彈從此沒有任何死角!

億萬國人破防了!90歲院士平靜宣布,中國導彈從此沒有任何死角!

墨蘭史書
2026-03-05 07:10:08
央媒點名批評國乒!直擊3大隱患,孫穎莎是典型,王勵勤遇到難題

央媒點名批評國乒!直擊3大隱患,孫穎莎是典型,王勵勤遇到難題

余憁搞笑段子
2026-03-29 08:30:59
美國務卿:中國正在經歷人類最大規模軍力建設,美國打不過中國

美國務卿:中國正在經歷人類最大規模軍力建設,美國打不過中國

快看張同學
2026-03-29 11:34:50
國乒剛到澳門,惡心一幕出現!孫穎莎王楚欽遭遇懟臉拍!CCTV直播澳門世界杯!

國乒剛到澳門,惡心一幕出現!孫穎莎王楚欽遭遇懟臉拍!CCTV直播澳門世界杯!

好乒乓
2026-03-28 12:18:59
11.7億元,廣州市中標一個大項目

11.7億元,廣州市中標一個大項目

藍天白云1111
2026-03-29 10:27:09
晚清首富盛宣懷:家有兩女傭,一個生了宋美齡,另一個生了趙一荻

晚清首富盛宣懷:家有兩女傭,一個生了宋美齡,另一個生了趙一荻

鶴羽說個事
2026-03-24 22:01:27
日本警視廳對強闖我駐日使館不法之徒所屬部隊駐地等展開搜查

日本警視廳對強闖我駐日使館不法之徒所屬部隊駐地等展開搜查

環球網資訊
2026-03-29 07:52:04
笑麻了!新手爸爸們的離譜行為,老婆要生了,結果人還在家

笑麻了!新手爸爸們的離譜行為,老婆要生了,結果人還在家

夜深愛雜談
2026-03-28 20:00:23
?一口氣吃完9個冰淇淋,這個視頻我第一次看到

?一口氣吃完9個冰淇淋,這個視頻我第一次看到

歲月有情1314
2026-03-28 08:35:45
16歲就是人間尤物,4年換19個男人,找老實人接盤后,變買菜媽媽

16歲就是人間尤物,4年換19個男人,找老實人接盤后,變買菜媽媽

一盅情懷
2026-03-28 15:38:13
伊朗已經想好了:打完這場仗,自己將成阿拉伯國家的新“保護傘”

伊朗已經想好了:打完這場仗,自己將成阿拉伯國家的新“保護傘”

我是盲流
2026-03-29 02:48:07
沙特削減對華供應,油少賣800萬桶,中方通知全球,指出當務之急

沙特削減對華供應,油少賣800萬桶,中方通知全球,指出當務之急

丁丁鯉史紀
2026-03-28 16:51:54
一輛自行車賣18萬元還被搶光,上海"首發經濟"憑的是什么?

一輛自行車賣18萬元還被搶光,上海"首發經濟"憑的是什么?

界面新聞
2026-03-29 08:01:04
輸了官司不爽 馬斯克嘲諷84歲法官:穿成這樣我怎能獲公正審判

輸了官司不爽 馬斯克嘲諷84歲法官:穿成這樣我怎能獲公正審判

金融界
2026-03-28 10:48:31
2026-03-29 13:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12620文章數 142599關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

網約車司機被騙網貸后車內輕生:我不想死 但扛不住了

頭條要聞

網約車司機被騙網貸后車內輕生:我不想死 但扛不住了

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

張凌赫事件持續升級!官方點名怒批

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

教育
房產
手機
公開課
軍事航空

教育要聞

江蘇鹽城建湖:沉浸式學安全 護航成長路

房產要聞

首日430組來訪,單日120組認籌!海口首個真四代,徹底爆了!

手機要聞

華為何剛預告小藝Claw新特性,可推每日健康報告、制定運動計劃

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地損失最新披露

無障礙瀏覽 進入關懷版