![]()
本文是北京大學彭宇新教授團隊在視覺定位方向的最新研究成果,相關論文已被頂級國際期刊 IEEE TPAMI 接收。為視覺定位模型賦予「自知之明」能力 —— 通過自監督的關聯校正與驗證模塊,在訓練過程中動態識別、衰減并糾正錯誤的監督信號。大量實驗證明,讓模型學會「自我糾錯」,是突破弱監督視覺定位瓶頸的有效途徑。
![]()
- 論文標題:Confidence-aware Pseudo-label Self-Correction for Weakly Supervised Visual Grounding
- 論文鏈接:https://ieeexplore.ieee.org/document/11433810/
- 開源代碼:https://github.com/oceanflowlab/CPL
- 實驗室網址:http://mipl.pku.edu.cn
背景與動機
視覺定位(Visual Grounding)旨在根據自然語言查詢準確定位圖像中的目標區域。然而,全監督方法嚴重依賴密集的「圖像 - 文本 - 物體框」細粒度標注,這在處理大規模復雜場景時面臨巨大的標注成本挑戰。因此,僅利用「圖像 - 文本」進行訓練的弱監督視覺定位受到了廣泛關注。
現有弱監督方法通常將該任務視為一個目標檢索過程,依賴跨模態匹配分數或重構損失來挑選候選區域。但語言描述的高層抽象概念與圖像區域的像素級特征之間存在著巨大的「異構鴻溝」,這使得跨模態匹配往往極不可靠。模型在訓練中一旦學到了這些錯誤的「偽關聯」,就會陷入錯誤傳播和累積的死循環。此前的無監督方法嘗試用模板生成偽查詢,但生成的句子生硬且缺乏多樣性,同樣忽略了錯誤關聯對模型的嚴重影響。
針對這一難題,北京大學彭宇新教授團隊提出了置信度感知的偽標簽學習框架(CPL)及其進階版 CPL++,通過引入大模型生成多樣化描述,并結合「自監督關聯驗證」機制,讓模型在訓練過程中學會動態發現并糾正自己的錯誤,實現弱監督視覺定位性能的提升。
技術方案
本文提出的 CPL 框架不僅能過濾錯誤的區域 - 文本關聯,更能利用模型自身在訓練中不斷增強的定位能力,動態地「糾正」這些錯誤標簽。其核心亮點包含以下幾個方面:
![]()
圖 1. 置信度感知的偽標簽學習框架 CPL
1. 高質量偽查詢生成與單模態匹配
由于跨模態匹配的困難,本文轉換思路,利用單模態內的匹配構造偽標簽。如上圖所示,CPL 框架提出了三條互補的生成管線(啟發式增強 Heuristic+、以對象為中心描述 Object-Centric、以關系為中心描述 Relation-Aware),為圖像中的每個候選區域生成描述性強、真實且多樣化的偽查詢文本。隨后,模型在文本特征空間內計算真實查詢與偽查詢之間的單模態相似度,挑選最匹配的區域作為初始偽標簽,從而避開了跨模態對齊帶來的挑戰。
2. 靜態跨模態驗證模塊
![]()
雖然 CPL 取得了顯著效果,但其驗證模塊是孤立于定位模型之外的「靜態」評估,不僅無法在訓練中動態發揮作用,更缺乏對錯誤關聯的「糾正」機制。為此,研究團隊進一步擴展得到 CPL++ 框架,在以下核心方面進行了自監督升級。
![]()
圖 2. 置信度感知的偽標簽學習框架的進階版本 CPL++
3. 自監督關聯校正與動態偽標簽優化
為了糾正錯誤的「區域 - 查詢」關聯,CPL++ 進一步引入了自監督關聯校正模塊。首先,模型不僅僅依賴檢測器的置信度,而是結合了查詢文本中的類別、屬性和空間關系,構建了一個高質量的語義感知候選池。其綜合評分函數定義為:
![]()
該評估函數綜合性地結合了查詢文本和候選區域在類別、屬性、空間關系上的匹配程度,并結合檢測器的置信度,對「區域 - 查詢」偽標簽提供了全面、可靠的評估手段,用于發現可能錯誤的「區域 - 查詢」關聯,過濾得到高質量的偽查詢候選池,用于訓練模型。
![]()
![]()
4. 自監督關聯驗證
![]()
![]()
這種自監督驗證機制巧妙融合了強大的靜態預訓練模型的先驗知識與不斷動態進化的定位模型的能力,降低了誤差傳播的風險。
實驗結果
本文在弱監督視覺定位領域的五大數據集(RefCOCO、RefCOCO+、RefCOCOg、ReferItGame、Flickr30K Entities)上進行了全面評估。
CPL 基礎框架在這五個數據集的測試集上超越現有的弱監督與無監督方法。具備自糾錯能力的 CPL++ 框架在 CPL 的基礎上進一步實現了 2.78%、5.81%、1.08%、2.03% 和 2.55% 的絕對性能提升。CPL++ 框架將弱監督方法與全監督方法之間的性能差距縮小,展現了偽標簽自校正機制的巨大潛力。
![]()
表 1:RefCOCO、RefCOCO+、RefCOCOg 數據集結果
![]()
表 2:ReferItGame、Flickr30K Entities 數據集結果
為了進一步直觀展示模型生成偽標簽的實際效果,圖 3 中給出了偽標簽的可視化結果,可以看出,CPL 能夠為圖像候選區域生成描述準確、句式豐富且包含復雜交互關系的高質量偽查詢,提供了高度互補的多樣化監督信息。此外,圖 4 展示了自監督關聯校正模塊的動態糾錯全過程:從圖 4(a)中最初建立的初步偽查詢關聯,到圖 4(b)中經過單模態匹配后可能產生的偏差關聯,最終在校正模塊的干預下,圖 4(c)中模型的預測框被成功糾正并精準鎖定到了與圖 4(d)中的真實文本完全對應的正確目標區域上。這些案例證明了 CPL++ 框架在動態識別并修正錯誤監督信號方面的強大能力。
![]()
圖 3:CPL 框架偽標簽可視化
![]()
圖 4:CPL++ 框架自監督關聯校正可視化
總結
本文提出了一種弱監督視覺定位框架 CPL++ 。該框架不僅通過單模態匹配建立了更可靠的初始區域 - 文本關聯,更重要的是,它為模型賦予了「自知之明」能力 —— 通過自監督的關聯校正與驗證模塊,在訓練過程中動態識別、衰減并糾正錯誤的監督信號。大量實驗證明,讓模型學會「自我糾錯」,是突破弱監督視覺定位瓶頸的有效途徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.