網易首頁 > 網易號 > 正文申請入駐

北大王選所彭宇新團隊：讓多模態大模型學會「看懂物種關系」丨CVPR 2026

2026-03-18 17:05:26　來源: 雷峰網

北京舉報

分享至

近年來，多模態大模型的發展正在不斷推動視覺理解能力的提升。從圖像分類、目標檢測到視覺問答等任務，視覺系統已經能夠在多種場景中實現較高水平的識別和推理能力。然而，在更復雜的層級視覺識別任務中，現有模型仍然存在明顯不足。

現實世界中的許多視覺概念天然具有層級結構，例如生物分類體系中的“界—門—綱—目—科—屬—種”，以及商品分類、醫學診斷等領域中的多層級標簽體系。這類任務不僅要求模型識別具體類別，還需要理解不同類別之間的層級關系和語義結構。但目前多數視覺模型仍然基于扁平分類框架進行訓練，在進行層級預測時容易出現分類路徑不一致或層級關系沖突等問題。

與此同時，在開放世界環境中，視覺模型還需要具備識別未知類別的能力。以生物識別任務為例，現實世界中的物種數量遠遠超過現有數據集的覆蓋范圍，新的物種仍在不斷被發現。

當模型面對訓練數據中未出現的類別時，往往難以進行合理推斷。如何利用已有知識幫助模型理解類別之間的層級結構，并在有限數據條件下推斷未知類別，逐漸成為當前視覺智能研究中的重要問題。

在這一背景下，北大王選所的彭宇新團隊在論文《Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models》中提出了一種新的方法 TARA。

他們通過引入生物基礎模型中的分類學知識，并將其與多模態模型的中間表征進行對齊，使模型能夠學習到具有層級結構的視覺表示，從而提升模型在層級視覺識別任務中的一致性表現，并增強其在未知類別識別任務中的泛化能力。

論文地址：https://arxiv.org/pdf/2603.00431

TARA 讓多模態模型更懂「層級關系」

實驗團隊通過在多個數據集和多種評價指標下開展實驗，對提出的 TARA（Taxonomy-Aware Representation Alignment）方法在層級視覺識別任務中的有效性進行了驗證。

首先，在已知類別識別能力方面，研究在 iNaturalist-2021（iNat21）數據集上進行了實驗。該數據集包含大量具有層級分類結構的生物圖像，并劃分為植物和動物兩個子數據集。實驗結果表明，在引入 TARA 方法之后，模型在多個評價指標上均獲得明顯提升。雷峰網

在 iNat21-Plant 數據集上，Qwen3-VL-2B 基礎模型在經過強化學習微調后，層級一致性準確率（HCA）由 9.23% 提升到 12.78%，葉節點準確率（Accleaf）由 31.96% 提升到 32.66%，同時 POR、S-POR 和 TOR 等層級評價指標也分別提升約 3% 至 6%。

在 iNat21-Animal 數據集上，HCA 由 8.57%提升到 10.26%，Accleaf 由 29.32% 提升到 30.77%，其他層級指標也均呈現提升趨勢。對于規模更大的 Qwen2.5-VL-3B 模型，在植物數據集上的 HCA 提升至 19.53%，在動物數據集上的 HCA 提升至 24.02%，各項指標均持續提高。以上結果表明，TARA 方法能夠穩定提升不同規模多模態模型在層級分類任務中的整體性能。

其次，在未知類別識別能力方面，研究團隊為了驗證模型是否真正學習到分類學知識，而非僅僅記憶訓練類別，在 TerraIncognita 數據集上進行了測試。該數據集包含大量稀有或未知物種圖像，其中部分物種可能從未出現在訓練數據中。

實驗結果顯示，在已知類別場景下，Order F1 從 23.30 提升到 41.56，Family F1 從 11.47 提升到 25.47；在未知類別場景下，Order F1 從 23.30 提升到 33.45，Family F1 從 11.47 提升到 12.67。這一結果表明，TARA 不僅提升了模型對已知類別的識別能力，同時也顯著增強了模型在面對未知物種時的泛化能力。

再次，在模型表征能力方面，研究人員通過線性探針實驗進一步分析了 TARA 對視覺特征表達能力的影響。實驗過程為從模型最后一層提取圖像 token 表征，并利用線性分類器進行訓練，在 iNat21-Plant 數據集上測試分類準確率。實驗結果表明，原始模型的分類準確率為 13.30%，加入強化學習后提升到 14.40%，在進一步引入 TARA 方法之后準確率提升到 18.30%。這一結果說明 TARA 能夠幫助模型學習到更加具有判別力的視覺特征表示。

此外，在分類型視覺問答任務方面，研究團隊在 ImageWikiQA 數據集上對模型性能進行了測試。該數據集包含基于 ImageNet 圖像的復雜視覺問答任務。實驗結果顯示，基礎模型的準確率為 46.60%，經過強化學習微調后提升到 48.70%，在引入 TARA 方法之后進一步提升到 51.40%。這一結果表明，通過增強層級視覺理解能力，可以進一步提升模型在復雜視覺理解和推理任務中的整體表現。

最后，在訓練效率方面，研究人員對模型訓練過程中性能變化進行了分析。實驗結果顯示，在訓練早期階段，引入 TARA 的模型性能已經超過基線模型；在相同訓練步數條件下，TARA 模型的 HCA 指標和葉節點準確率均高于未使用該方法的模型，說明這種方法能夠加速模型的訓練收斂過程。同時，由于 TARA 僅增加少量投影層，因此整體計算開銷較小，對訓練效率影響有限。

從數據到訓練的完整實驗框架

為了驗證方法的有效性，研究團隊設計了一套完整的實驗流程，其中包括模型訓練方案、數據集構建方式以及評價指標體系的設計。首先在實驗數據集方面，研究人員選取了多個具有代表性的公開數據集進行實驗。

其中 iNaturalist-2021（iNat21）是一個大規模生物圖像數據集，包含完整的生物分類體系。該數據集包含兩個子集，其中 Plant 子集包含 4271 個物種類別，Animal 子集包含 5388 個物種類別。數據集中每個樣本都具有六級分類結構，即 Kingdom、Phylum、Class、Order、Family 和 Species 六個層級，因此非常適合用于層級視覺識別研究。雷峰網

除了 iNat21 數據集之外，研究團隊還使用了 TerraIncognita 數據集來測試模型在開放世界環境下的識別能力。該數據集包含來自中美洲和南美洲生物多樣性熱點地區的昆蟲圖像，其中許多物種缺乏公開圖像數據，并且部分物種可能尚未被科學界正式記錄，因此能夠用于評估模型在未知類別識別任務中的表現。

與此同時，研究人員還使用 ImageWikiQA 數據集對模型在復雜視覺問答任務中的表現進行測試。該數據集中的問題涉及真實世界知識，需要模型同時完成圖像理解和知識推理，從而能夠檢驗模型在復雜視覺理解場景中的能力。

在基礎模型選擇方面，研究人員采用 Qwen 系列多模態模型作為實驗基礎模型，包括 Qwen3-VL-2B-Instruct 和 Qwen2.5-VL-3B-Instruct 兩種模型。這些模型在零樣本視覺理解任務中表現良好，因此適合作為層級視覺識別研究的基礎模型。

在訓練方法方面，研究團隊將強化學習微調方法與 TARA 表征對齊方法結合起來進行訓練。首先采用 No-Thinking 強化學習微調策略。傳統強化學習通常要求模型在生成答案前進行推理過程，但研究人員發現，在分類任務中不進行顯式推理反而能夠獲得更好的效果，因此訓練過程中采用提示語 Please directly output the answer。獎勵函數的設計為，如果模型預測結果正確則獎勵值為 1，如果預測結果不正確則獎勵值為 0。

在此基礎上，研究團隊引入 TARA 表征對齊方法，通過兩個對齊任務向模型注入分類學知識。第一部分為視覺表示對齊。具體步驟包括使用生物基礎模型（BFM）提取圖像特征，獲取多模態模型中間層的視覺特征，將兩者映射到同一特征空間，并利用余弦相似度進行對齊。

通過這一過程，模型能夠學習符合生物分類結構的視覺表示空間。第二部分為標簽表示對齊。具體過程為將分類標簽輸入 BFM 文本編碼器獲得標簽嵌入，然后將多模態模型生成答案的 token 表征映射到同一空間，并進行相似度對齊。通過這種方式，模型能夠學習不同層級標簽之間的語義關系。

在訓練過程中，研究團隊采用交替訓練策略，使模型在兩種目標之間不斷優化。一方面通過強化學習優化分類任務，另一方面通過 TARA 進行知識對齊，從而使模型逐漸吸收生物分類學知識并提升層級識別能力。

在評價指標方面，為了全面評估模型在層級視覺識別任務中的表現，研究人員設計了多種評價指標。其中 Hierarchical Consistent Accuracy（HCA）用于評估模型是否能夠正確預測完整的分類路徑，例如 Animal、Chordata、Aves、Passeriformes、Thraupidae、Dacnis，如果其中任意一層預測錯誤，則整條路徑都視為預測錯誤。Leaf-level Accuracy（Accleaf）用于衡量最細粒度類別，也就是葉節點類別的預測準確率。

Point-Overlap Ratio（POR）用于統計預測路徑中正確節點所占的比例。Strict Point-Overlap Ratio（S-POR）在此基礎上要求預測節點必須是連續正確的節點才會計入得分。Top Overlap Ratio（TOR）則用于衡量相鄰層級之間預測結果的一致性，通過這些指標可以全面評估模型在層級結構識別任務中的整體性能。

讓視覺模型學會「推斷未知」

整體來看，這項研究在理論和實際應用方面都具有較為重要的意義。首先，在解決多模態模型層級識別能力不足的問題方面，現有多模態模型雖然在細粒度識別任務中已經取得較好的效果，但在層級識別任務中仍然容易出現分類路徑錯誤以及層級關系不一致等情況。

針對這一問題，研究團隊提出的 TARA 方法通過引入分類學知識，使模型在識別過程中能夠更好地保持不同層級之間的邏輯關系，從而顯著提升模型在層級分類任務中的一致性表現。

其次，在提升模型對未知類別的泛化能力方面，研究人員指出在真實環境中新的物種仍在不斷被發現，傳統模型在缺乏訓練樣本的情況下往往難以進行準確識別。TARA 利用生物基礎模型中蘊含的分類學知識，使模型能夠推斷未知類別之間的層級關系，并在缺乏訓練樣本的情況下仍然完成識別任務，這對于開放世界識別任務具有重要意義。

再次，在方法層面，研究提出了一種新的思路，即通過中間表征對齊的方式，將領域知識注入到多模態模型之中。研究團隊認為，這種方法不僅可以應用于生物分類任務，還能夠推廣到其他具有層級結構的應用場景，例如醫學影像分類、商品分類以及知識圖譜推理等領域，從而為多模態大模型與領域知識結合提供了一種具有普適性的技術路徑。

最后，在推動通用視覺理解系統發展方面，研究人員認為未來的視覺系統不僅需要具備識別具體對象的能力，還需要能夠理解不同對象之間的結構關系。通過在模型訓練過程中引入層級知識，多模態大模型可以逐步具備對結構化知識的理解能力，從而進一步發展成為能夠理解復雜結構關系的視覺智能系統。

構建 TARA 的人

這篇論文的一作何胡凌霄，現為北京大學王選計算機研究所多媒體信息處理實驗室博士生，師從彭宇新教授，主要研究方向為細粒度多模態大模型。

學術研究方面，他主要圍繞細粒度視覺識別、多模態大模型等方向開展研究工作，在計算機視覺和多模態學習領域發表多篇論文，其中多篇被CVPR、ICLR、ICDE、BMVC、PRCV等國際學術會議接收，并參與相關領域的研究項目。

在學習期間，他還獲得國家獎學金、北京理工大學優秀畢業生、北京理工大學優秀學生標兵等多項榮譽，并在全國大學生數學建模競賽北京賽區獲得一等獎，在華為云人工智能大賽無人車挑戰杯中獲得優勝獎等。

參考鏈接：http://39.108.48.32/mipl/news/news.php?id=CHhehulingxiao

論文的通訊作者彭宇新，北京大學王選計算機研究所教授、博士生導師，北京大學二級教授、博雅特聘教授，同時為IEEE、CCF、CAAI、CIE、CSIG Fellow，曾入選國家杰出青年科學基金獲得者、國家萬人計劃以及科技部中青年科技創新領軍人才等人才計劃。

他于 2003 年畢業于北京大學信息科學技術學院計算機應用技術專業并獲得博士學位，此后在北京大學開展教學與科研工作。其主要研究方向包括多媒體分析、計算機視覺和人工智能等領域。

彭宇新在相關領域取得了豐碩的學術成果，發表 TPAMI、IJCV、CVPR、NeurIPS、ICML 等國際重要期刊和會議論文 170 余篇，多次獲得最佳論文獎，研究成果被國際同行評價為在無對象標注圖像細分類等問題上取得重要進展。他提出了“弱監督深度圖像細粒分類”等創新方法，并建立了跨媒體評測基準PKU XMediaNet，被全球多所高校和機構廣泛使用。其團隊在 NIST 組織的 TRECVID 視頻檢索國際評測中多次獲得第一名，并在多項國際視覺競賽中取得優異成績。

此外，他主持承擔國家 863 計劃、國家自然科學基金重點項目等 40 余項科研項目，申請發明專利 50 余項并獲得多項授權，相關成果已在國家網信辦、公安部、國家廣播電視總局以及多家互聯網企業中得到應用。同時，他還積極參與學術組織和期刊工作，擔任多個國際期刊編委和重要學術會議的組織者，在人工智能與計算機視覺領域具有重要影響力。

參考鏈接：http://39.108.48.32/mipl/pengyuxin/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.