北大王選所彭宇新團(tuán)隊(duì)：讓多模態(tài)大模型學(xué)會(huì)「看懂物種關(guān)系」丨CVPR 2026

2026-03-07 11:02:04　來源: AI科技評論

廣東舉報(bào)

分享至

TARA：融合生物知識與視覺特征，提升模型推理能力。

作者丨鄭佳美

編輯丨岑峰

近年來，多模態(tài)大模型的發(fā)展正在不斷推動(dòng)視覺理解能力的提升。從圖像分類、目標(biāo)檢測到視覺問答等任務(wù)，視覺系統(tǒng)已經(jīng)能夠在多種場景中實(shí)現(xiàn)較高水平的識別和推理能力。然而，在更復(fù)雜的層級視覺識別任務(wù)中，現(xiàn)有模型仍然存在明顯不足。

現(xiàn)實(shí)世界中的許多視覺概念天然具有層級結(jié)構(gòu)，例如生物分類體系中的“界—門—綱—目—科—屬—種”，以及商品分類、醫(yī)學(xué)診斷等領(lǐng)域中的多層級標(biāo)簽體系。這類任務(wù)不僅要求模型識別具體類別，還需要理解不同類別之間的層級關(guān)系和語義結(jié)構(gòu)。但目前多數(shù)視覺模型仍然基于扁平分類框架進(jìn)行訓(xùn)練，在進(jìn)行層級預(yù)測時(shí)容易出現(xiàn)分類路徑不一致或?qū)蛹夑P(guān)系沖突等問題。

與此同時(shí)，在開放世界環(huán)境中，視覺模型還需要具備識別未知類別的能力。以生物識別任務(wù)為例，現(xiàn)實(shí)世界中的物種數(shù)量遠(yuǎn)遠(yuǎn)超過現(xiàn)有數(shù)據(jù)集的覆蓋范圍，新的物種仍在不斷被發(fā)現(xiàn)。

當(dāng)模型面對訓(xùn)練數(shù)據(jù)中未出現(xiàn)的類別時(shí)，往往難以進(jìn)行合理推斷。如何利用已有知識幫助模型理解類別之間的層級結(jié)構(gòu)，并在有限數(shù)據(jù)條件下推斷未知類別，逐漸成為當(dāng)前視覺智能研究中的重要問題。

在這一背景下，北大王選所的彭宇新團(tuán)隊(duì)在論文《Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models》中提出了一種新的方法 TARA。

他們通過引入生物基礎(chǔ)模型中的分類學(xué)知識，并將其與多模態(tài)模型的中間表征進(jìn)行對齊，使模型能夠?qū)W習(xí)到具有層級結(jié)構(gòu)的視覺表示，從而提升模型在層級視覺識別任務(wù)中的一致性表現(xiàn)，并增強(qiáng)其在未知類別識別任務(wù)中的泛化能力。

論文地址：https://arxiv.org/pdf/2603.00431

TARA 讓多模態(tài)模型更懂「層級關(guān)系」

實(shí)驗(yàn)團(tuán)隊(duì)通過在多個(gè)數(shù)據(jù)集和多種評價(jià)指標(biāo)下開展實(shí)驗(yàn)，對提出的 TARA（Taxonomy-Aware Representation Alignment）方法在層級視覺識別任務(wù)中的有效性進(jìn)行了驗(yàn)證。

首先，在已知類別識別能力方面，研究在 iNaturalist-2021（iNat21）數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。該數(shù)據(jù)集包含大量具有層級分類結(jié)構(gòu)的生物圖像，并劃分為植物和動(dòng)物兩個(gè)子數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明，在引入 TARA 方法之后，模型在多個(gè)評價(jià)指標(biāo)上均獲得明顯提升。

在 iNat21-Plant 數(shù)據(jù)集上，Qwen3-VL-2B 基礎(chǔ)模型在經(jīng)過強(qiáng)化學(xué)習(xí)微調(diào)后，層級一致性準(zhǔn)確率（HCA）由 9.23% 提升到 12.78%，葉節(jié)點(diǎn)準(zhǔn)確率（Accleaf）由 31.96% 提升到 32.66%，同時(shí) POR、S-POR 和 TOR 等層級評價(jià)指標(biāo)也分別提升約 3% 至 6%。

在 iNat21-Animal 數(shù)據(jù)集上，HCA 由 8.57%提升到 10.26%，Accleaf 由 29.32% 提升到 30.77%，其他層級指標(biāo)也均呈現(xiàn)提升趨勢。對于規(guī)模更大的 Qwen2.5-VL-3B 模型，在植物數(shù)據(jù)集上的 HCA 提升至 19.53%，在動(dòng)物數(shù)據(jù)集上的 HCA 提升至 24.02%，各項(xiàng)指標(biāo)均持續(xù)提高。以上結(jié)果表明，TARA 方法能夠穩(wěn)定提升不同規(guī)模多模態(tài)模型在層級分類任務(wù)中的整體性能。

其次，在未知類別識別能力方面，研究團(tuán)隊(duì)為了驗(yàn)證模型是否真正學(xué)習(xí)到分類學(xué)知識，而非僅僅記憶訓(xùn)練類別，在 TerraIncognita 數(shù)據(jù)集上進(jìn)行了測試。該數(shù)據(jù)集包含大量稀有或未知物種圖像，其中部分物種可能從未出現(xiàn)在訓(xùn)練數(shù)據(jù)中。

實(shí)驗(yàn)結(jié)果顯示，在已知類別場景下，Order F1 從 23.30 提升到 41.56，F(xiàn)amily F1 從 11.47 提升到 25.47；在未知類別場景下，Order F1 從 23.30 提升到 33.45，F(xiàn)amily F1 從 11.47 提升到 12.67。這一結(jié)果表明，TARA 不僅提升了模型對已知類別的識別能力，同時(shí)也顯著增強(qiáng)了模型在面對未知物種時(shí)的泛化能力。

再次，在模型表征能力方面，研究人員通過線性探針實(shí)驗(yàn)進(jìn)一步分析了 TARA 對視覺特征表達(dá)能力的影響。實(shí)驗(yàn)過程為從模型最后一層提取圖像 token 表征，并利用線性分類器進(jìn)行訓(xùn)練，在 iNat21-Plant 數(shù)據(jù)集上測試分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明，原始模型的分類準(zhǔn)確率為 13.30%，加入強(qiáng)化學(xué)習(xí)后提升到 14.40%，在進(jìn)一步引入 TARA 方法之后準(zhǔn)確率提升到 18.30%。這一結(jié)果說明 TARA 能夠幫助模型學(xué)習(xí)到更加具有判別力的視覺特征表示。

此外，在分類型視覺問答任務(wù)方面，研究團(tuán)隊(duì)在 ImageWikiQA 數(shù)據(jù)集上對模型性能進(jìn)行了測試。該數(shù)據(jù)集包含基于 ImageNet 圖像的復(fù)雜視覺問答任務(wù)。實(shí)驗(yàn)結(jié)果顯示，基礎(chǔ)模型的準(zhǔn)確率為 46.60%，經(jīng)過強(qiáng)化學(xué)習(xí)微調(diào)后提升到 48.70%，在引入 TARA 方法之后進(jìn)一步提升到 51.40%。這一結(jié)果表明，通過增強(qiáng)層級視覺理解能力，可以進(jìn)一步提升模型在復(fù)雜視覺理解和推理任務(wù)中的整體表現(xiàn)。

最后，在訓(xùn)練效率方面，研究人員對模型訓(xùn)練過程中性能變化進(jìn)行了分析。實(shí)驗(yàn)結(jié)果顯示，在訓(xùn)練早期階段，引入 TARA 的模型性能已經(jīng)超過基線模型；在相同訓(xùn)練步數(shù)條件下，TARA 模型的 HCA 指標(biāo)和葉節(jié)點(diǎn)準(zhǔn)確率均高于未使用該方法的模型，說明這種方法能夠加速模型的訓(xùn)練收斂過程。同時(shí)，由于 TARA 僅增加少量投影層，因此整體計(jì)算開銷較小，對訓(xùn)練效率影響有限。

從數(shù)據(jù)到訓(xùn)練的完整實(shí)驗(yàn)框架

為了驗(yàn)證方法的有效性，研究團(tuán)隊(duì)設(shè)計(jì)了一套完整的實(shí)驗(yàn)流程，其中包括模型訓(xùn)練方案、數(shù)據(jù)集構(gòu)建方式以及評價(jià)指標(biāo)體系的設(shè)計(jì)。首先在實(shí)驗(yàn)數(shù)據(jù)集方面，研究人員選取了多個(gè)具有代表性的公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

其中 iNaturalist-2021（iNat21）是一個(gè)大規(guī)模生物圖像數(shù)據(jù)集，包含完整的生物分類體系。該數(shù)據(jù)集包含兩個(gè)子集，其中 Plant 子集包含 4271 個(gè)物種類別，Animal 子集包含 5388 個(gè)物種類別。數(shù)據(jù)集中每個(gè)樣本都具有六級分類結(jié)構(gòu)，即 Kingdom、Phylum、Class、Order、Family 和 Species 六個(gè)層級，因此非常適合用于層級視覺識別研究。

除了 iNat21 數(shù)據(jù)集之外，研究團(tuán)隊(duì)還使用了 TerraIncognita 數(shù)據(jù)集來測試模型在開放世界環(huán)境下的識別能力。該數(shù)據(jù)集包含來自中美洲和南美洲生物多樣性熱點(diǎn)地區(qū)的昆蟲圖像，其中許多物種缺乏公開圖像數(shù)據(jù)，并且部分物種可能尚未被科學(xué)界正式記錄，因此能夠用于評估模型在未知類別識別任務(wù)中的表現(xiàn)。

與此同時(shí)，研究人員還使用 ImageWikiQA 數(shù)據(jù)集對模型在復(fù)雜視覺問答任務(wù)中的表現(xiàn)進(jìn)行測試。該數(shù)據(jù)集中的問題涉及真實(shí)世界知識，需要模型同時(shí)完成圖像理解和知識推理，從而能夠檢驗(yàn)?zāi)Ｐ驮趶?fù)雜視覺理解場景中的能力。

在基礎(chǔ)模型選擇方面，研究人員采用 Qwen 系列多模態(tài)模型作為實(shí)驗(yàn)基礎(chǔ)模型，包括 Qwen3-VL-2B-Instruct 和 Qwen2.5-VL-3B-Instruct 兩種模型。這些模型在零樣本視覺理解任務(wù)中表現(xiàn)良好，因此適合作為層級視覺識別研究的基礎(chǔ)模型。

在訓(xùn)練方法方面，研究團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)微調(diào)方法與 TARA 表征對齊方法結(jié)合起來進(jìn)行訓(xùn)練。首先采用 No-Thinking 強(qiáng)化學(xué)習(xí)微調(diào)策略。傳統(tǒng)強(qiáng)化學(xué)習(xí)通常要求模型在生成答案前進(jìn)行推理過程，但研究人員發(fā)現(xiàn)，在分類任務(wù)中不進(jìn)行顯式推理反而能夠獲得更好的效果，因此訓(xùn)練過程中采用提示語 Please directly output the answer。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)為，如果模型預(yù)測結(jié)果正確則獎(jiǎng)勵(lì)值為 1，如果預(yù)測結(jié)果不正確則獎(jiǎng)勵(lì)值為 0。

在此基礎(chǔ)上，研究團(tuán)隊(duì)引入 TARA 表征對齊方法，通過兩個(gè)對齊任務(wù)向模型注入分類學(xué)知識。第一部分為視覺表示對齊。具體步驟包括使用生物基礎(chǔ)模型（BFM）提取圖像特征，獲取多模態(tài)模型中間層的視覺特征，將兩者映射到同一特征空間，并利用余弦相似度進(jìn)行對齊。

通過這一過程，模型能夠?qū)W習(xí)符合生物分類結(jié)構(gòu)的視覺表示空間。第二部分為標(biāo)簽表示對齊。具體過程為將分類標(biāo)簽輸入 BFM 文本編碼器獲得標(biāo)簽嵌入，然后將多模態(tài)模型生成答案的 token 表征映射到同一空間，并進(jìn)行相似度對齊。通過這種方式，模型能夠?qū)W習(xí)不同層級標(biāo)簽之間的語義關(guān)系。

在訓(xùn)練過程中，研究團(tuán)隊(duì)采用交替訓(xùn)練策略，使模型在兩種目標(biāo)之間不斷優(yōu)化。一方面通過強(qiáng)化學(xué)習(xí)優(yōu)化分類任務(wù)，另一方面通過 TARA 進(jìn)行知識對齊，從而使模型逐漸吸收生物分類學(xué)知識并提升層級識別能力。

在評價(jià)指標(biāo)方面，為了全面評估模型在層級視覺識別任務(wù)中的表現(xiàn)，研究人員設(shè)計(jì)了多種評價(jià)指標(biāo)。其中 Hierarchical Consistent Accuracy（HCA）用于評估模型是否能夠正確預(yù)測完整的分類路徑，例如 Animal、Chordata、Aves、Passeriformes、Thraupidae、Dacnis，如果其中任意一層預(yù)測錯(cuò)誤，則整條路徑都視為預(yù)測錯(cuò)誤。Leaf-level Accuracy（Accleaf）用于衡量最細(xì)粒度類別，也就是葉節(jié)點(diǎn)類別的預(yù)測準(zhǔn)確率。

Point-Overlap Ratio（POR）用于統(tǒng)計(jì)預(yù)測路徑中正確節(jié)點(diǎn)所占的比例。Strict Point-Overlap Ratio（S-POR）在此基礎(chǔ)上要求預(yù)測節(jié)點(diǎn)必須是連續(xù)正確的節(jié)點(diǎn)才會(huì)計(jì)入得分。Top Overlap Ratio（TOR）則用于衡量相鄰層級之間預(yù)測結(jié)果的一致性，通過這些指標(biāo)可以全面評估模型在層級結(jié)構(gòu)識別任務(wù)中的整體性能。

讓視覺模型學(xué)會(huì)「推斷未知」

整體來看，這項(xiàng)研究在理論和實(shí)際應(yīng)用方面都具有較為重要的意義。首先，在解決多模態(tài)模型層級識別能力不足的問題方面，現(xiàn)有多模態(tài)模型雖然在細(xì)粒度識別任務(wù)中已經(jīng)取得較好的效果，但在層級識別任務(wù)中仍然容易出現(xiàn)分類路徑錯(cuò)誤以及層級關(guān)系不一致等情況。

針對這一問題，研究團(tuán)隊(duì)提出的 TARA 方法通過引入分類學(xué)知識，使模型在識別過程中能夠更好地保持不同層級之間的邏輯關(guān)系，從而顯著提升模型在層級分類任務(wù)中的一致性表現(xiàn)。

其次，在提升模型對未知類別的泛化能力方面，研究人員指出在真實(shí)環(huán)境中新的物種仍在不斷被發(fā)現(xiàn)，傳統(tǒng)模型在缺乏訓(xùn)練樣本的情況下往往難以進(jìn)行準(zhǔn)確識別。TARA 利用生物基礎(chǔ)模型中蘊(yùn)含的分類學(xué)知識，使模型能夠推斷未知類別之間的層級關(guān)系，并在缺乏訓(xùn)練樣本的情況下仍然完成識別任務(wù)，這對于開放世界識別任務(wù)具有重要意義。

再次，在方法層面，研究提出了一種新的思路，即通過中間表征對齊的方式，將領(lǐng)域知識注入到多模態(tài)模型之中。研究團(tuán)隊(duì)認(rèn)為，這種方法不僅可以應(yīng)用于生物分類任務(wù)，還能夠推廣到其他具有層級結(jié)構(gòu)的應(yīng)用場景，例如醫(yī)學(xué)影像分類、商品分類以及知識圖譜推理等領(lǐng)域，從而為多模態(tài)大模型與領(lǐng)域知識結(jié)合提供了一種具有普適性的技術(shù)路徑。

最后，在推動(dòng)通用視覺理解系統(tǒng)發(fā)展方面，研究人員認(rèn)為未來的視覺系統(tǒng)不僅需要具備識別具體對象的能力，還需要能夠理解不同對象之間的結(jié)構(gòu)關(guān)系。通過在模型訓(xùn)練過程中引入層級知識，多模態(tài)大模型可以逐步具備對結(jié)構(gòu)化知識的理解能力，從而進(jìn)一步發(fā)展成為能夠理解復(fù)雜結(jié)構(gòu)關(guān)系的視覺智能系統(tǒng)。

構(gòu)建 TARA 的人

這篇論文的一作何胡凌霄，現(xiàn)為北京大學(xué)王選計(jì)算機(jī)研究所多媒體信息處理實(shí)驗(yàn)室博士生，師從彭宇新教授，主要研究方向?yàn)榧?xì)粒度多模態(tài)大模型。

學(xué)術(shù)研究方面，他主要圍繞細(xì)粒度視覺識別、多模態(tài)大模型等方向開展研究工作，在計(jì)算機(jī)視覺和多模態(tài)學(xué)習(xí)領(lǐng)域發(fā)表多篇論文，其中多篇被CVPR、ICLR、ICDE、BMVC、PRCV等國際學(xué)術(shù)會(huì)議接收，并參與相關(guān)領(lǐng)域的研究項(xiàng)目。

在學(xué)習(xí)期間，他還獲得國家獎(jiǎng)學(xué)金、北京理工大學(xué)優(yōu)秀畢業(yè)生、北京理工大學(xué)優(yōu)秀學(xué)生標(biāo)兵等多項(xiàng)榮譽(yù)，并在全國大學(xué)生數(shù)學(xué)建模競賽北京賽區(qū)獲得一等獎(jiǎng)，在華為云人工智能大賽無人車挑戰(zhàn)杯中獲得優(yōu)勝獎(jiǎng)等。

參考鏈接：http://39.108.48.32/mipl/news/news.php?id=CHhehulingxiao

論文的通訊作者彭宇新，北京大學(xué)王選計(jì)算機(jī)研究所教授、博士生導(dǎo)師，北京大學(xué)二級教授、博雅特聘教授，同時(shí)為IEEE、CCF、CAAI、CIE、CSIG Fellow，曾入選國家杰出青年科學(xué)基金獲得者、國家萬人計(jì)劃以及科技部中青年科技創(chuàng)新領(lǐng)軍人才等人才計(jì)劃。

他于 2003 年畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)并獲得博士學(xué)位，此后在北京大學(xué)開展教學(xué)與科研工作。其主要研究方向包括多媒體分析、計(jì)算機(jī)視覺和人工智能等領(lǐng)域。

彭宇新在相關(guān)領(lǐng)域取得了豐碩的學(xué)術(shù)成果，發(fā)表 TPAMI、IJCV、CVPR、NeurIPS、ICML 等國際重要期刊和會(huì)議論文 170 余篇，多次獲得最佳論文獎(jiǎng)，研究成果被國際同行評價(jià)為在無對象標(biāo)注圖像細(xì)分類等問題上取得重要進(jìn)展。他提出了“弱監(jiān)督深度圖像細(xì)粒分類”等創(chuàng)新方法，并建立了跨媒體評測基準(zhǔn)PKU XMediaNet，被全球多所高校和機(jī)構(gòu)廣泛使用。其團(tuán)隊(duì)在 NIST 組織的 TRECVID 視頻檢索國際評測中多次獲得第一名，并在多項(xiàng)國際視覺競賽中取得優(yōu)異成績。

此外，他主持承擔(dān)國家 863 計(jì)劃、國家自然科學(xué)基金重點(diǎn)項(xiàng)目等 40 余項(xiàng)科研項(xiàng)目，申請發(fā)明專利 50 余項(xiàng)并獲得多項(xiàng)授權(quán)，相關(guān)成果已在國家網(wǎng)信辦、公安部、國家廣播電視總局以及多家互聯(lián)網(wǎng)企業(yè)中得到應(yīng)用。同時(shí)，他還積極參與學(xué)術(shù)組織和期刊工作，擔(dān)任多個(gè)國際期刊編委和重要學(xué)術(shù)會(huì)議的組織者，在人工智能與計(jì)算機(jī)視覺領(lǐng)域具有重要影響力。

參考鏈接：http://39.108.48.32/mipl/pengyuxin/

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.