![]()
TARA:融合生物知識與視覺特征,提升模型推理能力。
作者丨鄭佳美
編輯丨岑 峰
近年來,多模態(tài)大模型的發(fā)展正在不斷推動(dòng)視覺理解能力的提升。從圖像分類、目標(biāo)檢測到視覺問答等任務(wù),視覺系統(tǒng)已經(jīng)能夠在多種場景中實(shí)現(xiàn)較高水平的識別和推理能力。然而,在更復(fù)雜的層級視覺識別任務(wù)中,現(xiàn)有模型仍然存在明顯不足。
現(xiàn)實(shí)世界中的許多視覺概念天然具有層級結(jié)構(gòu),例如生物分類體系中的“界—門—綱—目—科—屬—種”,以及商品分類、醫(yī)學(xué)診斷等領(lǐng)域中的多層級標(biāo)簽體系。這類任務(wù)不僅要求模型識別具體類別,還需要理解不同類別之間的層級關(guān)系和語義結(jié)構(gòu)。但目前多數(shù)視覺模型仍然基于扁平分類框架進(jìn)行訓(xùn)練,在進(jìn)行層級預(yù)測時(shí)容易出現(xiàn)分類路徑不一致或?qū)蛹夑P(guān)系沖突等問題。
與此同時(shí),在開放世界環(huán)境中,視覺模型還需要具備識別未知類別的能力。以生物識別任務(wù)為例,現(xiàn)實(shí)世界中的物種數(shù)量遠(yuǎn)遠(yuǎn)超過現(xiàn)有數(shù)據(jù)集的覆蓋范圍,新的物種仍在不斷被發(fā)現(xiàn)。
當(dāng)模型面對訓(xùn)練數(shù)據(jù)中未出現(xiàn)的類別時(shí),往往難以進(jìn)行合理推斷。如何利用已有知識幫助模型理解類別之間的層級結(jié)構(gòu),并在有限數(shù)據(jù)條件下推斷未知類別,逐漸成為當(dāng)前視覺智能研究中的重要問題。
在這一背景下,北大王選所的彭宇新團(tuán)隊(duì)在論文《Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models》中提出了一種新的方法 TARA。
他們通過引入生物基礎(chǔ)模型中的分類學(xué)知識,并將其與多模態(tài)模型的中間表征進(jìn)行對齊,使模型能夠?qū)W習(xí)到具有層級結(jié)構(gòu)的視覺表示,從而提升模型在層級視覺識別任務(wù)中的一致性表現(xiàn),并增強(qiáng)其在未知類別識別任務(wù)中的泛化能力。
![]()
論文地址:https://arxiv.org/pdf/2603.00431
01
TARA 讓多模態(tài)模型更懂「層級關(guān)系」
實(shí)驗(yàn)團(tuán)隊(duì)通過在多個(gè)數(shù)據(jù)集和多種評價(jià)指標(biāo)下開展實(shí)驗(yàn),對提出的 TARA(Taxonomy-Aware Representation Alignment)方法在層級視覺識別任務(wù)中的有效性進(jìn)行了驗(yàn)證。
首先,在已知類別識別能力方面,研究在 iNaturalist-2021(iNat21)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。該數(shù)據(jù)集包含大量具有層級分類結(jié)構(gòu)的生物圖像,并劃分為植物和動(dòng)物兩個(gè)子數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,在引入 TARA 方法之后,模型在多個(gè)評價(jià)指標(biāo)上均獲得明顯提升。
在 iNat21-Plant 數(shù)據(jù)集上,Qwen3-VL-2B 基礎(chǔ)模型在經(jīng)過強(qiáng)化學(xué)習(xí)微調(diào)后,層級一致性準(zhǔn)確率(HCA)由 9.23% 提升到 12.78%,葉節(jié)點(diǎn)準(zhǔn)確率(Accleaf)由 31.96% 提升到 32.66%,同時(shí) POR、S-POR 和 TOR 等層級評價(jià)指標(biāo)也分別提升約 3% 至 6%。
在 iNat21-Animal 數(shù)據(jù)集上,HCA 由 8.57%提升到 10.26%,Accleaf 由 29.32% 提升到 30.77%,其他層級指標(biāo)也均呈現(xiàn)提升趨勢。對于規(guī)模更大的 Qwen2.5-VL-3B 模型,在植物數(shù)據(jù)集上的 HCA 提升至 19.53%,在動(dòng)物數(shù)據(jù)集上的 HCA 提升至 24.02%,各項(xiàng)指標(biāo)均持續(xù)提高。以上結(jié)果表明,TARA 方法能夠穩(wěn)定提升不同規(guī)模多模態(tài)模型在層級分類任務(wù)中的整體性能。
![]()
其次,在未知類別識別能力方面,研究團(tuán)隊(duì)為了驗(yàn)證模型是否真正學(xué)習(xí)到分類學(xué)知識,而非僅僅記憶訓(xùn)練類別,在 TerraIncognita 數(shù)據(jù)集上進(jìn)行了測試。該數(shù)據(jù)集包含大量稀有或未知物種圖像,其中部分物種可能從未出現(xiàn)在訓(xùn)練數(shù)據(jù)中。
實(shí)驗(yàn)結(jié)果顯示,在已知類別場景下,Order F1 從 23.30 提升到 41.56,F(xiàn)amily F1 從 11.47 提升到 25.47;在未知類別場景下,Order F1 從 23.30 提升到 33.45,F(xiàn)amily F1 從 11.47 提升到 12.67。這一結(jié)果表明,TARA 不僅提升了模型對已知類別的識別能力,同時(shí)也顯著增強(qiáng)了模型在面對未知物種時(shí)的泛化能力。
![]()
再次,在模型表征能力方面,研究人員通過線性探針實(shí)驗(yàn)進(jìn)一步分析了 TARA 對視覺特征表達(dá)能力的影響。實(shí)驗(yàn)過程為從模型最后一層提取圖像 token 表征,并利用線性分類器進(jìn)行訓(xùn)練,在 iNat21-Plant 數(shù)據(jù)集上測試分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,原始模型的分類準(zhǔn)確率為 13.30%,加入強(qiáng)化學(xué)習(xí)后提升到 14.40%,在進(jìn)一步引入 TARA 方法之后準(zhǔn)確率提升到 18.30%。這一結(jié)果說明 TARA 能夠幫助模型學(xué)習(xí)到更加具有判別力的視覺特征表示。
此外,在分類型視覺問答任務(wù)方面,研究團(tuán)隊(duì)在 ImageWikiQA 數(shù)據(jù)集上對模型性能進(jìn)行了測試。該數(shù)據(jù)集包含基于 ImageNet 圖像的復(fù)雜視覺問答任務(wù)。實(shí)驗(yàn)結(jié)果顯示,基礎(chǔ)模型的準(zhǔn)確率為 46.60%,經(jīng)過強(qiáng)化學(xué)習(xí)微調(diào)后提升到 48.70%,在引入 TARA 方法之后進(jìn)一步提升到 51.40%。這一結(jié)果表明,通過增強(qiáng)層級視覺理解能力,可以進(jìn)一步提升模型在復(fù)雜視覺理解和推理任務(wù)中的整體表現(xiàn)。
![]()
最后,在訓(xùn)練效率方面,研究人員對模型訓(xùn)練過程中性能變化進(jìn)行了分析。實(shí)驗(yàn)結(jié)果顯示,在訓(xùn)練早期階段,引入 TARA 的模型性能已經(jīng)超過基線模型;在相同訓(xùn)練步數(shù)條件下,TARA 模型的 HCA 指標(biāo)和葉節(jié)點(diǎn)準(zhǔn)確率均高于未使用該方法的模型,說明這種方法能夠加速模型的訓(xùn)練收斂過程。同時(shí),由于 TARA 僅增加少量投影層,因此整體計(jì)算開銷較小,對訓(xùn)練效率影響有限。
![]()
02
從數(shù)據(jù)到訓(xùn)練的完整實(shí)驗(yàn)框架
為了驗(yàn)證方法的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一套完整的實(shí)驗(yàn)流程,其中包括模型訓(xùn)練方案、數(shù)據(jù)集構(gòu)建方式以及評價(jià)指標(biāo)體系的設(shè)計(jì)。首先在實(shí)驗(yàn)數(shù)據(jù)集方面,研究人員選取了多個(gè)具有代表性的公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。
其中 iNaturalist-2021(iNat21)是一個(gè)大規(guī)模生物圖像數(shù)據(jù)集,包含完整的生物分類體系。該數(shù)據(jù)集包含兩個(gè)子集,其中 Plant 子集包含 4271 個(gè)物種類別,Animal 子集包含 5388 個(gè)物種類別。數(shù)據(jù)集中每個(gè)樣本都具有六級分類結(jié)構(gòu),即 Kingdom、Phylum、Class、Order、Family 和 Species 六個(gè)層級,因此非常適合用于層級視覺識別研究。
除了 iNat21 數(shù)據(jù)集之外,研究團(tuán)隊(duì)還使用了 TerraIncognita 數(shù)據(jù)集來測試模型在開放世界環(huán)境下的識別能力。該數(shù)據(jù)集包含來自中美洲和南美洲生物多樣性熱點(diǎn)地區(qū)的昆蟲圖像,其中許多物種缺乏公開圖像數(shù)據(jù),并且部分物種可能尚未被科學(xué)界正式記錄,因此能夠用于評估模型在未知類別識別任務(wù)中的表現(xiàn)。
與此同時(shí),研究人員還使用 ImageWikiQA 數(shù)據(jù)集對模型在復(fù)雜視覺問答任務(wù)中的表現(xiàn)進(jìn)行測試。該數(shù)據(jù)集中的問題涉及真實(shí)世界知識,需要模型同時(shí)完成圖像理解和知識推理,從而能夠檢驗(yàn)?zāi)P驮趶?fù)雜視覺理解場景中的能力。
在基礎(chǔ)模型選擇方面,研究人員采用 Qwen 系列多模態(tài)模型作為實(shí)驗(yàn)基礎(chǔ)模型,包括 Qwen3-VL-2B-Instruct 和 Qwen2.5-VL-3B-Instruct 兩種模型。這些模型在零樣本視覺理解任務(wù)中表現(xiàn)良好,因此適合作為層級視覺識別研究的基礎(chǔ)模型。
![]()
在訓(xùn)練方法方面,研究團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)微調(diào)方法與 TARA 表征對齊方法結(jié)合起來進(jìn)行訓(xùn)練。首先采用 No-Thinking 強(qiáng)化學(xué)習(xí)微調(diào)策略。傳統(tǒng)強(qiáng)化學(xué)習(xí)通常要求模型在生成答案前進(jìn)行推理過程,但研究人員發(fā)現(xiàn),在分類任務(wù)中不進(jìn)行顯式推理反而能夠獲得更好的效果,因此訓(xùn)練過程中采用提示語 Please directly output the answer。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)為,如果模型預(yù)測結(jié)果正確則獎(jiǎng)勵(lì)值為 1,如果預(yù)測結(jié)果不正確則獎(jiǎng)勵(lì)值為 0。
在此基礎(chǔ)上,研究團(tuán)隊(duì)引入 TARA 表征對齊方法,通過兩個(gè)對齊任務(wù)向模型注入分類學(xué)知識。第一部分為視覺表示對齊。具體步驟包括使用生物基礎(chǔ)模型(BFM)提取圖像特征,獲取多模態(tài)模型中間層的視覺特征,將兩者映射到同一特征空間,并利用余弦相似度進(jìn)行對齊。
通過這一過程,模型能夠?qū)W習(xí)符合生物分類結(jié)構(gòu)的視覺表示空間。第二部分為標(biāo)簽表示對齊。具體過程為將分類標(biāo)簽輸入 BFM 文本編碼器獲得標(biāo)簽嵌入,然后將多模態(tài)模型生成答案的 token 表征映射到同一空間,并進(jìn)行相似度對齊。通過這種方式,模型能夠?qū)W習(xí)不同層級標(biāo)簽之間的語義關(guān)系。
![]()
在訓(xùn)練過程中,研究團(tuán)隊(duì)采用交替訓(xùn)練策略,使模型在兩種目標(biāo)之間不斷優(yōu)化。一方面通過強(qiáng)化學(xué)習(xí)優(yōu)化分類任務(wù),另一方面通過 TARA 進(jìn)行知識對齊,從而使模型逐漸吸收生物分類學(xué)知識并提升層級識別能力。
在評價(jià)指標(biāo)方面,為了全面評估模型在層級視覺識別任務(wù)中的表現(xiàn),研究人員設(shè)計(jì)了多種評價(jià)指標(biāo)。其中 Hierarchical Consistent Accuracy(HCA)用于評估模型是否能夠正確預(yù)測完整的分類路徑,例如 Animal、Chordata、Aves、Passeriformes、Thraupidae、Dacnis,如果其中任意一層預(yù)測錯(cuò)誤,則整條路徑都視為預(yù)測錯(cuò)誤。Leaf-level Accuracy(Accleaf)用于衡量最細(xì)粒度類別,也就是葉節(jié)點(diǎn)類別的預(yù)測準(zhǔn)確率。
Point-Overlap Ratio(POR)用于統(tǒng)計(jì)預(yù)測路徑中正確節(jié)點(diǎn)所占的比例。Strict Point-Overlap Ratio(S-POR)在此基礎(chǔ)上要求預(yù)測節(jié)點(diǎn)必須是連續(xù)正確的節(jié)點(diǎn)才會(huì)計(jì)入得分。Top Overlap Ratio(TOR)則用于衡量相鄰層級之間預(yù)測結(jié)果的一致性,通過這些指標(biāo)可以全面評估模型在層級結(jié)構(gòu)識別任務(wù)中的整體性能。
03
讓視覺模型學(xué)會(huì)「推斷未知」
整體來看,這項(xiàng)研究在理論和實(shí)際應(yīng)用方面都具有較為重要的意義。首先,在解決多模態(tài)模型層級識別能力不足的問題方面,現(xiàn)有多模態(tài)模型雖然在細(xì)粒度識別任務(wù)中已經(jīng)取得較好的效果,但在層級識別任務(wù)中仍然容易出現(xiàn)分類路徑錯(cuò)誤以及層級關(guān)系不一致等情況。
針對這一問題,研究團(tuán)隊(duì)提出的 TARA 方法通過引入分類學(xué)知識,使模型在識別過程中能夠更好地保持不同層級之間的邏輯關(guān)系,從而顯著提升模型在層級分類任務(wù)中的一致性表現(xiàn)。
其次,在提升模型對未知類別的泛化能力方面,研究人員指出在真實(shí)環(huán)境中新的物種仍在不斷被發(fā)現(xiàn),傳統(tǒng)模型在缺乏訓(xùn)練樣本的情況下往往難以進(jìn)行準(zhǔn)確識別。TARA 利用生物基礎(chǔ)模型中蘊(yùn)含的分類學(xué)知識,使模型能夠推斷未知類別之間的層級關(guān)系,并在缺乏訓(xùn)練樣本的情況下仍然完成識別任務(wù),這對于開放世界識別任務(wù)具有重要意義。
再次,在方法層面,研究提出了一種新的思路,即通過中間表征對齊的方式,將領(lǐng)域知識注入到多模態(tài)模型之中。研究團(tuán)隊(duì)認(rèn)為,這種方法不僅可以應(yīng)用于生物分類任務(wù),還能夠推廣到其他具有層級結(jié)構(gòu)的應(yīng)用場景,例如醫(yī)學(xué)影像分類、商品分類以及知識圖譜推理等領(lǐng)域,從而為多模態(tài)大模型與領(lǐng)域知識結(jié)合提供了一種具有普適性的技術(shù)路徑。
最后,在推動(dòng)通用視覺理解系統(tǒng)發(fā)展方面,研究人員認(rèn)為未來的視覺系統(tǒng)不僅需要具備識別具體對象的能力,還需要能夠理解不同對象之間的結(jié)構(gòu)關(guān)系。通過在模型訓(xùn)練過程中引入層級知識,多模態(tài)大模型可以逐步具備對結(jié)構(gòu)化知識的理解能力,從而進(jìn)一步發(fā)展成為能夠理解復(fù)雜結(jié)構(gòu)關(guān)系的視覺智能系統(tǒng)。
04
構(gòu)建 TARA 的人
這篇論文的一作何胡凌霄,現(xiàn)為北京大學(xué)王選計(jì)算機(jī)研究所多媒體信息處理實(shí)驗(yàn)室博士生,師從彭宇新教授,主要研究方向?yàn)榧?xì)粒度多模態(tài)大模型。
學(xué)術(shù)研究方面,他主要圍繞細(xì)粒度視覺識別、多模態(tài)大模型等方向開展研究工作,在計(jì)算機(jī)視覺和多模態(tài)學(xué)習(xí)領(lǐng)域發(fā)表多篇論文,其中多篇被CVPR、ICLR、ICDE、BMVC、PRCV等國際學(xué)術(shù)會(huì)議接收,并參與相關(guān)領(lǐng)域的研究項(xiàng)目。
在學(xué)習(xí)期間,他還獲得國家獎(jiǎng)學(xué)金、北京理工大學(xué)優(yōu)秀畢業(yè)生、北京理工大學(xué)優(yōu)秀學(xué)生標(biāo)兵等多項(xiàng)榮譽(yù),并在全國大學(xué)生數(shù)學(xué)建模競賽北京賽區(qū)獲得一等獎(jiǎng),在華為云人工智能大賽無人車挑戰(zhàn)杯中獲得優(yōu)勝獎(jiǎng)等。
![]()
參考鏈接:http://39.108.48.32/mipl/news/news.php?id=CHhehulingxiao
論文的通訊作者彭宇新,北京大學(xué)王選計(jì)算機(jī)研究所教授、博士生導(dǎo)師,北京大學(xué)二級教授、博雅特聘教授,同時(shí)為IEEE、CCF、CAAI、CIE、CSIG Fellow,曾入選國家杰出青年科學(xué)基金獲得者、國家萬人計(jì)劃以及科技部中青年科技創(chuàng)新領(lǐng)軍人才等人才計(jì)劃。
他于 2003 年畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)并獲得博士學(xué)位,此后在北京大學(xué)開展教學(xué)與科研工作。其主要研究方向包括多媒體分析、計(jì)算機(jī)視覺和人工智能等領(lǐng)域。
彭宇新在相關(guān)領(lǐng)域取得了豐碩的學(xué)術(shù)成果,發(fā)表 TPAMI、IJCV、CVPR、NeurIPS、ICML 等國際重要期刊和會(huì)議論文 170 余篇,多次獲得最佳論文獎(jiǎng),研究成果被國際同行評價(jià)為在無對象標(biāo)注圖像細(xì)分類等問題上取得重要進(jìn)展。他提出了“弱監(jiān)督深度圖像細(xì)粒分類”等創(chuàng)新方法,并建立了跨媒體評測基準(zhǔn)PKU XMediaNet,被全球多所高校和機(jī)構(gòu)廣泛使用。其團(tuán)隊(duì)在 NIST 組織的 TRECVID 視頻檢索國際評測中多次獲得第一名,并在多項(xiàng)國際視覺競賽中取得優(yōu)異成績。
此外,他主持承擔(dān)國家 863 計(jì)劃、國家自然科學(xué)基金重點(diǎn)項(xiàng)目等 40 余項(xiàng)科研項(xiàng)目,申請發(fā)明專利 50 余項(xiàng)并獲得多項(xiàng)授權(quán),相關(guān)成果已在國家網(wǎng)信辦、公安部、國家廣播電視總局以及多家互聯(lián)網(wǎng)企業(yè)中得到應(yīng)用。同時(shí),他還積極參與學(xué)術(shù)組織和期刊工作,擔(dān)任多個(gè)國際期刊編委和重要學(xué)術(shù)會(huì)議的組織者,在人工智能與計(jì)算機(jī)視覺領(lǐng)域具有重要影響力。
![]()
參考鏈接:http://39.108.48.32/mipl/pengyuxin/
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.