網易首頁 > 網易號 > 正文申請入駐

重新思考長尾數據集蒸餾：具有無偏恢復與重標記的統一層級框架

2026-02-23 00:07:57　來源: CreateAMind

上海舉報

分享至

Rethinking Long-tailed Dataset Distillation: A Uni-Level Framework withUnbiased Recovery and Relabeling

重新思考長尾數據集蒸餾：具有無偏恢復與重標記的統一層級框架

摘要

數據集蒸餾（Dataset distillation）創建一個小型蒸餾數據集，通過捕獲完整數據集中的關鍵信息來實現高效訓練。雖然現有的數據集蒸餾方法在平衡數據集上表現良好，但在長尾分布下卻面臨困難——在這種分布中，不平衡的類別頻率會導致模型表示產生偏置，并破壞諸如批歸一化（BN）統計量等統計估計。本文中，我們通過重新審視基于軌跡方法的局限性，重新思考長尾數據集蒸餾問題，轉而采用統計對齊的視角來聯合緩解模型偏置并恢復公平的監督信號。為此，我們引入了三個專門設計的組件，以實現蒸餾圖像的無偏恢復和軟標簽重標定：（1）增強專家模型（一個用于恢復的觀察模型和一個用于重標定的教師模型），以實現可靠的統計估計和軟標簽生成；（2）通過完整前向傳播動態調整動量來重新校準BN統計量，以減少表示偏斜；（3）通過多輪機制逐步選擇高置信度且多樣化的增強樣本初始化合成圖像，以促進覆蓋性和多樣性。在四個長尾基準數據集上的大量實驗表明，我們的方法在不同程度的類別不平衡下均持續優于現有最先進方法。值得注意的是，在IPC=10和IF=10的設置下，我們的方法在CIFAR-100-LT上提升了15.6%的top-1準確率，在Tiny-ImageNet-LT上提升了11.8%。

引言

數據集蒸餾（Dataset Distillation, DD）是合成一個顯著更小但具有代表性的數據集的過程，該數據集保留原始大型數據集的基本特征（Wang等人2018；Yu, Liu和Wang 2023；Liu和Du 2025）。通過大幅減少數據量，DD促進了高效的模型訓練并顯著降低計算成本，使其在資源受限場景中特別有價值（Cui等人2025c；Chai等人2024）。除了減輕計算負擔外，DD還提供了一個緊湊的視角來研究數據分布如何影響模型學習（Zhu等人2023；Cheng等人2024）。

長尾數據集蒸餾（Zhao等人2025）專門解決以類別不平衡為特征的場景，其中少數頭部類別包含豐富的樣本，而剩余的尾部類別則稀疏表示。這種不平衡在現實世界應用中普遍存在，因為為稀有類別獲取足夠樣本的成本高昂或不可行。大多數現有的DD方法（Liu等人2023；Guo等人2024；Shao等人2024b）在平衡數據集上表現良好，但在類別不平衡條件下則遇到困難。它們對均勻數據密度的假設導致合成集中頭部類別占主導地位，少數類別的表示不佳，最終在長尾場景中性能下降。

很少有研究明確解決傳統DD方法在長尾分布下的局限性，這主要是因為廣泛使用的基準數據集通常具有平衡的類別結構（Krizhevsky 2012；Le和Yang 2015；Deng等人2009）。據我們所知，DAMED（Zhao等人2025）是最近唯一明確解決這一問題的研究工作。它通過向softmax層注入類別頻率感知的偏移量來模擬長尾訓練動態，從而誘導模仿不平衡訓練下觀察到的梯度行為。然而，如圖1所示，DAMED仍存在顯著局限性。1）尾部類別表示不足。它依賴于在長尾數據上訓練但未去偏的特征提取專家，導致尾部類別表示在蒸餾數據集中保存不佳。2）軌跡匹配中的無意權衡。中頻類別接收到不穩定或不足的梯度反饋，導致整個分布上的性能受損。3）沉重的計算開銷。其雙層基于軌跡的優化存在計算效率低下和過度的GPU內存使用問題，嚴重限制了實際適用性（Yin, Xing和Shen 2023）。

為全面解決這些缺點，我們提出了一種新穎的單層優化框架，以成本高效的方式明確抵消源于類別不平衡的偏置。這一表述至關重要，因為有效的去偏策略往往導致專家的訓練軌跡顯著偏離標準訓練所誘導的軌跡，使得軌跡匹配變得不穩定且具有挑戰性。我們的框架通過兩個互補組件考慮去偏：無偏合成圖像恢復和無偏軟標簽重標定。為了在長尾設置中實現有效恢復，我們的框架確保多樣化且具有代表性的合成圖像初始化，并利用去偏的專家模型（觀察模型）執行BN統計量的公平提取以實現精確對齊。同時，無偏軟標簽重標定通過另一個訓練良好、去偏的專家模型（教師模型）生成的軟標簽提供有效的語義監督。

為實現這一設計，我們引入了三種針對性的策略來緩解長尾分布下的模型偏置、統計不公平性和次優初始化問題。

首先，我們提出了一種混合一致性損失（mixture consistency loss）和一種類別級去偏損失（class-wise debias loss）來正則化觀察模型和教師模型。前者確保對多種數據增強的魯棒特征學習，后者采用動態加權來重新平衡類別級監督。

其次，我們重新校準BN統計量的估計，以應對類別不平衡和時間依賴性的挑戰。我們凍結觀察模型，并在整個訓練集上執行高效的前向傳播。在此過程中，我們動態調整的動量確保每個類別內所有樣本的平等貢獻，消除類內偏置。然后我們對每類統計量取平均，以獲得全局平衡的估計，消除類間偏置。

第三，我們引入了一種置信度感知、類別無關的合成初始化策略。對于每個真實圖像，我們預計算多個增強版本，并使用教師模型通過負交叉熵進行評分。我們采用多輪選擇策略，每輪中每個圖像最多貢獻一個增強版本，逐步選擇高置信度變體以確保多樣性。為確保批次結構一致，我們對實例數少于最大類別的所有類別插入零填充占位符。

我們的主要貢獻如下：

我們通過從雙層軌跡匹配轉向單層統計對齊框架，重新思考長尾數據集蒸餾，該框架更好地支持去偏。
我們通過三種關鍵策略實現無偏恢復和軟標簽重標定：專家模型去偏；公平BN統計量重新校準；以及置信度引導的多輪合成數據初始化。
在CIFAR-10-LT、CIFAR-100-LT、Tiny-ImageNet-LT和ImageNet-LT上的大量實驗表明，我們相對于最先進基線具有一致的優越性。在CIFAR-100-LT上提升準確率15.6%，在Tiny-ImageNet-LT上提升11.8%（IPC=10, IF=10）。

相關工作

數據集蒸餾

早期的數據集蒸餾方法，如K-Center（Sener和Savarese 2017）和GraphCut（Iyer等人2021），直接選擇真實數據的子集，這限制了所得蒸餾數據集的表達能力。后續方法分為三大類。基于梯度匹配的方法（Liu等人2023；Wang等人2025）對齊真實數據與蒸餾數據之間的梯度，但由于高內存使用而擴展性較差。基于軌跡匹配的方法（Cazenavette等人2022；Zhong等人2025）模擬訓練動態，但計算昂貴且內存密集。基于分布匹配的方法（Zhao和Bilen 2023；Cui等人2025a）通過匹配特征加速收斂，但仍遭受高內存成本，并在Tiny-ImageNet或ImageNet等更大數據集上性能下降。

近期研究嘗試通過基于生成模型的方法（Cui等人2025b；Chen等人2025）或采用單層優化（Sun等人2024；Shao等人2024b）來減少內存開銷。然而，生成方法通常依賴于在平衡大規模數據集上預訓練的生成器，而現有的單層方法在平衡假設下運行，缺乏顯式的去偏策略。DAMED（Zhao等人2025）是唯一明確針對長尾DD的先驗工作。然而，它繼承了長尾專家訓練的表示偏置，并保留了軌跡匹配框架的低效性。相比之下，我們的工作是首個在單層框架內系統解決長尾DD的研究，具有原則性的專家去偏、圖像初始化和無偏對齊策略。

長尾識別

長尾識別指在不平衡數據分布下執行的視覺任務（Zhang等人2025）。為緩解由此產生的表示偏置，數據增強策略已被廣泛研究（Zheng等人2024；Wang等人2024；Li和Jia 2025）。例如，Mixup（Zhang等人2018）及其類別感知擴展UniMix（Li等人2021）促進特征插值以豐富尾部類別的監督，而CMO（Shi, Dong和Shen 2021）生成上下文感知的混合樣本，更好地保留稀有類別的語義一致性。

除增強外，其他方法通過網絡級優化（Zhang等人2023；Zhu等人2024；He 2024）、使用生成模型或實例組合的數據合成（Shao等人2024a；Khorram等人2024；Zhao等人2024）、以及損失重平衡策略（Xiong和Yao 2024；Du, Han和Huang 2024；Lin等人2017；Du等人2023）來放大來自代表性不足類別的學習信號，從而緩解長尾偏置。鑒于對長尾數據集蒸餾的關注有限，我們從更廣泛的長尾識別文獻中汲取概念洞見，對觀察模型和教師模型進行去偏，從而在嚴重類別不平衡下實現有效的蒸餾。

方法

問題陳述

為解決該問題，我們提出了一個用于無偏恢復和軟標簽重標定的單層統計對齊框架。我們的方法偏離了傳統的軌跡匹配方法，其根本性局限性在后續章節中詳細闡述。我們框架的成功依賴于三個核心策略：專家模型去偏、公平BN統計量重新校準、以及置信度引導的數據初始化。整個流程如圖2所示。

基于軌跡匹配方法的缺點

其中 F 表示訓練軌跡。然而，當專家模型在長尾數據集上訓練時，其內部表示不可避免地容易受到類別不平衡的影響，如果不實施適當的干預。優化學生模型來模仿這樣的專家會導致蒸餾數據集繼承這種偏置，導致對頭部類別語義的過度強調和對少數類別的表示不足。

盡管DAMED（Zhao等人2025）嘗試在學生中模擬不平衡訓練動態以減少軌跡不匹配，但它依賴于一個在未去偏的不平衡數據上訓練的表示專家。因此，蒸餾數據集繼承了專家的表示偏置。更廣泛地說，基于軌跡的方法難以在顯式去偏和嚴格軌跡匹配之間取得平衡。蒸餾前的調整（如重加權或logit修正）會改變專家的優化路徑，破壞了軌跡匹配的前提。同時，事后去偏是不切實際的，因為這些方法僅復現參數演變，缺乏對每類表示質量的細粒度控制。除了這些局限性外，由于優化的雙層性質、多步訓練軌跡模擬以及通過展開計算圖的反向傳播，此類方法產生了大量的計算開銷。

BN統計量的公平重新校準準確且公平的BN統計量在我們的框架中至關重要，因為它們作為圖像恢復的對齊目標。然而，在標準指數移動平均更新（固定動量）下，運行估計會因樣本貢獻不均而產生偏差：近期批次主導統計量，而早期批次被快速遺忘。這種效應在長尾設置中尤其成問題，其中每個尾部類別樣本具有高表示價值，必須對累積統計量做出平等貢獻。這些局限性促使我們采用事后重新校準策略。

方差 σ 同理。這種兩階段策略同時緩解了類內偏置和類間偏置，從而作為統計對齊的可靠監督信號。

置信度引導的多輪初始化 初始化主要決定最終合成圖像的多樣性，同時在促進長尾分布下的穩定優化方面也發揮輔助作用。傳統初始化策略通常依賴于采樣真實圖像或隨機噪聲。然而，隨機初始化往往導致收斂性差和下游性能下降。在高度不平衡的設置中，直接采樣真實圖像變得不可行，因為尾部類別通常包含太少樣本而無法提供充分的初始化。

為克服這一局限性，我們提出了一種專為長尾分布定制的置信度引導、多輪初始化策略。具體而言，我們為每個真實圖像生成多個增強版本（如裁剪），并通過教師模型使用負交叉熵損失對它們進行評分。這些增強版本存儲在一個類別級候選池中。在每一輪中，每個真實圖像將其最自信且未使用的增強版本貢獻給一個臨時選擇池。如果候選總數超過該類別的剩余槽位，我們選擇得分最高的增強版本；否則，我們保留全部。這一過程重復進行，直到每個類別達到其目標IPC。該策略確保高置信度選擇，同時在不同類別規模下保持樣本級多樣性。為保持跨類別的結構一致性，我們對真實樣本數少于最大類別的類別插入零初始化占位符。這些占位符被排除在增強和選擇過程之外，確保所有合成樣本都具有語義意義。

實驗

網絡架構 遵循DAMED（Zhao等人2025）中建立的設置，我們采用深度為3的ConvNet作為CIFAR-10-LT和CIFAR-100-LT的學生模型，深度為4的ConvNet用于Tiny-ImageNet-LT和ImageNet-LT。鑒于ResNet架構對大規模數據集的優越表示能力，我們額外在高度不平衡場景下對ImageNet-LT評估ResNet-50。在評估期間，所有學生模型在蒸餾數據集上訓練1000個輪次。所有實驗重復五次以保證公平性，并主要在單張NVIDIA RTX 3090 GPU上進行。

基線方法 我們將我們的方法與多種代表性基線進行比較，包括核心集選擇方法如Random、K-Center Greedy（Sener和Savarese 2017）和Graph Cut（Iyer等人2021）；基于梯度匹配的方法包括DC（Zhao, Mopuri和Bilen 2020）和DREAM（Liu等人2023）；基于分布匹配的方法如CAFE（Wang等人2022）和IDM（Zhao等人2023）；基于軌跡匹配的方法包括MTT（Cazenavette等人2022）、DATM（Guo等人2024）、TESLA（Cui等人2023）和DAMED（Zhao等人2025）；單層優化方法包括SRe2L（Yin, Xing和Shen 2023）、RDED（Sun等人2024）和EDC（Shao等人2024b）；以及基于生成模型的方法如Minimax（Gu等人2024）。

結果與討論

主要結果 我們進行了全面的評估，涵蓋廣泛的IF和IPC配置，覆蓋不同復雜度的數據集。如表1、2、3和4所示，我們的方法在所有評估設置下始終優于強基線。雖然DAMED（Zhao等人2025）產生的學生性能與其有偏專家的性能 closely matching——實際上達到了其性能上限——但我們的方法明確緩解了專家偏置，使蒸餾數據能夠監督更準確和可泛化的學生模型，從而提高了可達到的上界。通過以類別平衡的方式對齊模型表示并重新校準平衡的BN統計量，我們的方法避免了對頭部類別的典型過擬合，并促進了跨類別和訓練樣本的公平學習。我們的去偏機制使蒸餾數據集能夠同時保留結構保真度和語義完整性，使我們的方法在不同規模的數據集上廣泛有效。

高度不平衡設置下的結果 表5總結了高度不平衡場景下的結果。這些設置為數據集蒸餾帶來了重大挑戰，特別是當某些類別的可用真實圖像數量低于目標IPC時。在這種約束下，一些先前的方法變得不適用；例如，EDC的初始化和RDED的采樣機制因尾部類別樣本不足而失敗。其他基線也難以取得有競爭力的性能，通常是由于有偏的表示學習或優化不穩定性。相比之下，我們的方法在所有測試配置下始終取得更強的性能。值得注意的是，在IF = 256且使用ResNet-50作為評估模型的情況下，我們為ImageNet-LT生成的蒸餾集不僅優于所有競爭方法在相同不平衡設置下生成的蒸餾集，而且超過了幾個使用完整、平衡的ImageNet-1K獲得的蒸餾集的方法。

極低IPC設置下的結果 我們進一步在嚴重壓縮的蒸餾機制下評估我們的方法，其中每類僅保留一個合成圖像。如表6所示，我們的方法在大多數數據集上實現了比所有基線高2倍以上的準確率提升。這一強勁性能源于兩個關鍵因素。首先，公平的BN統計量重新校準確保即使每類只有一個合成圖像也能反映準確的分布級信息，在最小數據容量下提供可靠的監督。此外，無偏軟標簽提供語義指導，補償了低IPC合成樣本的有限表示表達能力。這些機制共同使我們的方法在極端蒸餾約束下保持魯棒性。

跨架構性能 為評估其在架構間的泛化能力，我們在同一蒸餾數據集上訓練多個不同結構的學生模型。如表7所示，我們的方法在四種代表性評估骨干網絡上始終優于現有方法。值得注意的是，基線方法通常在架構間顯示出顯著的準確率變化，而我們的蒸餾數據支持 uniformly strong performance。這些結果表明，我們的方法捕獲了語義上有意義且可遷移的模式，促進了跨多樣化學生架構的可泛化學習。

長尾數據集的類別級準確率圖3比較了DAMED（Zhao等人2025）與我們方法的類別級準確率。DAMED在尾部類別上表現不佳，因為其有偏的專家訓練未能保留稀有類別的語義。此外，軌跡匹配期間使用的頻率調整損失忽略了中頻類別，導致性能受到抑制。相比之下，我們的方法通過首先訓練去偏的專家模型，然后對齊公平的BN統計量，避免了這些問題。

不同組件的消融實驗如表8所示，每個組件對我們方法的成功都做出了關鍵貢獻。模型去偏策略在不降低頭部或中頻類別性能的情況下保留了尾部類別語義，從而提高了整體性能上限。重新校準的BN統計量確保每個訓練樣本，特別是來自少樣本類別的樣本，對累積表示做出公平貢獻。初始化策略為合成圖像提供了多樣化、具有類別代表性的起始點，即使每類真實數據稀缺時也是如此。

計算效率我們通過比較運行時間和峰值GPU內存使用，評估我們方法與DAMED（Zhao等人2025）的計算效率，DAMED是唯一專為長尾數據集蒸餾設計的現有方法。如表9所示，我們的方法大幅減少了專家模型訓練和蒸餾數據合成所需的計算時間。具體而言，在兩個數據集上，我們流程的總運行時間不到DAMED的二十分之一。除更快的執行速度外，我們的方法還表現出更有利的內存行為。如表10所示，DAMED的GPU內存使用隨IPC快速增長，限制了其在較高值時的適用性。相比之下，我們的方法無論IPC如何都保持恒定的內存使用，允許在廣泛設置下穩定高效地執行。

結論

我們提出了一個用于長尾數據集蒸餾的單層框架，明確設計用于解決先前方法中固有的表示偏置和低效問題。我們通過三個關鍵組件增強類別不平衡下的蒸餾效果：專家模型去偏、BN統計量重新校準和置信度感知初始化。大量實驗表明，我們的方法在廣泛的IF和IPC設置下始終優于現有基線，包括高度不平衡和低樣本機制，展現出強魯棒性和泛化能力。

更廣泛的影響我們的方法可能擴展到多領域或聯邦數據集蒸餾，其中數據不平衡自然發生在客戶端或領域之間。

原文鏈接：https://www.arxiv.org/pdf/2511.18858

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.