![]()
作者介紹:本文的共同第一作者為崔奔雷(阿里巴巴)和何少軒(阿里巴巴實習生、浙江大學)主要研究領域為多模態理解與生成,通訊作者洪海文(阿里巴巴)和趙洲(浙江大學)主要研究領域分別為多模態大語言模型、語音理解生成等方向。
近年來,擴散模型已成為圖像、音頻、視頻等多模態生成的核心技術路線,并在工業界得到廣泛應用。但在實際落地中仍存在關鍵瓶頸:工業級推理預算通常只有 20–30 步,在這一約束下,許多加速方法仍會出現紋理錯亂、顏色漂移、軌跡偏離等問題,影響生成質量與穩定性。
這一問題也限制了生成技術在理解側訓練中的大規模應用,而這對于補充安全場景中的高危稀缺樣本、構造生產環境下的對抗變異樣本至關重要。高危圖片和視頻往往傳播快、危害大,但樣本數量有限,因此需要借助生成技術大規模合成相關數據,以提升審核模型的識別能力。
同時,AI 時代用戶生成變異樣本的成本大幅降低,使內容安全面臨更強的對抗壓力。因此,需要在管控側引入生成技術,構造對抗訓練樣本,提升審核模型的魯棒性。然而,對于這類大規模工業應用而言,擴散模型過高的推理時延仍然不可接受。如何在有限步數預算下兼顧生成質量與推理效率,已成為工業級擴散落地的核心挑戰。
針對這一挑戰,阿里安全 AGI 實驗室 - 御風大模型團隊聯合浙江大學提出了一種全新的擴散加速方法 ——TC-Padé(Trajectory-Consistent Padé Approximation)。該方法基于 Padé 逼近構建殘差預測框架,在無需訓練、即插即用的前提下,實現對擴散采樣過程的高效加速,并在低步數設置下依然保持穩定、高質量的生成效果。實驗表明,TC-Padé 在圖像生成、視頻生成和類別條件圖像生成等任務上都取得了出色表現。例如,在 FLUX.1-dev 上可實現 2.88× 加速,在 Wan2.1 視頻生成模型上可實現 1.72× 加速,同時顯著優于已有緩存類加速方法。基于以上加速方法,御風大模型團隊得以產出大量高質量冷門風險訓練樣本,大幅度提升模型對風險的視覺理解能力,賦能百項以上廣泛業務場景。
該研究論文已被 CVPR 2026 錄用。
![]()
- 論文標題:TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration
- 論文鏈接:https://arxiv.org/pdf/2603.02943
- Github 地址:https://github.com/Alibaba-YuFeng/TC_Pade
一、研究背景
擴散模型的生成質量雖然已經達到很高水平,但其推理效率始終是落地應用中的核心制約因素。由于擴散采樣依賴多步迭代去噪,一個樣本通常需要經歷數十次甚至上百次網絡前向計算,這使得模型在實時交互、批量生成和資源受限場景中面臨較高的時延與成本。
為降低這一開銷,近年來出現了多類擴散加速方法,其中一類重要思路是特征緩存(feature caching)。這類方法利用相鄰時間步之間特征變化較小的性質,減少重復計算,從而實現 “免訓練、可插拔” 的推理加速。現有方法主要包括兩種路線:
(1)基于復用的方法:直接緩存并復用中間特征;
(2)基于預測的方法:根據歷史特征變化趨勢預測未來特征。
盡管這些方法在較高采樣步數(如 50 步)下能夠取得一定加速效果,但在工業場景更常見的 20~30 步低步數采樣中,其局限性會明顯暴露出來。隨著時間步間隔變大,特征之間的相似性快速下降:
(1)復用類方法容易因緩存特征與當前狀態不匹配而產生偏差;
(2)多項式外推類方法則容易因誤差積累導致軌跡漂移。
如下圖所示,在低步數設置下,已有加速方法往往會帶來明顯的畫質下降,而 TC-Padé 能夠在實現更高加速比的同時,保持更好的視覺一致性。
![]()
圖 1 相較于已有緩存加速方法,TC-Padé 在 20 步采樣下依然能夠保持更穩定的紋理與色彩表現
為何現有方法在低步數下容易失效?低步數采樣意味著:相鄰推理步之間的時間跨度更大,特征演化不再平滑。這會帶來兩個直接問題。第一,傳統緩存復用方法默認相鄰時間步特征 “足夠相似”,但在低步數場景下,這一假設很容易被打破,導致緩存信息與當前狀態錯位,從而影響生成質量。第二,基于泰勒展開的外推方法雖然能夠在局部做近似,但泰勒多項式本質上更適合小范圍、平滑變化的趨勢建模。
當時間間隔增大、特征變化更復雜時,就容易出現外推誤差放大、采樣軌跡偏移的問題。論文通過 PCA 可視化進一步表明,已有方法在加速采樣過程中往往無法保持與原始采樣軌跡的一致性,而 TC-Padé 更接近原始軌跡,體現出更強的穩定性。
![]()
圖 2 不同緩存方法在 20 步采樣設置下的軌跡一致性對比,TC-Padé 更接近原始軌跡,體現出更強的穩定性
二、研究方法:TC-Padé 核心創新
針對上述問題,本文提出了 TC-Padé,從 “預測對象”“預測形式” 和 “采樣階段策略” 三個層面重新設計擴散緩存加速框架,核心包括以下兩點:
1、創新一:基于) Padé 逼近的軌跡一致性殘差預測
與直接預測原始特征不同,TC-Padé 首先將建模對象轉向殘差表示(residual representation)。殘差刻畫的是層間特征增量,相較于原始特征通常具有更高的時間連續性和更穩定的變化規律,因此更適合做跨時間步預測。
殘差定義如下:
![]()
其中,x_{t} l 和 x_{t} r 分別表示時間步 t 下不同層的特征表示,R_{t} l:r 表示對應層間殘差。
在此基礎上,TC-Padé 使用 Padé 逼近替代傳統的泰勒多項式展開。Padé 逼近采用 “分子多項式 / 分母多項式” 的有理函數形式,能夠更好地描述非線性變化、漸近行為和階段切換,因此在低步數、大跨度時間間隔下具有更好的穩定性。其一般形式為:
![]()
在本文中,為平衡效果與開銷,采用了低階 Padé 型預測器,對當前殘差進行預測:
![]()
進一步可恢復當前時刻輸出特征:
![]()
這一設計避免了直接在高維原始特征空間進行預測,使模型能夠更聚焦于結構更穩定的殘差動態,從而有效降低低步數采樣中的誤差累積問題。
2、創新二:面向去噪階段差異的步感知預測策略
擴散模型在不同采樣階段的動態特性并不相同:早期階段,噪聲高,結構變化劇烈;中期階段,整體結構逐漸穩定,適合進行軌跡預測;后期階段,主要進行細節修復與紋理優化。現有方法通常采用統一策略處理整個去噪過程,難以適應不同階段的變化特點。為此,TC-Padé 提出了一種去噪步感知(step-aware)預測策略,針對不同階段采用不同的殘差更新方式:
![]()
其中,T 為總去噪步數。這一策略使 TC-Padé 能夠在采樣早期避免過度外推,在中期充分發揮 Padé 逼近的優勢,并在后期捕捉更細粒度的變化趨勢,從而提升整體加速過程的穩定性與生成質量。
3、創新三:自適應軌跡穩定性判別機制
除了預測方式的設計外,TC-Padé 還引入了一個軌跡穩定性指標(Trajectory Stableness Indicator, TSI),用于判斷當前時間段是否適合跳過計算、直接使用預測結果。其定義為:
![]()
當軌跡變化平穩時,模型可安全地跳過部分計算并采用預測;當軌跡不穩定時,則恢復完整計算,以保證生成質量。這樣就實現了在穩定區間盡可能加速,在關鍵變化區間保留精細計算的自適應推理機制。
![]()
圖 3 在每個緩存區間內,系統通過軌跡穩定性指標動態判斷是執行完整計算還是進行殘差預測
三、實驗亮點:低步數下依然保持高質量與高速度
(一)圖像生成任務:更快的同時保持更高保真度
在文本到圖像生成任務中,TC-Padé 在 FLUX.1-dev 上展現出非常突出的效率 — 質量平衡能力。實驗結果表明:
(1)TC-Padé(fast)實現 2.88× 加速
(2)在 FID、CLIP Score 等指標上保持與原始模型接近的性能
(3)在 PSNR、SSIM、LPIPS 等保真度指標上明顯優于其他緩存類方法
相比之下,已有方法雖然在部分設置下可以進一步壓縮 FLOPs,但往往伴隨顯著的畫質下降,甚至出現無法接受的圖像退化。TC-Padé 則在較高加速比下依然能夠保持良好的紋理、結構與語義一致性。
![]()
表 1 方法在實現高達 2.88× 加速的同時,依然保持高質量圖像生成效果
(二)視頻生成任務:在時序生成中同樣有效
視頻生成對一致性要求更高,任何預測偏差都可能在時間維度被進一步放大。即便如此,TC-Padé 仍在 Wan2.1-1.3B 視頻生成模型上取得了優異結果:
(1)1.72× 推理加速,1.74× FLOPs 降低
(2)VBench-2.0 總分僅較原始 20 步基線小幅下降
(3)在 PSNR、SSIM、LPIPS 等指標上顯著優于泰勒預測類方法
這說明 TC-Padé 不僅適用于靜態圖像生成,也能夠較好適配視頻場景中的復雜時空動態。
![]()
表 2 在視頻生成任務中的效果對比。相較于其他方法,TC-Padé 在保證視頻內容穩定性的同時實現了更高效率
(三)類別條件圖像生成:兼顧樣本保真度與多樣性
在 DiT-XL/2 的 ImageNet 256×256 類別條件圖像生成任務中,TC-Padé 同樣表現穩定:
(1)1.46× 時延加速,1.64× FLOPs 降低
(2)FID 優于對比的緩存加速方法
(3)Precision 與 Recall 保持更好平衡
這表明 TC-Padé 不僅適用于文本條件生成任務,也能在標準視覺生成基準上保持較強競爭力。
![]()
表 3 TC-Padé 在 DiT-XL/2 上的定量結果,展示了其在類別條件圖像生成任務中的穩定泛化能力
(四)消融實驗:關鍵設計帶來穩定收益
論文進一步通過消融實驗驗證了 TC-Padé 各組成模塊的有效性。
1、殘差緩存粒度分析:實驗比較了不同緩存粒度,包括 double-stream、single-stream 和 entire block。結果顯示,在整個 block 粒度上進行殘差緩存與預測時效果最佳,能夠在速度和質量之間取得更優平衡。
2、穩定性閾值分析:通過調整軌跡穩定性閾值 θ,可以靈活控制加速比與質量之間的權衡。實驗顯示,θ=0.7 時可獲得最高 2.88× 加速,而 θ=1.0 則在質量和效率之間表現出更均衡的綜合效果。
3、與量化技術兼容:TC-Padé 還具有良好的工程兼容性,可與量化等其他推理優化技術疊加使用。實驗顯示,在結合量化后,其整體時延下降可進一步擴大,體現出良好的實際部署潛力。
四、總結
TC-Padé 針對擴散模型低步數采樣中 “加速容易、穩定很難” 的核心問題,提出了一套兼顧理論與實踐的新方案。通過基于 Padé 逼近的殘差預測、步感知預測策略以及軌跡穩定性自適應判別機制,該方法在無需訓練的條件下顯著提升了擴散推理效率,并在多個任務上保持了高質量生成效果。對于追求低延遲、高吞吐、可落地部署的擴散模型應用而言,TC-Padé 提供了一種具有現實價值的高效加速思路,也為未來擴散模型推理優化打開了新的方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.