337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026 | 20步也能穩住畫質,這個擴散加速方法不一樣

0
分享至



作者介紹:本文的共同第一作者為崔奔雷(阿里巴巴)和何少軒(阿里巴巴實習生、浙江大學)主要研究領域為多模態理解與生成,通訊作者洪海文(阿里巴巴)和趙洲(浙江大學)主要研究領域分別為多模態大語言模型、語音理解生成等方向。

近年來,擴散模型已成為圖像、音頻、視頻等多模態生成的核心技術路線,并在工業界得到廣泛應用。但在實際落地中仍存在關鍵瓶頸:工業級推理預算通常只有 20–30 步,在這一約束下,許多加速方法仍會出現紋理錯亂、顏色漂移、軌跡偏離等問題,影響生成質量與穩定性。

這一問題也限制了生成技術在理解側訓練中的大規模應用,而這對于補充安全場景中的高危稀缺樣本、構造生產環境下的對抗變異樣本至關重要。高危圖片和視頻往往傳播快、危害大,但樣本數量有限,因此需要借助生成技術大規模合成相關數據,以提升審核模型的識別能力。

同時,AI 時代用戶生成變異樣本的成本大幅降低,使內容安全面臨更強的對抗壓力。因此,需要在管控側引入生成技術,構造對抗訓練樣本,提升審核模型的魯棒性。然而,對于這類大規模工業應用而言,擴散模型過高的推理時延仍然不可接受。如何在有限步數預算下兼顧生成質量與推理效率,已成為工業級擴散落地的核心挑戰。

針對這一挑戰,阿里安全 AGI 實驗室 - 御風大模型團隊聯合浙江大學提出了一種全新的擴散加速方法 ——TC-Padé(Trajectory-Consistent Padé Approximation)。該方法基于 Padé 逼近構建殘差預測框架,在無需訓練、即插即用的前提下,實現對擴散采樣過程的高效加速,并在低步數設置下依然保持穩定、高質量的生成效果。實驗表明,TC-Padé 在圖像生成、視頻生成和類別條件圖像生成等任務上都取得了出色表現。例如,在 FLUX.1-dev 上可實現 2.88× 加速,在 Wan2.1 視頻生成模型上可實現 1.72× 加速,同時顯著優于已有緩存類加速方法。基于以上加速方法,御風大模型團隊得以產出大量高質量冷門風險訓練樣本,大幅度提升模型對風險的視覺理解能力,賦能百項以上廣泛業務場景。

該研究論文已被 CVPR 2026 錄用。



  • 論文標題:TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration
  • 論文鏈接:https://arxiv.org/pdf/2603.02943
  • Github 地址:https://github.com/Alibaba-YuFeng/TC_Pade

一、研究背景

擴散模型的生成質量雖然已經達到很高水平,但其推理效率始終是落地應用中的核心制約因素。由于擴散采樣依賴多步迭代去噪,一個樣本通常需要經歷數十次甚至上百次網絡前向計算,這使得模型在實時交互、批量生成和資源受限場景中面臨較高的時延與成本。

為降低這一開銷,近年來出現了多類擴散加速方法,其中一類重要思路是特征緩存(feature caching)。這類方法利用相鄰時間步之間特征變化較小的性質,減少重復計算,從而實現 “免訓練、可插拔” 的推理加速。現有方法主要包括兩種路線:

(1)基于復用的方法:直接緩存并復用中間特征;

(2)基于預測的方法:根據歷史特征變化趨勢預測未來特征。

盡管這些方法在較高采樣步數(如 50 步)下能夠取得一定加速效果,但在工業場景更常見的 20~30 步低步數采樣中,其局限性會明顯暴露出來。隨著時間步間隔變大,特征之間的相似性快速下降:

(1)復用類方法容易因緩存特征與當前狀態不匹配而產生偏差;

(2)多項式外推類方法則容易因誤差積累導致軌跡漂移。

如下圖所示,在低步數設置下,已有加速方法往往會帶來明顯的畫質下降,而 TC-Padé 能夠在實現更高加速比的同時,保持更好的視覺一致性。



圖 1 相較于已有緩存加速方法,TC-Padé 在 20 步采樣下依然能夠保持更穩定的紋理與色彩表現

為何現有方法在低步數下容易失效?低步數采樣意味著:相鄰推理步之間的時間跨度更大,特征演化不再平滑。這會帶來兩個直接問題。第一,傳統緩存復用方法默認相鄰時間步特征 “足夠相似”,但在低步數場景下,這一假設很容易被打破,導致緩存信息與當前狀態錯位,從而影響生成質量。第二,基于泰勒展開的外推方法雖然能夠在局部做近似,但泰勒多項式本質上更適合小范圍、平滑變化的趨勢建模。

當時間間隔增大、特征變化更復雜時,就容易出現外推誤差放大、采樣軌跡偏移的問題。論文通過 PCA 可視化進一步表明,已有方法在加速采樣過程中往往無法保持與原始采樣軌跡的一致性,而 TC-Padé 更接近原始軌跡,體現出更強的穩定性。



圖 2 不同緩存方法在 20 步采樣設置下的軌跡一致性對比,TC-Padé 更接近原始軌跡,體現出更強的穩定性

二、研究方法:TC-Padé 核心創新

針對上述問題,本文提出了 TC-Padé,從 “預測對象”“預測形式” 和 “采樣階段策略” 三個層面重新設計擴散緩存加速框架,核心包括以下兩點:

1、創新一:基于) Padé 逼近的軌跡一致性殘差預測

與直接預測原始特征不同,TC-Padé 首先將建模對象轉向殘差表示(residual representation)。殘差刻畫的是層間特征增量,相較于原始特征通常具有更高的時間連續性和更穩定的變化規律,因此更適合做跨時間步預測。

殘差定義如下:



其中,x_{t} l 和 x_{t} r 分別表示時間步 t 下不同層的特征表示,R_{t} l:r 表示對應層間殘差。

在此基礎上,TC-Padé 使用 Padé 逼近替代傳統的泰勒多項式展開。Padé 逼近采用 “分子多項式 / 分母多項式” 的有理函數形式,能夠更好地描述非線性變化、漸近行為和階段切換,因此在低步數、大跨度時間間隔下具有更好的穩定性。其一般形式為:



在本文中,為平衡效果與開銷,采用了低階 Padé 型預測器,對當前殘差進行預測:



進一步可恢復當前時刻輸出特征:



這一設計避免了直接在高維原始特征空間進行預測,使模型能夠更聚焦于結構更穩定的殘差動態,從而有效降低低步數采樣中的誤差累積問題。

2、創新二:面向去噪階段差異的步感知預測策略

擴散模型在不同采樣階段的動態特性并不相同:早期階段,噪聲高,結構變化劇烈;中期階段,整體結構逐漸穩定,適合進行軌跡預測;后期階段,主要進行細節修復與紋理優化。現有方法通常采用統一策略處理整個去噪過程,難以適應不同階段的變化特點。為此,TC-Padé 提出了一種去噪步感知(step-aware)預測策略,針對不同階段采用不同的殘差更新方式:



其中,T 為總去噪步數。這一策略使 TC-Padé 能夠在采樣早期避免過度外推,在中期充分發揮 Padé 逼近的優勢,并在后期捕捉更細粒度的變化趨勢,從而提升整體加速過程的穩定性與生成質量。

3、創新三:自適應軌跡穩定性判別機制

除了預測方式的設計外,TC-Padé 還引入了一個軌跡穩定性指標(Trajectory Stableness Indicator, TSI),用于判斷當前時間段是否適合跳過計算、直接使用預測結果。其定義為:



當軌跡變化平穩時,模型可安全地跳過部分計算并采用預測;當軌跡不穩定時,則恢復完整計算,以保證生成質量。這樣就實現了在穩定區間盡可能加速,在關鍵變化區間保留精細計算的自適應推理機制。



圖 3 在每個緩存區間內,系統通過軌跡穩定性指標動態判斷是執行完整計算還是進行殘差預測

三、實驗亮點:低步數下依然保持高質量與高速度

(一)圖像生成任務:更快的同時保持更高保真度

在文本到圖像生成任務中,TC-Padé 在 FLUX.1-dev 上展現出非常突出的效率 — 質量平衡能力。實驗結果表明:

(1)TC-Padé(fast)實現 2.88× 加速

(2)在 FID、CLIP Score 等指標上保持與原始模型接近的性能

(3)在 PSNR、SSIM、LPIPS 等保真度指標上明顯優于其他緩存類方法

相比之下,已有方法雖然在部分設置下可以進一步壓縮 FLOPs,但往往伴隨顯著的畫質下降,甚至出現無法接受的圖像退化。TC-Padé 則在較高加速比下依然能夠保持良好的紋理、結構與語義一致性。



表 1 方法在實現高達 2.88× 加速的同時,依然保持高質量圖像生成效果

(二)視頻生成任務:在時序生成中同樣有效

視頻生成對一致性要求更高,任何預測偏差都可能在時間維度被進一步放大。即便如此,TC-Padé 仍在 Wan2.1-1.3B 視頻生成模型上取得了優異結果:

(1)1.72× 推理加速,1.74× FLOPs 降低

(2)VBench-2.0 總分僅較原始 20 步基線小幅下降

(3)在 PSNR、SSIM、LPIPS 等指標上顯著優于泰勒預測類方法

這說明 TC-Padé 不僅適用于靜態圖像生成,也能夠較好適配視頻場景中的復雜時空動態。



表 2 在視頻生成任務中的效果對比。相較于其他方法,TC-Padé 在保證視頻內容穩定性的同時實現了更高效率

(三)類別條件圖像生成:兼顧樣本保真度與多樣性

在 DiT-XL/2 的 ImageNet 256×256 類別條件圖像生成任務中,TC-Padé 同樣表現穩定:

(1)1.46× 時延加速,1.64× FLOPs 降低

(2)FID 優于對比的緩存加速方法

(3)Precision 與 Recall 保持更好平衡

這表明 TC-Padé 不僅適用于文本條件生成任務,也能在標準視覺生成基準上保持較強競爭力。



表 3 TC-Padé 在 DiT-XL/2 上的定量結果,展示了其在類別條件圖像生成任務中的穩定泛化能力

(四)消融實驗:關鍵設計帶來穩定收益

論文進一步通過消融實驗驗證了 TC-Padé 各組成模塊的有效性。

1、殘差緩存粒度分析:實驗比較了不同緩存粒度,包括 double-stream、single-stream 和 entire block。結果顯示,在整個 block 粒度上進行殘差緩存與預測時效果最佳,能夠在速度和質量之間取得更優平衡。

2、穩定性閾值分析:通過調整軌跡穩定性閾值 θ,可以靈活控制加速比與質量之間的權衡。實驗顯示,θ=0.7 時可獲得最高 2.88× 加速,而 θ=1.0 則在質量和效率之間表現出更均衡的綜合效果。

3、與量化技術兼容:TC-Padé 還具有良好的工程兼容性,可與量化等其他推理優化技術疊加使用。實驗顯示,在結合量化后,其整體時延下降可進一步擴大,體現出良好的實際部署潛力。

四、總結

TC-Padé 針對擴散模型低步數采樣中 “加速容易、穩定很難” 的核心問題,提出了一套兼顧理論與實踐的新方案。通過基于 Padé 逼近的殘差預測、步感知預測策略以及軌跡穩定性自適應判別機制,該方法在無需訓練的條件下顯著提升了擴散推理效率,并在多個任務上保持了高質量生成效果。對于追求低延遲、高吞吐、可落地部署的擴散模型應用而言,TC-Padé 提供了一種具有現實價值的高效加速思路,也為未來擴散模型推理優化打開了新的方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普:對美伊達成協議“非常樂觀”,伊朗最高領袖提出三點主張

特朗普:對美伊達成協議“非常樂觀”,伊朗最高領袖提出三點主張

文匯報
2026-04-10 15:52:15
朝鮮最高領導人金正恩會見王毅

朝鮮最高領導人金正恩會見王毅

新華社
2026-04-10 18:38:12
東航一航班遇強烈氣流備降廈門,后在南昌上空盤旋數圈降落,乘客:劇烈顛簸,嚇得給對象留言,感謝機長帶我平安回家

東航一航班遇強烈氣流備降廈門,后在南昌上空盤旋數圈降落,乘客:劇烈顛簸,嚇得給對象留言,感謝機長帶我平安回家

極目新聞
2026-04-10 15:54:54
5女子坐臨水欄桿上,懸空高難度瑜伽動作秀柔韌;網友:先問問五朵金花都會游泳嗎?景區:發現了會制止

5女子坐臨水欄桿上,懸空高難度瑜伽動作秀柔韌;網友:先問問五朵金花都會游泳嗎?景區:發現了會制止

大風新聞
2026-04-10 12:29:16
"我不要活了!"上海一阿婆崩潰,買了近30年的保險全被退!警方:若繼續持有價值百萬

"我不要活了!"上海一阿婆崩潰,買了近30年的保險全被退!警方:若繼續持有價值百萬

臺州交通廣播
2026-04-09 22:32:54
多人反映在常熟農商銀行貸款遭遇“利率翻倍”:口頭承諾低息,還款五年發現年利率達8.7%,長期不交付合同原件

多人反映在常熟農商銀行貸款遭遇“利率翻倍”:口頭承諾低息,還款五年發現年利率達8.7%,長期不交付合同原件

極目新聞
2026-04-10 17:53:40
門店腰斬2萬家!一線撤離、雜牌泛濫,國民快餐巨頭徹底扛不住了

門店腰斬2萬家!一線撤離、雜牌泛濫,國民快餐巨頭徹底扛不住了

毒sir財經
2026-04-09 16:14:36
重磅!美國擬全面封殺中國實驗室!

重磅!美國擬全面封殺中國實驗室!

中國半導體論壇
2026-04-10 12:40:19
53條中日航線3月取消全部航班

53條中日航線3月取消全部航班

第一財經資訊
2026-04-10 12:59:47
“十多年沒遇到過這樣的!”浙江房東崩潰,租客兩年藏近千斤尿液在房間,柜子全被塞滿……

“十多年沒遇到過這樣的!”浙江房東崩潰,租客兩年藏近千斤尿液在房間,柜子全被塞滿……

揚子晚報
2026-04-10 11:06:50
收下中國26萬桶柴油后,馬科斯給南沙131處島礁改名!菲律賓變臉

收下中國26萬桶柴油后,馬科斯給南沙131處島礁改名!菲律賓變臉

趣文說娛
2026-04-09 20:17:07
記者現場直擊!伊斯蘭堡嚴陣以待

記者現場直擊!伊斯蘭堡嚴陣以待

環球網資訊
2026-04-10 13:56:00
全紅嬋后續:四人已被帶走,全網追問群主,陳芋汐確認在群里!

全紅嬋后續:四人已被帶走,全網追問群主,陳芋汐確認在群里!

眼光很亮
2026-04-10 13:53:56
伊朗媒體:哈拉齊傷重不治

伊朗媒體:哈拉齊傷重不治

中國基金報
2026-04-10 06:44:44
體檢報告中,若3個指標都正常,基本可排除很多疾病

體檢報告中,若3個指標都正常,基本可排除很多疾病

白話電影院
2026-04-09 16:11:20
6塊錢的假螺栓,13條人命:一座跨黃河大橋是怎么被省塌的?

6塊錢的假螺栓,13條人命:一座跨黃河大橋是怎么被省塌的?

李將平老師
2026-04-10 11:36:25
開路虎加油逃單后續:正臉曝光已死,身份被扒還是慣犯,警方介入

開路虎加油逃單后續:正臉曝光已死,身份被扒還是慣犯,警方介入

潮鹿逐夢
2026-04-10 12:03:49
突發!FCC擬禁止中國三大運營商!中方回應

突發!FCC擬禁止中國三大運營商!中方回應

EETOP半導體社區
2026-04-10 08:36:04
賈平凹之女賈淺淺被調查,連米芾的芾字都不認識,引起書法界震怒

賈平凹之女賈淺淺被調查,連米芾的芾字都不認識,引起書法界震怒

潮鹿逐夢
2026-04-10 12:43:59
如愿以償!鄭麗文終于見到了大陸行最重要的人物!

如愿以償!鄭麗文終于見到了大陸行最重要的人物!

阿龍聊軍事
2026-04-10 18:02:00
2026-04-10 20:24:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12728文章數 142621關注度
往期回顧 全部

科技要聞

馬斯克狂發大火箭也養不起AI 年虧50億美元

頭條要聞

73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達成共識

頭條要聞

73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達成共識

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認戀情!聚會細節被扒

財經要聞

創業板改革制度落地 增設第4套上市標準

汽車要聞

搭載第二代刀片電池及閃充技術 騰勢N8L閃充版預售35萬起

態度原創

旅游
親子
手機
教育
家居

旅游要聞

“讓大雪山變致富山!”戶外風吹進膽扎村 村民有了新期盼

親子要聞

產后修復順序分五個階段,每個生娃的媽媽都走過,你也不例外

手機要聞

一加Ace系列新品官宣:直接魔改天璣9500 新一代性能猛獸

教育要聞

直播預告|利楚教科“智慧校園·預見未來”發布會,定檔4月16日!

家居要聞

復古風格 自然簡約

無障礙瀏覽 進入關懷版