![]()
作者和團隊介紹:本文第一作者是高煥霖,通訊作者為趙放和廉士國,所有作者均來自聯通數據智能有限公司(中國聯通數據科學與人工智能研究院)- 元景大模型研發團隊和南京大學,專注于聯通元景大模型研發。
FLUX 、Qwen-Image 等多模態生成模型的推理速度一直是工業級多模態模型落地的痛點。傳統的特征緩存(Feature Caching)方案在追求高倍率加速時,常因瞬時速度的劇烈波動導致軌跡漂移。
針對這一痛點,中國聯通數據科學與人工智能研究院與南京大學研究團隊,在此前工作 LeMiCa(NeurIPS 2025 Spotlight)的基礎上繼續深耕,推出了進階加速框架MeanCache
該工作不僅承襲了團隊在擴散模型加速領域的深厚積淀,更在技術上實現了跨越:受到 MeanFlow 啟發,MeanCache 首次將 “平均速度” 視角引入緩存推理,通過 JVP 修正精準校正了生成軌跡,實現了4x以上的推理提速。該成果已入選人工智能頂會ICLR 2026,目前,論文、代碼均已開源。
![]()
- 論文標題:MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference
- 論文鏈接:https://arxiv.org/pdf/2601.19961
- 項目主頁:https://unicomai.github.io/MeanCache/
- 代碼地址:https://github.com/UnicomAI/MeanCache
技術創新:平均速度驅動的緩存新范式
MeanCache 的核心貢獻在于將緩存加速從 “瞬時速度” 轉向了 “平均速度”,主要包含以下兩個核心技術點:
JVP 驅動的平均速度
![]()
該建模方式將緩存視角從單一的 “點” 擴展到了 “區間”,通過提供更穩定的引導信號,有效地校正了高倍率加速下的軌跡偏離。
![]()
軌跡穩定調度策略
“什么時候該緩存?” 以往的方法多依賴固定步長或手動閾值。MeanCache 將推理過程建模為一個多重圖(Multigraph)尋優問題。
它將每個時間步視為節點,將預測均值速度與真實值之間的穩定性偏差定義為邊權:
![]()
節點和邊組成多重圖,然后再通過峰值抑制最短路徑(Peak-Suppressed Shortest Path)算法,在給定的計算預算下,計算規則下最優的緩存策略:
![]()
實驗結果:刷新 SOTA 加速表現
文生圖
在商業級文生圖模型 Qwen-Image 和 FLUX.1 [dev] 分別實現最高 4x 加速,在 Image Reward 和感知指標上取得了 SOTA 的表現。
![]()
從視覺效果上看,隨著加速比的增大,MeanCache 生成的圖片在內容一致性方面表現更好。
![]()
文生視頻
在視頻生成模型 HunyuanVideo 上也實現了 3.6x 加速和 SOTA 的指標提升。
![]()
在對視頻的定性分析上,MeanCache 也表現出更好的加速效果,不論是畫質還是內容一致性方面。
![]()
語義一致性:更進一步,針對 rare-word(如下圖 "Peristeronic")的高難度生僻 Prompt 的測試下,MeanCache 展現了更強的語義魯棒性。
![]()
業界頂級團隊推薦
同時,MeanCache 已支持最新的阿里通義 Z-Image 和 Qwen-Image-2512 文生圖模型,并獲得了 Z-Image 團隊的官方主頁推薦,社區已支持ComfyUI
![]()
總結與展望
MeanCache 作為一種輕量化、免訓練的 Flow Matching 加速框架,創新性地提出了 “平均速度緩存” 與 “軌跡穩定性調度” 方案。該方案在確保圖像高保真度與內容一致性的基礎上,顯著提升了大模型的推理效率。 聯通元景大模型團隊將以此為基石,持續深耕模型推理加速及復雜場景生成領域。我們致力于為業界貢獻更多元化的技術視角,進一步降低工業級生成模型的使用門檻與算力成本。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.