網易首頁 > 網易號 > 正文申請入駐

單流擴散Transformer高效圖像生成模型

2026-02-03 22:24:53　來源: CreateAMind

上海舉報

分享至

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

Z-Image：單流擴散Transformer高效圖像生成模型

https://arxiv.org/pdf/2511.22699v1

摘要

高性能圖像生成模型的版圖目前被專有系統（如 Nano Banana Pro [27]、Seedream 4.0 [65]）壟斷。主流開源替代方案，包括 Qwen-Image [77]、Hunyuan-Image-3.0 [8] 和 FLUX.2 [36]，參數量高達 200–800 億，推理與消費級硬件微調均不現實。為此，我們提出 Z-Image：一款僅 60 億參數的高效基礎生成模型，采用可擴展單流擴散 Transformer（S3-DiT）架構，向“唯規模論”發起挑戰。通過對完整模型生命周期的系統優化——從精選數據基建到精簡訓練課程——全程訓練僅耗 31.4 萬 H800 卡時（約 63 萬美元）。幾步蒸餾加獎勵后訓練進一步得到 Z-Image-Turbo：在單張企業級 H800 上實現亞秒級推理，并兼容 <16 GB 顯存的消費級顯卡。此外，我們的全任務預訓練范式還高效孵化了 Z-Image-Edit，一款指令跟隨能力突出的編輯模型。定量與定性實驗均表明，Z-Image 在多項指標上持平或超越頂尖對手，尤其在照片級真實圖像生成與雙語文字渲染上媲美頂級商業模型，證明“少算力也能 SOTA”。代碼、權重與在線演示全部開源，推動人人可及、預算友好且最先進的生成模型發展。

1 引言
近年來，文本到圖像（T2I）生成領域突飛猛進，從簡陋紋理躍升至兼具照片級真實感與復雜語義對齊的影像 [58,18,35,77,65,8,4]。然而，隨著模型能力膨脹，其開發與可及性壁壘也日益高企。當下生態呈現兩極：一側是頂尖商業閉源模型——如 Nano Banana Pro [27]、Seedream 4.0 [65]——雖性能傲人，卻黑箱封閉，透明性與可復現性俱缺；另一側是開源陣營，雖高舉民主化大旗，卻動輒堆棧至數百億（例：Qwen-Image [77] 200 億、FLUX.2 [36] 320 億、Hunyuan-Image-3.0 [8] 800 億），令訓練與推理成本令人望而卻步。于是，從專有模型蒸餾合成數據成了資源受限學術圈的“捷徑”[13,20]，但這招易陷閉環：誤差累積、數據同質化，抑制超越教師模型的新視覺能力。

本文推出 Z-Image，一款強力擴散 Transformer，同時向“唯規模論”與“合成蒸餾依賴”開戰。我們證明：頂級圖像生成模型無需堆參，也無需蒸餾。相反，我們首次給出端到端全棧方案——從數據精選、架構設計、訓練策略到推理加速——全程優化，僅用最樸素的實拍數據，不借他人蒸餾。方法論的高效令整體算力開銷極低：如表 1 所示，Z-Image 完整訓練僅需 31.4 萬 H800 卡時，按現價約 62.8 萬美元（約 2 美元/卡時 [38]）。在頭部模型動輒數倍乃至數十倍資源的當下，這一“小投入”證明：精巧設計足以抗衡暴力擴標。

這一成本效率的突破，建立在四大支柱的系統方法論之上：

高效數據基建：資源受限場景下，數據基建是決定“單位時間知識獲取率”的關鍵，它既加速訓練，也劃定能力上限。我們提出四模塊協同的數據體系：多維特征提取的 Data Profiling Engine、語義去重與精準檢索的 Cross-modal Vector Engine、結構化概念組織的 World Knowledge Topological Graph，以及閉環精修的 Active Curation Engine。通過細粒度數據畫像與訓練分布編排，讓“對的數據”在“對的階段”出現，最大化實拍數據利用率，杜絕冗余或低質樣本帶來的算力浪費。
高效架構：受大語言模型解碼器擴展性啟發，我們設計 Scalable Single-Stream Multi-Modal Diffusion Transformer（S3-DiT）。不同于雙流架構各模態獨立處理，S3-DiT 每層都實現緊密跨模態交互，僅用 60 億參數就達成頂尖效果，顯著降低訓練與部署硬件門檻。緊湊體積還得益于 Prompt Enhancer（PE）補強世界知識與提示理解，進一步緩解參數量限制。早期融合 Transformer 把文本、圖像 VAE、語義標記統一視為令牌，一套框架無縫完成文生圖、圖生圖等多元任務。
高效訓練策略：三階段漸進課程。(1) 低分辨率預訓練：固定 2562，讓模型快速獲得視覺-語義對齊與合成基礎。(2) Omni-pre-training：統一多任務，一次性學會任意分辨率生成、文生圖、圖生圖，把高昂預算攤到多項能力，省去重復燒卡。(3) PE-aware 監督微調： jointly 優化，用 PE 增強字幕微調主模型，Prompt Enhancer 與擴散主干零額外 LLM 訓練成本即可深度協同，開發效率最大化。
高效推理：Z-Image-Turbo 僅用 8 步 NFE 即可輸出高美感、高保真圖像。關鍵來自兩項創新：Decoupled DMD [46] 把蒸餾中的“提質量”與“穩訓練”角色顯式解耦；DMDR [32] 用分布匹配項作內稟正則的強化學習。二者協同，實現速度-質量零妥協的高效生成。

2 數據基礎設施
盡管頂尖文生圖模型的卓越能力依賴大規模訓練數據，但在算力受限條件下，性能最優化的關鍵在于“數據效率”而非“數據規模”。單純堆量往往收益遞減；高效的訓練管線需要一套能“每單位計算獲取最多信息”的數據基礎設施。理想的數據系統必須：概念覆蓋廣且無冗余、多語言圖文對齊穩健，并支持動態課程學習——讓數據配比隨訓練階段演進。為此，我們設計并落地了一套一體化的“高效數據基礎設施”。它遠非靜態倉庫，而是一臺動態引擎，專為“固定訓練預算內最大化知識獲取速率”而架構。作為整套管線的基石，該基礎設施由四大協同核心模塊組成：

數據畫像引擎：該模塊為數據策略提供量化底座。它從原始數據中提取并計算豐富的多維特征，涵蓋低級物理屬性（如圖像元數據、清晰度指標）到高級語義屬性（如異常檢測、文本描述）。這些畫像不僅用于基礎過濾，更是衡量數據復雜度與質量的核心信號，支撐動態學習階段課程的程序化構建。
跨模態向量引擎：基于數十億級嵌入，該模塊保障效率與多樣性。通過大規模語義去重實現“零冗余”數據集目標；其跨模態檢索能力還能診斷并修復模型失效——精準定位并剔除致錯數據，同時針對性采樣填補概念空白。
世界知識拓撲圖：這張結構化知識圖譜構成整個設施的語義脊梁。它按層級組織知識，確保概念廣度；更重要的是，它充當數據策劃的“語義羅盤”。通過圖遍歷發現未被充分表征的實體，及時填補概念空洞，并在訓練過程中精確重平衡各概念的數據分布，實現更高效、更全面的學習。
主動策劃引擎：該模塊讓基礎設施成為真正的動態、自進化系統。它肩負兩大協同職能：其一，作為前沿探索引擎，自動采樣定位模型表現差或知識缺失的“硬案例”；其二，驅動閉環數據標注管線，確保每次迭代既擴展數據集的概念廣度，又持續精煉數據質量，從而最大化整體訓練效率。

四大組件協同，鑄就穩健數據基礎設施，不僅支撐文生圖模型訓練，也為更廣的多模態模型提供通用底座。借助該系統，我們順利完成了字幕模型、獎勵模型及圖像編輯模型（Z-Image-Edit）等關鍵組件的訓練。第 2.5 節將詳述基于該設施為 Z-Image-Edit 專門搭建的數據管線。

2.1 數據畫像引擎
Data Profiling Engine 專為系統性處理海量、未整理的版權數據池而設計。它為每一對圖文樣本計算一套全面的多維特征，支撐有原則的數據策劃。鑒于不同數據源自帶獨特偏差，引擎支持源相關的啟發式規則與采樣策略，確保訓練語料均衡且高質。畫像流程圍繞以下關鍵維度展開：

圖像元數據
首先緩存每張圖像的基本屬性：分辨率（寬高）、文件大小等，便于按分辨率/長寬比快速過濾；同時計算感知哈希（pHash）作為緊湊視覺指紋，實現毫秒級去重，剔除相同或近似圖像。這些預計算屬性構成數據篩選的第一道關卡。

技術質量評估
圖像技術質量直接決定模型上限。引擎采用多管齊下策略量化并剔除低質樣本：

壓縮偽影：通過“理想未壓縮大小/實際大小”比例揪出過度壓縮圖。
視覺退化：內訓質量模型給圖像打分，涵蓋色偏、模糊、可見水印、噪點等。
信息熵：用邊界像素方差與瞬態 JPEG 重編碼的 BPP 雙指標，濾除大色塊、低復雜度圖，確保訓練所見皆“干貨”。

語義與美學內容
除技術質量外，還刻畫高階語義與美學：

美學評分：用專業標注員訓練的模型量化視覺吸引力。
AIGC 檢測：依 Imagen 3 經驗，自訓分類器剔除 AI 生成圖，防止輸出質量與物理真實度下滑。
高層語義標簽：專用 VLM 生成豐富標簽，涵蓋通用物體、人物屬性（人數等）及中華文化相關概念；同一模型輸出 NSFW 分數，一鍵過濾無關或不適內容。

2.2 跨模態向量引擎
我們在 Stable Diffusion 3 [18] 的去重方法基礎上進一步升級，將其重構為可擴展的“基于圖的社區檢測”任務。針對原 range_search 函數的嚴重擴展瓶頸，改用高效 k-近鄰（k-NN）搜索；先由 k-NN 距離構建鄰近圖，再運行社區檢測算法 [69]。只要 k 足夠大，輸出即可高度逼近原算法，而時間復雜度大幅下降。整套 GPU 加速 [61] 管線在 8 張 H800 上處理 10 億樣本約需 8 小時（含索引構建與 100-NN 查詢），既能發現密集簇完成去重，也可通過模塊度層級提取語義結構，實現細粒度數據平衡。

此外，我們搭建了高效檢索管線，融合多模態特征 [87] 與最先進索引算法 [55]。其跨模態搜索能力貫穿數據策劃與主動修復：既能識別分布空洞、定向采樣填補概念缺口，實現預訓練分布的靶向增強；也能通過失敗案例（問題圖像或文本）反查庫內對應簇，精準剪除致錯數據。迭代式“補洞+剪錯”確保數據集穩健，并為下游復雜任務持續輸送高質量候選。

2.3 世界知識拓撲圖
圖譜構建分三階段：

基于全部 Wikipedia 實體與超鏈接，先搭建全面但冗余的知識圖；
雙路剪枝：先用 PageRank [57] 剔除中心性極低的孤立節點，再用 VLM 篩掉無法連貫可視化的抽象或歧義概念；
為彌補概念覆蓋不足，引入內部大規模帶描述圖像數據集，抽取標簽與文本 embedding，借鑒 [72] 做自動層次聚類，并由 VLM 為父節點生成摘要，補全新節點并整理成分層樹，顯著提升圖譜結構完整性。

最后，進行權重分配與動態擴展：人工提升用戶 prompt 高頻概念權重，并主動并入尚未入庫的新潮熱詞，保持圖譜時效性。

使用時，圖譜支撐語義級均衡采樣：將訓練 caption 中的標簽映射到圖節點，綜合 BM25 [63] 得分及層級父子關系，計算每一樣本的語義采樣權重，指導數據引擎分階段、有原則地抽數，實現對訓練分布的細粒度控制。

2.4 主動策劃引擎
為系統提升數據質量并解決長尾分布難題，我們部署了完整的主動策劃引擎（圖 5）。該框架集成過濾工具與 Z-Image 作為診斷式生成先驗。流程先對未整理數據做跨模態嵌入與去重，再經規則過濾剔除低質樣本。

為支持 Z-Image 的持續進化，我們建立“人在回路”主動學習循環（圖 6）：獎勵模型與字幕模型同步迭代優化。具體地，先用拓撲圖（第 2.3 節）與初始獎勵模型，從無標注媒體池中策劃均衡子集；當前字幕模型與獎勵模型為其打上偽標簽；隨后人機混合驗證——AI 與人工雙重把關——拒絕樣本由專家手動修正字幕或分數。這些高質量標注數據再用于重訓字幕與獎勵模型，形成數據基礎設施自我增強的良性循環。

2.5 基于圖表示的高效編輯對構建
收集“指哪打哪”的編輯樣本極難：既要保持一致性，又要覆蓋千姿百態的編輯操作。借助圖 7 所示的可擴展、可控策略，我們從多源數據快速拼出大規模訓練語料。

專家模型混合編輯
先整理一份全覆蓋的編輯任務分類表，再調用各任務專用專家模型批量合成高質量數據。為提效，我們把多種編輯動作塞進同一張“復合編輯對”，讓模型一次學會多項技能，省掉多套樣本。
高效圖表示
對同一張原圖，我們按不同任務合成 N 張編輯圖，隨后任意兩兩配對，零成本擴增 C(2N+1,2) 對樣本。此舉既爆炸式擴量，又自動產出“混合編輯”與“逆向編輯”對，進一步提升訓練效率與數據質量。
視頻抽幀配對
預設任務易撞天花板。我們直接在大規模視頻幀里“撈”天然成組圖像：同主體、同場景、同風格，自帶復雜編輯關系。用 CN-CLIP [87] 算embedding余弦相似度，只留高語義相關幀對。由此得到的視頻幀編輯對兼具：1) 任務多樣，2) 多編輯類型天然耦合（如人物姿態+背景同時變），3) 規模易擴展。
文本渲染編輯
真實圖像文本稀、分布偏，且需精確標注操作。我們自建可控文本渲染系統 [77]，可任意指定文字內容、字體、顏色、大小、位置，一鍵生成成對圖像，編輯指令即渲染參數，直接破解數據瓶頸。

原文鏈接：https://arxiv.org/pdf/2511.22699v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.