Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
Z-Image:單流擴散Transformer高效圖像生成模型
https://arxiv.org/pdf/2511.22699v1
![]()
![]()
摘要
高性能圖像生成模型的版圖目前被專有系統(如 Nano Banana Pro [27]、Seedream 4.0 [65])壟斷。主流開源替代方案,包括 Qwen-Image [77]、Hunyuan-Image-3.0 [8] 和 FLUX.2 [36],參數量高達 200–800 億,推理與消費級硬件微調均不現實。為此,我們提出 Z-Image:一款僅 60 億參數的高效基礎生成模型,采用可擴展單流擴散 Transformer(S3-DiT)架構,向“唯規模論”發起挑戰。通過對完整模型生命周期的系統優化——從精選數據基建到精簡訓練課程——全程訓練僅耗 31.4 萬 H800 卡時(約 63 萬美元)。幾步蒸餾加獎勵后訓練進一步得到 Z-Image-Turbo:在單張企業級 H800 上實現亞秒級推理,并兼容 <16 GB 顯存的消費級顯卡。此外,我們的全任務預訓練范式還高效孵化了 Z-Image-Edit,一款指令跟隨能力突出的編輯模型。定量與定性實驗均表明,Z-Image 在多項指標上持平或超越頂尖對手,尤其在照片級真實圖像生成與雙語文字渲染上媲美頂級商業模型,證明“少算力也能 SOTA”。代碼、權重與在線演示全部開源,推動人人可及、預算友好且最先進的生成模型發展。
1 引言
近年來,文本到圖像(T2I)生成領域突飛猛進,從簡陋紋理躍升至兼具照片級真實感與復雜語義對齊的影像 [58,18,35,77,65,8,4]。然而,隨著模型能力膨脹,其開發與可及性壁壘也日益高企。當下生態呈現兩極:一側是頂尖商業閉源模型——如 Nano Banana Pro [27]、Seedream 4.0 [65]——雖性能傲人,卻黑箱封閉,透明性與可復現性俱缺;另一側是開源陣營,雖高舉民主化大旗,卻動輒堆棧至數百億(例:Qwen-Image [77] 200 億、FLUX.2 [36] 320 億、Hunyuan-Image-3.0 [8] 800 億),令訓練與推理成本令人望而卻步。于是,從專有模型蒸餾合成數據成了資源受限學術圈的“捷徑”[13,20],但這招易陷閉環:誤差累積、數據同質化,抑制超越教師模型的新視覺能力。
本文推出 Z-Image,一款強力擴散 Transformer,同時向“唯規模論”與“合成蒸餾依賴”開戰。我們證明:頂級圖像生成模型無需堆參,也無需蒸餾。相反,我們首次給出端到端全棧方案——從數據精選、架構設計、訓練策略到推理加速——全程優化,僅用最樸素的實拍數據,不借他人蒸餾。方法論的高效令整體算力開銷極低:如表 1 所示,Z-Image 完整訓練僅需 31.4 萬 H800 卡時,按現價約 62.8 萬美元(約 2 美元/卡時 [38])。在頭部模型動輒數倍乃至數十倍資源的當下,這一“小投入”證明:精巧設計足以抗衡暴力擴標。
![]()
這一成本效率的突破,建立在四大支柱的系統方法論之上:
高效數據基建:資源受限場景下,數據基建是決定“單位時間知識獲取率”的關鍵,它既加速訓練,也劃定能力上限。我們提出四模塊協同的數據體系:多維特征提取的 Data Profiling Engine、語義去重與精準檢索的 Cross-modal Vector Engine、結構化概念組織的 World Knowledge Topological Graph,以及閉環精修的 Active Curation Engine。通過細粒度數據畫像與訓練分布編排,讓“對的數據”在“對的階段”出現,最大化實拍數據利用率,杜絕冗余或低質樣本帶來的算力浪費。
高效架構:受大語言模型解碼器擴展性啟發,我們設計 Scalable Single-Stream Multi-Modal Diffusion Transformer(S3-DiT)。不同于雙流架構各模態獨立處理,S3-DiT 每層都實現緊密跨模態交互,僅用 60 億參數就達成頂尖效果,顯著降低訓練與部署硬件門檻。緊湊體積還得益于 Prompt Enhancer(PE)補強世界知識與提示理解,進一步緩解參數量限制。早期融合 Transformer 把文本、圖像 VAE、語義標記統一視為令牌,一套框架無縫完成文生圖、圖生圖等多元任務。
高效訓練策略:三階段漸進課程。(1) 低分辨率預訓練:固定 2562,讓模型快速獲得視覺-語義對齊與合成基礎。(2) Omni-pre-training:統一多任務,一次性學會任意分辨率生成、文生圖、圖生圖,把高昂預算攤到多項能力,省去重復燒卡。(3) PE-aware 監督微調: jointly 優化,用 PE 增強字幕微調主模型,Prompt Enhancer 與擴散主干零額外 LLM 訓練成本即可深度協同,開發效率最大化。
高效推理:Z-Image-Turbo 僅用 8 步 NFE 即可輸出高美感、高保真圖像。關鍵來自兩項創新:Decoupled DMD [46] 把蒸餾中的“提質量”與“穩訓練”角色顯式解耦;DMDR [32] 用分布匹配項作內稟正則的強化學習。二者協同,實現速度-質量零妥協的高效生成。
![]()
![]()
![]()
![]()
2 數據基礎設施
盡管頂尖文生圖模型的卓越能力依賴大規模訓練數據,但在算力受限條件下,性能最優化的關鍵在于“數據效率”而非“數據規模”。單純堆量往往收益遞減;高效的訓練管線需要一套能“每單位計算獲取最多信息”的數據基礎設施。理想的數據系統必須:概念覆蓋廣且無冗余、多語言圖文對齊穩健,并支持動態課程學習——讓數據配比隨訓練階段演進。為此,我們設計并落地了一套一體化的“高效數據基礎設施”。它遠非靜態倉庫,而是一臺動態引擎,專為“固定訓練預算內最大化知識獲取速率”而架構。作為整套管線的基石,該基礎設施由四大協同核心模塊組成:
數據畫像引擎:該模塊為數據策略提供量化底座。它從原始數據中提取并計算豐富的多維特征,涵蓋低級物理屬性(如圖像元數據、清晰度指標)到高級語義屬性(如異常檢測、文本描述)。這些畫像不僅用于基礎過濾,更是衡量數據復雜度與質量的核心信號,支撐動態學習階段課程的程序化構建。
跨模態向量引擎:基于數十億級嵌入,該模塊保障效率與多樣性。通過大規模語義去重實現“零冗余”數據集目標;其跨模態檢索能力還能診斷并修復模型失效——精準定位并剔除致錯數據,同時針對性采樣填補概念空白。
世界知識拓撲圖:這張結構化知識圖譜構成整個設施的語義脊梁。它按層級組織知識,確保概念廣度;更重要的是,它充當數據策劃的“語義羅盤”。通過圖遍歷發現未被充分表征的實體,及時填補概念空洞,并在訓練過程中精確重平衡各概念的數據分布,實現更高效、更全面的學習。
主動策劃引擎:該模塊讓基礎設施成為真正的動態、自進化系統。它肩負兩大協同職能:其一,作為前沿探索引擎,自動采樣定位模型表現差或知識缺失的“硬案例”;其二,驅動閉環數據標注管線,確保每次迭代既擴展數據集的概念廣度,又持續精煉數據質量,從而最大化整體訓練效率。
四大組件協同,鑄就穩健數據基礎設施,不僅支撐文生圖模型訓練,也為更廣的多模態模型提供通用底座。借助該系統,我們順利完成了字幕模型、獎勵模型及圖像編輯模型(Z-Image-Edit)等關鍵組件的訓練。第 2.5 節將詳述基于該設施為 Z-Image-Edit 專門搭建的數據管線。
2.1 數據畫像引擎
Data Profiling Engine 專為系統性處理海量、未整理的版權數據池而設計。它為每一對圖文樣本計算一套全面的多維特征,支撐有原則的數據策劃。鑒于不同數據源自帶獨特偏差,引擎支持源相關的啟發式規則與采樣策略,確保訓練語料均衡且高質。畫像流程圍繞以下關鍵維度展開:
圖像元數據
首先緩存每張圖像的基本屬性:分辨率(寬高)、文件大小等,便于按分辨率/長寬比快速過濾;同時計算感知哈希(pHash)作為緊湊視覺指紋,實現毫秒級去重,剔除相同或近似圖像。這些預計算屬性構成數據篩選的第一道關卡。
技術質量評估
圖像技術質量直接決定模型上限。引擎采用多管齊下策略量化并剔除低質樣本:
壓縮偽影:通過“理想未壓縮大小/實際大小”比例揪出過度壓縮圖。
視覺退化:內訓質量模型給圖像打分,涵蓋色偏、模糊、可見水印、噪點等。
信息熵:用邊界像素方差與瞬態 JPEG 重編碼的 BPP 雙指標,濾除大色塊、低復雜度圖,確保訓練所見皆“干貨”。
語義與美學內容
除技術質量外,還刻畫高階語義與美學:
美學評分:用專業標注員訓練的模型量化視覺吸引力。
AIGC 檢測:依 Imagen 3 經驗,自訓分類器剔除 AI 生成圖,防止輸出質量與物理真實度下滑。
高層語義標簽:專用 VLM 生成豐富標簽,涵蓋通用物體、人物屬性(人數等)及中華文化相關概念;同一模型輸出 NSFW 分數,一鍵過濾無關或不適內容。
2.2 跨模態向量引擎
我們在 Stable Diffusion 3 [18] 的去重方法基礎上進一步升級,將其重構為可擴展的“基于圖的社區檢測”任務。針對原 range_search 函數的嚴重擴展瓶頸,改用高效 k-近鄰(k-NN)搜索;先由 k-NN 距離構建鄰近圖,再運行社區檢測算法 [69]。只要 k 足夠大,輸出即可高度逼近原算法,而時間復雜度大幅下降。整套 GPU 加速 [61] 管線在 8 張 H800 上處理 10 億樣本約需 8 小時(含索引構建與 100-NN 查詢),既能發現密集簇完成去重,也可通過模塊度層級提取語義結構,實現細粒度數據平衡。
此外,我們搭建了高效檢索管線,融合多模態特征 [87] 與最先進索引算法 [55]。其跨模態搜索能力貫穿數據策劃與主動修復:既能識別分布空洞、定向采樣填補概念缺口,實現預訓練分布的靶向增強;也能通過失敗案例(問題圖像或文本)反查庫內對應簇,精準剪除致錯數據。迭代式“補洞+剪錯”確保數據集穩健,并為下游復雜任務持續輸送高質量候選。
2.3 世界知識拓撲圖
圖譜構建分三階段:
基于全部 Wikipedia 實體與超鏈接,先搭建全面但冗余的知識圖;
雙路剪枝:先用 PageRank [57] 剔除中心性極低的孤立節點,再用 VLM 篩掉無法連貫可視化的抽象或歧義概念;
為彌補概念覆蓋不足,引入內部大規模帶描述圖像數據集,抽取標簽與文本 embedding,借鑒 [72] 做自動層次聚類,并由 VLM 為父節點生成摘要,補全新節點并整理成分層樹,顯著提升圖譜結構完整性。
最后,進行權重分配與動態擴展:人工提升用戶 prompt 高頻概念權重,并主動并入尚未入庫的新潮熱詞,保持圖譜時效性。
使用時,圖譜支撐語義級均衡采樣:將訓練 caption 中的標簽映射到圖節點,綜合 BM25 [63] 得分及層級父子關系,計算每一樣本的語義采樣權重,指導數據引擎分階段、有原則地抽數,實現對訓練分布的細粒度控制。
2.4 主動策劃引擎
為系統提升數據質量并解決長尾分布難題,我們部署了完整的主動策劃引擎(圖 5)。該框架集成過濾工具與 Z-Image 作為診斷式生成先驗。流程先對未整理數據做跨模態嵌入與去重,再經規則過濾剔除低質樣本。
![]()
為支持 Z-Image 的持續進化,我們建立“人在回路”主動學習循環(圖 6):獎勵模型與字幕模型同步迭代優化。具體地,先用拓撲圖(第 2.3 節)與初始獎勵模型,從無標注媒體池中策劃均衡子集;當前字幕模型與獎勵模型為其打上偽標簽;隨后人機混合驗證——AI 與人工雙重把關——拒絕樣本由專家手動修正字幕或分數。這些高質量標注數據再用于重訓字幕與獎勵模型,形成數據基礎設施自我增強的良性循環。
![]()
2.5 基于圖表示的高效編輯對構建
收集“指哪打哪”的編輯樣本極難:既要保持一致性,又要覆蓋千姿百態的編輯操作。借助圖 7 所示的可擴展、可控策略,我們從多源數據快速拼出大規模訓練語料。
![]()
專家模型混合編輯
先整理一份全覆蓋的編輯任務分類表,再調用各任務專用專家模型批量合成高質量數據。為提效,我們把多種編輯動作塞進同一張“復合編輯對”,讓模型一次學會多項技能,省掉多套樣本。高效圖表示
對同一張原圖,我們按不同任務合成 N 張編輯圖,隨后任意兩兩配對,零成本擴增 C(2N+1,2) 對樣本。此舉既爆炸式擴量,又自動產出“混合編輯”與“逆向編輯”對,進一步提升訓練效率與數據質量。視頻抽幀配對
預設任務易撞天花板。我們直接在大規模視頻幀里“撈”天然成組圖像:同主體、同場景、同風格,自帶復雜編輯關系。用 CN-CLIP [87] 算embedding余弦相似度,只留高語義相關幀對。由此得到的視頻幀編輯對兼具:1) 任務多樣,2) 多編輯類型天然耦合(如人物姿態+背景同時變),3) 規模易擴展。文本渲染編輯
真實圖像文本稀、分布偏,且需精確標注操作。我們自建可控文本渲染系統 [77],可任意指定文字內容、字體、顏色、大小、位置,一鍵生成成對圖像,編輯指令即渲染參數,直接破解數據瓶頸。
原文鏈接:https://arxiv.org/pdf/2511.22699v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.