337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

單流擴散Transformer高效圖像生成模型

0
分享至

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

Z-Image:單流擴散Transformer高效圖像生成模型

https://arxiv.org/pdf/2511.22699v1



摘要

高性能圖像生成模型的版圖目前被專有系統(如 Nano Banana Pro [27]、Seedream 4.0 [65])壟斷。主流開源替代方案,包括 Qwen-Image [77]、Hunyuan-Image-3.0 [8] 和 FLUX.2 [36],參數量高達 200–800 億,推理與消費級硬件微調均不現實。為此,我們提出 Z-Image:一款僅 60 億參數的高效基礎生成模型,采用可擴展單流擴散 Transformer(S3-DiT)架構,向“唯規模論”發起挑戰。通過對完整模型生命周期的系統優化——從精選數據基建到精簡訓練課程——全程訓練僅耗 31.4 萬 H800 卡時(約 63 萬美元)。幾步蒸餾加獎勵后訓練進一步得到 Z-Image-Turbo:在單張企業級 H800 上實現亞秒級推理,并兼容 <16 GB 顯存的消費級顯卡。此外,我們的全任務預訓練范式還高效孵化了 Z-Image-Edit,一款指令跟隨能力突出的編輯模型。定量與定性實驗均表明,Z-Image 在多項指標上持平或超越頂尖對手,尤其在照片級真實圖像生成與雙語文字渲染上媲美頂級商業模型,證明“少算力也能 SOTA”。代碼、權重與在線演示全部開源,推動人人可及、預算友好且最先進的生成模型發展。

1 引言
近年來,文本到圖像(T2I)生成領域突飛猛進,從簡陋紋理躍升至兼具照片級真實感與復雜語義對齊的影像 [58,18,35,77,65,8,4]。然而,隨著模型能力膨脹,其開發與可及性壁壘也日益高企。當下生態呈現兩極:一側是頂尖商業閉源模型——如 Nano Banana Pro [27]、Seedream 4.0 [65]——雖性能傲人,卻黑箱封閉,透明性與可復現性俱缺;另一側是開源陣營,雖高舉民主化大旗,卻動輒堆棧至數百億(例:Qwen-Image [77] 200 億、FLUX.2 [36] 320 億、Hunyuan-Image-3.0 [8] 800 億),令訓練與推理成本令人望而卻步。于是,從專有模型蒸餾合成數據成了資源受限學術圈的“捷徑”[13,20],但這招易陷閉環:誤差累積、數據同質化,抑制超越教師模型的新視覺能力。

本文推出 Z-Image,一款強力擴散 Transformer,同時向“唯規模論”與“合成蒸餾依賴”開戰。我們證明:頂級圖像生成模型無需堆參,也無需蒸餾。相反,我們首次給出端到端全棧方案——從數據精選、架構設計、訓練策略到推理加速——全程優化,僅用最樸素的實拍數據,不借他人蒸餾。方法論的高效令整體算力開銷極低:如表 1 所示,Z-Image 完整訓練僅需 31.4 萬 H800 卡時,按現價約 62.8 萬美元(約 2 美元/卡時 [38])。在頭部模型動輒數倍乃至數十倍資源的當下,這一“小投入”證明:精巧設計足以抗衡暴力擴標。


這一成本效率的突破,建立在四大支柱的系統方法論之上:

  • 高效數據基建:資源受限場景下,數據基建是決定“單位時間知識獲取率”的關鍵,它既加速訓練,也劃定能力上限。我們提出四模塊協同的數據體系:多維特征提取的 Data Profiling Engine、語義去重與精準檢索的 Cross-modal Vector Engine、結構化概念組織的 World Knowledge Topological Graph,以及閉環精修的 Active Curation Engine。通過細粒度數據畫像與訓練分布編排,讓“對的數據”在“對的階段”出現,最大化實拍數據利用率,杜絕冗余或低質樣本帶來的算力浪費。

  • 高效架構:受大語言模型解碼器擴展性啟發,我們設計 Scalable Single-Stream Multi-Modal Diffusion Transformer(S3-DiT)。不同于雙流架構各模態獨立處理,S3-DiT 每層都實現緊密跨模態交互,僅用 60 億參數就達成頂尖效果,顯著降低訓練與部署硬件門檻。緊湊體積還得益于 Prompt Enhancer(PE)補強世界知識與提示理解,進一步緩解參數量限制。早期融合 Transformer 把文本、圖像 VAE、語義標記統一視為令牌,一套框架無縫完成文生圖、圖生圖等多元任務。

  • 高效訓練策略:三階段漸進課程。(1) 低分辨率預訓練:固定 2562,讓模型快速獲得視覺-語義對齊與合成基礎。(2) Omni-pre-training:統一多任務,一次性學會任意分辨率生成、文生圖、圖生圖,把高昂預算攤到多項能力,省去重復燒卡。(3) PE-aware 監督微調: jointly 優化,用 PE 增強字幕微調主模型,Prompt Enhancer 與擴散主干零額外 LLM 訓練成本即可深度協同,開發效率最大化。

  • 高效推理:Z-Image-Turbo 僅用 8 步 NFE 即可輸出高美感、高保真圖像。關鍵來自兩項創新:Decoupled DMD [46] 把蒸餾中的“提質量”與“穩訓練”角色顯式解耦;DMDR [32] 用分布匹配項作內稟正則的強化學習。二者協同,實現速度-質量零妥協的高效生成。





2 數據基礎設施
盡管頂尖文生圖模型的卓越能力依賴大規模訓練數據,但在算力受限條件下,性能最優化的關鍵在于“數據效率”而非“數據規模”。單純堆量往往收益遞減;高效的訓練管線需要一套能“每單位計算獲取最多信息”的數據基礎設施。理想的數據系統必須:概念覆蓋廣且無冗余、多語言圖文對齊穩健,并支持動態課程學習——讓數據配比隨訓練階段演進。為此,我們設計并落地了一套一體化的“高效數據基礎設施”。它遠非靜態倉庫,而是一臺動態引擎,專為“固定訓練預算內最大化知識獲取速率”而架構。作為整套管線的基石,該基礎設施由四大協同核心模塊組成:

  1. 數據畫像引擎:該模塊為數據策略提供量化底座。它從原始數據中提取并計算豐富的多維特征,涵蓋低級物理屬性(如圖像元數據、清晰度指標)到高級語義屬性(如異常檢測、文本描述)。這些畫像不僅用于基礎過濾,更是衡量數據復雜度與質量的核心信號,支撐動態學習階段課程的程序化構建。

  2. 跨模態向量引擎:基于數十億級嵌入,該模塊保障效率與多樣性。通過大規模語義去重實現“零冗余”數據集目標;其跨模態檢索能力還能診斷并修復模型失效——精準定位并剔除致錯數據,同時針對性采樣填補概念空白。

  3. 世界知識拓撲圖:這張結構化知識圖譜構成整個設施的語義脊梁。它按層級組織知識,確保概念廣度;更重要的是,它充當數據策劃的“語義羅盤”。通過圖遍歷發現未被充分表征的實體,及時填補概念空洞,并在訓練過程中精確重平衡各概念的數據分布,實現更高效、更全面的學習。

  4. 主動策劃引擎:該模塊讓基礎設施成為真正的動態、自進化系統。它肩負兩大協同職能:其一,作為前沿探索引擎,自動采樣定位模型表現差或知識缺失的“硬案例”;其二,驅動閉環數據標注管線,確保每次迭代既擴展數據集的概念廣度,又持續精煉數據質量,從而最大化整體訓練效率。

四大組件協同,鑄就穩健數據基礎設施,不僅支撐文生圖模型訓練,也為更廣的多模態模型提供通用底座。借助該系統,我們順利完成了字幕模型、獎勵模型及圖像編輯模型(Z-Image-Edit)等關鍵組件的訓練。第 2.5 節將詳述基于該設施為 Z-Image-Edit 專門搭建的數據管線。

2.1 數據畫像引擎
Data Profiling Engine 專為系統性處理海量、未整理的版權數據池而設計。它為每一對圖文樣本計算一套全面的多維特征,支撐有原則的數據策劃。鑒于不同數據源自帶獨特偏差,引擎支持源相關的啟發式規則與采樣策略,確保訓練語料均衡且高質。畫像流程圍繞以下關鍵維度展開:

圖像元數據
首先緩存每張圖像的基本屬性:分辨率(寬高)、文件大小等,便于按分辨率/長寬比快速過濾;同時計算感知哈希(pHash)作為緊湊視覺指紋,實現毫秒級去重,剔除相同或近似圖像。這些預計算屬性構成數據篩選的第一道關卡。

技術質量評估
圖像技術質量直接決定模型上限。引擎采用多管齊下策略量化并剔除低質樣本:

  • 壓縮偽影:通過“理想未壓縮大小/實際大小”比例揪出過度壓縮圖。

  • 視覺退化:內訓質量模型給圖像打分,涵蓋色偏、模糊、可見水印、噪點等。

  • 信息熵:用邊界像素方差與瞬態 JPEG 重編碼的 BPP 雙指標,濾除大色塊、低復雜度圖,確保訓練所見皆“干貨”。

語義與美學內容
除技術質量外,還刻畫高階語義與美學:

  • 美學評分:用專業標注員訓練的模型量化視覺吸引力。

  • AIGC 檢測:依 Imagen 3 經驗,自訓分類器剔除 AI 生成圖,防止輸出質量與物理真實度下滑。

  • 高層語義標簽:專用 VLM 生成豐富標簽,涵蓋通用物體、人物屬性(人數等)及中華文化相關概念;同一模型輸出 NSFW 分數,一鍵過濾無關或不適內容。

2.2 跨模態向量引擎
我們在 Stable Diffusion 3 [18] 的去重方法基礎上進一步升級,將其重構為可擴展的“基于圖的社區檢測”任務。針對原 range_search 函數的嚴重擴展瓶頸,改用高效 k-近鄰(k-NN)搜索;先由 k-NN 距離構建鄰近圖,再運行社區檢測算法 [69]。只要 k 足夠大,輸出即可高度逼近原算法,而時間復雜度大幅下降。整套 GPU 加速 [61] 管線在 8 張 H800 上處理 10 億樣本約需 8 小時(含索引構建與 100-NN 查詢),既能發現密集簇完成去重,也可通過模塊度層級提取語義結構,實現細粒度數據平衡。

此外,我們搭建了高效檢索管線,融合多模態特征 [87] 與最先進索引算法 [55]。其跨模態搜索能力貫穿數據策劃與主動修復:既能識別分布空洞、定向采樣填補概念缺口,實現預訓練分布的靶向增強;也能通過失敗案例(問題圖像或文本)反查庫內對應簇,精準剪除致錯數據。迭代式“補洞+剪錯”確保數據集穩健,并為下游復雜任務持續輸送高質量候選。

2.3 世界知識拓撲圖
圖譜構建分三階段:

  1. 基于全部 Wikipedia 實體與超鏈接,先搭建全面但冗余的知識圖;

  2. 雙路剪枝:先用 PageRank [57] 剔除中心性極低的孤立節點,再用 VLM 篩掉無法連貫可視化的抽象或歧義概念;

  3. 為彌補概念覆蓋不足,引入內部大規模帶描述圖像數據集,抽取標簽與文本 embedding,借鑒 [72] 做自動層次聚類,并由 VLM 為父節點生成摘要,補全新節點并整理成分層樹,顯著提升圖譜結構完整性。

最后,進行權重分配與動態擴展:人工提升用戶 prompt 高頻概念權重,并主動并入尚未入庫的新潮熱詞,保持圖譜時效性。

使用時,圖譜支撐語義級均衡采樣:將訓練 caption 中的標簽映射到圖節點,綜合 BM25 [63] 得分及層級父子關系,計算每一樣本的語義采樣權重,指導數據引擎分階段、有原則地抽數,實現對訓練分布的細粒度控制。

2.4 主動策劃引擎
為系統提升數據質量并解決長尾分布難題,我們部署了完整的主動策劃引擎(圖 5)。該框架集成過濾工具與 Z-Image 作為診斷式生成先驗。流程先對未整理數據做跨模態嵌入與去重,再經規則過濾剔除低質樣本。


為支持 Z-Image 的持續進化,我們建立“人在回路”主動學習循環(圖 6):獎勵模型與字幕模型同步迭代優化。具體地,先用拓撲圖(第 2.3 節)與初始獎勵模型,從無標注媒體池中策劃均衡子集;當前字幕模型與獎勵模型為其打上偽標簽;隨后人機混合驗證——AI 與人工雙重把關——拒絕樣本由專家手動修正字幕或分數。這些高質量標注數據再用于重訓字幕與獎勵模型,形成數據基礎設施自我增強的良性循環。


2.5 基于圖表示的高效編輯對構建
收集“指哪打哪”的編輯樣本極難:既要保持一致性,又要覆蓋千姿百態的編輯操作。借助圖 7 所示的可擴展、可控策略,我們從多源數據快速拼出大規模訓練語料。


  • 專家模型混合編輯
    先整理一份全覆蓋的編輯任務分類表,再調用各任務專用專家模型批量合成高質量數據。為提效,我們把多種編輯動作塞進同一張“復合編輯對”,讓模型一次學會多項技能,省掉多套樣本。

  • 高效圖表示
    對同一張原圖,我們按不同任務合成 N 張編輯圖,隨后任意兩兩配對,零成本擴增 C(2N+1,2) 對樣本。此舉既爆炸式擴量,又自動產出“混合編輯”與“逆向編輯”對,進一步提升訓練效率與數據質量。

  • 視頻抽幀配對
    預設任務易撞天花板。我們直接在大規模視頻幀里“撈”天然成組圖像:同主體、同場景、同風格,自帶復雜編輯關系。用 CN-CLIP [87] 算embedding余弦相似度,只留高語義相關幀對。由此得到的視頻幀編輯對兼具:1) 任務多樣,2) 多編輯類型天然耦合(如人物姿態+背景同時變),3) 規模易擴展。

  • 文本渲染編輯
    真實圖像文本稀、分布偏,且需精確標注操作。我們自建可控文本渲染系統 [77],可任意指定文字內容、字體、顏色、大小、位置,一鍵生成成對圖像,編輯指令即渲染參數,直接破解數據瓶頸。

原文鏈接:https://arxiv.org/pdf/2511.22699v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
繼母燙幼子下體逼吃大便 姐弟慘遭虐待生母怒討說法

繼母燙幼子下體逼吃大便 姐弟慘遭虐待生母怒討說法

大象新聞
2026-03-25 12:09:04
遼寧高速127個收費站關閉

遼寧高速127個收費站關閉

娛樂圈見解說
2026-03-26 10:28:08
猝死三件套:熬夜、咖啡、跑步——人生最后一課

猝死三件套:熬夜、咖啡、跑步——人生最后一課

水滴的聲音
2026-03-25 08:36:43
人民日報痛批大學生 “沉睡” 現象:躺平四年,畢業真的會失業!

人民日報痛批大學生 “沉睡” 現象:躺平四年,畢業真的會失業!

復轉這些年
2026-03-25 10:02:32
5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

叮當當科技
2026-03-20 03:29:51
張雪峰被曝心臟驟停搶救,前一天還在大魚大肉,一人吃6個菜

張雪峰被曝心臟驟停搶救,前一天還在大魚大肉,一人吃6個菜

映射生活的身影
2026-03-24 18:27:44
上海滬牌,基本停發了

上海滬牌,基本停發了

侃故事的阿慶
2026-03-24 18:13:29
第21次1000賽四強!薩巴倫卡橫掃晉級,背靠背躋身陽光雙賽半決賽

第21次1000賽四強!薩巴倫卡橫掃晉級,背靠背躋身陽光雙賽半決賽

全景體育V
2026-03-26 08:39:10
2387億一夜歸零!江蘇前首富“凈身出戶”?曾被許家印坑了200億

2387億一夜歸零!江蘇前首富“凈身出戶”?曾被許家印坑了200億

次元君情感
2026-03-26 04:49:41
4月1日起執行!高血壓糖尿病患者注意這3件事現在辦,看病少花錢

4月1日起執行!高血壓糖尿病患者注意這3件事現在辦,看病少花錢

觀星賞月
2026-03-26 09:17:28
美軍司令:一旦臺海戰爭打響,6個航母戰斗群2個陸戰師將全都出動

美軍司令:一旦臺海戰爭打響,6個航母戰斗群2個陸戰師將全都出動

混沌錄
2026-03-24 22:31:03
河南00后游戲主播因手長得像“奶龍”卻打出五殺戰績火了,本人回應:是天生殘疾,一開始很自卑

河南00后游戲主播因手長得像“奶龍”卻打出五殺戰績火了,本人回應:是天生殘疾,一開始很自卑

大象新聞
2026-03-25 19:45:06
特朗普支持率公布

特朗普支持率公布

第一財經資訊
2026-03-25 08:31:57
“感謝中產家庭,讓我偶爾能洗頭,”12歲女孩低認知炫耀,被群嘲

“感謝中產家庭,讓我偶爾能洗頭,”12歲女孩低認知炫耀,被群嘲

妍妍教育日記
2026-03-23 20:06:00
張天愛太豐滿了!穿掛脖裙兜不住好身材,真讓人心動!

張天愛太豐滿了!穿掛脖裙兜不住好身材,真讓人心動!

東方不敗然多多
2026-03-09 06:31:29
姆巴佩:無法想象沒有內馬爾的世界杯,但我也不能去反對安帥

姆巴佩:無法想象沒有內馬爾的世界杯,但我也不能去反對安帥

懂球帝
2026-03-26 07:00:47
公安部172號令落地:70歲駕照不再終身有效,2026年這些事必須辦

公安部172號令落地:70歲駕照不再終身有效,2026年這些事必須辦

小怪吃美食
2026-03-24 17:29:52
獨立百年的蒙古國,正在把中國人40年的努力悄悄毀掉

獨立百年的蒙古國,正在把中國人40年的努力悄悄毀掉

犀利辣椒
2026-03-19 06:40:31
上海為什么能成為中國的F1"痛城"?

上海為什么能成為中國的F1"痛城"?

新浪財經
2026-03-25 14:12:26
江蘇一女子嫌婆婆寄的咸菜臟,轉手送給了領導,誰料,半個月后推開領導辦公室大門,眼前一幕讓她愣住!

江蘇一女子嫌婆婆寄的咸菜臟,轉手送給了領導,誰料,半個月后推開領導辦公室大門,眼前一幕讓她愣住!

不二大叔
2026-03-25 21:36:11
2026-03-26 11:36:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1303文章數 18關注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權,700名員工卻下崗

頭條要聞

36歲男子辭百萬年薪工作 在電商賣玩具半年賺了300萬

頭條要聞

36歲男子辭百萬年薪工作 在電商賣玩具半年賺了300萬

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發聲 不設追思會喪事從簡

財經要聞

黃仁勛:芯片公司的時代已經結束了

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

房產
家居
健康
親子
數碼

房產要聞

質價比標桿!三亞首創浮島全景艙亮相,還得是萬科!

家居要聞

傍海而居 靜觀蝴蝶海

轉頭就暈的耳石癥,能開車上班嗎?

親子要聞

你娃三歲前已經當夠大孝子了

數碼要聞

戴爾發布MS526C有線鼠標:集成指紋識別 免密碼登錄Windows

無障礙瀏覽 進入關懷版