阿里圖像生成模型登頂HuggingFace，一句話把馬斯克“變老”

2025-08-20 15:09:29　來源: 直面派

北京舉報

分享至

就在8月19日，阿里發(fā)布了Qwen-Image，這是一個圖像生成基礎(chǔ)模型。這個模型的特點是，通過系統(tǒng)性的數(shù)據(jù)工程、漸進式的學習策略、改進的多任務訓練范式以及可擴展的架構(gòu)優(yōu)化，旨在解決復雜文本渲染和精準圖像編輯的核心難題。

在AI領(lǐng)域，圖像生成技術(shù)作為其重要分支，近年來取得了顯著進展。無論是從文本直接生成圖像（T2I），還是對現(xiàn)有圖像進行編輯（TI2I），其核心都在于機器能否精準地理解并以視覺形式再現(xiàn)人類的意圖。盡管擴散模型等架構(gòu)的出現(xiàn)極大地提升了生成圖像的分辨率與細節(jié)表現(xiàn)力，但該領(lǐng)域仍面臨兩個長期存在的挑戰(zhàn)。

在文本到圖像的生成任務中，模型對于復雜、多維度的文本指令的理解與對齊能力尚有不足。尤其是在處理多行文本渲染、非字母文字（如漢字）渲染、特定位置的文字嵌入，以及將文字與視覺元素無縫融合等精細任務時，現(xiàn)有模型往往難以達到理想效果。

而在圖像編輯任務中，如何確保編輯后的圖像與原始圖像在視覺和語義上保持一致性，是一個雙重難題。這既要求視覺上的一致性，即只修改目標區(qū)域而不影響其他部分的視覺細節(jié)；也要求語義上的連貫性，即在進行結(jié)構(gòu)性調(diào)整（如改變?nèi)宋镒藨B(tài)）時，必須保留主體的身份特征與場景的整體邏輯。

Qwen團隊專門發(fā)布了一份技術(shù)報告，名為《Qwen-Image Technical Report》，以此詳細介紹Qwen-Image的功能。

為實現(xiàn)精準的文本渲染，Qwen-Image構(gòu)建了一個全面的數(shù)據(jù)處理體系。該體系始于大規(guī)模收集數(shù)十億級別的圖文數(shù)據(jù)，并強調(diào)質(zhì)量優(yōu)于數(shù)量。數(shù)據(jù)經(jīng)過一個分為七個階段的精細化過濾管道，從低分辨率的基礎(chǔ)篩選到高分辨率的美學提純，系統(tǒng)性地提升了數(shù)據(jù)質(zhì)量與圖文對齊度。

同時，考慮到真實圖像中漢字等內(nèi)容的長尾分布特性，模型還通過“純粹渲染”、“組合渲染”和“復雜渲染”三種策略大量合成高質(zhì)量的文本圖像數(shù)據(jù)，彌補了自然數(shù)據(jù)的不足。在此基礎(chǔ)上，模型采用由簡到繁的“課程學習”策略進行訓練，顯著增強了其渲染復雜中英文文本的能力。

為實現(xiàn)精準的圖像編輯，Qwen-Image提出了一種增強的多任務學習框架。其核心是將輸入圖像編碼為兩種互補的特征：一是通過Qwen2.5-VL模型提取的高層“語義特征”，用于理解圖像內(nèi)容和編輯指令；二是通過變分自編碼器（VAE）提取的低層“重建特征”，用于保留圖像的視覺細節(jié)和紋理。

這兩種特征共同作為引導信號，輸入到作為模型骨干的多模態(tài)擴散Transformer（MMDiT）中。這種“雙重編碼”設(shè)計，使得模型在執(zhí)行編輯指令時，既能理解“改什么”，又能知道“保留什么”，從而在語義連貫性與視覺保真度之間取得了良好的平衡。

模型架構(gòu)上，Qwen-Image由Qwen2.5-VL（條件編碼器）、VAE（圖像壓縮與解碼）和MMDiT（核心生成網(wǎng)絡(luò)）三部分組成。其中，VAE采用了獨特的“單編碼器、雙解碼器”架構(gòu)，使其在保證高質(zhì)量圖像重建的同時，也為未來擴展到視頻生成任務奠定了基礎(chǔ)。MMDiT內(nèi)部則引入了一種名為MSROPE的新型位置編碼方法，通過將文本信息在概念上置于圖像網(wǎng)格的對角線，改善了文本與圖像特征的對-齊。

訓練過程同樣是漸進式的，從低分辨率到高分辨率，從無文本圖像到有文本圖像，并結(jié)合了監(jiān)督微調(diào)（SFT）與直接偏好優(yōu)化（DPO）等強化學習方法，持續(xù)優(yōu)化生成結(jié)果的質(zhì)量與遵循指令的準確性。最終，大量的基準測試和人類評估結(jié)果表明，Qwen-Image在通用的圖像生成、復雜的文本渲染以及指令式圖像編輯任務上，均達到了業(yè)界領(lǐng)先水平。

不多說廢話，讓我們直接看成品。我故意刁難Qwen-Image，既然官方技術(shù)團隊報告中表示優(yōu)化了對提示詞的理解，那么我就要它生成自然界不存在的東西。從結(jié)果上來看，Qwen的冰山渲染效果比GPT-5更好，但是火焰跟冰山較為割裂，而GPT-5則用熔巖填充了火焰和冰山之間的部分，讓畫面更自然。

提示詞：A colossal iceberg that is on fire, with bright orange flames licking its crystalline blue surfaces, emitting thick steam and smoke into a freezing arctic sky. The water around the iceberg is boiling. Photorealistic, dramatic lighting.

Qwen-Image：

GPT-5：

在圖片重構(gòu)方面，GPT-5除了貓整體都發(fā)生了改變，包括背景。可能是因為希望要求它漂浮在空中，GPT-5真的把這只貓送上了大氣層，但是Qwen-Image則是漂浮在了半空中。

提示詞：make the cat floating in the air and holding a sign that reads 'this is fun' written with a blue crayon

原圖片：

Qwen-Imgae：

GPT-5：

有意思的來了，由于原圖片中出現(xiàn)了星條旗，GPT-5和Gemini都不能完成對原圖片的修改。但是Qwen-Image完成了這個命令，雖然在生成的圖片中，馬斯克變得更加蒼老了。

提示詞：Keep Elon Musk and his hat exactly as they are in terms of pose and size, but place them on the surface of Mars during a massive dust storm. The sky should be a swirling orange and red, with visible streaks of dust. Add a futuristic, slightly damaged SpaceX rover partially buried in the Martian sand in the background.

原圖：

Qwen-Image：

技術(shù)報告展示了Qwen-Image強大的圖像生成與編輯能力，這自然引出一個問題：它能成為一個“AI版的Photoshop”嗎？或者說，它在多大程度上改變了我們與圖像交互的方式？要回答這個問題，我們需要比較它與傳統(tǒng)圖像編輯軟件的核心異同。

從功能上看，Qwen-Image確實展現(xiàn)出了許多與Photoshop相似的核心編輯能力，但實現(xiàn)方式截然不同。Photoshop依賴于工具箱、圖層和濾鏡，用戶通過直接操作（如畫筆涂抹、選區(qū)拖動）來實現(xiàn)修改。而Qwen-Image則依賴于自然語言指令，用戶通過“描述”來完成編輯。

在對象處理方面，Photoshop使用套索、魔棒等工具進行精確選區(qū)，然后進行復制、粘貼或內(nèi)容識別填充。Qwen-Image則通過文本指令實現(xiàn)類似操作，例如“添加一只貓和一只狗”或“移除畫面里所有的人”。它不僅能完成增刪，還能理解風格要求（如添加卡通風格的動物），這類似于PS中需要手動調(diào)整新元素風格以匹配背景的操作，但Qwen-Image將其自動化了。

在材質(zhì)與風格轉(zhuǎn)換上，Photoshop提供濾鏡庫、圖層樣式和紋理疊加等功能。Qwen-Image同樣能通過指令完成，例如將一個普通圖標變?yōu)椤艾m瑯彩玻璃藝術(shù)”風格的冰箱貼。這種基于語義的材質(zhì)渲染，是其強大之處。此外，其精準的文本編輯能力，如修改、增刪圖像中的文字并保持原有風格，直接對標了Photoshop的核心功能——文字工具。

更進一步，在處理圖像結(jié)構(gòu)性變化時，比如人物姿態(tài)調(diào)整，Qwen-Image展現(xiàn)了超越傳統(tǒng)工具的潛力。在Photoshop中，調(diào)整姿態(tài)可能需要使用液化、操控變形等工具進行細致的手動修改，且很難保證衣物紋理和背景的自然過渡。

而Qwen-Image能夠理解“讓她站起來，單手叉腰”這樣的指令，并在保持人物身份、服裝細節(jié)（甚至能推斷出被遮擋的衣物部分）和背景一致性的前提下，生成一個全新的、符合邏輯的姿態(tài)。這種能力更接近于“重新想象”而非“修改”。

然而，盡管功能上有諸多重疊，將Qwen-Image簡單地視為Photoshop的替代品并不準確。二者的核心工作范式存在根本差異。

最重要的地方在于控制的粒度。Photoshop提供的是像素級的、確定性的精確控制。用戶可以選中任意一個像素點，賦予它一個精確的RGB值。而Qwen-Image的控制是語義級的、概率性的。用戶描述的是“什么”，而不是“如何做”。你無法通過指令去精確控制某個特定像素的顏色，編輯結(jié)果總是在一定程度上由模型“自由發(fā)揮”，帶有一定的隨機性。

Photoshop的核心是基于圖層的非線性、非破壞性工作流。用戶可以隨時返回修改任意一個圖層，而不影響其他部分。Qwen-Image的編輯更像是一個“一次性”的再生成過程。盡管技術(shù)報告中展示了“鏈式編輯”（即在上一次生成結(jié)果的基礎(chǔ)上繼續(xù)編輯），但這與PS中靈活調(diào)整圖層堆棧的邏輯完全不同。

精通Photoshop需要掌握復雜的工具、蒙版和色彩理論。而使用Qwen-Image則需要掌握“提示詞工程”——用清晰、準確的語言描述視覺意圖的能力。它極大地降低了圖像編輯的技術(shù)門檻，但同時也引入了一種新的技能壁壘。

Qwen-Image并非Photoshop的直接替代品，而是一種全新的圖像內(nèi)容創(chuàng)作與編輯范式。Photoshop是一個“數(shù)字暗房”和“畫布”，為專業(yè)人士提供了無與倫比的直接操控和精確控制能力。而Qwen-Image則是一個“語義指令引擎”，它將人的意圖從繁瑣的技術(shù)操作中解放出來，更側(cè)重于創(chuàng)意構(gòu)想的快速實現(xiàn)和語義層面的內(nèi)容調(diào)整。

它們滿足了不同場景的需求。一個需要進行精細排版和品牌視覺設(shè)計的專業(yè)設(shè)計師，依然離不開Photoshop的精確控制。但對于一個需要快速產(chǎn)出創(chuàng)意概念圖、營銷素材，或者不具備專業(yè)設(shè)計技能的用戶來說，Qwen-Image無疑是更高效、更直觀的工具。

雖然現(xiàn)在已經(jīng)出現(xiàn)了一些帶有AI功能的修圖軟件，但是能實現(xiàn)的功能還比較淺，比如消除圖片中的人物、調(diào)整顏色等。未來，二者很可能會深度融合——在Photoshop這樣的專業(yè)軟件中，嵌入像Qwen-Image一樣強大的語義理解和生成引擎，這在PS的“生成式填充”功能中已初見端倪。Qwen-Image的出現(xiàn)，標志著這條融合之路上的“語義引擎”一端，已經(jīng)達到了一個新的成熟高度。

歡迎在評論區(qū)留言~
如需開白請加小編微信：dongfangmark

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.