網易首頁 > 網易號 > 正文申請入駐

GPT-image-2亮相 AI圖片生成真的變天了

2026-04-17 12:57:58　來源: CNMO科技

北京舉報

分享至

4月16日晚間，OpenAI推出了最新的圖片生成模型GPT-image-2。雖說它只是灰度測試狀態，還沒有完全上線，但看到它生成結果的第一眼，我并不是覺得“這張AI圖很漂亮”，而是突然有一種很震驚的感受，因為它生成的已經不像AI圖了，更像是一張真實的截圖。

使用GPT-image-2生成

這句話聽起來可能有點夸張，但如果你長期使用AI圖像工具，就會知道這里面的差別有多大。

過去幾年，AI圖像生成已經進步得非常快。它可以畫出漂亮的人像，或者是精致的產品圖，也有很多人通過給出對應的參考圖，讓AI來幫助自己模仿創作。但如果你是一個經常使用AI的人，其實心里都會保留一個習慣，那就是看圖的時候，會下意識找破綻。尤其是看人物的時候，會刻意留意一下手指有沒有問題，看眼神是不是發空，看文字是不是亂碼，看光影是不是真實，看那些細節里有沒有一種“不真實感”。

不真實的AI圖片

很多AI圖片第一眼很驚艷，但你多看幾秒，就會有一種“抓住你的把柄了”的感覺。它可能是整體過于光滑，甚至有一種塑料感；也可能是在某個角落突然出現一些奇怪的文字，或是一個不太合理的手勢等等。總之，過去生成的圖片，難免會讓人感受到滿滿的AI味道，進而產生一種“不真實”、“廉價”、“節約成本”等負面情緒。

但這一次，GPT-image-2給我的感受完全不一樣。

我測試的提示詞其實很簡單：“生成一張女主播抖音截圖。” 短短11個字，沒有寫一大串詳細要求。但恰恰因為它簡單，才更能看出模型的理解能力。因為“女主播抖音截圖”不是一個單純的視覺對象，它背后包含著人物、直播間UI設計、中文文字、手機截圖質感，以及我們對短視頻平臺的共同認知。

使用GPT-image-2生成

換句話說，這不是讓AI畫一個美女，而是讓AI生成一個“看起來真實發生過的數字場景”。

這件事非常難。

首先是人物。

傳統AI生成人像，經常會陷入兩種問題：要么太完美，完美到一眼假；要么細節崩壞，尤其是手部、骨骼、五官比例這些地方，經不起推敲。但這次生成出來的女主播，面部、手部、身體結構都非常自然。她看起來就像是一個在真實直播間里開了美顏打了燈，坐在鏡頭前的主播。那種皮膚質感、妝容、面光眼神光、輕微虛化的直播間背景等等，都被模型捕捉到了。

真正高級的擬真，不是把人畫得無限漂亮，而是讓它符合現實里的“美”。現實中的直播間并不是電影畫面，它有美顏，有燈光，也有那種略微不完美但非常熟悉的日常感。gpt-image-2.0厲害的地方，就在于它把這些都模擬了出來。

其次是直播間布局。

很多AI模型其實并不真正理解“抖音直播間”這個東西。它們知道這里應該有主播、評論、點贊、按鈕、禮物，但這些元素往往是被堆上去的。看起來熱鬧，實際上不成立。因為一個真實App的界面是有秩序的，頭像在哪，昵稱在哪，評論如何滾動，互動按鈕如何排列，輸入框在什么位置，哪些元素靠上，哪些元素貼邊，這些都不是隨便放的。

右側為真實直播間截圖

我再放一張真實的抖音直播間截圖，通過對比就能看到，這次的新模型完全理解了這個語境。它知道一個直播間截圖應該長什么樣，也知道這些元素大概應該被放在什么位置。你不會覺得它是在“畫一個叫做‘直播間’的東西”，而是真的在復現一個你曾經刷到過的界面。

當然，它不是完全沒有問題。如果非常認真地挑，還是能看到一些地方和真實截圖不完全一致，比如畫面比例也可能有點不對，個別UI的位置也不是完全貼合真實App。但這些問題已經不是那種一眼假的錯誤，而是需要你停下來、盯著看、甚至拿真實截圖對照，才可能會懷疑的細節。

這就是質變。

最讓我驚訝的，還有它對中文文字的處理。

過去很長一段時間，中文都是AI圖像生成里最容易暴露問題的地方。很多模型可以生成非常漂亮的畫面，但一碰到中文就崩。有的像亂碼，或是缺筆少畫；好一點的會變成字形扭曲，看著像中文卻完全不是中文。而在直播間這個場景中，中文的文字密度很高，評論區、昵稱、按鈕等等都有中文出現，只要其中一部分崩掉，整張圖的真實感就會瞬間塌掉。

但GPT-image-2這次的表現，已經到了讓人有點意外的程度。

中文字符精準且貼合直播間場景

它可以生成完全正確的中文文字，而且是看起來合理、可讀、貼合場景的中文。評論區不再是隨便糊出來的假字符，而是像是真有人在直播間里互動一樣。如果一定要說破綻，我覺得可能還是字體。它的中文字體偶爾會顯得不夠標準，不太像真實系統字庫的渲染效果。但說實話，這已經不是“AI不會寫中文”的問題了，而是到了一個更細的階段。它已經會寫了，只是還沒有完全像真實App那樣排版和渲染。

這個差別非常大。

因為當人物自然、界面成立、文字可讀、像素統一，這張圖就不只是“生成圖”，它開始有了“真實感”。這張圖片看上去像一張從手機里截下來的畫面，像某個直播間真實出現過的一瞬間，也正是這種感覺，才能真正讓人意識到AI圖片生成真的變天了。

在2026年的今天，我們可能真的要接受一個事實，那就是你已經不能只憑一張圖片，判斷它到底是AI生成的，還是真實的截圖。

以前我們說“眼見為實”。后來我們說“圖片可以P”。但現在的問題更加復雜，有些圖片可能既不是拍出來的，也不是修出來的，而是AI直接從零生成出來的。它沒有原始現場，沒有攝影師，沒有真實發生過的那一秒，但它看起來完全像一個真實瞬間。

GPT-image-2最強的地方，并不只是它能畫得更好，而是它已經能夠理解用戶的真實語義，并做出對應的判斷。它了解直播間應該是什么樣的，了解中文信息應該以什么形態展示，了解一個存在于具體平臺、具體界面、具體使用場景中的人。

這種能力，比單純的審美更重要。

未來真正有價值的圖像生成，可能不只是生成漂亮圖片，而是變得更可信。電商圖、社交截圖、產品演示、教程界面、內容封面、短視頻素材、廣告創意，甚至各種我們還沒來得及想象的視覺表達，都會被這種能力重新改變。

如果你也想測試，可以去Arena.ai，進入Battle模式選擇圖像生成對戰。多刷新幾次，系統會匿名分配模型，有一定概率遇到這個測試版圖像模型。它不一定每次都出現，但只要你刷到一次，大概率就能明白我為什么說它不一樣。

一眼高下立判

目前看，這個模型應該還沒有完全大規模開放。我猜測一方面可能是因為算力壓力太大，另一方面也是因為這種擬真能力一旦全面放開，確實會帶來非常復雜的使用場景和安全問題。此前Google 憑借Nano Banana Pro，已經讓Gemini在圖像生成上吸引了一大波用戶。現在，OpenAI顯然也拿出了自己的答案。

這一次，它不用發布會說服你，也不用參數說服你。

而是直接用結果說服你。

高度擬真、文字準確、像素一致、界面可信、人物自然。最關鍵的是，它生成出來的東西不再帶著強烈的AI味。你第一眼看到它，真的會以為那就是一張截圖。

這才是最震撼的地方。

過去我們驚訝的是：AI居然能畫成這樣。

現在我們驚訝的是：這居然是AI生成的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.