4月16日晚間,OpenAI推出了最新的圖片生成模型GPT-image-2。雖說它只是灰度測試狀態,還沒有完全上線,但看到它生成結果的第一眼,我并不是覺得“這張AI圖很漂亮”,而是突然有一種很震驚的感受,因為它生成的已經不像AI圖了,更像是一張真實的截圖。
![]()
使用GPT-image-2生成
這句話聽起來可能有點夸張,但如果你長期使用AI圖像工具,就會知道這里面的差別有多大。
過去幾年,AI圖像生成已經進步得非常快。它可以畫出漂亮的人像,或者是精致的產品圖,也有很多人通過給出對應的參考圖,讓AI來幫助自己模仿創作。但如果你是一個經常使用AI的人,其實心里都會保留一個習慣,那就是看圖的時候,會下意識找破綻。尤其是看人物的時候,會刻意留意一下手指有沒有問題,看眼神是不是發空,看文字是不是亂碼,看光影是不是真實,看那些細節里有沒有一種“不真實感”。
![]()
不真實的AI圖片
很多AI圖片第一眼很驚艷,但你多看幾秒,就會有一種“抓住你的把柄了”的感覺。它可能是整體過于光滑,甚至有一種塑料感;也可能是在某個角落突然出現一些奇怪的文字,或是一個不太合理的手勢等等。總之,過去生成的圖片,難免會讓人感受到滿滿的AI味道,進而產生一種“不真實”、“廉價”、“節約成本”等負面情緒。
但這一次,GPT-image-2給我的感受完全不一樣。
我測試的提示詞其實很簡單:“生成一張女主播抖音截圖。” 短短11個字,沒有寫一大串詳細要求。但恰恰因為它簡單,才更能看出模型的理解能力。因為“女主播抖音截圖”不是一個單純的視覺對象,它背后包含著人物、直播間UI設計、中文文字、手機截圖質感,以及我們對短視頻平臺的共同認知。
![]()
使用GPT-image-2生成
換句話說,這不是讓AI畫一個美女,而是讓AI生成一個“看起來真實發生過的數字場景”。
這件事非常難。
首先是人物。
傳統AI生成人像,經常會陷入兩種問題:要么太完美,完美到一眼假;要么細節崩壞,尤其是手部、骨骼、五官比例這些地方,經不起推敲。但這次生成出來的女主播,面部、手部、身體結構都非常自然。她看起來就像是一個在真實直播間里開了美顏打了燈,坐在鏡頭前的主播。那種皮膚質感、妝容、面光眼神光、輕微虛化的直播間背景等等,都被模型捕捉到了。
真正高級的擬真,不是把人畫得無限漂亮,而是讓它符合現實里的“美”。現實中的直播間并不是電影畫面,它有美顏,有燈光,也有那種略微不完美但非常熟悉的日常感。gpt-image-2.0厲害的地方,就在于它把這些都模擬了出來。
其次是直播間布局。
很多AI模型其實并不真正理解“抖音直播間”這個東西。它們知道這里應該有主播、評論、點贊、按鈕、禮物,但這些元素往往是被堆上去的。看起來熱鬧,實際上不成立。因為一個真實App的界面是有秩序的,頭像在哪,昵稱在哪,評論如何滾動,互動按鈕如何排列,輸入框在什么位置,哪些元素靠上,哪些元素貼邊,這些都不是隨便放的。
![]()
右側為真實直播間截圖
我再放一張真實的抖音直播間截圖,通過對比就能看到,這次的新模型完全理解了這個語境。它知道一個直播間截圖應該長什么樣,也知道這些元素大概應該被放在什么位置。你不會覺得它是在“畫一個叫做‘直播間’的東西”,而是真的在復現一個你曾經刷到過的界面。
當然,它不是完全沒有問題。如果非常認真地挑,還是能看到一些地方和真實截圖不完全一致,比如畫面比例也可能有點不對,個別UI的位置也不是完全貼合真實App。但這些問題已經不是那種一眼假的錯誤,而是需要你停下來、盯著看、甚至拿真實截圖對照,才可能會懷疑的細節。
這就是質變。
最讓我驚訝的,還有它對中文文字的處理。
過去很長一段時間,中文都是AI圖像生成里最容易暴露問題的地方。很多模型可以生成非常漂亮的畫面,但一碰到中文就崩。有的像亂碼,或是缺筆少畫;好一點的會變成字形扭曲,看著像中文卻完全不是中文。而在直播間這個場景中,中文的文字密度很高,評論區、昵稱、按鈕等等都有中文出現,只要其中一部分崩掉,整張圖的真實感就會瞬間塌掉。
但GPT-image-2這次的表現,已經到了讓人有點意外的程度。
![]()
中文字符精準 且貼合直播間場景
它可以生成完全正確的中文文字,而且是看起來合理、可讀、貼合場景的中文。評論區不再是隨便糊出來的假字符,而是像是真有人在直播間里互動一樣。如果一定要說破綻,我覺得可能還是字體。它的中文字體偶爾會顯得不夠標準,不太像真實系統字庫的渲染效果。但說實話,這已經不是“AI不會寫中文”的問題了,而是到了一個更細的階段。它已經會寫了,只是還沒有完全像真實App那樣排版和渲染。
這個差別非常大。
因為當人物自然、界面成立、文字可讀、像素統一,這張圖就不只是“生成圖”,它開始有了“真實感”。這張圖片看上去像一張從手機里截下來的畫面,像某個直播間真實出現過的一瞬間,也正是這種感覺,才能真正讓人意識到AI圖片生成真的變天了。
在2026年的今天,我們可能真的要接受一個事實,那就是你已經不能只憑一張圖片,判斷它到底是AI生成的,還是真實的截圖。
以前我們說“眼見為實”。后來我們說“圖片可以P”。但現在的問題更加復雜,有些圖片可能既不是拍出來的,也不是修出來的,而是AI直接從零生成出來的。它沒有原始現場,沒有攝影師,沒有真實發生過的那一秒,但它看起來完全像一個真實瞬間。
GPT-image-2最強的地方,并不只是它能畫得更好,而是它已經能夠理解用戶的真實語義,并做出對應的判斷。它了解直播間應該是什么樣的,了解中文信息應該以什么形態展示,了解一個存在于具體平臺、具體界面、具體使用場景中的人。
這種能力,比單純的審美更重要。
未來真正有價值的圖像生成,可能不只是生成漂亮圖片,而是變得更可信。電商圖、社交截圖、產品演示、教程界面、內容封面、短視頻素材、廣告創意,甚至各種我們還沒來得及想象的視覺表達,都會被這種能力重新改變。
如果你也想測試,可以去Arena.ai,進入Battle模式選擇圖像生成對戰。多刷新幾次,系統會匿名分配模型,有一定概率遇到這個測試版圖像模型。它不一定每次都出現,但只要你刷到一次,大概率就能明白我為什么說它不一樣。
![]()
一眼高下立判
目前看,這個模型應該還沒有完全大規模開放。我猜測一方面可能是因為算力壓力太大,另一方面也是因為這種擬真能力一旦全面放開,確實會帶來非常復雜的使用場景和安全問題。此前Google 憑借Nano Banana Pro,已經讓Gemini在圖像生成上吸引了一大波用戶。現在,OpenAI顯然也拿出了自己的答案。
這一次,它不用發布會說服你,也不用參數說服你。
而是直接用結果說服你。
高度擬真、文字準確、像素一致、界面可信、人物自然。最關鍵的是,它生成出來的東西不再帶著強烈的AI味。你第一眼看到它,真的會以為那就是一張截圖。
這才是最震撼的地方。
過去我們驚訝的是:AI居然能畫成這樣。
現在我們驚訝的是:這居然是AI生成的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.