網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

實測GPT Image 1.5，拼盡全力還是沒能打敗Banana。

2025-12-17 07:01:57　來源: 數(shù)字生命卡茲克

天津舉報

分享至

在Google的Banana淫威之下。

OpenAI憋了很久之后，終于把他們的圖片生成模型給掏出來了。

看一下他們的宣傳視頻。

突然想起了今年3月26號的時候，OpenAI第一次掏出GPT-4o的生圖模型，也就是GPT Image 1.0，然后同天，Google發(fā)布了 Gemini 2.5 Pro，事后看，Gemini 2.5 Pro肯定是一個偉大的模型。

但是那一天的時候，在整個X上、各種群里，大家討論的全部是GPT-4o。

那時候，我們說， 1.5 Pro被Sora淹，2.5 Pro被4o淹。

結(jié)果半年過去，風水輪流轉(zhuǎn)，現(xiàn)在屬于OpenAI天天被Google摁在地上打。。。

所以這一次，不是傳聞中的GPT Image 2.0，跟Nano Banana Pro一樣，用了一個小版本號去升級，用了1.5。

有一種感覺，就是怕被Google打臉。。。

半年前，OpenAI意氣風發(fā)，誰能想到，如今是這樣的結(jié)局。

跟隨著新模型的上線，ChatGPT上，也上了一個全新的圖像界面。

點開以后，是這個樣子的。

就是這個粉粉的背景色，放在深色模式下，真的不好看。

OpenAI其實明顯感覺到，在C端體驗上，做的確實還是比Google更上心，把風格和部分的快捷指令，單獨拎了出來。

比如我們選中這個躺曲奇風格。

在點擊以后，會彈出一個彈窗，讓你選擇最近你發(fā)給ChatGPT的圖片，或者上傳一個圖片。

我就傳了了我的那個AI固定模特染夏，就是那個粉頭發(fā)的妹子。

然后，他真的，就把我的圖片，和這一段默認的Prompt，直接以對話的形式，發(fā)給了ChatGPT。

說實話，這個交互設計的體驗真的并不是很好，各個界面跳來跳去，非常混亂。。。

不過生成的速度確實比之前有提升，測了一下，在ChatGPT上，大概40s到1分鐘不等。

在這個時間之后，你就能得到一個，糖曲奇風格的小圖了。

當然，還有毛絨玩具風格的。

除了快速轉(zhuǎn)風格之外，也有一些快捷的操作預設。

比如創(chuàng)建專業(yè)產(chǎn)品照片、拍攝專業(yè)求職照片等等。

交互也都是一樣的，點開以后，傳圖，選擇。

比如，給染夏做一張，專業(yè)求職照片。

做出來的效果，確實也挺真誠。

也可以，直接用模板，變成名畫。

就是這個臉部，缺失了一些筆觸的風格，變得過于平整了。

而模型本體能力上，在我測了一夜之后，還是發(fā)現(xiàn)有些比較可圈可點比較好玩的地方。

這次，我想讓X個跟Nano Banana Pro直接對比的案例，讓大家直觀的感受一下，他的特點和邊界，以及跟Nano Banana Pro孰強孰弱。

一. 信息準確性

文字準確性，絕對是現(xiàn)在的多模態(tài)AI繪圖模型，大家最為關注的。

所以，我們首先開始，肯定先看這個。

Prompt：生成一張桌面月歷照片，標題必須逐字 "2026年2月"，下方是標準7列表格（日一二三四五六）并填入日期1–28，要求網(wǎng)格對齊、數(shù)字清晰，除標題與日期外不加其他字。

左邊是GPT Image 1.5，右邊是Banana Pro。

上來第一個case，GPT就拉了坨大的，我要求是只寫到28，Banana精準的執(zhí)行了任務，所有的數(shù)字都是對的，但是GPT在寫到28后沒有停止，又重復了一個28，然后寫了29和31，這就是完全的錯誤了。

Prompt（來自@卡爾的AI沃茨）：生成一張3:4的圖片，畫面上方用書法寫著一首完整的《茅屋秋風所破歌》，內(nèi)容是【完整全文】，每個字上方都要標注上漢語拼音，同時畫面內(nèi)容主要用水墨畫的形式展示這首詩所表達的情景。

兩邊各有各的拉，GPT你完全不不知道他在寫個啥，中文完全崩成了一坨跟鬼畫符一樣。右邊中文倒是寫的很不錯，只有個別字拉了，但是不知道為什么Prompt要求的是上面掛拼音，寫著寫著就腦袋頂上就掛了個中文字？而且排版確實不好看。

Prompt：為我生成蘇繡工藝的詳細解說圖，配上詳細的中文知識解析。

GPT的中文字翻車的比較狠，而且信息圖的展示沒有Banana清晰，有很多無關內(nèi)容硬生生的塞進去了。

Prompt：這個模特的Instagram動態(tài)界面，3:4。

這里我是把染夏的照片扔過去了。

GPT完全沒有畫出 Instagram上任何信息，emoji還畫錯了，Banana對界面的理解畫的非常的精準，雖然人物一致性上有很多問題，但是在信息準確性上，還是要強出好幾個檔次。

綜合來看，在信息準確性上，GPT Image 1.5，確實是不如Banana Pro，而在中文字上，有非常明顯的差距，Banana Pro的中文字還是很穩(wěn)的。

二. 真實質(zhì)感

這一趴，來看直接生成的照片質(zhì)感，看看誰的效果更加的真實。

Prompt：年輕白皙膚色的年輕女性肖像照：皮膚帶自然紅暈、鼻子與臉頰無雀斑。短款灰褐色波波頭，中分層次，幾縷松散發(fā)絲垂在臉側(cè)；淺棕色眼睛、卷曲睫毛、飽滿有光澤的粉色嘴唇，鼻中隔穿刺。表情俏皮淘氣：眨一只眼、吐舌頭、可愛搞怪。保留她皮膚/面部/手部可見的原始紋身細節(jié)。她隨意坐在吧臺凳上，穿黑色背心，外搭淺藍/白/黑格紋法蘭絨襯衫（敞開或披著），下穿牛仔迷你裙，系小黑色腰帶。左手自然下垂，手里夾著一支點燃的香煙。場景為昏暗的戶外或半戶外酒吧/酒館/夜店：石質(zhì)或金屬質(zhì)感的圓桌與吧凳；桌上有一只裝滿飲料的玻璃杯、一個玻璃水壺、以及一包香煙（Gudang Garam Surya 16）。背景虛化，隱約可見坐著的人與夜晚氛圍燈光。拍攝為高角度俯拍（從上往下看主體），強烈直射閃光燈，人物后方產(chǎn)生銳利陰影，皮膚明亮略微過曝。整體風格：隨手快照、Y2K 美學、街頭風、垃圾搖滾、閃光攝影。3:4，真實膠片質(zhì)感、輕微噪點、淺景深。

語義理解這兩家確實都很強，提到的所有元素幾乎全部實現(xiàn)了，在質(zhì)感上，GPT的圖會更加AI更加油膩一些，Banana Pro會更真實一點。

Prompt：生成一張照片級抓拍：一位年邁水手站在小漁船上整理漁網(wǎng)，旁邊有一只狗安靜坐著。要求可見真實皮膚紋理（皺紋、毛孔、日曬痕）、衣物磨損與鹽漬；自然海邊日光。鏡頭語言：50mm，中近景，平視，淺景深，輕微膠片顆粒；不擺拍、不精修；3:4。

這兩家基本打個平手，但是GPT的飽和度和對比度總是更強一些，Banana Pro會更日常一些。

Prompt：生成一張照片級真實抓拍：演出后臺化妝間。場景：一排帶燈泡的化妝鏡，桌面有散亂的化妝刷、發(fā)夾、水杯、紙巾；光源為鏡前燈泡（暖）+室內(nèi)頂燈（中性），混合光真實。主體：至少6位演員/工作人員：前景：一位坐著化妝，化妝師在旁邊補妝（手部動作清楚）；中景：兩位在整理衣服與耳返；鏡子里必須能看到與現(xiàn)實一致的反射（人數(shù)、姿態(tài)、位置匹配，不能憑空多出人或少人）。攝影參數(shù)/構(gòu)圖： 50mm，f/1.8，1/160s，ISO 2500；中近景；淺景深。

GPT還是那個問題，對比度和飽和度都有點高，整體色彩會看著有一點AI感，整體上，我個人還是喜歡Banana Pro的質(zhì)感一些。

更為自然。

三.精準編輯

測一下用嘴改圖的能力，這次GPT不是說，自己的精準編輯能力更強了嗎。

第一個case就是換內(nèi)容。

比較簡單。

比如，把這個發(fā)布會的奧特曼，替換成染夏。

效果是這樣的。

從光影感覺，人物比例和透視，Banana Pro更勝一籌，第一個的燃夏身上的衣服的光影明顯就不對，然后明明是個圓桌，染夏是更靠近鏡頭的，所以肯定會顯得大一點，原來的奧特曼也是這樣，這就是最基本的近大遠小。

但是GPT做的圖，你會發(fā)現(xiàn)，染夏跟中間的老哥直接平齊了，沒有前后關系了。

然后就是更復雜一點的，跨畫風做替換，還替換天氣。

圖1的人物的衣服替換成圖2角色的衣服，其他不變。天氣變成小雨，3:4。

這時候，兩邊的處理差距就挺大了。

雖然Banana的人臉保持也有一點問題，不太像了，但是整體肯定是比GPT要好的，我只替換服裝，然后下雨，沒讓你把畫風和色調(diào)也遷移過去啊。

還有換衣服。

比如我想給染夏的這張照片，換一些別的服裝。

結(jié)果是這樣。

GPT直接把我衣服改了，變成了還有一件內(nèi)搭，這個肯定不對的，Banana Pro是正確的。

還有一個@-Zho-佬的Prompt，就是讓3個角色，用夸張的造型合影。

我找了3個角色。

Prompt：三人在鏡前頂視角擺出夸張姿勢合影。

有一說一，這張整體的構(gòu)圖和感覺，我覺得GPT更好一點，GPT只丟了鏡前這一個信息，但是Banan Pro丟了頂視角和鏡前兩個信息，而且姿勢也沒那么夸張。

綜合來看，我覺得整體上，還是Banana在一致性、精準度上，還是會更甚一籌。

四. 世界知識

我最喜歡的一個案例，就還是海賊王排名。

這塊從設計角度來說，確實左邊的GPT會更有張力，包括風格上，也更好看，戰(zhàn)力的排序我就不多說了，這個見仁見智，但是就是有一個非常明顯的知識錯誤，就是第十名，紅犬庫贊是什么鬼？？？

人叫赤犬，真名叫薩卡斯基。庫贊是青雉。。。這就是完全的錯誤了。

右邊目前看著沒啥硬傷，頭像都能對得上。

還有一個@卡爾的AI沃茨的Prompt，也很有意思：

用一組圖，描繪公元前260年5月至10月之間，東經(jīng)112°41到113°09′，，北緯35°39′到35°59′ 發(fā)生的事情，并給出詳細的信息圖，圖上要用中文說明發(fā)生了什么事情，以及結(jié)果的重要信息。

這個地方呢，讓GPT-5.2自己來判斷一下。

它自己說：

我選Banana Pro。。。

不過坦率的講，差距并不大，至少不會有錯誤。

還有一個非常搞的。

Prompt：創(chuàng)建一個包含以下內(nèi)容的正方形圖像：一只手有七根手指，一面顯示時間為8:22的掛鐘，一杯裝滿紅酒的玻璃杯。

這塊是讓我非常驚喜的，GPT Image 1.5把時間畫對了，除了那個時針應該在上去一點，分針是正確的，然后7根手指，畫成了6根手指。

而Banana Pro，在這地方就翻了個大車，手和始終全部失敗了。

所以，在世界知識這塊，我覺得還是比較能打個平手的，各有勝負。

花了一個通宵的時間，把GPT Image 1.5測了個大概。

不算差，但是肯定也不能說是特別好，跟Banana Pro比，在很多地方，還是有一些不足的。

而且自從3月份發(fā)布，OpenAI憋了半年，才憋出來個這個。

而Google，最恐怖的是，Gemini 2.5的畫圖，花了3個月進化到了Banana，Banana又花了3個月，進化成了Banana Pro。

這家公司的進化速度，還是太恐怖了。

Google，不愧是現(xiàn)如今，AI的王。

這次，該輪到OpenAI，奮起直追了。

以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克

>/ 投稿或爆料，請聯(lián)系郵箱：wzglyay@virxact.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.