![]()
作者 | 董道力
郵箱 | dongdaoli@pingwest.com
谷歌最近動(dòng)作不斷:前腳剛拋出 Gemini 3 和 Antigravity,后腳 Nano Banana Pro 也在 Vertex AI 里上線了,模型名叫 gemini-3-pro-image-preview。
簡(jiǎn)單測(cè)了一圈之后,我們覺得它不只是“會(huì)畫圖”這么簡(jiǎn)單,生圖質(zhì)量很穩(wěn),更有意思的是,它看起來已經(jīng)開始會(huì)推理了。
模型實(shí)測(cè):看手相做幾何題,Nano Banana Pro 還有什么不能做的?
測(cè)試 1:跨次元的視頻會(huì)議
我們先來一個(gè)簡(jiǎn)單的測(cè)試,讓現(xiàn)實(shí) AI 界五大巨頭和動(dòng)畫界的光頭共同開一場(chǎng)視頻會(huì)議。
prompts:
"A realistic HD screenshot-style image of a video conference interface, similar to Zoom, in 16:9 horizontal format. There are six participants, each in their own video tile: 1.Sam Altman, short hair, blue eyes, wearing a simple T-shirt or casual shirt, focused expression.2. Elon Musk, slightly slicked-back short hair, wearing a dark T-shirt or jacket, a faint smile. 3. Sundar Pichai, black-rim glasses, beard, wearing a dark suit with a light shirt, looking at the screen.4.Satya Nadella, bald, thin-frame glasses, business-casual suit, gentle expression.5. Mark Zuckerberg, short slightly curly hair, simple dark T-shirt, looking a bit tense but focused.6.the character in the uploaded image,turn the head toward the upper right
The interface shows classic video call UI elements: bottom bar with mute, stop video, share screen buttons, and a simple chat panel on the right side. Overall style: realistic, high resolution, soft lighting, modern tech atmosphere."
![]()
這次任務(wù)有幾個(gè)難點(diǎn)。首先是現(xiàn)實(shí)人物的生成。像奧特曼、馬斯克這種大眾極其熟悉的形象,只要跟真實(shí)長(zhǎng)相稍微不符,就會(huì)立刻穿幫。但 Nano Banana Pro 基本還原了每個(gè)人物的特征,細(xì)節(jié)到位,已經(jīng)接近“以假亂真”的程度。
第二個(gè)難點(diǎn)是跨次元融合。我上傳的是一張動(dòng)漫人物圖,Nano Banana Pro 并沒有粗暴地把它拉成寫實(shí)風(fēng)格,而是保留了角色原本的二維質(zhì)感,讓這個(gè)二次元角色出現(xiàn)在真實(shí)視頻會(huì)議畫面中時(shí),形成了一種既突兀又合理的效果。
最后,我在提示詞里埋了一個(gè)小坑,讓這位動(dòng)漫人物把頭轉(zhuǎn)向右上方,避免 Nano Banana Pro 通過截圖等方式渾水摸魚。結(jié)果可以看到, 其不僅正確地完成了轉(zhuǎn)頭動(dòng)作,說明不是截圖。還理解了“視頻會(huì)議畫面是鏡像”的這一點(diǎn),從我們觀眾的視角看過去,角色實(shí)際上是轉(zhuǎn)向了左上方。
![]()
我們?cè)賮砜匆幌缕渌?xì)節(jié),Nano Banana Pro 還在除了奧特曼之外的人身后加上了對(duì)應(yīng)公司的 logo,好像在說“我知道我生成的人物是誰”。
右下角的對(duì)話也能證明這一點(diǎn),各自都在討論與自己相關(guān)的話題,而且沒有拼寫錯(cuò)誤。
那我就很好奇,Nano Banana Pro 對(duì)文字的理解到達(dá)了什么程度?
測(cè)試 2:這菜單你不能細(xì)看
我們嘗試讓 Nano Banana Pro 生成“英文、中文、日文和俄羅斯語”四種菜單。
promtps:
"modern western bistro menu,vertical A4 layout, clean grid design,warm beige background with subtle paper texture,all text in English only, no other languages,sections as bold headings: Signature Dishes, Starters, Mains, Sides, Drinks,elegant handwritten-style restaurant title at the top,readable body font for dish names and prices,neat list layout with enough white space,small food illustrations in the corners: steak, salad, bread, wine glass,minimalist icons, soft warm lighting,high resolution, 4k, printable, no watermark, no logo."
"Japanese izakaya menu,modern Japanese style, vertical A4 layout, clean grid,warm beige background, soft paper texture,all text in Japanese only, no English,sections as bold Japanese headings:おすすめ, 焼き物, 揚(yáng)げ物, ご飯もの, 飲み物,elegant handwritten-style Japanese title at the top,readable Japanese body font,neatly aligned dish names and prices, plenty of white space,small illustrations in the corners: 串焼き, 枝豆, たこ唐揚(yáng)げ, 日本酒グラス,minimalist icon style, cozy warm lighting,high resolution, 4k, printable, no watermark, no logo。"
"Russian home-style cafe menu, cozy and traditional,vertical A4 page, clean and simple grid layout,warm beige background with gentle paper texture,all text in Russian only, no English,sections as bold Russian headings:Фирменные блюда, Горячие блюда, Закуски, Гарниры, Напитки,elegant handwritten-style Russian title at the top,clear serif body font for dish names and prices,neatly organized lists with generous white space,small corner illustrations: bowl of borscht, dumplings, slice of rye bread, vodka glass,minimalist icons, soft warm lighting,high resolution, 4k, printable, no watermark, no logo."
Chinese Sichuan restaurant menu, modern Sichuan style, vertical A4 layout, clean grid design, warm beige background with subtle rough paper texture, menu hanging on the interior wall of a cozy Sichuan restaurant, soft spotlight from above and natural shadows, only Simplified Chinese text, bold section headings: 招牌川菜, 熱菜, 涼菜, 主食, 飲品, top title in elegant handwritten Chinese, readable Chinese body font, dish names + prices neatly listed, small corner illustrations: 辣椒、花椒、蒜瓣、紅油小碟, minimalist icons, warm ambient restaurant lighting, slight vignette, high resolution, 4k, printable, no watermark, no logo。
![]()
這四份菜單,可以很容易的看出來用了哪國的語言,但,你不能細(xì)看。
比如使用中文的四川餐館菜單,我們可以看到標(biāo)題,大正宗川味小館、以及分類詞向招牌川菜、涼菜、主食等,還原的很完美。但仔細(xì)看具體的菜品,就會(huì)露出 AI 馬腳,比如“蒜泥”兩個(gè)字很虛,58 元的菜基本認(rèn)不出是什么中文。可以猜測(cè),Nano Banana Pro 能很好的還原提示詞中的文字,但對(duì)提示詞之外,AI 自己生成的文字把控能力不強(qiáng)。
為了驗(yàn)證這個(gè)想法,我們將菜單所有的中文輸入進(jìn) promtps 中。
prompts:
Sichuan restaurant menu poster,vertical A4 layout hanging on a textured wall,warm spotlight from above, soft shadow under the menu,light beige paper with subtle fiber texture,modern Sichuan style, clean grid layout,small corner illustrations: chili peppers, Sichuan peppercorns, garlic cloves,handwritten-style Chinese title, clear body font,only Simplified Chinese text, no English,cozy indoor lighting, slight vignette, natural restaurant ambience,high resolution, 4k, printable, no watermark, no logo.Menu text (Chinese only):招牌川菜:沸騰水煮魚(招牌) ¥128 歌樂山辣子雞 ¥88 毛血旺(精品) ¥98 夫妻肺片 ¥78 口水雞 ¥68 熱菜:宮保雞丁 ¥58 回鍋肉 ¥62 麻婆豆腐 ¥42 魚香肉絲 ¥48 蒜泥白肉 ¥52 涼菜:拍黃瓜 ¥22 涼拌木耳 ¥28 川北涼粉 ¥26 口水茄子 ¥32 皮蛋豆腐 ¥24 主食:四川擔(dān)擔(dān)面 ¥28 鐘水餃 ¥26 賴湯圓 ¥22 紅油抄手 ¥24 米飯 ¥5 飲品:酸梅湯 ¥18 王老吉 ¥12 青島啤酒 ¥15 熱茶(壺) ¥38
我們可以看到,雖然部分字體有點(diǎn)虛,但基本還原了 promtps 中的中文。
![]()
測(cè)試 3:老中醫(yī)+老先生,google 用了多少中國文化素材
除了中文,中國還有不少獨(dú)有的圖像,像看手相、算命、看穴位等等,Nano Banana Pro 也能像中文那樣做得好嗎?
prompts:
給下面的手看看手相。
![]()
可以看到 Nano Banana Pro 像一個(gè)算命先生一樣清晰的畫出手上的生命線、感情線和智慧線。然而,Nano Banana Pro 并沒有學(xué)到家,把智慧線和生感情線畫反了。
![]()
再來看一下老中醫(yī)擅長(zhǎng)的領(lǐng)域,足底穴位。
prompts:
"我想要對(duì)腎好,該按哪里"
![]()
Nano Banana Pro 不但知道對(duì)腎好要按涌泉穴,還正確指出涌泉穴的位置。
![]()
測(cè)試 4:哪里不會(huì)拍哪里
nanobanana 就有能拍照解題的潛力,但正確率不高,我們來試一下 Nano Banana Pro 的實(shí)力如何。
我們?cè)诰W(wǎng)上找了兩道題,一道代數(shù)題、一道幾何題。
prompts:
這題答案是什么?
![]()
由于作者本人數(shù)學(xué)已廢,我們就讓 GPT5 來判斷一下 Nano Banana Pro 答的對(duì)不對(duì)。
首先是第一題代數(shù)題,GPT5 的回答是:這題在「初中數(shù)學(xué)默認(rèn)前提:a,b,c 為實(shí)數(shù),且 a,b\ge 0」的條件下,是對(duì)的。唯一可以挑的刺是:AM-GM 需要 a,b\ge0 的前提,題目沒寫,但在七年級(jí)題目里一般是默認(rèn)的,所以在這個(gè)教學(xué)語境下,這份解答是成立的。
![]()
再看第二道更加復(fù)雜的幾何題,GPT5 計(jì)算后也給出了和 Nano Banana Pro 一樣的答案。
![]()
從這幾輪折騰下來看,Nano Banana Pro 已經(jīng)很難再被簡(jiǎn)單歸類為一個(gè)“畫圖工具”了。它一邊在像素層面穩(wěn)穩(wěn)地還原人物五官、菜單排版、界面細(xì)節(jié),一邊又在語義層面做著不那么“美工”的工作:知道誰是哪個(gè)大廠 CEO,能分清菜單上哪些文字必須一字不差照抄、哪些內(nèi)容可以自由發(fā)揮。遇到看手相、找穴位、做幾何題這種需要結(jié)構(gòu)理解的任務(wù),也不是隨便糊一張圖,而是先想清楚“這條線該從哪起、大致是什么角度”“這個(gè)高要垂到哪條邊上”,再動(dòng)手繪制。
它當(dāng)然還不完美,會(huì)把智慧線畫反,也會(huì)在俄文里冒出幾串詭異單詞,但你能明顯感覺到,它已經(jīng)在用“推理 + 生成”的流程去理解 prompt 和圖片,而不是機(jī)械地把詞表映射成紋理。對(duì)一個(gè)主打圖像生成的模型來說,這種能力的邊界正在悄悄往“世界模型”方向挪:它不只是知道“像什么樣子畫出來”,還在內(nèi)部搭建一個(gè)粗糙的世界觀,誰和誰屬于同一個(gè)會(huì)議室,菜單應(yīng)該長(zhǎng)在什么紙張上,力學(xué)和幾何關(guān)系大概怎么運(yùn)轉(zhuǎn)。
這也是為什么它讓人既興奮又有點(diǎn)警惕:當(dāng)一個(gè)生圖模型開始具備對(duì)場(chǎng)景、人物關(guān)系、物理與幾何結(jié)構(gòu)的統(tǒng)一理解,它離“看懂世界再畫世界”就不遠(yuǎn)了。下一步,當(dāng)你對(duì)它說“幫我畫一道我看不懂的題的解題過程”,它很可能先在自己的世界模型里把題做完,再順手把推理過程以一張圖的方式展現(xiàn)給你。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.