337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Nano Banana,OpenAI你學不會

0
分享至


奧特曼向OpenAI的全體員工發了一封內部信,他坦言道,雖然OpenAI仍處于領先地位,但是谷歌正在縮短差距。并奧特曼也承認,正是由于谷歌最近一系列的產品發布,為OpenAI帶來了不小的壓力。

事實也正如奧特曼所言,谷歌這次帶來的,除了贏得滿堂彩的Gemini 3 Pro,還有讓整個AIGC圈震撼的Nano Banana Pro。在此之前,所有生圖模型的底層邏輯都是臨摹世界。通過海量的數據庫,尋找最接近描述的圖,將其拼湊給你。

而Nano Banana Pro的出現,則徹底打破了這個規則。它并不是在“畫圖”,而是在“模擬物理世界”。其最大的突破在于,引入了思維鏈(Chain of Thought)推理機制,先讓模型進行思考,再去畫圖。

在落下第一個像素之前,模型會先在潛空間內進行邏輯推演,計算物體的數量、確定光影的投射角度、規劃空間嵌套關系。它不再依賴文本作為中轉站,推理結果直接以高維向量的形式指導像素生成。

那么問題來了,為什么OpenAI開發不出Nano Banana Pro?

01

在回答問題之前,不妨先看看Nano Banana Pro,它和OpenAI現在生圖主要使用的GPT-4o到底有何區別。

以“三個蘋果”的生成任務為例,提示詞為:“左側蘋果帶有咬痕,中間蘋果附著水珠,右側蘋果呈現腐爛狀態”。面對這一指令,GPT-4o通常會迅速生成一張色彩明艷、構圖完美的圖像。

但在細節核驗時往往暴露出概率生成的缺陷,中間蘋果上面的水珠其排布不符合客觀規律,而右邊蘋果的腐爛看起來又過于刻意。


相比之下,Nano Banana Pro輸出的圖像不僅數量精確,且每個對象的屬性都嚴格對應——左側的缺口、中間的折射光感、右側的氧化紋理,均被精準還原。


這種表象差異的背后,是兩條截然不同的技術路徑。

GPT-4o的生成機制本質上基于統計學相關性,它在海量訓練數據中檢索“蘋果+咬痕”的視覺特征,并通過概率分布進行拼貼與融合。它并未真正理解“三個”的數量概念,也未構建“腐爛”的物理模型,僅是根據高維空間中的特征距離進行近似匹配。

而Nano Banana Pro引入了思維鏈(Chain-of-Thought, CoT)機制,將圖像生成過程從單純的“像素預測”升級為“邏輯推演”。在落下第一個像素前,模型內部已完成了一輪符號化的規劃:首先確立實體對象(Object 1, 2, 3),隨即分配空間坐標,最后綁定物理屬性。

針對“咬痕”,它推演的是幾何形態的改變;針對“水珠”,它計算的是光學反射與折射的物理規律;針對“腐爛”,它模擬的是材質屬性的演變。這是一套從語義理解到邏輯規劃,再到執行生成的全鏈路閉環。

這種機制在處理涉及物理規律的復雜場景時優勢尤為凸顯。

提示詞“窗臺上的半杯水,陽光從左側射入”。

GPT-4o所生成的圖片,僅0具備視覺合理性,但在物理上自相矛盾的光影關系。此時,窗臺左側應存在由玻璃杯反射出來的陽光,但是圖片中僅存在右側折射出來的光線。


而具Nano Banana Pro會先行計算光源向量,推導陰影投射方向以及液體介質的光線折射率。這種基于物理常識的推理,使得生成結果不再是視覺元素的堆砌,而是對物理世界的數字模擬。


更為深層的架構差異在于,OpenAI目前的體系存在顯著的“文本信息瓶頸”(Text Information Bottleneck)。在ChatGPT中調用繪圖功能時,用戶的簡短指令往往會被GPT改寫為一段詳盡的Prompt,再傳遞給圖片生成模型。

這一過程看似豐富了細節,實則引入了噪聲。文本作為一維的線性信息載體,在描述三維空間關系、拓撲結構及復雜的物體屬性綁定時,存在天然的低帶寬缺陷。改寫過程極易導致原始意圖中的關鍵約束被修飾性語言淹沒,造成信息的有損傳輸。

此外,漢字對于圖片生成大模型來說也是一個噩夢。GPT-4o在很長時間里,寫字都是“亂碼生成器”,甚至讓它寫“OpenAI”,它都能寫成“OpanAl”或者一堆奇怪的符號。

我讓GPT-4o以字母榜LOGO為參考,生成一個字母榜的招牌。


但Nano Banana Pro實現了對文字的精準控制。在同樣的提示詞下,Nano Banana Pro提取出了上方的字母榜,左右兩側的A和Z,以及最下方的弧線,并將這些元素置于不同的圖層、不同的材質。


Nano Banana Pro則采用了原生多模態(Native Multimodal)架構,這是一種統一模型的解決方案。

用戶的輸入在模型內部直接映射為包含語義、空間及物理屬性的高維向量,無需經過“文本-圖像”的轉譯中介。這種端到端的映射關系,如同建筑師直接依據藍圖施工,而非依賴翻譯人員的口述傳達,從而根除了中間環節的信息熵增。

但這也造成了另外一個問題,提示詞門檻被拉高了。我們回到一開始三個蘋果的提示詞上。

這是輸入給GPT-4o的提示詞,簡單易懂,就是在描述畫面構成。


而這是給Nano Banana Pro的提示詞??雌饋砭拖馪ython代碼一樣,通過函數和()來控制生成的圖片。


在涉及計數、方位布局、多物體屬性綁定(Attribute Binding)等精確控制任務上,Nano Banana Pro表現出色。它能清晰區分不同對象的屬性歸屬,避免了擴散模型常見的“屬性泄露”問題(如將紅杯子的顏色錯誤渲染到藍杯子上)。

當然,GPT-4o依然保有其獨特的生態位。其優勢在于推理速度與基于RLHF(人類反饋強化學習)調優后的審美直覺。

由于剝離了復雜的邏輯推理環節,其生成效率更高,且更能迎合大眾對高飽和度、戲劇化光影的視覺偏好。對于追求視覺沖擊力而非邏輯嚴謹性的通用場景,GPT-4o依然是高效的選擇。

然而,當需求從“好看”轉向“準確”,從“相關性”轉向“因果性”,Nano Banana Pro所代表的“先思考、后執行”模式便構成了降維打擊。它犧牲了部分的生成速度與討好眼球的濾鏡感,換取了對物理邏輯的忠實還原。

02

橘生淮南則為橘,生于淮北則為枳。Nano Banana Pro和GPT-4o之所以會有如此的差距,正是因為其開發者,谷歌和OpenAI在AI這條路上,選擇兩種完全不同的發展方向。

谷歌選擇的是“原生多模態”這條路。

就是從模型訓練的第一天起,文本、圖像、視頻、音頻就混在一起,扔進同一個神經網絡里讓它學。在Gemini的眼里,一這些事物本質上沒有區別,都是數據。它不需要先把圖片翻譯成文字,再去理解文字。

這就像一個人從小就會說中文、英文、法文,這三種語言在他腦子里是同時存在的,他不需要先把英文翻譯成中文再思考。

而OpenAI走的是“模塊化拼接”這條路。

它的邏輯是,讓專業的人做專業的事。GPT-5負責理解語言和邏輯推理,GPT-4o負責生成圖像,Whisper負責處理語音。

每個模塊都做得很好,然后通過API把它們連起來。這就像一個團隊,有文案、有設計師、有程序員,大家各司其職,通過開會和文檔來協作。

這兩種路線,沒有絕對的對錯,但會導致完全不同的結果。

谷歌最大的優勢,來自于YouTube。這是全世界最大的視頻庫,里面有幾十億小時的視頻內容。這些視頻不是靜態的圖片,而是包含了時間序列、因果關系、物理變化的動態數據。Gemini從一開始就是“看這些視頻長大的”。

換句話說,Gemini從誕生之初,就理解物理世界的基本運行邏輯。杯子掉在地上會摔碎,水倒進杯子里會形成液面。這些東西不是靠文字描述學來的,而是通過看真實世界的視頻,自己總結出來的。

所以當你讓Nano Banana Pro畫“一個杯子從桌子上掉下來的瞬間”,它不會畫出一個漂浮在空中、姿態僵硬的杯子。它會畫出杯子在下落過程中的傾斜角度,杯子里的水濺起來的形態,甚至是杯子即將觸地時周圍空氣的擾動感。因為它見過太多這樣的場景,它知道真實世界是怎么運作的。


除了YouTube,谷歌還有另一個護城河:OCR。谷歌做了幾十年的光學字符識別,從Books到Lens,谷歌積累了全球最大的“圖片-文字”對齊數據庫。這直接導致了Gemini在文字渲染上的碾壓性優勢。

它知道漢字在圖片里應該長什么樣,知道不同字體、不同大小、不同排列方式下,文字應該怎么呈現。這也是為什么Nano Banana Pro能精準識別漢字。

反觀OpenAI,它的起家靠的是文本。從GPT-1到GPT-3再到GPT-5,它在語言模型上一路狂奔,確實做到了世界頂級。但視覺能力是后來才加上去的。

DALL-E早期是獨立發展的,訓練數據主要來自網絡抓取的靜態圖片,來自Common Crawl這樣的數據集。這些圖片質量參差不齊,而且都是靜態的,沒有時間維度,沒有物理過程,沒有因果關系。

所以DALL-E學到的,更多是“這個東西大概長這樣”,而不是“這個東西為什么長這樣”或者“這個東西會怎么變化”。它可以畫出一只很漂亮的貓,但它不理解貓的骨骼結構,不理解貓的肌肉如何運動,不理解貓在跳躍時身體會呈現什么姿態。它只是見過很多貓的照片,然后學會了“貓長這樣”。

更關鍵的是訓練方式的差異。

正是因為OpenAI走的是RLHF路線。所以他們雇了大量的人類標注員,給生成的圖片打分:“這張好看嗎?”“這張更符合要求嗎?”標注員們在選擇的時候,自然而然會傾向于那些色彩鮮艷、構圖完美、皮膚光滑、光影戲劇化的圖片。

這導致GPT-4o被訓練成了一個“討好型人格”的畫家。它學會了怎么畫出讓人眼前一亮的圖,學會了怎么用高對比度和飽和色來抓住眼球,學會了怎么把皮膚修得像瓷器一樣光滑。但代價是,它犧牲了物理真實感。

GPT-4o生成的圖片,有一種很典型的“DALL-E濾鏡”。皮膚像涂了蠟,物體表面特別光滑,光影過度戲劇化,整體感覺就是“一眼假”。它不敢畫出皮膚上的毛孔,不敢畫出布料的褶皺,不敢畫出不完美的光照。因為在訓練過程中,那些帶有瑕疵的、粗糙的、不那么“美”的圖片,都被標注員打了低分。

而谷歌沒有走這條路。Gemini的訓練更注重“真實”而不是“美”。世界本就如此,它沒有書本里描繪的那么美。

03

那么谷歌又是如何追上OpenAI,以至于讓奧特曼發內部信來強調危機感的呢?

谷歌選擇在“準確性”和“邏輯”上發力。谷歌將其稱為“Grounding”,也就是“接地氣”,也就是“真實性”。

為了實現這個目標,谷歌把思考過程,引入了圖像生成過程。這個決策會大大增加計算成本,因為在生成圖像的時候加入推理步驟,生成速度也就變慢了。但谷歌判斷這個代價是值得的,因為它換來的是質的提升。

當你給Nano Banana Pro一個提示詞,比如“畫一個廚房,左邊是冰箱,右邊是灶臺,中間的桌子上放著三個碗”,模型不會直接開始畫。它會先啟動思維鏈:

首先,識別場景類型:廚房。然后,識別對象:冰箱、灶臺、桌子、碗。接著,確定空間關系:冰箱在左,灶臺在右,桌子在中間。再確定數量:三個碗。然后推理物理邏輯:廚房里通常會有什么光源?桌子應該離冰箱和灶臺多遠才合理?三個碗應該怎么排列?最后,確定視角和構圖:從什么角度看這個場景最合適?

這一整套思考完成后,模型會在內部生成一些“思考圖像”,這些圖像用戶看不到的,但它們幫助模型理清了思路。最后,模型才開始生成真正的輸出圖像。

這個過程看起來復雜,但它解決了一個核心問題:讓模型“理解”而不是“猜測”。

GPT-4o以及市面上絕大多數生成圖片的模型,都是靠概率猜,“用戶說廚房,那我就把我見過的廚房元素拼起來,大概就對了?!?/p>

而Nano Banana Pro則是真正去理解廚房這個概念:“用戶說廚房,廚房是用來洗菜做飯的,所以這個廚房需要滿足這些空間關系和物理邏輯,我要按照這個邏輯來構建。”

反觀OpenAI,它目前的策略是把最強的推理能力集中在o1系列模型上,也就是之前代號為Strawberry的項目。o1在數學推理和代碼生成上確實很強,它能解決一些人類數學家都覺得有挑戰的問題,能寫出復雜的算法代碼。

至于圖像生成,OpenAI的判斷是:目前GPT-4o的“直覺式”生成已經足夠好了,足夠維持用戶體驗,足夠在市場上保持領先,并不需要繼續提升。

還有一個因素是產品理念的差異。OpenAI一直強調的是PMF,也就是Product-Market Fit,產品市場契合度。它的策略是“快速迭代,快速驗證”。

DALL-E 3只要能通過提示詞和GPT-4拼起來用,那就先發布,先占領市場。后臺的架構可以慢慢改,用戶看不見的地方可以慢慢優化。

這個市場策略被稱為“膠水科技”,其最大的弊端在于積累的技術債太多了。當你一開始選擇了模塊化拼接的架構,后面想要改成原生多模態,就不是簡單地加幾行代碼的問題了。這可能需要重新訓練整個模型,需要重新設計數據管道,需要重新構建工具鏈。

谷歌慢工出細活,可他們也有自己的難處。

原生多模態模型的維護成本也更高。如果你想提升圖像生成能力,就需要調整整個模型。這就是為什么,Nano Banana Pro只能伴隨著Gemini 3的更新,沒辦法自己單獨更新。

這種“按下葫蘆浮起瓢”的問題,在模塊化架構里就不存在,因為當你你只需要優化圖像生成模塊,根本不用擔心影響到文本模塊。

所以OpenAI確實沒辦法訓練出來Nano Banana Pro。

然而這并不意味著谷歌可以高枕無憂了,因為AI領域迭代速度太快了。我敢打賭,不出半個月,就會有一大幫生圖模型問世,直接對標Nano Banana Pro。


歡迎在評論區留言~
如需開白請加小編微信:dongfangmark


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳麗華公司曝離世內幕!對遲重瑞稱呼暴露真實關系,遺言看哭眾人

陳麗華公司曝離世內幕!對遲重瑞稱呼暴露真實關系,遺言看哭眾人

一盅情懷
2026-04-07 16:21:17
馬杜羅被捕后暴瘦13公斤

馬杜羅被捕后暴瘦13公斤

烽火觀天下
2026-04-07 12:34:13
美國的槍店老板,為什么不怕顧客買完槍后朝他射擊?

美國的槍店老板,為什么不怕顧客買完槍后朝他射擊?

心中的麥田
2026-04-06 19:26:47
時隔6年,那個曾揚言讓中國給全世界道歉,被央視開除的阿丘怎樣了

時隔6年,那個曾揚言讓中國給全世界道歉,被央視開除的阿丘怎樣了

閱微札記
2026-04-07 15:01:54
1996年,施瓦辛格喝醉了在家休息,看到200斤的傭人在做家務……

1996年,施瓦辛格喝醉了在家休息,看到200斤的傭人在做家務……

歲月有情1314
2026-04-07 15:49:39
國防部正式將“臺獨首惡”賴清德,定為民族敗類!

國防部正式將“臺獨首惡”賴清德,定為民族敗類!

愿你余生安好嘴角帶笑
2026-03-30 08:40:31
小鵬汽車法務部回應四川廣元單車碰撞事故

小鵬汽車法務部回應四川廣元單車碰撞事故

IT之家
2026-04-07 17:07:22
男子跳湖救下溺水孩子后默默離開,“我正好在就下去了”

男子跳湖救下溺水孩子后默默離開,“我正好在就下去了”

澎湃新聞
2026-04-06 20:28:27
張雪早年最大的貴人被扒出:數十次借錢救命,從沒收過一分學費

張雪早年最大的貴人被扒出:數十次借錢救命,從沒收過一分學費

科技頭版Pro
2026-04-07 14:49:16
王楚欽奪得世界杯冠軍成全了多少人?樊振東張本智和都得發來賀電

王楚欽奪得世界杯冠軍成全了多少人?樊振東張本智和都得發來賀電

羅納爾說個球
2026-04-06 16:43:41
陳光標變現大勞捐千萬后續!曝嫣然已退款,原因炸裂,果然有貓膩

陳光標變現大勞捐千萬后續!曝嫣然已退款,原因炸裂,果然有貓膩

億通電子游戲
2026-04-07 17:54:26
英媒:伊朗消息人士稱伊朗拒絕“臨時?;稹?>
    </a>
        <h3>
      <a href=新華社
2026-04-07 20:00:05
卡斯爾19+11+13馬刺戰勝76人收獲60勝,文班亞馬17分傷退

卡斯爾19+11+13馬刺戰勝76人收獲60勝,文班亞馬17分傷退

湖人崛起
2026-04-07 10:32:12
陳麗華去世僅2天,幾百億遺產分配曝光!仨子女和遲重瑞恐難獲得

陳麗華去世僅2天,幾百億遺產分配曝光!仨子女和遲重瑞恐難獲得

小梊搞笑解說
2026-04-07 20:18:19
網傳烏克蘭基輔大學迎新照,滿屏美女讓網友直呼詭異

網傳烏克蘭基輔大學迎新照,滿屏美女讓網友直呼詭異

消失的電波
2026-04-07 16:54:04
曝全紅嬋遭霸凌:282人微信群長期辱罵她 多位隊友在群內但未制止

曝全紅嬋遭霸凌:282人微信群長期辱罵她 多位隊友在群內但未制止

風過鄉
2026-04-07 06:13:04
2名飛行員和5億美元哪個更重要?

2名飛行員和5億美元哪個更重要?

山河路口
2026-04-06 12:12:25
伊朗首都響起密集爆炸聲

伊朗首都響起密集爆炸聲

新華社
2026-04-07 15:55:05
東北3歲小網紅繼續做吃播,父母是真不想上班

東北3歲小網紅繼續做吃播,父母是真不想上班

九方魚論
2026-04-07 05:02:58
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
2026-04-08 00:03:00
直面派 incentive-icons
直面派
講述值得講述的真實故事
258文章數 237關注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

頭條要聞

特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產

財經要聞

10萬億財政轉移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

家居
數碼
本地
公開課
軍事航空

家居要聞

雅致愜意 感知生活之美

數碼要聞

OPPO ColorOS共創者星球2026年第1期高票建議采納情況公布

本地新聞

跟著歌聲游安徽,聽古村回響

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍營救飛行員出動155架飛機

無障礙瀏覽 進入關懷版