百度又開源！消費級GPU可跑，文字渲染能力對標Nano Banana

2026-04-15 23:46:59　來源: 智東西

北京舉報

分享至

智東西
作者陳佳
編輯程茜

智東西4月15日報道，今日，百度文心大模型團隊正式開源文生圖模型ERNIE-Image，其參數(shù)規(guī)模僅8B，可在顯存24GB的消費級GPU上運行。該模型在GenEval、OneIG等多項國際基準上綜合得分位居開源模型第一，尤其在文字渲染能力上，與Nano Banana等商業(yè)閉源模型同處第一梯隊。

同步開源的還有ERNIE-Image-Turbo版本，其推理步數(shù)從標準版的50步壓縮至8步。

兩款模型的權重與推理代碼已全部上傳至Hugging Face，遵循Apache 2.0協(xié)議，ComfyUI工作流模板也已同步上線，開源量化方案由模型加速工具鏈Unsloth合作提供GGUF格式支持。

ERNIE-Image采用單流DiT架構，并內(nèi)置提示詞增強（Prompt Enhancer）模塊，可將簡短輸入自動擴展為結構化描述再進行生成，提升指令理解與細節(jié)控制能力。

▲百度ERNIE-Image開源代碼倉庫頁面，并已獲得78顆星（圖源：GitHub）

智東西用六組提示詞對該模型Turbo版本進行了實測，從實際體驗來看，ERNIE-Image-Turbo在處理復雜畫面時表現(xiàn)穩(wěn)定，比如多物體按照提示詞要求擺放、圖表生成、光影效果這些的任務基本都能做到位，但涉及復雜文字、多語言內(nèi)容或人物關系這種更精細的要求，就容易出現(xiàn)寫錯字或理解偏差的問題。

技術Blog：https://ernie.baidu.com/blog/zh/posts/ernie-image/

體驗平臺：https://aistudio.baidu.com/ernieimage

Hugging Face：
https://huggingface.co/baidu/ERNIE-Image
https://huggingface.co/baidu/ERNIE-Image-Turbo

一、六組高難Prompt實測，多主體與圖表生成表現(xiàn)良好

我們用六組提示詞對ERNIE-Image-Turbo做了測試，覆蓋高密度多語言文字渲染、多語言混排、漫畫分鏡敘事、數(shù)據(jù)圖表生成、多主體空間控制和光影人像六個維度。六組全部單次生成，未經(jīng)重試篩選，所有圖均為原圖直出。

整體感受是，該模型多主體空間關系控制、數(shù)據(jù)圖表生成和光影細節(jié)還原這幾項能力表現(xiàn)不錯，但碰到高復雜度文字渲染，踩坑比預期要明顯。

1、生僻漢字渲染，“鬱”字沒能過關

第一組想看的是，這個模型能不能在圖像里準確寫出筆畫復雜的生僻字，尤其是形近字。

該模型在宣紙水墨背景、楷體風格與紅色 “文心” 印章這些視覺氛圍營造上均還原到位。

但在文字精確生成上存在明顯失誤，我們指定的第一行是“鬱鬱蔥蔥”（yù yù cōng cōng），生成出來變成了“糲糲萬蕙”，完全不是同一個字。第三行的生僻字“贏麟龑靐”（yíng lín yǎn bìng），生成結果是“贏麟頃?”，“龑”和“靐”這兩個高復雜度字直接被換掉了。三行里只有第二行“薛蟠賈雨村”字形結構沒有問題。

2、中英日韓四語混排，英文丟了個字母

中英日韓四語混排測試里，整體呈現(xiàn)和提示詞要求基本對得上，版式、風格沒什么大問題。但仔細看會發(fā)現(xiàn)，第二行的“Knowledge”明顯少寫了一個字母“e”，第四行的韓文也和指定的“???? ??? ??”有出入。

我們隨后加大了難度，要求該模型把四種語言以極小字號清晰呈現(xiàn)、筆畫無鋸齒、嚴格網(wǎng)格對齊。結果圖里出現(xiàn)了亂碼、字符變形和內(nèi)容篡改，多處文字直接無法識別，指定的技術參數(shù)和評測數(shù)據(jù)沒有一個完整還原出來。

3、漫畫分鏡實測，角色搞反了

這一組測試同時考三件事：多面板布局、角色跨格一致性、氣泡里的文字渲染。

生成圖片的布局和風格表現(xiàn)不錯，兩行三列的均等分鏡結構完整，格間分隔清晰，角色外觀在六格之間保持了一致性。但劇情出了岔子，第二格設定的是學生舉手提問，氣泡內(nèi)容是“老師，這是什么意思？”，生成出來變成了教授舉手，氣泡也跟著配在了教授身上，互動主體完全反了。該模型在語義上出了理解偏差。

4、生成數(shù)據(jù)圖表，細節(jié)基本準確到位

這一組測的是能不能該模型按指令生成結構嚴謹?shù)谋砀窈涂梢暬瘓D，數(shù)字和標簽準不準。

這組表現(xiàn)比預期好。表頭“模型名稱”“參數(shù)量”“GenEval得分”清晰無誤，填入的模型名稱、8B參數(shù)量，以及0.8856、0.8667等具體得分都沒有遺漏或改錯。右欄條形圖的配色規(guī)則也嚴格執(zhí)行了，橙色高亮ERNIE-Image (w/o PE)，藍色呈現(xiàn)其余模型，Y軸的0.75到0.95區(qū)間準確，條形頂部數(shù)值標注和表格完全一致。唯一的小瑕疵是X軸第二個模型名稱漏掉了“Turbo”。

5、七件物品測多主體空間控制，位置關系對得很準

這組測試要求該模型嚴格控制七個物品的位置、尺寸、遮擋關系，在一張寫實俯拍桌面照里把它們放對地方。

這是六組里最讓人滿意的一組，七個指定物品全部按要求出現(xiàn)，且核心位置關系沒有亂：翻開的精裝書在畫面正中，左頁手寫批注“此處存疑”、右頁英文印刷句都清晰可讀；黑色細框眼鏡壓在書本左上角；白色陶瓷咖啡杯在書本右側，心形拉花形態(tài)自然；一元人民幣硬幣在咖啡杯右側；黃色便利貼貼于書本正下方，手寫“deadline:4月20日”內(nèi)容準確；鋼筆放在桌面左下角，筆尖朝向書本，全程無人物入鏡。空間邏輯自洽，沒有出現(xiàn)物品疊錯或位置串行的情況。

6、倫勃朗布光，光影執(zhí)行到位

最后一組想測的是，在給出高度具體的光影、材質和色彩指令后，該模型會不會自行簡化內(nèi)容。

結果是，該模型嚴格執(zhí)行了指令：畫面采用倫勃朗布光，主光來自左上方45度角，右側臉頰的三角形光斑清晰可辨，輪廓規(guī)整；右側完全無補光，僅靠少量環(huán)境反光勾出輪廓；背景純黑，無紋理；膚質寫實，毛孔可見，無磨皮痕跡；深色高領毛衣領口處的編織紋理也還原出來了。

二、國際基準評測成績單，文字渲染在開源模型里拿第一

百度在三個國際公開基準上對ERNIE-Image進行了系統(tǒng)評測，分別是衡量通用圖像生成能力的GenEval、覆蓋中英文雙語場景的OneIG，以及專門測試高密度文字渲染的LongText-Bench。

在衡量通用圖像生成能力的GenEval測試中，ERNIE-Image（不啟用PE）綜合得分為0.8856，在所有參測模型中排名第一，超過Qwen-Image（0.8683）和FLUX.2-klein-9B（0.8481）。

▲GenEval專業(yè)文生圖模型評測基準（圖源：百度ERNIE-Image技術報告）

OneIG英文榜上，ERNIE-Image開啟PE后綜合得分0.5750，僅次于Nano Banana 2.0（0.5780）和Seedream 4.5（0.5760），位列第三，同時在推理維度單項排名第一（0.3566）。

▲OneIG-EN，評估文生圖模型在英文提示詞場景下綜合生成能力的量化評測體系（圖源：百度ERNIE-Image技術報告）

中文榜上，ERNIE-Image開啟PE的綜合得分為0.5543，同樣位列前兩名僅次于Nano Banana 2.0，還在多樣性維度上跑出了0.2478的最高分。

▲OneIG-ZW，評估文生圖模型在中文提示詞場景下綜合生成能力的量化評測體系（圖源：百度ERNIE-Image技術報告）

文字渲染專項LongText-Bench是最能體現(xiàn)ERNIE-Image差異化能力的榜單。英文維度上，ERNIE-Image開啟PE得分0.9804，中文維度0.9661，綜合均分0.9733，在所有開源模型中排名第一。對比來看，Nano Banana 2.0綜合均分0.9650，Qwen-Image為0.9445，Z-Image為0.9355。

▲LongText-Bench，專業(yè)文生圖長文本評測基準（圖源：百度ERNIE-Image技術報告）

三、架構輕量、部署門檻低，8B參數(shù)跑進商用模型射程

ERNIE-Image的核心架構是單流Diffusion Transformer（DiT），并內(nèi)置一個輕量級提示詞增強器Prompt Enhancer（PE）模塊，負責將用戶的簡短文字輸入自動擴展為更豐富、結構化的詳細描述，再送入DiT主干生成圖像。

該模型的參數(shù)規(guī)模僅8B，這在開源文生圖領域屬于中小體量，但百度稱在參數(shù)效率優(yōu)化上做了大量工作，使運行門檻降至24GB顯存的消費級GPU，顯著低于此前同精度水平模型的部署要求。對照部分大參數(shù)開源模型的運行需求，ERNIE-Image這一設計的意義在于，個人創(chuàng)作者和中小團隊無需購置專業(yè)工作站即可本地部署。

兩個模型版本在調(diào)用方式上有所區(qū)別：標準版ERNIE-Image推理步數(shù)為50步，CFG（分類器自由引導）值為4.0；Turbo版由DMD和強化學習聯(lián)合優(yōu)化，推理步數(shù)降至8步，CFG降至1.0，犧牲少量精度換取速度提升。

在工程部署上，百度同時提供了兩種集成方案。第一種是通過Hugging Face的diffusers庫直接調(diào)用，只需幾行Python代碼即可完成推理；第二種是通過推理框架SGLang部署服務端，并支持將PE模塊單獨剝離，用vLLM單獨運行以加快提示詞擴展速度，DiT主干與PE各占獨立端口，適合對延遲敏感的線上場景。此外，AI-Toolkit已支持對ERNIE-Image進行微調(diào)訓練，為有個性化需求的開發(fā)者提供了完整的訓練-推理鏈路。

結語：文生圖再進階，從“能出圖”走向“可控生成”

如果把文生圖模型的發(fā)展拆開看，過去一段時間的進步主要集中在“畫得更像”，但在復雜結構控制、規(guī)則執(zhí)行和文本表達上一直不穩(wěn)定。

此次ERNIE-Image的實測結果顯示，多主體位置關系、圖表結構、分鏡布局和光影條件這類“強約束任務”已經(jīng)可以較穩(wěn)定完成。未來，誰能先解決文本與語義一致性問題，誰才更有可能真正進入設計、內(nèi)容生產(chǎn)等高要求場景。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.