網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

國(guó)產(chǎn)多模態(tài)，26年可能會(huì)大爆發(fā)

2026-01-08 12:10:44　來(lái)源: AI異類

北京舉報(bào)

分享至

LMArena 昨晚更新，文心 ERNIE-5.0-Preview-1220 登上視覺(jué)理解榜
我更多是在想：放在整個(gè)多模態(tài)模型的技術(shù)演進(jìn)里，國(guó)產(chǎn)模型可以更有底氣了；對(duì)創(chuàng)業(yè)者開(kāi)發(fā)者來(lái)說(shuō)，26年能有更多應(yīng)用了

LMArena 的 Vision Arena，它是個(gè)以視覺(jué)理解、多模態(tài)對(duì)齊、跨模態(tài)生成能力為核心的長(zhǎng)期榜單
文心 5.0 Preview 的成績(jī)是 1226 分，中國(guó)第一，全球第八，也是目前唯一進(jìn)入全球前十的中國(guó)模型

至少說(shuō)明，在多模態(tài)理解這條線，已經(jīng)有國(guó)產(chǎn)模型，能穩(wěn)定進(jìn)入很嚴(yán)苛的第一梯隊(duì)了
2026年，很大可能是多模態(tài)應(yīng)用爆發(fā)的元年，文心很有可能起到關(guān)鍵作用

多模態(tài)模型，Vision Arena 的難點(diǎn)不是看不看得懂圖，在于三件事：
第一，視覺(jué)與語(yǔ)言的對(duì)齊是否穩(wěn)定；
第二，是否能在復(fù)雜圖像下保持指令遵循；
第三，是否具備跨模態(tài)的結(jié)構(gòu)化生成能力。

從榜單細(xì)項(xiàng)來(lái)看，文心很吸引我的是：在創(chuàng)意寫(xiě)作這一維度中，直接干到了全球第二，僅次于 Gemini-3-Pro。
這就很接近真實(shí)應(yīng)用場(chǎng)景，比如我搞自媒體：看圖 → 理解上下文 → 生成有結(jié)構(gòu)、有邏輯的內(nèi)容。

再看技術(shù)背景。
文心 5.0 是一個(gè)原生全模態(tài)模型，不是后期拼接的Dota結(jié)構(gòu)，參數(shù)規(guī)模 2.4 萬(wàn)億，是在嘗試用同一套表示空間去處理文本、圖像、音頻、視頻

這條路線的代價(jià)很高，但好處是，一旦對(duì)齊跑通，跨模態(tài)能力會(huì)更自然，不太依賴 prompt 技巧

所以接下來(lái)的多模態(tài)交互，對(duì)用戶來(lái)說(shuō)會(huì)有體驗(yàn)升級(jí)，對(duì)開(kāi)發(fā)者和創(chuàng)業(yè)者也將有應(yīng)用效果的創(chuàng)新空間

我對(duì)這次排名的感受其實(shí)很簡(jiǎn)單：站在2026年的開(kāi)年，文心帶來(lái)了一個(gè)階段性信號(hào)
信號(hào)在于，國(guó)產(chǎn)模型在多模態(tài)方向，已經(jīng)從驗(yàn)證可行進(jìn)入了主流體系，不再需要特殊對(duì)待

當(dāng)然，全球第八畢竟還不是全球第一，在推理深度、長(zhǎng)鏈路規(guī)劃、真實(shí)復(fù)雜場(chǎng)景的魯棒性上，差距依然存在

但至少現(xiàn)在，我們討論國(guó)產(chǎn)多模態(tài)模型時(shí)，可以更多基于結(jié)構(gòu)、路線和長(zhǎng)期能力積累，而不只是情緒和敘事

這對(duì)行業(yè)來(lái)說(shuō)，可能比單次排名更重要
對(duì)我們這樣的從業(yè)者來(lái)說(shuō)，也值得更有信心

最后一個(gè)暴論放在這里：2026年的多模態(tài)應(yīng)用，一定會(huì)有國(guó)民影響力的產(chǎn)品出圈！

#百度文心 #大模型 #ai #LMArena #多模態(tài) #百度 #AI異類弗蘭克

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.