LMArena 昨晚更新,文心 ERNIE-5.0-Preview-1220 登上視覺(jué)理解榜
我更多是在想:放在整個(gè)多模態(tài)模型的技術(shù)演進(jìn)里,國(guó)產(chǎn)模型可以更有底氣了;對(duì)創(chuàng)業(yè)者開(kāi)發(fā)者來(lái)說(shuō),26年能有更多應(yīng)用了
LMArena 的 Vision Arena,它是個(gè)以視覺(jué)理解、多模態(tài)對(duì)齊、跨模態(tài)生成能力為核心的長(zhǎng)期榜單
文心 5.0 Preview 的成績(jī)是 1226 分,中國(guó)第一,全球第八,也是目前唯一進(jìn)入全球前十的中國(guó)模型
至少說(shuō)明,在多模態(tài)理解這條線,已經(jīng)有國(guó)產(chǎn)模型,能穩(wěn)定進(jìn)入很嚴(yán)苛的第一梯隊(duì)了
2026年,很大可能是多模態(tài)應(yīng)用爆發(fā)的元年,文心很有可能起到關(guān)鍵作用
多模態(tài)模型,Vision Arena 的難點(diǎn)不是看不看得懂圖,在于三件事:
第一,視覺(jué)與語(yǔ)言的對(duì)齊是否穩(wěn)定;
第二,是否能在復(fù)雜圖像下保持指令遵循;
第三,是否具備跨模態(tài)的結(jié)構(gòu)化生成能力。
從榜單細(xì)項(xiàng)來(lái)看,文心很吸引我的是:在創(chuàng)意寫(xiě)作這一維度中,直接干到了全球第二,僅次于 Gemini-3-Pro。
這就很接近真實(shí)應(yīng)用場(chǎng)景,比如我搞自媒體:看圖 → 理解上下文 → 生成有結(jié)構(gòu)、有邏輯的內(nèi)容。
再看技術(shù)背景。
文心 5.0 是一個(gè)原生全模態(tài)模型,不是后期拼接的Dota結(jié)構(gòu),參數(shù)規(guī)模 2.4 萬(wàn)億,是在嘗試用同一套表示空間去處理文本、圖像、音頻、視頻
這條路線的代價(jià)很高,但好處是,一旦對(duì)齊跑通,跨模態(tài)能力會(huì)更自然,不太依賴 prompt 技巧
所以接下來(lái)的多模態(tài)交互,對(duì)用戶來(lái)說(shuō)會(huì)有體驗(yàn)升級(jí),對(duì)開(kāi)發(fā)者和創(chuàng)業(yè)者也將有應(yīng)用效果的創(chuàng)新空間
我對(duì)這次排名的感受其實(shí)很簡(jiǎn)單:站在2026年的開(kāi)年,文心帶來(lái)了一個(gè)階段性信號(hào)
信號(hào)在于,國(guó)產(chǎn)模型在多模態(tài)方向,已經(jīng)從驗(yàn)證可行進(jìn)入了主流體系,不再需要特殊對(duì)待
當(dāng)然,全球第八畢竟還不是全球第一,在推理深度、長(zhǎng)鏈路規(guī)劃、真實(shí)復(fù)雜場(chǎng)景的魯棒性上,差距依然存在
但至少現(xiàn)在,我們討論國(guó)產(chǎn)多模態(tài)模型時(shí),可以更多基于結(jié)構(gòu)、路線和長(zhǎng)期能力積累,而不只是情緒和敘事
這對(duì)行業(yè)來(lái)說(shuō),可能比單次排名更重要
對(duì)我們這樣的從業(yè)者來(lái)說(shuō),也值得更有信心
最后一個(gè)暴論放在這里:2026年的多模態(tài)應(yīng)用,一定會(huì)有國(guó)民影響力的產(chǎn)品出圈!
#百度文心 #大模型 #ai #LMArena #多模態(tài) #百度 #AI異類弗蘭克
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.