![]()
機器之心編輯部
真實世界里,超過 80% 的信息以視覺形態(tài)存在。前端 UI、架構圖、數(shù)據(jù)看板 …… 開發(fā)者日常面對的絕大部分需求,都是以視覺形態(tài)存在的。但一直以來,國內許多代碼大模型卻在「盲人摸象」,只能依賴純文本描述來猜測頁面布局與結構。
就在本周四,智譜正式發(fā)布了GLM-5V-Turbo—— 專為視覺編程打造的多模態(tài) Coding 基座模型。發(fā)布之后,海外社區(qū)熱度非常高,主貼閱讀量已百萬。
![]()
GLM-5V-Turbo 原生融合視覺與文本能力,讓模型不再依賴文本轉譯來「猜測」世界,而是直接看懂設計圖、解析復雜界面并直接生成對應代碼,徹底打通了「從視覺感知到代碼實現(xiàn)」的開發(fā)鏈路。
正如下面這位 X 用戶所總結的,「GLM-5V-Turbo 有意思的地方,并不只是多模態(tài),更在于它提供了一整套能力組合:視覺理解、編程能力、工具調用以及 GUI Agent。現(xiàn)在大家都在朝同一個方向收斂:模型不再只是回答問題,而是能夠執(zhí)行操作。」
![]()
既然被冠以「Turbo」之名,智譜新模型在推理速度上自然表現(xiàn)出色,同時它也在三大核心方向上完成了全面進化:
首先是多模態(tài) Coding(視覺編程)。在前端看重的 Design2Code 評測中,GLM-5V-Turbo 拿下了 92.6 的高分,超越了 K2.5 的 91.3 分。這意味著,它在將視覺 UI 轉化為代碼的精度上,達到了令人滿意的水平。
其次是多模態(tài)工具調用(Tool Use)。面對真實網(wǎng)頁和物理環(huán)境交互,它的 BrowseComp-VL 成績達到了 48.7,同樣領先 K2.5(42.9),真正具備了「看圖找工具辦事」的能力。
最后是Agent 復雜任務。在最能檢驗智能體綜合規(guī)劃與執(zhí)行力的 ClawEval 權威評測中,GLM-5V-Turbo 的 Pass3 分數(shù)直接逼近了目前業(yè)內閉源的天花板 Claude Opus 4.6。
![]()
![]()
目前,GLM-5V-Turbo 已經(jīng)開放了 API ,Coding Plan用戶可以申請搶先試用。大家可以通過以下多個渠道訪問該模型。
- BigModel 開放平臺:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo
- AutoClaw(澳龍):https://autoglm.zhipuai.cn/autoclaw/
- Z.ai:https://chat.z.ai
此前,在大模型 API 聚合平臺 OpenRouter 上,GLM 5 Turbo 的調用量已經(jīng)躋身前五。開發(fā)者使用該模型大多數(shù)是用來支持 OpenClaw 的。
![]()
而隨著 GLM-5V-Turbo 引入更強的視覺編程能力,其在 OpenClaw 相關任務中的表現(xiàn)同樣亮眼。目前,該模型已被添加到 OpenClaw 內置的模型目錄里。
![]()
在獲得模型內測資格后,我們馬上進行了一番測試。
一手實測:多模態(tài)「點石成金術」
這次,GLM-5V-Turbo 將「視覺感知」與「代碼生成」深度融合,「圖像即代碼」是這一模型的最大亮點。為此,我們聚焦于多模態(tài) Coding (視覺編程),循序漸進地測試該模型的實際能力。
首先,我們來考察一下 GLM-5V-Turbo 在截圖寫代碼方面的表現(xiàn),特別是前端設計還原。
我們發(fā)現(xiàn) GLM-5V-Turbo 在「圖像即代碼」這方面已經(jīng)徹底 Next Level 了,移動端的前端代碼復現(xiàn)完全不在話下。我們看下這個案例:
![]()
請根據(jù)提供的設計草圖復刻移動端界面。 截圖包含:
左側屏幕: 歡迎/引導頁中間屏幕: 首頁右側屏幕: 統(tǒng)計/情緒日歷頁
除此之外,請另外構思并制作剩余的兩個頁面,使產品呈現(xiàn)出完整的 5 頁面移動端應用流程。最終效果應呈現(xiàn)為一個精致、現(xiàn)代的健康/心情追蹤移動應用。
![]()
結果非常令人驚喜,交互和排版一應俱全,充滿色彩的 APP 界面讓人眼前一亮。
除去移動端的案例,我們喂給它下面這張SaaS 后臺設計稿,直接讓它「復刻」,看它能否做到高還原度呈現(xiàn)。這背后檢驗的是:模型對整體布局、組件結構、信息層級與視覺細節(jié)的綜合識別和理解能力。
我們直接來看渲染前后的結果(左為原始圖片,右為渲染后圖片),整體上,頁面實現(xiàn)了接近 1:1 的還原:無論是布局結構還是視覺風格,都基本保持一致。
![]()
當然,在細節(jié)層面仍存在一些可見差異,包括字體粗細略有出入、標題框 padding 不完全一致,以及人物素材并未嚴格對齊(作為占位圖,這一點影響有限)。但是,這些問題主要集中在精細化設計層面,并未影響整體結構與視覺表達的一致性。
下圖為執(zhí)行過程,包括代碼生成與結果說明。在接收到設計稿后,GLM-5V-Turbo 首先對頁面結構進行了整體識別,判斷它為一個典型的 SaaS 落地頁布局,包含左側工具欄、頂部操作區(qū)、主視覺區(qū)域以及下方的 About Us 卡片模塊。
基于這一結構理解,模型直接生成對應的前端代碼(總共 386 行)。
![]()
我們再嘗試聊天類風格的 SaaS 設計圖。不同于前一類偏營銷導向的落地頁設計, 這類界面更側重于信息密度與交互邏輯本身,對模型的布局理解與組件抽象能力提出了更高要求。
![]()
GLM-5V-Turbo 能不能 hold 住呢?執(zhí)行過程依然如此,識別與拆解頁面結構,判斷界面類型,并生成對應前端代碼。
![]()
這一次,模型在還原界面整體布局的基礎上,進一步呈現(xiàn)了交互能力,使頁面不再停留在靜態(tài)展示層面,而具備了初步的可操作性。
![]()
上面兩個案例跑下來,不難發(fā)現(xiàn),GLM-5V-Turbo 生成的并不是樣子貨,美學、內容、交互樣樣不差。
當前視覺模型的能力邊界正在被迅速拉高:一張圖就足以作為有效的輸入接口,直接觸發(fā)從 UI 解析到工程生成的端到端流程。
我們進一步觀察到,GLM-5V-Turbo 的多模態(tài) Coding 能力并沒有止步于單一圖像場景,而是延伸到了圖文混合理解與生成任務中。
于是我們接著給模型上難度:篇幅 450 多頁的斯坦福大學《2025 年人工智能指數(shù)報告》,要求如下:
在通讀全文后提煉核心結論,并進一步將結論內容轉化為精美的多頁 HTML 演示文檔,同時生成結構化大綱 JSON 以及 Markdown 格式的摘要。
![]()
- 完整版地址:https://hai.stanford.edu/ai-index/2025-ai-index-report
在執(zhí)行過程中,面對復合型任務需求,模型完成了多種形態(tài)的交付,包括將內容轉換為可以直接打開瀏覽的 HTML 演示文檔、用于組織內容結構的 JSON 大綱以及一份 Markdown 格式的摘要。
![]()
其中,摘要同樣具備較強的結構化表達能力,將原始報告內容進行高度壓縮與重組,以清晰的層級標題與要點式表述呈現(xiàn)核心信息。
而最重要的是 HTML 演示文檔,模型的前端自主設計結果超出我們的預料。排版精美,整體采用了清晰的分節(jié)結構與演示化布局,將原始報告內容按章節(jié)拆解為多頁展示。同時,每一頁都圍繞核心主題進行信息聚合,結合標題、要點列表與關鍵數(shù)據(jù),使內容可讀性與演示感更強。
![]()
模型對復雜圖文的理解與生成,本質上在于其否能夠將「閱讀 — 理解 — 抽象 — 表達 — 生成」的多步過程打通,完成從 Deep Research 到內容生產的全流程。看起來,GLM-5V-Turbo 做到了。
接下來我們更進一步,看看 GLM-5V-Turbo 能不能開局一張圖,網(wǎng)頁全靠寫。我們在互聯(lián)網(wǎng)上找到了這樣一張圖并給出了如下提示詞:
![]()
基于 demo.png 的示例復刻一個同樣的網(wǎng)頁出來。注意,當用戶瀏覽這個網(wǎng)頁時,光標周圍的一圈范圍是清晰的,其它位置模糊處理。你還需要讓其中每個元素都是可點擊的,將中間的 “heyefi” 改成 “機器之心”,并使用打字機特效展示,并鏈接到機器之心網(wǎng)站 https://www.jiqizhixin.com/ 。網(wǎng)頁上的便利貼點擊后會展開出一個記事本,上面可以記錄簡單筆記。網(wǎng)頁上不同的窗口可以展示 .assets 中的圖片和視頻素材,盡量都用起來。你可以使用文件夾中的 pretext 庫實現(xiàn)一些動態(tài)效果,frontend design skill 可能也有用。
![]()
四倍速視頻
GLM-5V-Turbo 很快就完成了任務,雖然因為圖像素材的緣故,該模型無法完美復刻這個設計圖,但得到的初步效果也足夠驚艷了。下面來看看 demo:
![]()
接下來我們又繼續(xù)了一輪交互,讓其具備了素材的拖拽和縮放能力:
![]()
雖然得到的結果還不能說完美,但相信更多輪的交互還能進一步產生更好的結果 —— 而這正是 AI 時代開發(fā)的真諦:人類負責驗收和掌舵,AI 負責執(zhí)行。
最后,我們來到此次測試的終極挑戰(zhàn):通過網(wǎng)頁鏈接,直接復刻完整的網(wǎng)頁前端
既然要調用瀏覽器,那模型自然離不開「龍蝦」。我們在這里選用了智譜自家 3 月正式推出的本地版 OpenClaw AI 智能體桌面應用 AutoClaw(中文澳龍),無需 API Key,下載后即可運行;支持接入任意模型;完全本地運行,數(shù)據(jù)保留在本地設備中。
![]()
在此環(huán)境下,我們讓模型直接對一個真實網(wǎng)站進行復刻:
一比一復刻這個網(wǎng)站 https://creative-agency-template-20151.webflow.io/,所有文件保存在 test4 文件夾中。
與前文單一頁面的視覺還原不同,這類任務的關鍵是對完整網(wǎng)站結構進行解析與重建。
在接收到任務指令后,模型首先通過 AutoClaw 調起瀏覽器,對目標網(wǎng)站進行訪問與解析,逐頁識別頁面結構與視覺布局。
接著對頁面進行組件級拆解,包括導航欄、內容模塊及頁腳等關鍵部分。
最后通過調用本地文件與代碼生成相關能力,將解析結果轉化為對應的前端代碼,并按頁面結構組織為多個 HTML 及資源文件,統(tǒng)一保存至 test4 文件夾中。
![]()
最終呈現(xiàn)結果如下:
![]()
模型不僅保持了原網(wǎng)頁的美學設計,幾乎完全復刻了其排版和交互邏輯,又快、又美、又高效
如果說「原生視覺」提升了大模型的基礎能力,那么「龍蝦生態(tài)打通」則讓 GLM-5V-Turbo 準備就緒,可以更快上手施展拳腳。
原生多模態(tài)的技術支柱
據(jù)智譜介紹,GLM-5V-Turbo 優(yōu)化了與當前主流 Agent 框架的協(xié)同效果。特別是針對 Claude Code 以及 OpenClaw / AutoClaw 生態(tài),開發(fā)團隊進行了深度的協(xié)同增強。
在這些框架中,模型的視覺能力與 Claw 的執(zhí)行能力被無縫打通。它能夠在真實的操作系統(tǒng)或網(wǎng)頁環(huán)境中,完成「看懂環(huán)境 → 規(guī)劃動作 → 執(zhí)行任務」的完整閉環(huán)
GLM-5V-Turbo 能夠取得性能領先是其在模型架構、訓練方法、數(shù)據(jù)構造、工具鏈四個層面協(xié)同發(fā)力的結果。
原生多模態(tài)融合架構
大多數(shù)多模態(tài)模型的做法是「先訓練語言,再考慮視覺」的工程化方法。
GLM-5V-Turbo 走了另一條路:從預訓練階段就將文本和視覺信號深度融合。團隊自研了新一代 CogViT 視覺編碼器,這套編碼器在幾個關鍵維度上都有顯著提升 —— 通用物體識別、細粒度細節(jié)理解、幾何關系與空間感知。
同時配套設計的 MTP 結構,能夠在接收多模態(tài)輸入的同時保持推理效率不崩塌。這意味著模型不需要為了精準性而犧牲響應速度。
30+ 任務協(xié)同強化學習
強化學習在單一任務上表現(xiàn)優(yōu)異,但一旦擴展到多任務場景,各任務之間的梯度沖突往往導致訓練不穩(wěn)定。這是業(yè)界的共性難題。
GLM-5V-Turbo 的解法是:在 RL 階段同步優(yōu)化超過 30 種不同類型的任務,覆蓋 STEM 推理、視覺定位、視頻理解、GUI 交互等廣泛領域。
這種「一鍋燉」式的協(xié)同訓練策略,反而帶來了意外收益 —— 模型在不同能力維度上獲得了均衡提升。多任務之間的知識遷移效應,有效平滑了單領域訓練中常見的性能震蕩問題。
Agent 數(shù)據(jù)工程
Agent 領域長期面臨一個尷尬現(xiàn)實:高質量的多模態(tài)交互數(shù)據(jù)極度稀缺,且驗證成本極高。智譜的應對思路是分層構建數(shù)據(jù)體系,核心手段是利用合成環(huán)境進行大規(guī)模可控數(shù)據(jù)的自動生成,每條數(shù)據(jù)都可以被程序化驗證正確性。
更具前瞻性的是,團隊將 GUI Agent 的過程獎勵模型(PRM)數(shù)據(jù)直接注入預訓練階段,從源頭抑制幻覺生成。此外還探索了非對稱優(yōu)化策略:用多模態(tài)評估任務作為杠桿,撬動更強的 Agent 泛化能力。
工具鏈邁向多模態(tài)
GLM-5V-Turbo 將工具鏈邊界向外推了一大步:新增支持多模態(tài)搜索、區(qū)域框選標注、屏幕截圖捕獲、網(wǎng)頁內容讀取等視覺交互類工具。
這一擴展的意義在于,它將編程與任務執(zhí)行的完整鏈路從「純文本閉環(huán)」升級為「視覺 - 行動混合閉環(huán)」
伴隨模型的發(fā)布,智譜官方同步推出了配套的官方 Skills(技能庫) 以及預設的「數(shù)字分析師」Agents。你可以直接調用這些開箱即用的模塊,迅速將多模態(tài) Agent 部署到自己的業(yè)務流中。
最近,OpenClaw 的持續(xù)爆火正式宣告了 AI 接管電腦、操作手機的新時代到來。但 Agent 框架只是骨架,真正決定它們實力的還是底層的大模型基座。
國內外 AI 廠商們早已嗅到了風向。過去短短幾個月里,全球已經(jīng)開啟了一場專門針對 Agent 優(yōu)化的「基座軍備競賽」。
不論是 Anthropic 的 Claude 4.6、月之暗面的 Kimi K2.5 還是小米的 MiMo-V2-Pro,廠商們都在長上下文、邏輯推理、代碼等方面有了很大提升。
新入局的智譜 GLM-5V-Turbo,則把目光轉向了提升維度
在它身上,我們看到了當前面向 Agent 的大模型正在經(jīng)歷一輪明顯的范式轉移:不再一味依賴參數(shù)規(guī)模與調用量的堆疊,而是更加注重解決「真實世界問題」的能力。
隨著 API 的開放以及 Agent 生態(tài)的打通,智譜已將「視覺感知 + 動作執(zhí)行」的基礎設施交到了開發(fā)者手中。
當成千上萬「龍蝦」真正擁有視力,究竟會催生出怎樣顛覆性的 AI 應用?我們拭目以待。
文中視頻鏈接:https://mp.weixin.qq.com/s/f3fW_YStN8rWBBl-rK9xig
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.