剛剛，龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼

2026-04-02 16:37:52　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

真實世界里，超過 80% 的信息以視覺形態(tài)存在。前端 UI、架構圖、數(shù)據(jù)看板 …… 開發(fā)者日常面對的絕大部分需求，都是以視覺形態(tài)存在的。但一直以來，國內許多代碼大模型卻在「盲人摸象」，只能依賴純文本描述來猜測頁面布局與結構。

就在本周四，智譜正式發(fā)布了GLM-5V-Turbo—— 專為視覺編程打造的多模態(tài) Coding 基座模型。發(fā)布之后，海外社區(qū)熱度非常高，主貼閱讀量已百萬。

GLM-5V-Turbo 原生融合視覺與文本能力，讓模型不再依賴文本轉譯來「猜測」世界，而是直接看懂設計圖、解析復雜界面并直接生成對應代碼，徹底打通了「從視覺感知到代碼實現(xiàn)」的開發(fā)鏈路。

正如下面這位 X 用戶所總結的，「GLM-5V-Turbo 有意思的地方，并不只是多模態(tài)，更在于它提供了一整套能力組合：視覺理解、編程能力、工具調用以及 GUI Agent。現(xiàn)在大家都在朝同一個方向收斂：模型不再只是回答問題，而是能夠執(zhí)行操作。」

既然被冠以「Turbo」之名，智譜新模型在推理速度上自然表現(xiàn)出色，同時它也在三大核心方向上完成了全面進化：

首先是多模態(tài) Coding（視覺編程）。在前端看重的 Design2Code 評測中，GLM-5V-Turbo 拿下了 92.6 的高分，超越了 K2.5 的 91.3 分。這意味著，它在將視覺 UI 轉化為代碼的精度上，達到了令人滿意的水平。

其次是多模態(tài)工具調用（Tool Use）。面對真實網(wǎng)頁和物理環(huán)境交互，它的 BrowseComp-VL 成績達到了 48.7，同樣領先 K2.5（42.9），真正具備了「看圖找工具辦事」的能力。

最后是Agent 復雜任務。在最能檢驗智能體綜合規(guī)劃與執(zhí)行力的 ClawEval 權威評測中，GLM-5V-Turbo 的 Pass3 分數(shù)直接逼近了目前業(yè)內閉源的天花板 Claude Opus 4.6。

目前，GLM-5V-Turbo 已經(jīng)開放了 API ，Coding Plan用戶可以申請搶先試用。大家可以通過以下多個渠道訪問該模型。

BigModel 開放平臺：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo
AutoClaw（澳龍）：https://autoglm.zhipuai.cn/autoclaw/
Z.ai：https://chat.z.ai

此前，在大模型 API 聚合平臺 OpenRouter 上，GLM 5 Turbo 的調用量已經(jīng)躋身前五。開發(fā)者使用該模型大多數(shù)是用來支持 OpenClaw 的。

而隨著 GLM-5V-Turbo 引入更強的視覺編程能力，其在 OpenClaw 相關任務中的表現(xiàn)同樣亮眼。目前，該模型已被添加到 OpenClaw 內置的模型目錄里。

在獲得模型內測資格后，我們馬上進行了一番測試。

一手實測：多模態(tài)「點石成金術」

這次，GLM-5V-Turbo 將「視覺感知」與「代碼生成」深度融合，「圖像即代碼」是這一模型的最大亮點。為此，我們聚焦于多模態(tài) Coding （視覺編程），循序漸進地測試該模型的實際能力。

首先，我們來考察一下 GLM-5V-Turbo 在截圖寫代碼方面的表現(xiàn)，特別是前端設計還原。

我們發(fā)現(xiàn) GLM-5V-Turbo 在「圖像即代碼」這方面已經(jīng)徹底 Next Level 了，移動端的前端代碼復現(xiàn)完全不在話下。我們看下這個案例：

請根據(jù)提供的設計草圖復刻移動端界面。截圖包含：
左側屏幕：歡迎/引導頁中間屏幕：首頁右側屏幕：統(tǒng)計/情緒日歷頁
除此之外，請另外構思并制作剩余的兩個頁面，使產品呈現(xiàn)出完整的 5 頁面移動端應用流程。最終效果應呈現(xiàn)為一個精致、現(xiàn)代的健康/心情追蹤移動應用。

結果非常令人驚喜，交互和排版一應俱全，充滿色彩的 APP 界面讓人眼前一亮。

除去移動端的案例，我們喂給它下面這張SaaS 后臺設計稿，直接讓它「復刻」，看它能否做到高還原度呈現(xiàn)。這背后檢驗的是：模型對整體布局、組件結構、信息層級與視覺細節(jié)的綜合識別和理解能力。

我們直接來看渲染前后的結果（左為原始圖片，右為渲染后圖片），整體上，頁面實現(xiàn)了接近 1:1 的還原：無論是布局結構還是視覺風格，都基本保持一致。

當然，在細節(jié)層面仍存在一些可見差異，包括字體粗細略有出入、標題框 padding 不完全一致，以及人物素材并未嚴格對齊（作為占位圖，這一點影響有限）。但是，這些問題主要集中在精細化設計層面，并未影響整體結構與視覺表達的一致性。

下圖為執(zhí)行過程，包括代碼生成與結果說明。在接收到設計稿后，GLM-5V-Turbo 首先對頁面結構進行了整體識別，判斷它為一個典型的 SaaS 落地頁布局，包含左側工具欄、頂部操作區(qū)、主視覺區(qū)域以及下方的 About Us 卡片模塊。

基于這一結構理解，模型直接生成對應的前端代碼（總共 386 行）。

我們再嘗試聊天類風格的 SaaS 設計圖。不同于前一類偏營銷導向的落地頁設計，這類界面更側重于信息密度與交互邏輯本身，對模型的布局理解與組件抽象能力提出了更高要求。

GLM-5V-Turbo 能不能 hold 住呢？執(zhí)行過程依然如此，識別與拆解頁面結構，判斷界面類型，并生成對應前端代碼。

這一次，模型在還原界面整體布局的基礎上，進一步呈現(xiàn)了交互能力，使頁面不再停留在靜態(tài)展示層面，而具備了初步的可操作性。

上面兩個案例跑下來，不難發(fā)現(xiàn)，GLM-5V-Turbo 生成的并不是樣子貨，美學、內容、交互樣樣不差。

當前視覺模型的能力邊界正在被迅速拉高：一張圖就足以作為有效的輸入接口，直接觸發(fā)從 UI 解析到工程生成的端到端流程。

我們進一步觀察到，GLM-5V-Turbo 的多模態(tài) Coding 能力并沒有止步于單一圖像場景，而是延伸到了圖文混合理解與生成任務中。

于是我們接著給模型上難度：篇幅 450 多頁的斯坦福大學《2025 年人工智能指數(shù)報告》，要求如下：

在通讀全文后提煉核心結論，并進一步將結論內容轉化為精美的多頁 HTML 演示文檔，同時生成結構化大綱 JSON 以及 Markdown 格式的摘要。

完整版地址：https://hai.stanford.edu/ai-index/2025-ai-index-report

在執(zhí)行過程中，面對復合型任務需求，模型完成了多種形態(tài)的交付，包括將內容轉換為可以直接打開瀏覽的 HTML 演示文檔、用于組織內容結構的 JSON 大綱以及一份 Markdown 格式的摘要。

其中，摘要同樣具備較強的結構化表達能力，將原始報告內容進行高度壓縮與重組，以清晰的層級標題與要點式表述呈現(xiàn)核心信息。

而最重要的是 HTML 演示文檔，模型的前端自主設計結果超出我們的預料。排版精美，整體采用了清晰的分節(jié)結構與演示化布局，將原始報告內容按章節(jié)拆解為多頁展示。同時，每一頁都圍繞核心主題進行信息聚合，結合標題、要點列表與關鍵數(shù)據(jù)，使內容可讀性與演示感更強。

模型對復雜圖文的理解與生成，本質上在于其否能夠將「閱讀 — 理解 — 抽象 — 表達 — 生成」的多步過程打通，完成從 Deep Research 到內容生產的全流程。看起來，GLM-5V-Turbo 做到了。

接下來我們更進一步，看看 GLM-5V-Turbo 能不能開局一張圖，網(wǎng)頁全靠寫。我們在互聯(lián)網(wǎng)上找到了這樣一張圖并給出了如下提示詞：

基于 demo.png 的示例復刻一個同樣的網(wǎng)頁出來。注意，當用戶瀏覽這個網(wǎng)頁時，光標周圍的一圈范圍是清晰的，其它位置模糊處理。你還需要讓其中每個元素都是可點擊的，將中間的 “heyefi” 改成 “機器之心”，并使用打字機特效展示，并鏈接到機器之心網(wǎng)站 https://www.jiqizhixin.com/ 。網(wǎng)頁上的便利貼點擊后會展開出一個記事本，上面可以記錄簡單筆記。網(wǎng)頁上不同的窗口可以展示 .assets 中的圖片和視頻素材，盡量都用起來。你可以使用文件夾中的 pretext 庫實現(xiàn)一些動態(tài)效果，frontend design skill 可能也有用。

四倍速視頻

GLM-5V-Turbo 很快就完成了任務，雖然因為圖像素材的緣故，該模型無法完美復刻這個設計圖，但得到的初步效果也足夠驚艷了。下面來看看 demo：

接下來我們又繼續(xù)了一輪交互，讓其具備了素材的拖拽和縮放能力：

雖然得到的結果還不能說完美，但相信更多輪的交互還能進一步產生更好的結果 —— 而這正是 AI 時代開發(fā)的真諦：人類負責驗收和掌舵，AI 負責執(zhí)行。

最后，我們來到此次測試的終極挑戰(zhàn)：通過網(wǎng)頁鏈接，直接復刻完整的網(wǎng)頁前端

既然要調用瀏覽器，那模型自然離不開「龍蝦」。我們在這里選用了智譜自家 3 月正式推出的本地版 OpenClaw AI 智能體桌面應用 AutoClaw（中文澳龍），無需 API Key，下載后即可運行；支持接入任意模型；完全本地運行，數(shù)據(jù)保留在本地設備中。

在此環(huán)境下，我們讓模型直接對一個真實網(wǎng)站進行復刻：

一比一復刻這個網(wǎng)站 https://creative-agency-template-20151.webflow.io/，所有文件保存在 test4 文件夾中。

與前文單一頁面的視覺還原不同，這類任務的關鍵是對完整網(wǎng)站結構進行解析與重建。

在接收到任務指令后，模型首先通過 AutoClaw 調起瀏覽器，對目標網(wǎng)站進行訪問與解析，逐頁識別頁面結構與視覺布局。

接著對頁面進行組件級拆解，包括導航欄、內容模塊及頁腳等關鍵部分。

最后通過調用本地文件與代碼生成相關能力，將解析結果轉化為對應的前端代碼，并按頁面結構組織為多個 HTML 及資源文件，統(tǒng)一保存至 test4 文件夾中。

最終呈現(xiàn)結果如下：

模型不僅保持了原網(wǎng)頁的美學設計，幾乎完全復刻了其排版和交互邏輯，又快、又美、又高效

如果說「原生視覺」提升了大模型的基礎能力，那么「龍蝦生態(tài)打通」則讓 GLM-5V-Turbo 準備就緒，可以更快上手施展拳腳。

原生多模態(tài)的技術支柱

據(jù)智譜介紹，GLM-5V-Turbo 優(yōu)化了與當前主流 Agent 框架的協(xié)同效果。特別是針對 Claude Code 以及 OpenClaw / AutoClaw 生態(tài)，開發(fā)團隊進行了深度的協(xié)同增強。

在這些框架中，模型的視覺能力與 Claw 的執(zhí)行能力被無縫打通。它能夠在真實的操作系統(tǒng)或網(wǎng)頁環(huán)境中，完成「看懂環(huán)境 → 規(guī)劃動作 → 執(zhí)行任務」的完整閉環(huán)

GLM-5V-Turbo 能夠取得性能領先是其在模型架構、訓練方法、數(shù)據(jù)構造、工具鏈四個層面協(xié)同發(fā)力的結果。

原生多模態(tài)融合架構

大多數(shù)多模態(tài)模型的做法是「先訓練語言，再考慮視覺」的工程化方法。

GLM-5V-Turbo 走了另一條路：從預訓練階段就將文本和視覺信號深度融合。團隊自研了新一代 CogViT 視覺編碼器，這套編碼器在幾個關鍵維度上都有顯著提升 —— 通用物體識別、細粒度細節(jié)理解、幾何關系與空間感知。

同時配套設計的 MTP 結構，能夠在接收多模態(tài)輸入的同時保持推理效率不崩塌。這意味著模型不需要為了精準性而犧牲響應速度。

30+ 任務協(xié)同強化學習

強化學習在單一任務上表現(xiàn)優(yōu)異，但一旦擴展到多任務場景，各任務之間的梯度沖突往往導致訓練不穩(wěn)定。這是業(yè)界的共性難題。

GLM-5V-Turbo 的解法是：在 RL 階段同步優(yōu)化超過 30 種不同類型的任務，覆蓋 STEM 推理、視覺定位、視頻理解、GUI 交互等廣泛領域。

這種「一鍋燉」式的協(xié)同訓練策略，反而帶來了意外收益 —— 模型在不同能力維度上獲得了均衡提升。多任務之間的知識遷移效應，有效平滑了單領域訓練中常見的性能震蕩問題。

Agent 數(shù)據(jù)工程

Agent 領域長期面臨一個尷尬現(xiàn)實：高質量的多模態(tài)交互數(shù)據(jù)極度稀缺，且驗證成本極高。智譜的應對思路是分層構建數(shù)據(jù)體系，核心手段是利用合成環(huán)境進行大規(guī)模可控數(shù)據(jù)的自動生成，每條數(shù)據(jù)都可以被程序化驗證正確性。

更具前瞻性的是，團隊將 GUI Agent 的過程獎勵模型（PRM）數(shù)據(jù)直接注入預訓練階段，從源頭抑制幻覺生成。此外還探索了非對稱優(yōu)化策略：用多模態(tài)評估任務作為杠桿，撬動更強的 Agent 泛化能力。

工具鏈邁向多模態(tài)

GLM-5V-Turbo 將工具鏈邊界向外推了一大步：新增支持多模態(tài)搜索、區(qū)域框選標注、屏幕截圖捕獲、網(wǎng)頁內容讀取等視覺交互類工具。

這一擴展的意義在于，它將編程與任務執(zhí)行的完整鏈路從「純文本閉環(huán)」升級為「視覺 - 行動混合閉環(huán)」

伴隨模型的發(fā)布，智譜官方同步推出了配套的官方 Skills（技能庫）以及預設的「數(shù)字分析師」Agents。你可以直接調用這些開箱即用的模塊，迅速將多模態(tài) Agent 部署到自己的業(yè)務流中。

最近，OpenClaw 的持續(xù)爆火正式宣告了 AI 接管電腦、操作手機的新時代到來。但 Agent 框架只是骨架，真正決定它們實力的還是底層的大模型基座。

國內外 AI 廠商們早已嗅到了風向。過去短短幾個月里，全球已經(jīng)開啟了一場專門針對 Agent 優(yōu)化的「基座軍備競賽」。

不論是 Anthropic 的 Claude 4.6、月之暗面的 Kimi K2.5 還是小米的 MiMo-V2-Pro，廠商們都在長上下文、邏輯推理、代碼等方面有了很大提升。

新入局的智譜 GLM-5V-Turbo，則把目光轉向了提升維度

在它身上，我們看到了當前面向 Agent 的大模型正在經(jīng)歷一輪明顯的范式轉移：不再一味依賴參數(shù)規(guī)模與調用量的堆疊，而是更加注重解決「真實世界問題」的能力。

隨著 API 的開放以及 Agent 生態(tài)的打通，智譜已將「視覺感知 + 動作執(zhí)行」的基礎設施交到了開發(fā)者手中。

當成千上萬「龍蝦」真正擁有視力，究竟會催生出怎樣顛覆性的 AI 應用？我們拭目以待。

文中視頻鏈接：https://mp.weixin.qq.com/s/f3fW_YStN8rWBBl-rK9xig

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.