337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,龍蝦軍團有了最強「視力」!一眼看圖直接寫代碼

0
分享至



機器之心編輯部

真實世界里,超過 80% 的信息以視覺形態(tài)存在。前端 UI、架構圖、數(shù)據(jù)看板 …… 開發(fā)者日常面對的絕大部分需求,都是以視覺形態(tài)存在的。但一直以來,國內許多代碼大模型卻在「盲人摸象」,只能依賴純文本描述來猜測頁面布局與結構。

就在本周四,智譜正式發(fā)布了GLM-5V-Turbo—— 專為視覺編程打造的多模態(tài) Coding 基座模型。發(fā)布之后,海外社區(qū)熱度非常高,主貼閱讀量已百萬。



GLM-5V-Turbo 原生融合視覺與文本能力,讓模型不再依賴文本轉譯來「猜測」世界,而是直接看懂設計圖、解析復雜界面并直接生成對應代碼,徹底打通了「從視覺感知到代碼實現(xiàn)」的開發(fā)鏈路。

正如下面這位 X 用戶所總結的,「GLM-5V-Turbo 有意思的地方,并不只是多模態(tài),更在于它提供了一整套能力組合:視覺理解、編程能力、工具調用以及 GUI Agent。現(xiàn)在大家都在朝同一個方向收斂:模型不再只是回答問題,而是能夠執(zhí)行操作。」



既然被冠以「Turbo」之名,智譜新模型在推理速度上自然表現(xiàn)出色,同時它也在三大核心方向上完成了全面進化:

首先是多模態(tài) Coding(視覺編程)。在前端看重的 Design2Code 評測中,GLM-5V-Turbo 拿下了 92.6 的高分,超越了 K2.5 的 91.3 分。這意味著,它在將視覺 UI 轉化為代碼的精度上,達到了令人滿意的水平。

其次是多模態(tài)工具調用(Tool Use)。面對真實網(wǎng)頁和物理環(huán)境交互,它的 BrowseComp-VL 成績達到了 48.7,同樣領先 K2.5(42.9),真正具備了「看圖找工具辦事」的能力。

最后是Agent 復雜任務。在最能檢驗智能體綜合規(guī)劃與執(zhí)行力的 ClawEval 權威評測中,GLM-5V-Turbo 的 Pass3 分數(shù)直接逼近了目前業(yè)內閉源的天花板 Claude Opus 4.6。





目前,GLM-5V-Turbo 已經(jīng)開放了 API ,Coding Plan用戶可以申請搶先試用。大家可以通過以下多個渠道訪問該模型。

  • BigModel 開放平臺:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo
  • AutoClaw(澳龍):https://autoglm.zhipuai.cn/autoclaw/
  • Z.ai:https://chat.z.ai

此前,在大模型 API 聚合平臺 OpenRouter 上,GLM 5 Turbo 的調用量已經(jīng)躋身前五。開發(fā)者使用該模型大多數(shù)是用來支持 OpenClaw 的。



而隨著 GLM-5V-Turbo 引入更強的視覺編程能力,其在 OpenClaw 相關任務中的表現(xiàn)同樣亮眼。目前,該模型已被添加到 OpenClaw 內置的模型目錄里。



在獲得模型內測資格后,我們馬上進行了一番測試。

一手實測:多模態(tài)「點石成金術」

這次,GLM-5V-Turbo 將「視覺感知」與「代碼生成」深度融合,「圖像即代碼」是這一模型的最大亮點。為此,我們聚焦于多模態(tài) Coding (視覺編程),循序漸進地測試該模型的實際能力。

首先,我們來考察一下 GLM-5V-Turbo 在截圖寫代碼方面的表現(xiàn),特別是前端設計還原。

我們發(fā)現(xiàn) GLM-5V-Turbo 在「圖像即代碼」這方面已經(jīng)徹底 Next Level 了,移動端的前端代碼復現(xiàn)完全不在話下。我們看下這個案例:



請根據(jù)提供的設計草圖復刻移動端界面。 截圖包含:
左側屏幕: 歡迎/引導頁中間屏幕: 首頁右側屏幕: 統(tǒng)計/情緒日歷頁
除此之外,請另外構思并制作剩余的兩個頁面,使產品呈現(xiàn)出完整的 5 頁面移動端應用流程。最終效果應呈現(xiàn)為一個精致、現(xiàn)代的健康/心情追蹤移動應用。



結果非常令人驚喜,交互和排版一應俱全,充滿色彩的 APP 界面讓人眼前一亮。

除去移動端的案例,我們喂給它下面這張SaaS 后臺設計稿,直接讓它「復刻」,看它能否做到高還原度呈現(xiàn)。這背后檢驗的是:模型對整體布局、組件結構、信息層級與視覺細節(jié)的綜合識別和理解能力。

我們直接來看渲染前后的結果(左為原始圖片,右為渲染后圖片),整體上,頁面實現(xiàn)了接近 1:1 的還原:無論是布局結構還是視覺風格,都基本保持一致。



當然,在細節(jié)層面仍存在一些可見差異,包括字體粗細略有出入、標題框 padding 不完全一致,以及人物素材并未嚴格對齊(作為占位圖,這一點影響有限)。但是,這些問題主要集中在精細化設計層面,并未影響整體結構與視覺表達的一致性。

下圖為執(zhí)行過程,包括代碼生成與結果說明。在接收到設計稿后,GLM-5V-Turbo 首先對頁面結構進行了整體識別,判斷它為一個典型的 SaaS 落地頁布局,包含左側工具欄、頂部操作區(qū)、主視覺區(qū)域以及下方的 About Us 卡片模塊。

基于這一結構理解,模型直接生成對應的前端代碼(總共 386 行)。



我們再嘗試聊天類風格的 SaaS 設計圖。不同于前一類偏營銷導向的落地頁設計, 這類界面更側重于信息密度與交互邏輯本身,對模型的布局理解與組件抽象能力提出了更高要求。



GLM-5V-Turbo 能不能 hold 住呢?執(zhí)行過程依然如此,識別與拆解頁面結構,判斷界面類型,并生成對應前端代碼。



這一次,模型在還原界面整體布局的基礎上,進一步呈現(xiàn)了交互能力,使頁面不再停留在靜態(tài)展示層面,而具備了初步的可操作性。



上面兩個案例跑下來,不難發(fā)現(xiàn),GLM-5V-Turbo 生成的并不是樣子貨,美學、內容、交互樣樣不差。

當前視覺模型的能力邊界正在被迅速拉高:一張圖就足以作為有效的輸入接口,直接觸發(fā)從 UI 解析到工程生成的端到端流程。

我們進一步觀察到,GLM-5V-Turbo 的多模態(tài) Coding 能力并沒有止步于單一圖像場景,而是延伸到了圖文混合理解與生成任務中。

于是我們接著給模型上難度:篇幅 450 多頁的斯坦福大學《2025 年人工智能指數(shù)報告》,要求如下:

在通讀全文后提煉核心結論,并進一步將結論內容轉化為精美的多頁 HTML 演示文檔,同時生成結構化大綱 JSON 以及 Markdown 格式的摘要。



  • 完整版地址:https://hai.stanford.edu/ai-index/2025-ai-index-report

在執(zhí)行過程中,面對復合型任務需求,模型完成了多種形態(tài)的交付,包括將內容轉換為可以直接打開瀏覽的 HTML 演示文檔、用于組織內容結構的 JSON 大綱以及一份 Markdown 格式的摘要。



其中,摘要同樣具備較強的結構化表達能力,將原始報告內容進行高度壓縮與重組,以清晰的層級標題與要點式表述呈現(xiàn)核心信息。

而最重要的是 HTML 演示文檔,模型的前端自主設計結果超出我們的預料。排版精美,整體采用了清晰的分節(jié)結構與演示化布局,將原始報告內容按章節(jié)拆解為多頁展示。同時,每一頁都圍繞核心主題進行信息聚合,結合標題、要點列表與關鍵數(shù)據(jù),使內容可讀性與演示感更強。



模型對復雜圖文的理解與生成,本質上在于其否能夠將「閱讀 — 理解 — 抽象 — 表達 — 生成」的多步過程打通,完成從 Deep Research 到內容生產的全流程。看起來,GLM-5V-Turbo 做到了。

接下來我們更進一步,看看 GLM-5V-Turbo 能不能開局一張圖,網(wǎng)頁全靠寫。我們在互聯(lián)網(wǎng)上找到了這樣一張圖并給出了如下提示詞:



基于 demo.png 的示例復刻一個同樣的網(wǎng)頁出來。注意,當用戶瀏覽這個網(wǎng)頁時,光標周圍的一圈范圍是清晰的,其它位置模糊處理。你還需要讓其中每個元素都是可點擊的,將中間的 “heyefi” 改成 “機器之心”,并使用打字機特效展示,并鏈接到機器之心網(wǎng)站 https://www.jiqizhixin.com/ 。網(wǎng)頁上的便利貼點擊后會展開出一個記事本,上面可以記錄簡單筆記。網(wǎng)頁上不同的窗口可以展示 .assets 中的圖片和視頻素材,盡量都用起來。你可以使用文件夾中的 pretext 庫實現(xiàn)一些動態(tài)效果,frontend design skill 可能也有用。



四倍速視頻

GLM-5V-Turbo 很快就完成了任務,雖然因為圖像素材的緣故,該模型無法完美復刻這個設計圖,但得到的初步效果也足夠驚艷了。下面來看看 demo:



接下來我們又繼續(xù)了一輪交互,讓其具備了素材的拖拽和縮放能力:



雖然得到的結果還不能說完美,但相信更多輪的交互還能進一步產生更好的結果 —— 而這正是 AI 時代開發(fā)的真諦:人類負責驗收和掌舵,AI 負責執(zhí)行。

最后,我們來到此次測試的終極挑戰(zhàn):通過網(wǎng)頁鏈接,直接復刻完整的網(wǎng)頁前端

既然要調用瀏覽器,那模型自然離不開「龍蝦」。我們在這里選用了智譜自家 3 月正式推出的本地版 OpenClaw AI 智能體桌面應用 AutoClaw(中文澳龍),無需 API Key,下載后即可運行;支持接入任意模型;完全本地運行,數(shù)據(jù)保留在本地設備中。



在此環(huán)境下,我們讓模型直接對一個真實網(wǎng)站進行復刻:

一比一復刻這個網(wǎng)站 https://creative-agency-template-20151.webflow.io/,所有文件保存在 test4 文件夾中。

與前文單一頁面的視覺還原不同,這類任務的關鍵是對完整網(wǎng)站結構進行解析與重建。

在接收到任務指令后,模型首先通過 AutoClaw 調起瀏覽器,對目標網(wǎng)站進行訪問與解析,逐頁識別頁面結構與視覺布局。

接著對頁面進行組件級拆解,包括導航欄、內容模塊及頁腳等關鍵部分。

最后通過調用本地文件與代碼生成相關能力,將解析結果轉化為對應的前端代碼,并按頁面結構組織為多個 HTML 及資源文件,統(tǒng)一保存至 test4 文件夾中。



最終呈現(xiàn)結果如下:



模型不僅保持了原網(wǎng)頁的美學設計,幾乎完全復刻了其排版和交互邏輯,又快、又美、又高效

如果說「原生視覺」提升了大模型的基礎能力,那么「龍蝦生態(tài)打通」則讓 GLM-5V-Turbo 準備就緒,可以更快上手施展拳腳。

原生多模態(tài)的技術支柱

據(jù)智譜介紹,GLM-5V-Turbo 優(yōu)化了與當前主流 Agent 框架的協(xié)同效果。特別是針對 Claude Code 以及 OpenClaw / AutoClaw 生態(tài),開發(fā)團隊進行了深度的協(xié)同增強。

在這些框架中,模型的視覺能力與 Claw 的執(zhí)行能力被無縫打通。它能夠在真實的操作系統(tǒng)或網(wǎng)頁環(huán)境中,完成「看懂環(huán)境 → 規(guī)劃動作 → 執(zhí)行任務」的完整閉環(huán)

GLM-5V-Turbo 能夠取得性能領先是其在模型架構、訓練方法、數(shù)據(jù)構造、工具鏈四個層面協(xié)同發(fā)力的結果。

原生多模態(tài)融合架構

大多數(shù)多模態(tài)模型的做法是「先訓練語言,再考慮視覺」的工程化方法。

GLM-5V-Turbo 走了另一條路:從預訓練階段就將文本和視覺信號深度融合。團隊自研了新一代 CogViT 視覺編碼器,這套編碼器在幾個關鍵維度上都有顯著提升 —— 通用物體識別、細粒度細節(jié)理解、幾何關系與空間感知。

同時配套設計的 MTP 結構,能夠在接收多模態(tài)輸入的同時保持推理效率不崩塌。這意味著模型不需要為了精準性而犧牲響應速度。

30+ 任務協(xié)同強化學習

強化學習在單一任務上表現(xiàn)優(yōu)異,但一旦擴展到多任務場景,各任務之間的梯度沖突往往導致訓練不穩(wěn)定。這是業(yè)界的共性難題。

GLM-5V-Turbo 的解法是:在 RL 階段同步優(yōu)化超過 30 種不同類型的任務,覆蓋 STEM 推理、視覺定位、視頻理解、GUI 交互等廣泛領域。

這種「一鍋燉」式的協(xié)同訓練策略,反而帶來了意外收益 —— 模型在不同能力維度上獲得了均衡提升。多任務之間的知識遷移效應,有效平滑了單領域訓練中常見的性能震蕩問題。

Agent 數(shù)據(jù)工程

Agent 領域長期面臨一個尷尬現(xiàn)實:高質量的多模態(tài)交互數(shù)據(jù)極度稀缺,且驗證成本極高。智譜的應對思路是分層構建數(shù)據(jù)體系,核心手段是利用合成環(huán)境進行大規(guī)模可控數(shù)據(jù)的自動生成,每條數(shù)據(jù)都可以被程序化驗證正確性。

更具前瞻性的是,團隊將 GUI Agent 的過程獎勵模型(PRM)數(shù)據(jù)直接注入預訓練階段,從源頭抑制幻覺生成。此外還探索了非對稱優(yōu)化策略:用多模態(tài)評估任務作為杠桿,撬動更強的 Agent 泛化能力。

工具鏈邁向多模態(tài)

GLM-5V-Turbo 將工具鏈邊界向外推了一大步:新增支持多模態(tài)搜索、區(qū)域框選標注、屏幕截圖捕獲、網(wǎng)頁內容讀取等視覺交互類工具。

這一擴展的意義在于,它將編程與任務執(zhí)行的完整鏈路從「純文本閉環(huán)」升級為「視覺 - 行動混合閉環(huán)」

伴隨模型的發(fā)布,智譜官方同步推出了配套的官方 Skills(技能庫) 以及預設的「數(shù)字分析師」Agents。你可以直接調用這些開箱即用的模塊,迅速將多模態(tài) Agent 部署到自己的業(yè)務流中。

最近,OpenClaw 的持續(xù)爆火正式宣告了 AI 接管電腦、操作手機的新時代到來。但 Agent 框架只是骨架,真正決定它們實力的還是底層的大模型基座。

國內外 AI 廠商們早已嗅到了風向。過去短短幾個月里,全球已經(jīng)開啟了一場專門針對 Agent 優(yōu)化的「基座軍備競賽」。

不論是 Anthropic 的 Claude 4.6、月之暗面的 Kimi K2.5 還是小米的 MiMo-V2-Pro,廠商們都在長上下文、邏輯推理、代碼等方面有了很大提升。

新入局的智譜 GLM-5V-Turbo,則把目光轉向了提升維度

在它身上,我們看到了當前面向 Agent 的大模型正在經(jīng)歷一輪明顯的范式轉移:不再一味依賴參數(shù)規(guī)模與調用量的堆疊,而是更加注重解決「真實世界問題」的能力。

隨著 API 的開放以及 Agent 生態(tài)的打通,智譜已將「視覺感知 + 動作執(zhí)行」的基礎設施交到了開發(fā)者手中。

當成千上萬「龍蝦」真正擁有視力,究竟會催生出怎樣顛覆性的 AI 應用?我們拭目以待。

文中視頻鏈接:https://mp.weixin.qq.com/s/f3fW_YStN8rWBBl-rK9xig

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普將油價飆升歸咎于伊朗,稱漲價是“暫時的”;“開玩笑”表示如果沒跟伊朗達成協(xié)議都怪萬斯,如果成了“功勞全歸我”

特朗普將油價飆升歸咎于伊朗,稱漲價是“暫時的”;“開玩笑”表示如果沒跟伊朗達成協(xié)議都怪萬斯,如果成了“功勞全歸我”

大風新聞
2026-04-02 11:46:05
求求55歲王琳別再裝嫩了!上海時裝周芭比造型,滿屏都是尷尬

求求55歲王琳別再裝嫩了!上海時裝周芭比造型,滿屏都是尷尬

小娛樂悠悠
2026-03-31 09:00:06
張柏芝曬二兒子近照!15歲謝振南超媽半頭,側臉撞臉爸媽

張柏芝曬二兒子近照!15歲謝振南超媽半頭,側臉撞臉爸媽

愛寫作的洋洋
2026-04-02 09:39:03
時隔406天!塔圖姆滿血歸來!25+18+11打爆阿德巴約

時隔406天!塔圖姆滿血歸來!25+18+11打爆阿德巴約

籃球教學論壇
2026-04-02 19:54:01
乒乓球世界杯:王楚欽12-10險勝!0-4逆風翻盤,2-0領先沖16強!

乒乓球世界杯:王楚欽12-10險勝!0-4逆風翻盤,2-0領先沖16強!

劉姚堯的文字城堡
2026-04-01 18:42:40
張雪峰前妻好友發(fā)聲,辟謠李麗婧再婚生子,爆料現(xiàn)任拜金很有手段

張雪峰前妻好友發(fā)聲,辟謠李麗婧再婚生子,爆料現(xiàn)任拜金很有手段

壹月情感
2026-04-01 13:32:19
不知道大家有沒有發(fā)現(xiàn),童瑤就算長期保持健身,

不知道大家有沒有發(fā)現(xiàn),童瑤就算長期保持健身,

小光侃娛樂
2026-04-01 15:15:03
尼泊爾珠峰旅游假救援騙保案曝光:導游等被控在游客食物中下藥“造病”,直升機救援、保險騙賠一條龍;涉案金額達2000萬美元

尼泊爾珠峰旅游假救援騙保案曝光:導游等被控在游客食物中下藥“造病”,直升機救援、保險騙賠一條龍;涉案金額達2000萬美元

極目新聞
2026-04-02 11:44:27
“給你女兒買件好內衣吧!”中學女孩鍛煉視頻,網(wǎng)友都看不下去了

“給你女兒買件好內衣吧!”中學女孩鍛煉視頻,網(wǎng)友都看不下去了

妍妍教育日記
2026-03-30 18:38:24
特朗普反復無常攪亂全球股市,股民如何應對?

特朗普反復無常攪亂全球股市,股民如何應對?

作家出版人姚茂敦
2026-04-02 14:47:25
毛主席正為紅軍前途發(fā)愁,一個俘虜主動站出來,后來成了開國中將

毛主席正為紅軍前途發(fā)愁,一個俘虜主動站出來,后來成了開國中將

老謝談史
2026-03-29 17:50:03
大姨在飯局罵我白眼狼,我告訴姨夫:你養(yǎng)了10年的兒子是你司機的

大姨在飯局罵我白眼狼,我告訴姨夫:你養(yǎng)了10年的兒子是你司機的

千秋文化
2026-03-31 21:05:48
張雪機車爆火,最大贏家是誰?竟然是坐擁910億的潮汕首富

張雪機車爆火,最大贏家是誰?竟然是坐擁910億的潮汕首富

擔撲
2026-04-01 12:55:19
奔馳新GLE來了,國產版年中下線,誰慌了?

奔馳新GLE來了,國產版年中下線,誰慌了?

汽車公社
2026-04-02 12:18:11
這是我平生見過最美的中年女性,沒有之一

這是我平生見過最美的中年女性,沒有之一

草莓解說體育
2026-04-02 18:16:23
張雪峰的靈車細節(jié)讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

張雪峰的靈車細節(jié)讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

魔都姐姐雜談
2026-03-28 18:18:48
鄭麗文訪陸前前往蔣介石陵寢,與蔣介石晚年“想要回歸”的真相

鄭麗文訪陸前前往蔣介石陵寢,與蔣介石晚年“想要回歸”的真相

呼呼歷史論
2026-04-02 14:32:49
上交所:2026年3月A股新開戶460.14萬戶

上交所:2026年3月A股新開戶460.14萬戶

每日經(jīng)濟新聞
2026-04-02 17:38:07
深扒科技大廠裁員潮:一邊裁一邊招,全職換成了合同工,AI背鍋?

深扒科技大廠裁員潮:一邊裁一邊招,全職換成了合同工,AI背鍋?

智東西
2026-04-01 19:50:09
德黑蘭突發(fā)巨變,伊朗總統(tǒng)與伊斯蘭革命衛(wèi)隊總司令的爭論焦點

德黑蘭突發(fā)巨變,伊朗總統(tǒng)與伊斯蘭革命衛(wèi)隊總司令的爭論焦點

天氣觀察站
2026-04-02 19:44:05
2026-04-02 21:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12667文章數(shù) 142605關注度
往期回顧 全部

科技要聞

三年虧20億,最新估值58億,Xreal沖刺港股

頭條要聞

張雪妻子:近兩年才還清所有私人欠款 我不是好命的人

頭條要聞

張雪妻子:近兩年才還清所有私人欠款 我不是好命的人

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

宋寧峰帶女兒出軌,張婉婷找董璇哭訴

財經(jīng)要聞

市場被特朗普一句話打醒 滯脹交易回歸

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態(tài)度原創(chuàng)

藝術
手機
本地
教育
公開課

藝術要聞

故人西辭黃鶴樓,煙花三月下?lián)P州

手機要聞

OPPO Find X9 Ultra / X9s Pro官宣首發(fā)第二代丹霞色彩還原鏡頭

本地新聞

從學徒到世界冠軍,為什么說張雪的底氣在重慶?

教育要聞

昆明市西山區(qū)碧雞徐霞客中心學校碧水校區(qū)丨筑牢校園安全防線 守護孩子成長之路

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版