你以為在調 AI,其實在 造世界 。
—— Harness Engineering
大家好啊,我是甲木。
清明在家沒事搞了個小項目,先說起因。
前陣子看到好朋友冷逸用 GLM-5.1 開發了一個公眾號寫作神器「Auto-Wechat-Writing」,從需求到上線一氣呵成,整個過程跑了 1300 萬 tokens 。在那之前,袋鼠帝也用智譜 GLM-5 做了一個項目。
看他們做完,我也手癢了。于是在家直接做了個電商神器:StyleForge(風格鍛造)項目。先給大家看看成品:
電商風格遷移網站
這是我用 GLM-5.1 從零開發的一個 Web 應用,StyleForge(風格鍛造),面向電商場景的「視覺風格遷移」工具。
操作路徑很簡單,三步就能出圖: 上傳參考圖、上傳產品圖 + 填寫產品描述、一鍵生成 。
![]()
你的白牌產品,出來的圖, 和大牌放一起毫不違和 。
整個項目從零搭建,前后端完整,有登錄系統、歷史記錄管理,是一個真正能用的產品。
而開發它,我只用了一個工具:Claude Code + 智譜 GLM-5.1 模型。
這個項目的想法,最早源于我的一個電商用戶的需求,當時我直接用 Skills 交付了,也是在凱寓的一次分享中,他提到了一個很有意思的方向,用 AI 解決電商詳情頁的設計問題。后來在凱寓和小七姐的帖子和方法論上做了一些延伸和創新。
再加上 GLM-5.1 這次開源,這個場景也適合做一個完整項目,所以: 拿這個項目來實測一下 GLM-5.1 的長程任務能力 ,畢竟是全球第一個在真實工程任務中驗證了8小時持續工作能力的開源模型。順便做一個真正有用的東西出來。
本文看點
01
GLM-5.1 模型實力
02
電商風格遷移場景
03
從零到一完整開發
01
MODEL
GLM-5.1:開源模型的新王
在動手之前,先簡單介紹一下 GLM-5.1 這個模型。
實測下來,我覺得智譜 GLM-5.1 實現了編程能力的SOTA:面向長程任務的開源第一模型。
什么叫長程任務?就是那種不是一句 Prompt 能搞定的復雜任務。它需要跨步驟、跨工具、持續好幾個小時推進,中間還可能出各種意外,需要自主規劃、自主執行、自主糾錯。
METR 研究顯示,在編程等領域,AI 能以 50% 成功率完成的任務復雜度(以人類專家耗時衡量)正呈指數級增長,近期加速至每 4–6 個月翻倍。
GLM-5.1 在這個方向上做了系統性的優化,總結為下圖的三大核心能力:
![]()
從數據上看,GLM-5.1 在SWE-Bench和Artificial Analysis等核心評測中位列開源第一,
![]()
評測數據圖片
OpenRouter上的調用量近期也排在開源模型前列。海外開發者社區對它評價極高,不少人直接稱它為「開源模型的新王」。
![]()
海外老哥評價
YouTube 博主 AICodeKing 在 King Bench 測試中也給出了開源第一的排名。
AI Coding 其實有一條非常清晰的躍遷路徑:
AI Coding → Vibe Coding → Agentic →Long Horizon
GLM-5.1 正是面向 Long Horizon 這個階段的產物。同時,長時任務也是 Harness Engineering 實踐中不可缺少的一環,它「讓模型像一個資深工程師一樣持續工作、交付成果」。
即日起,GLM-5.1在Hugging Face與ModelScope平臺同步開源,模型權重遵循 MIT License。
GLM-5.1已納入GLM Coding Plan(Max/Pro/Lite),支持 Claude Code、OpenCode等主流開發工具。
當模型能力已經對齊全球頂尖水平,真正拉開差距的將是:它能否像人類工程師一樣,獨立、持續地工作數小時,交付完整的工程級成果。這是GLM-5.1要回答的下一個問題。
說了這么多,空口無憑。最好的驗證方式,就是拿一個真實項目來跑。
02
SCENARIO
為什么選電商風格遷移這個場景
因為這個場景太剛需了。
做過電商的人都知道,在貨架電商里, 商品詳情頁就是你的「銷售員」 。用戶看不到實物,所有的產品認知、信任建立和購買決策,都發生在詳情頁上。一個優質的詳情頁可以將轉化率提升 30%-50%,這是實實在在的真金白銀。
但詳情頁的生產一直有兩個核心痛點:
![]()
那怎么辦?可以用 AI 做風格遷移。
用戶找到對標品牌的優質詳情頁圖片,上傳自己的產品圖和產品描述。AI 自動分析參考圖「為什么好看」,從布局、色彩、光影、排版、情緒調性等多個維度 深度拆解參考圖的「視覺 DNA」 ,然后將這套設計邏輯遷移到用戶的產品上,生成具有品牌感的營銷海報。
當然,自己如果就是大牌產品,把過往的設計風格,直接給到 AI,更容易直接復刻出圖。
它理解的是 設計邏輯,不是表面效果 。
白牌產品,也能擁有大牌級的視覺表現,而且無需設計師從零創作。
03
BUILD
從零到一的完整開發過程
接下來給大家完整還原一下這個項目的開發過程,用最新的黑話來說,這是一次 Harness Engineering 實踐 。
整個項目的消耗大概在六七千萬 tokens 吧,中間限額之后又換了個號。
![]()
— 其中一個賬號的消耗
我用的是 Claude Code 接入 GLM-5.1 模型,整個項目從第一行代碼到最終可用, 全程由 GLM-5.1 完成編碼 。
![]()
我沒有一上來就給模型寫 prompt 讓它寫代碼,也不只是把需求文檔喂給它。我做的是給它搭建一個完整的工作環境:先對齊認知,再用 PRD 定義目標約束,用技術方案畫出行動邊界,用分步交付建立質量檢查點。
這些東西加在一起,構成了 GLM-5.1 的 Harness。它之所以能在長程任務中保持穩定、不跑偏,除了模型本身夠強,更重要的是 給它造了一個「對的世界」 。
STEP 1 預期對齊
我先把整個項目的背景告訴了 GLM-5.1。
![]()
電商場景是什么樣的,用戶有什么痛點,我想做一個什么產品,技術上大概怎么選型。我沒有急著讓它動手,而是讓它先復述一遍理解,分析技術難點,給出開發順序的建議。
這一步很關鍵。如果 模型理解跑偏了,后面寫再多代碼也白搭 。
然后,進行信息對齊:
![]()
對齊完成,我們對項目的認知是一致的。
STEP 2 產品設定 + PRD
對齊之后,我讓它先輸出產品設定。明確用戶是誰、核心場景有哪些、功能優先級怎么排、頁面清單是什么。
確認產品設定后,再讓它寫一份完整的 PRD(產品需求文檔) 。包括每個頁面的交互設計、前后端 API 接口、數據庫表結構、非功能需求。
![]()
產品對齊 GIF
這個環節的好處是:后續編碼遇到問題,我可以直接說「你在 PRD 里是這么定義的」,讓它自己對照修正。有了 文檔做錨點,模型就不容易在長鏈路任務中跑偏 。
STEP 3 技術方案
PRD 確認后,下一步是技術方案。
這一步我特別關注的是它對 核心模塊的設計思路 。
風格 DNA 分析模塊:
![]()
這里其實也依賴我過往的一個風格分析的 prompt,也就是在參考了凱寓和小七姐之后的一個優化擴充版。
GLM-5.1 輸出的方案 結構清晰,考慮也比較周全 。我微調了一些細節,技術方案就定稿了。
![]()
— 比較輕量級的一個方案
STEP 4 逐步編碼
進入正式開發。這個過程 完全由 GLM-5.1 自行主導 。
![]()
項目初始化 搭建前后端骨架,配好開發環境,這輪沒什么懸念,GLM-5.1 很順利地完成了。
這里我忘了截當時的規劃步驟圖,我直接交給它之后我就去吃飯了...
![]()
然后上下文太長 自動 compact 了 。。
![]()
中間經歷了半個多小時,遇到 bug 也會 自行修正優化 。
![]()
之后,交付出來一整個結果,直接按操作打開~
![]()
登錄注冊頁面,圖片上傳和項目管理模塊都做的很好,在這中間,還讓它用了 front-design skills 去進行 前端審美的設計 。
![]()
核心功能風格分析 + 海報生成。這是整個項目最難的部分,也是 最能體現 GLM-5.1 長程任務能力 的環節。
這里簡單說一下核心邏輯。我設計了一套「視覺 DNA」分析框架,從 9 個維度 去拆解一張參考圖的設計風格。
![]()
這個環節 GLM-5.1 跑了很久,中間確實遇到了不少問題。
![]()
有一次 API 返回的 JSON 格式不規范,它自己看了錯誤日志, 加了一層正則預處理來提取 JSON 塊 ,然后繼續往下走。還有一次生成圖片為空,它自動觸發了重試,第二次成功了。
![]()
bug 修復 GIF
這種自主排查、自主修復的能力,是我整個開發過程中感受最深的。
以前用開源模型做長任務,到后半程經常需要人工介入,手動幫它糾錯。GLM-5.1 在這方面 明顯好了一個臺階 。
![]()
UI 打磨 功能跑通之后,我讓它做了一輪 UI 優化。包括 Landing Page 的設計(產品介紹、操作步驟說明、效果展示)、 整體配色統一、加載動畫、響應式適配 。
![]()
STEP 5 聯調測試 + 收尾
當然,我在操作打開的時候,不可避免的遇到了一些 bug 問題。
然后就跟它對話,讓它進行修正,優化。
![]()
等項目完成后,可以讓它直接開啟 自檢查模式 ,直接說「幫我去完成一系列的自動化測試」。
![]()
包括還可以直接讓它用我們的 /front-design skills 幫我們去優化主界面,最終呈現出來的結果就是這樣的~
![]()
首頁展示 GIF
而且在測試的過程中,如果遇到了一些問題,比如接入更多的供應商支持,接入更多的模型。我們都可以直接在對話框里跟它對話。它會以 反問的形式,讓我們提供選項 供我們選擇。
![]()
緊接著又設置了一堆 plan 長程任務,然后 開始自己執行 。太吊了。
![]()
最后它幫我寫了 README、創建了 .env.example、確認了一鍵啟動流程。
![]()
項目交付。
![]()
1246
AI 自行執行輪次
tokens 消耗
4-5h
總開發時長
最終的效果就是大家開頭看到的視頻那樣, 直接交付一個可用的系統 。
文章開頭的視頻
當然了,在這里邊我沒有考慮到比如說高并發或者高可用的這種場景,我沒有把這些背景告訴給 AI。在一些高 QPS 場景下,它目前要優化的還有很多~
在之后,我也會不斷地去打磨這個項目。
04
THOUGHTS
簡單聊聊這個項目的思考
這次實測下來,GLM-5.1 在長程任務上的表現是 超預期的 。
它的穩定性和一致性非常值得一提。在一個需要持續好幾個小時、跨十幾個步驟的完整項目開發中,它 始終記得前面定的架構和約束 ,始終圍繞最終交付目標推進,中途遇到問題自己修正,不跑偏、不斷鏈。
![]()
— 智譜 GLM-5.1
這種體驗,以前只在閉源的頂級模型上有過。而 GLM-5.1 是開源的 。
開源意味著什么?意味著更多的開發者、更多的場景、更低的成本、更大的可能性。當開源模型也能穩定地完成長程任務的時候, AI 編程的門檻又往下降了一大截 。
不得不說一句,智譜牛逼 !
而關于電商 AI 應用這個,風格遷移只是一個切入點。 電商詳情頁的 AI 化生產,是一個巨大的市場 。
![]()
— 電商 AI 應用
中國有上千萬的電商商家,80% 以上是中小商家和白牌商家。他們每個月需要制作大量的商品詳情頁,但 設計資源嚴重不足 。商品越來越多,上新越來越快,好的設計師永遠是稀缺的。這個矛盾只會越來越大。
AI 風格遷移可以讓那些沒有設計師的商家也能做出有品質的詳情頁。這是一個增量市場,也是一個 真正的剛需 。
好的 AI 技術就應該實際地落在我們的業務場景應用中。
FINAL THOUGHTS
從寫 Prompt 到造世界
Harness Engineering 。
很多人覺得用 AI 做項目就是「寫一句好的 prompt 讓它寫代碼」。這樣做,90% 的情況出來的東西不能用。
最近看到郭美青老師寫了一篇文章,講從 Prompt Engineering 到 Context Engineering 再到 Harness Engineering 的演進。他說了一個我覺得特別精準的判斷:這三個詞其實在說同一件事,只是在不同的高度望向同一個問題。
PE 是調措辭,你跟模型怎么說話。CE 是調信息流,模型該看到什么、什么時候看到。HE 是調整個環境,模型能做什么、不能做什么、錯了怎么辦、誰來判斷它做得好不好。
「三者不是替代關系,是套娃。HE 包著 CE,CE 包著 PE。」
再看看這次的開發過程,其實就是一次 Harness Engineering 的實踐。
我沒有一上來就給模型寫 prompt 讓它寫代碼。也不只是把需求文檔喂給它就完事。我做的是給 GLM-5.1 搭建了一個完整的工作環境:
![]()
— 搭建的環境
這些東西加在一起,就是 GLM-5.1 的 Harness。
OpenAI 發現過一個反直覺的結論:約束越多,Agent 反而干得越好。這里指的是 清晰的架構規范、可靠的檢查流程、及時的階段確認 。
這跟管人一模一樣。好的管理者不是控制欲最強的那個人,而是 環境設計得最好的那個人 。
你以為在調 AI,其實在造世界。
Prompt 寫得好不好當然重要,但它只是最內層的那個套娃。
真正決定項目成敗的,是 你給 AI 構建的那個工作環境 。
對齊預期、定義文檔、設計架構、分步交付,這些不是「開發前的準備工作」,這些就是開發本身。
這套方法不只適用于 GLM-5.1,它是一個通用的 AI 協作開發框架。非技術背景的人也完全可以用。
關鍵不在于你會不會寫代碼,而是你能不能定義一個好問題,
能不能,為 AI 造一個對的世界。
以上。
我是甲木,熱衷于分享一些 AI 干貨內容,同時也會分享 AI 在各行業的落地應用。
![]()
如果你覺得今天這篇有收獲,歡迎點贊、在看、轉發三連,我們下期再見
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.