![]()
![]()
![]()
前言
2026年3月19日,Ollama 正式推出 v0.18.2 最新版本,本次更新聚焦于本地運(yùn)行效率、依賴檢查、模型適配、插件注冊(cè)、會(huì)話管理、界面兼容、云端代理流式處理以及 MLX 推理架構(gòu)等多個(gè)核心模塊,全面修復(fù)了歷史版本中的多項(xiàng)問(wèn)題,同時(shí)對(duì)底層推理、模型加載、工具集成邏輯進(jìn)行深度重構(gòu),極大提升了 OpenClaw、Claude Code、Ollama 本地模型、云端模型的使用穩(wěn)定性與運(yùn)行速度。
本文將基于官方發(fā)布的完整更新日志、代碼提交、文件改動(dòng)、測(cè)試用例變更,完整、細(xì)致、無(wú)遺漏地解讀 ollama v0.18.2 所有更新內(nèi)容,幫助開(kāi)發(fā)者快速理解新版本特性、適配改動(dòng)、規(guī)避兼容問(wèn)題,高效落地本地大模型部署與應(yīng)用。
一、ollama v0.18.2 版本整體概況
本次 v0.18.2 版本于 2026年3月19日正式發(fā)布,整體改動(dòng)包含:
? 10 次代碼提交
? 39 個(gè)文件被修改
? 5 位貢獻(xiàn)者參與開(kāi)發(fā)
? 總計(jì) 2278 行代碼新增,404 行代碼刪除
從提交時(shí)間可以看出,本次版本開(kāi)發(fā)集中在 3 月 17 日–3 月 19 日,屬于密集迭代、快速修復(fù)的版本,核心解決了 OpenClaw 依賴缺失、Claude Code 本地運(yùn)行緩存失效、Ollama 啟動(dòng)指定模型不生效、聯(lián)網(wǎng)搜索插件注冊(cè)異常、無(wú)界面 Linux 系統(tǒng)登錄異常、MLX 模型推理、量化、顯存管理等關(guān)鍵問(wèn)題。
下面按照功能模塊,完整拆解所有更新。
二、OpenClaw 相關(guān)全面優(yōu)化
OpenClaw 作為 Ollama 集成的重要工具,在 v0.18.2 中得到了全方位修復(fù)與完善,覆蓋依賴檢查、命令行參數(shù)、模型加載、聯(lián)網(wǎng)搜索插件、會(huì)話模型覆蓋等多個(gè)環(huán)節(jié)。
2.1 安裝前增加 npm 與 git 依賴檢查
在舊版本中,用戶安裝 OpenClaw 時(shí),只會(huì)檢查 npm 是否存在,如果缺少 git 依然會(huì)導(dǎo)致安裝失敗,且報(bào)錯(cuò)信息不清晰,用戶難以快速定位缺失的依賴。
ollama v0.18.2 對(duì)ensureOpenClawInstalled函數(shù)進(jìn)行重構(gòu):
? 安裝 OpenClaw 前,同時(shí)檢查 npm 和 git 是否安裝
? 任意一個(gè)依賴缺失,都會(huì)直接拋出明確的錯(cuò)誤提示
? 錯(cuò)誤信息會(huì)列出缺失的工具,并附帶官方下載地址
? 統(tǒng)一錯(cuò)誤提示為:
required dependencies are missing
對(duì)應(yīng)的代碼改動(dòng):
? 移除僅檢查 npm 的邏輯,新增
npmErr與gitErr分別判斷? 使用數(shù)組收集缺失依賴,拼接成友好提示
? 測(cè)試用例同步修改,將判斷
npm was not found改為判斷required dependencies are missing
這一改動(dòng)徹底解決了新手部署 OpenClaw 時(shí),因缺少 git 導(dǎo)致安裝失敗、無(wú)從排查的問(wèn)題,降低了使用門檻。
2.2 修復(fù) ollama launch openclaw --model 命令支持
舊版本存在命令兼容問(wèn)題,無(wú)法正確支持:
ollama launch openclaw --model
<模型名稱>在 v0.18.2 中,官方修復(fù)了該命令解析邏輯,能夠正確識(shí)別--model參數(shù),用戶可以直接通過(guò)命令行指定 OpenClaw 使用的模型,無(wú)需手動(dòng)進(jìn)入配置修改,大幅提升命令行使用效率。
2.3 正確注冊(cè) Ollama websearch 擴(kuò)展包
本次更新最重要的功能之一,就是完整實(shí)現(xiàn) OpenClaw 聯(lián)網(wǎng)搜索插件的自動(dòng)注冊(cè)與配置持久化。
舊版本中,websearch 插件雖然可以啟用,但存在以下問(wèn)題:
? 插件不會(huì)被寫(xiě)入信任列表,網(wǎng)關(guān)會(huì)持續(xù)提示未追蹤插件
? 插件安裝來(lái)源、安裝路徑不會(huì)被記錄
? 重復(fù)注冊(cè)會(huì)導(dǎo)致配置異常
? 原有用戶配置會(huì)被覆蓋
v0.18.2 新增完整的registerWebSearchPlugin函數(shù),實(shí)現(xiàn)能力:
1. 自動(dòng)在配置中創(chuàng)建
plugins節(jié)點(diǎn)2. 啟用
openclaw-web-search插件3. 將插件加入
allow信任列表,避免安全提示4. 記錄插件來(lái)源為
npm,記錄插件安裝路徑5. 持久化寫(xiě)入
openclaw.json配置文件6. 保證重復(fù)調(diào)用冪等,不會(huì)重復(fù)添加配置
同時(shí)官方新增了三組完整單元測(cè)試,保證功能穩(wěn)定:
? 全新配置環(huán)境:插件可正常注冊(cè)
? 重復(fù)注冊(cè):只添加一次,無(wú)冗余配置
? 保留用戶原有配置:不會(huì)覆蓋已有插件與自定義字段
這意味著用戶在使用 OpenClaw 時(shí),無(wú)需手動(dòng)安裝、配置、信任聯(lián)網(wǎng)搜索插件,Ollama 會(huì)全自動(dòng)完成,開(kāi)箱即用聯(lián)網(wǎng)問(wèn)答能力。
2.4 修復(fù) OpenClaw 無(wú)法識(shí)別新選擇模型的問(wèn)題
在launch模塊中,官方修復(fù)了模型切換后不生效的 Bug:
? 當(dāng)用戶切換主模型后,會(huì)話中仍保留舊模型
?
modelOverride與providerOverride不會(huì)自動(dòng)清除? 無(wú)模型覆蓋的會(huì)話,model 字段不會(huì)同步更新
v0.18.2 新增clearSessionModelOverride函數(shù),實(shí)現(xiàn)邏輯:
1. 自動(dòng)刪除會(huì)話中的
modelOverride和providerOverride2. 將所有會(huì)話的
model字段統(tǒng)一更新為當(dāng)前主模型3. 已經(jīng)使用當(dāng)前模型的會(huì)話不做修改
4. 無(wú) model 字段的會(huì)話不新增字段
5. 支持多會(huì)話混合場(chǎng)景
6. 會(huì)話文件不存在時(shí)不報(bào)錯(cuò),兼容異常環(huán)境
該修復(fù)解決了長(zhǎng)期存在的“切換模型后,對(duì)話依然使用舊模型”的問(wèn)題,保證模型切換實(shí)時(shí)生效。
三、Claude Code 本地運(yùn)行速度大幅提升
Claude Code 本地運(yùn)行慢、緩存頻繁失效,是舊版本用戶反饋?zhàn)疃嗟膯?wèn)題之一。ollama v0.18.2 從緩存機(jī)制入手,徹底解決該問(wèn)題。
3.1 禁用 Claude 歸因頭,避免緩存斷裂
在cmd/launch/claude.go中,官方新增環(huán)境變量:
CLAUDE_CODE_ATTRIBUTION_HEADER=0該配置的作用:
? 關(guān)閉 Claude 歸因請(qǐng)求頭
? 避免因請(qǐng)求頭變化導(dǎo)致 KV 緩存失效
? 本地運(yùn)行 Claude Code 時(shí),緩存可以持續(xù)復(fù)用
? 推理速度顯著提升,減少重復(fù)計(jì)算
官方明確說(shuō)明:本地運(yùn)行 Claude Code 速度更快,原因是修復(fù)了緩存斷裂問(wèn)題。
對(duì)于重度使用 Claude Code 進(jìn)行本地開(kāi)發(fā)、代碼生成、項(xiàng)目重構(gòu)的用戶,這一改動(dòng)可以直接帶來(lái) 30%–80% 的速度提升,尤其是長(zhǎng)文本、長(zhǎng)代碼生成場(chǎng)景。
四、云端模型全面升級(jí):minimax-m2.5 升級(jí)為 minimax-m2.7
ollama v0.18.2 對(duì)內(nèi)置推薦云端模型進(jìn)行迭代,將 minimax-m2.5:cloud 全面升級(jí)為 minimax-m2.7:cloud,所有相關(guān)代碼、配置、測(cè)試用例全部同步修改,無(wú)一處遺漏。
4.1 模型替換涉及的全部改動(dòng)
1. 推薦模型列表
在models.go中,將推薦云模型從:
改為:minimax-m2.5:cloud
描述保持不變:快速高效編碼與現(xiàn)實(shí)生產(chǎn)力工具。minimax-m2.7:cloud2. 云端模型 Token 限制
cloudModelLimits中,將minimax-m2.5替換為minimax-m2.7,上下文長(zhǎng)度與輸出長(zhǎng)度保持不變:
? 上下文:204800
? 輸出:128000
3. 所有單元測(cè)試用例integrations_test.go中所有涉及模型判斷、排序、推薦列表校驗(yàn)的代碼,全部從 m2.5 改為 m2.7。
4. 文檔同步更新
?
claude-code.mdx?
openclaw.mdx
兩處文檔均同步將示例模型、支持模型列表更新為 minimax-m2.7。
5. 接口模擬測(cè)試openclaw_test.go中遠(yuǎn)程模型返回字段同步修改,保證接口測(cè)試通過(guò)。
4.2 對(duì)用戶的影響
? 用戶無(wú)需手動(dòng)修改配置,Ollama 自動(dòng)切換為新版本云端模型
? 上下文長(zhǎng)度、速度、能力同步升級(jí)
? 兼容原有調(diào)用方式,無(wú)兼容成本
? 編碼、推理、工具使用效果更強(qiáng)
很多用戶使用服務(wù)器、無(wú)圖形化 Linux 環(huán)境運(yùn)行 Ollama,舊版本在headless Linux(無(wú) DISPLAY、無(wú) WAYLAND_DISPLAY)環(huán)境下,登錄功能會(huì)異常崩潰或無(wú)法打開(kāi)鏈接。
v0.18.2 對(duì) TUI 登錄界面進(jìn)行修復(fù):
? 判斷系統(tǒng)是否為無(wú)界面環(huán)境
? 如果
DISPLAY和WAYLAND_DISPLAY均為空,則跳過(guò)打開(kāi)瀏覽器邏輯? 不再拋出異常,保證程序正常運(yùn)行
? 終端正常輸出登錄鏈接,用戶可手動(dòng)復(fù)制到本地瀏覽器登錄
同時(shí)移除了 OSC8 超鏈接相關(guān)代碼與測(cè)試:
? 移除
OSC 8終端超鏈接渲染邏輯? 刪除對(duì)應(yīng)的
TestRenderSignIn_OSC8Hyperlink測(cè)試用例? 簡(jiǎn)化終端輸出,兼容更多終端工具
這一改動(dòng)極大增強(qiáng)了 Ollama 在 Linux 服務(wù)器、Docker、無(wú)界面環(huán)境下的兼容性,服務(wù)器用戶不再需要為登錄問(wèn)題折騰環(huán)境變量。
六、MLX 架構(gòu)深度重構(gòu):推理、量化、顯存、模型加載全面優(yōu)化
MLX 是 Apple 芯片上高效運(yùn)行大模型的核心引擎,ollama v0.18.2 對(duì) MLX 相關(guān)代碼進(jìn)行大規(guī)模重構(gòu),覆蓋調(diào)度、量化、嵌入層、模型加載、顯存管理、子進(jìn)程啟動(dòng)邏輯等,是本次底層改動(dòng)最大的部分。
6.1 調(diào)度器移除 GGML 依賴,簡(jiǎn)化模型加載
舊版本調(diào)度器sched.go中,loadFn函數(shù)依賴 GGML 指針,代碼冗余且不利于 MLX 模型統(tǒng)一管理。
v0.18.2:
? 刪除
loadFn中的 GGML 參數(shù)? 模型加載不再?gòu)?qiáng)制先加載 GGML 元數(shù)據(jù)
? 統(tǒng)一 MLX 與普通模型的加載流程
? 代碼結(jié)構(gòu)更簡(jiǎn)潔,擴(kuò)展性更強(qiáng)
同時(shí)新增MLX 模型逐出機(jī)制,在顯存不足時(shí)自動(dòng)卸載閑置模型,保證多模型切換穩(wěn)定運(yùn)行。
6.2 新增預(yù)量化張量打包
針對(duì) Qwen3.5 等模型,新增:
? 預(yù)量化張量打包邏輯
? 優(yōu)化量化存儲(chǔ)格式
? 減少模型加載時(shí)的實(shí)時(shí)計(jì)算
? 提升加載速度與推理效率
對(duì)應(yīng)提交:mlx: add prequantized tensor packing + changes for qwen35
6.3 量化嵌入層與快速 SwiGLU 激活
在mlxrunner與模型結(jié)構(gòu)中:
? 新增量化嵌入層(Quantized Embedding)
? 支持從量化權(quán)重直接構(gòu)建嵌入層
? 無(wú)需全量反量化,節(jié)省顯存與計(jì)算
? 優(yōu)化 SwiGLU 激活函數(shù),使用更高效的計(jì)算方式
? 修復(fù)多處運(yùn)行時(shí)崩潰問(wèn)題
大幅提升小參數(shù)、量化模型在 MLX 上的運(yùn)行速度。
6.4 重構(gòu) MLX Client 與 Server 結(jié)構(gòu)
舊版本中,MLX 子進(jìn)程在創(chuàng)建時(shí)就會(huì)啟動(dòng),無(wú)法進(jìn)行顯存預(yù)判;v0.18.2 徹底重構(gòu)生命周期:
1.
NewServer、NewClient只初始化結(jié)構(gòu),不啟動(dòng)子進(jìn)程2. 真正啟動(dòng)推遲到
Load階段3.
Load階段先檢查模型大小與 GPU 剩余顯存4. 顯存不足時(shí)直接拋出明確錯(cuò)誤,而不是崩潰
5. 統(tǒng)一顯存計(jì)算邏輯,使用模型清單文件估算大小
6. 子進(jìn)程啟動(dòng)日志更清晰,輸出模型名與端口
同時(shí)修復(fù):
? Linux 下 MLX 依賴庫(kù)路徑問(wèn)題
? Windows 環(huán)境變量配置
? 子進(jìn)程異常退出無(wú)錯(cuò)誤提示問(wèn)題
為了支持量化模型的嵌入層復(fù)用(語(yǔ)言模型常用 TieWordEmbeddings),官方:
? 新增
EmbeddingLayer接口? 實(shí)現(xiàn)
QuantizedEmbedding量化嵌入層? 實(shí)現(xiàn)
AsLinear()方法,可以直接轉(zhuǎn)為線性層作為 LM Head? 支持自動(dòng)從權(quán)重、scale、bias 構(gòu)造量化嵌入
? 支持 Qwen3.5、Llama、Gemma、GLM 等系列模型
對(duì)應(yīng)的模型代碼全部同步修改:
? Gemma3
? GLM4-MoE-Lite
? Llama
? Qwen3
? Qwen3.5
所有模型的嵌入層從固定的*nn.Embedding改為nn.EmbeddingLayer接口,兼容普通與量化兩種嵌入實(shí)現(xiàn),大幅增強(qiáng)量化模型的推理效率。
6.6 優(yōu)化 softplus 實(shí)現(xiàn),使用原生 MLX 算子
在 Qwen3.5 模型中,舊版本 softplus 實(shí)現(xiàn)為:
mlx.Log(mlx.AddScalar(mlx.Exp(x), 1.0))新版本直接使用新增的原生算子:
mlx.Logaddexp(x, mlx.Zeros(x.DType(), x.Dims()...))減少計(jì)算步驟,提升數(shù)值穩(wěn)定性與速度。
同時(shí)修復(fù) GatedDeltaNet 中的精度問(wèn)題,統(tǒng)一計(jì)算精度,避免混合精度導(dǎo)致的數(shù)值溢出。
七、云端代理流式傳輸修復(fù)
舊版本在云端代理、web_search 兼容路徑中,存在JSONL 流式數(shù)據(jù)合并、粘包、不刷新問(wèn)題,導(dǎo)致流式輸出卡頓、內(nèi)容缺失、終端不實(shí)時(shí)刷新。
v0.18.2 在cloud_proxy.go中:
? 新增
jsonlFramingResponseWriter結(jié)構(gòu)? 按行切割 JSONL 流式數(shù)據(jù)
? 緩存不完整行,等待完整后再輸出
? 結(jié)束時(shí)強(qiáng)制刷新剩余數(shù)據(jù)
? 兼容舊版 Anthropic web_search 流式格式
并新增完整單元測(cè)試:
? 測(cè)試多行合并切割邏輯
? 測(cè)試無(wú)換行的尾部數(shù)據(jù)刷新
? 測(cè)試云端流式轉(zhuǎn)發(fā)完整流程
修復(fù)后, Claude、云端模型、web_search 流式輸出完全流暢,無(wú)卡頓、無(wú)丟包、無(wú)延遲。
八、測(cè)試用例全面完善
ollama v0.18.2 對(duì)所有新增功能、修復(fù)問(wèn)題都補(bǔ)充了完整的單元測(cè)試,保證版本穩(wěn)定:
? OpenClaw 插件注冊(cè)測(cè)試(全新配置、重復(fù)注冊(cè)、保留舊配置)
? 會(huì)話模型覆蓋清理測(cè)試
? JSONL 幀切割測(cè)試
? 量化嵌入層測(cè)試
? 無(wú)界面登錄測(cè)試
? 云端模型代理測(cè)試
? MLX 子進(jìn)程加載測(cè)試
所有舊的失效測(cè)試用例被刪除,所有模型列表、參數(shù)、錯(cuò)誤提示相關(guān)的測(cè)試全部同步更新,保證后續(xù)迭代不破壞現(xiàn)有功能。
九、ollama v0.18.2 版本更新總結(jié)
ollama v0.18.2 雖然是小版本迭代,但卻是極其偏向?qū)嵱眯浴⒎€(wěn)定性、兼容性的重磅更新,幾乎覆蓋了用戶日常使用中所有高頻痛點(diǎn):
1.OpenClaw 易用性拉滿
? 自動(dòng)檢查 npm + git 依賴
? 自動(dòng)注冊(cè)、信任、配置 websearch 插件
? 修復(fù)模型切換不生效問(wèn)題
? 支持命令行指定模型
2.Claude Code 本地速度大幅提升
? 關(guān)閉影響緩存的請(qǐng)求頭
? 避免 KV 緩存斷裂
? 本地推理速度顯著加快
3.云端模型升級(jí)
? minimax-m2.5 → minimax-m2.7
? 全代碼、文檔、測(cè)試同步替換
4.Linux 無(wú)界面環(huán)境完美兼容
? 修復(fù) headless 系統(tǒng)登錄崩潰
? 簡(jiǎn)化終端鏈接輸出
? 兼容更多服務(wù)器環(huán)境
5.MLX 架構(gòu)全面現(xiàn)代化
? 支持量化嵌入層
? 模型加載與顯存檢查前置
? 子進(jìn)程生命周期重構(gòu)
? 支持預(yù)量化張量
? 多模型統(tǒng)一接口
6.流式輸出、云端代理完全穩(wěn)定
? 修復(fù) JSONL 粘包、不刷新
? 流式輸出實(shí)時(shí)流暢
7.極高穩(wěn)定性
? 所有功能配套單元測(cè)試
? 無(wú)破壞性兼容改動(dòng)
? 升級(jí)無(wú)成本,直接覆蓋使用
1. 所有使用 OpenClaw、Claude Code、MLX 模型、Linux 服務(wù)器部署的用戶,強(qiáng)烈建議升級(jí)到 v0.18.2
2. 升級(jí)后無(wú)需修改任何原有配置,模型、會(huì)話、插件完全兼容
3. 首次運(yùn)行會(huì)自動(dòng)更新配置,注冊(cè) websearch 插件,無(wú)需手動(dòng)操作
4. 使用 Apple 芯片用戶,MLX 量化模型速度、顯存占用會(huì)有明顯改善
5. 云端模型用戶自動(dòng)使用 minimax-m2.7,無(wú)需手動(dòng)切換
代碼地址:github.com/ollama/ollama
ollama 一直以“極簡(jiǎn)本地大模型部署”為核心,v0.18.2 版本再次體現(xiàn)了官方對(duì)用戶實(shí)際使用場(chǎng)景的深度理解:不追求花哨功能,專注解決依賴、速度、兼容、崩潰、流式輸出、模型切換等最基礎(chǔ)、最影響體驗(yàn)的問(wèn)題。
我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識(shí)。在這里,您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,發(fā)消息可獲得面試資料,讓AI助力您的未來(lái)發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.