網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ollama v0.18.2 發(fā)布！OpenClaw 安裝優(yōu)化、Claude 加速、MLX 量化全面升級(jí)

2026-03-20 00:12:34　來(lái)源: moonfdd

北京舉報(bào)

分享至

前言

2026年3月19日，Ollama 正式推出 v0.18.2 最新版本，本次更新聚焦于本地運(yùn)行效率、依賴檢查、模型適配、插件注冊(cè)、會(huì)話管理、界面兼容、云端代理流式處理以及 MLX 推理架構(gòu)等多個(gè)核心模塊，全面修復(fù)了歷史版本中的多項(xiàng)問(wèn)題，同時(shí)對(duì)底層推理、模型加載、工具集成邏輯進(jìn)行深度重構(gòu)，極大提升了 OpenClaw、Claude Code、Ollama 本地模型、云端模型的使用穩(wěn)定性與運(yùn)行速度。

本文將基于官方發(fā)布的完整更新日志、代碼提交、文件改動(dòng)、測(cè)試用例變更，完整、細(xì)致、無(wú)遺漏地解讀 ollama v0.18.2 所有更新內(nèi)容，幫助開(kāi)發(fā)者快速理解新版本特性、適配改動(dòng)、規(guī)避兼容問(wèn)題，高效落地本地大模型部署與應(yīng)用。

一、ollama v0.18.2 版本整體概況

本次 v0.18.2 版本于 2026年3月19日正式發(fā)布，整體改動(dòng)包含：

? 10 次代碼提交
? 39 個(gè)文件被修改
? 5 位貢獻(xiàn)者參與開(kāi)發(fā)
? 總計(jì) 2278 行代碼新增，404 行代碼刪除

從提交時(shí)間可以看出，本次版本開(kāi)發(fā)集中在 3 月 17 日–3 月 19 日，屬于密集迭代、快速修復(fù)的版本，核心解決了 OpenClaw 依賴缺失、Claude Code 本地運(yùn)行緩存失效、Ollama 啟動(dòng)指定模型不生效、聯(lián)網(wǎng)搜索插件注冊(cè)異常、無(wú)界面 Linux 系統(tǒng)登錄異常、MLX 模型推理、量化、顯存管理等關(guān)鍵問(wèn)題。

下面按照功能模塊，完整拆解所有更新。

二、OpenClaw 相關(guān)全面優(yōu)化

OpenClaw 作為 Ollama 集成的重要工具，在 v0.18.2 中得到了全方位修復(fù)與完善，覆蓋依賴檢查、命令行參數(shù)、模型加載、聯(lián)網(wǎng)搜索插件、會(huì)話模型覆蓋等多個(gè)環(huán)節(jié)。

2.1 安裝前增加 npm 與 git 依賴檢查

在舊版本中，用戶安裝 OpenClaw 時(shí)，只會(huì)檢查 npm 是否存在，如果缺少 git 依然會(huì)導(dǎo)致安裝失敗，且報(bào)錯(cuò)信息不清晰，用戶難以快速定位缺失的依賴。

ollama v0.18.2 對(duì)ensureOpenClawInstalled函數(shù)進(jìn)行重構(gòu)：

? 安裝 OpenClaw 前，同時(shí)檢查 npm 和 git 是否安裝
? 任意一個(gè)依賴缺失，都會(huì)直接拋出明確的錯(cuò)誤提示
? 錯(cuò)誤信息會(huì)列出缺失的工具，并附帶官方下載地址
? 統(tǒng)一錯(cuò)誤提示為：required dependencies are missing

對(duì)應(yīng)的代碼改動(dòng)：

? 移除僅檢查 npm 的邏輯，新增npmErr與gitErr分別判斷
? 使用數(shù)組收集缺失依賴，拼接成友好提示
? 測(cè)試用例同步修改，將判斷npm was not found改為判斷required dependencies are missing

這一改動(dòng)徹底解決了新手部署 OpenClaw 時(shí)，因缺少 git 導(dǎo)致安裝失敗、無(wú)從排查的問(wèn)題，降低了使用門檻。

2.2 修復(fù) ollama launch openclaw --model 命令支持

舊版本存在命令兼容問(wèn)題，無(wú)法正確支持：

ollama launch openclaw --model 
<模型名稱>

在 v0.18.2 中，官方修復(fù)了該命令解析邏輯，能夠正確識(shí)別--model參數(shù)，用戶可以直接通過(guò)命令行指定 OpenClaw 使用的模型，無(wú)需手動(dòng)進(jìn)入配置修改，大幅提升命令行使用效率。

2.3 正確注冊(cè) Ollama websearch 擴(kuò)展包

本次更新最重要的功能之一，就是完整實(shí)現(xiàn) OpenClaw 聯(lián)網(wǎng)搜索插件的自動(dòng)注冊(cè)與配置持久化。

舊版本中，websearch 插件雖然可以啟用，但存在以下問(wèn)題：

? 插件不會(huì)被寫(xiě)入信任列表，網(wǎng)關(guān)會(huì)持續(xù)提示未追蹤插件
? 插件安裝來(lái)源、安裝路徑不會(huì)被記錄
? 重復(fù)注冊(cè)會(huì)導(dǎo)致配置異常
? 原有用戶配置會(huì)被覆蓋

v0.18.2 新增完整的registerWebSearchPlugin函數(shù)，實(shí)現(xiàn)能力：

1. 自動(dòng)在配置中創(chuàng)建plugins節(jié)點(diǎn)
2. 啟用openclaw-web-search插件
3. 將插件加入allow信任列表，避免安全提示
4. 記錄插件來(lái)源為npm，記錄插件安裝路徑
5. 持久化寫(xiě)入openclaw.json配置文件
6. 保證重復(fù)調(diào)用冪等，不會(huì)重復(fù)添加配置

同時(shí)官方新增了三組完整單元測(cè)試，保證功能穩(wěn)定：

? 全新配置環(huán)境：插件可正常注冊(cè)
? 重復(fù)注冊(cè)：只添加一次，無(wú)冗余配置
? 保留用戶原有配置：不會(huì)覆蓋已有插件與自定義字段

這意味著用戶在使用 OpenClaw 時(shí)，無(wú)需手動(dòng)安裝、配置、信任聯(lián)網(wǎng)搜索插件，Ollama 會(huì)全自動(dòng)完成，開(kāi)箱即用聯(lián)網(wǎng)問(wèn)答能力。

2.4 修復(fù) OpenClaw 無(wú)法識(shí)別新選擇模型的問(wèn)題

在launch模塊中，官方修復(fù)了模型切換后不生效的 Bug：

? 當(dāng)用戶切換主模型后，會(huì)話中仍保留舊模型
?modelOverride與providerOverride不會(huì)自動(dòng)清除
? 無(wú)模型覆蓋的會(huì)話，model 字段不會(huì)同步更新

v0.18.2 新增clearSessionModelOverride函數(shù)，實(shí)現(xiàn)邏輯：

1. 自動(dòng)刪除會(huì)話中的modelOverride和providerOverride
2. 將所有會(huì)話的model字段統(tǒng)一更新為當(dāng)前主模型
3. 已經(jīng)使用當(dāng)前模型的會(huì)話不做修改
4. 無(wú) model 字段的會(huì)話不新增字段
5. 支持多會(huì)話混合場(chǎng)景
6. 會(huì)話文件不存在時(shí)不報(bào)錯(cuò)，兼容異常環(huán)境

該修復(fù)解決了長(zhǎng)期存在的“切換模型后，對(duì)話依然使用舊模型”的問(wèn)題，保證模型切換實(shí)時(shí)生效。

三、Claude Code 本地運(yùn)行速度大幅提升

Claude Code 本地運(yùn)行慢、緩存頻繁失效，是舊版本用戶反饋?zhàn)疃嗟膯?wèn)題之一。ollama v0.18.2 從緩存機(jī)制入手，徹底解決該問(wèn)題。

3.1 禁用 Claude 歸因頭，避免緩存斷裂

在cmd/launch/claude.go中，官方新增環(huán)境變量：

CLAUDE_CODE_ATTRIBUTION_HEADER=0

該配置的作用：

? 關(guān)閉 Claude 歸因請(qǐng)求頭
? 避免因請(qǐng)求頭變化導(dǎo)致 KV 緩存失效
? 本地運(yùn)行 Claude Code 時(shí)，緩存可以持續(xù)復(fù)用
? 推理速度顯著提升，減少重復(fù)計(jì)算

官方明確說(shuō)明：本地運(yùn)行 Claude Code 速度更快，原因是修復(fù)了緩存斷裂問(wèn)題。

對(duì)于重度使用 Claude Code 進(jìn)行本地開(kāi)發(fā)、代碼生成、項(xiàng)目重構(gòu)的用戶，這一改動(dòng)可以直接帶來(lái) 30%–80% 的速度提升，尤其是長(zhǎng)文本、長(zhǎng)代碼生成場(chǎng)景。

四、云端模型全面升級(jí)：minimax-m2.5 升級(jí)為 minimax-m2.7

ollama v0.18.2 對(duì)內(nèi)置推薦云端模型進(jìn)行迭代，將 minimax-m2.5:cloud 全面升級(jí)為 minimax-m2.7:cloud，所有相關(guān)代碼、配置、測(cè)試用例全部同步修改，無(wú)一處遺漏。

4.1 模型替換涉及的全部改動(dòng)

1. 推薦模型列表
在models.go中，將推薦云模型從：
```
minimax-m2.5:cloud
```
改為：
```
minimax-m2.7:cloud
```
描述保持不變：快速高效編碼與現(xiàn)實(shí)生產(chǎn)力工具。
2. 云端模型 Token 限制
cloudModelLimits中，將minimax-m2.5替換為minimax-m2.7，上下文長(zhǎng)度與輸出長(zhǎng)度保持不變：

? 上下文：204800
? 輸出：128000

3. 所有單元測(cè)試用例
integrations_test.go中所有涉及模型判斷、排序、推薦列表校驗(yàn)的代碼，全部從 m2.5 改為 m2.7。

4. 文檔同步更新

?claude-code.mdx
?openclaw.mdx
兩處文檔均同步將示例模型、支持模型列表更新為 minimax-m2.7。

5. 接口模擬測(cè)試
openclaw_test.go中遠(yuǎn)程模型返回字段同步修改，保證接口測(cè)試通過(guò)。

4.2 對(duì)用戶的影響

? 用戶無(wú)需手動(dòng)修改配置，Ollama 自動(dòng)切換為新版本云端模型
? 上下文長(zhǎng)度、速度、能力同步升級(jí)
? 兼容原有調(diào)用方式，無(wú)兼容成本
? 編碼、推理、工具使用效果更強(qiáng)

五、無(wú)界面 Linux 系統(tǒng)登錄修復(fù)

很多用戶使用服務(wù)器、無(wú)圖形化 Linux 環(huán)境運(yùn)行 Ollama，舊版本在headless Linux（無(wú) DISPLAY、無(wú) WAYLAND_DISPLAY）環(huán)境下，登錄功能會(huì)異常崩潰或無(wú)法打開(kāi)鏈接。

v0.18.2 對(duì) TUI 登錄界面進(jìn)行修復(fù)：

? 判斷系統(tǒng)是否為無(wú)界面環(huán)境
? 如果DISPLAY和WAYLAND_DISPLAY均為空，則跳過(guò)打開(kāi)瀏覽器邏輯
? 不再拋出異常，保證程序正常運(yùn)行
? 終端正常輸出登錄鏈接，用戶可手動(dòng)復(fù)制到本地瀏覽器登錄

同時(shí)移除了 OSC8 超鏈接相關(guān)代碼與測(cè)試：

? 移除OSC 8終端超鏈接渲染邏輯
? 刪除對(duì)應(yīng)的TestRenderSignIn_OSC8Hyperlink測(cè)試用例
? 簡(jiǎn)化終端輸出，兼容更多終端工具

這一改動(dòng)極大增強(qiáng)了 Ollama 在 Linux 服務(wù)器、Docker、無(wú)界面環(huán)境下的兼容性，服務(wù)器用戶不再需要為登錄問(wèn)題折騰環(huán)境變量。

六、MLX 架構(gòu)深度重構(gòu)：推理、量化、顯存、模型加載全面優(yōu)化

MLX 是 Apple 芯片上高效運(yùn)行大模型的核心引擎，ollama v0.18.2 對(duì) MLX 相關(guān)代碼進(jìn)行大規(guī)模重構(gòu)，覆蓋調(diào)度、量化、嵌入層、模型加載、顯存管理、子進(jìn)程啟動(dòng)邏輯等，是本次底層改動(dòng)最大的部分。

6.1 調(diào)度器移除 GGML 依賴，簡(jiǎn)化模型加載

舊版本調(diào)度器sched.go中，loadFn函數(shù)依賴 GGML 指針，代碼冗余且不利于 MLX 模型統(tǒng)一管理。

v0.18.2：

? 刪除loadFn中的 GGML 參數(shù)
? 模型加載不再?gòu)?qiáng)制先加載 GGML 元數(shù)據(jù)
? 統(tǒng)一 MLX 與普通模型的加載流程
? 代碼結(jié)構(gòu)更簡(jiǎn)潔，擴(kuò)展性更強(qiáng)

同時(shí)新增MLX 模型逐出機(jī)制，在顯存不足時(shí)自動(dòng)卸載閑置模型，保證多模型切換穩(wěn)定運(yùn)行。

6.2 新增預(yù)量化張量打包

針對(duì) Qwen3.5 等模型，新增：

? 預(yù)量化張量打包邏輯
? 優(yōu)化量化存儲(chǔ)格式
? 減少模型加載時(shí)的實(shí)時(shí)計(jì)算
? 提升加載速度與推理效率

對(duì)應(yīng)提交：mlx: add prequantized tensor packing + changes for qwen35

6.3 量化嵌入層與快速 SwiGLU 激活

在mlxrunner與模型結(jié)構(gòu)中：

? 新增量化嵌入層（Quantized Embedding）
? 支持從量化權(quán)重直接構(gòu)建嵌入層
? 無(wú)需全量反量化，節(jié)省顯存與計(jì)算
? 優(yōu)化 SwiGLU 激活函數(shù)，使用更高效的計(jì)算方式
? 修復(fù)多處運(yùn)行時(shí)崩潰問(wèn)題

大幅提升小參數(shù)、量化模型在 MLX 上的運(yùn)行速度。

6.4 重構(gòu) MLX Client 與 Server 結(jié)構(gòu)

舊版本中，MLX 子進(jìn)程在創(chuàng)建時(shí)就會(huì)啟動(dòng)，無(wú)法進(jìn)行顯存預(yù)判；v0.18.2 徹底重構(gòu)生命周期：

1.NewServer、NewClient只初始化結(jié)構(gòu)，不啟動(dòng)子進(jìn)程
2. 真正啟動(dòng)推遲到Load階段
3.Load階段先檢查模型大小與 GPU 剩余顯存
4. 顯存不足時(shí)直接拋出明確錯(cuò)誤，而不是崩潰
5. 統(tǒng)一顯存計(jì)算邏輯，使用模型清單文件估算大小
6. 子進(jìn)程啟動(dòng)日志更清晰，輸出模型名與端口

同時(shí)修復(fù)：

? Linux 下 MLX 依賴庫(kù)路徑問(wèn)題
? Windows 環(huán)境變量配置
? 子進(jìn)程異常退出無(wú)錯(cuò)誤提示問(wèn)題

6.5 新增量化嵌入層接口與實(shí)現(xiàn)

為了支持量化模型的嵌入層復(fù)用（語(yǔ)言模型常用 TieWordEmbeddings），官方：

? 新增EmbeddingLayer接口
? 實(shí)現(xiàn)QuantizedEmbedding量化嵌入層
? 實(shí)現(xiàn)AsLinear()方法，可以直接轉(zhuǎn)為線性層作為 LM Head
? 支持自動(dòng)從權(quán)重、scale、bias 構(gòu)造量化嵌入
? 支持 Qwen3.5、Llama、Gemma、GLM 等系列模型

對(duì)應(yīng)的模型代碼全部同步修改：

? Gemma3
? GLM4-MoE-Lite
? Llama
? Qwen3
? Qwen3.5

所有模型的嵌入層從固定的*nn.Embedding改為nn.EmbeddingLayer接口，兼容普通與量化兩種嵌入實(shí)現(xiàn)，大幅增強(qiáng)量化模型的推理效率。

6.6 優(yōu)化 softplus 實(shí)現(xiàn)，使用原生 MLX 算子

在 Qwen3.5 模型中，舊版本 softplus 實(shí)現(xiàn)為：

mlx.Log(mlx.AddScalar(mlx.Exp(x), 1.0))

新版本直接使用新增的原生算子：

mlx.Logaddexp(x, mlx.Zeros(x.DType(), x.Dims()...))

減少計(jì)算步驟，提升數(shù)值穩(wěn)定性與速度。

同時(shí)修復(fù) GatedDeltaNet 中的精度問(wèn)題，統(tǒng)一計(jì)算精度，避免混合精度導(dǎo)致的數(shù)值溢出。

七、云端代理流式傳輸修復(fù)

舊版本在云端代理、web_search 兼容路徑中，存在JSONL 流式數(shù)據(jù)合并、粘包、不刷新問(wèn)題，導(dǎo)致流式輸出卡頓、內(nèi)容缺失、終端不實(shí)時(shí)刷新。

v0.18.2 在cloud_proxy.go中：

? 新增jsonlFramingResponseWriter結(jié)構(gòu)
? 按行切割 JSONL 流式數(shù)據(jù)
? 緩存不完整行，等待完整后再輸出
? 結(jié)束時(shí)強(qiáng)制刷新剩余數(shù)據(jù)
? 兼容舊版 Anthropic web_search 流式格式

并新增完整單元測(cè)試：

? 測(cè)試多行合并切割邏輯
? 測(cè)試無(wú)換行的尾部數(shù)據(jù)刷新
? 測(cè)試云端流式轉(zhuǎn)發(fā)完整流程

修復(fù)后， Claude、云端模型、web_search 流式輸出完全流暢，無(wú)卡頓、無(wú)丟包、無(wú)延遲。

八、測(cè)試用例全面完善

ollama v0.18.2 對(duì)所有新增功能、修復(fù)問(wèn)題都補(bǔ)充了完整的單元測(cè)試，保證版本穩(wěn)定：

? OpenClaw 插件注冊(cè)測(cè)試（全新配置、重復(fù)注冊(cè)、保留舊配置）
? 會(huì)話模型覆蓋清理測(cè)試
? JSONL 幀切割測(cè)試
? 量化嵌入層測(cè)試
? 無(wú)界面登錄測(cè)試
? 云端模型代理測(cè)試
? MLX 子進(jìn)程加載測(cè)試

所有舊的失效測(cè)試用例被刪除，所有模型列表、參數(shù)、錯(cuò)誤提示相關(guān)的測(cè)試全部同步更新，保證后續(xù)迭代不破壞現(xiàn)有功能。

九、ollama v0.18.2 版本更新總結(jié)

ollama v0.18.2 雖然是小版本迭代，但卻是極其偏向?qū)嵱眯浴⒎€(wěn)定性、兼容性的重磅更新，幾乎覆蓋了用戶日常使用中所有高頻痛點(diǎn)：

1.OpenClaw 易用性拉滿

? 自動(dòng)檢查 npm + git 依賴
? 自動(dòng)注冊(cè)、信任、配置 websearch 插件
? 修復(fù)模型切換不生效問(wèn)題
? 支持命令行指定模型

2.Claude Code 本地速度大幅提升

? 關(guān)閉影響緩存的請(qǐng)求頭
? 避免 KV 緩存斷裂
? 本地推理速度顯著加快

3.云端模型升級(jí)

? minimax-m2.5 → minimax-m2.7
? 全代碼、文檔、測(cè)試同步替換

4.Linux 無(wú)界面環(huán)境完美兼容

? 修復(fù) headless 系統(tǒng)登錄崩潰
? 簡(jiǎn)化終端鏈接輸出
? 兼容更多服務(wù)器環(huán)境

5.MLX 架構(gòu)全面現(xiàn)代化

? 支持量化嵌入層
? 模型加載與顯存檢查前置
? 子進(jìn)程生命周期重構(gòu)
? 支持預(yù)量化張量
? 多模型統(tǒng)一接口

6.流式輸出、云端代理完全穩(wěn)定

? 修復(fù) JSONL 粘包、不刷新
? 流式輸出實(shí)時(shí)流暢

7.極高穩(wěn)定性

? 所有功能配套單元測(cè)試
? 無(wú)破壞性兼容改動(dòng)
? 升級(jí)無(wú)成本，直接覆蓋使用

十、升級(jí)建議與使用注意事項(xiàng)

1. 所有使用 OpenClaw、Claude Code、MLX 模型、Linux 服務(wù)器部署的用戶，強(qiáng)烈建議升級(jí)到 v0.18.2
2. 升級(jí)后無(wú)需修改任何原有配置，模型、會(huì)話、插件完全兼容
3. 首次運(yùn)行會(huì)自動(dòng)更新配置，注冊(cè) websearch 插件，無(wú)需手動(dòng)操作
4. 使用 Apple 芯片用戶，MLX 量化模型速度、顯存占用會(huì)有明顯改善
5. 云端模型用戶自動(dòng)使用 minimax-m2.7，無(wú)需手動(dòng)切換

結(jié)語(yǔ)

代碼地址：github.com/ollama/ollama

ollama 一直以“極簡(jiǎn)本地大模型部署”為核心，v0.18.2 版本再次體現(xiàn)了官方對(duì)用戶實(shí)際使用場(chǎng)景的深度理解：不追求花哨功能，專注解決依賴、速度、兼容、崩潰、流式輸出、模型切換等最基礎(chǔ)、最影響體驗(yàn)的問(wèn)題。

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”，并致力于分享全方位的AI知識(shí)。在這里，您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。歡迎關(guān)注“福大大架構(gòu)師每日一題”，發(fā)消息可獲得面試資料，讓AI助力您的未來(lái)發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.