網易首頁 > 網易號 > 正文申請入駐

vLLM v0.18.0 更新，KV Cache 迎來大升級

2026-03-21 15:45:53　來源: Ai學習的老章

北京舉報

分享至

上周剛寫完 v0.17.1 的補丁，vLLM v0.17.1 緊急補丁，修了一個讓 Qwen3.5 越跑越蠢的隱形 Bug，v0.18.0 就來了。

兄弟們總是問這個圖哪來的，就是 vllm 官網 vllm.ai

不只是功能堆疊，這次有幾個變化會直接影響你的部署配置。

先看全貌：v0.18.0 改了什么

變更

類型

Ray 從默認依賴中移除

?? 破壞性變更

gRPC 服務支持

（--grpc標志）

新功能

GPU-less 渲染服務

（vllm launch render）

新功能

NGram 投機解碼遷移至 GPU

? 性能提升

KV Cache 智能 CPU 卸載

? 性能提升

FlexKV 卸載后端

新功能

彈性專家并行 Milestone 2

（NIXL-EP）

新功能

FlashInfer 升級至 0.6.6

?? 依賴升級

Responses API 流式工具調用

新功能

ASR 在線 Beam Search

新功能

FA4 用于 MLA Prefill

（DeepSeek V3）

? 性能提升

新架構

：Sarvam MoE、OLMo Hybrid、Kimi-Audio-7B 等

模型支持

1. Ray 被請出默認依賴

這是最需要注意的一條。

從 v0.18.0 開始，Ray 不再作為默認依賴安裝。

# 以前安裝 vLLM，Ray 會自動裝進來
pip install vllm


 # 現在如果你需要 Ray（多節點/Ray Cluster），需要顯式安裝
pip install vllm ray

為什么移除？Ray 是個重型依賴，安裝慢、體積大，但絕大多數單機部署場景根本用不到它。拆開之后，單機部署的安裝速度和鏡像體積都會明顯改善。

什么情況下你還需要 Ray？

使用 Ray Cluster 做多節點分布式推理
用 Ray Data Pipeline 做批量推理
依賴ray serve做服務編排

如果你只是在單機跑 vLLM，這個變化對你透明，什么都不用改。

2. gRPC 服務支持

一行 flag 開啟 gRPC：

vllm serve meta-llama/Llama-3.1-8B-Instruct --grpc

同時開啟 HTTP 和 gRPC：兩個接口獨立運行，互不干擾。

為什么 gRPC 比 HTTP/REST 更快？

HTTP/REST 每次請求需要解析文本格式的 JSON，頭部字段冗余多，長連接復用效率低。gRPC 基于 HTTP/2，用 Protocol Buffers 做二進制序列化，同一連接可以多路復用，延遲和吞吐都有明顯優勢。

在高并發、低延遲的場景（比如內部微服務互調、Agent Pipeline）里，gRPC 的優勢會被明顯放大。

目前 gRPC 端口默認是8001，HTTP 保持8000不變。

3. KV Cache 智能 CPU 卸載 + FlexKV

這一版對 KV Cache 的卸載邏輯做了兩個升級。

3.1 只卸載"值得卸載"的 block

之前的 CPU offloading 是無差別的——只要顯存緊張就往 CPU 搬。

現在加了一個復用頻率門控（reuse-frequency-gated）：只有被多次復用的 block才會寫入 CPU。

邏輯很直接：一個 block 如果只被用了一次，把它寫到 CPU 再讀回來，開銷比收益大。只有那些在 prefix cache 里高頻命中的 block，才值得花帶寬卸載到 CPU 保留。

這對長對話、系統 prompt 固定的場景幫助很大——那些高頻復用的 prefix 塊會被優先保留，冷塊直接丟棄，減少無效 CPU?GPU 傳輸。

3.2 FlexKV：新的卸載后端

FlexKV 作為全新的 KV Cache 卸載后端引入，支持更靈活的存儲策略（不只是 CPU 內存，還可以擴展到 SSD 等介質）。

目前是實驗性功能，通過--kv-transfer-config指定：

vllm serve your-model \
  --kv-transfer-config '{"kv_connector":"FlexKVConnector","kv_role":"kv_both"}'

配合多 KV group 支持（--kv-groups），對 PD 分離架構的部署有直接幫助。

4. NGram 投機解碼遷移至 GPU

NGram 是一種不依賴草稿模型的投機解碼方法——直接從輸入 prompt 里找 n-gram 模式來預測后續 token。

以前這個匹配邏輯在 CPU 上跑，每一步都需要 CPU→GPU 數據傳輸，開銷抵消了不少收益。

現在整個 NGram 匹配遷移到 GPU 上，同時兼容 async scheduler，spec decode 的額外開銷大幅下降。

適合用 NGram 的場景：代碼補全、文檔續寫、固定模板生成——這些場景里 prompt 和輸出之間有大量重復 n-gram，投機命中率高。不需要單獨加載一個草稿模型，只要加一個 flag：

vllm serve your-model \
  --speculative-model "[ngram]" \
  --num-speculative-tokens 5 \
  --ngram-prompt-lookup-max 4

5. 彈性專家并行 Milestone 2：NIXL-EP 集成

這一版是彈性專家并行（Elastic EP）的第二個里程碑，核心變化是引入了NIXL-EP 集成。

對于跑 MoE 大模型（DeepSeek、Qwen3.5 MoE、Mixtral 等）的用戶，這意味著什么？

之前：EP（Expert Parallelism）的 GPU 數量在啟動時就固定了，擴縮容需要重啟服務。

現在：通過 NIXL（NVIDIA Interconnect eXtension Library）做專家權重的動態調度，GPU 可以動態加入/移出集群，不需要完全重啟。

另外新增--enable-ep-weight-filterflag，啟動時只加載本地 GPU 負責的專家權重，跳過不需要的參數：

vllm serve deepseek-ai/DeepSeek-V3 \
  --tensor-parallel-size 8 \
  --enable-ep-weight-filter

大模型加載速度會有明顯提升，尤其是 EP 節點數多的時候。

6. FA4 用于 MLA Prefill

DeepSeek 系列用了MLA（Multi-head Latent Attention）架構——把 KV cache 壓縮到低秩空間，顯存占用大幅下降，但也帶來了額外的矩陣運算。

這一版為 MLA 的 prefill 階段引入了FlashAttention 4（FA4）內核，同時還有：

Triton MLA decode 的 FP8 KV cache 支持
DeepSeek-V3.2 向量化 MLA query concat kernel
context parallel 下 FP8 KV cache gather 優化

對于在生產環境跑 DeepSeek V3/V3.2 的用戶，這些內核優化疊加下來，prefill 吞吐會有可觀的提升。

7. GPU-less 渲染服務

這是一個架構解耦的新玩法。

# 啟動一個純 CPU 的預處理節點，不需要 GPU
vllm launch render --model your-model

背后的邏輯：多模態推理（圖像/音頻/視頻）的預處理（圖像解碼、resize、特征提取）和 GPU 推理之間其實是解耦的。

把預處理從 GPU 節點拆出來，單獨用 CPU 節點跑，GPU 只專注計算：

CPU 節點可以水平擴展，處理高并發的媒體上傳
GPU 不再被預處理任務占用
有助于降低整體服務成本

8. Responses API 支持流式工具調用

OpenAI Responses API 現在支持流式（streaming）的工具/函數調用了。

這對 Agent 類應用很關鍵——工具調用的結果不再需要等整個響應生成完才返回，可以在生成過程中實時 stream 出來，大幅降低 Agent 的感知延遲。

模型支持更新

新增支持

類型

Sarvam MoE

新架構

OLMo Hybrid

新架構

HyperCLOVAX-SEED-Think-32B VLM

新架構

Kimi-Audio-7B-Instruct

音頻模型

ColPali 延遲交互檢索

RAG 檢索

Eagle3 for Qwen3.5

投機解碼

Eagle3 for Kimi K2.5 MLA

投機解碼

Whisper LoRA

LoRA

FP8 LoRA dense kernel

量化

另外修了一批國內常用模型的 bug：DeepSeek-V3.2 tokenizer 空格截斷、Qwen3.5 工具調用、Qwen3-VL 時間戳不一致、MiniCPM-V 音頻推理等。

該不該升？

跑 MoE 大模型（DeepSeek、Qwen3.5 MoE）+ 多 GPU：建議升。FA4 MLA 內核 + Elastic EP Milestone 2 是實實在在的提升。

用 NGram 投機解碼的：必須升。GPU 化之后性能質變。

用 Ray 管多節點集群的：升級前先確認pip install ray已在你的部署腳本里，否則啟動會報找不到 Ray。

用 KV Cache CPU offloading 的：升級可以順手用上智能門控，省掉無效的 CPU 寫入。

單機小模型部署：穩定性修復 + FlashInfer 0.6.6，升級無壞處。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

別在那酸“大胸脯漂白”，有這功夫不如好好欣賞

飛娛日記

2026-04-02 09:13:08

離婚前一天，老公突然抱住我：我們最后再試一次吧！我沒動

蕭竹輕語

2026-04-02 17:55:33

科比的妻子瓦妮莎和女兒與科比雕像的一張留影，令人動容的一幕

動物奇奇怪怪

2026-04-01 09:43:05

43歲林依晨參演暗戀桃花源話劇，顏值變化挺大的，變得憔悴了好多

觀魚聽雨

2026-04-02 19:20:27

楊麗萍“御用男舞伴”跳樓自殺，跳得決絕，和楊麗萍感情不一般

風月得自難尋

2026-04-03 07:30:33

突發！4月2日晚間多家公司發利空，兩家減持比例超1.2%

慧眼看世界哈哈

2026-04-03 05:43:42

你花幾十萬登珠峰，向導卻偷偷往你飯里下藥！等你暈倒，錢就到他口袋了....

英國那些事兒

2026-04-02 23:25:31

全紅嬋不再隱瞞發胖原因，高敏四年兩次提醒

原夢叁生

2026-04-02 05:50:55

車臣部隊馬上進入伊朗？五角大樓震動了，海灣國家則全都不吭聲了

Ck的蜜糖

2026-04-03 00:47:41

姆巴佩和女友近照，27歲已是超巨，身家過億，女友是火辣演員

大西體育

2026-03-31 13:27:01

張雪推薦資本方聯系正在造直升機和飛行卡丁車eVTOL的師父牙哥！牙哥公司注冊在杭州，已有投資者聯系

通航圈

2026-04-02 20:26:05

山東老板周新峰去世，年僅40歲，因腰疼確診晚期，后悔做了三件事

以茶帶書

2026-04-02 18:10:59

6局激戰勝出！孫穎莎4-2贏下國乒內戰，強勢躋身世界杯八強

全景體育V

2026-04-02 19:20:10

海警烈士譙禾林犧牲時執法畫面公開：被惡意減速急轉的走私艇高速沖撞

齊魯壹點

2026-04-02 21:20:18

我就兩個女兒，已絕戶不交了！續家譜每戶交500，有村民如此拒絕

火山詩話

2026-04-02 07:39:48

6億人都在上面找服務，經濟越差，“中國版暗網”越火？

深氪新消費

2026-04-02 12:15:02

轟94+31+15！四巨頭爆錘黃蜂，哈登有麻煩了，騎士首輪遇到硬骨頭

巴叔GO聊體育

2026-04-02 15:18:07

盛港雙尸案最新細節曝光：父逝后女兒苦撐三個月餓死，體重僅剩24公斤

新加坡眼

2026-04-02 19:03:40

張雪機車剛奪冠就遭商標搶注！無錫公司玩陰的，結局大快人心

商悟社

2026-04-03 08:28:14

華南F3硬核祭祖又上新！廣東一家人將運竹筍的軌道車當作上山掃墓的“專列”

閃電新聞

2026-04-02 16:39:53

Ai學習的老章

3303文章數 11122關注度

往期回顧全部

科技要聞

戰火燒向科技公司！亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革，從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐！曾沛慈斷層第一

財經要聞

全球石油危機或將蔓延

汽車要聞

軸距2米7/后排能蹺腿試駕后驅小車QQ3 EV

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

數碼

旅游

手機

手機 / 數碼

房產 / 家居

vLLM v0.18.0 更新，KV Cache 迎來大升級

戰火燒向科技公司！亞馬遜中東云計算中心遭襲

被中國外交部揭底的日本極右翼分子身份披露

被中國外交部揭底的日本極右翼分子身份披露

邵佳一的改革，從讓每個人踢舒服開始

《浪姐》人氣榜出爐！曾沛慈斷層第一

全球石油危機或將蔓延

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

春假不“躺平”！鄉村學生專屬“安全+快樂”雙保障，解鎖春日成長新方式

為什么“這個顏色”成為今年頂流？這樣穿好看又治愈

華為Mate X8折疊屏：8.15英寸巨幕+麒麟9040，最強折疊屏要來了

深圳一網紅公園緊急閉園！一度大批游客涌入，官方：整改15天

價格壓不住了！驍龍8E6成本大漲：迭代旗艦起步價超5000元

vLLM v0.18.0 更新，KV Cache 迎來大升級

戰火燒向科技公司！亞馬遜中東云計算中心遭襲

《浪姐》人氣榜出爐！曾沛慈斷層第一

軸距2米7/后排能蹺腿試駕后驅小車QQ3 EV

春假不“躺平”！鄉村學生專屬“安全+快樂”雙保障，解鎖春日成長新方式

深圳一網紅公園緊急閉園！一度大批游客涌入，官方：整改15天