337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

vLLM v0.18.0 更新,KV Cache 迎來大升級

0
分享至

上周剛寫完 v0.17.1 的補丁,vLLM v0.17.1 緊急補丁,修了一個讓 Qwen3.5 越跑越蠢的隱形 Bug,v0.18.0 就來了。


兄弟們總是問這個圖哪來的,就是 vllm 官網 vllm.ai

不只是功能堆疊,這次有幾個變化會直接影響你的部署配置。

先看全貌:v0.18.0 改了什么

變更

類型

Ray 從默認依賴中移除

?? 破壞性變更

gRPC 服務支持

--grpc標志)

新功能

GPU-less 渲染服務

vllm launch render

新功能

NGram 投機解碼遷移至 GPU

? 性能提升

KV Cache 智能 CPU 卸載

? 性能提升

FlexKV 卸載后端

新功能

彈性專家并行 Milestone 2

(NIXL-EP)

新功能

FlashInfer 升級至 0.6.6

?? 依賴升級

Responses API 流式工具調用

新功能

ASR 在線 Beam Search

新功能

FA4 用于 MLA Prefill

(DeepSeek V3)

? 性能提升

新架構

:Sarvam MoE、OLMo Hybrid、Kimi-Audio-7B 等

模型支持


1. Ray 被請出默認依賴

這是最需要注意的一條。

從 v0.18.0 開始,Ray 不再作為默認依賴安裝。

# 以前安裝 vLLM,Ray 會自動裝進來
pip install vllm


# 現在如果你需要 Ray(多節點/Ray Cluster),需要顯式安裝
pip install vllm ray

為什么移除?Ray 是個重型依賴,安裝慢、體積大,但絕大多數單機部署場景根本用不到它。拆開之后,單機部署的安裝速度和鏡像體積都會明顯改善。

什么情況下你還需要 Ray?

  • 使用 Ray Cluster 做多節點分布式推理

  • 用 Ray Data Pipeline 做批量推理

  • 依賴ray serve做服務編排

如果你只是在單機跑 vLLM,這個變化對你透明,什么都不用改。

2. gRPC 服務支持

一行 flag 開啟 gRPC:

vllm serve meta-llama/Llama-3.1-8B-Instruct --grpc

同時開啟 HTTP 和 gRPC:兩個接口獨立運行,互不干擾。

為什么 gRPC 比 HTTP/REST 更快?

HTTP/REST 每次請求需要解析文本格式的 JSON,頭部字段冗余多,長連接復用效率低。gRPC 基于 HTTP/2,用 Protocol Buffers 做二進制序列化,同一連接可以多路復用,延遲和吞吐都有明顯優勢。

在高并發、低延遲的場景(比如內部微服務互調、Agent Pipeline)里,gRPC 的優勢會被明顯放大。

目前 gRPC 端口默認是8001,HTTP 保持8000不變。

3. KV Cache 智能 CPU 卸載 + FlexKV

這一版對 KV Cache 的卸載邏輯做了兩個升級。

3.1 只卸載"值得卸載"的 block

之前的 CPU offloading 是無差別的——只要顯存緊張就往 CPU 搬。

現在加了一個復用頻率門控(reuse-frequency-gated):只有被多次復用的 block才會寫入 CPU。

邏輯很直接:一個 block 如果只被用了一次,把它寫到 CPU 再讀回來,開銷比收益大。只有那些在 prefix cache 里高頻命中的 block,才值得花帶寬卸載到 CPU 保留。

這對長對話、系統 prompt 固定的場景幫助很大——那些高頻復用的 prefix 塊會被優先保留,冷塊直接丟棄,減少無效 CPU?GPU 傳輸。

3.2 FlexKV:新的卸載后端

FlexKV 作為全新的 KV Cache 卸載后端引入,支持更靈活的存儲策略(不只是 CPU 內存,還可以擴展到 SSD 等介質)。

目前是實驗性功能,通過--kv-transfer-config指定:

vllm serve your-model \
--kv-transfer-config '{"kv_connector":"FlexKVConnector","kv_role":"kv_both"}'

配合多 KV group 支持(--kv-groups),對 PD 分離架構的部署有直接幫助。

4. NGram 投機解碼遷移至 GPU

NGram 是一種不依賴草稿模型的投機解碼方法——直接從輸入 prompt 里找 n-gram 模式來預測后續 token。

以前這個匹配邏輯在 CPU 上跑,每一步都需要 CPU→GPU 數據傳輸,開銷抵消了不少收益。

現在整個 NGram 匹配遷移到 GPU 上,同時兼容 async scheduler,spec decode 的額外開銷大幅下降。

適合用 NGram 的場景:代碼補全、文檔續寫、固定模板生成——這些場景里 prompt 和輸出之間有大量重復 n-gram,投機命中率高。不需要單獨加載一個草稿模型,只要加一個 flag:

vllm serve your-model \
--speculative-model "[ngram]" \
--num-speculative-tokens 5 \
--ngram-prompt-lookup-max 4
5. 彈性專家并行 Milestone 2:NIXL-EP 集成

這一版是彈性專家并行(Elastic EP)的第二個里程碑,核心變化是引入了NIXL-EP 集成

對于跑 MoE 大模型(DeepSeek、Qwen3.5 MoE、Mixtral 等)的用戶,這意味著什么?

之前:EP(Expert Parallelism)的 GPU 數量在啟動時就固定了,擴縮容需要重啟服務。

現在:通過 NIXL(NVIDIA Interconnect eXtension Library)做專家權重的動態調度,GPU 可以動態加入/移出集群,不需要完全重啟。

另外新增--enable-ep-weight-filterflag,啟動時只加載本地 GPU 負責的專家權重,跳過不需要的參數:

vllm serve deepseek-ai/DeepSeek-V3 \
--tensor-parallel-size 8 \
--enable-ep-weight-filter

大模型加載速度會有明顯提升,尤其是 EP 節點數多的時候。

6. FA4 用于 MLA Prefill

DeepSeek 系列用了MLA(Multi-head Latent Attention)架構——把 KV cache 壓縮到低秩空間,顯存占用大幅下降,但也帶來了額外的矩陣運算。

這一版為 MLA 的 prefill 階段引入了FlashAttention 4(FA4)內核,同時還有:

  • Triton MLA decode 的 FP8 KV cache 支持

  • DeepSeek-V3.2 向量化 MLA query concat kernel

  • context parallel 下 FP8 KV cache gather 優化

對于在生產環境跑 DeepSeek V3/V3.2 的用戶,這些內核優化疊加下來,prefill 吞吐會有可觀的提升。

7. GPU-less 渲染服務

這是一個架構解耦的新玩法。

# 啟動一個純 CPU 的預處理節點,不需要 GPU
vllm launch render --model your-model

背后的邏輯:多模態推理(圖像/音頻/視頻)的預處理(圖像解碼、resize、特征提取)和 GPU 推理之間其實是解耦的。

把預處理從 GPU 節點拆出來,單獨用 CPU 節點跑,GPU 只專注計算:

  • CPU 節點可以水平擴展,處理高并發的媒體上傳

  • GPU 不再被預處理任務占用

  • 有助于降低整體服務成本

8. Responses API 支持流式工具調用

OpenAI Responses API 現在支持流式(streaming)的工具/函數調用了。

這對 Agent 類應用很關鍵——工具調用的結果不再需要等整個響應生成完才返回,可以在生成過程中實時 stream 出來,大幅降低 Agent 的感知延遲。

模型支持更新

新增支持

類型

Sarvam MoE

新架構

OLMo Hybrid

新架構

HyperCLOVAX-SEED-Think-32B VLM

新架構

Kimi-Audio-7B-Instruct

音頻模型

ColPali 延遲交互檢索

RAG 檢索

Eagle3 for Qwen3.5

投機解碼

Eagle3 for Kimi K2.5 MLA

投機解碼

Whisper LoRA

LoRA

FP8 LoRA dense kernel

量化

另外修了一批國內常用模型的 bug:DeepSeek-V3.2 tokenizer 空格截斷、Qwen3.5 工具調用、Qwen3-VL 時間戳不一致、MiniCPM-V 音頻推理等。

該不該升?

跑 MoE 大模型(DeepSeek、Qwen3.5 MoE)+ 多 GPU:建議升。FA4 MLA 內核 + Elastic EP Milestone 2 是實實在在的提升。

用 NGram 投機解碼的:必須升。GPU 化之后性能質變。

用 Ray 管多節點集群的:升級前先確認pip install ray已在你的部署腳本里,否則啟動會報找不到 Ray。

用 KV Cache CPU offloading 的:升級可以順手用上智能門控,省掉無效的 CPU 寫入。

單機小模型部署:穩定性修復 + FlashInfer 0.6.6,升級無壞處。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
別在那酸“大胸脯漂白”,有這功夫不如好好欣賞

別在那酸“大胸脯漂白”,有這功夫不如好好欣賞

飛娛日記
2026-04-02 09:13:08
離婚前一天,老公突然抱住我:我們最后再試一次吧!我沒動

離婚前一天,老公突然抱住我:我們最后再試一次吧!我沒動

蕭竹輕語
2026-04-02 17:55:33
科比的妻子瓦妮莎和女兒與科比雕像的一張留影,令人動容的一幕

科比的妻子瓦妮莎和女兒與科比雕像的一張留影,令人動容的一幕

動物奇奇怪怪
2026-04-01 09:43:05
43歲林依晨參演暗戀桃花源話劇,顏值變化挺大的,變得憔悴了好多

43歲林依晨參演暗戀桃花源話劇,顏值變化挺大的,變得憔悴了好多

觀魚聽雨
2026-04-02 19:20:27
楊麗萍“御用男舞伴”跳樓自殺,跳得決絕,和楊麗萍感情不一般

楊麗萍“御用男舞伴”跳樓自殺,跳得決絕,和楊麗萍感情不一般

風月得自難尋
2026-04-03 07:30:33
突發!4月2日晚間多家公司發利空,兩家減持比例超1.2%

突發!4月2日晚間多家公司發利空,兩家減持比例超1.2%

慧眼看世界哈哈
2026-04-03 05:43:42
你花幾十萬登珠峰,向導卻偷偷往你飯里下藥!等你暈倒,錢就到他口袋了....

你花幾十萬登珠峰,向導卻偷偷往你飯里下藥!等你暈倒,錢就到他口袋了....

英國那些事兒
2026-04-02 23:25:31
全紅嬋不再隱瞞發胖原因,高敏四年兩次提醒

全紅嬋不再隱瞞發胖原因,高敏四年兩次提醒

原夢叁生
2026-04-02 05:50:55
車臣部隊馬上進入伊朗?五角大樓震動了,海灣國家則全都不吭聲了

車臣部隊馬上進入伊朗?五角大樓震動了,海灣國家則全都不吭聲了

Ck的蜜糖
2026-04-03 00:47:41
姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

大西體育
2026-03-31 13:27:01
張雪推薦資本方聯系正在造直升機和飛行卡丁車eVTOL的師父牙哥!牙哥公司注冊在杭州,已有投資者聯系

張雪推薦資本方聯系正在造直升機和飛行卡丁車eVTOL的師父牙哥!牙哥公司注冊在杭州,已有投資者聯系

通航圈
2026-04-02 20:26:05
山東老板周新峰去世,年僅40歲,因腰疼確診晚期,后悔做了三件事

山東老板周新峰去世,年僅40歲,因腰疼確診晚期,后悔做了三件事

以茶帶書
2026-04-02 18:10:59
6局激戰勝出!孫穎莎4-2贏下國乒內戰,強勢躋身世界杯八強

6局激戰勝出!孫穎莎4-2贏下國乒內戰,強勢躋身世界杯八強

全景體育V
2026-04-02 19:20:10
海警烈士譙禾林犧牲時執法畫面公開:被惡意減速急轉的走私艇高速沖撞

海警烈士譙禾林犧牲時執法畫面公開:被惡意減速急轉的走私艇高速沖撞

齊魯壹點
2026-04-02 21:20:18
我就兩個女兒,已絕戶不交了!續家譜每戶交500,有村民如此拒絕

我就兩個女兒,已絕戶不交了!續家譜每戶交500,有村民如此拒絕

火山詩話
2026-04-02 07:39:48
6億人都在上面找服務,經濟越差,“中國版暗網”越火?

6億人都在上面找服務,經濟越差,“中國版暗網”越火?

深氪新消費
2026-04-02 12:15:02
轟94+31+15!四巨頭爆錘黃蜂,哈登有麻煩了,騎士首輪遇到硬骨頭

轟94+31+15!四巨頭爆錘黃蜂,哈登有麻煩了,騎士首輪遇到硬骨頭

巴叔GO聊體育
2026-04-02 15:18:07
盛港雙尸案最新細節曝光:父逝后女兒苦撐三個月餓死,體重僅剩24公斤

盛港雙尸案最新細節曝光:父逝后女兒苦撐三個月餓死,體重僅剩24公斤

新加坡眼
2026-04-02 19:03:40
張雪機車剛奪冠就遭商標搶注!無錫公司玩陰的,結局大快人心

張雪機車剛奪冠就遭商標搶注!無錫公司玩陰的,結局大快人心

商悟社
2026-04-03 08:28:14
華南F3硬核祭祖又上新!廣東一家人將運竹筍的軌道車 當作上山掃墓的“專列”

華南F3硬核祭祖又上新!廣東一家人將運竹筍的軌道車 當作上山掃墓的“專列”

閃電新聞
2026-04-02 16:39:53
2026-04-03 09:24:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3303文章數 11122關注度
往期回顧 全部

科技要聞

戰火燒向科技公司!亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經要聞

全球石油危機或將蔓延

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

教育
時尚
數碼
旅游
手機

教育要聞

春假不“躺平”!鄉村學生專屬“安全+快樂”雙保障,解鎖春日成長新方式

為什么“這個顏色”成為今年頂流?這樣穿好看又治愈

數碼要聞

華為Mate X8折疊屏:8.15英寸巨幕+麒麟9040,最強折疊屏要來了

旅游要聞

深圳一網紅公園緊急閉園!一度大批游客涌入,官方:整改15天

手機要聞

價格壓不住了!驍龍8E6成本大漲:迭代旗艦起步價超5000元

無障礙瀏覽 進入關懷版