網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

vLLM 重要更新

2025-12-20 11:39:30　來源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

vLLM 作為目前最受歡迎的開源 LLM 推理和服務(wù)框架，近期發(fā)布了一系列重大更新。本文將詳細(xì)解讀 vLLM 團(tuán)隊(duì)在2025年12月密集發(fā)布的六項(xiàng)核心技術(shù)進(jìn)展，涵蓋路由負(fù)載均衡、推測(cè)解碼、幻覺檢測(cè)、多模態(tài)服務(wù)、語義路由及大規(guī)模部署等關(guān)鍵領(lǐng)域。

vLLM Router：高性能智能負(fù)載均衡器
Speculators v0.3.0：推測(cè)解碼訓(xùn)練支持
HaluGate：實(shí)時(shí)幻覺檢測(cè)管道
編碼器解耦（EPD）：多模態(tài)模型服務(wù)優(yōu)化
AMD × vLLM 語義路由器：混合模型智能協(xié)作
大規(guī)模服務(wù)：DeepSeek @ 2.2k tok/s/H200

1. vLLM Router：高性能智能負(fù)載均衡器

發(fā)布日期：2025年12月13日

在大規(guī)模生產(chǎn)環(huán)境中，高效管理請(qǐng)求分發(fā)至多個(gè)模型副本至關(guān)重要。傳統(tǒng)負(fù)載均衡器往往缺乏對(duì) LLM 推理有狀態(tài)特性（如 KV 緩存）的感知，無法處理復(fù)雜的服務(wù)模式（如 Prefill/Decode 分離）。

核心架構(gòu)

vLLM Router 是一款專為 vLLM 打造的高性能、輕量級(jí)負(fù)載均衡器，采用 Rust 構(gòu)建以實(shí)現(xiàn)最小開銷。它作為智能、狀態(tài)感知的負(fù)載均衡器，位于客戶端和 vLLM 工作節(jié)點(diǎn)集群之間。

vLLM Router 架構(gòu)示意圖智能負(fù)載均衡策略

vLLM Router 提供多種負(fù)載均衡算法：

策略

特點(diǎn)

一致性哈希

確保相同路由鍵的請(qǐng)求"粘性"路由到同一工作節(jié)點(diǎn)，最大化 KV 緩存復(fù)用

Power of Two

低開銷隨機(jī)選擇策略，提供優(yōu)秀的負(fù)載分配

輪詢 & 隨機(jī)

無狀態(tài)負(fù)載分配的標(biāo)準(zhǔn)策略

原生 Prefill/Decode 分離支持

Router 作為 vLLM 最先進(jìn)服務(wù)架構(gòu)的編排層：

智能將新請(qǐng)求路由到 Prefill 工作組
完成后，將請(qǐng)求狀態(tài)定向到適當(dāng)?shù)? Decode 工作節(jié)點(diǎn) 進(jìn)行 token 生成
支持 NIXL 和 NCCL-based 分離后端

性能基準(zhǔn)測(cè)試

DeepSeek V3 基準(zhǔn)測(cè)試

Llama 3.1 8B（8 Prefill pods + 8 Decode pods）：

vLLM Router 吞吐量比 llm-d 高 25%，比 K8s 原生負(fù)載均衡器高 100%
TTFT 比 llm-d 快 1200ms

DeepSeek V3（TP8 配置）：

吞吐量比 K8s 原生負(fù)載均衡器 高 100%
TTFT 比 llm-d 和 K8s 原生 快 2000ms

2. Speculators v0.3.0：推測(cè)解碼訓(xùn)練支持

發(fā)布日期：2025年12月13日
貢獻(xiàn)團(tuán)隊(duì)：Red Hat AI 模型優(yōu)化團(tuán)隊(duì)

什么是推測(cè)解碼？

推測(cè)解碼允許 LLM 在單次前向傳播中生成多個(gè) token。它利用一個(gè)小型"草稿"模型與完整的"驗(yàn)證"模型配合工作：

Eagle3 架構(gòu)

工作原理：

草稿模型快速自回歸預(yù)測(cè)多個(gè) token
驗(yàn)證模型并行處理這些 token
驗(yàn)證器決定是否接受每個(gè) token
被拒絕的 token 及后續(xù)序列將被丟棄

優(yōu)勢(shì)：

最終響應(yīng)與僅使用驗(yàn)證模型完全一致，無性能降級(jí)
驗(yàn)證模型可并行生成多個(gè) token
草稿模型開銷極小

端到端訓(xùn)練支持

Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓(xùn)練支持：

數(shù)據(jù)生成流程

訓(xùn)練流程包括：

使用 vLLM 的離線數(shù)據(jù)生成
單層和多層草稿模型訓(xùn)練
MoE 和非 MoE 驗(yàn)證器支持

隱狀態(tài)生成器一鍵部署

訓(xùn)練完成后，只需簡(jiǎn)單命令即可在 vLLM 中運(yùn)行：

vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3

支持的模型：

Llama (3.1, 3.2, 3.3): 8B 到 70B 參數(shù)
Qwen3: 8B, 14B, 32B 參數(shù)
Qwen3 MoE: 235B-A22B 參數(shù)
GPT-OSS: 20B, 120B 參數(shù)
多模態(tài)：Llama 4 視覺-語言模型

3. HaluGate：實(shí)時(shí)幻覺檢測(cè)管道

發(fā)布日期：2025年12月14日

問題背景

幻覺已成為 LLM 生產(chǎn)部署的最大障礙。跨行業(yè)場(chǎng)景中（法律、醫(yī)療、金融、客服），模型會(huì)生成看似權(quán)威但經(jīng)不起推敲的虛假內(nèi)容。

幻覺問題示例

典型場(chǎng)景：

工具返回正確數(shù)據(jù)： {"built": "1887-1889", "height": "330 meters"}
LLM 響應(yīng)卻是："埃菲爾鐵塔建于1950年，高500米"

HaluGate 兩階段檢測(cè)管道

HaluGate 架構(gòu) 階段一：HaluGate Sentinel（提示分類）

不是每個(gè)查詢都需要幻覺檢測(cè)。HaluGate Sentinel 是基于 ModernBERT 的分類器，判斷提示是否需要事實(shí)驗(yàn)證：

Sentinel 工作流程

需要驗(yàn)證 ：QA、真實(shí)性測(cè)試、幻覺基準(zhǔn)、信息查詢對(duì)話
無需驗(yàn)證 ：創(chuàng)意寫作、代碼、觀點(diǎn)/指令類

準(zhǔn)確率達(dá) **96.4%**，推理延遲僅 ~12ms。

階段二：Token 級(jí)別檢測(cè) + NLI 解釋
Token級(jí)檢測(cè)

與句子級(jí)分類器不同，token 級(jí)檢測(cè)能精確識(shí)別哪些 token 不受上下文支持：

輸入: [CLS] context [SEP] question [SEP] answer [SEP]
      ↓
ModernBERT 編碼器
      ↓
Token 分類頭 (每個(gè) token 二分類)
      ↓
標(biāo)簽: 0 = 支持, 1 = 幻覺

NLI 解釋層

為什么采用集成方法？ Token 級(jí)檢測(cè)單獨(dú)僅達(dá) 59% F1；兩階段方法將平庸的檢測(cè)器轉(zhuǎn)化為可操作系統(tǒng)：LettuceDetect 提供召回率，NLI 提供精度和可解釋性。

性能表現(xiàn)
延遲對(duì)比

方法

延遲

成本

LLM-as-Judge (GPT-4)

500-3000ms

$0.03/請(qǐng)求

HaluGate

50-125ms

固定 GPU 成本

4. 編碼器解耦（EPD）：多模態(tài)模型服務(wù)優(yōu)化

發(fā)布日期：2025年12月15日
貢獻(xiàn)團(tuán)隊(duì)：vLLM 多模態(tài)工作流組

問題動(dòng)機(jī)

現(xiàn)代大型多模態(tài)模型（LMM）引入了獨(dú)特的服務(wù)瓶頸：在任何文本生成開始之前，所有圖像必須由視覺編碼器（如 ViT）處理。

EPD 架構(gòu)圖

傳統(tǒng)方案的問題：

編碼器在 GPU 上運(yùn)行時(shí)，Decode 階段必須等待
圖像密集型請(qǐng)求會(huì)阻塞純文本請(qǐng)求
編碼器利用率不均導(dǎo)致資源浪費(fèi)

解耦方案的三大優(yōu)勢(shì)

工作流程圖 1. 流水線執(zhí)行與消除干擾

E → P D (請(qǐng)求 1)
    E → P D (請(qǐng)求 2)
        E → P D (請(qǐng)求 3)

請(qǐng)求 N 的編碼可在請(qǐng)求 N-1 預(yù)填充/解碼時(shí)運(yùn)行
純文本請(qǐng)求完全繞過編碼器
系統(tǒng)變?yōu)榱魉€并行，提升吞吐量

2. 獨(dú)立細(xì)粒度擴(kuò)展

根據(jù)多模態(tài)圖像量擴(kuò)展編碼器 GPU
根據(jù)請(qǐng)求率和輸出長(zhǎng)度擴(kuò)展 Prefill/Decode GPU

3. 編碼器輸出緩存與復(fù)用

常用圖像（logo、圖表、產(chǎn)品圖）的嵌入只計(jì)算一次
緩存命中的請(qǐng)求編碼成本為零，直接降低 TTFT

性能測(cè)試結(jié)果

測(cè)試環(huán)境：4×A100 80G，模型：Qwen3-VL-4B-Instruct

短文本工作負(fù)載

短文本工作負(fù)載（~400 tokens）：

單圖：goodput 小幅提升（23 → 24 QPS）
四圖： goodput 翻倍 （6 → 12 QPS）
P99 TTFT/TPOT 通常 降低 20-50%

長(zhǎng)文本工作負(fù)載

長(zhǎng)文本工作負(fù)載（~2000 tokens）：

EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput
有效解碼吞吐增加 10-30%

NPU 測(cè)試結(jié)果

硬件可移植性： 在華為昇騰 NPU（4×Ascend 910B 32G）上也展現(xiàn)了相同的架構(gòu)級(jí)收益。

5. AMD × vLLM 語義路由器：混合模型智能協(xié)作

發(fā)布日期：2025年12月16日
貢獻(xiàn)團(tuán)隊(duì)：AMD 與 vLLM 語義路由器團(tuán)隊(duì)

從單模型到混合模型的轉(zhuǎn)變
混合模型架構(gòu)

在混合模型（Mixture-of-Models）世界中，企業(yè) AI 棧通常包括：

路由 SLM ：分類、路由和策略執(zhí)行
多個(gè) LLM 和領(lǐng)域?qū)Ｓ媚Ｐ停ùa、金融、醫(yī)療、法律）
工具、RAG 管道、向量搜索和業(yè)務(wù)系統(tǒng)

VSR 核心能力

VSR 核心功能 1. 基于信號(hào)的 Multi-LoRA 路由

路由策略

描述

關(guān)鍵詞路由

快速確定性的模式匹配

領(lǐng)域分類

意圖感知的適配器選擇

嵌入語義相似度

基于語義理解的細(xì)粒度路由

事實(shí)檢查路由

高風(fēng)險(xiǎn)查詢路由到專門驗(yàn)證管道

2. 跨實(shí)例智能

Response API ：集中存儲(chǔ)實(shí)現(xiàn)有狀態(tài)多輪對(duì)話
語義緩存 ：通過跨實(shí)例向量匹配顯著減少 token 使用

3. 企業(yè)級(jí)護(hù)欄

企業(yè)護(hù)欄

PII 檢測(cè) ：防止敏感信息泄露
越獄防護(hù) ：阻止惡意提示注入
幻覺檢測(cè) ：驗(yàn)證關(guān)鍵領(lǐng)域的響應(yīng)可靠性
超級(jí)對(duì)齊 ：確保 AI 系統(tǒng)在向 AGI 能力擴(kuò)展時(shí)保持與人類價(jià)值觀對(duì)齊

AMD GPU 部署路徑

部署路徑

兩種部署方式：

基于 vLLM 的推理 ：在 AMD GPU 上運(yùn)行完整推理
輕量級(jí) ONNX 路由 ：僅路由邏輯，最小化資源占用

6. 大規(guī)模服務(wù)：DeepSeek @ 2.2k tok/s/H200

發(fā)布日期：2025年12月17日

V1 引擎完成遷移

在 v0.11.0 中，vLLM V0 引擎的最后代碼被移除，標(biāo)志著向改進(jìn)的 V1 引擎架構(gòu)的完全遷移。這一成就離不開 vLLM 社區(qū) 1,969 位貢獻(xiàn)者的努力。

性能突破
Prefill 吞吐 Decode 吞吐

社區(qū)基準(zhǔn)測(cè)試（Coreweave H200 集群，Infiniband + ConnectX-7 NICs）顯示：

生產(chǎn)級(jí)多節(jié)點(diǎn)部署達(dá)到 2.2k tokens/s 每 GPU
相比早期 1.5k tokens/s 有顯著提升

核心組件 Wide-EP（專家并行）

https://blog.vllm.ai/ Wide-EP Token 路由

DeepSeek-V3 部署的兩大考慮：

稀疏專家激活 ：DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數(shù)
KV 緩存管理 ：張量并行對(duì) MLA 注意力架構(gòu)并非最優(yōu)

KV 緩存對(duì)比

Wide-EP 結(jié)合 EP 與數(shù)據(jù)并行（DP），最大化 MLA 架構(gòu)的 KV 緩存效率。

雙批次重疊（DBO）
DBO 優(yōu)化前

優(yōu)化前： MoE 調(diào)度/組合部分的通信開銷占用大量時(shí)間

DBO 優(yōu)化后

優(yōu)化后： 微批次工作線程交替執(zhí)行，重疊計(jì)算與通信，提升 GPU 利用率

專家并行負(fù)載均衡（EPLB）

MoE 專家層在訓(xùn)練時(shí)針對(duì)平衡負(fù)載優(yōu)化，但推理時(shí)實(shí)際工作負(fù)載可能導(dǎo)致不均衡。EPLB 動(dòng)態(tài)調(diào)整邏輯到物理專家的映射。

分離式服務(wù)（Disaggregated Serving）

分離式服務(wù)

由于專家分布在各 rank 上，單個(gè)計(jì)算密集型 prefill 請(qǐng)求可能延遲整個(gè) EP 組的前向傳播。分離式服務(wù)放大了解耦的收益。

部署方案

方案

特點(diǎn)

llm-d

Kubernetes 原生分布式推理服務(wù)棧

Dynamo

高吞吐低延遲生產(chǎn)部署，支持 KV 感知路由

Ray Serve LLM

模塊化部署，無縫集成 Ray 生態(tài)

總結(jié)

vLLM 在2025年12月的更新展現(xiàn)了其在大規(guī)模 LLM 推理領(lǐng)域的持續(xù)創(chuàng)新：

vLLM Router 解決了生產(chǎn)環(huán)境中的智能負(fù)載均衡問題
Speculators v0.3.0 讓推測(cè)解碼從研究走向生產(chǎn)
HaluGate 提供了實(shí)時(shí)、低延遲的幻覺檢測(cè)能力
EPD 通過編碼器解耦優(yōu)化多模態(tài)模型服務(wù)
AMD × VSR 構(gòu)建了混合模型時(shí)代的智能控制面
大規(guī)模服務(wù)優(yōu)化 實(shí)現(xiàn)了 2.2k tok/s/H200 的突破性性能

這些技術(shù)進(jìn)展共同推動(dòng) vLLM 成為企業(yè)級(jí) AI 基礎(chǔ)設(shè)施的核心組件，為構(gòu)建可擴(kuò)展、可信賴、高性能的 AI 應(yīng)用提供了堅(jiān)實(shí)基礎(chǔ)。

本文由 AI 輔助編寫，基于 vLLM 官方博客https://blog.vllm.ai/內(nèi)容整理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.