vLLM 作為目前最受歡迎的開源 LLM 推理和服務(wù)框架,近期發(fā)布了一系列重大更新。本文將詳細(xì)解讀 vLLM 團(tuán)隊(duì)在2025年12月密集發(fā)布的六項(xiàng)核心技術(shù)進(jìn)展,涵蓋路由負(fù)載均衡、推測(cè)解碼、幻覺檢測(cè)、多模態(tài)服務(wù)、語義路由及大規(guī)模部署等關(guān)鍵領(lǐng)域。目錄
vLLM Router:高性能智能負(fù)載均衡器
Speculators v0.3.0:推測(cè)解碼訓(xùn)練支持
HaluGate:實(shí)時(shí)幻覺檢測(cè)管道
編碼器解耦(EPD):多模態(tài)模型服務(wù)優(yōu)化
AMD × vLLM 語義路由器:混合模型智能協(xié)作
大規(guī)模服務(wù):DeepSeek @ 2.2k tok/s/H200
發(fā)布日期:2025年12月13日
在大規(guī)模生產(chǎn)環(huán)境中,高效管理請(qǐng)求分發(fā)至多個(gè)模型副本至關(guān)重要。傳統(tǒng)負(fù)載均衡器往往缺乏對(duì) LLM 推理有狀態(tài)特性(如 KV 緩存)的感知,無法處理復(fù)雜的服務(wù)模式(如 Prefill/Decode 分離)。
核心架構(gòu)
vLLM Router 是一款專為 vLLM 打造的高性能、輕量級(jí)負(fù)載均衡器,采用 Rust 構(gòu)建以實(shí)現(xiàn)最小開銷。它作為智能、狀態(tài)感知的負(fù)載均衡器,位于客戶端和 vLLM 工作節(jié)點(diǎn)集群之間。
![]()
vLLM Router 架構(gòu)示意圖 智能負(fù)載均衡策略
vLLM Router 提供多種負(fù)載均衡算法:
策略
特點(diǎn)
一致性哈希
確保相同路由鍵的請(qǐng)求"粘性"路由到同一工作節(jié)點(diǎn),最大化 KV 緩存復(fù)用
Power of Two
低開銷隨機(jī)選擇策略,提供優(yōu)秀的負(fù)載分配
輪詢 & 隨機(jī)
無狀態(tài)負(fù)載分配的標(biāo)準(zhǔn)策略
原生 Prefill/Decode 分離支持
Router 作為 vLLM 最先進(jìn)服務(wù)架構(gòu)的編排層:
智能將新請(qǐng)求路由到 Prefill 工作組
完成后,將請(qǐng)求狀態(tài)定向到適當(dāng)?shù)? Decode 工作節(jié)點(diǎn) 進(jìn)行 token 生成
支持 NIXL 和 NCCL-based 分離后端
Llama 3.1 8B(8 Prefill pods + 8 Decode pods):
vLLM Router 吞吐量比 llm-d 高 25%,比 K8s 原生負(fù)載均衡器高 100%
TTFT 比 llm-d 快 1200ms
DeepSeek V3(TP8 配置):
吞吐量比 K8s 原生負(fù)載均衡器 高 100%
TTFT 比 llm-d 和 K8s 原生 快 2000ms
發(fā)布日期:2025年12月13日
貢獻(xiàn)團(tuán)隊(duì):Red Hat AI 模型優(yōu)化團(tuán)隊(duì)
什么是推測(cè)解碼?
推測(cè)解碼允許 LLM 在單次前向傳播中生成多個(gè) token。它利用一個(gè)小型"草稿"模型與完整的"驗(yàn)證"模型配合工作:
![]()
Eagle3 架構(gòu)
工作原理:
草稿模型快速自回歸預(yù)測(cè)多個(gè) token
驗(yàn)證模型并行處理這些 token
驗(yàn)證器決定是否接受每個(gè) token
被拒絕的 token 及后續(xù)序列將被丟棄
優(yōu)勢(shì):
最終響應(yīng)與僅使用驗(yàn)證模型完全一致,無性能降級(jí)
驗(yàn)證模型可并行生成多個(gè) token
草稿模型開銷極小
Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓(xùn)練支持:
![]()
數(shù)據(jù)生成流程
訓(xùn)練流程包括:
使用 vLLM 的離線數(shù)據(jù)生成
單層和多層草稿模型訓(xùn)練
MoE 和非 MoE 驗(yàn)證器支持
訓(xùn)練完成后,只需簡(jiǎn)單命令即可在 vLLM 中運(yùn)行:
vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3
支持的模型:
Llama (3.1, 3.2, 3.3): 8B 到 70B 參數(shù)
Qwen3: 8B, 14B, 32B 參數(shù)
Qwen3 MoE: 235B-A22B 參數(shù)
GPT-OSS: 20B, 120B 參數(shù)
多模態(tài):Llama 4 視覺-語言模型
發(fā)布日期:2025年12月14日
問題背景
幻覺已成為 LLM 生產(chǎn)部署的最大障礙。跨行業(yè)場(chǎng)景中(法律、醫(yī)療、金融、客服),模型會(huì)生成看似權(quán)威但經(jīng)不起推敲的虛假內(nèi)容。
![]()
幻覺問題示例
典型場(chǎng)景:
工具返回正確數(shù)據(jù):
{"built": "1887-1889", "height": "330 meters"}LLM 響應(yīng)卻是:"埃菲爾鐵塔建于1950年,高500米"
不是每個(gè)查詢都需要幻覺檢測(cè)。HaluGate Sentinel 是基于 ModernBERT 的分類器,判斷提示是否需要事實(shí)驗(yàn)證:
![]()
Sentinel 工作流程
需要驗(yàn)證 :QA、真實(shí)性測(cè)試、幻覺基準(zhǔn)、信息查詢對(duì)話
無需驗(yàn)證 :創(chuàng)意寫作、代碼、觀點(diǎn)/指令類
準(zhǔn)確率達(dá) **96.4%**,推理延遲僅 ~12ms。
階段二:Token 級(jí)別檢測(cè) + NLI 解釋 ![]()
Token級(jí)檢測(cè)
與句子級(jí)分類器不同,token 級(jí)檢測(cè)能精確識(shí)別哪些 token 不受上下文支持:
輸入: [CLS] context [SEP] question [SEP] answer [SEP]
↓
ModernBERT 編碼器
↓
Token 分類頭 (每個(gè) token 二分類)
↓
標(biāo)簽: 0 = 支持, 1 = 幻覺
為什么采用集成方法? Token 級(jí)檢測(cè)單獨(dú)僅達(dá) 59% F1;兩階段方法將平庸的檢測(cè)器轉(zhuǎn)化為可操作系統(tǒng):LettuceDetect 提供召回率,NLI 提供精度和可解釋性。
性能表現(xiàn) ![]()
延遲對(duì)比
方法
延遲
成本
LLM-as-Judge (GPT-4)
500-3000ms
$0.03/請(qǐng)求
HaluGate
50-125ms
固定 GPU 成本
4. 編碼器解耦(EPD):多模態(tài)模型服務(wù)優(yōu)化
發(fā)布日期:2025年12月15日
貢獻(xiàn)團(tuán)隊(duì):vLLM 多模態(tài)工作流組
問題動(dòng)機(jī)
現(xiàn)代大型多模態(tài)模型(LMM)引入了獨(dú)特的服務(wù)瓶頸:在任何文本生成開始之前,所有圖像必須由視覺編碼器(如 ViT)處理。
![]()
EPD 架構(gòu)圖
傳統(tǒng)方案的問題:
編碼器在 GPU 上運(yùn)行時(shí),Decode 階段必須等待
圖像密集型請(qǐng)求會(huì)阻塞純文本請(qǐng)求
編碼器利用率不均導(dǎo)致資源浪費(fèi)
E → P D (請(qǐng)求 1)
E → P D (請(qǐng)求 2)
E → P D (請(qǐng)求 3)
請(qǐng)求 N 的編碼可在請(qǐng)求 N-1 預(yù)填充/解碼時(shí)運(yùn)行
純文本請(qǐng)求完全繞過編碼器
系統(tǒng)變?yōu)榱魉€并行,提升吞吐量
根據(jù)多模態(tài)圖像量擴(kuò)展編碼器 GPU
根據(jù)請(qǐng)求率和輸出長(zhǎng)度擴(kuò)展 Prefill/Decode GPU
常用圖像(logo、圖表、產(chǎn)品圖)的嵌入只計(jì)算一次
緩存命中的請(qǐng)求編碼成本為零,直接降低 TTFT
測(cè)試環(huán)境:4×A100 80G,模型:Qwen3-VL-4B-Instruct
![]()
短文本工作負(fù)載
短文本工作負(fù)載(~400 tokens):
單圖:goodput 小幅提升(23 → 24 QPS)
四圖: goodput 翻倍 (6 → 12 QPS)
P99 TTFT/TPOT 通常 降低 20-50%
長(zhǎng)文本工作負(fù)載(~2000 tokens):
EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput
有效解碼吞吐增加 10-30%
硬件可移植性: 在華為昇騰 NPU(4×Ascend 910B 32G)上也展現(xiàn)了相同的架構(gòu)級(jí)收益。
5. AMD × vLLM 語義路由器:混合模型智能協(xié)作
發(fā)布日期:2025年12月16日
貢獻(xiàn)團(tuán)隊(duì):AMD 與 vLLM 語義路由器團(tuán)隊(duì)
從單模型到混合模型的轉(zhuǎn)變 ![]()
混合模型架構(gòu)
在混合模型(Mixture-of-Models)世界中,企業(yè) AI 棧通常包括:
路由 SLM :分類、路由和策略執(zhí)行
多個(gè) LLM 和領(lǐng)域?qū)S媚P停ùa、金融、醫(yī)療、法律)
工具、RAG 管道、向量搜索和業(yè)務(wù)系統(tǒng)
路由策略
描述
關(guān)鍵詞路由
快速確定性的模式匹配
領(lǐng)域分類
意圖感知的適配器選擇
嵌入語義相似度
基于語義理解的細(xì)粒度路由
事實(shí)檢查路由
高風(fēng)險(xiǎn)查詢路由到專門驗(yàn)證管道
2. 跨實(shí)例智能
Response API :集中存儲(chǔ)實(shí)現(xiàn)有狀態(tài)多輪對(duì)話
語義緩存 :通過跨實(shí)例向量匹配顯著減少 token 使用
PII 檢測(cè) :防止敏感信息泄露
越獄防護(hù) :阻止惡意提示注入
幻覺檢測(cè) :驗(yàn)證關(guān)鍵領(lǐng)域的響應(yīng)可靠性
超級(jí)對(duì)齊 :確保 AI 系統(tǒng)在向 AGI 能力擴(kuò)展時(shí)保持與人類價(jià)值觀對(duì)齊
兩種部署方式:
基于 vLLM 的推理 :在 AMD GPU 上運(yùn)行完整推理
輕量級(jí) ONNX 路由 :僅路由邏輯,最小化資源占用
發(fā)布日期:2025年12月17日
V1 引擎完成遷移
在 v0.11.0 中,vLLM V0 引擎的最后代碼被移除,標(biāo)志著向改進(jìn)的 V1 引擎架構(gòu)的完全遷移。這一成就離不開 vLLM 社區(qū) 1,969 位貢獻(xiàn)者的努力。
性能突破 ![]()
Prefill 吞吐
Decode 吞吐
社區(qū)基準(zhǔn)測(cè)試(Coreweave H200 集群,Infiniband + ConnectX-7 NICs)顯示:
生產(chǎn)級(jí)多節(jié)點(diǎn)部署達(dá)到 2.2k tokens/s 每 GPU
相比早期 1.5k tokens/s 有顯著提升
![]()
https://blog.vllm.ai/ Wide-EP Token 路由
DeepSeek-V3 部署的兩大考慮:
稀疏專家激活 :DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數(shù)
KV 緩存管理 :張量并行對(duì) MLA 注意力架構(gòu)并非最優(yōu)
Wide-EP 結(jié)合 EP 與數(shù)據(jù)并行(DP),最大化 MLA 架構(gòu)的 KV 緩存效率。
雙批次重疊(DBO) ![]()
DBO 優(yōu)化前
優(yōu)化前: MoE 調(diào)度/組合部分的通信開銷占用大量時(shí)間
![]()
DBO 優(yōu)化后
優(yōu)化后: 微批次工作線程交替執(zhí)行,重疊計(jì)算與通信,提升 GPU 利用率
專家并行負(fù)載均衡(EPLB)
![]()
MoE 專家層在訓(xùn)練時(shí)針對(duì)平衡負(fù)載優(yōu)化,但推理時(shí)實(shí)際工作負(fù)載可能導(dǎo)致不均衡。EPLB 動(dòng)態(tài)調(diào)整邏輯到物理專家的映射。
分離式服務(wù)(Disaggregated Serving)
![]()
分離式服務(wù)
由于專家分布在各 rank 上,單個(gè)計(jì)算密集型 prefill 請(qǐng)求可能延遲整個(gè) EP 組的前向傳播。分離式服務(wù)放大了解耦的收益。
部署方案
方案
特點(diǎn)
![]()
llm-d
Kubernetes 原生分布式推理服務(wù)棧
![]()
Dynamo
高吞吐低延遲生產(chǎn)部署,支持 KV 感知路由
![]()
Ray Serve LLM
模塊化部署,無縫集成 Ray 生態(tài)
總結(jié)
vLLM 在2025年12月的更新展現(xiàn)了其在大規(guī)模 LLM 推理領(lǐng)域的持續(xù)創(chuàng)新:
vLLM Router 解決了生產(chǎn)環(huán)境中的智能負(fù)載均衡問題
Speculators v0.3.0 讓推測(cè)解碼從研究走向生產(chǎn)
HaluGate 提供了實(shí)時(shí)、低延遲的幻覺檢測(cè)能力
EPD 通過編碼器解耦優(yōu)化多模態(tài)模型服務(wù)
AMD × VSR 構(gòu)建了混合模型時(shí)代的智能控制面
大規(guī)模服務(wù)優(yōu)化 實(shí)現(xiàn)了 2.2k tok/s/H200 的突破性性能
這些技術(shù)進(jìn)展共同推動(dòng) vLLM 成為企業(yè)級(jí) AI 基礎(chǔ)設(shè)施的核心組件,為構(gòu)建可擴(kuò)展、可信賴、高性能的 AI 應(yīng)用提供了堅(jiān)實(shí)基礎(chǔ)。
本文由 AI 輔助編寫,基于 vLLM 官方博客https://blog.vllm.ai/內(nèi)容整理。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.