337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

vLLM 重要更新

0
分享至

vLLM 作為目前最受歡迎的開源 LLM 推理和服務(wù)框架,近期發(fā)布了一系列重大更新。本文將詳細(xì)解讀 vLLM 團(tuán)隊(duì)在2025年12月密集發(fā)布的六項(xiàng)核心技術(shù)進(jìn)展,涵蓋路由負(fù)載均衡、推測(cè)解碼、幻覺檢測(cè)、多模態(tài)服務(wù)、語義路由及大規(guī)模部署等關(guān)鍵領(lǐng)域。
目錄
  1. vLLM Router:高性能智能負(fù)載均衡器

  2. Speculators v0.3.0:推測(cè)解碼訓(xùn)練支持

  3. HaluGate:實(shí)時(shí)幻覺檢測(cè)管道

  4. 編碼器解耦(EPD):多模態(tài)模型服務(wù)優(yōu)化

  5. AMD × vLLM 語義路由器:混合模型智能協(xié)作

  6. 大規(guī)模服務(wù):DeepSeek @ 2.2k tok/s/H200

1. vLLM Router:高性能智能負(fù)載均衡器

發(fā)布日期:2025年12月13日

在大規(guī)模生產(chǎn)環(huán)境中,高效管理請(qǐng)求分發(fā)至多個(gè)模型副本至關(guān)重要。傳統(tǒng)負(fù)載均衡器往往缺乏對(duì) LLM 推理有狀態(tài)特性(如 KV 緩存)的感知,無法處理復(fù)雜的服務(wù)模式(如 Prefill/Decode 分離)。

核心架構(gòu)

vLLM Router 是一款專為 vLLM 打造的高性能、輕量級(jí)負(fù)載均衡器,采用 Rust 構(gòu)建以實(shí)現(xiàn)最小開銷。它作為智能、狀態(tài)感知的負(fù)載均衡器,位于客戶端和 vLLM 工作節(jié)點(diǎn)集群之間。


vLLM Router 架構(gòu)示意圖 智能負(fù)載均衡策略

vLLM Router 提供多種負(fù)載均衡算法:

策略

特點(diǎn)

一致性哈希

確保相同路由鍵的請(qǐng)求"粘性"路由到同一工作節(jié)點(diǎn),最大化 KV 緩存復(fù)用

Power of Two

低開銷隨機(jī)選擇策略,提供優(yōu)秀的負(fù)載分配

輪詢 & 隨機(jī)

無狀態(tài)負(fù)載分配的標(biāo)準(zhǔn)策略


原生 Prefill/Decode 分離支持

Router 作為 vLLM 最先進(jìn)服務(wù)架構(gòu)的編排層:

  1. 智能將新請(qǐng)求路由到 Prefill 工作組

  2. 完成后,將請(qǐng)求狀態(tài)定向到適當(dāng)?shù)? Decode 工作節(jié)點(diǎn) 進(jìn)行 token 生成

  3. 支持 NIXL 和 NCCL-based 分離后端

性能基準(zhǔn)測(cè)試 DeepSeek V3 基準(zhǔn)測(cè)試

Llama 3.1 8B(8 Prefill pods + 8 Decode pods):

  • vLLM Router 吞吐量比 llm-d 高 25%,比 K8s 原生負(fù)載均衡器高 100%

  • TTFT 比 llm-d 快 1200ms

DeepSeek V3(TP8 配置):

  • 吞吐量比 K8s 原生負(fù)載均衡器 高 100%

  • TTFT 比 llm-d 和 K8s 原生 快 2000ms

2. Speculators v0.3.0:推測(cè)解碼訓(xùn)練支持

發(fā)布日期:2025年12月13日
貢獻(xiàn)團(tuán)隊(duì):Red Hat AI 模型優(yōu)化團(tuán)隊(duì)

什么是推測(cè)解碼?

推測(cè)解碼允許 LLM 在單次前向傳播中生成多個(gè) token。它利用一個(gè)小型"草稿"模型與完整的"驗(yàn)證"模型配合工作:


Eagle3 架構(gòu)

工作原理:

  1. 草稿模型快速自回歸預(yù)測(cè)多個(gè) token

  2. 驗(yàn)證模型并行處理這些 token

  3. 驗(yàn)證器決定是否接受每個(gè) token

  4. 被拒絕的 token 及后續(xù)序列將被丟棄

優(yōu)勢(shì):

  • 最終響應(yīng)與僅使用驗(yàn)證模型完全一致,無性能降級(jí)

  • 驗(yàn)證模型可并行生成多個(gè) token

  • 草稿模型開銷極小

端到端訓(xùn)練支持

Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓(xùn)練支持:


數(shù)據(jù)生成流程

訓(xùn)練流程包括:

  • 使用 vLLM 的離線數(shù)據(jù)生成

  • 單層和多層草稿模型訓(xùn)練

  • MoE 和非 MoE 驗(yàn)證器支持

隱狀態(tài)生成器 一鍵部署

訓(xùn)練完成后,只需簡(jiǎn)單命令即可在 vLLM 中運(yùn)行:

vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3

支持的模型:

  • Llama (3.1, 3.2, 3.3): 8B 到 70B 參數(shù)

  • Qwen3: 8B, 14B, 32B 參數(shù)

  • Qwen3 MoE: 235B-A22B 參數(shù)

  • GPT-OSS: 20B, 120B 參數(shù)

  • 多模態(tài):Llama 4 視覺-語言模型

3. HaluGate:實(shí)時(shí)幻覺檢測(cè)管道

發(fā)布日期:2025年12月14日

問題背景

幻覺已成為 LLM 生產(chǎn)部署的最大障礙。跨行業(yè)場(chǎng)景中(法律、醫(yī)療、金融、客服),模型會(huì)生成看似權(quán)威但經(jīng)不起推敲的虛假內(nèi)容。


幻覺問題示例

典型場(chǎng)景:

  • 工具返回正確數(shù)據(jù): {"built": "1887-1889", "height": "330 meters"}

  • LLM 響應(yīng)卻是:"埃菲爾鐵塔建于1950年,高500米"

HaluGate 兩階段檢測(cè)管道 HaluGate 架構(gòu) 階段一:HaluGate Sentinel(提示分類)

不是每個(gè)查詢都需要幻覺檢測(cè)。HaluGate Sentinel 是基于 ModernBERT 的分類器,判斷提示是否需要事實(shí)驗(yàn)證:


Sentinel 工作流程


  • 需要驗(yàn)證 :QA、真實(shí)性測(cè)試、幻覺基準(zhǔn)、信息查詢對(duì)話

  • 無需驗(yàn)證 :創(chuàng)意寫作、代碼、觀點(diǎn)/指令類

準(zhǔn)確率達(dá) **96.4%**,推理延遲僅 ~12ms

階段二:Token 級(jí)別檢測(cè) + NLI 解釋
Token級(jí)檢測(cè)

與句子級(jí)分類器不同,token 級(jí)檢測(cè)能精確識(shí)別哪些 token 不受上下文支持:

輸入: [CLS] context [SEP] question [SEP] answer [SEP]

ModernBERT 編碼器

Token 分類頭 (每個(gè) token 二分類)

標(biāo)簽: 0 = 支持, 1 = 幻覺
NLI 解釋層

為什么采用集成方法? Token 級(jí)檢測(cè)單獨(dú)僅達(dá) 59% F1;兩階段方法將平庸的檢測(cè)器轉(zhuǎn)化為可操作系統(tǒng):LettuceDetect 提供召回率,NLI 提供精度和可解釋性。

性能表現(xiàn)
延遲對(duì)比

方法

延遲

成本

LLM-as-Judge (GPT-4)

500-3000ms

$0.03/請(qǐng)求

HaluGate

50-125ms

固定 GPU 成本


4. 編碼器解耦(EPD):多模態(tài)模型服務(wù)優(yōu)化

發(fā)布日期:2025年12月15日
貢獻(xiàn)團(tuán)隊(duì):vLLM 多模態(tài)工作流組

問題動(dòng)機(jī)

現(xiàn)代大型多模態(tài)模型(LMM)引入了獨(dú)特的服務(wù)瓶頸:在任何文本生成開始之前,所有圖像必須由視覺編碼器(如 ViT)處理。


EPD 架構(gòu)圖

傳統(tǒng)方案的問題:

  • 編碼器在 GPU 上運(yùn)行時(shí),Decode 階段必須等待

  • 圖像密集型請(qǐng)求會(huì)阻塞純文本請(qǐng)求

  • 編碼器利用率不均導(dǎo)致資源浪費(fèi)

解耦方案的三大優(yōu)勢(shì) 工作流程圖 1. 流水線執(zhí)行與消除干擾

E → P D (請(qǐng)求 1)
E → P D (請(qǐng)求 2)
E → P D (請(qǐng)求 3)
  • 請(qǐng)求 N 的編碼可在請(qǐng)求 N-1 預(yù)填充/解碼時(shí)運(yùn)行

  • 純文本請(qǐng)求完全繞過編碼器

  • 系統(tǒng)變?yōu)榱魉€并行,提升吞吐量

2. 獨(dú)立細(xì)粒度擴(kuò)展
  • 根據(jù)多模態(tài)圖像量擴(kuò)展編碼器 GPU

  • 根據(jù)請(qǐng)求率和輸出長(zhǎng)度擴(kuò)展 Prefill/Decode GPU

3. 編碼器輸出緩存與復(fù)用
  • 常用圖像(logo、圖表、產(chǎn)品圖)的嵌入只計(jì)算一次

  • 緩存命中的請(qǐng)求編碼成本為零,直接降低 TTFT

性能測(cè)試結(jié)果

測(cè)試環(huán)境:4×A100 80G,模型:Qwen3-VL-4B-Instruct


短文本工作負(fù)載

短文本工作負(fù)載(~400 tokens):

  • 單圖:goodput 小幅提升(23 → 24 QPS)

  • 四圖: goodput 翻倍 (6 → 12 QPS)

  • P99 TTFT/TPOT 通常 降低 20-50%

長(zhǎng)文本工作負(fù)載

長(zhǎng)文本工作負(fù)載(~2000 tokens):

  • EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput

  • 有效解碼吞吐增加 10-30%

NPU 測(cè)試結(jié)果

硬件可移植性: 在華為昇騰 NPU(4×Ascend 910B 32G)上也展現(xiàn)了相同的架構(gòu)級(jí)收益。

5. AMD × vLLM 語義路由器:混合模型智能協(xié)作

發(fā)布日期:2025年12月16日
貢獻(xiàn)團(tuán)隊(duì):AMD 與 vLLM 語義路由器團(tuán)隊(duì)

從單模型到混合模型的轉(zhuǎn)變
混合模型架構(gòu)

在混合模型(Mixture-of-Models)世界中,企業(yè) AI 棧通常包括:

  • 路由 SLM :分類、路由和策略執(zhí)行

  • 多個(gè) LLM 和領(lǐng)域?qū)S媚P停ùa、金融、醫(yī)療、法律)

  • 工具、RAG 管道、向量搜索和業(yè)務(wù)系統(tǒng)

VSR 核心能力 VSR 核心功能 1. 基于信號(hào)的 Multi-LoRA 路由

路由策略

描述

關(guān)鍵詞路由

快速確定性的模式匹配

領(lǐng)域分類

意圖感知的適配器選擇

嵌入語義相似度

基于語義理解的細(xì)粒度路由

事實(shí)檢查路由

高風(fēng)險(xiǎn)查詢路由到專門驗(yàn)證管道


2. 跨實(shí)例智能

  • Response API :集中存儲(chǔ)實(shí)現(xiàn)有狀態(tài)多輪對(duì)話

  • 語義緩存 :通過跨實(shí)例向量匹配顯著減少 token 使用

3. 企業(yè)級(jí)護(hù)欄 企業(yè)護(hù)欄
  • PII 檢測(cè) :防止敏感信息泄露

  • 越獄防護(hù) :阻止惡意提示注入

  • 幻覺檢測(cè) :驗(yàn)證關(guān)鍵領(lǐng)域的響應(yīng)可靠性

  • 超級(jí)對(duì)齊 :確保 AI 系統(tǒng)在向 AGI 能力擴(kuò)展時(shí)保持與人類價(jià)值觀對(duì)齊

AMD GPU 部署路徑 部署路徑

兩種部署方式:

  1. 基于 vLLM 的推理 :在 AMD GPU 上運(yùn)行完整推理

  2. 輕量級(jí) ONNX 路由 :僅路由邏輯,最小化資源占用

6. 大規(guī)模服務(wù):DeepSeek @ 2.2k tok/s/H200

發(fā)布日期:2025年12月17日

V1 引擎完成遷移

在 v0.11.0 中,vLLM V0 引擎的最后代碼被移除,標(biāo)志著向改進(jìn)的 V1 引擎架構(gòu)的完全遷移。這一成就離不開 vLLM 社區(qū) 1,969 位貢獻(xiàn)者的努力。

性能突破
Prefill 吞吐 Decode 吞吐

社區(qū)基準(zhǔn)測(cè)試(Coreweave H200 集群,Infiniband + ConnectX-7 NICs)顯示:

  • 生產(chǎn)級(jí)多節(jié)點(diǎn)部署達(dá)到 2.2k tokens/s 每 GPU

  • 相比早期 1.5k tokens/s 有顯著提升

核心組件 Wide-EP(專家并行)



https://blog.vllm.ai/ Wide-EP Token 路由

DeepSeek-V3 部署的兩大考慮:

  • 稀疏專家激活 :DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數(shù)

  • KV 緩存管理 :張量并行對(duì) MLA 注意力架構(gòu)并非最優(yōu)

KV 緩存對(duì)比

Wide-EP 結(jié)合 EP 與數(shù)據(jù)并行(DP),最大化 MLA 架構(gòu)的 KV 緩存效率。

雙批次重疊(DBO)
DBO 優(yōu)化前

優(yōu)化前: MoE 調(diào)度/組合部分的通信開銷占用大量時(shí)間


DBO 優(yōu)化后

優(yōu)化后: 微批次工作線程交替執(zhí)行,重疊計(jì)算與通信,提升 GPU 利用率

專家并行負(fù)載均衡(EPLB)


MoE 專家層在訓(xùn)練時(shí)針對(duì)平衡負(fù)載優(yōu)化,但推理時(shí)實(shí)際工作負(fù)載可能導(dǎo)致不均衡。EPLB 動(dòng)態(tài)調(diào)整邏輯到物理專家的映射。

分離式服務(wù)(Disaggregated Serving)


分離式服務(wù)

由于專家分布在各 rank 上,單個(gè)計(jì)算密集型 prefill 請(qǐng)求可能延遲整個(gè) EP 組的前向傳播。分離式服務(wù)放大了解耦的收益。

部署方案

方案

特點(diǎn)


llm-d

Kubernetes 原生分布式推理服務(wù)棧


Dynamo

高吞吐低延遲生產(chǎn)部署,支持 KV 感知路由


Ray Serve LLM

模塊化部署,無縫集成 Ray 生態(tài)


總結(jié)

vLLM 在2025年12月的更新展現(xiàn)了其在大規(guī)模 LLM 推理領(lǐng)域的持續(xù)創(chuàng)新:

  1. vLLM Router 解決了生產(chǎn)環(huán)境中的智能負(fù)載均衡問題

  2. Speculators v0.3.0 讓推測(cè)解碼從研究走向生產(chǎn)

  3. HaluGate 提供了實(shí)時(shí)、低延遲的幻覺檢測(cè)能力

  4. EPD 通過編碼器解耦優(yōu)化多模態(tài)模型服務(wù)

  5. AMD × VSR 構(gòu)建了混合模型時(shí)代的智能控制面

  6. 大規(guī)模服務(wù)優(yōu)化 實(shí)現(xiàn)了 2.2k tok/s/H200 的突破性性能

這些技術(shù)進(jìn)展共同推動(dòng) vLLM 成為企業(yè)級(jí) AI 基礎(chǔ)設(shè)施的核心組件,為構(gòu)建可擴(kuò)展、可信賴、高性能的 AI 應(yīng)用提供了堅(jiān)實(shí)基礎(chǔ)。

本文由 AI 輔助編寫,基于 vLLM 官方博客https://blog.vllm.ai/內(nèi)容整理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
披著人皮的禽獸!這5位老戲骨真面目太惡心

披著人皮的禽獸!這5位老戲骨真面目太惡心

小椰的奶奶
2026-04-03 03:59:23
上海夫妻給干妹妹轉(zhuǎn)賬4900萬,結(jié)果慘變“接盤俠”……

上海夫妻給干妹妹轉(zhuǎn)賬4900萬,結(jié)果慘變“接盤俠”……

環(huán)球網(wǎng)資訊
2026-04-02 21:22:30
定了!燃油附加費(fèi)4月5日起上調(diào),漲幅5倍

定了!燃油附加費(fèi)4月5日起上調(diào),漲幅5倍

中國(guó)石油石化
2026-04-01 21:15:52
姆巴佩:梅西強(qiáng)得太夸張了,足球里幾乎每樣事他都做得特別好

姆巴佩:梅西強(qiáng)得太夸張了,足球里幾乎每樣事他都做得特別好

懂球帝
2026-04-03 07:48:15
美防長(zhǎng)要求陸軍參謀長(zhǎng)“辭職并立即退休”

美防長(zhǎng)要求陸軍參謀長(zhǎng)“辭職并立即退休”

北青網(wǎng)-北京青年報(bào)
2026-04-03 07:26:16
單依純好友魚椒鹽疑怒撕李榮浩?言論太露骨,評(píng)論區(qū)炸鍋了

單依純好友魚椒鹽疑怒撕李榮浩?言論太露骨,評(píng)論區(qū)炸鍋了

小徐講八卦
2026-04-02 06:35:08
剛從日本回來,說點(diǎn)不中聽的:日本的真實(shí)面目,可能讓你很意外

剛從日本回來,說點(diǎn)不中聽的:日本的真實(shí)面目,可能讓你很意外

復(fù)轉(zhuǎn)這些年
2026-04-01 09:17:19
兩年前“預(yù)言”美伊開戰(zhàn)的北京高中老師,對(duì)局勢(shì)有了新判斷

兩年前“預(yù)言”美伊開戰(zhàn)的北京高中老師,對(duì)局勢(shì)有了新判斷

用淚來贖罪
2026-04-01 16:45:43
體制女生為何成大齡單身重災(zāi)區(qū)?一個(gè)熱帖扎心:不是好男人絕種了

體制女生為何成大齡單身重災(zāi)區(qū)?一個(gè)熱帖扎心:不是好男人絕種了

火山詩(shī)話
2026-04-02 16:20:07
中國(guó)科協(xié)就2026年NeurIPS會(huì)議再發(fā)聲明 ,道歉并不能獲得原諒

中國(guó)科協(xié)就2026年NeurIPS會(huì)議再發(fā)聲明 ,道歉并不能獲得原諒

混沌錄
2026-04-01 20:37:11
健身后欲望很大是怎么回事?

健身后欲望很大是怎么回事?

性學(xué)研究僧
2026-04-02 20:11:16
事態(tài)嚴(yán)重了,中方接到日媒消息,日本遠(yuǎn)導(dǎo)鎖定東海,俄已選邊站

事態(tài)嚴(yán)重了,中方接到日媒消息,日本遠(yuǎn)導(dǎo)鎖定東海,俄已選邊站

策略述
2026-04-02 18:31:51
美股低開高走實(shí)現(xiàn)大逆轉(zhuǎn)

美股低開高走實(shí)現(xiàn)大逆轉(zhuǎn)

每日經(jīng)濟(jì)新聞
2026-04-03 08:09:57
13.9萬起!豐田官宣:新車首次降價(jià)

13.9萬起!豐田官宣:新車首次降價(jià)

高科技愛好者
2026-04-02 23:20:08
2010年文強(qiáng)被執(zhí)行死刑前照片!?生命最后四小時(shí)公開

2010年文強(qiáng)被執(zhí)行死刑前照片!?生命最后四小時(shí)公開

深度報(bào)
2026-04-01 21:52:05
伊朗強(qiáng)烈譴責(zé)導(dǎo)彈襲擊體育館事件

伊朗強(qiáng)烈譴責(zé)導(dǎo)彈襲擊體育館事件

財(cái)聯(lián)社
2026-04-02 20:20:11
第89波!伊朗發(fā)射100枚重型導(dǎo)彈,造成美以重大傷亡,特朗普失聲

第89波!伊朗發(fā)射100枚重型導(dǎo)彈,造成美以重大傷亡,特朗普失聲

李健政觀察
2026-04-02 16:54:40
布倫特原油現(xiàn)貨價(jià)格飆升至每桶141美元,創(chuàng)2008年金融危機(jī)以來最高水平

布倫特原油現(xiàn)貨價(jià)格飆升至每桶141美元,創(chuàng)2008年金融危機(jī)以來最高水平

新浪財(cái)經(jīng)
2026-04-03 05:45:40
雍正臨終前才告訴乾隆:當(dāng)初不殺年羹堯,你的龍椅根本坐不穩(wěn)!

雍正臨終前才告訴乾隆:當(dāng)初不殺年羹堯,你的龍椅根本坐不穩(wěn)!

千秋文化
2026-03-08 20:01:13
鄭麗文應(yīng)邀訪陸,24小時(shí)不到,一架美專機(jī)抵達(dá)島內(nèi),特朗普攤牌了

鄭麗文應(yīng)邀訪陸,24小時(shí)不到,一架美專機(jī)抵達(dá)島內(nèi),特朗普攤牌了

愛吃醋的貓咪
2026-04-01 22:29:35
2026-04-03 09:59:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3303文章數(shù) 11122關(guān)注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬億美元估值,馬斯克野心太大

頭條要聞

專家:伊朗導(dǎo)彈數(shù)量足夠維持反擊一到兩周

頭條要聞

專家:伊朗導(dǎo)彈數(shù)量足夠維持反擊一到兩周

體育要聞

邵佳一的改革,從讓每個(gè)人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財(cái)經(jīng)要聞

全球石油危機(jī)或?qū)⒙?/h3>

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車QQ3 EV

態(tài)度原創(chuàng)

旅游
房產(chǎn)
家居
時(shí)尚
親子

旅游要聞

放春假了,來北京研學(xué)旅游唄——北京推出10條“漫步北京-春假清明研學(xué)主題游線路”

房產(chǎn)要聞

9000畝供地計(jì)劃出爐!三亞樓市,格局大變!

家居要聞

歲月靜好 典雅新章

為什么“這個(gè)顏色”成為今年頂流?這樣穿好看又治愈

親子要聞

洗頭的舒適區(qū),讓爸爸想出更多帶娃創(chuàng)意

無障礙瀏覽 進(jìn)入關(guān)懷版