337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

vLLM 部署 Qwen3.5 滿血&量化版,并發性能測試,附部署腳本

0
分享至

最近openclaw在國內火的優點離譜,脫離其實力范圍的火,以至于我也要在文中加上兩句才可能有流量。。。主要是我個人一直玩的是自己折騰的一套,比較放心

不過本周我會測試國產的兩個claw,敬請期待。

本文繼續折騰Qwen3.5 不出意外是最后一篇了。

Qwen3.5 系列我一直沒有拿 vLLM 部署,,趁著周末,玩一下。

首先需要升級 vLLM,唯一需要注意的是自己的硬件及 CUDA 版本


我的系統總是有幺蛾子,所有還是用的 Docker

正常拉取鏡像即可:docker pull vllm/vllm-openai:v0.17.0

我是 4090 的卡,所以選擇官方 FP8

35B 權重文件 37GB

27B 權重文件 30GB


遭遇各種 OOM 之后。。。。


最終調整到了一版合適的參數,腳本以 35B 為例,27B 僅需修改模型文具地址和對應 name 即可,我只有 4 卡,所有還要測完 35B 后 stop 才能起 27B

#!/usr/bin/env bash
set -euo pipefail

MODEL_DIR="/data/models/Qwen3.5-35B-A3B-FP8"
CONTAINER_NAME="qwen35-35b-a3b-fp8"
PORT=8000

docker rm -f ${CONTAINER_NAME} 2>/dev/null || true

docker run -d \
--name ${CONTAINER_NAME} \
--gpus '"device=0,1,2,3"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v ${MODEL_DIR}:/model:ro \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
-e VLLM_USE_V1=1 \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35b-a3b-fp8 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 4 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking": false}' \
--host 0.0.0.0 \
--port 8000

這里說明一下
--tensor-parallel-size 4我又 4 張 4090 顯卡
--max-model-len 262144是我的強需求,可以稍微犧牲一點并發
--kv-cache-dtype fp8這是為了降低 KV cache 內存占用,從而支持更長上下文
--gpu-memory-utilization 0.9是為了給真實運行時留空間。實際部署中,除了權重和 KV cache,還會吃掉顯存的還有:CUDA graph、NCCL 通信 buffer、allocator 碎片、連續 batching 帶來的波動等等
--max-num-seqs 4避免長上下文 + 高并發疊加把顯存直接頂爆,感覺還有空間往上加
--max-num-batched-tokens 8192參數控制一次調度里的總 token 規模。它過大時,會帶來更高吞吐,但也會加大運行時顯存波動和調度壓力
--language-model-only我不需要多模態,所以只要文本推理
--enable-prefix-caching高效的 KV 管理和吞吐優化參數
--default-chat-template-kwargs '{"enable_thinking": false}':加了思考我這配置卡的很,思考太過漫長了

而且我用的 FP8 它的思考居然是英文


實際運行,性能特別差 27B 幾乎沒有并發能力,35B-A3B 還可以,但是 RPS 很低,首 Token 延遲都奔 10s 了


沒辦法,我放棄官方 FP8,上了 4bit


cyankiwi/Qwen3.5-35B-A3B-AWQ-4bitcyankiwi/Qwen3.5-27B-AWQ-4bit

然后使用了同樣的部署腳本,只是它倆更省卡,2 張 4090 就能跑起來,我可以同時跑 27B 和 35B,而且我還在原代碼基礎上 加大了 max-num-seqs


Moe 確實省顯卡

我把它倆接入到了 openwebui,都關閉思考情況下,27B 也慢得多!看樣子我之前的判斷大錯特錯了,27 太拉垮了。

日志顯示 27B 70+ t/s


35B 100+ t/s



代碼能力呢,都不太能看,臥龍鳳雛了


性能方面,27B 依然相當差勁,比 PF8 好多了


35B 比 FP8 提升多了,也比 27B 強多了


總結,以我的需求,暫時不想替代 Qwen3-32B,還是 32B 跟穩。

而且 3.5 還整了騷操作,把開頭的 從“動態生成”變成了“靜態預置”,下游對接的系統苦了。。。要么模型測,要么應用測,是要改的。

再加上它本身不支持思考與否的軟關閉,這個級別能力提升也不見得能彌補這些缺點,企業級應用,我感覺很多都不太樂意升 3.5

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
沒格局?前東家疑內涵張雪奪冠:在你來之前 我們就已經是冠軍了

沒格局?前東家疑內涵張雪奪冠:在你來之前 我們就已經是冠軍了

念洲
2026-04-01 09:37:02
勞爾-加西亞:在馬競時我曾想擰下C羅的腦袋,這是發自內心的

勞爾-加西亞:在馬競時我曾想擰下C羅的腦袋,這是發自內心的

懂球帝
2026-04-03 07:48:16
廈門那場大暴雨里,曾毅帶頭耍帥把雨傘丟掉,玲花在旁邊嘟囔煩人

廈門那場大暴雨里,曾毅帶頭耍帥把雨傘丟掉,玲花在旁邊嘟囔煩人

林輕吟
2026-04-02 17:07:23
我和老伴去天津薊縣住了1個月,我實話實說:跟想象中完全不一樣

我和老伴去天津薊縣住了1個月,我實話實說:跟想象中完全不一樣

匹夫來搞笑
2026-04-02 19:03:31
徹底變天!中東四巨頭聯手掀翻牌桌!失控的以色列終于踢到鐵板!

徹底變天!中東四巨頭聯手掀翻牌桌!失控的以色列終于踢到鐵板!

帶你領略快樂真諦
2026-04-03 06:46:27
連櫻花都不敢看,談何文化自信?別讓“恐日癥”鎖死中國的春天

連櫻花都不敢看,談何文化自信?別讓“恐日癥”鎖死中國的春天

律法刑道
2026-03-30 08:41:29
胡塞武裝稱向以色列特拉維夫發射彈道導彈

胡塞武裝稱向以色列特拉維夫發射彈道導彈

環球網資訊
2026-04-03 06:24:37
今天陰有陣雨,雨量中等,并伴有大風

今天陰有陣雨,雨量中等,并伴有大風

新民晚報
2026-04-03 06:30:03
啥情況?最后25秒落后1分,卻不犯規:教練是不是買球了?早點滾

啥情況?最后25秒落后1分,卻不犯規:教練是不是買球了?早點滾

南海浪花
2026-04-03 07:02:45
美股收盤:三大指數漲跌不一 假期前投資者憂慮猶存

美股收盤:三大指數漲跌不一 假期前投資者憂慮猶存

財聯社
2026-04-03 05:14:11
羅永浩力挺楊笠遭"精準打擊",直播間被下單后發貨再退款

羅永浩力挺楊笠遭"精準打擊",直播間被下單后發貨再退款

戧詞奪理
2026-04-01 11:14:44
鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個女兒精心打扮出席

鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個女兒精心打扮出席

照見古今
2026-03-12 19:27:38
對安世中國損招用盡后,荷蘭人突然發現,自己已被自己逼上了絕路

對安世中國損招用盡后,荷蘭人突然發現,自己已被自己逼上了絕路

孤單是寂寞的毒
2026-04-03 00:58:27
便攜式氣象站的定義和組成

便攜式氣象站的定義和組成

測控技術有限公司
2026-03-10 15:38:36
伊朗總統堅決反對“死戰到底”,文官政府已經名存實亡?

伊朗總統堅決反對“死戰到底”,文官政府已經名存實亡?

強大氣場的注視
2026-04-03 05:10:02
同城不同命,渝農商行和重慶銀行奮斗維度拉開差距

同城不同命,渝農商行和重慶銀行奮斗維度拉開差距

全球財說
2026-04-03 02:27:44
20年前的頂流,回來拯救娛樂圈了!

20年前的頂流,回來拯救娛樂圈了!

獨立魚
2026-04-02 21:15:57
“斬首術”應該獲諾貝爾獎?如此“讓領導先走”,真是偉大創造嗎

“斬首術”應該獲諾貝爾獎?如此“讓領導先走”,真是偉大創造嗎

瑜說還休
2026-03-27 17:31:33
特朗普嘲笑法國,總統挨老婆打,臉上還未痊愈,馬克龍已公開回應

特朗普嘲笑法國,總統挨老婆打,臉上還未痊愈,馬克龍已公開回應

風信子的花
2026-04-03 08:01:53
江蘇省委巡視組原副組長、副廳級巡視專員丁永生被查

江蘇省委巡視組原副組長、副廳級巡視專員丁永生被查

上觀新聞
2026-04-02 11:37:05
2026-04-03 09:11:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3303文章數 11122關注度
往期回顧 全部

科技要聞

戰火燒向科技公司!亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經要聞

全球石油危機或將蔓延

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

教育
時尚
游戲
親子
健康

教育要聞

春假不“躺平”!鄉村學生專屬“安全+快樂”雙保障,解鎖春日成長新方式

為什么“這個顏色”成為今年頂流?這樣穿好看又治愈

《生化危機9》新Mod 格蕾絲穿謝娃比基尼服裝

親子要聞

洗頭的舒適區,讓爸爸想出更多帶娃創意

干細胞抗衰4大誤區,90%的人都中招

無障礙瀏覽 進入關懷版