337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

實測,單卡 4090 + llama.cpp 輕松跑 Claude-Opus-4.6蒸餾版Qwen3.5 27B,46 Token每秒!

0
分享至

前文:

本文實測 24GB 顯存的 4090 單卡啟動 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Q4_K_M

省流:

  • 1、單卡 4090 跑 27B 很輕松,最高64K 上下文、128K 報 OOM,這個上下文還是不錯的,對比同樣單 4090 啟動的 ,上下文只能開到 10K

  • 2、平均生成速度 46 token/s 的樣子,并發是沒有的,個人用還可以

  • 3、 實際表現中規中矩,中等水平,可以完成核心任務,細節不如 GLM-4.7-Flash

極簡過程及啟動腳本 下載模型

我選擇的這個


使用 modelscope 下載

pip install modelscope
modelscope download --model Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-27B.Q4_K_M.gguf --local_dir .
llama.cpp 安裝

安裝真是一言難盡,大家各顯神通吧

我的內網機基礎環境很差,編譯從來沒有成功過

所以還是走的 Docker 方案

docker pull ghcr.io/ggml-org/llama.cpp:full-cuda

啟動腳本

我計劃完全用顯卡來跑,不動用 CPU

啟動腳本:

docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -ngl 99 

前端對話使用的自帶 UI,其實可以接入到 OpenwebUI,它現在的 UI 還支持 MCP


告訴他細節不夠豐富后,這種表現已經十分優秀了,這個題目考察閱讀理解+svg 代碼生成+審美,很多大號模型表現也不一定這么好


對比 GLM-4.7-Flash-AWQ-4bit


平均 46 t/s


測試并發能力,失敗告終


找 GPT5.4 讀了文檔加了一些支持并發,激發性能的參數,結果依然如上,沒有改善,或許默認的 4 并發會好一些,沒在嘗試。

docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -kvu -ngl 99 --flash-attn on -b 1024 -t 48

,結論:

lama.cpp 并未針對張量并行(Tensor Parallelism)與批推理(Batch Inference)進行優化。只有在進行 LLM 的部分或全部 CPU 卸載時,你才應該使用 llama.cpp。但在多 GPU 配置下,需要經過優化的批推理與 Tensor Parallelism,此時 vLLM 是正確選擇。

附 LocalLLaMA 社區的吐槽

llama.cpp 項目 issue 吐槽



14 張 RTX 3090 GPU 和 336GB VRAM 的專用 AI 服務器,# Stop Wasting Your Multi-GPU Setup With llama.cpp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太平天國的失敗,骨子里的原因是啥?

太平天國的失敗,骨子里的原因是啥?

無心鏡
2026-04-02 08:09:32
退休在幾月份會比較吃虧?

退休在幾月份會比較吃虧?

小虎新車推薦員
2026-04-02 19:23:23
世界公認的9本長腦子書,一生至少讀一次

世界公認的9本長腦子書,一生至少讀一次

洞見
2026-04-02 09:28:09
直播間標題被指“內涵”張雪機車,凱越機車緊急回應:從未否定雪總曾是凱越的靈魂,其離開前持股近36%

直播間標題被指“內涵”張雪機車,凱越機車緊急回應:從未否定雪總曾是凱越的靈魂,其離開前持股近36%

每日經濟新聞
2026-04-02 18:54:18
蔣經國一生有五個孩子,只剩蔣孝嚴在世,蔣萬安名字有什么含義?

蔣經國一生有五個孩子,只剩蔣孝嚴在世,蔣萬安名字有什么含義?

老范談史
2026-04-02 21:13:39
亡母再婚水落石出,國社一錘定音,輿論反撲孫女士,小姨索要回報

亡母再婚水落石出,國社一錘定音,輿論反撲孫女士,小姨索要回報

潮鹿逐夢
2026-04-01 09:33:54
“哎呦我的天吶,太墨跡了!”王濛吐槽《浪姐》直播拖沓,網友:真嘴替

“哎呦我的天吶,太墨跡了!”王濛吐槽《浪姐》直播拖沓,網友:真嘴替

動物奇奇怪怪
2026-04-03 01:57:20
甲骨文給自己開了個玩笑

甲骨文給自己開了個玩笑

智遠同學
2026-04-02 09:02:05
金莎肚子大到藏不???車展現身被疑懷孕,聲音變粗更添實錘!

金莎肚子大到藏不住?車展現身被疑懷孕,聲音變粗更添實錘!

情感大頭說說
2026-04-03 00:10:45
中國拉瑪西亞第1人?曝14歲邊鋒加盟巴薩+進U15梯隊 董路青訓培養

中國拉瑪西亞第1人?曝14歲邊鋒加盟巴薩+進U15梯隊 董路青訓培養

我愛英超
2026-04-03 06:27:05
童瑤其實挺真實的,明明一直在健身,小腹還是沒法完全平坦

童瑤其實挺真實的,明明一直在健身,小腹還是沒法完全平坦

小光侃娛樂
2026-04-01 13:15:08
6月1日起,車管所跟普通車主沒關系了!公安部新政落地,手機辦完

6月1日起,車管所跟普通車主沒關系了!公安部新政落地,手機辦完

華庭講美食
2026-04-03 00:18:45
“85后”張磊,擬任縣(市、區)委書記!孫悉斌,已任江蘇交通控股總經理!

“85后”張磊,擬任縣(市、區)委書記!孫悉斌,已任江蘇交通控股總經理!

愛意隨風起呀
2026-04-03 05:37:31
陳光標贈張雪勞斯萊斯騎虎難下,想私了熱度太高,二手車商已盯上

陳光標贈張雪勞斯萊斯騎虎難下,想私了熱度太高,二手車商已盯上

小怪吃美食
2026-04-03 04:56:08
德黑蘭的清晨,有點不太對勁

德黑蘭的清晨,有點不太對勁

陸棄
2026-04-02 08:20:03
姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

大西體育
2026-03-31 13:27:01
許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

歷史偉人錄
2026-04-01 17:55:34
世界杯戰報:0-4慘敗仍不輸陣,德乒男單兩連敗,8強小莫VS松島

世界杯戰報:0-4慘敗仍不輸陣,德乒男單兩連敗,8強小莫VS松島

求球不落諦
2026-04-02 20:02:01
張雪接受贈車,計劃賣掉捐贈,陳光標兩度回應,真實目的藏不住了

張雪接受贈車,計劃賣掉捐贈,陳光標兩度回應,真實目的藏不住了

叨嘮
2026-04-02 20:08:40
你敢信嗎?太湖底下有2.3米厚的淤泥,可上面才蓋著不到1.9米的水

你敢信嗎?太湖底下有2.3米厚的淤泥,可上面才蓋著不到1.9米的水

掠影后有感
2026-04-01 20:26:07
2026-04-03 09:35:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3303文章數 11122關注度
往期回顧 全部

科技要聞

戰火燒向科技公司!亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經要聞

全球石油危機或將蔓延

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

手機
本地
健康
數碼
房產

手機要聞

價格壓不住了!驍龍8E6成本大漲:迭代旗艦起步價超5000元

本地新聞

從學徒到世界冠軍,為什么說張雪的底氣在重慶?

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

華為Mate X8折疊屏:8.15英寸巨幕+麒麟9040,最強折疊屏要來了

房產要聞

巨無霸來了!海口城更,突然又爆大動作!

無障礙瀏覽 進入關懷版