大家好,我是章北海
前文我升了 CUDA、部署了 DeepSeek-OCR
重寫的 API 也支持 PaddleOCR-VL
然后騰訊也來了:,文中我提到想等等看新版 vLLM 來了再部署
可是看到 N 多同學(xué)部署失敗,還有 HunyuanOCR 到底需要多少顯存可以跑起來有點(diǎn)疑問。
前文我就提到,可能是官方文檔寫錯(cuò)了現(xiàn)存和磁盤空間,當(dāng)時(shí)寫的是需要 80GB 顯存
后來修改成了 20GB
![]()
官方文檔將顯存需求從 80GB 改成了 20GB,即便如此也有點(diǎn)離譜,畢竟只是 1B 的模型 安裝及模型啟動(dòng) - 官方教程
我沒有使用官方教程,感覺。。。太麻煩了
1 是失敗概率蠻高,依賴太多,安裝環(huán)境不能用 pip,必須使用 uv
2 是我是在離線環(huán)境部署,所以下面方式對(duì)我無效
uv venv hunyuanocr
source hunyuanocr/bin/activateuv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
模型啟動(dòng)就簡(jiǎn)單了,只要前面 vLLM 安裝順利,下面就幾乎不會(huì)出問題
出問題,大概率是 CUDA 版本太低造成的,建議 12.9 以上,畢竟未來 vLLM 0.11.1 之后版本默認(rèn)就要 12.9 起步了
下載好 HunyuanOCR 模型文件后正常啟動(dòng)就行
# 模型啟動(dòng)-官方教程
vllm serve tencent/HunyuanOCR \
--no-enable-prefix-caching \
--mm-processor-cache-gb 0 \
--gpu-memory-utilization 0.2
安裝及模型啟動(dòng) - 我的方式最省心,省事兒,離線最友好的方式必須是 Docker
第一步,拉取 vllm/vllm-openai 官方鏡像,選最近的一個(gè) nightly 即可
docker pull vllm/vllm-openai:nightly
第二步,保存鏡像到內(nèi)網(wǎng),如果本機(jī)測(cè)試那就沒這一步了
第三步,啟動(dòng)模型,核心參數(shù)和官方教程沒啥區(qū)別
docker run --rm --runtime=nvidia --name Hunyuan-ocr --ipc=host --gpus '"device=1"' -p 5000:8000 -v /data/llm-models:/models vllm/vllm-openai:nightly
--model /models/HunyuanOCR --port 8000 --no-enable-prefix-caching --mm-processor-cache-gb 0
我的顯卡是 24GB 的 4090
模型只占 1.9GB,其他都是 KV cache 占用
![]()
官方教程中的模型調(diào)用貌似也不太友好啊,我還是用了為 DeeoSeekOCR 寫的 API,簡(jiǎn)單修改后依然很好用
![]()
速度飛快,5 頁的 PDF 也是秒秒鐘搞定
![]()
回到最開始問題,啟動(dòng)模型加上參數(shù) --gpu-memory-utilization 0.66,也就是 16GB 啟動(dòng)模型,依然是 OK 的
![]()
而且速度絲毫沒有下降
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.