網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

騰訊混元OCR大模型，本地部署，實(shí)測(cè)

2025-12-04 23:08:32　來源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

大家好，我是章北海

前文我升了 CUDA、部署了 DeepSeek-OCR
重寫的 API 也支持 PaddleOCR-VL

然后騰訊也來了：，文中我提到想等等看新版 vLLM 來了再部署

可是看到 N 多同學(xué)部署失敗，還有 HunyuanOCR 到底需要多少顯存可以跑起來有點(diǎn)疑問。

前文我就提到，可能是官方文檔寫錯(cuò)了現(xiàn)存和磁盤空間，當(dāng)時(shí)寫的是需要 80GB 顯存

后來修改成了 20GB

官方文檔將顯存需求從 80GB 改成了 20GB，即便如此也有點(diǎn)離譜，畢竟只是 1B 的模型安裝及模型啟動(dòng) - 官方教程

我沒有使用官方教程，感覺。。。太麻煩了

1 是失敗概率蠻高，依賴太多，安裝環(huán)境不能用 pip，必須使用 uv

2 是我是在離線環(huán)境部署，所以下面方式對(duì)我無效

uv venv hunyuanocr
source hunyuanocr/bin/activate


uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

模型啟動(dòng)就簡(jiǎn)單了，只要前面 vLLM 安裝順利，下面就幾乎不會(huì)出問題

出問題，大概率是 CUDA 版本太低造成的，建議 12.9 以上，畢竟未來 vLLM 0.11.1 之后版本默認(rèn)就要 12.9 起步了

下載好 HunyuanOCR 模型文件后正常啟動(dòng)就行

# 模型啟動(dòng)-官方教程
vllm serve tencent/HunyuanOCR \
    --no-enable-prefix-caching \
    --mm-processor-cache-gb 0 \
    --gpu-memory-utilization 0.2

安裝及模型啟動(dòng) - 我的方式

最省心，省事兒，離線最友好的方式必須是 Docker

第一步，拉取 vllm/vllm-openai 官方鏡像，選最近的一個(gè) nightly 即可

docker pull vllm/vllm-openai:nightly

直達(dá)：https://hub.docker.com/r/vllm/vllm-openai/tags

第二步，保存鏡像到內(nèi)網(wǎng)，如果本機(jī)測(cè)試那就沒這一步了

第三步，啟動(dòng)模型，核心參數(shù)和官方教程沒啥區(qū)別

docker run --rm --runtime=nvidia --name Hunyuan-ocr --ipc=host --gpus '"device=1"' -p 5000:8000 -v /data/llm-models:/models vllm/vllm-openai:nightly
--model /models/HunyuanOCR --port 8000  --no-enable-prefix-caching --mm-processor-cache-gb 0

我的顯卡是 24GB 的 4090

模型只占 1.9GB，其他都是 KV cache 占用

官方教程中的模型調(diào)用貌似也不太友好啊，我還是用了為 DeeoSeekOCR 寫的 API，簡(jiǎn)單修改后依然很好用

速度飛快，5 頁的 PDF 也是秒秒鐘搞定

回到最開始問題，啟動(dòng)模型加上參數(shù) --gpu-memory-utilization 0.66，也就是 16GB 啟動(dòng)模型，依然是 OK 的

而且速度絲毫沒有下降

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.