337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

大模型 OCR 的黃金時代,騰訊開源混元OCR,文檔解析、視覺問答和翻譯方面達到 SOTA

0
分享至



大家好,我是 Ai 學習的老章

大模型 OCR 的黃金時代來了,小紅書 dots.ocr-3b、deepseek-ocr-3b、阿里 qwen3-vl-2b、百度 paddleocr-vl-0.9B......

模型越做越小,精度越來越高

剛剛,OCR 領域迎來新選手,騰訊的文檔理解模型——混元 OCR 開源了


端到端訓推一體:不同于其他開源的 OCR 專家模型或系統,HunyuanOCR 模型的訓練和推理均采用全端到端范式。通過規?;母哔|量應用導向數據,結合在線強化學習,模型表現出了非常穩健的端到端推理能力,有效規避了級聯方案常見的相關誤差累積問題


  • 在文檔解析、視覺問答和翻譯方面達到 SOTA

  • 1B 參數,端到端運行,大幅降低了部署成本

在 OCR Bench 數據集上實現了 3B 參數以下模型的 SOTA 分數(860),并在復雜文檔解析的 OmniDocBench 數據集上取得了領先的 94.1 分

一個很離譜的成績是 HunyuanOCR 僅使用 1B 參數量,在拍照翻譯任務上取得了與 Qwen3-VL-235B 相當的效果。

它可以處理街道視圖、手寫體、藝術文本的文字識別,復雜文檔處理(HTML/LaTeX 中的表格/公式),視頻字幕提取,以及端到端的照片翻譯(支持 14 種語言)


放幾個高清的案例







最后這個案例,后面做論文翻譯,又有新玩法了

官方提供了不同任務下的提示詞模板


任務提示詞

檢測與識別

檢測并識別圖片中的文字,將文本坐標格式化輸出

解析

? 識別圖片中的公式,用 LaTeX 格式表示
? 把圖中的表格解析為 HTML
? 解析圖中的圖表,對于流程圖使用 Mermaid 格式表示,其他圖表使用 Markdown 格式表示。
? 提取文檔圖片中正文的所有信息用 markdown 格式表示,其中頁眉、頁腳部分忽略,表格用 html 格式表達,文檔中公式用 latex 格式表示,按照閱讀順序組織進行解析

信息抽取

? 輸出 Key 的值
? 提取圖片中的:['key1','key2', ...] 的字段內容,并按照 JSON 格式返回
? 提取圖片中的字幕

翻譯

先提取文字,再將文字內容翻譯為英文。若是文檔,則其中頁眉、頁腳忽略。公式用 latex 格式表示,表格用 html 格式表示


在線體驗

https://huggingface.co/spaces/tencent/HunyuanOCR


我試了一下,拍照圖片 + 雙排顯示 + 公式、圖表情況下,識別的蠻精準的


看前端樣式是用 Gradio 實現的,如果模型本地化部署了的話,可以直接把代碼 copy 下來,python 運行就能在本機實現這個應用了

代碼:https://huggingface.co/spaces/tencent/HunyuanOCR/blob/main/app.py

功能上挺齊全的:多場景文字檢測與識別、多粒度文檔解析、卡證票據識別和結構化輸出、視覺問答、跨語言翻譯


本地部署

模型文件只有 2GB,比 DeepSeek-OCR 的 6.7GB 小太多了

不過我看 HunyuanOCR@GitHub 的 README 中寫需要 GPU 顯存是 80GB,有點離譜啊

它會不會把顯存和硬盤容量搞反了?


國內鏡像:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR


https://huggingface.co/tencent/HunyuanOCR

官方建議 vLLM 部署模型以獲取更好的推理性能和精度,因為 Transformers 相比 vLLM 框架存在一定的性能下滑

但是目前只能安裝 vLLM nightly 了,穩定版的 vLLM 要支持 HunyuanOCR 估計需要 v0.11.3 了

pip install vllm --extra-index-url https://wheels.vllm.ai/nightly

在線推理

vllm serve tencent/HunyuanOCR \
--no-enable-prefix-caching \
--mm-processor-cache-gb 0

OpenAI API 接口調用

from openai import OpenAI

client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:8000/v1",
timeout=3600
)

messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/chat-ui/tools-dark.png"
}
},
{
"type": "text",
"text": (
"Extract all information from the main body of the document image "
"and represent it in markdown format, ignoring headers and footers."
"Tables should be expressed in HTML format, formulas in the document "
"should be represented using LaTeX format, and the parsing should be "
"organized according to the reading order."
)
}
]
}
]

response = client.chat.completions.create(
model="tencent/HunyuanOCR",
messages=messages,
temperature=0.0,
)
print(f"Generated text: {response.choices[0].message.content}")

我實測的話,模型已下載,準備等 vLLM:v0.11.3 出來之后了


參考:
官方簡介:https://hunyuan.tencent.com/vision/zh?tabIndex=0
HunyuanOCR 項目 README:https://huggingface.co/tencent/HunyuanOCR
vLLM 官方文檔:https://docs.vllm.ai/projects/recipes/en/latest/Tencent-Hunyuan/HunyuanOCR.html

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“晚打不如早打,小打不如大打,打一個,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一個,不如拉日本一起打”。

安安說
2026-03-14 18:50:59
北京衛視上星,30集諜戰劇來襲,國家一級演員坐鎮,全員實力派

北京衛視上星,30集諜戰劇來襲,國家一級演員坐鎮,全員實力派

樂楓電影
2026-04-03 10:42:23
二老板親承為楊瀚森才買球隊,開拓者真要變天了

二老板親承為楊瀚森才買球隊,開拓者真要變天了

兵哥籃球故事
2026-04-03 09:40:38
"寶娟我的嗓子"夢回十年前,陶昕然唐藝昕浪姐合體,全網DNA動了

"寶娟我的嗓子"夢回十年前,陶昕然唐藝昕浪姐合體,全網DNA動了

新金牌娛樂觀察家
2026-04-03 09:33:07
張雪峰辦公室 “詭異” 一角引熱議!黑白照 + 香爐 網友:不吉利

張雪峰辦公室 “詭異” 一角引熱議!黑白照 + 香爐 網友:不吉利

魔都姐姐雜談
2026-03-30 19:57:02
鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個女兒精心打扮出席

鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個女兒精心打扮出席

照見古今
2026-03-12 19:27:38
銀行不會直說的潛規則:存款滿50萬,你就有資格提條件

銀行不會直說的潛規則:存款滿50萬,你就有資格提條件

王二哥老搞笑
2026-04-03 01:16:36
不可思議!女優拍攝現場竟發生這十大尷尬瞬間!

不可思議!女優拍攝現場竟發生這十大尷尬瞬間!

孤獨的獨角獸影視
2026-04-03 09:30:08
中方等了9天,高市仍不道歉,我軍編隊開進日本海,日方別無選擇

中方等了9天,高市仍不道歉,我軍編隊開進日本海,日方別無選擇

南宗歷史
2026-04-03 10:44:34
“996”福報來了:員工猝死在大廠,走時還抱著電腦…

“996”福報來了:員工猝死在大廠,走時還抱著電腦…

慧翔百科
2026-04-03 08:54:33
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
過分了!上海一男子居然還把前妻名字刻在母親墓碑上,評論區炸鍋

過分了!上海一男子居然還把前妻名字刻在母親墓碑上,評論區炸鍋

火山詩話
2026-04-03 09:25:58
以軍前線徹底崩潰!內打破建國78年鐵律,拉上美緊忙準備“后事”

以軍前線徹底崩潰!內打破建國78年鐵律,拉上美緊忙準備“后事”

南宗歷史
2026-04-03 09:41:23
70~80歲除不搬重物不爬高外,九個細節要注意,最后一個常被忽略

70~80歲除不搬重物不爬高外,九個細節要注意,最后一個常被忽略

暖風吹過竹林
2026-03-26 10:47:30
4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

山河路口
2026-04-02 17:16:01
隨著巴西1-0,蒙太古杯最新積分榜出爐:中國男足排名第4

隨著巴西1-0,蒙太古杯最新積分榜出爐:中國男足排名第4

側身凌空斬
2026-04-03 03:06:58
人民日報“點名”全紅嬋,釋放3個強烈信號,陳若琳的話應驗了

人民日報“點名”全紅嬋,釋放3個強烈信號,陳若琳的話應驗了

做一個合格的吃瓜群眾
2026-04-02 20:08:02
車曉超市素顏照流出!44歲不裝嫩也不擺爛,身材管理堪稱教科書

車曉超市素顏照流出!44歲不裝嫩也不擺爛,身材管理堪稱教科書

木子娛你同行
2026-04-03 09:54:22
李鵬晚年親口澄清身世:說我是周總理養子?這話其實不準確

李鵬晚年親口澄清身世:說我是周總理養子?這話其實不準確

老杉說歷史
2026-03-21 16:56:05
4.3今日金價:大家不必等待了!接下來,金價有可能會重演歷史!

4.3今日金價:大家不必等待了!接下來,金價有可能會重演歷史!

別人都叫我阿腈
2026-04-03 05:14:50
2026-04-03 11:40:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3304文章數 11123關注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬億美元估值,馬斯克野心太大

頭條要聞

牛彈琴:美國干了一件令人發指的事 全世界都無法接受

頭條要聞

牛彈琴:美國干了一件令人發指的事 全世界都無法接受

體育要聞

沖擊世界杯失敗,80歲老帥一氣之下病倒了

娛樂要聞

《浪姐7》最新人氣TOP 曾沛慈斷層第一

財經要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠房親戚長得很像嗎?

態度原創

旅游
本地
游戲
數碼
公開課

旅游要聞

花漾泉城赴春約!濟南推出五大主題百余項春日文旅活動

本地新聞

跟著歌聲游安徽,聽古村回響

《殺戮尖塔2》更新:刪牌貴上天!玩家紛紛嚇哭

數碼要聞

盧偉冰回應小米及REDMI部分在售產品調價:內存漲價力度遠超預期

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版