網易首頁 > 網易號 > 正文申請入駐

阿里巴巴團隊開源，OCR 又來一個高手，第一！

2026-03-27 12:36:30　來源: Ai學習的老章

北京舉報

分享至

大家好，我是Ai學習的老章

OCR 我寫過太多了，每隔一段時間就有新模型出來：

今天這位選手是阿里巴巴團隊開源的Logics-Parsing-v2，在兩個主流 Benchmark 上直接拿了第一：自家的 LogicsDocBench 拿了82.16 分，公開的 OmniDocBench-v1.5 拿了93.23 分，都是目前最高分。

https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary?spm=label.24dbbd5e.0.0.34862eb7aIqtVk 這模型有啥不一樣？

市面上 OCR 模型一大把，Logics-Parsing-v2 憑啥能打？核心就兩個字：全能。

傳統 OCR 做的事情比較窄——識別文字、提取表格、處理公式。但實際文檔遠比這復雜：報紙那種多欄排版、跨頁表格、豎排文字、手寫內容……這些"臟活累活"，大部分模型處理得都不太行。

Logics-Parsing-v2 在 v1 的基礎上，除了把這些傳統任務做得更好之外，還加了一個全新的能力維度，叫Parsing-2.0——支持解析以下內容：

流程圖 / 思維導圖→ 輸出 Mermaid 格式
樂譜→ 輸出 ABC 記譜法
代碼塊 / 偽代碼→ 結構化提取
化學分子式→ SMILES 格式

你沒看錯，它能看懂樂譜。這在 OCR 領域算是相當炸裂的能力了。

Logics-Parsing-v2 能力概覽——從傳統文檔到流程圖、樂譜、代碼全覆蓋 Benchmark 成績單

先看自家的LogicsDocBench，這是阿里專門建的評測集，900 頁 PDF，覆蓋三大場景：

場景

頁數

包含內容

STEM 文檔

218 頁

物理、數學、工程等十多個學科

復雜排版

459 頁

多欄、跨頁表格、豎排、圖文混排

Parsing-2.0

223 頁

化學式、樂譜、代碼塊、流程圖

在這個 Benchmark 上，Logics-Parsing-v2 以82.16 分的總分排名第一，遠超其他選手。

LogicsDocBench 評測結果——Logics-Parsing-v2 全面領先

再看公開的OmniDocBench-v1.5，這個是業界公認的文檔解析評測標準。Logics-Parsing-v2 拿了93.23 分，同樣是最高分——比 Gemini 2.5 Pro、GPT-5、豆包 1.6 這些閉源大模型都高。

OmniDocBench-v1.5 評測結果——開源模型首次登頂

說實話，開源 OCR 模型在 OmniDocBench 上打贏閉源大模型，這還是頭一次。之前我測過不少 OCR 模型，閉源的 Mathpix、doc2x 一直是天花板，現在這個天花板被捅穿了。

跟其他模型比怎么樣？

在阿里自建的 Benchmark 上（v1 評測，數值越低越好，TEDS 越高越好）：

幾個值得關注的對比：

vs Gemini 2.5 Pro：Logics-Parsing 在英文文本（0.089 vs 0.115）、表格（0.165 vs 0.154 接近）上都有競爭力
vs Mathpix：公式識別 Mathpix 還是很強（0.06 vs 0.106），但綜合能力 Logics-Parsing 更好
vs MonkeyOCR / GOT-OCR：全面領先，不在一個檔次
vs 通用大模型（GPT-5、Qwen2.5VL-72B）：專用模型優勢明顯

一個模型，端到端推理，不需要復雜的 pipeline，直接圖片進、HTML 出。這個思路比傳統的"檢測+識別+后處理"流水線簡潔太多了。

輸出格式很講究

Logics-Parsing-v2 輸出的不是純文本，而是結構化 HTML。

每個內容塊都帶有：

類別標簽：段落、表格、圖片、公式等
邊界框坐標：精確到像素級的位置信息
OCR 文本：識別出的內容

對于 Parsing-2.0 的新場景，輸出格式也做了定制：

流程圖 →Mermaid語法（可以直接渲染）
樂譜 →ABC 記譜法（音樂人看得懂）
化學式 →SMILES格式（化學標準表示）

這意味著你拿到輸出之后，不需要再做什么后處理，直接就能用。

怎么跑？

部署很簡單：

conda create -n logics-parsing-v2 python=3.10
conda activate logics-parsing-v2
pip install -r requirements.txt

下載模型（HuggingFace 或 ModelScope 二選一）：

# HuggingFace
pip install huggingface_hub
python download_model_v2.py -t huggingface


 # ModelScope（國內更快）
pip install modelscope
python download_model_v2.py -t modelscope

推理一行搞定：

python3 inference_v2.py --image_path 你的圖片路徑 --output_path 輸出目錄 --model_path 模型路徑

基于 Qwen3-VL 架構，對 GPU 有一定要求，但不算離譜。

實際效果展示

說了這么多數據，看幾個實際效果：

扭曲文檔識別——拍照角度歪斜、紙張彎曲，照樣準確識別：

扭曲文檔識別效果

STEM 文檔——復雜的數學公式、物理圖表，結構完整保留：

STEM 文檔解析效果

代碼塊識別——不只是識別文字，還能保留代碼結構：

代碼塊識別效果

流程圖解析——識別流程圖并轉成 Mermaid 代碼，可以直接渲染：

流程圖解析效果

樂譜識別——這個真的是第一次在 OCR 模型里見到：

樂譜識別效果總結

Logics-Parsing-v2 給我的感覺就是：OCR 這個賽道，終于有一個模型把"全能"兩個字做到位了。

雙 Benchmark 第一：LogicsDocBench 82.16，OmniDocBench-v1.5 93.23
Parsing-2.0：流程圖、樂譜、代碼、化學式，傳統 OCR 碰都不碰的東西它全能解
端到端單模型：不需要復雜 pipeline，圖片進 HTML 出
開源免費：代碼和模型全部開放

如果你在做文檔數字化、論文解析、知識庫構建這類工作，這個模型真的值得試試。

GitHub：https://github.com/alibaba/Logics-Parsing
HuggingFace 模型：https://huggingface.co/Logics-MLLM/Logics-Parsing-v2
在線 Demo：https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.