337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

阿里巴巴團隊開源,OCR 又來一個高手,第一!

0
分享至

大家好,我是Ai學習的老章

OCR 我寫過太多了,每隔一段時間就有新模型出來:

今天這位選手是阿里巴巴團隊開源的Logics-Parsing-v2,在兩個主流 Benchmark 上直接拿了第一:自家的 LogicsDocBench 拿了82.16 分,公開的 OmniDocBench-v1.5 拿了93.23 分,都是目前最高分。


https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary?spm=label.24dbbd5e.0.0.34862eb7aIqtVk 這模型有啥不一樣?

市面上 OCR 模型一大把,Logics-Parsing-v2 憑啥能打?核心就兩個字:全能

傳統 OCR 做的事情比較窄——識別文字、提取表格、處理公式。但實際文檔遠比這復雜:報紙那種多欄排版、跨頁表格、豎排文字、手寫內容……這些"臟活累活",大部分模型處理得都不太行。

Logics-Parsing-v2 在 v1 的基礎上,除了把這些傳統任務做得更好之外,還加了一個全新的能力維度,叫Parsing-2.0——支持解析以下內容:

  • 流程圖 / 思維導圖→ 輸出 Mermaid 格式

  • 樂譜→ 輸出 ABC 記譜法

  • 代碼塊 / 偽代碼→ 結構化提取

  • 化學分子式→ SMILES 格式

你沒看錯,它能看懂樂譜。這在 OCR 領域算是相當炸裂的能力了。


Logics-Parsing-v2 能力概覽——從傳統文檔到流程圖、樂譜、代碼全覆蓋 Benchmark 成績單

先看自家的LogicsDocBench,這是阿里專門建的評測集,900 頁 PDF,覆蓋三大場景:

場景

頁數

包含內容

STEM 文檔

218 頁

物理、數學、工程等十多個學科

復雜排版

459 頁

多欄、跨頁表格、豎排、圖文混排

Parsing-2.0

223 頁

化學式、樂譜、代碼塊、流程圖

在這個 Benchmark 上,Logics-Parsing-v2 以82.16 分的總分排名第一,遠超其他選手。


LogicsDocBench 評測結果——Logics-Parsing-v2 全面領先

再看公開的OmniDocBench-v1.5,這個是業界公認的文檔解析評測標準。Logics-Parsing-v2 拿了93.23 分,同樣是最高分——比 Gemini 2.5 Pro、GPT-5、豆包 1.6 這些閉源大模型都高。


OmniDocBench-v1.5 評測結果——開源模型首次登頂

說實話,開源 OCR 模型在 OmniDocBench 上打贏閉源大模型,這還是頭一次。之前我測過不少 OCR 模型,閉源的 Mathpix、doc2x 一直是天花板,現在這個天花板被捅穿了。

跟其他模型比怎么樣?

在阿里自建的 Benchmark 上(v1 評測,數值越低越好,TEDS 越高越好):

幾個值得關注的對比:

  • vs Gemini 2.5 Pro:Logics-Parsing 在英文文本(0.089 vs 0.115)、表格(0.165 vs 0.154 接近)上都有競爭力

  • vs Mathpix:公式識別 Mathpix 還是很強(0.06 vs 0.106),但綜合能力 Logics-Parsing 更好

  • vs MonkeyOCR / GOT-OCR:全面領先,不在一個檔次

  • vs 通用大模型(GPT-5、Qwen2.5VL-72B):專用模型優勢明顯

一個模型,端到端推理,不需要復雜的 pipeline,直接圖片進、HTML 出。這個思路比傳統的"檢測+識別+后處理"流水線簡潔太多了。

輸出格式很講究

Logics-Parsing-v2 輸出的不是純文本,而是結構化 HTML

每個內容塊都帶有:

  • 類別標簽:段落、表格、圖片、公式等

  • 邊界框坐標:精確到像素級的位置信息

  • OCR 文本:識別出的內容

對于 Parsing-2.0 的新場景,輸出格式也做了定制:

  • 流程圖 →Mermaid語法(可以直接渲染)

  • 樂譜 →ABC 記譜法(音樂人看得懂)

  • 化學式 →SMILES格式(化學標準表示)

這意味著你拿到輸出之后,不需要再做什么后處理,直接就能用。

怎么跑?

部署很簡單:

conda create -n logics-parsing-v2 python=3.10
conda activate logics-parsing-v2
pip install -r requirements.txt

下載模型(HuggingFace 或 ModelScope 二選一):

# HuggingFace
pip install huggingface_hub
python download_model_v2.py -t huggingface


# ModelScope(國內更快)
pip install modelscope
python download_model_v2.py -t modelscope

推理一行搞定:

python3 inference_v2.py --image_path 你的圖片路徑 --output_path 輸出目錄 --model_path 模型路徑

基于 Qwen3-VL 架構,對 GPU 有一定要求,但不算離譜。

實際效果展示

說了這么多數據,看幾個實際效果:

扭曲文檔識別——拍照角度歪斜、紙張彎曲,照樣準確識別:


扭曲文檔識別效果

STEM 文檔——復雜的數學公式、物理圖表,結構完整保留:


STEM 文檔解析效果

代碼塊識別——不只是識別文字,還能保留代碼結構:


代碼塊識別效果

流程圖解析——識別流程圖并轉成 Mermaid 代碼,可以直接渲染:


流程圖解析效果

樂譜識別——這個真的是第一次在 OCR 模型里見到:


樂譜識別效果 總結

Logics-Parsing-v2 給我的感覺就是:OCR 這個賽道,終于有一個模型把"全能"兩個字做到位了

  • 雙 Benchmark 第一:LogicsDocBench 82.16,OmniDocBench-v1.5 93.23

  • Parsing-2.0:流程圖、樂譜、代碼、化學式,傳統 OCR 碰都不碰的東西它全能解

  • 端到端單模型:不需要復雜 pipeline,圖片進 HTML 出

  • 開源免費:代碼和模型全部開放

如果你在做文檔數字化、論文解析、知識庫構建這類工作,這個模型真的值得試試。

  • GitHub:https://github.com/alibaba/Logics-Parsing

  • HuggingFace 模型:https://huggingface.co/Logics-MLLM/Logics-Parsing-v2

  • 在線 Demo:https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
教皇利奧罕見發表強硬言論:中東沖突極其惡劣,你們雙手沾滿鮮血

教皇利奧罕見發表強硬言論:中東沖突極其惡劣,你們雙手沾滿鮮血

安然有思
2026-04-01 21:31:36
退休人員也要繳費了!4月起執行,每月扣多少、誰能免,一次說清

退休人員也要繳費了!4月起執行,每月扣多少、誰能免,一次說清

觀察者海風
2026-04-02 23:48:25
52年,葡萄牙炮轟我國國旗,我軍傷亡32人,毛主席:消滅他們!

52年,葡萄牙炮轟我國國旗,我軍傷亡32人,毛主席:消滅他們!

歷史的煙火
2026-04-02 17:39:23
女浴室被指有男童帶手機進入,商家回應

女浴室被指有男童帶手機進入,商家回應

現代快報
2026-04-02 20:59:03
“零食都買不起就別野餐!”2兒1女吃面條火了,真相揭露被打臉!

“零食都買不起就別野餐!”2兒1女吃面條火了,真相揭露被打臉!

知曉科普
2026-04-02 08:00:14
烏克蘭特工開口了!俄中將遇襲案兩大秘密曝光,普京這次不再手軟

烏克蘭特工開口了!俄中將遇襲案兩大秘密曝光,普京這次不再手軟

說宇宙
2026-04-03 09:05:03
瘋了!剛剛,石油!徹底爆了

瘋了!剛剛,石油!徹底爆了

中國基金報
2026-04-02 21:39:42
食鹽被關注!181個國家研究:吃得越咸,壽命或越長?告訴你真相

食鹽被關注!181個國家研究:吃得越咸,壽命或越長?告訴你真相

垚垚分享健康
2026-03-07 18:50:09
驚天叛逃!2個集裝箱,張本智和舉家跑路為何震爆乒壇?

驚天叛逃!2個集裝箱,張本智和舉家跑路為何震爆乒壇?

生活新鮮市
2026-04-03 01:08:38
阿里P7被裁3年,目前國企上班,年薪28萬。收入巔峰2022年,125萬

阿里P7被裁3年,目前國企上班,年薪28萬。收入巔峰2022年,125萬

螞蟻大喇叭
2026-04-02 17:04:10
4.3今日金價:大家不必等待了!接下來,金價有可能會重演歷史!

4.3今日金價:大家不必等待了!接下來,金價有可能會重演歷史!

別人都叫我阿腈
2026-04-03 05:14:50
卡薩諾:意大利人就是水平差,在國米決定比賽的多是外國球員

卡薩諾:意大利人就是水平差,在國米決定比賽的多是外國球員

懂球帝
2026-04-03 04:05:08
爆大冷!曼城 3 次密會新帥,瓜迪奧拉恐被掃地出門

爆大冷!曼城 3 次密會新帥,瓜迪奧拉恐被掃地出門

瀾歸序
2026-04-03 05:00:08
比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

比賴清德還狂的人出現了,如果她當選臺灣領導人,解放軍必定收臺

芳芳歷史燴
2026-03-29 21:09:31
這是袁世凱五姨太的真實樣貌,頭發稀疏并不貌美,但備受寵愛

這是袁世凱五姨太的真實樣貌,頭發稀疏并不貌美,但備受寵愛

法老不說教
2026-03-12 17:05:24
網傳山東煉油廠的供應鏈:伊朗原油洗白后運來煉制,再賣到非洲掙大錢

網傳山東煉油廠的供應鏈:伊朗原油洗白后運來煉制,再賣到非洲掙大錢

三言四拍
2026-03-09 08:13:42
我獨自做了18人年夜飯,小姑子卻不讓我上桌,公公一巴掌扇了過去

我獨自做了18人年夜飯,小姑子卻不讓我上桌,公公一巴掌扇了過去

清茶淺談
2025-07-06 13:39:23
警惕!公知正在悄悄換掉我們的價值觀:三件事正在瓦解社會根基

警惕!公知正在悄悄換掉我們的價值觀:三件事正在瓦解社會根基

云景侃記
2026-03-27 09:54:05
“廣東人的清明假期又要泡湯了”

“廣東人的清明假期又要泡湯了”

南方都市報
2026-04-02 19:23:22
許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

歷史偉人錄
2026-04-01 17:55:34
2026-04-03 09:51:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3303文章數 11122關注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬億美元估值,馬斯克野心太大

頭條要聞

專家:伊朗導彈數量足夠維持反擊一到兩周

頭條要聞

專家:伊朗導彈數量足夠維持反擊一到兩周

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經要聞

全球石油危機或將蔓延

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

藝術
親子
時尚
本地
手機

藝術要聞

馬英九風波再引熱議,鄭麗文力挺蕭旭岑,書法作品遭吐槽!

親子要聞

洗頭的舒適區,讓爸爸想出更多帶娃創意

為什么“這個顏色”成為今年頂流?這樣穿好看又治愈

本地新聞

從學徒到世界冠軍,為什么說張雪的底氣在重慶?

手機要聞

蘋果聯合發布LGTM框架:突破4K渲染瓶頸,提升Vision Pro畫質

無障礙瀏覽 進入關懷版