337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

全球OCR新王來自中國開源!GitHub狂攬73300+Star

0
分享至

西風 發自 凹非寺
量子位 | 公眾號 QbitAI

GitHub OCR項目之王剛剛歷史性易主。

誕生近40年、統治OCR領域的技術標桿Tesseract OCR,被中國開源拉下王座——

百度文心衍生模型PaddleOCR以73300+Star,正式登頂GitHub全球OCR項目榜,終結谷歌Tesseract OCR長期霸榜局面。

這也是中國開源在這一基礎賽道上,首次拿下全球Star第一。



不僅如此,在Hugging Face上,PaddleOCR也長期處于OCR與文檔解析領域的頭部位置,已經成為全球開發者的必備工具。

消息一出,開發者社區瞬間炸開了鍋。

從“跟跑”到“領跑”,大模型時代,中國開源項目正在用實力改寫全球競爭格局。



光超越還不夠,劃重點:

PaddleOCR同步升級服務放出一波福利,官?免費每?解析?數翻番,由1萬提升?2萬。用戶還可通過OpenClaw直接調用PaddleOCR Skill,為其接入專業“視覺”能力。

PaddleOCR OCEAN生態聯盟也重磅發布,面向核心開源貢獻者、企業用戶、模型托管平臺及硬件廠商等OCR上下游伙伴,這將進一步推動OCR能力在更廣泛場景中的應用落地。

大模型時代,PaddleOCR是如何拔得頭籌的?OCR又為何如此重要?

超越谷歌Tesseract OCR,新王者誕生

在OCR領域,Tesseract OCR無疑是一座里程碑式的存在,它的發展歷程跨越四十多年。

1985年,Tesseract OCR誕生于惠普公司的研發項目。彼時的OCR技術尚處于起步階段,核心需求集中在商業文檔的自動化識別與錄入。

1994年,Tesseract OCR核心版本開發完成。在1995年美國內華達大學拉斯維加斯分校(UNLV)組織的OCR評測中,Tesseract OCR憑借優異的印刷體識別精度,躋身全球頂尖OCR引擎行列。

不過,隨著惠普業務重心的調整,1996年后,Tesseract OCR的研發工作幾乎陷入停滯。直到2005年,惠普決定將Tesseract OCR開源。

轉折點出現在2006年,谷歌看中了Tesseract OCR的技術潛力,接過手來將其納入自身開源生態體系。研發團隊修復了大量歷史遺留的bug,優化了引擎的運行速度和兼容性,更緊跟技術潮流,推動其完成了從傳統算法到深度學習的跨越。

但技術世界的法則從來如此:沒有永恒的王者,只有持續迭代的創新

文心大模型衍生而來的PaddleOCR,正是這場變革的引領者。

PaddleOCR的登頂,并非一朝一夕之功。它誕生于2020年,是深度學習時代下原生基于深度學習技術構建的模型。

2023年,大模型浪潮席卷整個AI行業,OCR賽道也迎來代際更替。文心大模型的持續高速迭代,直接為PaddleOCR帶來了全新的能力天花板

PaddleOCR與文心大模型之間,逐漸玩出了一套非常有意思的雙向賦能組合拳:

一個負責“看”:用高精度的文本提取能力,把文檔中的文字、表格、公式準確撈出來,為大模型提供“食材”。

一個負責“懂”:文心大模型快速迭代,在多模態方向實現突破,視覺理解、跨模態融合、結構化輸出,能力版圖一步步補齊。文心不僅能消化這些信息,還能反哺PaddleOCR,讓它真正理解復雜文檔的邏輯脈絡。

這種協同直接推動了PaddleOCR的爆發式增長。

Star History顯示,GitHub PaddleOCR Star數自2024年起呈現加速增長態勢。

基于文心大模型技術底座,PaddleOCR-VL、PaddleOCR-VL-1.5核心模型相繼推出。

2025年10月,百度發布并開源自研多模態文檔解析模型PaddleOCR-VL



PaddleOCR-VL僅0.9B參數量,就在全球權威文檔解析評測榜單OmniDocBench V1.5上拿下92.6分的成績,超越Gemini-2.5 Pro、GPT-4o等與其體量懸殊的多模態大模型以及OCR領域的垂直模型dots.ocr、MinerU等,獲得綜合性能全球第一。

在文本識別、公式識別、表格理解、閱讀順序四大核心能力上,PaddleOCR-VL全面刷新SOTA:



同時,發布16小時內,PaddleOCR-VL直沖HuggingFace Trending全球第一、ModelScope Trending全球第一、HuggingFace Paper Trending全球第一,持續五天登頂。



今年一月底,百度再次發力,發布并開源新一代文檔解析模型PaddleOCR-VL-1.5

同樣僅0.9B參數,PaddleOCR-VL-1.5在OmniDocBench V1.5上的整體精度再提升,達到94.5%,超過Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等,全球綜合性能排第一。

新一代模型更進一步實現了全球首次“異形框定位”

模型能夠精準識別傾斜、彎折、拍照畸變等非規則文檔形態,讓“歪文檔”實現穩定、可規模化解析。金融票據處理、檔案數字化等真實場景中的老大難問題,終于有了解決方案。

目前,PaddleOCR用戶已覆蓋160個國家和地區,支持110+種語言識別,成為真正意義上具有全球影響力的開源項目。

5M參數模型硬剛千億模型

這些只是水面之上的部分。讓PaddleOCR實現翻盤的,還有水面之下的技術突破、積淀和創新。

CVPR 2026,PaddleOCR團隊有兩篇研究成果成功被收錄。

這兩篇論文瞄準的都是OCR領域最前沿、最棘手的行業難題。拆開這兩篇論文,或許就能從更深層的技術視角看懂PaddleOCR到底強在哪。

首先是PP-OCRv5這項工作。



PP-OCRv5論文鏈接: https://arxiv.org/pdf/2603.24373v1

PP-OCRv5提出的是一個反直覺的事:參數不一定是越大越好。

模型參數僅5M,卻能在手寫、多語言、自然場景下表現超越GPT-4o等千億參數的大模型。



怎么做到的?答案是“數據為中心”的系統化優化策略

OCR領域,大參數視覺語言模型占主導。但這類通用大模型普遍存在定位精度不足、文本幻覺等致命問題,而傳統輕量化OCR模型又過度聚焦架構創新,始終被數據質量與規模的短板限制性能。

PP-OCRv5正是在這樣的背景下誕生的。

百度飛槳團隊沒有盲目堆模型規模,而是提出了一套針對OCR數據的量化分析框架,從數據難度、數據準確性、數據多樣性三個維度,徹底重構了OCR模型的數據訓練策略。

實驗驗證了數據三維度優化的有效性。

關鍵是,團隊發現了這樣一條規律:

模型訓練存在明確的“難度甜點區”,中等難度的數據訓練效率最高,簡單樣本和高難度樣本都需要控制比例;特征多樣性遠比盲目堆砌數據量更重要;而小模型對標簽噪聲居然有天然的強魯棒性。



在內部多場景基準測試中,PP-OCRv5加權準確率從PP-OCRv4的53.0%大幅提升至80.1%,在OmniDocBench上,該模型以5M參數實現0.067的平均歸一化編輯距離,在專用OCR模型中達到最優水平,在多語言處理、旋轉文本、復雜背景等場景表現穩健,定位精度更高、幻覺更少、計算成本遠低于百億參數視覺語言模型。

這一切都指向一個核心結論:數據策略的上限還沒有被充分挖掘。通過精細化的“數據工程”,小模型可以在OCR場景媲美大模型。

在PaddleOCR團隊看來,“數據本身,可能會慢慢變成?條更獨?、也更重要的能?曲線”。

再來看另一項被接收的工作,正是PaddleOCR-VL



PaddleOCR-VL論文鏈接: https://arxiv.org/pdf/2603.24326

如果說PP-OCRv5解決的是“參數效率”,那PaddleOCR-VL進一步解決的是“計算困境”。

高分辨率文檔解析一直是VLM的痛點——輸入一張高清文檔,視覺Token數量呈二次方增長,算力消耗爆炸。但文檔圖像中大量是空白背景,算力浪費嚴重。

PaddleOCR團隊的解法很巧妙:別一開始就處理整張圖,先找到重點

他們提出了“由粗到細”(Coarse-to-Fine)架構:先用一個輕量級的有效區域聚焦模塊(VRFM)定位文檔中的關鍵區域,再讓0.9B的模型只處理這些區域。

結果,視覺Token數量只有競品的1/3到1/2,精度反而更高。如前所述,在OmniDocBench V1.5權威榜單上,PaddleOCR-VL以92.62分的綜合成績登頂全球第一。



總結來看,PaddleOCR的反超是技術代際更替的必然。

為什么AI廠商都在搶OCR?

如果把過去半年AI圈的熱鬧拉出一條時間線,會發現一個清晰的現象:

近半年,從巨頭到創業公司,國內外OCR賽道迎來集體爆發。

2025年10月,百度PaddleOCR-VL、DeepSeek-OCR、Allen AI olmOCR-2、Nanonets-OCR2-3B、dots.ocr.base幾乎同時發布。

抱抱臉模型趨勢榜一度被OCR模型“屠榜”。

到了11月,騰訊HunyuanOCR問世;12月,Mistral OCR 3發布。

2026年1月,LightOnOCR-2、DeepSeek-OCR-2、百度PaddleOCR-VL-1.5接踵而至。

2月,智譜GLM-OCR發布;3月,小紅書FireRed-OCR加入戰局。



為什么這么卷?兩個字:數據

互聯網公開的高質量數據快被“啃”完,模型訓練面臨數據虧空。行業廣泛判斷,大量有價值信息仍沉淀在文檔、書籍、合同、表格、掃描件等離線載體中。

OCR就是那把鑰匙。

這些海量非結構化信息,無法直接被大模型理解與利用,必須經過OCR,將圖像中的文字、版面結構、表格、公式等轉化為機器可處理的電子化文本。

所以OCR的身份正在被重寫:

從早期依賴手工規則的掃描小幫手,到特征工程與深度學習驅動的高精度字符識別工具,再到如今與Transformer和Agent深度融合的新階段,它早已跳出“辦公室里的文檔提取器”定位。

現在,它是大模型數據生態的基座,是Agent理解真實世界的“眼睛”,是大模型變聰明的“鑰匙”



就連啟蒙全球千萬學習者的AI大牛吳恩達,今年年初推出的新課程也是聚焦OCR。課程內容就是關于智能體文檔提取(Agent Doc Extraction),也就是教你怎么給OCR裝上智能體大腦。

當各家大模型的參數規模越來越接近,決勝的關鍵反而回到了最底層的數據獲取與處理能力。誰擁有更強的OCR能力,誰就掌握了現實世界的信息入口,誰就能為自己的大模型提供源源不斷的高質量養料。

PaddleOCR的登頂,正是這場角色轉換中最具標志性的事件之一。

更值得關注的是,這場競爭才剛剛開了個頭。

未來,OCR的比拼會越來越“鉆”。可以想象的一種方向是場景化,不再追求大而全,而是把金融票據、醫療檔案、教育試卷等垂直場景做深做透;另一種是端云協同,輕量模型跑在手機、掃描儀上,本地快速識別,云端精準優化,既省算力又保隱私。

更大的想象空間在于OCR和多模態大模型、Agent更深度地融合,我們或許能看到真正的“全能信息處理助手”。

PaddleOCR的登頂,為中國廠商在OCR賽道拿下了領先身位。它背后折射出的,是中國開源整體實力和全球影響力的加速趕超。

從底層基礎設施到前沿技術突破,中國開源正在越來越多的賽道上拿出世界級的表現。OCR,只是其中一塊拼圖。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
雷軍挑戰成功!小米新SU7行駛1313公里只充1次電,連續直播15個小時,多名車友一路跟隨

雷軍挑戰成功!小米新SU7行駛1313公里只充1次電,連續直播15個小時,多名車友一路跟隨

極目新聞
2026-04-17 22:41:31
WTA爆冷!張帥痛失冠軍,0-2遭橫掃,無緣2連冠,卻仍是國內第一

WTA爆冷!張帥痛失冠軍,0-2遭橫掃,無緣2連冠,卻仍是國內第一

體育就你秀
2026-04-19 22:38:06
明天谷雨,牢記:1不曬、2要躲、3不坐、4要吃,寓意五谷豐登!

明天谷雨,牢記:1不曬、2要躲、3不坐、4要吃,寓意五谷豐登!

阿龍美食記
2026-04-19 11:50:47
光纖風口!20家凈利暴增3212%,社保外資搶籌6股

光纖風口!20家凈利暴增3212%,社保外資搶籌6股

慧眼看世界哈哈
2026-04-19 16:20:20
戲劇性收場!賽道紅旗提前結束,荷蘭站次回合張雪機車第7名完賽

戲劇性收場!賽道紅旗提前結束,荷蘭站次回合張雪機車第7名完賽

全景體育V
2026-04-19 20:31:05
43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

漢史趣聞
2026-04-06 19:17:12
青春風暴掀翻傳統豪強!2026蘇超首輪收官:6場戰罷 上季冠亞季軍集體淪陷

青春風暴掀翻傳統豪強!2026蘇超首輪收官:6場戰罷 上季冠亞季軍集體淪陷

野渡舟山人
2026-04-20 00:45:55
西班牙將正式提議歐盟終止與以色列聯系國協議

西班牙將正式提議歐盟終止與以色列聯系國協議

新京報
2026-04-19 20:40:08
抗議無效!中方確定9萬平方公里歸屬,印度還在無理取鬧

抗議無效!中方確定9萬平方公里歸屬,印度還在無理取鬧

春日在捕月
2026-04-19 23:31:08
美國與伊朗已就延長停火達成“原則性協議”

美國與伊朗已就延長停火達成“原則性協議”

新華社
2026-04-15 19:24:12
廣東慘遭18分逆轉疑似放水!專家暗示打假球:杜鋒為季后賽挑對手

廣東慘遭18分逆轉疑似放水!專家暗示打假球:杜鋒為季后賽挑對手

籃球快餐車
2026-04-19 06:11:53
車價大局已定!若無意外,2026年汽車市場或將迎來4個大變局

車價大局已定!若無意外,2026年汽車市場或將迎來4個大變局

老特有話說
2026-04-18 18:46:37
有人預測:今年五一,可能會出現以下4大“現象”,很真實

有人預測:今年五一,可能會出現以下4大“現象”,很真實

天氣觀察站
2026-04-15 08:21:07
媒體人表示:李夢與張隆喜結連理,攜手步入婚姻殿堂!

媒體人表示:李夢與張隆喜結連理,攜手步入婚姻殿堂!

開成運動會
2026-04-19 21:52:04
下賽季排超看點拉滿!天津女排重磅補強,外援+名帥加持實力飆升

下賽季排超看點拉滿!天津女排重磅補強,外援+名帥加持實力飆升

金毛愛女排
2026-04-20 00:00:04
掘金116-105戰勝森林狼,一戰讓人看清以下三位球員!

掘金116-105戰勝森林狼,一戰讓人看清以下三位球員!

君子一劍似水流年
2026-04-19 06:46:26
很多歐美高管訪問中國以后,回國后,為啥都汗毛直立,壓力巨大

很多歐美高管訪問中國以后,回國后,為啥都汗毛直立,壓力巨大

說歷史的老牢
2026-04-19 19:21:36
早上要注重養肝,少吃饅頭,多吃這幾種,養肝護胃身體好!

早上要注重養肝,少吃饅頭,多吃這幾種,養肝護胃身體好!

白宸侃片
2026-04-20 04:48:34
跳樓身亡,家里現金堆成山,偷養私生子,大衣哥私生活謠言太離譜

跳樓身亡,家里現金堆成山,偷養私生子,大衣哥私生活謠言太離譜

郭蛹包工頭
2026-04-14 18:49:14
上海女博士在家8年未出門,警察破門后,看到屋內景象頓時傻眼了

上海女博士在家8年未出門,警察破門后,看到屋內景象頓時傻眼了

詭譎怪談
2025-05-02 00:08:52
2026-04-20 06:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12497文章數 176455關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態度原創

房產
本地
教育
公開課
軍事航空

房產要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

教育要聞

南昌縣全民閱讀活動在斗柏路小學開展

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進入關懷版