337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepSeek-OCR 開源!為AI裝上眼睛的深遠影響

0
分享至

現在大語言模型處理長文本特頭疼:字一多,token數量就炸了,又費錢又慢。

結果DeepSeek團隊盯著這問題琢磨,突然發現個事兒:一頁文字純文本輸進去,得2000到5000個token,可要是渲染成圖片,用視覺模型處理,居然只要200到400個視覺token!

壓縮率直接飆到10倍,這差距也太離譜了。

結果還真讓他們搞出來了,就是這個DeepSeek-OCR。


說穿了,這模型的核心想法特簡單:用視覺感知幫長文本瘦身。

就像DeepSeek在報告里說的,靠這招能把不同階段的文本token減7到20倍,算是給長文本處理開了條新路子。

其實想想也合理,DeepSeek團隊一直就愛琢磨用更少資源干大事,之前做的模型就想跟OpenAI、谷歌掰掰手腕,現在把這思路用到OCR上,倒也不意外。

再說說它是怎么干活的,其實就兩步:先把文字變成圖片,用個視覺編碼器(叫DeepEncoder)壓小,再用個文本解碼器(DeepSeek-3B-MoE)把字重建出來。

我特地扒了扒這個DeepEncoder,這才是真腦洞:把兩個知名視覺模型拼一塊兒了,SAM-base負責盯細節,比如字的筆畫、排版。

CLIP-Large負責看整體,把握頁面結構。

中間還加了個16倍的卷積壓縮模塊,就拿1024×1024的文檔圖來說,普通視覺模型得出4096個特征塊,它一壓縮,只出256個視覺token!


這下就不用怕特征量爆炸,后續處理又快又省內存,這設計是真夠巧的。

解碼器那邊呢,是個小尺寸的專家混合模型,總共5.7億活躍參數,里面藏著64個小專家,每次解碼只叫醒6個干活,從壓縮后的視覺特征里一點點把文字摳出來。


最牛的是,它訓練時啥都學了,不光普通文檔,連表格、公式、化學分子結構、幾何圖形都能認,還能處理多語言PDF。



要知道,這些結構化信息,好多傳統OCR碰都不敢碰,它倒好,全給包圓了。

還有個細節特貼心:它能根據文字密度和版面復雜度調壓縮程度。

比如遇到特別大、特別復雜的頁面,就開Gundam模式,跟InternVL2.0似的分塊處理。

簡單頁面就少用點token省勁兒,復雜頁面就細分保證accuracy,算是把效率和準確平衡得挺好。

說真的,這思路就像給長文本做有損壓縮,借視覺模態信息密度高、冗余少的特點,少用token還能存住信息。

這模型終于開源了,我第一時間就去GitHub瞅了眼,權重和代碼全放出來了,還用的MIT許可證,學術研究、商業應用隨便用,對開發者來說簡直是福利!

模型文件大概6.6GB,對應30億參數規模,不過得用NVIDIAGPU跑,還得裝Python3.12+、PyTorch2.6.0這些。

官方給的教程特詳細,連怎么用Transformers庫加載模型、調參數都寫了,甚至還有PDF解析的示例腳本,連vLLM加速方案都給配了,社區還有人做了Docker鏡像和Web界面,只要有點深度學習基礎,基本都能跑起來。

不過有個小門檻,得有16GB以上顯存的GPU。

再說說它的性能,我看測試數據的時候是真驚了!

在Fox基準測試里,用64個視覺token處理每頁600-700個文本token的文檔,準確率能到96.5%,壓縮率6.7倍,加到100個視覺token,準確率直接飆到98.5%,壓縮率10.5倍!

就算是每頁1200-1300個token的密文,100個視覺token也能保59.1%的準確率,壓縮快20倍!


速度也夠能打,單張A100GPU一天能處理20萬頁文檔,20臺服務器(每臺8張A100)一天能搞3300萬頁,對付大規模文檔數字化完全沒問題。

而且它參數才3億級別,部署在本地或邊緣設備都方便,延遲還低。

當然也不是沒缺點,壓縮到20倍以上,準確率就掉得明顯,太復雜的版面或冷門字體也可能認錯,但這些都是OCR領域的老難題了,DeepSeek-OCR能做到這份上,已經很能打了。

說實話,這模型能用到的地方太多了,處理長篇PDF、書籍掃描件,幫法律、金融、科研行業省時間。



支持100多種語言,跨國公司處理多語言報表、圖書館掃多語種古籍都能用。


未來這方向也挺值得期待的。

比如把它跟對話AI搭一塊兒,用戶傳長篇文檔,先用它壓成視覺特征,再給語言模型處理,就能突破輸入長度限制。

DeepSeek用這思路做對話記憶,人記東西會慢慢模糊一樣,讓模型把舊對話存成低分辨率記憶圖,擴內存容量,這想法也太妙了。


而且它可能會改變OCR的技術路線,以前都是檢測+識別,現在端到端的多模態OCR開始冒頭了。

以后的OCR說不定不僅能識字,還能理解內容,直接出結構化結果,比如DeepSeek-OCR已經能處理圖表出Markdown、認化學式出SMILES編碼、看幾何圖形出坐標,以后只會更智能。


總的來說,DeepSeek-OCR不光是OCR領域的突破,更是AI多模態融合的一塊里程碑。

它證明把文字當圖片壓縮這瘋狂想法真能行,也給長文本處理找了條新路子。

就像DeepSeek在報告里說的,這只是對視覺文本壓縮邊界的初步探索,現在已經這么驚艷了,以后肯定還有更大的空間。

說不定再過陣子,大語言模型的腦子里,不只是抽象的文字token,還會存著一堆壓縮的記憶圖片,幫它更好地處理海量信息。

DeepSeek這波操作,是真敢想,也真做成了。

這場關于文字變圖片的AI變革,才剛開頭呢。

非常感謝您看本文章,如果感覺寫的還可以的話,那就點個贊、轉發一下吧~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
繼續斬首,再次成功,為何伊朗破不了以色列的斬首戰術?

繼續斬首,再次成功,為何伊朗破不了以色列的斬首戰術?

高博新視野
2026-04-07 08:00:11
突發!伊朗大規模導彈襲擊,全球市場應聲跳水

突發!伊朗大規模導彈襲擊,全球市場應聲跳水

魏家東
2026-04-07 14:12:21
“最后期限”將至,特朗普的底牌已被看穿 | 京釀館

“最后期限”將至,特朗普的底牌已被看穿 | 京釀館

新京報
2026-04-07 12:09:08
鄭麗文剛抵滬,沉默8天的賴清德重申愿和大陸交流,但有一個前提

鄭麗文剛抵滬,沉默8天的賴清德重申愿和大陸交流,但有一個前提

李健政觀察
2026-04-07 18:22:06
伊朗發布無人機發射視頻 “飛天小摩托”直沖美軍基地

伊朗發布無人機發射視頻 “飛天小摩托”直沖美軍基地

新華社
2026-04-07 17:06:41
以軍說襲擊了伊朗數十個基礎設施

以軍說襲擊了伊朗數十個基礎設施

財聯社
2026-04-07 19:04:04
痛心!安徽失蹤6歲女孩,已遇害,兇手是熟人,正臉照曝光

痛心!安徽失蹤6歲女孩,已遇害,兇手是熟人,正臉照曝光

魔都姐姐雜談
2026-04-07 04:25:35
馬杜羅被捕后暴瘦13公斤

馬杜羅被捕后暴瘦13公斤

烽火觀天下
2026-04-07 12:34:13
英媒:伊朗消息人士稱伊朗拒絕“臨時停火”

英媒:伊朗消息人士稱伊朗拒絕“臨時停火”

新華社
2026-04-07 20:00:05
伊朗哈爾克島傳出爆炸聲,疑是美軍發起攻擊?

伊朗哈爾克島傳出爆炸聲,疑是美軍發起攻擊?

鳳眼論
2026-04-07 18:45:51
安徽失聯女童已遇害,兇手是鄰居,指認現場曝光,父親悲痛發聲

安徽失聯女童已遇害,兇手是鄰居,指認現場曝光,父親悲痛發聲

180視角
2026-04-07 17:29:19
伊朗、沙特 石化設施遭襲 油價直線飆升 美油漲破116美元

伊朗、沙特 石化設施遭襲 油價直線飆升 美油漲破116美元

每日經濟新聞
2026-04-07 13:41:19
突發!陳麗華逝世,享年85歲,死因曝光,生前跟遲重瑞立三條規矩

突發!陳麗華逝世,享年85歲,死因曝光,生前跟遲重瑞立三條規矩

潮鹿逐夢
2026-04-07 11:19:31
深圳一救護車違反調度指令,將患者拉至所屬民營醫院,家屬稱因延誤搶救致死 涉事醫院被處罰

深圳一救護車違反調度指令,將患者拉至所屬民營醫院,家屬稱因延誤搶救致死 涉事醫院被處罰

紅星新聞
2026-04-07 13:56:02
鄭麗文剛到大陸,不到24小時,賴清德打破沉默,呼吁兩岸展開對話

鄭麗文剛到大陸,不到24小時,賴清德打破沉默,呼吁兩岸展開對話

阿纂看事
2026-04-07 18:13:54
美軍“拯救飛行員”,差一點就失敗了

美軍“拯救飛行員”,差一點就失敗了

中國新聞周刊
2026-04-07 16:42:40
特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只有一個

特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只有一個

通鑒史智
2026-04-07 09:52:15
中惠保險經紀公司董事長史亞政逝世,享年55歲

中惠保險經紀公司董事長史亞政逝世,享年55歲

界面新聞
2026-04-07 14:20:17
廣東一家制衣廠僅有一位男員工,百余名女同事圍著輪流投喂呵護

廣東一家制衣廠僅有一位男員工,百余名女同事圍著輪流投喂呵護

搗蛋窩
2026-04-07 13:22:20
博弈白熱化,霍爾木茲要變天了

博弈白熱化,霍爾木茲要變天了

南風窗
2026-04-07 14:58:27
2026-04-07 20:24:49
AI變革 incentive-icons
AI變革
AI時代的變革,無論你主不主動,都與你有關
142文章數 16關注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

英媒:伊朗最高領袖病重昏迷 無法參與任何國家決策

頭條要聞

英媒:伊朗最高領袖病重昏迷 無法參與任何國家決策

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產

財經要聞

10萬億財政轉移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

時尚
本地
手機
游戲
教育

楊超越之后,全網頭像錦鯉的C位被她搶走了

本地新聞

跟著歌聲游安徽,聽古村回響

手機要聞

華為暢享90 Pro Max升級鴻蒙6.0.0.138 SP23,新增HiCar互聯

大話西游手游通用套裝哪個好用?仙族首選容止,變身卡不再被克

教育要聞

高校官宣:教師,沒有“非升即走”!

無障礙瀏覽 進入關懷版