現在大語言模型處理長文本特頭疼:字一多,token數量就炸了,又費錢又慢。
結果DeepSeek團隊盯著這問題琢磨,突然發現個事兒:一頁文字純文本輸進去,得2000到5000個token,可要是渲染成圖片,用視覺模型處理,居然只要200到400個視覺token!
壓縮率直接飆到10倍,這差距也太離譜了。
結果還真讓他們搞出來了,就是這個DeepSeek-OCR。
![]()
說穿了,這模型的核心想法特簡單:用視覺感知幫長文本瘦身。
就像DeepSeek在報告里說的,靠這招能把不同階段的文本token減7到20倍,算是給長文本處理開了條新路子。
其實想想也合理,DeepSeek團隊一直就愛琢磨用更少資源干大事,之前做的模型就想跟OpenAI、谷歌掰掰手腕,現在把這思路用到OCR上,倒也不意外。
再說說它是怎么干活的,其實就兩步:先把文字變成圖片,用個視覺編碼器(叫DeepEncoder)壓小,再用個文本解碼器(DeepSeek-3B-MoE)把字重建出來。
我特地扒了扒這個DeepEncoder,這才是真腦洞:把兩個知名視覺模型拼一塊兒了,SAM-base負責盯細節,比如字的筆畫、排版。
CLIP-Large負責看整體,把握頁面結構。
中間還加了個16倍的卷積壓縮模塊,就拿1024×1024的文檔圖來說,普通視覺模型得出4096個特征塊,它一壓縮,只出256個視覺token!
![]()
這下就不用怕特征量爆炸,后續處理又快又省內存,這設計是真夠巧的。
解碼器那邊呢,是個小尺寸的專家混合模型,總共5.7億活躍參數,里面藏著64個小專家,每次解碼只叫醒6個干活,從壓縮后的視覺特征里一點點把文字摳出來。
![]()
最牛的是,它訓練時啥都學了,不光普通文檔,連表格、公式、化學分子結構、幾何圖形都能認,還能處理多語言PDF。
![]()
![]()
要知道,這些結構化信息,好多傳統OCR碰都不敢碰,它倒好,全給包圓了。
還有個細節特貼心:它能根據文字密度和版面復雜度調壓縮程度。
比如遇到特別大、特別復雜的頁面,就開Gundam模式,跟InternVL2.0似的分塊處理。
簡單頁面就少用點token省勁兒,復雜頁面就細分保證accuracy,算是把效率和準確平衡得挺好。
說真的,這思路就像給長文本做有損壓縮,借視覺模態信息密度高、冗余少的特點,少用token還能存住信息。
這模型終于開源了,我第一時間就去GitHub瞅了眼,權重和代碼全放出來了,還用的MIT許可證,學術研究、商業應用隨便用,對開發者來說簡直是福利!
模型文件大概6.6GB,對應30億參數規模,不過得用NVIDIAGPU跑,還得裝Python3.12+、PyTorch2.6.0這些。
官方給的教程特詳細,連怎么用Transformers庫加載模型、調參數都寫了,甚至還有PDF解析的示例腳本,連vLLM加速方案都給配了,社區還有人做了Docker鏡像和Web界面,只要有點深度學習基礎,基本都能跑起來。
不過有個小門檻,得有16GB以上顯存的GPU。
再說說它的性能,我看測試數據的時候是真驚了!
在Fox基準測試里,用64個視覺token處理每頁600-700個文本token的文檔,準確率能到96.5%,壓縮率6.7倍,加到100個視覺token,準確率直接飆到98.5%,壓縮率10.5倍!
就算是每頁1200-1300個token的密文,100個視覺token也能保59.1%的準確率,壓縮快20倍!
![]()
速度也夠能打,單張A100GPU一天能處理20萬頁文檔,20臺服務器(每臺8張A100)一天能搞3300萬頁,對付大規模文檔數字化完全沒問題。
而且它參數才3億級別,部署在本地或邊緣設備都方便,延遲還低。
當然也不是沒缺點,壓縮到20倍以上,準確率就掉得明顯,太復雜的版面或冷門字體也可能認錯,但這些都是OCR領域的老難題了,DeepSeek-OCR能做到這份上,已經很能打了。
說實話,這模型能用到的地方太多了,處理長篇PDF、書籍掃描件,幫法律、金融、科研行業省時間。
![]()
![]()
支持100多種語言,跨國公司處理多語言報表、圖書館掃多語種古籍都能用。
![]()
未來這方向也挺值得期待的。
比如把它跟對話AI搭一塊兒,用戶傳長篇文檔,先用它壓成視覺特征,再給語言模型處理,就能突破輸入長度限制。
DeepSeek用這思路做對話記憶,人記東西會慢慢模糊一樣,讓模型把舊對話存成低分辨率記憶圖,擴內存容量,這想法也太妙了。
![]()
而且它可能會改變OCR的技術路線,以前都是檢測+識別,現在端到端的多模態OCR開始冒頭了。
以后的OCR說不定不僅能識字,還能理解內容,直接出結構化結果,比如DeepSeek-OCR已經能處理圖表出Markdown、認化學式出SMILES編碼、看幾何圖形出坐標,以后只會更智能。
![]()
總的來說,DeepSeek-OCR不光是OCR領域的突破,更是AI多模態融合的一塊里程碑。
它證明把文字當圖片壓縮這瘋狂想法真能行,也給長文本處理找了條新路子。
就像DeepSeek在報告里說的,這只是對視覺文本壓縮邊界的初步探索,現在已經這么驚艷了,以后肯定還有更大的空間。
說不定再過陣子,大語言模型的腦子里,不只是抽象的文字token,還會存著一堆壓縮的記憶圖片,幫它更好地處理海量信息。
DeepSeek這波操作,是真敢想,也真做成了。
這場關于文字變圖片的AI變革,才剛開頭呢。
非常感謝您看本文章,如果感覺寫的還可以的話,那就點個贊、轉發一下吧~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.