![]()
本周,DeepSeek 新開源的 DeepSeek-OCR 在開源社區(qū)的熱度持續(xù)發(fā)酵。
人們興奮的點是:它不僅是一款新的光學(xué)字符識別模型,還更像是一次對 “ 大模型記憶機制 ” 的重新設(shè)計。
在 DeepSeek-OCR 的架構(gòu)中,圖像不再只是文字的載體,而是成為一種語義壓縮的中間語言。文字被渲染成圖像后,經(jīng)由 DeepEncoder 轉(zhuǎn)換為緊湊的視覺表征;這些視覺 token 既可以通過 DeepSeek 3B-MoE 模型還原為原始文本(這也是標(biāo)準(zhǔn)的 OCR 機制),也可以與其他輸入 token 與 prompt 結(jié)合,執(zhí)行問答、摘要、檢索等復(fù)雜任務(wù)。
通俗來說,就是我們可以把大量文字打包壓縮成一張圖片來節(jié)省空間,等需要使用的時候再解壓出來,甚至在一部分使用場景中,你甚至不需要解壓,直接用壓縮包就可以達成目的。
![]()
DeepSeek-OCR 模型架構(gòu)。圖源:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
即便在 10× 壓縮比的條件下,模型的文本還原精度仍可達 97%。隨著大模型逐漸向越來越復(fù)雜的場景嵌入,上下文長度資源遠不夠用甚至越來越不夠用,而基座模型在此參數(shù)上升級頗為緩慢的當(dāng)下,DeepSeek-OCR 的發(fā)布瞬間帶來很大的想象空間。
研究團隊甚至還進一步提出 “ 遺忘機制 ” 的構(gòu)想,模型可依據(jù)信息的 “ 時序遠近 ”,在視覺壓縮階段主動衰減細節(jié),從而實現(xiàn)一種類人記憶式的上下文管理。
那么,視覺 token 為何能在信息量不損失太多的情況下,比文本 token 少一個數(shù)量級?模型記憶能否完全用視覺邏輯來替代?DeepSeek-OCR 是否為解決大模型上下文長度受限的問題提供了一條現(xiàn)實可行的途徑?DeepSeek-OCR 反映了多模態(tài)大模型的什么發(fā)展趨勢?
帶著這些問題,知危與 Sand.ai 聯(lián)合創(chuàng)始人、首席科學(xué)家、《 Swin Transformer 》作者張拯進行了簡單的對話。
知危:
同一段輸入,為什么視覺 token 可以比文本 token 的數(shù)量少得多,有沒有直觀或本質(zhì)的解釋?
張拯:
有兩種觀點。第一種,視覺是一個 2D 表達,因此可以比 1D 的表達更高效。
第二種,高效的原因不是視覺 v.s. 文本,而是兩邊采用的 token 表達方式不同:做視覺表達的時候,我們是在一個高維的連續(xù)空間中做信息壓縮( 把 image patch 映射為一個高維特征 ),之前 LLM 里常用的 tokenizer( 把文本數(shù)據(jù)向量化的工具,通俗理解是一種把自然語言翻譯為機器能理解的語言的工具 )則實際上可以被認為是在一個一維空間中做壓縮( 把文本映射為 id )。高維連續(xù)空間本來就有更好的表達能力,因此可以用更少的 token 數(shù)量來表達更多信息。其實文本也可以做成連續(xù)表達,來大幅度減少文本 token,但是目前應(yīng)該沒有被很廣泛地用到 LLM 里。
這兩種觀點,我 buy-in 第二種。
知危:
DeepSeek-OCR 相比過往的 OCR 模型,除了效率提升方面,還有哪些獨創(chuàng)性?
張拯:
我最近沒有特別研究過 OCR 模型的進展,但基于我看過的一些信息,我覺得 DeepSeek-OCR 的技術(shù)本身好像并沒有非常特別的部分。但是在觀點上,“ 把視覺作為文本長上下文的壓縮介質(zhì) ”,這個 idea 還是很棒的。這個 idea 有路線上的啟發(fā)意義,相較于現(xiàn)在的多模態(tài)模型,DeepSeek-OCR 會使用兩種不同的 tokenizer 機制,這種路線也許會啟發(fā)更好的多模態(tài)模型設(shè)計方案。
知危:
這項技術(shù)對于基礎(chǔ)模型上下文長度難以擴展的當(dāng)下,可以帶來多大的成本效益?對上下文工程的優(yōu)化有哪些好處?
張拯:
理論上最多能拿到 N^2 倍的收益,N 是 Vision Token 相較于 Text Token 的壓縮率。對于上下文工程的優(yōu)化,最大的好處應(yīng)該就是不用那么仔細地管理上下文長度了。
知危:
DeepSeek 設(shè)想的遺忘機制是否過于簡化?忽略了語義的重要性排序?
張拯:
這種設(shè)想肯定還是很初步的,但是也能腦洞出很多改進的空間,比如語義重要的部分可以渲染成更大的字體?
知危:
Andrej Karpathy 認為視覺 token 有潛力可以完全替代文本 token,因為信息壓縮、多模態(tài)、可雙向注意力處理、無需 tokenizer 等優(yōu)勢,您怎么看?
張拯:
大部分都同意,但是 “ 可雙向注意力處理 ” 這里有待探討,“ 可雙向注意力處理 ” 很大程度上和 training objective( 訓(xùn)練目標(biāo) )有關(guān)。
另外,如果后面都是處理視覺 token 了,是不是有機會讓模型能在一個 2D 的空間里做思考?從而帶來更高效的推理( 類似 GPT-4o 的 thinking with image )?這個我覺得還是挺有意思的。
知危:近期 Meta 也提出了一個無需 tokenizer 的模型架構(gòu) Byte Latent Transformer ,可以跳過 tokenization ,直接學(xué)習(xí)原始字節(jié)流。結(jié)合以上討論和領(lǐng)域現(xiàn)狀,您認為這體現(xiàn)了多模態(tài)大模型的哪些發(fā)展趨勢?
張拯:
宏觀一點來看,不同模態(tài)模型的范式還是有機會持續(xù)進化的。
更細節(jié)一點的話,我初步想到的有兩個:
- 現(xiàn)在的多模態(tài)大模型的主流做法基本上可以認為在捏合各種不同的模態(tài)的模塊,整個訓(xùn)練 pipeline 其實還是有點復(fù)雜( 不優(yōu)雅 )的。大家肯定希望有更簡單、更統(tǒng)一的方式來處理。類似 DeepSeek-OCR 這樣的工作對我們開發(fā)更好的多模態(tài)模型范式還是挺有啟發(fā)的。
- 離散表達和連續(xù)表達之間的關(guān)系,以及是否有更好的組合方式,可能也挺重要的。
( 對話全文完 )
總體來看,DeepSeek-OCR 更多是基于效率上的大幅提升啟發(fā)了一個新的路線。
當(dāng)模型的 “ 思考空間 ” 從一維文本拓展至二維視覺,思考和推理也可能變得更加高效和簡潔。而在技術(shù)層面,則指向當(dāng)前多模態(tài)大模型領(lǐng)域正等待一把 “ 奧卡姆剃刀 ” 簡化模型范式的時刻。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.