337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek開源的新東西到底強在哪?我?guī)湍阏覍<覇柫藛?/h1>
0
分享至



本周,DeepSeek 新開源的 DeepSeek-OCR 在開源社區(qū)的熱度持續(xù)發(fā)酵。

人們興奮的點是:它不僅是一款新的光學(xué)字符識別模型,還更像是一次對 “ 大模型記憶機制 ” 的重新設(shè)計。

在 DeepSeek-OCR 的架構(gòu)中,圖像不再只是文字的載體,而是成為一種語義壓縮的中間語言。文字被渲染成圖像后,經(jīng)由 DeepEncoder 轉(zhuǎn)換為緊湊的視覺表征;這些視覺 token 既可以通過 DeepSeek 3B-MoE 模型還原為原始文本(這也是標(biāo)準(zhǔn)的 OCR 機制),也可以與其他輸入 token 與 prompt 結(jié)合,執(zhí)行問答、摘要、檢索等復(fù)雜任務(wù)。

通俗來說,就是我們可以把大量文字打包壓縮成一張圖片來節(jié)省空間,等需要使用的時候再解壓出來,甚至在一部分使用場景中,你甚至不需要解壓,直接用壓縮包就可以達成目的。



DeepSeek-OCR 模型架構(gòu)。圖源:
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

即便在 10× 壓縮比的條件下,模型的文本還原精度仍可達 97%。隨著大模型逐漸向越來越復(fù)雜的場景嵌入,上下文長度資源遠不夠用甚至越來越不夠用,而基座模型在此參數(shù)上升級頗為緩慢的當(dāng)下,DeepSeek-OCR 的發(fā)布瞬間帶來很大的想象空間。

研究團隊甚至還進一步提出 “ 遺忘機制 ” 的構(gòu)想,模型可依據(jù)信息的 “ 時序遠近 ”,在視覺壓縮階段主動衰減細節(jié),從而實現(xiàn)一種類人記憶式的上下文管理。

那么,視覺 token 為何能在信息量不損失太多的情況下,比文本 token 少一個數(shù)量級?模型記憶能否完全用視覺邏輯來替代?DeepSeek-OCR 是否為解決大模型上下文長度受限的問題提供了一條現(xiàn)實可行的途徑?DeepSeek-OCR 反映了多模態(tài)大模型的什么發(fā)展趨勢?

帶著這些問題,知危與 Sand.ai 聯(lián)合創(chuàng)始人、首席科學(xué)家、《 Swin Transformer 》作者張拯進行了簡單的對話。

知危:

同一段輸入,為什么視覺 token 可以比文本 token 的數(shù)量少得多,有沒有直觀或本質(zhì)的解釋?

張拯:

有兩種觀點。第一種,視覺是一個 2D 表達,因此可以比 1D 的表達更高效。

第二種,高效的原因不是視覺 v.s. 文本,而是兩邊采用的 token 表達方式不同:做視覺表達的時候,我們是在一個高維的連續(xù)空間中做信息壓縮( 把 image patch 映射為一個高維特征 ),之前 LLM 里常用的 tokenizer( 把文本數(shù)據(jù)向量化的工具,通俗理解是一種把自然語言翻譯為機器能理解的語言的工具 )則實際上可以被認為是在一個一維空間中做壓縮( 把文本映射為 id )。高維連續(xù)空間本來就有更好的表達能力,因此可以用更少的 token 數(shù)量來表達更多信息。其實文本也可以做成連續(xù)表達,來大幅度減少文本 token,但是目前應(yīng)該沒有被很廣泛地用到 LLM 里。

這兩種觀點,我 buy-in 第二種。

知危:

DeepSeek-OCR 相比過往的 OCR 模型,除了效率提升方面,還有哪些獨創(chuàng)性?

張拯:

我最近沒有特別研究過 OCR 模型的進展,但基于我看過的一些信息,我覺得 DeepSeek-OCR 的技術(shù)本身好像并沒有非常特別的部分。但是在觀點上,“ 把視覺作為文本長上下文的壓縮介質(zhì) ”,這個 idea 還是很棒的。這個 idea 有路線上的啟發(fā)意義,相較于現(xiàn)在的多模態(tài)模型,DeepSeek-OCR 會使用兩種不同的 tokenizer 機制,這種路線也許會啟發(fā)更好的多模態(tài)模型設(shè)計方案。

知危:

這項技術(shù)對于基礎(chǔ)模型上下文長度難以擴展的當(dāng)下,可以帶來多大的成本效益?對上下文工程的優(yōu)化有哪些好處?

張拯:

理論上最多能拿到 N^2 倍的收益,N 是 Vision Token 相較于 Text Token 的壓縮率。對于上下文工程的優(yōu)化,最大的好處應(yīng)該就是不用那么仔細地管理上下文長度了。

知危:

DeepSeek 設(shè)想的遺忘機制是否過于簡化?忽略了語義的重要性排序?

張拯:

這種設(shè)想肯定還是很初步的,但是也能腦洞出很多改進的空間,比如語義重要的部分可以渲染成更大的字體?

知危:

Andrej Karpathy 認為視覺 token 有潛力可以完全替代文本 token,因為信息壓縮、多模態(tài)、可雙向注意力處理、無需 tokenizer 等優(yōu)勢,您怎么看?

張拯:

大部分都同意,但是 “ 可雙向注意力處理 ” 這里有待探討,“ 可雙向注意力處理 ” 很大程度上和 training objective( 訓(xùn)練目標(biāo) )有關(guān)。

另外,如果后面都是處理視覺 token 了,是不是有機會讓模型能在一個 2D 的空間里做思考?從而帶來更高效的推理( 類似 GPT-4o 的 thinking with image )?這個我覺得還是挺有意思的。

知危:近期 Meta 也提出了一個無需 tokenizer 的模型架構(gòu) Byte Latent Transformer ,可以跳過 tokenization ,直接學(xué)習(xí)原始字節(jié)流。結(jié)合以上討論和領(lǐng)域現(xiàn)狀,您認為這體現(xiàn)了多模態(tài)大模型的哪些發(fā)展趨勢?

張拯:

宏觀一點來看,不同模態(tài)模型的范式還是有機會持續(xù)進化的。

更細節(jié)一點的話,我初步想到的有兩個:

  • 現(xiàn)在的多模態(tài)大模型的主流做法基本上可以認為在捏合各種不同的模態(tài)的模塊,整個訓(xùn)練 pipeline 其實還是有點復(fù)雜( 不優(yōu)雅 )的。大家肯定希望有更簡單、更統(tǒng)一的方式來處理。類似 DeepSeek-OCR 這樣的工作對我們開發(fā)更好的多模態(tài)模型范式還是挺有啟發(fā)的。
  • 離散表達和連續(xù)表達之間的關(guān)系,以及是否有更好的組合方式,可能也挺重要的。

( 對話全文完 )

總體來看,DeepSeek-OCR 更多是基于效率上的大幅提升啟發(fā)了一個新的路線。

當(dāng)模型的 “ 思考空間 ” 從一維文本拓展至二維視覺,思考和推理也可能變得更加高效和簡潔。而在技術(shù)層面,則指向當(dāng)前多模態(tài)大模型領(lǐng)域正等待一把 “ 奧卡姆剃刀 ” 簡化模型范式的時刻。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
別再傻扔過期藥了!這6種常備藥養(yǎng)花堪比神藥,植物吃了狂長爆盆

別再傻扔過期藥了!這6種常備藥養(yǎng)花堪比神藥,植物吃了狂長爆盆

復(fù)轉(zhuǎn)這些年
2026-03-23 20:20:36
世界杯男單16強簽表:王楚欽再戰(zhàn)小勒布倫!溫瑞博對決林昀儒

世界杯男單16強簽表:王楚欽再戰(zhàn)小勒布倫!溫瑞博對決林昀儒

全言作品
2026-04-02 00:32:57
下黑手了!黨內(nèi)倒戈要求鄭麗文下臺

下黑手了!黨內(nèi)倒戈要求鄭麗文下臺

雪中風(fēng)車
2026-02-20 15:02:04
香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術(shù)曾做史泰龍保鏢

香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術(shù)曾做史泰龍保鏢

大象新聞
2026-03-31 14:49:05
國際油價持續(xù)下挫 布油跌幅擴大至3%

國際油價持續(xù)下挫 布油跌幅擴大至3%

財聯(lián)社
2026-04-01 14:34:12
張雪:我以前挺喜歡雷軍,挖孔機蓋事件我會給消費者兩個選擇

張雪:我以前挺喜歡雷軍,挖孔機蓋事件我會給消費者兩個選擇

金融界
2026-03-30 17:38:20
5月1日起,車牌直接當(dāng)高速通行證!不用ETC、全年24天免費

5月1日起,車牌直接當(dāng)高速通行證!不用ETC、全年24天免費

三農(nóng)老歷
2026-04-02 08:55:01
人類50多年后重返月球軌道:美“阿爾忒彌斯二號”發(fā)射成功,宇航員出發(fā)前給女兒留遺囑

人類50多年后重返月球軌道:美“阿爾忒彌斯二號”發(fā)射成功,宇航員出發(fā)前給女兒留遺囑

紅星新聞
2026-04-02 08:23:10
加州州長紐森痛批特朗普馬斯克,稱其犯下對華十年最大錯

加州州長紐森痛批特朗普馬斯克,稱其犯下對華十年最大錯

羽逸地之光
2026-04-02 10:26:43
35歲知名星二代,被曝生活拮據(jù)落魄,和父親斷來往,和母親也決裂

35歲知名星二代,被曝生活拮據(jù)落魄,和父親斷來往,和母親也決裂

西樓知趣雜談
2026-04-02 07:52:04
太適合廣東隊!CBA內(nèi)線大殺器打成大腿,朱芳雨有望出手截胡?

太適合廣東隊!CBA內(nèi)線大殺器打成大腿,朱芳雨有望出手截胡?

緋雨兒
2026-04-02 08:25:18
美國發(fā)出全球通緝令,逮捕中國芯片科學(xué)家陳正坤,現(xiàn)在怎么樣了?

美國發(fā)出全球通緝令,逮捕中國芯片科學(xué)家陳正坤,現(xiàn)在怎么樣了?

秋月寒江
2026-04-01 11:54:43
屬龍人注意!4月2號到4號,你會痛失一人,但要拿回這三樣?xùn)|西

屬龍人注意!4月2號到4號,你會痛失一人,但要拿回這三樣?xùn)|西

時尚的弄潮
2026-04-01 15:28:37
英媒:中國最令人佩服的,就是美歐聯(lián)手絞殺中國光伏,還能夠翻身

英媒:中國最令人佩服的,就是美歐聯(lián)手絞殺中國光伏,還能夠翻身

丁丁鯉史紀(jì)
2026-04-01 14:55:06
撞見妻子和男閨蜜深夜擁吻,我默默抽完煙,回家為她打開了行李箱

撞見妻子和男閨蜜深夜擁吻,我默默抽完煙,回家為她打開了行李箱

曉艾故事匯
2026-02-05 17:19:39
全紅嬋不再隱瞞!坦言身材發(fā)胖原因,原來高敏4年內(nèi)提醒過2次

全紅嬋不再隱瞞!坦言身材發(fā)胖原因,原來高敏4年內(nèi)提醒過2次

青橘罐頭
2026-04-01 17:09:37
與主帥對罵,洛夫頓遭重罰?更衣室內(nèi)幕曝光,盧偉表態(tài),豪門沉默

與主帥對罵,洛夫頓遭重罰?更衣室內(nèi)幕曝光,盧偉表態(tài),豪門沉默

萌蘭聊個球
2026-04-02 09:34:45
張本智和全家逃離日本,兩個集裝箱搬空10年家,日乒徹底慌了

張本智和全家逃離日本,兩個集裝箱搬空10年家,日乒徹底慌了

乒乓助手
2026-04-02 00:07:09
奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

品牌營銷報
2026-02-23 11:31:10
禁賽25場后,喬治轟39分創(chuàng)新高!恩比德輪休鬧劇徹底暴露76人野心

禁賽25場后,喬治轟39分創(chuàng)新高!恩比德輪休鬧劇徹底暴露76人野心

鍋子籃球
2026-04-02 10:16:04
2026-04-02 11:03:00

知危 incentive-icons
知危
投資不立危墻之下
551文章數(shù) 1835關(guān)注度
往期回顧 全部

科技要聞

SpaceX秘密申報IPO,估值沖刺12萬億

頭條要聞

牛彈琴:伊朗越打越生猛了 發(fā)動規(guī)模最大的一次攻勢

頭條要聞

牛彈琴:伊朗越打越生猛了 發(fā)動規(guī)模最大的一次攻勢

體育要聞

這六個字,代表了邵佳一的新國足

娛樂要聞

張婉婷已決定離婚 找律師討論婚變事宜

財經(jīng)要聞

電商售械三水光針 機構(gòu)倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

態(tài)度原創(chuàng)

親子
教育
時尚
健康
公開課

親子要聞

孩子咳嗽的痰,可能對應(yīng)不同的問題

教育要聞

不甘心!從民辦本科到考研上岸頂尖985名校,他拼盡全力逆襲!

女人有沒有品位看看穿搭就知道,這些造型值得借鑒,溫柔高級

干細胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版