2026 年 1 月 27 日,DeepSeek 正式開源 OCR 專用模型 DeepSeek-OCR 2 并發(fā)布技術(shù)報(bào)告。作為初代版本的重磅升級,該模型憑借編碼器核心革新實(shí)現(xiàn)視覺理解模式突破,讓 AI 看圖讀文件的邏輯貼合人類閱讀習(xí)慣,在復(fù)雜文檔處理領(lǐng)域取得端到端 SOTA 成績,也為 VLM(視覺語言模型)架構(gòu)探索提供新方向。
與傳統(tǒng) OCR 模型左上到右下的機(jī)械掃描式閱讀不同,DeepSeek-OCR 2 核心升級 DeepEncoder V2 編碼器,棄用 CLIP 編碼器并替換為 LLM 風(fēng)格架構(gòu),創(chuàng)新引入因果流查詢機(jī)制。模型可先全局觀察圖像,再根據(jù)語義對視覺 token 動(dòng)態(tài)重排序,擺脫固定線性順序限制,能更好理解復(fù)雜布局、公式與表格,適配學(xué)術(shù)論文、表單等多元文檔場景。同時(shí),通過窗口注意力實(shí)現(xiàn) 16 倍視覺 token 壓縮,在降低計(jì)算和顯存開銷的同時(shí),保留完整的局部與中尺度視覺信息,形成編碼器語義排序、解碼器自回歸生成的兩級級聯(lián)因果推理流程。
性能方面,在文檔理解基準(zhǔn)測試 OmniDocBench v1.5 中,該模型斬獲 91.09% 的得分,在訓(xùn)練數(shù)據(jù)和編碼器未變的前提下,較初代提升 3.73%,為端到端 OCR 模型 SOTA 水平;1120 視覺 token 預(yù)算下,其文檔解析編輯距離低至 0.100,優(yōu)于 Gemini-3 Pro 的 0.115,印證高性能與高 token 壓縮率兼具的優(yōu)勢,閱讀順序編輯距離也從 0.085 降至 0.057,類人閱讀邏輯優(yōu)化效果顯著。
模型訓(xùn)練采用編碼器預(yù)訓(xùn)練、查詢增強(qiáng)、解碼器專業(yè)化三階段策略,凍結(jié)編碼器后僅優(yōu)化 3B 參數(shù) MoE 解碼器,實(shí)現(xiàn)相同計(jì)算量下數(shù)據(jù)吞吐量提升。目前模型在超高密度文本的報(bào)紙場景識別效果仍有短板,可通過增加局部裁剪、補(bǔ)充訓(xùn)練樣本改善。
據(jù)悉,DeepSeek-OCR 2 已完全開源,兼具研究與實(shí)用雙重價(jià)值,既可作為新型 VLM 架構(gòu)探索載體,也能生成高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)服務(wù)大語言模型訓(xùn)練。研發(fā)團(tuán)隊(duì)表示,核心的 DeepEncoder V2 架構(gòu)具備演進(jìn)為統(tǒng)一全模態(tài)編碼器的潛力,未來有望實(shí)現(xiàn)文本、語音、視覺等多模態(tài)內(nèi)容統(tǒng)一處理,為多模態(tài) AI 研究開辟新路徑。
網(wǎng)站首頁 | 公司簡介 | 加入我們 | 聯(lián)系我們 | 虛擬主機(jī) | 無錫網(wǎng)頁設(shè)計(jì) | 域名注冊
無錫企業(yè)做網(wǎng)站模版 | 無錫做網(wǎng)站 | 無錫企業(yè)網(wǎng)站建設(shè)|先舟erp| 無錫不銹鋼加工廠|軟瓷
版權(quán)所有:無錫世融網(wǎng)絡(luò)科技有限公司 Copyright?2010 蘇ICP備10231109號-3 ICP電信經(jīng)營許可證:蘇B2-20100211