游乐游手机版
首页/科技数码/文章详情

DeepSeek-OCR+2发布:识别精度提升3.73%,高效解析复杂文档

时间:2026-01-27 15:01
IT之家 1 月 27 日消息,DeepSeek 今日公布了其最新一代文档识别模型 DeepSeek-OCR 2。很显然,该模型是在 DeepSeek-OCR 的基础上升级而来,核心变化集中在视觉编

据 IT 之家 1 月 27 日消息,DeepSeek 今日正式发布新一代文档识别模型 DeepSeek-OCR 2。这款模型显然是 DeepSeek-OCR 的升级版本,其核心改进聚焦在视觉编码器的架构设计上。

研究团队提出了一种名为 DeepEncoder V2 的新型编码器结构。这项技术突破源于对传统视觉语言模型处理方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。


在传统的视觉语言模型中,图像通常会被分割为若干视觉 token,并按照从左到右、从上到下的固定网格顺序输入模型处理。这种方式虽然实现简单,但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的做法并不一致。

DeepSeek 论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明确的逻辑先后关系,仅仅依赖空间顺序可能会限制模型对内容结构的理解能力。

DeepSeek-OCR 2 的改进重点在于引入“视觉因果流”的概念。在 DeepEncoder V2 中,研究团队用一种类似语言模型的结构替代了原先基于 CLIP 的视觉编码模块,并在编码器内部引入可学习的“因果流查询 token”。这些查询 token 通过定制化的注意力机制,在保留视觉 token 全局双向注意力的同时,自身采用因果注意力,只能访问已有信息,从而在编码阶段对视觉 token 的顺序进行动态重排。最终,只有经过因果重排后的查询 token 会被送入后续的语言模型解码器,用于生成识别结果。

在整体架构上,DeepSeek-OCR 2 仍然沿用了编码器 — 解码器的基本范式。图像首先经过一个视觉 tokenizer,被压缩为较少数量的视觉 token,再由 DeepEncoder V2 进行语义建模和顺序重组,最后交由一个基于混合专家架构(MoE)的语言模型解码。

DeepSeek 论文指出,该设计在不显著增加解码负担的前提下,将单页文档所使用的视觉 token 数量控制在 256 到 1120 之间,与前代模型及同类系统的资源开销保持在相近水平。

在实验评估方面,研究团队选用了 OmniDocBench v1.5 作为主要测试基准。该基准涵盖多种类型的中英文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。

测试结果显示,在视觉 token 上限更低的情况下,DeepSeek-OCR 2 的整体得分达到 91.09%,相比 DeepSeek-OCR 提升了 3.73%。其中,与文档阅读顺序相关的编辑距离指标下降较为明显,显示模型在处理文档逻辑结构方面取得了改进。

IT 之家注意到,论文还给出了模型在实际应用场景中的表现对比。在在线 OCR 服务和批量 PDF 预处理等生产环境中,由于缺乏人工标注作为参考,研究团队以输出重复率作为质量指标。结果显示,DeepSeek-OCR 2 在这两类数据上的重复率均低于前代模型,表明其在真实数据分布下具有更稳定的输出表现。

来源:https://www.163.com/dy/article/KK9LNO970511B8LM.html
上一篇天猫2026超级新品盛典:引领NEWty新风尚 下一篇抖音电商字节跳动公益入驻颐和园落地非遗市集
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。