DeepSeek OCR 2.0发布:首创视觉因果流架构,准确率显著提升

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
2026年1月27日,DeepSeek正式推出了新一代文档识别模型DeepSeek-OCR 2。该模型在前代基础上,通过对视觉编码器结构的深度优化,显著提升了文字识别的准确性与鲁棒性。
本次升级的核心在于全新设计的视觉编码器DeepEncoder V2。该架构摒弃了传统按固定网格顺序逐块处理图像的方式,转而依据图像内容的语义逻辑,动态决定视觉信息的处理优先级。这种“视觉因果流”机制模拟人类阅读时的跳跃式理解过程,使模型在执行识别任务前,先对画面中的图文元素进行智能排序与组织。
技术实现上,研发团队以类语言模型结构替代原有的CLIP风格视觉编码模块,并在编码器内部嵌入可学习的“因果流查询token”。该设计融合两种注意力机制:一方面,原始图像特征通过双向注意力实现全局上下文建模;另一方面,查询token借助因果注意力逐步构建语义依赖关系,从而完成对视觉单元的动态重排。最终,仅经语义排序后的查询token被送入基于混合专家架构的语言模型解码器,完成高精度文本识别。整个流程在计算资源消耗与上一代模型基本持平的前提下,实现了识别能力的实质性跃升。
基准测试结果表明,在OmniDocBench v1.5评测中,DeepSeek-OCR 2综合得分为91.09%,较前代提升3.73个百分点;阅读顺序准确率同步提高,编辑距离由0.085下降至0.057。在真实场景应用中,该模型亦展现出更强的适应性:在线用户上传的日志类图像识别重复率从6.25%降至4.17%,批量处理PDF文档的重复率由3.69%降至2.88%。尤其在布局复杂、格式多变的文档中,其结构解析能力与系统运行稳定性均获得明显增强。
热门专题
热门推荐
任天堂吉祥物马里奥的宿敌酷霸王解析:为何这位反派深受喜爱?宫本茂通过电影揭示角色深层魅力 谈到任天堂的经典形象,马里奥与酷霸王这对宿敌的组合可谓深入人心。一边是永不放弃拯救碧姬公主的英雄,另一边则是不断制造混乱的恶棍,故事框架虽简单却历经三十余年依然人气不减。但仔细品味,酷霸王这个角色颇为值得玩味:
洛克王国神圣狮鹫图鉴:揭秘悬崖之王的飞行奥秘 当冒险者们踏上洛克王国的高耸悬崖,便能感受到猛烈的疾风。呼啸而过的气流远超平地的强度,然而正是这片常年不息的风域,成为了狮鹫一族最卓越的自然训练场。在这个独特的环境中,它们锤炼出了对抗强风与复杂气流的顶级飞行技巧,其背后的生存智慧,实在值得探险者们深入探
4月2日消息,三星电子最新表示,自2019年起连续七年位居全球第一。根据三星援引的市场调研公司IDC数据,2025年三星电子在全球游戏电竞显示器市场的收入占比达到18 9%。从销量来看,2025年三
内存市场因为人工智能高带宽内存的蓬勃需求而陷入供应紧张,传统内存也因大量产线被占用而供不应求。在这种大背景下,苹果似乎采取了一种争议性的商业手段,来进一步扩大其市场份额。据韩国消息人士透露,苹果公司
4月6日消息,近期内存市场风声鹤唳,现货价格小幅回调就引发了内存价格崩盘”的论调,甚至带动相关个股集体下跌,但行业龙头三星却完全不为所动,反而按计划继续上调DRAM内存产品价格,用实际行动打破了市场





