首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepSeek视觉推理首创因果流,性能超越Gemini再夺第一

DeepSeek视觉推理首创因果流,性能超越Gemini再夺第一

热心网友
46
转载
2026-01-27


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:定慧 好困

【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。

DeepSeek又双叒叕更新了!

这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2。


还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。

这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!


DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。

当然,按照DeepSeek的惯例,Paper、Code、Model全开源!


项目地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2

模型下载:

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

论文地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。

这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。

DeepSeek-OCR2

视觉因果流

DeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。

这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。


这显然与人类的视觉习惯背道而驰。

人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。

为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。

它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。

DeepEncoder V2架构详解

DeepEncoder V2主要由两部分组成:

1. 视觉分词器(Vision Tokenizer)

沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。


2. 作为视觉编码器的LLM

这里DeepSeek使用了一个Qwen2-0.5B模型。

它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。


关键的创新点在于注意力掩码(Attention Mask)的设计:


视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。

而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。

通过这种设计,DeepEncoder V2实现了两级级联的因果推理:

编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。

这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。

Token更少,精度更高

实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。

在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。


特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。

这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。

在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。

在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。



不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。

DeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。


这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。

迈向真正的多模态统一

DeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。

这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。

未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。

DeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。

DeepSeek将继续探索,向着更通用的多模态智能进发。

参考资料:

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2


来源:https://www.163.com/dy/article/KK9RC3IA0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里Qwen3.5-Omni发布:多模态能力全面超越Gemini 3.1 Pro
科技数码
阿里Qwen3.5-Omni发布:多模态能力全面超越Gemini 3.1 Pro

3月30日,阿里发布千问新一代全模态大模型Qwen3 5-Omni,在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3 1 Pro,成为目前全球最强的全模态大模型

热心网友
03.30
UBC研究揭秘AI视觉模型盲区:选择性失明现象解析
科技数码
UBC研究揭秘AI视觉模型盲区:选择性失明现象解析

这项由英属哥伦比亚大学、加州大学伯克利分校和Vector人工智能研究所联合开展的突破性研究发表于2026年3月的计算机视觉领域顶级会议,论文编号为arXiv:2603 19203v1。研究团队通过深

热心网友
03.30
模塑申城语料普惠计划2.0:转向“拼数据”,规模将超10PB
科技数码
模塑申城语料普惠计划2.0:转向“拼数据”,规模将超10PB

“语料数据正成为人工智能发展的重要胜负手。”3月28日,在2026全球开发者先锋大会(GDPS)“语料筑基、智生时代”主题论坛上,上海市经济和信息化委员会副主任潘焱指出,当前人工智能发展正在加快进入

热心网友
03.29
Meta开源TRIBE v2模型:精准预测人脑多模态反应
科技数码
Meta开源TRIBE v2模型:精准预测人脑多模态反应

IT之家 3 月 28 日消息,科技媒体 The Decoder 昨日(3 月 27 日)发布博文,报道称 Meta 基础人工智能研究团队(FAIR)开源全新 AI 模型 TRIBE v2,可精准预

热心网友
03.28
一口气发布三大王炸模型!昆仑万维公布2026年AGI战略蓝图
AI
一口气发布三大王炸模型!昆仑万维公布2026年AGI战略蓝图

编辑|杜伟就在 27 日下午,在火热进行中的 2026 中关村论坛上,一家国产头部 AI 厂商引爆了全场!昆仑万维,这家 2024 年便已「All in AGI 与 AIGC」的实力玩家,亮出了其实

热心网友
03.28

最新APP

史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28

热门推荐

vivo Pad6 Pro发布:首款4K原彩屏配骁龙8,售4499元起
网络安全
vivo Pad6 Pro发布:首款4K原彩屏配骁龙8,售4499元起

3月30日消息,今晚除了手机之外,vivo还发布了全新的旗舰平板——vivo Pad6 Pro。行业首发13 2英寸4K原彩屏,分辨率3840×2160,347PPI,支持1-144Hz LTPS自

热心网友
03.30
WPS表格提取括号内容:3步掌握MID函数实战用法
电脑教程
WPS表格提取括号内容:3步掌握MID函数实战用法

WPS表格中提取括号内容有四种方法:一、单对英文小括号用FIND+MID;二、中英文括号通用需SUBSTITUTE预处理;三、多对括号取最后一对需REVERSESTRING反向查找

热心网友
03.30
聚焦AI文创与跨境,“数智苏豪”新街口OPC社区启幕
科技数码
聚焦AI文创与跨境,“数智苏豪”新街口OPC社区启幕

3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌

热心网友
03.30
1.9亿年薪背后:又一位车企CEO薪酬为何大幅上涨?
科技数码
1.9亿年薪背后:又一位车企CEO薪酬为何大幅上涨?

电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末

热心网友
03.30
美议员为何急于拉黑中国机器人却暗留后门?
科技数码
美议员为何急于拉黑中国机器人却暗留后门?

白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党

热心网友
03.30