DeepSeek多模态技术报告详解 七千倍极致压缩与视觉原语破解指代鸿沟
DeepSeek视觉模式测试曝光:用“视觉原语”思考,13B模型如何挑战GPT-5.4?
编辑 | 林芯
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
出品 | 51CTO技术栈(微信号:blog51cto)
继上周的V4模型发布之后,这周DeepSeek又发新论文了!
本周,论文作者陈小康在X上的一则推文“现在,我们看见你了”,宣布了“DeepSeek的视觉模式正在测试中”。
图片
多模态大模型有一个被长期忽视的致命缺陷:它无法像人类一样,在思考时精确地“指认”画面中的物体。
这可不是简单的“看没看清”问题,而是更深层的“指不指出”问题。模型或许能描述得头头是道,但真要它把描述和画面中那个具体的点对上号,往往就露怯了。
在这篇名为《用视觉原语思考》的论文里,DeepSeek 将这个缺陷命名为“指代鸿沟”,并提出了一种让AI在推理时“边指边想”的全新方法。
结果如何?在多个极度考验空间定位能力的基准测试中,这套方法让一个仅激活13B参数的模型,做到了与GPT-5.4、Claude-4.6等巨头正面较量。而它消耗的算力,仅为其它顶级模型的几十分之一。
为什么顶尖的大模型,连“数数”都数不清?
举个例子,当你问Gemini一张照片里有几只狗时,它可能会“严谨地”列出所有狗的特征,最后却给出一个错误的数字。

图片
问题出在哪里?DeepSeek 的论文给出了核心答案:指代鸿沟。症结并非AI“眼神不好”,而是它一直在用“文字”去执行一个本质上属于“空间”的任务。
想想看,Gemini输出的“左侧后排”这类描述词,听起来精准,但在视觉像素世界里,可能隔着几十甚至上百个像素的距离。当模型最后需要做总结,回溯自己到底指过哪些对象时,文字描述之间那些微妙的、不精确的差别,就很容易导致混乱——两个不同的对象被误认为同一个,或者某个对象直接被彻底漏掉。
反观人类数数,过程直观得多:眼睛锁定位置,手指(或注意力)点向坐标,指一个,数一个,清晰无误。
过去几年,行业在提升模型视觉能力上,几乎都把宝押在了“看得更清”上:追求更高的分辨率、更密集的图像切分、更精细的补丁。这些努力确实成功填平了“感知鸿沟”,让AI能把画面细节看得一清二楚。但一个残酷的现实是:看清楚,并不等于能想清楚。感知的精度,并未自动转化为推理的准确度。
解法:给AI接上一根像人类一样的“手指”
那么,DeepSeek 是如何破解这道难题的?
答案直接而巧妙:将空间标记——也就是边界框和坐标点——直接作为语言的一部分,嵌入到AI的思考流里。研究人员将这两者定义为“视觉原语”,即构成视觉思维的最小单元。
举个例子就明白了:
当被问及一张合照里有多少人时,传统模型的解法是生成“左前排穿红衣的女士”、“中排戴眼镜的男士”等文本描述。
而 DeepSeek 的解法是:看到一个对象,就为它确定一个坐标或框定一个范围。
图片
这套框架根据任务特性,精心设计了两种视觉原语:
边界框:擅长锁定固定物体的边界,用于计数、属性对比、多物体空间推理。因为它明确框定了物体的范围,所以模型可以非常确定地说“就是这一个”。
坐标点:擅长处理抽象的空间引用,比如追踪一条复杂曲线的走向、在迷宫中探索可行路径。一系列连续的点可以构成一条运动轨迹,清晰地告诉模型“从这里移动到了那里”。
实战结果:是骡子是马,拉出来溜溜
聊完了“为什么”和“怎么治”,是时候用数据说话了——这根“手指”到底管不管用,成绩单最直观。
DeepSeek 将自家模型推上擂台,与当前多模态领域的几位头部选手进行了一场正面较量。参赛阵容包括Gemini-3-Flash、GPT-5.4、Claude-Sonnet-4.6,以及Gemma4-31B和Qwen3-VL-235B-A22B-Thinking。
图片
从公布的数据来看,在计数和空间推理这些相对“成熟”的测试科目上,DeepSeek的模型虽然取得了多项第一,但与第二名的差距咬得很紧。然而,在拓扑推理这片“深水区”中,DeepSeek 反而建立起了明显的优势。
计数:在CountQA基准上,GPT-5.4得分48.3,Claude-4.6更是低至34.8。而DeepSeek这个13B的模型拿到了64.9分,与Gemini-3-Flash的66.1几乎持平,稳居第二。在Pixmo-Count(精确匹配)上表现更猛,以89.2分登顶,将Gemini的88.2分挤到了身后。
空间推理:DeepSeek模型表现优异,排名第一或与其他顶级模型持平。
拓扑推理:所有模型在这两项高难度任务上都表现挣扎。迷宫导航的最高分也才66.9,路径追踪更是只有56.7。但就在这个“全员不及格”的赛道上,DeepSeek占据了优势。具体来看,在DS_Maze_Na vigation(迷宫导航)上,Gemini-3-Flash得49.4,GPT-5.4得50.6,Claude-4.6得48.9——基本在50分上下徘徊。而DeepSeek拿到了66.9分。在DS_Path_Tracing(路径追踪)上,DeepSeek得分56.7,而其他模型则在30到46分之间徘徊。
超高性价比
看完成绩,一个非常现实的问题随之而来——性能如此强悍,代价(或者说成本)有多大?
七千倍的极致压缩
一张756×756分辨率的图像,按照标准流程,会先被转换成2916个图像补丁令牌送入大模型。经过内部视觉编码器的3×3压缩,这个数字先被压缩到324个。这已经是个很小的数字了。但真正的杀手锏,来自底层大模型DeepSeek-V4-Flash自带的一项技术——压缩稀疏注意力机制。这项技术在键值缓存中,对视觉令牌又进行了一次4倍的压缩。
图片
最终,一张756×756的高清图,在模型内部只占用了81个KV缓存条目。从原始像素到最终的KV缓存,整体压缩比达到了惊人的7056倍。
更重要的是,七千多倍的压缩,极大节省了算力。
在处理高分辨率图像时,传统模型往往需要消耗成百上千的视觉令牌。以一张800×800的图片为例,在Gemini、GPT、Claude等主流模型上,视觉令牌常常要占用几百甚至上千个KV缓存条目。而DeepSeek的这个模型,只用了大约90个。

训练模式大揭秘:两步走
预训练:
首先,团队进行了大规模的网络数据爬取。
他们从互联网上收集了将近十万个(97984个)与“框定位”相关的数据源——范围从HuggingFace上的目标检测数据集,到各种垂直领域的专业标注库。然后,用一套两阶段的自动过滤流水线进行清洗。
第一阶段,语义审查。利用一个大模型驱动的智能体,自动筛掉三类数据:无意义的机器代码和乱码(比如类别名仅为“0”、“1”这种无法理解的标签)、无法泛化的私有实体(比如“我室友”)、以及标签语义模糊的数据(比如工业质检领域的“OK”和“NG”,或者“完好的苹果”和“完好的电路板”在视觉上毫无关联,却被标成了同一个标签)。
这一轮筛选后,近十万数据源剩下约四万三千个。
第二阶段,几何质量审查。检查标注的几何质量——严重漏标、严重截断和偏移、以及不合理的“巨型框”。这一轮筛选后,剩下三万一千多个高质量数据源。
为实现数据集平衡,我们设计了一种基于类别的采样策略。对于每个数据集中的每个类别,我们随机采样与该类别关联的 N 张图像(如果某类别可用图像总数少于 N,则全部保留)。由于单张图像可能同时属于多个类别,我们在按类别选择后,对聚合集执行全局去重。实践中,我们设定 N = 1,000,最终产生超过 4000 万个高质量样本。
后训练:
预训练让模型具备了通用的多模态先验和基础的视觉原语能力,但后训练需要一个规模虽小但精度极高的“冷启动”数据集。团队选择了最能受益于视觉原语推理(通过框或点)的代表性任务,并围绕四个关键维度设计冷启动数据:计数、空间推理与通用视觉问答、迷宫导航和路径追踪。
计数:将计数任务细分为两种类型:粗粒度计数和细粒度计数。
图片
空间推理与通用视觉问答:在构建冷启动数据时,优先考虑空间推理任务。其假设是,在此处培养的“用视觉原语思考”的能力,将自然泛化到更广泛的VQA场景。数据整理覆盖了自然图像和合成图像两种环境。
图片
迷宫导航:引入一个迷宫导航任务,要求模型判断迷宫的可解性,这需要从根本上理解空间连通性和可达性。
图片
路径追踪:该任务要求模型在交织重叠的线条网络中,追踪一条指定的曲线,并识别它最终到达的端点。此任务被实例化为通过程序生成的、包含纠缠曲线的图像进行线条追踪,其中每条线连接一个唯一标记的起点到一个端点。
图片
冷启动数据就绪后,后训练流水线分四步走:
第一步,专业化SFT(监督微调)。分别训练两个专家模型——一个主攻“框”推理,一个主攻“点”推理。训练数据由70%的通用多模态数据和30%的专项“视觉原语思考”数据混合而成。
第二步,专业化RL(强化学习)。 用强化学习进一步强化两个专家模型。其核心创新在于奖励模型的设计:对于计数任务,采用平滑指数衰减函数,让“差一两个”和“差十个”受到的惩罚不同;迷宫导航的奖励则被拆分为因果探索进度、探索完整性、穿墙违规惩罚、路径有效性和答案正确性五个子项;路径追踪采用双向轨迹评估——正向检查预测点是否偏离真实路径,反向检查真实路径是否被预测轨迹完整覆盖。
第三步,统一RFT(强化微调)。 利用两个专家模型在混合数据池上进行推演,筛选出高价值的训练样本,然后从零开始训练一个能够“框点通吃”的统一模型。
第四步,在线策略蒸馏。 让统一模型同时向两个专家模型学习,使用KL散度损失来拉近与它们输出分布的距离——就像一个学生,同时跟着“框老师”和“点老师”学习本领。

局限与未来
当然,这项技术目前也存在一些局限。首先,受限于输入分辨率,模型在细粒度场景中的表现仍有优化空间,有时会导致输出的视觉原语(框或点)不够精确。
其次,当前“用视觉原语思考”的能力,在一定程度上依赖于显式的触发词来激活,离完全自然、内化的视觉推理还有距离。
第三,拓扑推理本身仍是一项技术深水区。尽管DeepSeek在与其他顶级模型的比较中占据了优势,但这一板块的整体得分仍然薄弱,挑战巨大。
写在最后:每一处都是干货和细节
有网友在X上对 DeepSeek 的技术论文制作了一张梗图,配文是:“DeepSeek的论文里全是细节与干货”。
图片
事实也确实如此,DeepSeek 每一次论文的发表,似乎都在为AI圈带来新的思考角度和可行路径。
对于论文中提出的“用视觉原语思考”这一新范式,有网友表达了强烈的肯定:“这是一种犀利的方法,将语言扎根于视觉之中。将这些空间标记作为最小的思维单元交织在一起,感觉像是一大进步。”
图片
各位技术同仁,如何看待 DeepSeek 这次在视觉模式上的新探索?
相关攻略
2026年4月8日,DeepSeek正式推出了其核心功能更新——模式分层系统。用户现在可以根据需求,在“快速模式”和“专家模式”之间灵活切换。快速模式响应速度极快,并支持图片识别与文件文字提取,完美适配日常对话与轻量级任务;而专家模式则专为攻克复杂的专业难题设计,在信息处理深度与逻辑推理效率上优势显
SAP物料数据常存在分类错误、描述不规范等问题,影响运营效率与合规。通过引入规则引擎与AI治理体系,系统可自动纠错、补全字段并挖掘业务规则。实施分为数据准备、试点验证和全面推广三阶段,最终使错误率降至1%-3%,运营成本降低30%-50%。
2026年4月8日,国内大模型赛道迎来一个值得玩味的更新:DeepSeek正式向网页端和App端用户推送了全新的对话界面。这次更新的核心,是用“快速模式”与“专家模式”的双选项,取代了原先单一的默认对话模式。其中,快速模式支持文件上传与图片文字识别,最多能同时处理50个文件;而专家模式的实测表现则相
2026年4月,DeepSeek创始人梁文锋正式宣布,新一代旗舰大模型DeepSeek V4将于当月下旬发布。这一消息明确了发布时间线,为国内AI开发者与关注者带来了确切期待。 事实上,在官方发布公告前,关于DeepSeek V4模型的技术猜测已在社区热议数月。作为以卓越代码生成能力和高性价比著称的
最近,DeepSeek创始人梁文锋的一则消息,在国内AI圈激起了不小的涟漪。新一代旗舰大模型DeepSeek V4的发布日期,被正式锚定在2026年4月下旬。这不仅仅是一次常规的版本迭代,其背后透露的几个关键信息——万亿级参数、百万级上下文窗口,尤其是首次与华&为昇腾等国产芯片的深度适配——预示着国
热门专题
热门推荐
5月11日,一则关于Windows 11测试版隐藏功能“低延迟配置文件”的消息,在科技圈引发了广泛关注与讨论。 该功能的核心机制非常直接:当用户执行高优先级交互操作,例如点击启动应用程序、呼出开始菜单或右键菜单时,系统会瞬间将CPU频率提升至最高状态,并维持1到3秒。其设计目标清晰——显著降低系统响
近期,一份来自数码行业的销售统计报告引发了广泛关注。根据知名科技博主“RD观测”披露的数据,截至2026年第18周,iPhone 17系列在中国市场的累计设备激活量已接近3000万台,具体数字约为2919 09万台。 回顾该博主此前发布的追踪记录,可以看出iPhone 17系列的增长趋势相当稳定。数
注册库币KuCoin时,姓名一致性是KYC流程中最常见的卡点。用户需确保注册姓名与身份证件完全一致,包括中文汉字、拼音格式及顺序。常见的错误包括使用昵称、大小写不当、拼音空格问题以及多音字选择错误。仔细核对并遵循平台指引,能有效避免审核失败,顺利完成身份验证。
你的iPad已经陪伴你多久了?三年、五年,还是更久?这个看似简单的问题,恰恰揭示了一个令苹果自身都感到困扰的行业现实。 尽管iPad在全球平板电脑市场中长期占据主导地位,市场优势看似稳固,但其整体销量下滑的趋势却日益明显。一个有趣的现象是,它面临的最强劲对手并非来自安卓阵营,而是那些依然性能可靠、至
刷机是为手机重装系统,主要有卡刷和线刷两种方式。卡刷通过Recovery模式进行,线刷则需进入Fastboot模式并连接电脑使用专业工具。以OPPOA91为例,具体操作应参考官方指引。选择工具时需关注资源库、教程及智能化程度,掌握原理并借助合适工具即可顺利完成刷机。





