DeepSeek识图功能正式上线开启图文交互新体验

时间：2026-05-11 06:17

DeepSeek近期开放“识图模式”，具备强大的图片理解与分析能力，能准确识别文物细节、解答空间推理题、理解网络梗图情绪，并从截图提取文字生成代码。其采用“视觉原语思考”框架，融入空间推理链，显著提升处理效率与精度。但该模式目前存在知识库更新滞后等问题。

近期，DeepSeek 灰度测试已久的“识图模式”已面向广大用户全面开放。现在，绝大多数测试账号都能在输入框上方，看到与“快速模式”、“专家模式”并列的这个全新功能按钮。这并非简单的图片文字提取，而是标志着 DeepSeek 正式具备了视觉感知与图像深度理解的核心能力。

那么，这项新功能在实际应用中的表现究竟如何？根据大量用户实测反馈，其能力覆盖范围相当广泛，展现出多场景应用的潜力。

从“数字博物学家”到“智能截图解析器”

在基础图像识别领域，它堪称一位“数字博物学家”。有用户上传了一张在博物馆拍摄的未知文物照片，开启“深度思考”模式后，模型不仅细致描述了其纹饰特征与材质质感，更准确推断出该玉器属于18世纪清代乾隆时期的“痕都斯坦风格”，展现了深厚的文化背景知识。

面对需要复杂逻辑的智力题目，它的硬核推理能力同样出色。例如，一项要求在大脑中拼合三维立方体的高难度空间推理测试，若不开启思考模式，模型容易出错；但一旦启动深度思考，经过数分钟的缜密“推演”，最终能够得出准确答案。

其出色的“网感”与流行文化理解力也令人印象深刻。上传时下热门的表情包或网络梗图，它能精准识别合影中的特定人物（例如从一张合照中同时准确区分出前总统特朗普与动漫角色鲁路修），甚至能解读出图片中小猫的微妙情绪，精准捕捉到网民传播的笑点与语境。

在生产力场景中，它还能扮演高效的“智能截图解析器”。无论是包含代码片段的技术文档截图，还是复杂的UI界面设计稿或完整网页截图，它都能准确解析并提取全部文本信息。更强大的是，它能够根据解析结果，一键反向生成可交互的HTML代码，甚至将原网页中的功能按钮和跳转链接都高度还原。

“边思考边定位”的核心技术突破

强大能力的背后是底层技术的革新。随着识图模式上线，DeepSeek 也公布了其多模态模型的技术细节，其核心是一种名为“Thinking with Visual Primitives”（基于视觉原语思考）的创新框架。

传统多模态大模型在处理信息密集的复杂图片时，常面临“指代鸿沟”的挑战：模型虽能“看到”图像元素，但在推理过程中，若使用“左边那个大的”这类模糊的自然语言描述来构建逻辑链，极易因指代不精确导致注意力分散，最终得出错误结论。

DeepSeek 的解决方案非常巧妙：它将点、边界框等代表空间位置的视觉元素，直接作为“思维的基本单元”融入模型的推理链条。这相当于模型在思考时，拥有了一个“数字指针”，可以一边推理，一边精确地“指向”图片中的目标物体，从而彻底解决了复杂空间布局下的逻辑指代难题。

这一框架不仅推理高效，对计算资源也极为友好。技术报告显示，处理一张800×800分辨率的图片，DeepSeek 仅需消耗约90个tokens。相比之下，GPT 和 Claude 等其他主流模型处理同等图片，则需要消耗约870至1100个tokens。在多项物体计数与空间关系推理的基准测试中，DeepSeek 的表现也已达到甚至超越了当前前沿模型的水平。

视觉能力初显，仍有优化空间

当然，刚刚学会“睁眼看世界”的 DeepSeek，距离完美还有一段路要走。综合大量用户反馈，目前的识图模式仍存在几处明显的局限性。

首先是知识库更新的滞后问题。在某些测试案例中，模型的推理过程和分析逻辑完全正确，但最终答案却因信息过时而出错。例如，在识别一款2025年底发布的最新款手机时，由于知识库截止于2025年，它虽然能通过副屏等设计细节推断出品牌系列，但给出的具体型号信息仍然是错误的。

其次，在面对“统计图中老虎数量”、视觉错觉图形这类高难度、反直觉的挑战时，其回答仍存在较大的不确定性。甚至偶尔在经历长时间的“深度思考”后，反而产生了更严重的逻辑幻觉，导致最终结论崩溃。

最后需要明确的是，目前上线的识图模式本质上是一个纯视觉理解模块，功能主要集中在静态图片的识别与分析层面。诸如图像生成、视频内容理解或更广义的跨模态交互等高级功能，尚未集成在此次发布中。

来源：https://www.donews.com/news/detail/1/6547988.html

DeepSeek

上一篇三星Galaxy S27或将采用京东方OLED屏幕 下一篇奥迪E7X开启预售全系搭载Momenta L3级辅助驾驶系统

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-07-14

ZCode被外媒盯上，中国模型公司开始抢AI编程入口

编辑 | 王凤枝ZCode最近突然被海外媒体 "发现 "了。7月2日，VentureBeat把ZCode写成Z ai进入AI编程工具市场的一步；Business Insider则抓住了更容易传播的一点：这是一款价格更低的AI编程工具。这个框架容易带出两个误会：ZCode像是刚出现的新产品，也像是又一个 "