DeepSeek识图功能全面开放图文交互时代正式开启_AI热点日报

DeepSeek识图功能全面开放图文交互时代正式开启

类型：热点整理2026-05-12

近期，DeepSeek AI 助手在灰度测试中推出的“识图模式”迎来了重要进展。根据大量用户反馈，这项图片理解功能已实现大范围开放，目前绝大多数测试账号都能在输入框上方看到与“快速模式”、“专家模式”并列的新按钮——“识图模式”。不过，该功能目前仍标注为“图片理解功能内测中”，表明其仍处于优化完善阶

近期，DeepSeek AI 助手在灰度测试中推出的“识图模式”迎来了重要进展。根据大量用户反馈，这项图片理解功能已实现大范围开放，目前绝大多数测试账号都能在输入框上方看到与“快速模式”、“专家模式”并列的新按钮——“识图模式”。不过，该功能目前仍标注为“图片理解功能内测中”，表明其仍处于优化完善阶段。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

DeepSeek的识图功能并非简单的OCR文字识别工具。开启该模式后，用户可以直接上传各类图片，让AI模型真正“看懂”图像内容，其能力覆盖视觉理解、信息提取与逻辑推理，远超基础的图文转换范畴。

深度实测：从文物鉴定到代码生成的全场景应用

在实际体验中，DeepSeek的视觉识别能力展现了出色的广度与深度。在基础图像识别方面，它如同一位“AI博物学家”。有用户上传博物馆拍摄的未知文物照片，在启用“深度思考”功能后，模型不仅详细解析了器物的纹理与材质特征，更准确判断出一件玉器属于18世纪清代乾隆时期的“痕都斯坦风格”，展现了深厚的人文知识储备。

面对高难度逻辑推理题目，DeepSeek同样表现出强大的分析能力。例如，在需要空间想象与立体拼合的逻辑题测试中，普通模式下可能出错，但开启深度思考并经过约4分钟推理后，模型能够给出正确的解答步骤与最终答案。

其能力还体现在对网络文化的理解上。上传热门表情包或梗图时，它能准确识别图中人物，甚至解读出宠物表情背后的情绪，精准捕捉网民传播的幽默点。

在生产力场景中，DeepSeek化身为高效的“智能截图解析器”。无论是技术文档截图、复杂UI界面还是完整网页截图，它都能精准提取全部文字信息。更强大的是，它还能根据截图一键还原可交互的HTML代码，完整保留原网页的按钮、链接等交互元素，极大提升了开发与设计效率。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

技术解析：“视觉基元思考”框架如何突破多模态瓶颈

随着识图功能的开放，DeepSeek近期也公布了其多模态模型的技术细节，核心是创新的“Thinking with Visual Primitives”（用视觉基元思考）框架。

传统多模态大模型在处理复杂视觉场景时，常面临“指代模糊”的挑战。模型虽能感知图像，但在后续推理中使用“左侧那个较大的物体”等自然语言描述时，容易因定位不准导致注意力分散，最终影响判断准确性。

DeepSeek的解决方案独具匠心：将点、边界框等代表空间位置的视觉元素，作为“思维基本单元”直接融入模型的推理链条。这相当于为模型配备了“数字手指”，使其在思考过程中能够精确指向目标对象，从而有效解决复杂空间布局中的逻辑难题。

该框架不仅在效果上表现优异，在计算效率上也优势明显。处理一张800×800分辨率图片时，DeepSeek仅需约90个tokens，而GPT、Claude等主流模型处理同等图片则需要870至1100个tokens。在多项计数与空间推理基准测试中，DeepSeek已达到甚至超越行业前沿模型的水平。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

当前能力边界与使用注意事项

当然，作为新上线的视觉功能，DeepSeek识图模式仍存在一定的局限性。综合用户实测反馈，目前主要存在以下几方面不足。

首先是知识更新的滞后性。在某些测试中，模型的推理逻辑完全正确，但因知识库版本限制，最终答案可能出现偏差。例如，识别2025年底发布的最新款手机时，虽然能通过副屏等设计特征推断出系列归属，但仍可能给出错误的具体型号信息。

其次，在处理“统计图中动物数量”、视觉错觉图形等高难度、反直觉题目时，其回答仍存在不确定性。有时经过长时间“深度思考”后，反而可能产生逻辑矛盾或事实幻觉。

最后需要明确的是，当前上线的识图模式核心是视觉理解与分析，尚未集成图像生成、视频内容理解等更广泛的跨模态能力。这意味着，让模型根据文字描述生成图片，或解析视频中的动态内容，目前还无法实现。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

来源：https://tech.ifeng.com/c/8sypexsexmE

DeepSeek

延伸阅读

补充最近整理过的热点入口。