就在DeepSeek-V4震撼发布并引发行业广泛关注的短短五天后,官方正式启动了多模态识图功能的灰度测试。这标志着其多模态能力已从概念走向实践,进入了实质性的应用验证阶段。无论是移动端App还是网页版界面,输入栏都悄然新增了一个“识图模式”入口,旁边清晰地标注着“图片理解功能内测中”。这一步,完成了从纯粹的文本与代码交互,向全面视觉信息理解的关键跨越,为用户提供了更直观的AI交互体验。
那么,DeepSeek的识图功能实际体验究竟如何?从初步测试来看,它在基础的图像识别与画面描述任务上表现相当出色。面对包含复杂人物、环境构图乃至专业摄影细节的图片,模型能够生成还原度极高的描述文本,细节捕捉能力令人印象深刻。更值得关注的是,当开启“思考模式”后,模型展现出了深度的逻辑推理与分析潜力。例如,面对一件文物或艺术品的图片,它能够根据其视觉特征,准确地推导出背后的艺术风格、文化内涵与可能的历史时期。此外,对于图片中嵌入的文字信息(OCR)提取,以及结合画面进行的场景分析与判断,其准确度也已达到行业的主流水平,展现了强大的多模态融合能力。
当然,任何新功能在初期都会面临挑战与优化空间。测试也揭示出,在面对一些极端视觉干扰或复杂图像时,该模块仍有进步空间。例如,在处理经过碎块化、反色、高噪点等处理的抗干扰图像时,模型的识别稳定性会受到影响。在需要精确元素计数或进行复杂图形逻辑推理(如图表分析、流程图解读)的任务中,虽然模型会展现出类似“逐步推理”的思考过程,但在最终结果的准确率与响应效率上,仍有提升的余地。另外,对于市面上最新出现的产品、logo或特定实体,其识别能力目前仍受限于大模型知识库固有的更新周期,这是行业普遍面临的挑战。
从行业竞争与AI发展趋势分析,此次上线的功能,目前更接近于一个挂载在强大文本主干模型之上的高效视觉理解模块。其核心目的,是通过灰度测试来收集真实用户反馈,验证整个多模态技术链路的通畅性、稳定性与实用性。随着DeepSeek视觉补丁的快速迭代,国产大模型在多模态原生赛道上的竞争焦点,正悄然从单纯的“参数规模”比拼,转向更综合、更注重用户体验的“全场景感知”与“复杂任务解决”能力建设。这次内测,不仅补上了DeepSeek产品功能矩阵的一块核心短板,为用户打开了图文并茂的交互新窗口,更释放出一个强烈的行业信号:其真正的、深度融合的原生多模态大招,可能已经进入了最后的筹备与冲刺阶段,未来值得期待。
