Deepseek靠OCR逆袭：MAU反超豆包的背后突围

时间：2025-10-21 14:09

在AI领域竞争愈发激烈的当下，DeepSeek与豆包这两大C端AI应用的市场角力备受关注。近期，DeepSeek在工具模型领域有了新动作，其团队在Hugging Face与GitHub平台上线并开源

随着人工智能领域的竞争日渐升温，DeepSeek与豆包作为两大面向个人用户的AI应用巨头，备受市场瞩目。近期，DeepSeek在工具模型方向有了新的突破，研究团队于Hugging Face和GitHub平台推出并开源了DeepSeek-OCR模型。该模型参数规模约为3B，创新性地采用了“视觉-文本压缩”技术方案，文档识别效率显著超越传统OCR系统，为DeepSeek在工具型模型领域的版图补上了关键一环。

DeepSeek-OCR的核心创新在于其“视觉-文本压缩”方案。常规情况下，大型语言模型执行OCR任务时处理成本高昂，处理的文字单元数量越多，计算量便呈现二次方增长；传统OCR系统若要识别单页文档，往往需要处理数千个文字标记。而DeepSeek-OCR的工程团队独辟蹊径，借助视觉语言模型，在语义层面对图像中的文字信息进行压缩，将原本需要大量文字标记表达的内容，转化为数量更少、语义密度更高的视觉标记，从而大幅降低了整体运算开销。在OmniDocBench测试中，仅使用100个视觉标记的DeepSeek-OCR，在识别准确率上超越了需用256个标记的GOT-OCR+2.0；在标记数量少于800的情况下，也同样击败了每页需超过6000个标记的MinerU+2.0。

该模型还支持“深度解析模式”，能够直接将财务报表等图像数据转化为结构化信息，并自动生成对应的Markdown表格与图片。这意味着包含数据、曲线、图注的财报截图，不再需要人工复制粘贴或二次整理，系统便能够还原出可直接编辑的分析稿格式。其系统由负责图像理解的DeepEncoder与基于DeepSeek-3B-MoE架构的文本生成模块共同构成。DeepEncoder模块包含约3.8亿参数，专门负责解析图像并生成压缩后的视觉特征；文本生成部分则激活5.7亿个活跃参数，依据这些视觉特征生成高精度的文字描述。据内部测试，DeepSeek-OCR在10倍压缩率下解码准确率可达97%，即便压缩至20倍亦可维持60%的准确度。系统只需为大语言模型提供图像压缩后对应的极少量token，便能表征整篇文档内容。

然而在个人用户市场，DeepSeek近期遭遇了豆包的强劲反超。根据QuestMobile披露的数据，2025年8月，豆包月活跃用户数约为1.57亿，环比增长约6.6%；同期DeepSeek月活用户约为1.43亿。这意味着豆包经历了两个季度的沉寂后，重新夺回了国内个人AI应用市场的领先地位。

豆包的崛起与其生态优势及用户触达策略密不可分。与DeepSeek不同，豆包定位为服务所有“大众用户”、强调场景化体验，在语音、图像、社交分享等方向均拓展了模型能力，降低了用户的使用门槛。一方面，豆包借助抖音等字节系社交平台的分发能力，通过在视频内容中投放广告，吸引了大量新用户并实现转化。另一方面，豆包在立项之初便瞄准了最广泛的受众，产品体验覆盖面更宽。“豆包”这个名称朗朗上口，应用的品牌标识设计也更贴近拟人化风格，人格化交互能力是其品牌建设的重要环节。随豆包一同公测的对话助手“小宁”，展现了作为陪伴型智能体的亲和力。凭借字跳在语音、视频生成等多个领域构建的模型矩阵，豆包支持文本、语音、图像、视频生成等多模态功能，界面逻辑清晰，新手用户上手迅速。

从产品更新节奏来看，DeepSeek于2024年底发布V3模型，今年5月推出R1-0528版本，针对R1模型的幻觉问题进行了优化。但在后续，尽管多次传出新版本即将发布的消息，传闻中的R2却迟迟未见正式亮相。在本次OCR模型发布之前，DeepSeek下半年的主要动作是更新了V3.1模型，新增了对混合推理模式的支持，以及长达128K tokens的上下文输入窗口。而在月活榜单被豆包反超后，DeepSeek也未在应用交互或生态建设上做出重大调整，似乎仍在沿用类似ChatGPT的问答式交互逻辑，坚定走在“模型即产品”的道路上。

在战略方向上，DeepSeek始终坚持“技术深耕”的路线。此次推出的DeepSeek-OCR模型展现了其在大型语言模型领域的技术探索实力。不过，面对生态体系更为庞大的竞争对手，DeepSeek当前的产品理念与风格，对用户规模转化的效率仍有待验证。即便被豆包超越，DeepSeek依然坐拥1.5亿月活用户，在个人用户市场已打下坚实基础。在技术指标上，DeepSeek也一直延续超大规模参数模型策略，其V3系列模型总参数量高达671B，而同期其他主流开源大模型，如智谱的GLM-4.5参数量为355B。

DeepSeek-OCR的发布不仅在个人工具类应用场景展现出良好前景，还可能成为大模型训练的“催化剂”。据了解，DeepSeek-OCR每天可在单张Nvidia A100 GPU上高效处理超过20万页的数据资料。若配置20台服务器，每台搭载8颗A100处理器，其日处理量将跃升至每日3300万页。如此高效的数据吞吐能力，可以有效帮助构建其他大模型的训练数据集，为专注于超大规模参数路线的AI企业提供更高效的数据解决方案。

展望未来，DeepSeek若要在激烈竞争中与豆包形成制衡，生态建设将成为需要重点考量的因素。以OpenAI为例，进入2025年后仍在积极拓展各领域生态能力，例如参与AI玩具等硬件方案的研究，其Sora2视频生成平台也通过更直观的用户界面，为DeepSeek提供了有价值的参考范例。对DeepSeek而言，除了加速下一代模型的迭代外，如何利用好庞大的用户基础同样至关重要。由于模型产品路线不同，短期内DeepSeek显然无法复制字跳/OpenAI的生态策略，但在个人端生态上能否走出差异化路径，将决定其能否再次向豆包发起冲击。

来源：https://www.itbear.com.cn/html/2025-10/993803.html

上一篇中汽协：9月汽车出口65.2万辆，新能源车同比翻倍 下一篇小米YU7杀入30万级纯电SUV，激战正酣重塑市场格局

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。