Deepseek靠OCR逆袭:MAU反超豆包的背后突围
随着人工智能领域的竞争日渐升温,DeepSeek与豆包作为两大面向个人用户的AI应用巨头,备受市场瞩目。近期,DeepSeek在工具模型方向有了新的突破,研究团队于Hugging Face和GitHub平台推出并开源了DeepSeek-OCR模型。该模型参数规模约为3B,创新性地采用了“视觉-文本压缩”技术方案,文档识别效率显著超越传统OCR系统,为DeepSeek在工具型模型领域的版图补上了关键一环。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
DeepSeek-OCR的核心创新在于其“视觉-文本压缩”方案。常规情况下,大型语言模型执行OCR任务时处理成本高昂,处理的文字单元数量越多,计算量便呈现二次方增长;传统OCR系统若要识别单页文档,往往需要处理数千个文字标记。而DeepSeek-OCR的工程团队独辟蹊径,借助视觉语言模型,在语义层面对图像中的文字信息进行压缩,将原本需要大量文字标记表达的内容,转化为数量更少、语义密度更高的视觉标记,从而大幅降低了整体运算开销。在OmniDocBench测试中,仅使用100个视觉标记的DeepSeek-OCR,在识别准确率上超越了需用256个标记的GOT-OCR+2.0;在标记数量少于800的情况下,也同样击败了每页需超过6000个标记的MinerU+2.0。
该模型还支持“深度解析模式”,能够直接将财务报表等图像数据转化为结构化信息,并自动生成对应的Markdown表格与图片。这意味着包含数据、曲线、图注的财报截图,不再需要人工复制粘贴或二次整理,系统便能够还原出可直接编辑的分析稿格式。其系统由负责图像理解的DeepEncoder与基于DeepSeek-3B-MoE架构的文本生成模块共同构成。DeepEncoder模块包含约3.8亿参数,专门负责解析图像并生成压缩后的视觉特征;文本生成部分则激活5.7亿个活跃参数,依据这些视觉特征生成高精度的文字描述。据内部测试,DeepSeek-OCR在10倍压缩率下解码准确率可达97%,即便压缩至20倍亦可维持60%的准确度。系统只需为大语言模型提供图像压缩后对应的极少量token,便能表征整篇文档内容。
然而在个人用户市场,DeepSeek近期遭遇了豆包的强劲反超。根据QuestMobile披露的数据,2025年8月,豆包月活跃用户数约为1.57亿,环比增长约6.6%;同期DeepSeek月活用户约为1.43亿。这意味着豆包经历了两个季度的沉寂后,重新夺回了国内个人AI应用市场的领先地位。
豆包的崛起与其生态优势及用户触达策略密不可分。与DeepSeek不同,豆包定位为服务所有“大众用户”、强调场景化体验,在语音、图像、社交分享等方向均拓展了模型能力,降低了用户的使用门槛。一方面,豆包借助抖音等字节系社交平台的分发能力,通过在视频内容中投放广告,吸引了大量新用户并实现转化。另一方面,豆包在立项之初便瞄准了最广泛的受众,产品体验覆盖面更宽。“豆包”这个名称朗朗上口,应用的品牌标识设计也更贴近拟人化风格,人格化交互能力是其品牌建设的重要环节。随豆包一同公测的对话助手“小宁”,展现了作为陪伴型智能体的亲和力。凭借字跳在语音、视频生成等多个领域构建的模型矩阵,豆包支持文本、语音、图像、视频生成等多模态功能,界面逻辑清晰,新手用户上手迅速。
从产品更新节奏来看,DeepSeek于2024年底发布V3模型,今年5月推出R1-0528版本,针对R1模型的幻觉问题进行了优化。但在后续,尽管多次传出新版本即将发布的消息,传闻中的R2却迟迟未见正式亮相。在本次OCR模型发布之前,DeepSeek下半年的主要动作是更新了V3.1模型,新增了对混合推理模式的支持,以及长达128K tokens的上下文输入窗口。而在月活榜单被豆包反超后,DeepSeek也未在应用交互或生态建设上做出重大调整,似乎仍在沿用类似ChatGPT的问答式交互逻辑,坚定走在“模型即产品”的道路上。
在战略方向上,DeepSeek始终坚持“技术深耕”的路线。此次推出的DeepSeek-OCR模型展现了其在大型语言模型领域的技术探索实力。不过,面对生态体系更为庞大的竞争对手,DeepSeek当前的产品理念与风格,对用户规模转化的效率仍有待验证。即便被豆包超越,DeepSeek依然坐拥1.5亿月活用户,在个人用户市场已打下坚实基础。在技术指标上,DeepSeek也一直延续超大规模参数模型策略,其V3系列模型总参数量高达671B,而同期其他主流开源大模型,如智谱的GLM-4.5参数量为355B。
DeepSeek-OCR的发布不仅在个人工具类应用场景展现出良好前景,还可能成为大模型训练的“催化剂”。据了解,DeepSeek-OCR每天可在单张Nvidia A100 GPU上高效处理超过20万页的数据资料。若配置20台服务器,每台搭载8颗A100处理器,其日处理量将跃升至每日3300万页。如此高效的数据吞吐能力,可以有效帮助构建其他大模型的训练数据集,为专注于超大规模参数路线的AI企业提供更高效的数据解决方案。
展望未来,DeepSeek若要在激烈竞争中与豆包形成制衡,生态建设将成为需要重点考量的因素。以OpenAI为例,进入2025年后仍在积极拓展各领域生态能力,例如参与AI玩具等硬件方案的研究,其Sora2视频生成平台也通过更直观的用户界面,为DeepSeek提供了有价值的参考范例。对DeepSeek而言,除了加速下一代模型的迭代外,如何利用好庞大的用户基础同样至关重要。由于模型产品路线不同,短期内DeepSeek显然无法复制字跳/OpenAI的生态策略,但在个人端生态上能否走出差异化路径,将决定其能否再次向豆包发起冲击。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





