DeepSeek新模型实测：小巧精悍，性能突破业界想象

首页/科技数码/文章详情

DeepSeek新模型实测：小巧精悍，性能突破业界想象

时间：2025-12-06 17:17

就在刚刚，DeepSeek开源了一个3B模型DeepSeek-OCR。虽然体量不大，但模型思路创新的力度着实不小。众所周知，当前所有LLM处理长文本时都面临一个绕不开的困境：计算复杂度是平方级增长的

就在不久前，DeepSeek开源了一款3B规模的文档识别模型DeepSeek-OCR。虽然模型体积不大，但其设计思路的创新性却令人眼前一亮。

众所周知，目前所有大型语言模型处理长文本时都面临着一个棘手问题：计算复杂度呈平方级增长。文本序列越长，所需消耗的算力资源就越多。

面对这一挑战，DeepSeek团队提出了一个巧妙的解决方案。既然一张图像可以容纳大量文字信息，而且占用的Token数量更少，何不将文本直接转换为图像？这就是我们所说的“光学压缩”技术——通过视觉模态为文本信息“减负”。

而OCR技术恰好天然适合验证这个思路，因为它本身就是在完成“视觉→文本”的转换过程，而且其效果可以通过量化指标进行科学评估。

研究数据显示，DeepSeek-OCR的压缩率能够达到惊人的10倍，同时文字识别准确率仍保持在97%以上。

这意味着什么呢？简单来说，原本需要1000个文本Token才能表达的内容，现在仅需100个视觉Token就能完整呈现。即使将压缩率提升到20倍，模型的识别准确率依然维持在60%左右，整体效果相当出色。

在OmniDocBench基准测试中的表现尤为亮眼：

仅使用100个视觉Token，就超越了GOT-OCR2.0的表现；

用不到800个视觉Token，就大幅超越了MinerU2.0的性能。

更令人惊喜的是，在实际应用中，单张A100-40G显卡每天就能生成超过20万页的LLM/VLM训练数据。若扩展到20个计算节点，处理能力更是可以飙升至每天3300万页。

DeepSeek-OCR由两大核心组件构成：

DeepEncoder：负责图像特征提取和压缩处理；

DeepSeek3B-MoE：负责从压缩后的视觉Token中重建原始文本。

让我们重点解析DeepEncoder这部特征编码引擎的工作原理。

它的架构设计十分巧妙，通过将SAM-base和CLIP-large两个模型串联起来，前者专注于“局部注意力”提取视觉特征，后者负责“全局注意力”理解整体信息。

系统中间还加入了一个16倍压缩器，在进入全局注意力层之前大幅削减Token数量。

举例来说，一张1024×1024分辨率的图像，通常会被分割成4096个图像块Token。但经过压缩器处理后，进入全局注意力层的Token数量显著减少。

这样的设计优势在于，既保证了处理高分辨率输入的能力，又有效控制了激活内存的开销。

不仅如此，DeepEncoder还支持多分辨率输入，从512×512的Tiny模式到1280×1280的Large模式，一个模型就能胜任各种应用场景。

目前开源版本支持的模式包括原生分辨率的Tiny、Small、Base、Large四档，还有动态分辨率的Gundam模式，灵活性极高。

解码器采用的是DeepSeek-3B-MoE架构。

虽然模型总参数量只有3B，但采用了Mixture of Experts设计——64个专家中每次激活6个，再加上2个共享专家，实际激活参数量约为5.7亿。这让模型既具备了300亿参数模型的表达能力，又保持了5亿参数模型的推理效率。

解码器的任务是从压缩后的视觉Token中重建出原始文本，这个过程可以通过OCR风格的训练任务被紧凑型语言模型有效学习。

在数据准备方面，DeepSeek团队也是下足了功夫。

他们从互联网收集了3000万页的多语言PDF资料，涵盖约100种语言，其中中英文资料达2500万页。

数据分为两个类别：粗标注直接用fitz从PDF提取，主要训练少数语言的识别能力；精标注则使用PP-DocLayout、MinerU、GOT-OCR2.0等模型生成，包含检测与识别交织的高质量数据。

对于少数语言，团队还设计了“模型飞轮”机制——先用有跨语言泛化能力的版面分析模型做检测，再用fitz生成的数据训练GOT-OCR2.0，然后用训练好的模型反过来标注更多数据，如此循环往复最终生成了60万条样本。

此外还有300万条Word文档数据，主要用于提升公式识别和HTML表格解析能力。

在场景文字识别方面，团队从LAION和Wukong数据集收集图像，使用PaddleOCR进行标注，中英文各1000万条样本。

DeepSeek-OCR不仅能识别文字，还具备“深度解析”能力，只需一个统一的提示词，就能对各种复杂图像进行结构化提取：

图表：金融研究报告中的图表可以直接提取为结构化数据；

化学结构式：识别并转换为SMILES格式；

几何图形：对平面几何图形进行复制和结构化解析；

自然图像：生成密集描述文本。

这种能力在STEM领域的应用潜力巨大，尤其是化学、物理、数学等需要处理大量符号和图形的场景。

论文第一作者Haoran Wei此前曾供职于跳跃星辰，期间发布并开源了GOT-OCR2.0系统。

令人注意的是，DeepSeek团队在论文中还提出了一个有趣的构想——用光学压缩模拟人类的遗忘机制。

人类的记忆会随时间衰退，越久远的事情记得越模糊。DeepSeek团队设想，能不能让AI也具备类似的特性？于是，他们提出了这样的方案：

1. 把超过第k轮的历史对话内容渲染成图像；

2. 进行初步压缩，实现约10倍的Token数量削减；

3. 对于更久远的上下文，继续缩小图像尺寸；

4. 随着图像越来越小，内容也越来越模糊，最终达到“文本遗忘”的效果。

这确实很像人类记忆的衰退曲线：近期信息保持高保真度，久远记忆自然淡化。

虽然这仍是一个早期研究方向，但如果能够实现，对于处理超长上下文将是一个重大突破。

简而言之，DeepSeek-OCR表面上是个OCR模型，实际上是在探索一个更宏大的命题：能否用视觉模态作为LLM文本信息处理的高效压缩媒介？

初步答案是肯定的，7-20倍的Token压缩能力已经充分展现出来。

当然，团队也承认这只是一个开始。单纯的OCR还不足以完全验证“上下文光学压缩”，后续计划开展数字-光学文本交替预训练、“大海捞针”式测试，以及其他系统性评估。

不过无论如何，这在VLM和LLM的进化道路上，又开辟了一条全新的赛道。

回想去年这个时候，大家都在研究怎么让模型“记住更多”。今年DeepSeek却反其道而行之，不如让模型学会“忘记一些”。

确实，AI的进化有时候并不是做加法，而是做减法。小而精，也能玩出大花样，DeepSeek-OCR这个3B小模型就是最好的证明。

AI原生产品日报频道: 前沿科技

来源：https://www.huxiu.com/article/4794527.html

独特视角创新 deepseek AI token ocr ocr文字识别

上一篇英特尔与沙特共商合作，全球半导体迎来区域联动新契机 下一篇九识智能低价中标中邮速递，物流数字化转型前路何在？

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-05-30

美国新格伦火箭静态点火测试中爆炸

美国蓝色起源公司“新格伦”重型运载火箭在肯尼迪航天中心静态点火测试时爆炸，人员安全，原因待查。该火箭高98米、起飞推力1750吨，今年1月刚完成首飞。其着陆器将用于NASA下半年启动的无人登月任务。

科技数码 · 2026-05-30

中科大上海AI实验室推出AI视频多镜头切换防眩晕技术

中国科学技术大学与上海人工智能实验室、浙江大学联合提出Geo-Align框架，利用强化学习纠正AI视频重渲染中镜头运动不准确的问题。通过MapAnything工具精确衡量几何误差作为奖励信号，无需配对的多视角数据即可生成符合指定摄像机轨迹的视频，在多项指标上超越现有方法。

科技数码 · 2026-05-30

江汉二桥幼儿园六一游园会萌娃游戏乐享荆楚美食文化

武汉市汉阳区江汉二桥幼儿园举办“荆楚食光，童嬉食光行”六一游园会，将荆楚美食与食育结合。活动设十多个主题摊位，孩子体验烙煎饼、钓武昌鱼、萝卜赛跑等游戏，在互动中感受家乡文化。家长称赞沉浸式体验让孩子记住湖北名菜，园长表示活动以食启智、传文。

科技数码 · 2026-05-30

惠州移动科技赋能智慧医疗低空新范式

2025年5月23日，惠州市首个低空医疗示范项目正式迎来首航——惠州市第三人民医院低空医疗物资配送项目全面启动。在中国移动广东有限公司惠州分公司（以下简称“惠州移动”）5G-A通感一体技术的支撑下，一条高效稳定的空中运输通道成功建成，医疗物资的转运效率与安全性均实现质的飞跃。此次首航标志着惠州智慧医

科技数码 · 2026-05-30

神舟二十二号飞船返程约5.5小时最新状态公布

神舟二十二号载人飞船已正式踏上返回地球的旅程。今天下午进行的撤离操作极为流畅，在脱离空间站天和核心舱前向对接端口后，飞船迅速进入高度自动化的撤离程序。与交会对接的逻辑相似，此次撤离过程中同样设置了两处短暂的“停泊观察点”——分别位于距空间站组合体19米和200米的位置。在200米停泊点，飞船完成了