10月21日,人工智能公司深度求索在GitHub平台上开源了其最新研究成果——DeepSeek-OCR模型,这一消息迅速在技术社区引发关注。
据介绍,DeepSeek-OCR模型参数量约为30亿,研究团队通过这项技术首次探索了"光学二维映射压缩"在处理长文本上下文时的可行性,为文档智能处理开辟了新路径。

该模型的架构融合了DeepEncoder编码器与DeepSeek3B-MoE-A570M解码器两大核心组件。DeepEncoder能够在高分辨率输入条件下保持低激活状态,实现高压缩比并生成适量的视觉token;解码器则负责将这些视觉token精准地转化为文本信息。
实验数据表明,当文本token数量控制在视觉token的10倍以内时,OCR识别精度可达到97%;即使压缩率提升至20倍,模型准确率仍能维持在60%左右,展现出出色的抗压缩性能。
研究团队强调,这一成果为长上下文压缩技术以及大语言模型的记忆与遗忘机制研究提供了新的思路与方法,对推动多模态智能发展具有重要意义。

论文标题:DeepSeek-OCR: Contexts Optical Compression
项目地址:https://github.com/deepseek-ai/DeepSeek-OCR
论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR
