DeepSeek开源300亿参数OCR模型:创新光学压缩技术解析
热心网友
20
转载
2025年10月21日,DeepSeek在GitHub平台上正式开源了其最新研究成果——DeepSeek-OCR模型。这一模型拥有约30亿参数规模,是研究团队在“光学二维映射压缩”技术方向上,针对长文本上下文处理问题进行的首次系统性探索。
DeepSeek-OCR的核心架构由两部分组成:DeepEncoder编码器与DeepSeek3B-MoE-A570M解码器。其中,DeepEncoder能够在高分辨率图像输入条件下保持较低的激活水平,实现高效的视觉信息压缩,并生成数量适中的视觉token;解码器则基于这些视觉token,精准还原为可读文本。
实验结果表明,在文本token数量不超过视觉token十倍的情况下(即压缩率低于10倍),模型的OCR识别准确率可达97%;即使将压缩率提升至20倍,识别准确率仍能保持在60%左右,展现出较强的鲁棒性。
研究团队指出,该模型不仅验证了光学压缩技术在长上下文处理中的可行性,也为大语言模型在记忆机制、信息遗忘与高效存储方面的理论研究提供了新的技术路径和实验依据。
相关论文题为DeepSeek-OCR: Contexts Optical Compression,项目代码及模型已公开发布,研究资料可通过指定学术平台获取。
免责声明:
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
热门专题

刀塔传奇破解版无限钻石下载大全
2025-08-05

洛克王国正式正版手游下载安装大全
2025-08-05
最新APP
热门推荐

Gate io 邀请注册奖励计划:邀请好友,共享收益! 想必大家都知道,在数字资产的世界里,信息就是金钱。而一个靠谱的交易平台,更是你驰

从Mt Gox事件看今天2014年,Mt Gox交易所的倒闭,对于当时的比特币世界来说,无疑是一场巨大的地震。 超过85万枚比特币的丢失,不仅让无数