重磅工具:视觉语言开源模型DeepSeek-OCR发布,浓缩的不是精华是算力
新闻:DeepSeek发布了视觉语言开源模型DeepSeek-OCR,参数量达300亿,致力于实现对图像和PDF文档的稳健理解。该模型采用类MIT许可证开源协议,已上线HuggingFace平台。同时,DeepSeek还公布了相关代码与技术论文《DeepSeek-OCR:上下文光学压缩》,详细阐述了其核心技术原理。
DeepSeek-OCR的独特之处在于,这款视觉语言模型极大提升了图像压缩极限,同时仍能保持高质量的OCR识别效果。实验表明,当文本token数量不超过视觉token数量的10倍时,模型对OCR文档的解码准确率可达97%……这项技术为大语言模型在历史长上下文压缩、记忆遗忘机制等研究领域展现出可观潜力。

DeepSeek-OCR不仅是一款高效的SOTA OCR模型,更通过基于视觉的文本压缩技术,为长上下文管理提供了新思路。用户能用更少的token数量,准确理解图像中的文本内容。
锐评:10倍压缩率仍保持97%的准确率,这项"浓缩"技术确实有两把刷子。
二、AI技术与产品发布:新品"下饺子",大厂卷到爆
1. 新闻:OpenAI推出ChatGPT Atlas,这是一款适用于macOS的桌面AI浏览器,它集网页浏览、ChatGPT功能以及可选的"浏览器记忆"功能于一身。OpenAI将ChatGPT Atlas宣传为"内置ChatGPT的浏览器",提供与ChatGPT账户绑定的第一方浏览器体验。部分评测者认为其优于AI浏览器竞品Perplexity Comet,但也有评论指出这款工具虽有潜力,但尚未成为可靠的AI工具。
