首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
DeepSeek新模型实测:小巧精悍,性能突破业界想象

DeepSeek新模型实测:小巧精悍,性能突破业界想象

热心网友
91
转载
2025-12-06

就在不久前,DeepSeek开源了一款3B规模的文档识别模型DeepSeek-OCR。虽然模型体积不大,但其设计思路的创新性却令人眼前一亮。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

众所周知,目前所有大型语言模型处理长文本时都面临着一个棘手问题:计算复杂度呈平方级增长。文本序列越长,所需消耗的算力资源就越多。

面对这一挑战,DeepSeek团队提出了一个巧妙的解决方案。既然一张图像可以容纳大量文字信息,而且占用的Token数量更少,何不将文本直接转换为图像?这就是我们所说的“光学压缩”技术——通过视觉模态为文本信息“减负”。

而OCR技术恰好天然适合验证这个思路,因为它本身就是在完成“视觉→文本”的转换过程,而且其效果可以通过量化指标进行科学评估。

研究数据显示,DeepSeek-OCR的压缩率能够达到惊人的10倍,同时文字识别准确率仍保持在97%以上。

这意味着什么呢?简单来说,原本需要1000个文本Token才能表达的内容,现在仅需100个视觉Token就能完整呈现。即使将压缩率提升到20倍,模型的识别准确率依然维持在60%左右,整体效果相当出色。

在OmniDocBench基准测试中的表现尤为亮眼:

仅使用100个视觉Token,就超越了GOT-OCR2.0的表现;

用不到800个视觉Token,就大幅超越了MinerU2.0的性能。

更令人惊喜的是,在实际应用中,单张A100-40G显卡每天就能生成超过20万页的LLM/VLM训练数据。若扩展到20个计算节点,处理能力更是可以飙升至每天3300万页。

DeepSeek-OCR由两大核心组件构成:

DeepEncoder:负责图像特征提取和压缩处理;

DeepSeek3B-MoE:负责从压缩后的视觉Token中重建原始文本。

让我们重点解析DeepEncoder这部特征编码引擎的工作原理。

它的架构设计十分巧妙,通过将SAM-base和CLIP-large两个模型串联起来,前者专注于“局部注意力”提取视觉特征,后者负责“全局注意力”理解整体信息。

系统中间还加入了一个16倍压缩器,在进入全局注意力层之前大幅削减Token数量。

举例来说,一张1024×1024分辨率的图像,通常会被分割成4096个图像块Token。但经过压缩器处理后,进入全局注意力层的Token数量显著减少。

这样的设计优势在于,既保证了处理高分辨率输入的能力,又有效控制了激活内存的开销。

不仅如此,DeepEncoder还支持多分辨率输入,从512×512的Tiny模式到1280×1280的Large模式,一个模型就能胜任各种应用场景。

目前开源版本支持的模式包括原生分辨率的Tiny、Small、Base、Large四档,还有动态分辨率的Gundam模式,灵活性极高。

解码器采用的是DeepSeek-3B-MoE架构。

虽然模型总参数量只有3B,但采用了Mixture of Experts设计——64个专家中每次激活6个,再加上2个共享专家,实际激活参数量约为5.7亿。这让模型既具备了300亿参数模型的表达能力,又保持了5亿参数模型的推理效率。

解码器的任务是从压缩后的视觉Token中重建出原始文本,这个过程可以通过OCR风格的训练任务被紧凑型语言模型有效学习。

在数据准备方面,DeepSeek团队也是下足了功夫。

他们从互联网收集了3000万页的多语言PDF资料,涵盖约100种语言,其中中英文资料达2500万页。

数据分为两个类别:粗标注直接用fitz从PDF提取,主要训练少数语言的识别能力;精标注则使用PP-DocLayout、MinerU、GOT-OCR2.0等模型生成,包含检测与识别交织的高质量数据。

对于少数语言,团队还设计了“模型飞轮”机制——先用有跨语言泛化能力的版面分析模型做检测,再用fitz生成的数据训练GOT-OCR2.0,然后用训练好的模型反过来标注更多数据,如此循环往复最终生成了60万条样本。

此外还有300万条Word文档数据,主要用于提升公式识别和HTML表格解析能力。

在场景文字识别方面,团队从LAION和Wukong数据集收集图像,使用PaddleOCR进行标注,中英文各1000万条样本。

DeepSeek-OCR不仅能识别文字,还具备“深度解析”能力,只需一个统一的提示词,就能对各种复杂图像进行结构化提取:

图表:金融研究报告中的图表可以直接提取为结构化数据;

化学结构式:识别并转换为SMILES格式;

几何图形:对平面几何图形进行复制和结构化解析;

自然图像:生成密集描述文本。

这种能力在STEM领域的应用潜力巨大,尤其是化学、物理、数学等需要处理大量符号和图形的场景。

论文第一作者Haoran Wei此前曾供职于跳跃星辰,期间发布并开源了GOT-OCR2.0系统。

令人注意的是,DeepSeek团队在论文中还提出了一个有趣的构想——用光学压缩模拟人类的遗忘机制。

人类的记忆会随时间衰退,越久远的事情记得越模糊。DeepSeek团队设想,能不能让AI也具备类似的特性?于是,他们提出了这样的方案:

1. 把超过第k轮的历史对话内容渲染成图像;

2. 进行初步压缩,实现约10倍的Token数量削减;

3. 对于更久远的上下文,继续缩小图像尺寸;

4. 随着图像越来越小,内容也越来越模糊,最终达到“文本遗忘”的效果。

这确实很像人类记忆的衰退曲线:近期信息保持高保真度,久远记忆自然淡化。

虽然这仍是一个早期研究方向,但如果能够实现,对于处理超长上下文将是一个重大突破。

简而言之,DeepSeek-OCR表面上是个OCR模型,实际上是在探索一个更宏大的命题:能否用视觉模态作为LLM文本信息处理的高效压缩媒介?

初步答案是肯定的,7-20倍的Token压缩能力已经充分展现出来。

当然,团队也承认这只是一个开始。单纯的OCR还不足以完全验证“上下文光学压缩”,后续计划开展数字-光学文本交替预训练、“大海捞针”式测试,以及其他系统性评估。

不过无论如何,这在VLM和LLM的进化道路上,又开辟了一条全新的赛道。

回想去年这个时候,大家都在研究怎么让模型“记住更多”。今年DeepSeek却反其道而行之,不如让模型学会“忘记一些”。

确实,AI的进化有时候并不是做加法,而是做减法。小而精,也能玩出大花样,DeepSeek-OCR这个3B小模型就是最好的证明。

AI原生产品日报频道: 前沿科技
来源:https://www.huxiu.com/article/4794527.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

扎克伯格:不惜重金投资AI,不愿错失未来机遇
科技数码
扎克伯格:不惜重金投资AI,不愿错失未来机遇

在当前的人工智能(AI)盛宴中,似乎每个科技巨头都在不计后果地“砸重金”,确保不会在这场竞赛中落后。Meta首席执行官马克·扎克伯格也不例外,他正斥巨资确保Meta不会错过人工智能的“大好时机”。在

热心网友
12.12
微软芯片黑科技:将液冷系统直接蚀刻进处理器
科技数码
微软芯片黑科技:将液冷系统直接蚀刻进处理器

AI算力需求的爆发式增长,正推动液冷技术向更高端方向演进。近日,微软首席执行官萨提亚·纳德拉(Satya Nadella)在社交平台上宣布,其团队已成功开发出微流体冷却技术——通过细如发丝的微小通道

热心网友
12.12
英伟达豪掷千亿投资OpenAI背后的商业逻辑
科技数码
英伟达豪掷千亿投资OpenAI背后的商业逻辑

英伟达和OpenAI达成世纪合作!最新消息,英伟达计划向OpenAI投资最高1000亿美元,OpenAI则要用这笔钱构建至少10GW的AI数据中心,全用英伟达的系统。10GW,相当于400万~500

热心网友
12.12
高薪程序员遭遇AI替代危机:5万年薪岗位被取代
科技数码
高薪程序员遭遇AI替代危机:5万年薪岗位被取代

过去二十多年间,掌握编程技能如同手握开启未来的钥匙。无数小镇青年靠着写代码,改写了命运轨迹,最终在城市扎根。然而随着AI技术崛起,这条上升通道正逐渐收窄。许多基础编码工作,AI编程工具都可低成本完成

热心网友
12.12
英伟达豪掷千亿投资OpenAI,计算资源垄断格局隐现
科技数码
英伟达豪掷千亿投资OpenAI,计算资源垄断格局隐现

北京时间周二凌晨,OpenAI和英伟达联合宣布了一份战略合作意向书,计划为OpenAI的AI基础设施部署至少10吉瓦的英伟达系统,英伟达计划在系统部署过程中投资高达1000亿美元。两家公司表示,第一

热心网友
12.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

纸嫁衣9手游什么时候出 具体上线日期与预约方法
游戏攻略
纸嫁衣9手游什么时候出 具体上线日期与预约方法

近年来,中式恐怖解谜游戏的热度持续攀升,成为众多玩家关注的焦点。在这一细分领域中,《纸嫁衣》系列凭借其深厚的民俗文化底蕴和极具沉浸感的氛围塑造,已然确立了标杆地位。随着前作口碑的不断积累,玩家对系列新作的期待也日益高涨。目前,官方已正式确认《纸嫁衣9》预计于2026年第三季度,即7月至9月期间发布。

热心网友
05.07
暗区突围受伤急救指南创伤救援玩法与状态处理详解
游戏攻略
暗区突围受伤急救指南创伤救援玩法与状态处理详解

各位战术指挥官请注意,《暗区突围》将于4月30日正式启动限时特别行动——“创伤救援”。本次行动将持续至5月21日,并非简单的模式复刻,而是对团队协作与战术执行能力的一次全新挑战。接下来,我们将深入解析该玩法的核心机制与实战要点,助你提前掌握通关策略。 参与本次行动,你需要提前准备“创伤小组入场券”。

热心网友
05.07
归环灵匿是什么详细解析其背景与作用
游戏攻略
归环灵匿是什么详细解析其背景与作用

在《归环》的开放世界探索中,灵匿系统堪称游戏体验的“灵魂暗线”。它远非一个简单的隐身开关,而是深度融入了探索、叙事与资源循环的核心玩法。透彻理解这一机制,你才能真正掌握《归环》的玩法精髓与设计深度。 启动灵匿的操作十分便捷,按下指定按键,角色即刻进入半透明状态。此时,NPC的常规警戒AI将暂时“休眠

热心网友
05.07
子夜之章专业技能是否过于单调影响游戏体验
游戏攻略
子夜之章专业技能是否过于单调影响游戏体验

《子夜之章》的专业技能体系,正面临关键的转型挑战。自《飞龙军团》版本完成系统性重塑后,这套机制已历经三个资料片的考验。从表面看,它确实变得更加精细与“硬核”,但一个日益凸显的问题是:在“专注”制造模式与“多开角色”策略的双重影响下,普通玩家的经济参与空间正被压缩,整个制造产业链的活力与可持续性也呈现

热心网友
05.07
超级混音带使用体验与音质深度评测报告
游戏攻略
超级混音带使用体验与音质深度评测报告

真正的怀旧,从来不是对某个地点或时代的精确复刻,而是对一种感觉的精准捕捉。那些瞬间的情感闪回,足以唤醒我们沉睡已久的记忆。即便你并非成长于90年代的北加州,即便你的青春与滑板文化毫无交集,这都无关紧要——《超级混音带》深谙此道。澳大利亚开发商Beethoven & Dinosaur用一首首精心挑选的

热心网友
05.07