首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepSeek新模型突破:以视觉压缩文本实现小参数高性能

DeepSeek新模型突破:以视觉压缩文本实现小参数高性能

热心网友
89
转载
2025-10-21

最近,一款名为DeepSeek-OCR的开源模型在科技界引起了广泛关注。凭借其独特的技术路径与高效表现,该模型被硅谷多位专家誉为人工智能领域的突破性成果。这款由DeepSeek团队推出的模型,通过"视觉压缩文本"的创新思路,成功解决了大模型处理长文本时算力消耗过大的难题,甚至有观点认为它触及了谷歌Gemini等头部模型的"技术护城河"。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

其核心突破在于"上下文光学压缩"机制。研究团队提出,既然单张图片能够承载数千字信息,是否可以通过视觉token压缩文本内容,让模型借助"看图"来理解信息?基于这一构想,他们构建了仅含3B参数的DeepSeek-OCR模型,在主流的文档解析基准OmniDocBench上取得了领先成绩。实验数据显示,该模型使用100个视觉token即可超越需要256个token的GOT-OCR2.0;当视觉token增至400个时,性能已与先前SOTA模型持平;而使用不超过800个token时,其表现远胜需要近7000个token的MinerU2.0。

技术实现依托两大核心组件:编码器DeepEncoder与解码器DeepSeek3B-MoE-A570M。前者采用"局部-压缩-全局"三级架构,先通过窗口注意力模型提取高分辨率图像的局部特征,再经16倍卷积压缩器大幅减少token数量,最后由全局注意力模型深度解析浓缩后的信息。这种设计使模型在保持高信息密度的同时,将计算开销控制在合理范围。更为关键的是,DeepEncoder支持从"Tiny"(512x512分辨率,64个token)到"Gundam"(动态分块,近800个token)的多种输入模式,可根据任务需求灵活调整压缩强度。

在实际性能验证中,模型展现出强大的文本解析能力。当压缩率小于10倍(文本token数为视觉token数的10倍以内)时,OCR解码准确率高达97%;即便压缩率达到20倍,准确率仍保持在60%左右。这种"以小博大"的效果,得益于视觉压缩对文本信息的高效表达——一张图片包含的token量远少于直接编码文本所需的量,却能完整保留语义信息。

技术开源后迅速引发行业热议。GitHub平台该模型已获3.3K星标,HuggingFace热度冲至榜单第二,X社交平台上专家评价持续不断。曾批评AI现状的卡帕西公开表示:"将图像作为LLM输入的思路非常巧妙,这确实是更高效的表达方式。"更有观点将其类比为"AI的JPEG时刻",认为这种视觉-文本压缩范式为AI记忆架构开辟了新路径。

研究团队进一步提出,该技术可模拟人类记忆的"遗忘机制"。通过将近期记忆渲染为高分辨率图像(用更多token保留细节),远期记忆压缩为低分辨率图像(用更少token表示模糊信息),模型能动态分配计算资源。这种设计使模型在处理超长对话或文档时,可像人类一样自然"遗忘"过期信息,从而构建无限长上下文架构。尽管目前该方向仍处早期研究阶段,但已为破解AI长文本处理中的计算资源暴涨问题提供了新思路。

除技术突破外,DeepSeek的高效研发风格同样引人注目。研究显示,其数据生成方法仅需一块A100-40G+GPU,每日即可产出超20万页优质LLM/VLM训练数据。这种低成本、高产出的模式,进一步降低了大模型研发的门槛。

目前,DeepSeek-OCR已支持对金融报表、化学分子式、数学几何图及100多种语言的复杂图像解析。其开源代码和模型权重可通过Hugging Face及GitHub平台获取,为全球开发者提供了研究基础。

来源:https://www.itbear.com.cn/html/2025-10/993722.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

G胖退出Valve游戏开发 怕员工不敢反驳
游戏资讯
G胖退出Valve游戏开发 怕员工不敢反驳

V社联合创始人G胖调整角色:从主导开发转向赋能团队,释放创意生产力 近期一则消息引发游戏行业广泛关注:Valve联合创始人加布·纽维尔(“G胖”)在公司内部进行了一次重要角色转型。此次调整的关键原因,与他个人在公司中的特殊影响力息息相关。根据透露,这位创始人决定减少在具体游戏开发工作中的直接深度参与

热心网友
04.05
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望
科技数码
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望

红魔姜超透露:全新游戏平板将于四月或五月发布,承诺带来惊艳体验 游戏硬件领域即将迎来重磅更新。努比亚红魔游戏手机的产品线负责人姜超,近日通过社交媒体进行了一次颇具悬念的“前瞻剧透”,成功引发了广大游戏玩家和科技爱好者的高度关注。他明确指出,红魔全新一代游戏平板的发布日期已锁定在四月或五月,并使用了“

热心网友
04.05
金铲铲之战S17天煞羁绊效果一览
游戏攻略
金铲铲之战S17天煞羁绊效果一览

金铲铲之战S17天煞羁绊:效果解析与实战应用 在《金铲铲之战》S17赛季中,【天煞】是一个定位独特的专属羁绊,仅由5费英雄“劫”所携带。激活这一羁绊需要特定的前置条件——玩家必须在强化符文选择阶段获得【入侵者劫】。一旦成功解锁,劫将获得全新的技能机制,从而在战局中发挥出颠覆性的作用。 金铲铲之战S1

热心网友
04.05
蓝点工作室被索尼移除 第一方阵容调整
游戏资讯
蓝点工作室被索尼移除 第一方阵容调整

索尼调整第一方工作室阵容,王牌重制团队蓝点工作室正式“退出”核心名单 近日,索尼在其PlayStation Studios官方网站的更新中做出了一项关键调整,引发了游戏玩家和行业观察者的广泛关注:曾凭借《恶魔之魂:重制版》等作品赢得盛誉的蓝点工作室,已不再出现在索尼核心第一方工作室的名单之中。此次页

热心网友
04.05
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售
科技数码
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售

未来人类X98W移动工作站正式发布:重新定义移动端专业性能的新标杆 在专业移动计算领域,总有一些产品能够打破常规认知。近日,未来人类(TerransForce)正式在其官网上线了全新的X98W高性能移动工作站,并宣布将于本月内全面发售。这款设备的问世,无疑为那些在移动办公环境中仍需要桌面级别强悍性能

热心网友
04.05