首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepSeek-OCR长文本理解分析,中科院新基准揭示技术方向

DeepSeek-OCR长文本理解分析,中科院新基准揭示技术方向

热心网友
85
转载
2026-01-05


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:LRST

【新智元导读】DeepSeek-OCR的视觉文本压缩(VTC)技术,能够通过将文本编码为视觉Token,实现高达10倍的压缩率,大幅降低大模型处理长文本的成本。然而,视觉语言模型能否真正理解压缩后的高密度信息?中国科学院自动化所等机构推出了VTCBench基准测试,旨在评估模型在视觉空间中的认知极限,涵盖了信息检索、关联推理和长期记忆三大核心任务。

近期,凭借其创新的“视觉文本压缩”(Vision-Text Compression,VTC)范式,DeepSeek-OCR引发了技术圈的广泛关注。这一范式以极少的视觉Token便实现了高效的文本信息编码,为长文本处理开辟了全新的技术路径。

这一突破性进展让大模型处理超长文档的成本大幅降低,但同时也引出了一个深层次的疑问:当长文本被高度压缩为二维图像后,视觉语言模型(VLM)真的能准确理解其中蕴含的内容吗?

为了探究这一问题,来自中国科学院自动化所、中国香港科学院创新研究院等机构的研究团队,联合推出了首个专门针对视觉-文本压缩范式的基准测试——VTCBench。


论文链接:https://arxiv.org/abs/2512.15649

VTCBench链接: https://github.com/Moenupa/VTCBench

VLMEvalKit链接:https://github.com/bjzhb666/VLMEvalKit

Huggingface链接: https://huggingface.co/datasets/MLLM-CL/VTCBench


图 1:视觉-文本压缩 (VTC) 流程演示及VTCBench

与传统的纯文本处理方式不同,VTC范式(如DeepSeek-OCR)会先将长文档渲染(Rendering)为高密度的二维图像,再由视觉编码器将其转化为少量的视觉Token。这一技术能实现2到10倍的Token压缩率,显著降低了长文本处理时的计算与显存开销。

目前,VTCBench已在GitHub和Huggingface全面开源。其衍生版本VTCBench-Wild作为一个统一的、全方位评估模型在复杂现实场景下视觉文本压缩鲁棒性的工具,现已集成到VLMevalkit中。

核心使命

衡量“看得见”之后的“看得懂”

当前的VLM或许能出色地完成OCR识别任务,但在处理经过VTC压缩后的高密度信息时,其对长文本的深度理解能力仍有待验证。

VTCBench通过三大任务,系统性评估模型在视觉空间中的认知极限:

1. VTC-Retrieval (信息检索):在视觉“大海”中精准寻找特定事实的“针”(Needle-in-a-Haystack),检验模型对空间分布信息的捕捉能力。

2. VTC-Reasoning (关联推理):挑战模型在几乎没有文本重叠的情况下,通过上下文关联推理寻找事实,超越简单的词汇索引。

3. VTC-Memory (长期记忆):模拟超长对话场景,评估模型在视觉压缩框架下,抵御时间与结构性信息衰减的能力。

此外,团队同步推出了VTCBench-Wild,引入了99种不同的渲染配置(涵盖多种字体、字号、行高及背景),全方位检测模型在复杂现实场景下的鲁棒性。

揭秘视觉压缩背后的认知瓶颈


图 2:VTCBench针对模型在长图像中检索信息的热力图。横轴代表上下文长度,纵轴代表关键事实(Needle)在文档中的深度。展现了模型表现的“迷失”与“突破”。

测试结果呈现出显著的“U型曲线”现象:与纯文本模型类似,视觉语言模型(VLM)能够精准捕捉开头和结尾的信息,但对于中间部分的事实,其理解能力会随着文档变长而剧烈衰退。这证明即使在视觉空间,模型依然存在严重的“空间注意力偏见”,这将是未来VTC架构优化需要攻克的关键方向。

行业洞察

视觉压缩是长文本的终极答案吗?


通过对GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5等十余种顶尖模型的深度评测,我们可以发现:

尽管VTC极大提升了效率,但现有VLM在复杂推理和记忆任务上的表现仍普遍弱于纯文本大模型;

消融实验证明,信息密度是决定模型性能的关键因素,直接影响视觉编码器的识别精度;

Gemini-3-Pro在VTCBench-Wild上表现惊艳,其视觉理解能力已几乎追平其纯文本基准,证明了VTC是实现大规模长文本处理的极其可行的路径!

总结


如果说传统的长文本处理是“逐字阅读”,那么DeepSeek-OCR所引领的VTC范式便是“过目成诵”式的摄影记忆。VTCBench的出现,正是为了确保模型在拥有这种“超能力”的同时,依然能够读懂字里行间的微言大义。

参考资料:

https://arxiv.org/abs/2512.15649

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

来源:https://www.163.com/dy/article/KIGUVK3L0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

中国开源OCR项目霸榜GitHub,狂揽7.3万星全球瞩目
AI
中国开源OCR项目霸榜GitHub,狂揽7.3万星全球瞩目

西风 发自 凹非寺量子位 | 公众号 QbitAIGitHub OCR项目之王刚刚历史性易主。诞生近40年、统治OCR领域的技术标杆Tesseract OCR,被中国开源拉下王座——百度文心衍生模型

热心网友
03.31
百度千帆OCR:4B参数革新文档理解技术
科技数码
百度千帆OCR:4B参数革新文档理解技术

这项由百度千帆团队主导的研究发表于2026年3月17日的arXiv预印本平台(论文编号:arXiv:2603 13398v1),该研究推出了一个名为Qianfan-OCR的革命性文档智能模型,这个拥

热心网友
03.27
MinerU全面适配国产算力,已支持10余款国产AI芯片
业界动态
MinerU全面适配国产算力,已支持10余款国产AI芯片

2月12消息,上海人工智能实验室 OpenDataLab 团队、 DeepLink 团队及国产芯片厂家携手,于日前先后完成了昇腾、平头哥、沐曦、海光、燧原、摩尔线程、天数智芯、寒武纪、昆仑芯、太初元

热心网友
02.12
智谱开源GLM-OCR模型:多领域性能对标Gemini Pro,小尺寸高精度
科技数码
智谱开源GLM-OCR模型:多领域性能对标Gemini Pro,小尺寸高精度

2月3日,智谱(02513 HK)官微宣布正式发布并开源GLM-OCR。据介绍,作为一款轻量的专业级OCR模型,该模型仅0 9B参数规模,支持vLLM、SGLang和Ollama部署。公司表示,尽管

热心网友
02.03
DeepSeek-OCR 2正式上线:即刻免费体验最新图文识别技术
科技数码
DeepSeek-OCR 2正式上线:即刻免费体验最新图文识别技术

北京商报讯(记者 陶凤 王天逸)1月28日,优刻得云计算宣布,DeepSeek重磅升级DeepSeek-OCR-2后,优刻得已经完成接入,并限时免费。

热心网友
01.29

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

消息称苹果已放弃翻盖小折叠 iPhone Flip 机型方案
iphone
消息称苹果已放弃翻盖小折叠 iPhone Flip 机型方案

消息称苹果已放弃翻盖小折叠 iPhone Flip 机型方案 最近科技圈有个传闻值得聊聊。据博主@刹那数码爆料,苹果内部已经放弃了翻盖式小折叠屏手机,也就是常说的iPhone Flip方案。原因挺现实的:内部评估后,大部分人觉得这东西有点“没必要”。 为什么说没必要?核心在于它似乎没能创造出什么“非

热心网友
03.31
什么是Energy Web Token (EWT)?EWT短期vs长期价格预测、价格跳涨的原因是什么?
web3.0
什么是Energy Web Token (EWT)?EWT短期vs长期价格预测、价格跳涨的原因是什么?

能源网络代币(EWT)近期飙升解析:趋势逆转还是技术反弹? 能源网络代币(Energy Web Token)在经历一轮显著的价格跃升后,重新回到了市场的聚光灯下。这让不少投资者感到好奇:究竟是什么在推动EWT当前的上涨行情? 从短期动能、放大的交易量到技术层面的突破信号,这场反弹似乎暗示着某种趋势上

热心网友
03.31
权威梯队对比型 ——2026 年全球具身智能 TOP10:智平方凭“全栈原创 + 实战落地”领跑第一梯队
业界动态
权威梯队对比型 ——2026 年全球具身智能 TOP10:智平方凭“全栈原创 + 实战落地”领跑第一梯队

2026年全球具身智能TOP10榜单深度解析:从技术路径到商业落地,谁在领跑? 最近,2026年全球具身智能的TOP10榜单正式出炉,给这个火热的赛道做了一次阶段性的“排位赛”。榜单里有个名字格外醒目——智平方,凭借全栈自研的VLA大模型、近5亿元的工业订单,以及半年内完成7轮融资的强劲势头,稳稳坐

热心网友
03.31
联发科发布 IoT SoC 芯片平台 Genio Pro、Genio 420、Genio 360
AI
联发科发布 IoT SoC 芯片平台 Genio Pro、Genio 420、Genio 360

联发科发布多款IoT SoC芯片平台,加码嵌入式与边缘AI市场 近期在德国纽伦堡举办的Embedded World 2026嵌入式展会上,联发科技的动作不小,一口气推出了多款面向物联网(IoT)领域的SoC芯片平台。这一系列新成员,包括了定位高端的Genio Pro,以及面向主流和入门级市场的Gen

热心网友
03.31
燕云十六声铜金空洞通关方法
游戏资讯
燕云十六声铜金空洞通关方法

一、关卡概述 在《燕云十六声》里,“铜金空洞”算得上是一块难啃的硬骨头。整个环境复杂多变,敌人和机关环环相扣,要想全身而退,确实得花费一番心思。 二、前期准备 磨刀不误砍柴工,进洞之前,准备工作一定要做扎实。 1 装备提升 首要任务是检查自己的“硬件”。攻击、防御、生命值,这三项核心属性必须过硬。

热心网友
03.31