视觉优化长文本：内存直降50%，token需求减半！_游乐网

文章

业界资讯单机攻略视频攻略新游看台八卦新闻手游资讯手游攻略游戏问答

游戏

全部角色扮演棋牌策略休闲益智赛车竞速飞行射击体育竞技模拟经营动作冒险卡牌桌游其他游戏应用辅助

首页游戏软件资讯排行榜专题

首页

AI

视觉优化长文本：内存直降50%，token需求减半！

视觉优化长文本：内存直降50%，token需求减半！

热心网友

34

转载

2025-11-03

在即将举行的NeurIPS 2025学术会议上，来自南京理工大学、中南大学与南京林业大学的联合研究团队重磅推出了突破性框架VIST（视觉导向的大语言模型Token压缩技术），为大规模语言模型实现长文本高效推理开创了全新的“视觉解决方案”。值得注意的是，这一创新思路与近期备受瞩目的DeepSeek-OCR技术理念高度契合。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

处理短文本时，大语言模型展现出令人印象深刻的理解与生成能力。然而现实场景中的许多任务——包括长文档理解、复杂问答以及检索增强生成（RAG）系统等，都需要模型处理成千上万甚至数十万字符的上下文信息。

与此同时，模型参数规模也从数十亿一路飙升至万亿级别。

面对“上下文长度激增”与“模型参数量膨胀”的双重挑战，Token压缩已不再仅仅是优化选项，而是成为了必备功能。

若无法有效缩减输入规模，即便是最强大的语言模型，也难以高效处理我们需要它分析的海量信息。

南京理工大学、中南大学与南京林业大学的研究人员提出的VIST框架，正是为了解决这一痛点而生。

论文链接：https://arxiv.org/abs/2502.00791

研究团队早在一年多前的NeurIPS 2024就开始探索——如何让模型能够像人类那样，通过视觉方式更高效地理解长文本内容。

论文链接：https://arxiv.org/pdf/2406.02547

人类阅读文章时，并不会逐字读完每一个词汇。

像“的”“了”“和”这类功能性高频词，几乎会被大脑自动忽略。真正让我们停下目光的，是那些承载意义的低频词——名词、动词、数字等关键信息。

VIST的核心思想，正是让大模型也具备这种“选择性阅读”的智能。

它设计了一种模拟人类“快-慢阅读通路”的可视化压缩机制，让大模型在理解长文本时，既能快速扫读把握整体，又能深入思考重点内容：

快速通道：将远处的、相对次要的上下文内容渲染为图像，由冻结的轻量级视觉编码器快速提取显著性语义；

慢速通道：将关键性的邻近文本直接输入LLM，用于深度推理与语言生成。

这种“视觉+语言”的双通道协作模式，就如同人类的眼睛与大脑的配合——一边扫视全局获取脉络，一边聚焦要点进行深度思考。

VIST让模型真正具备了“像人一样速读”的智能。

凭借这一创新设计，在处理相同文本内容时，VIST所需的视觉Token数量仅为传统文本分词所需Token数量的56%，内存占用减少了50%。

用“视觉压缩”解锁长文本理解

早期的LLM主要通过分词器将文本拆分成离散的token输入模型进行处理，这种范式带来了许多优势，特别是实现了高度语义化。

但已有研究发现，经过大规模图文配对数据预训练，CLIP等视觉编码器能够自发掌握OCR识别能力，这使得它们可以直接理解文本图像内容，为长文本的可视化处理提供了强大工具。

VIST则借鉴了人类高效阅读的认知技巧，提出了全新的快-慢视觉压缩框架，用视觉方式处理长文本，让模型既能快速扫读把握大意，又能深度理解核心内容。

快速通道

将次要的长距离上下文渲染成图像，由轻量级视觉编码器处理；

通过重采样器将视觉特征进一步压缩至原尺寸的1/4；

压缩后的视觉特征再通过交叉注意力机制与LLM的主输入进行整合。

慢速通道

对邻近位置或核心文本直接交给LLM处理，进行深度推理和语言生成。

这种“扫视远处，专注近处”的处理方式，模拟了人类阅读的自然策略，让模型在长文本场景下既高效又精准。

概率感知视觉增强

教模型学会“略读”

虽然视觉编码器（如CLIP）能力强大，但它们主要在自然图像上训练，对于渲染文本的理解能力有限。而且，长文本中往往充斥大量冗余信息，如果不加选择地处理，不仅浪费算力，还会被噪声干扰而抓不住重点。

为此，VIST引入了一个精巧机制——概率感知视觉增强（PVE），教会模型“略读”关键信息，忽略冗余词汇。

在训练过程中，PVE采用基于词频的掩码策略，把高频但信息量低的词（如英文中的"the"、"with"）进行遮蔽，同时重点保留低频、高信息量的词汇，如名词、动词、数字等核心内容。

这些经过语义优化的文本嵌入有效指导重采样器从文本图像中提取更重要的语义信息，让视觉压缩模块变得更高效率且更精确。

视觉压缩的巨大潜力

在开放域问答任务以及11个上下文学习基准任务上，VIST框架的表现显著优于基于文本编码器的压缩方法CEPE。

即使在极端条件下——所有章节仅通过视觉编码器处理——VIST仍能在开放域问答任务中达到与TinyLlama相当的性能，充分展示了视觉压缩在长文本处理中的可靠性。

此外，在处理相同文本内容时，VIST所需的视觉Token数量比传统文本Token减少56%（压缩比约为2.3，从1024个文本Token压缩至448个视觉Token），同时显存使用量降低50%，极大提升了计算效率。

让大模型“用眼睛读文字”

VIST利用轻量级视觉编码器，将冗长的上下文信息进行压缩处理，为大语言模型提供了一条高效、低成本的新路径。

更巧妙的是，视觉编码器还能充当视觉文本分词器，带来四大显著优势：

1. 简化分词流程传统文本分词器依赖复杂规则和固定词表，通常涉及近十步人工预处理（如小写化、标点符号处理、停用词过滤等）。视觉编码器直接将渲染的文本视作图像输入，无需繁琐预处理，处理流程更直接高效。

2. 突破词表瓶颈传统分词器在多语言环境下容易受词表限制影响性能，而视觉编码器无需词表，统一处理多种语言文本，大幅降低嵌入矩阵和输出层的计算与显存开销。

3. 对字符级噪声更鲁棒视觉编码器关注整体视觉模式，而非单个Token匹配，因此对拼写错误或低级别文本攻击具备天然抵抗力。

4. 多语言高效处理尽管本文主要针对英文，视觉文本分词器在其他语言中同样高效：与传统分词相比，可减少62%的日文Token、78%的韩文Token、27%的中文Token，在处理长文本时优势尤为显著。

结语与未来展望

VIST 展示了“视觉 + 语言”协作在大模型长文本理解中的巨大潜力：它让大模型能够“像人一样读”，既能快速扫视冗余信息，又能专注思考关键内容。

未来，视觉驱动的Token压缩技术很可能成为长上下文LLM的标准组件。随着模型规模不断增长，这种“先看再读”的策略，将帮助大模型在保证理解能力的同时，大幅降低计算成本，为多模态智能理解铺平道路。

来源:https://www.51cto.com/article/828642.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：AI浏览器安全风险：南洋理工解析OpenAI等Web代理底层机制下一篇：首届中国国际机器人辩论赛四强出炉，北京亦庄决战终极桂冠

相关攻略

如何零基础制作一款AI辅助的记账小程序利用Cursor实现数据可视化展示

AI

如何零基础制作一款AI辅助的记账小程序利用Cursor实现数据可视化展示

如何从零开始，打造一款AI帮你记账的小程序：用Cursor让数据“说话” 你是不是总觉得记账麻烦，记完了一堆数字却又看不出个所以然？想自己动手做个智能记账工具，又完全不懂编程？别担心，今天我们就来试试一个“捷径”。用上集成了AI编程助手的Cursor，你会发现，即使零基础，也能一步步搭出一个能自动分

热心网友

04.21

出门问问推出 TicNote Pods AI 录音耳机悦享版：内置 4G 模块、支持 120+ 种语言转写翻译，1764 元

科技数码

出门问问推出 TicNote Pods AI 录音耳机悦享版：内置 4G 模块、支持 120+ 种语言转写翻译，1764 元

出门问问推出TicNote Pods AI录音耳机悦享版：重新定义录音转写体验科技圈又有新动态了。出门问问刚刚发布了TicNote Pods AI录音耳机悦享版，这款产品最吸引人的地方在于内置了4G模块，能够实现语音实时转写翻译。官方定价1764元，不过部分地区的消费者能享受国家补贴，最终到手价可

热心网友

04.21

AI锚点移动与编辑技巧_AI直接选择工具使用方法【图解】

AI

AI锚点移动与编辑技巧_AI直接选择工具使用方法【图解】

说实话，在Illustrator里打磨图形轮廓这事儿，就像雕塑家在雕琢细节——而锚点就是你的刻刀。要是想随心所欲地调整路径形状，把那些弯弯曲曲的线条收拾服帖，那你真得把锚点的移动和编辑玩明白了。让我来分享几个我在日常工作中最常用的操作技巧。一、使用直接选择工具选中并拖动锚点直接选择工具可以说是咱

热心网友

04.21

随时随地，微信一下，Qclaw 帮你搞定一切

AI

随时随地，微信一下，Qclaw 帮你搞定一切

当微信变成你电脑的神经中枢，那个必须坐在电脑前才能工作的时代，正在终结我们总以为自己在用电脑工作，但最新的趋势正在揭示一个截然不同的未来：电脑完全可以在你缺席的时候，替你完成工作。这个观点之所以颇具冲击力，在于它彻底碘伏了一个我们习以为常、甚至从未质疑过的前提：过去几十年，人类仿佛被训练成了一种

热心网友

04.21

ai吸管工具怎么用_ai吸管工具吸取颜色的操作技巧【教程】

AI

ai吸管工具怎么用_ai吸管工具吸取颜色的操作技巧【教程】

说实话，在AI里用吸管工具时，经常遇到这种情况：明明想快速复制个颜色，结果要么吸不到，要么只吸到一部分属性，真是让人抓狂。根据我多年使用经验，这通常不是工具的问题，而是操作技巧没掌握到位。今天我就来分享几个实用的取色技巧，帮你实现精准高效的颜色采样。一、基础单击取色法这个方法就像我们平时最习惯的

热心网友

04.21

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全 2025-08-05

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全 2025-08-05

最新APP

宝宝过生日

宝宝过生日

应用辅助 04-07

台球世界

台球世界

体育竞技 04-07

解绳子

解绳子

休闲益智 04-07

骑兵冲突

骑兵冲突

棋牌策略 04-07

三国真龙传

三国真龙传

角色扮演 04-07

热门推荐

如何制作极具商务高级感的路演PPT 利用Gamma一键定制极简黑金视觉模版

AI

如何制作极具商务高级感的路演PPT 利用Gamma一键定制极简黑金视觉模版

说实话，每次看到别人在商务路演时拿出那种设计精良、气质高端的PPT，你是不是也暗自羡慕过？但咱们既不是专业设计师，又抽不出大把时间琢磨排版配色——这种困境我太懂了。好在现在有了Gamma这样的智能平台，它内置的模板系统能让你快速产出专业级PPT。今天我就以最经典的极简黑金风格为例，带你走一遍具体操作

热心网友

04.21

苹果换帅要大变天了？盘和林：库克不会完全脱离苹果决策层

科技数码

苹果换帅要大变天了？盘和林：库克不会完全脱离苹果决策层

苹果换帅：库克转任执行董事长，硬件负责人特努斯接任CEO 封面新闻记者易弋力科技界的一则重磅人事变动，终于在当地时间4月20日尘埃落定。美国苹果公司正式宣布，任命公司内部元老、长期执掌硬件业务的约翰·特努斯为下一任首席执行官，接替自2011年起便掌舵公司的蒂姆·库克。与此同时，苹果公司也确认，库

热心网友

04.21

《三角洲行动》长弓溪谷藏宝堆全点位

游戏攻略

《三角洲行动》长弓溪谷藏宝堆全点位

三角洲行动长弓溪谷藏宝堆位置全攻略各位特战队员，S9赛季全新登场的“藏宝堆”你们都收集齐了吗？这并非普通的地形装饰，而是地图上带有独特牛角标记的珍贵容器。其背景源于阿萨拉人在收藏大师马苏德引领下开展的祈福仪式，为《三角洲行动》的战场探索增添了丰富的趣味性与文化深度。《三角洲行动》长弓溪谷藏宝堆全

热心网友

04.21

《刺客信条》多人游戏新作透露定位！聚焦多人PVP！

游戏资讯

《刺客信条》多人游戏新作透露定位！聚焦多人PVP！

育碧近日透露，《刺客信条》系列的全新多人作《刺客信条CODENAME INVICTUS》正在稳步开发中《刺客信条》的粉丝们，准备好迎接一次碘伏性的体验了吗？育碧不久前释放了一个重磅消息：系列的全新多人游戏《刺客信条CODENAME INVICTUS》正在稳步推进中。这一次，开发团队将重心完全转向了

热心网友

04.21

学科网怎么注册账号_学科网注册账号详细步骤

手机教程

学科网怎么注册账号_学科网注册账号详细步骤

一、访问学科网官网并进入注册页面想用学科网的各种教学资源，第一步得有个自己的账号。这事儿得从官网走最靠谱，毕竟现在各种山寨网站不少，走错了门，不光注册不成，还可能碰到麻烦。我建议你直接打开浏览器，手动输入www zxxk com这个地址，这样能确保万无一失。进来之后别眼花，首页内容挺多的。你直接

热心网友

04.21