在金融研报、行业分析、企业报告等专业文档中,海量关键信息往往隐藏在各类图表里。传统RAG(检索增强生成)系统仅依赖OCR(光学字符识别)提取文字,无法理解图表的结构、数据关系与深层含义。这导致用户提问时,系统给出的答案要么信息不完整,要么直接出错。
针对这一痛点,澜舟技术团队推出了一套面向图表理解的多模态RAG解决方案。核心目标明确:推动系统从“能读字”升级到“能读图”。在FinRAGBench-V基准数据集上,其准确率从69.6%大幅跃升至90.7%,提升了超过21个百分点。
从“读文本”到“读图表”:我们究竟卡在哪里?
传统RAG在处理纯文本时表现优异,但面对真实世界的复杂文档,其短板立刻暴露。问题的根源并非模型能力不足,而是信息建模方式过于单一。
具体瓶颈体现在以下方面:
- 缺乏对图表的结构化语义建模能力,关键数据、图表类型、语义信息难以精准抓取。
- 检索机制过于单一,无法联合建模图表内容与上下文文本,导致图表级别的证据召回不精确。
- 图表理解基本停留在“看图就答”层面,缺少基于图像操作的多步推理,复杂场景下错误频发。
- 答案生成仅依赖文本,缺乏图文融合的表达,结果的可读性与可验证性较差。
为解决这些问题,澜舟将系统能力从“文本检索”升级为“跨模态理解与推理”,并抽象出“建模-检索-推理-生成”四阶段闭环。具体而言,实现了以下四大核心能力跃迁。
1. 图表语义建模:从“非结构化图像”到“结构化语义表示”
基于视觉语言模型与多模板驱动机制,对图表进行细粒度解析。提取关键数据、趋势关系、元信息(如图表类型、坐标轴含义等),构建统一的结构化图表语义表示。
2. 跨模态检索:从“单通道文本检索”到“图文融合检索”
融合文档级检索与图文检索机制,引入视觉语言模型进行跨模态相关性建模与证据筛选。将图表内容与文本上下文联合召回,再经过精排得到高质量结果。
3. 图表推理增强:从“看图即答”到“基于图像操作的多步推理”
引入“Thinking-with-images”推理范式。通过图像裁剪、缩放等可执行操作,逐步完成复杂图表中的数据定位、关系分析与数值推断,显著提升推理准确性。
4. 图文融合生成:从“单一文本生成”到“图文协同表达”
融合图表证据、图像内容与文本上下文生成答案,在回答中动态插入图表内容,实现图文交织的表达形式,提升结果的可读性与可验证性。
整体能力框架:四大核心能力

整个系统在离线阶段完成图表语义建模与索引构建,在线阶段依次执行跨模态检索、推理增强与图文融合生成,形成完整闭环。
离线阶段(数据构建)
- 文档解析:从PDF中解析出文本与表格内容,识别图像和矢量图表的位置坐标,导出为点位图入库。
- 图表语义建模:抽取图表的结构化语义信息(图表类型、关键数据、趋势关系、上下文语义),生成图表摘要。
- 切片:将文本段落和图表按层级树组织,再按层级切片,作为最小的可检索粒度。
- 向量化存储:对切片和图表摘要分别进行向量化表示,存入向量数据库,支持跨模态检索。
在线阶段(问答推理)
- 跨模态检索:联合文档级检索与图文检索,召回相关文本和图表内容,并基于视觉语言模型对召回的图表进行进一步筛选。
- 图表推理增强:通过图像操作和多步推理机制,抽取支撑回答的关键证据。
- 图文融合生成:融合图表证据和文本上下文,生成图文交织的最终答案。
核心技术亮点
图表语义建模

在离线阶段完成图表区域的识别与定位,构建图表图像及其上下文信息。基于视觉语言模型对图表进行结构化语义建模,统一抽取关键数据、趋势关系和元信息,显著提升对图表内容的理解能力。
具体来说,该能力从三个方面实现:
- 多模态信息抽取:将裁剪后的图表图像与上下文(标题、图注、段落)一起输入视觉语言模型,联合建模图像与文本信息,自动抽取关键数据、元信息和语义,生成格式化描述。
- 多模板驱动:针对柱状图、折线图、饼图等不同图表类型,设计专属Prompt模板,引导模型聚焦对应的结构特征和信息要素。
- 多图对照与上下文增强:引入多视角对照机制,一方面将裁剪图与整页图对齐,补偿文档解析中可能出现的区域截断;另一方面对相似图表进行对比建模,增强模型对细粒度差异的辨识能力。
跨模态检索
传统检索方式各有局限。仅用文档级检索,图表信息容易被大量文本淹没;只靠图文检索,则对上下文和文档语义利用不足,相似图表也难以区分。因此,提出一种融合式跨模态检索策略,兼顾全局语义与图表细粒度信息。

- 文档级检索与图文检索融合策略:同时引入两种机制,对候选结果进行联合建模与打分融合。文档级检索定位相关段落,提供上下文语义约束;图文检索聚焦图表内容,强化视觉信息匹配能力。融合两者得分,实现更准确的召回与排序。
- 基于VLM的相关性判定与证据提取:检索后,引入视觉语言模型对候选图表进行细粒度相关性判定,结合用户查询与图表内容进行语义对齐,过滤语义相似但无关的图表。判定相关的图表再抽取关键证据(如关键数据点、趋势描述、对比关系),供后续大模型生成答案。

图表推理增强

“读图即答”难度高且易出错。为此,引入基于图像操作的推理增强机制,提升复杂图表中关键信息抽取的准确性。
- 基于图像交互的推理方式:不再依赖一次性读图或纯文本推理,而是采用多步推理方式。模型通过逐步分析图表结构,完成区域定位、关系判断和关键数据识别。
- 可执行图像操作与工具调用:在沙盒环境中运行Python代码,对图像进行缩放、裁剪、切分、绘制辅助线等操作,辅助模型精确定位目标区域、读取数值。通过“生成代码—执行—输出图片—反馈”循环,将图像操作纳入推理链路,降低数值估算误差。
- 推理能力训练(SFT + RL):通过监督微调与强化学习相结合,训练模型在多步推理过程中合理调用图像操作工具,学习稳定的分析路径和错误纠正策略,重点提升复杂图表场景下的推理可靠性与准确性。
图文融合生成

基于检索和证据抽取结果,构建图文融合的答案生成机制。
- 多源信息融合生成:将图表中提取的证据、相关图片以及检索得到的文本段落,统一输入大模型进行生成。模型同时利用图像信息与文本上下文,综合推理输出完整答案。
- 图文交织表达:生成答案时,根据内容引用位置,将对应图表图片以链接形式插入文本中,实现图文交织展示。答案既有文字说明,又有图表作为直观支撑。
效果评测
对系统在图表理解与多模态问答场景下的能力进行了系统性评估。
评测数据集
采用FinRAGBench-V作为基础数据集,该数据集专为多模态RAG基准测试设计。选取其中中文图表相关子集,问题类型覆盖图表信息提取、数值计算和时效性查询。同时,针对流程图、架构图等非结构化图形,人工构建了补充测试样本,扩展覆盖范围。最终形成包含270条样本的评测集。
评估标准
采用基于大模型的三分量表(0–2分)进行自动评估:
- 2分(正确):答案与标准答案一致,关键事实完整准确,无影响结论的错误信息。
- 1分(部分正确):回答存在一定偏差,但整体接近正确结论。包括仅覆盖部分关键事实、结论方向基本正确但细节有偏差、非严格数值场景下存在轻微误差、表达不够精确等情形。
- 0分(错误):回答错误、矛盾或无法判定正确。包括结论不一致、关键事实错误、严格数值场景下数值不符、存在编造信息或无依据推断、未回答问题或内容无关等情形。
当前效果

准确率(2分)从69.63%提升至90.74%,提升了21.11个百分点,提升幅度非常显著。
应用场景
这项技术可广泛应用于多个场景:
- 金融研报分析:自动解读图表趋势,辅助投资决策。
- 企业知识库(如澜舟智库):支持图文混合问答,提升知识检索准确率。
- 政策/行业报告解读:自动提取关键数据,生成分析结论。
案例展示
通过两个典型例子,直观感受多模态RAG在复杂图表场景下的能力。
案例一:复杂图表趋势分析

用户问题:2018年至2023年期间,国有六大行的定期存款占比变化趋势是什么?
系统能力展示:系统自动定位相关图表,融合文本与图表信息进行综合分析。文本信息指出2023年占比约58.0%,较上年提升约7.5个百分点,且首次整体超过50%;图表信息进一步验证了自2018年以来持续上升的趋势。系统通过融合文本结论与图表趋势,实现了对数据变化的完整理解与交叉验证。
案例二:时间序列走势判断

用户问题:从2020年3月到2020年12月,中证全指指数的整体走势是上升还是下降?
系统能力展示:系统定位到对应折线图,分析得出指数在2020年3月底触及低点(约850点),此后持续震荡上行,至年底接近1700点,整体趋势明显上升。这类问题要求模型不仅“看图”,还需进行时间序列分析与趋势判断。
总结与展望
总体来看,澜舟的多模态RAG技术通过图表解析、语义理解、跨模态检索和可执行推理等关键创新,实现了AI从“读文本”到“读图表”的能力跃迁,让AI不仅能“看见”,更能“理解”与“推理”。
展望未来,多模态技术将向着更强的结构化理解和跨模态对齐能力发展。例如更精细的图表解析、更高效的多模态检索与推理机制,以及统一的端到端模型架构,减少人工规则和模块间的误差传递,最终提升系统在复杂真实文档场景下的泛化能力与稳定性。
