澜舟多模态RAG技术让AI真正读懂图表

时间：2026-06-04 17:01

在金融研报、行业分析、企业报告等专业文档中，海量关键信息往往隐藏在各类图表里。传统RAG（检索增强生成）系统仅依赖OCR（光学字符识别）提取文字，无法理解图表的结构、数据关系与深层含义。这导致用户提问时，系统给出的答案要么信息不完整，要么直接出错。针对这一痛点，澜舟技术团队推出了一套面向图表理解的

在金融研报、行业分析、企业报告等专业文档中，海量关键信息往往隐藏在各类图表里。传统RAG（检索增强生成）系统仅依赖OCR（光学字符识别）提取文字，无法理解图表的结构、数据关系与深层含义。这导致用户提问时，系统给出的答案要么信息不完整，要么直接出错。

针对这一痛点，澜舟技术团队推出了一套面向图表理解的多模态RAG解决方案。核心目标明确：推动系统从“能读字”升级到“能读图”。在FinRAGBench-V基准数据集上，其准确率从69.6%大幅跃升至90.7%，提升了超过21个百分点。

从“读文本”到“读图表”：我们究竟卡在哪里？

传统RAG在处理纯文本时表现优异，但面对真实世界的复杂文档，其短板立刻暴露。问题的根源并非模型能力不足，而是信息建模方式过于单一。

具体瓶颈体现在以下方面：

缺乏对图表的结构化语义建模能力，关键数据、图表类型、语义信息难以精准抓取。
检索机制过于单一，无法联合建模图表内容与上下文文本，导致图表级别的证据召回不精确。
图表理解基本停留在“看图就答”层面，缺少基于图像操作的多步推理，复杂场景下错误频发。
答案生成仅依赖文本，缺乏图文融合的表达，结果的可读性与可验证性较差。

为解决这些问题，澜舟将系统能力从“文本检索”升级为“跨模态理解与推理”，并抽象出“建模-检索-推理-生成”四阶段闭环。具体而言，实现了以下四大核心能力跃迁。

1. 图表语义建模：从“非结构化图像”到“结构化语义表示”

基于视觉语言模型与多模板驱动机制，对图表进行细粒度解析。提取关键数据、趋势关系、元信息（如图表类型、坐标轴含义等），构建统一的结构化图表语义表示。

2. 跨模态检索：从“单通道文本检索”到“图文融合检索”

融合文档级检索与图文检索机制，引入视觉语言模型进行跨模态相关性建模与证据筛选。将图表内容与文本上下文联合召回，再经过精排得到高质量结果。

3. 图表推理增强：从“看图即答”到“基于图像操作的多步推理”

引入“Thinking-with-images”推理范式。通过图像裁剪、缩放等可执行操作，逐步完成复杂图表中的数据定位、关系分析与数值推断，显著提升推理准确性。

4. 图文融合生成：从“单一文本生成”到“图文协同表达”

融合图表证据、图像内容与文本上下文生成答案，在回答中动态插入图表内容，实现图文交织的表达形式，提升结果的可读性与可验证性。

整体能力框架：四大核心能力

整个系统在离线阶段完成图表语义建模与索引构建，在线阶段依次执行跨模态检索、推理增强与图文融合生成，形成完整闭环。

离线阶段（数据构建）

文档解析：从PDF中解析出文本与表格内容，识别图像和矢量图表的位置坐标，导出为点位图入库。
图表语义建模：抽取图表的结构化语义信息（图表类型、关键数据、趋势关系、上下文语义），生成图表摘要。
切片：将文本段落和图表按层级树组织，再按层级切片，作为最小的可检索粒度。
向量化存储：对切片和图表摘要分别进行向量化表示，存入向量数据库，支持跨模态检索。

在线阶段（问答推理）

跨模态检索：联合文档级检索与图文检索，召回相关文本和图表内容，并基于视觉语言模型对召回的图表进行进一步筛选。
图表推理增强：通过图像操作和多步推理机制，抽取支撑回答的关键证据。
图文融合生成：融合图表证据和文本上下文，生成图文交织的最终答案。

核心技术亮点

图表语义建模

在离线阶段完成图表区域的识别与定位，构建图表图像及其上下文信息。基于视觉语言模型对图表进行结构化语义建模，统一抽取关键数据、趋势关系和元信息，显著提升对图表内容的理解能力。

具体来说，该能力从三个方面实现：

多模态信息抽取：将裁剪后的图表图像与上下文（标题、图注、段落）一起输入视觉语言模型，联合建模图像与文本信息，自动抽取关键数据、元信息和语义，生成格式化描述。
多模板驱动：针对柱状图、折线图、饼图等不同图表类型，设计专属Prompt模板，引导模型聚焦对应的结构特征和信息要素。
多图对照与上下文增强：引入多视角对照机制，一方面将裁剪图与整页图对齐，补偿文档解析中可能出现的区域截断；另一方面对相似图表进行对比建模，增强模型对细粒度差异的辨识能力。

跨模态检索

传统检索方式各有局限。仅用文档级检索，图表信息容易被大量文本淹没；只靠图文检索，则对上下文和文档语义利用不足，相似图表也难以区分。因此，提出一种融合式跨模态检索策略，兼顾全局语义与图表细粒度信息。

文档级检索与图文检索融合策略：同时引入两种机制，对候选结果进行联合建模与打分融合。文档级检索定位相关段落，提供上下文语义约束；图文检索聚焦图表内容，强化视觉信息匹配能力。融合两者得分，实现更准确的召回与排序。
基于VLM的相关性判定与证据提取：检索后，引入视觉语言模型对候选图表进行细粒度相关性判定，结合用户查询与图表内容进行语义对齐，过滤语义相似但无关的图表。判定相关的图表再抽取关键证据（如关键数据点、趋势描述、对比关系），供后续大模型生成答案。

图表推理增强

“读图即答”难度高且易出错。为此，引入基于图像操作的推理增强机制，提升复杂图表中关键信息抽取的准确性。

基于图像交互的推理方式：不再依赖一次性读图或纯文本推理，而是采用多步推理方式。模型通过逐步分析图表结构，完成区域定位、关系判断和关键数据识别。
可执行图像操作与工具调用：在沙盒环境中运行Python代码，对图像进行缩放、裁剪、切分、绘制辅助线等操作，辅助模型精确定位目标区域、读取数值。通过“生成代码—执行—输出图片—反馈”循环，将图像操作纳入推理链路，降低数值估算误差。
推理能力训练（SFT + RL）：通过监督微调与强化学习相结合，训练模型在多步推理过程中合理调用图像操作工具，学习稳定的分析路径和错误纠正策略，重点提升复杂图表场景下的推理可靠性与准确性。

图文融合生成

基于检索和证据抽取结果，构建图文融合的答案生成机制。

多源信息融合生成：将图表中提取的证据、相关图片以及检索得到的文本段落，统一输入大模型进行生成。模型同时利用图像信息与文本上下文，综合推理输出完整答案。
图文交织表达：生成答案时，根据内容引用位置，将对应图表图片以链接形式插入文本中，实现图文交织展示。答案既有文字说明，又有图表作为直观支撑。

效果评测

对系统在图表理解与多模态问答场景下的能力进行了系统性评估。

评测数据集

采用FinRAGBench-V作为基础数据集，该数据集专为多模态RAG基准测试设计。选取其中中文图表相关子集，问题类型覆盖图表信息提取、数值计算和时效性查询。同时，针对流程图、架构图等非结构化图形，人工构建了补充测试样本，扩展覆盖范围。最终形成包含270条样本的评测集。

评估标准

采用基于大模型的三分量表（0–2分）进行自动评估：

2分（正确）：答案与标准答案一致，关键事实完整准确，无影响结论的错误信息。
1分（部分正确）：回答存在一定偏差，但整体接近正确结论。包括仅覆盖部分关键事实、结论方向基本正确但细节有偏差、非严格数值场景下存在轻微误差、表达不够精确等情形。
0分（错误）：回答错误、矛盾或无法判定正确。包括结论不一致、关键事实错误、严格数值场景下数值不符、存在编造信息或无依据推断、未回答问题或内容无关等情形。