IBM推出VAREX基准测试评估AI解读政府表格能力
这项由IBM Research主导的研究,于2026年3月正式发布于arXiv预印本平台(论文编号:arXiv:2603.15118v1)。研究团队构建了一个名为VAREX的全新评估基准,其核心目标在于系统性地评测各类AI模型在理解与提取政府表格信息上的真实性能。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

我们可以将AI模型想象成一位新入职的文档处理专员。那么,准确、高效地从各类政府表格文档——无论是税务申报表、项目申请表还是官方备案文件——中提取关键信息,无疑是其核心工作技能之一。随之而来的问题是:我们如何量化评估这位“AI专员”在处理海量、非标准化真实文档时的实际水平?这正是VAREX基准测试旨在解答的核心课题。
此类场景在现实中极为常见:大型企业或机构每日需处理成百上千份格式各异的政府表格。传统依赖人工的录入方式不仅效率低下,且极易出错。AI自动化处理技术带来了新的希望,但行业长期以来缺乏一个可靠、统一的“标尺”,用以衡量不同AI系统在此类实际应用中的可靠性(Reliability)与鲁棒性(Robustness)。
研究团队明确指出,现有主流评测方法存在一个根本性局限:它们大多基于有限、固定的几种表格模板进行测试。这好比让学生反复练习同一套模拟题,难以检验其应对千变万化真实考题的综合能力。更为关键的是,这些测试通常只关注参数量庞大的顶级模型,而完全忽略了参数量在40亿(4B)以下的中小型模型。
为何中小型模型值得重点关注?答案在于其极高的实用价值。它们可被视为“经济适用型”解决方案。虽然不具备千亿参数大模型那般强大的通用能力,但对于预算有限、或需要在本地设备(如边缘计算节点)上部署AI应用的企业而言,中小型模型是更现实、更具性价比的选择。然而,我们对这些“轻量级选手”在复杂文档理解任务上的真实表现,认知仍相当不足。
VAREX基准的突破性,在于其创新性地采用了“反向合成”方法。传统流程是先收集大量表格图像,再进行繁琐且易错的人工标注。而VAREX则反其道而行之:研究团队首先收集了3300份来自美国政府机构的空白表格模板,随后通过程序自动填入符合逻辑的合成数据,并同步生成精准的标准答案。
这一过程,类似于设计一套高度标准化的能力测试:先确立严谨的考题框架(表格模板),再依据既定规则填入标准答案(合成数据),从而确保评估答案的绝对准确性。经过三重严格的质量验证,最终生成的数据集准确率高达98.5%。
最终构成的VAREX基准包含1777份文档,每份都具有独特的结构布局,共计需要提取21084个信息字段。这些文档被精心划分为三类典型结构:布局简单的“平铺型”、包含嵌套关系的“层级型”以及具有明确行列结构的“表格型”。为进行全面评估,每份文档都以四种不同的格式呈现给AI模型进行测试:
1. 纯文本格式:将表格内容按阅读顺序线性排列,完全丢失原始布局信息。
2. 空间文本格式:通过添加空格字符,大致保留原始表格的列对齐等粗略空间布局。
3. 图像格式:将表格渲染为200 DPI分辨率的PNG图片。
4. 图像+空间文本格式:同时提供视觉图像和空间布局文本信息。
这种精巧的设计,使得研究人员能够精确剥离“输入格式”这一变量对AI性能的影响,就如同测试学生在开卷、闭卷、上机等不同考试环境下的表现差异。
一、中小型模型:核心瓶颈在于“格式遵循”,而非“内容理解”
在对20个不同的AI模型进行广泛测试后,一个反直觉的结论逐渐清晰:对于4B参数以下的中小型模型,其主要障碍往往并非无法理解文档内容,而是难以严格按照指定的JSON输出格式进行回答。这就像一个学生,虽然知晓正确答案,却总是不按照答题卡的规范要求进行填涂。
研究人员将这种现象定义为“模式回声”,具体表现为两种形式:一是“纯模式复制”,即AI模型将输入的JSON模板原封不动地输出,完全不填入任何提取的数据;二是“包装式提取”,即模型虽然提取了正确的信息,却使用了错误的JSON结构进行封装。
一个关键发现是,当JSON模式定义中包含“$defs”(引用定义)这类关键字时,中小型模型尤其容易产生错误。而一旦将这些引用直接展开、内联到主模式结构中,问题便得到显著改善。以Qwen3-VL 2B模型为例,此项调整使其准确率从27.4%大幅提升至91.8%,增幅超过64个百分点。
另一个突出问题是“提取衰减”:模型在处理文档后半部分字段时,准确率会出现显著下降。例如,h2oVL系列模型在处理前25%字段时的平均准确率,比处理最后25%字段时高出2.1倍,仿佛模型的“注意力”会随着处理进程而衰退。
然而,最令人鼓舞的发现是,这些问题并非不可解决。经过专门针对文档信息提取任务训练的NuExtract 2.0模型(仅2B参数)完全避免了模式回声问题,达到了90.8%的准确率。这强有力地证明,中小型模型在此类任务上的局限,更多体现在“指令遵循”与“格式输出”能力上,而非根本性的语义理解缺陷。
二、输入格式对比:“空间文本”的价值被低估
在对比不同输入格式的影响时,结果出人意料:为模型提供保留了空间布局的文本(空间文本),比直接提供图像带来的性能提升更为显著。从纯文本切换到空间文本格式,模型的准确率普遍提升了3到18个百分点,这一增益超过了其他任何单一的格式改进措施。
可以这样理解:纯文本如同将一张餐桌上散落的所有物品按某种顺序排成一列,虽然物品信息齐全,但彼此之间的空间位置关系(谁在谁的左边)已完全丢失。空间文本则通过插入空格,大致保留了这种相对位置关系,为AI理解文档结构提供了至关重要的线索。
相比之下,从空间文本切换到图像格式,或从单一图像切换到“图像+文本”组合格式,所带来的性能提升则相对有限,通常在0.5到2.2个百分点之间。这一发现具有重要的实用价值。
更有趣的是,一些基于纯文本训练的模型在处理空间文本格式时,其表现甚至能超越部分视觉-语言模型处理图像的效果。例如,Qwen 2.5 72B模型在空间文本格式下达到了95.9%的准确率,略高于GPT-4o处理图像格式的94.8%。
这意味着,企业或开发者在实践中,未必需要部署昂贵且复杂的视觉-语言模型。通过任何能够提供词级边界框的OCR引擎生成空间文本,就能在成本可控的前提下,显著提升文档信息提取的准确率。
三、模型规模效应:并非简单的“参数越大越好”
研究描绘了一幅关于模型规模与性能关系的复杂图景。在2B到4B参数区间,存在一个明显的“能力拐点”:在此之前,模型的主要错误类型是格式错误;而在此之后,模型开始出现真正的信息提取错误。
InternVL3.5系列模型清晰地展示了这一跃迁:其1B参数版本的准确率仅为28.2%,而2B参数版本则骤升至85.6%,提升幅度高达57个百分点。这暗示在该参数区间内,模型能力发生了某种“质变”。
然而,参数规模绝非唯一的决定因素。针对性的任务训练同样关键,甚至可能更为重要。NuExtract 2.0模型通过专门的文档提取训练,将其基础版本的准确率从几乎无效的9.7%,大幅提升至实用的90.8%,增幅达到81个百分点。这证明,正确的专业化训练可以极大程度上弥补模型参数规模的不足。
在8B参数以上的“大型模型”竞技场中,性能差异变得相对微妙。值得注意的是,8B参数的Qwen3-VL模型取得了96.6%的准确率,反而超过了参数量更大的Llama 4 Maverick(17B×128E,95.6%)和GPT-4o(94.8%)。这表明,在高端性能层面,模型架构设计与训练质量的重要性,已开始超越单纯的参数数量比拼。
四、图像质量鲁棒性:API服务与开源模型的“稳定性分水岭”
为了测试模型在面对低质量输入文档时的鲁棒性,研究进行了“分辨率压力测试”:将标准的200 DPI图像质量降至50 DPI(相当于对图像进行故意模糊化处理)。
结果揭示出API服务与开源模型之间的一道显著鸿沟。Gemini系列模型展现了出色的稳定性,准确率仅下降1.7到3.5个百分点,如同经验丰富的医生在光线不佳的条件下仍能做出准确判断。
相比之下,参数在8B到17B范围的部分开源模型则遭遇了“滑铁卢”,准确率暴跌38到40个百分点,从90%以上的优秀水平直接跌落至50%左右。即便是GPT-4o这类顶尖的API模型,也出现了29个百分点的显著下降。
一个有趣的例外是InternVL3.5 2B,作为开源中小型模型,其准确率仅下降4.7个百分点,展现出与其规模不相称的抗干扰能力。这可能源于其视觉编码器对图像高频细节的依赖度较低,这也部分解释了为何它在空间文本格式上的表现反而优于图像格式。
五、文档结构复杂度:如何影响不同能力层级的模型
VAREX将文档按其结构复杂度分为平铺型、嵌套型和表格型三类。对于准确率超过90%的顶级模型而言,处理这三类文档的难度差异微乎其微,性能波动通常在1个百分点之内。这说明,一旦AI的理解能力达到一定高度,文档结构的复杂度便不再是主要障碍。
然而,对于准确率在70%到90%之间的中等水平模型,表格型文档开始显现出其挑战性。这类模型处理平铺型与表格型文档的准确率差距可达8到20个百分点。这反映的是模型在“复杂结构理解”上存在真实的能力缺陷,而非简单的信息定位问题。
在不同类型的字段中,“格式敏感型”字段(如货币数值、电子邮件地址)的性能差异最大。例如,货币数值的提取准确率在不同模型间差异可达15个百分点,这关乎小数点精确定位和数字格式的识别。电子邮件地址的处理也有约17个百分点的差异,考验的是字符级的精确识别能力。
相对而言,邮政编码、州名缩写等格式固定、规则简单的字段,跨模型性能差异则小得多,通常在10个百分点以内。这表明,对AI模型而言,某些信息类型天生就比其他类型更容易被准确提取。
六、实践启示:在性能、成本与部署可行性间寻找平衡
VAREX基准的最大价值,在于为实际技术选型提供了数据驱动的决策依据。企业或开发者需要根据自身具体场景,在性能、成本和部署难度之间做出明智权衡:
追求极致性能与稳定性:若预算充足且对准确性要求极高,Gemini 2.5 Pro等顶级商业API模型是首选。它们如同顶级的专业服务,价格昂贵但交付质量与稳定性俱佳。
平衡性能与总体拥有成本:对于需要在本地部署或严格考虑长期成本的企业,8B参数级别的优秀开源模型(如Qwen3-VL)提供了绝佳的平衡点。96%以上的准确率对绝大多数实际应用已绰绰有余,且一次部署后可长期使用。
挖掘中小型模型潜力:对于拥有专项训练资源和技术团队的机构,中小型模型可能是性价比最高的选择。NuExtract 2.0的成功案例表明,通过针对性的精细训练,2B模型也能达到接近大模型的性能水平,这类似于培养一位高度专业化的业务专家。
善用“空间文本”格式:这一发现为无法或不愿使用视觉模型的应用场景提供了“性能捷径”。任何具备精确OCR能力的系统都能生成空间文本,技术门槛和计算成本得以大幅降低,却能带来显著的性能提升。
七、局限性与未来展望
当然,VAREX基准也存在其局限性。首先,其文档结构的复杂度上限受限于用于模式发现的24B参数模型的能力,一些对AI而言真正棘手的极端复杂结构可能未被充分涵盖。
其次,由于文档模式由AI参与生成,可能无意中偏向于“AI友好型”结构,而真实世界可能存在一些对人类设计者自然、但对AI极具挑战的文档模式。
此外,该基准目前仅包含单页、英文的美国**表格,缺乏对手写体、扫描伪影、多语言内容以及多页文档等现实挑战的覆盖,且表格的平均行数(中位数为3行)远低于企业级应用的实际处理规模。
尽管存在这些局限,VAREX仍为文档理解领域提供了一个至关重要的标准化评估工具。它像一套为AI模型设计的“综合能力体检项目”,帮助我们系统性地洞察其能力边界与薄弱环节。
归根结底,这项研究揭示了一个核心洞见:对于许多中小型AI模型而言,处理政府表格的主要瓶颈并非“看不懂内容”,而是“不按格式要求输出”。这为模型优化指明了清晰的方向——提升指令遵循的准确性与输出格式的规范性,有时比盲目扩大模型规模更为有效。
而“空间文本”格式的优异表现,则提供了一个高性价比的实用解决方案,有望显著降低AI文档处理技术的应用门槛。随着研究团队将完整数据集与评估代码开源,可以预见,未来将有更多开发者在此基础上构建出更智能、更可靠的文档理解系统,让“AI文档专员”真正变得高效且触手可及。
Q&A 常见问题解答
Q1:VAREX基准测试是什么?其开发目的是什么?
A:VAREX是由IBM Research开发的、专门用于评估AI模型从政府表格中提取信息能力的标准化测试集。由于现有测试多使用固定模板,难以反映AI处理真实世界多样化文档的能力,且尤其缺乏对中小型模型的评估,VAREX应运而生。它包含1777份结构独特的文档,旨在提供更贴近实际、更全面的能力评估标准。
Q2:中小型AI模型在处理政府表格文档时的主要问题是什么?
A:研究发现,4B参数以下的中小型模型核心问题在于“指令遵循”能力,而非“内容理解”能力。具体表现为“模式回声”——即模型无法按指定的JSON格式正确输出答案,导致准确率骤降。但这一问题可通过针对性训练有效解决,例如NuExtract 2.0模型经专门训练后,准确率从9.7%大幅提升至90.8%。
Q3:哪种输入格式对AI处理文档信息提取最有效?
A:研究表明,“空间文本”格式(即使用空格保留原始表格粗略布局的文本)效果最为显著,能为模型带来3-18个百分点的准确率提升,其效果甚至优于直接提供图像。该格式可由普通OCR引擎生成,成本低、易实现,为实际应用提供了高性价比的解决方案。
相关攻略
这项由IBM Research主导的研究,于2026年3月正式发布于arXiv预印本平台(论文编号:arXiv:2603 15118v1)。研究团队构建了一个名为VAREX的全新评估基准,其核心目标在于系统性地评测各类AI模型在理解与提取政府表格信息上的真实性能。 我们可以将AI模型想象成一位新入职
如果把AI投入一个没有标准答案的真实工程场景,它能否胜任? 长期以来,AI智能体(Agent)看似能力全面,但深入分析,其多数工作仍局限于在已知知识库中进行“信息检索”。它们擅长处理有明确对错的问题,如同考场上的尖子生。 然而,现实工程世界要复杂严酷得多。无论是水下机器人的姿态稳定控制、动力电池的快
AI能否真正实现科研全流程自动化?过去两年,“自动化研究”(Auto Research)备受瞩目:从文献阅读、方向探索到代码编写、实验执行,甚至生成新假设——人工智能似乎正朝着全能科研助手的方向迈进。 然而,真正参与过研究项目的研究者都深有体会,最耗费心智与时间的环节往往并非“让程序运行起来”,而是
人工智能技术正以前所未有的速度演进,但一个核心问题始终困扰着开发者和企业:如何让强大的AI能力,既能胜任复杂的专业任务,又能灵活适配从云端服务器到边缘设备的多样化计算环境?LG AI Research最新推出的EXAONE 3 5系列大语言模型,为这一难题提供了系统性的解决方案。它不再局限于单一的超
Frontier-EngBench基准推动AI评估从“一次性答对”转向“持续优化”。测试要求智能体在工程环境中通过迭代反馈、仿真验证与策略修正逼近最优解。研究表明,深度迭代推理相比并行尝试更能提升性能,揭示智能的核心可能在于长期反馈循环中持续自我修正的韧性,预示AI研发重点或从训练侧转移。
热门专题
热门推荐
进入2026年,加密货币市场的格局与安全标准已悄然进化。对于投资者而言,选择一个安全可靠的交易平台,其重要性丝毫不亚于挑选资产本身。毕竟,资产增值的前提,是它们得安然无恙地躺在你的账户里。今天,我们就来盘一盘当前市场上主流的虚拟资产交易所,从风控能力、资产储备与市场口碑等多个维度,做一次深入的“避雷
本文梳理了2026年备受关注的数字资产交易平台,从安全性、功能特色与用户体验等维度进行分析。重点探讨了主流合规平台在资产托管、交易深度上的优势,以及新兴聚合器在提升交易效率方面的创新。同时,也指出了选择平台时需关注的风险控制与合规性,为不同需求的用户提供参考方向。
本文汇总了2026年主流的数字资产交易平台,从安全性、功能特色、用户体验及合规性等维度进行分析。内容涵盖适合新手的综合性应用、面向专业交易者的工具型软件,以及注重资产安全的托管方案,旨在为用户选择合适平台提供客观参考,并提醒注意市场风险与自我资产保护。
本文梳理了2026年主流的数字资产交易平台,从安全性、交易体验、功能特色等维度进行分析。重点介绍了综合型头部平台、专注创新的新兴应用以及面向特定需求的专业工具,旨在为用户提供客观参考,帮助其根据自身情况选择合适的软件进行下载与使用。
本文探讨了2026年数字货币交易软件的选择标准,并列举了十款主流应用。内容涵盖安全性、交易对、用户体验及费用等核心考量维度,分析了不同平台在现货、合约及DeFi集成等方面的特色,旨在为不同层级的用户提供实用参考,帮助其根据自身需求做出合适选择。





