纸质发片和Excel账单明细的逐行核对,是财务工作中最消耗精力的环节之一。稍不留神,小数点错位、跳行漏看、重复录入这些“小问题”就可能埋下隐患。现在,阶跃AI的多模态识别技术可以直接处理这个痛点——上传发片,系统自动与Excel数据对齐,校验逻辑关系,标记出差异项。
我们先来快速拆解一下它的处理流程:上传发片文件后,系统通过视觉编码+OCR提取结构信息与文本内容;同时导入Excel或纯文本账单,自动解析字段并进行语义映射;接着执行字段对齐、基于图神经网络的明细匹配和逻辑校验这“三重核验”;最终生成双栏对比视图和可导出的差异报告。整个过程自动完成,不需要手动干预。
上传文件并触发多模态识别
在阶跃星辰STEP3-VL-10B的WebUI界面下,操作很直接。点击【上传文件】按钮,选择发片图片(JPEG或PNG格式都可以)或者PDF文件(不超过20MB,页数控制在2000页以内)。系统会自动调用视觉编码器提取发片的布局结构和文本块,同时OCR引擎开始进行字符识别。
➡️ 这里有一个前提需要注意:发片图像不能有大面积的反光或者手指遮挡关键字段,否则金额等关键区域可能会被模型跳过。
上传完成后,在右侧的“任务类型”下拉菜单中选择【发片-账单明细比对】,然后点击【开始分析】即可。
导入账单明细数据
导入Excel数据有两种方式,都很方便。
方法一:直接拖拽
如果你有Excel文件(.xlsx或.xls格式,要求单表且首行为字段名),直接拖入窗口即可。系统会自动解析为结构化表格,并识别出“商品名称”“数量”“单价”“金额”等常用列名。假如遇到“总价”“合计”“应付金额”这类有歧义的列名,模型会根据上下文语义自动归类为“总金额”字段,不需要你手动指定。
方法二:粘贴文本
你也可以直接粘贴纯文本格式的表格(用制表符或逗号分隔)。每条明细占一行,字段顺序不要求严格对齐——模型会根据字段值的分布特征来自动映射。比如,凡是包含“¥”或“元”的列会被判定为金额,18位数字串则被识别为税号。
⚠️特别提醒:如果Excel文件中涉及合并单元格或嵌套表头,导入前务必先另存为“仅数值+标题”的格式,否则表格结构解析很可能会失败。
执行三重交叉核验
这步是整个功能的核心,模型会依次执行三个层次的核对:
第一层:字段级对齐
模型将发片上的“开票日期”“收款方名称”“税号”等非明细字段,与Excel表头中同义的字段(如“供应商”“销方税号”)做语义匹配,并生成一个映射关系表。这相当于先把两个数据源的“脑袋”对齐了。
第二层:明细行关联
对发片上的商品明细表格,模型采用图神经网络(GNN)来还原行列结构,然后与Excel中的明细逐行进行组合匹配。匹配依据是“商品名称+规格+数量”,并且支持一定程度的模糊匹配。举个例子,“iPhone15”和“苹果iPhone 15”会被认为是同一商品。那些无法匹配的行会被自动标记为‘新增项’或‘缺失项’。
第三层:逻辑校验
这是最关键的一步。模型会自动计算Excel明细行中“数量×单价”之和,并与发片上的“价税合计”进行比对。同时还会检查税率栏是否与国家税务总局最新目录一致,并识别发片专用章是否覆盖了关键字段造成遮挡。所有逻辑层面的问题都会在这里被揪出来。
查看并导出差异报告
核验完成后,系统会生成一个非常直观的双栏对比视图:左栏展示发片原文,并高亮标注;右栏展示Excel明细。所有存在差异的地方,都会用红色边框加叹号图标标出,一目了然。
点击任意一个差异项,会弹出详情浮层,显示发片原始值、Excel对应值以及具体的偏差类型。比如“金额差¥12.50”“日期格式不一致”“税号位数错误”等。
如果想把结果保存下来,只需点击【导出报告】,可以选择PDF或Excel格式。导出的报告内容很完整,包含差异总数和严重等级的摘要页、逐项的明细表,以及带有坐标定位的发片截图标注页,方便存档和后续跟进。
