在流程自动化领域,网页数据采集是实现高效信息处理的关键环节。通过自动抓取网页中的结构化信息,企业能够为数据分析、业务决策及后续自动化流程提供可靠的数据基础,从而显著提升运营效率。
为满足这一核心需求,实在RPA内置了智能数据采集组件。该功能启动后,会自动解析网页结构,智能识别并归类同类元素,形成清晰的待采集数据列。用户可以在页面下方实时预览采集效果,并根据需要自由调整采集字段与范围,操作直观便捷。
作为集成在实在RPA设计器中的智能组件,其使用逻辑与其他组件保持一致,但融合了数据配置、提取与处理的全流程。完整的操作主要包含以下四个核心步骤:
组件引用
数据采集是RPA设计中的常用功能,用户可在工具栏中快速调用。
具体方法为:进入流程块编辑页面,直接点击工具栏上的“数据采集”图标,该组件便会添加到右侧的编辑区域。

属性配置
组件的参数设置可在编辑器右侧的属性面板或弹出的属性框中完成。

配置时需重点关注以下几项基础属性:
配置数据采集项:核心设置区,用于定义采集的数据内容、格式及范围。
浏览器类型:指定执行采集任务的浏览器。运行时,组件将自动针对该浏览器当前激活的页面进行操作。
在数据表中预览采集效果:勾选后,可在控制台“数据表”标签页实时查看采集结果,便于即时验证数据准确性,此选项默认开启。
将采集结果导出至Excel中:若启用,用户可自定义输出文件的保存路径与名称,实现数据的一键归档与备份。
输出到变量:将采集结果存储至变量,供流程后续步骤调用。默认变量名为“df”,用户也可从右侧变量库中选择。请注意,此变量类型为二维表结构。
采集数据配置
点击属性项右侧的齿轮图标,系统将自动唤醒浏览器并导航至目标网页。同时,页面侧边或底部会弹出数据采集配置浮窗。
在该浮窗内,用户可对网页内容进行数据提取、字段增删、内容修正等操作,也能对已配置的采集项进行清理或调整。

采集范围支持灵活设定:可选择采集全部页面、仅当前页或指定页码范围内的数据。鼠标点击页面元素时,系统会显示其对应属性值,辅助用户精准定位所需信息。

采集结果处理
数据采集完成后,系统提供多种结果处理方式,以适应不同业务场景的需求。例如:
可直接输出采集结果,也可将数据存入变量,便于在后续自动化流程中灵活调用。
具体而言,采集结果主要有三种输出路径:
一是保存至变量“df”,以二维数组形式输出;二是导出为本地Excel文件;三是暂存于控制台的二维数据表中,支持实时查看与初步分析。
