采集场景
在国家统计局月度数据(https://data.stats.gov.cn/easyquery.htm?cn=A01), 筛选输入指定年份,循环采集各级指标及年度下各月份数据。
采集字段
各级指标名称、11月数据、10月数据、9月数据等。

采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

采集步骤
步骤一、打开网页
步骤二、筛选时间条件
步骤三、循环点击各级指标及提取指标名称
步骤四、月度指标数据提取
步骤五、规则优化
步骤六、启动采集
以下为具体步骤:
步骤一、打开网页
在首页【输入框】中输入目标网址 https://data.stats.gov.cn/easyquery.htm?cn=A01,点击【开始采集】,八爪鱼自动打开网页。
特别说明:
a. 打开网页后,如果开始开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。
b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程
步骤二、筛选时间条件
- 点击页面中展开下拉框位置,如:'最近13个月',在黄色操作提示框中点击【点击一次】
- 点击输入框位置,,在黄色操作提示框中点击【输入文本】,输入:‘2025’,点击确定生成配置
- 再对页面确定按钮进行点击,在黄色操作提示框中点击【点击一次】
步骤三、循环点击各级指标及提取指标名称
因栏目位置有多级指标列表需循环点击,采集器内需内嵌多层循环步骤
通过以下几步,实现循环点击每级指标列表
① 选中一级指标第1个列表项,在黄色操作提示框内,定位到A标签层下,
②黄色操作提示框内点击【选中全部相似元素】,接着点击【循环点击每个链接】,以生成逐个点击一级指标的配置
③黄色操作提示框内提示是否需要设置翻页,这里选择不需要
④继续选中一级指标第1个列表项,在黄色操作提示框内选择【文本内容】,以生成提取目前所选指标名称的配置
⑤选中二级指标第1个列表项,重复操作步骤①~④
⑥选中三级指标第1个列表项,重复操作步骤①~④
特别说明:
a. 经过以上连续3步,【循环-点击元素】创建完成。【循环】中的项,对应着页面上所有职位链接。启动采集以后,八爪鱼就会按照循环中的顺序依次点击每个职位链接,进入情页,以采集每个职位的具体数据。
b. 为何通过以上3步,可建立【循环-点击元素】?详情点击查看 采集点击多个链接后的详情页数据教程 。
c. 当前栏目循环点击不需要打开新标签页,则点击步骤的高级设置不需要勾选打开新标签页
步骤四、月度指标数据提取
① 先选中页面表格数据内第一行的中间任一一个单元格(不点第一个),再点击黄色操作提示框右下角的【tr】按钮扩选,选中至一整行。
②在黄色操作提示框中,点击【选中全部子元素】
③在黄色操作提示框中,点击【选中全部相似组】
④在黄色操作提示框中,点击【元素中数据内容】,确认采集配置
⑤对提取的字段进行命名
步骤五、规则优化
1、表格数据提取优化
经检查,发现有两列字段提取遗漏,这里做下补充提取
①点击遗漏列第一行单元格
②黄色操作提示框内,点击【文本内容】
③点击第二个遗漏列第一行单元格
④黄色操作提示框内,点击【文本内容】
⑤修改字段名称
2、分级指标名称提取优化
①点击【提取数据】步骤
②点击纵向字段布局
③修改字段XPath,
④点击【提取数据1】步骤,修改字段XPath
⑤点击【提取数据2】步骤,修改字段XPath
因每个分级指标选中后源码属性变化不一致,为精准提取所点击分级指标字段名称,修改字段XPath,
如:
一级指标字段→XPath://a[@class="level1 curSelectedNode"]
二级指标字段→XPath://a[@class="level2 curSelectedNode"]
三级指标字段→XPath://a[@class="level3 curSelectedNode"]
特别说明:
什么是XPath?如何写一条正确的XPath?点击查看 XPath学习与实例教程 。
3、时间条件筛选步骤优化
因循环点击切换分级指标后,表格数据页面的时间筛选会自动重置,所以需要调整下步骤执行位置。
①将步骤【点击元素】、【输入文本】、【点击元素1】,拖拽至步骤【提取数据2】与框架【循环列表3】之间
②点击步骤【点击元素】,基础设置内元素XPath如有变动,需改成【绝对XPath】,
③点击步骤【点击元素1】,与操作②同理
步骤七、启动采集
1、点击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。
2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。

示例数据:
