请输入
菜单

【政府网站】采集正文及下载文中附件

采集场景
打开宝学教育广东考试网其中一篇公告(实例网址:http://www.gdgwyw.com/html/gdzk/sz/202204/76_62407.html),采集正文以及相关附件链接(并且下载)。
 
采集字段
①标题,②文本,③附件链接,附件链接_保存位置。
 
采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。
导出为Excel示例:
 
 
下载文件示例:
 
 
教程说明
本篇制作时间:2025/11/14 八爪鱼版本:V8.7.7
如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。
 
采集步骤
步骤一、打开网页
步骤二、提取标题与正文
步骤三、确定附件xpath,采集并下载
步骤四、字段格式化处理(设置多个URL分开下载)
步骤五、启动采集与下载
 
 
以下为具体步骤:
 

步骤一、打开网页

1、打开网址
在首页输入框中,输入网址http://www.gdgwyw.com/html/gdzk/sz/202204/76_62407.html,然后点击【开始采集】,八爪鱼自动打开网页,网站会自动跳到登录页面
 
 
特别说明:
a. 打开网页后,如果开始开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。如果【自动识别】的结果不是我们需要的,可点击【取消】关闭智能识别,自行配置采集流程。详情点击查看 【自动识别
 
如需批量打开多个详情页链接进行采集可参考视频操作,如不需要可跳过该步骤。
 
 
说明:
循环打开网址可参考教程:URL循环:批量采集同类网页
 

 

步骤二、提取标题与正文

 
1、点击标题、正文
① 选中标题与正文
② 在黄色操作提示框中,选择【元素中数据内容】
 
 
特别说明:
a. 本教程主要展示附件下载,所以正文处没有规范字段,具体规范请结合xpath过滤合并同一字段处理。
 

 

步骤三、确定附件xpath,采集并下载

 
1、新增循环流程
① 添加流程-循环
② 选择循环,修改循环方式为“不固定元素列表”
③ 输入定位附件的xpath(//div[@id="Zoom"]//a[contains(@href,"http")])
 
 
特别说明:
a. xpath定位原则就是准确且不同网址可复制定位,具体思路是先在网页定位所需元素,找相应有代表性的父标签以及其独特属性。具体指南:xpath基础学习
b.应用完配置之后,可以点到流程空白处,再点击循环,即可看到其xpath定位到的具体列表。
 
2、设置采集附件链接与确定下载路径
①在循环流程中添加-提取数据
②设置添加页面元素
③设置拼接循环项xpath
④更改字段抓取方式为“链接地址”
⑤右击字段1,选择下载文件,生成下载路径
 
 
特别说明:
a.设置提取数据直接拼接循环项目的是什么?主要是循环项已经是标准的附件定位xpath,不需要再写相对xpath拼接。具体相对/绝对xpath解析:绝对xpath、相对XPath学习
 
 
 

步骤四、字段格式化处理(设置多个URL分开下载)

1、调整字段位置并完善字段名称
①更改“提取数据-字段1”为“标题”
②更改“字段2”为“正文”
③更改“提取数据2-字段1”为“附件链接”
④路径名自动变化
 
特别说明:
a.由于给“提取数据1-字段1设置过下载文件选项,则更改相关的字段名称,后面下载路径名称自己会变。
 
2、附件链接修改下载设置
①右击字段,点击“同一字段多行合并”
②点击字段下载设置,开启下载包含多个URL
 
 
特别说明:
a. 由于此前我们一个网址只采集了标题和正文(并非循环),遇到网页多附件时,循环采集附件会导致正文和标题字段重复显示,为后续数据处理造成难度(尤其是多网址循环时),现在通过合并字段解决非附件重复问题:合并同一字段
b.由于字段合并,所以文件链接多条无法下载,这时开启包含多个URL(当字段单元格内容包含多个文件下载URL链接时,需要把链接分隔符设置一致否则链接拆分出错会导致下载失败。同时对应的“文件位置“字段内容也会同步使用相应的分隔符划分),同时合并字段就是换行符连接字段,这里不用更改
 

 

步骤五、启动采集与下载

 
1、单击【采集】并【启动本地采集】。涉及到数据下载会跳出窗口确认是否下载。
 
 
特别说明:
a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解,文件下载不支持云采集。
 
2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。
 
 
3、查看下载路径中文件下载情况。
 
 
 
 
 
 
 
作者:YfY
 
上一个
【澎湃新闻】图文按顺序采集新闻正文
下一个
房产
最近修改: 2025-11-06