采集场景
打开宝学教育广东考试网其中一篇公告(实例网址:http://www.gdgwyw.com/html/gdzk/sz/202204/76_62407.html),采集正文以及相关附件链接(并且下载)。


采集字段
①标题,②文本,③附件链接,附件链接_保存位置。
采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。
导出为Excel示例:

下载文件示例:

教程说明
本篇制作时间:2025/11/14 八爪鱼版本:V8.7.7
如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。
采集步骤
步骤一、打开网页
步骤二、提取标题与正文
步骤三、确定附件xpath,采集并下载
步骤四、字段格式化处理(设置多个URL分开下载)
步骤五、启动采集与下载
以下为具体步骤:
步骤一、打开网页
1、打开网址
在首页输入框中,输入网址http://www.gdgwyw.com/html/gdzk/sz/202204/76_62407.html,然后点击【开始采集】,八爪鱼自动打开网页,网站会自动跳到登录页面
a. 打开网页后,如果开始开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。如果【自动识别】的结果不是我们需要的,可点击【取消】关闭智能识别,自行配置采集流程。详情点击查看 【自动识别】
如需批量打开多个详情页链接进行采集可参考视频操作,如不需要可跳过该步骤。
说明:循环打开网址可参考教程:URL循环:批量采集同类网页
步骤二、提取标题与正文
1、点击标题、正文
① 选中标题与正文
② 在黄色操作提示框中,选择【元素中数据内容】
特别说明:
步骤三、确定附件xpath,采集并下载
1、新增循环流程
① 添加流程-循环
② 选择循环,修改循环方式为“不固定元素列表”
③ 输入定位附件的xpath(//div[@id="Zoom"]//a[contains(@href,"http")])
特别说明:a. xpath定位原则就是准确且不同网址可复制定位,具体思路是先在网页定位所需元素,找相应有代表性的父标签以及其独特属性。具体指南:xpath基础学习b.应用完配置之后,可以点到流程空白处,再点击循环,即可看到其xpath定位到的具体列表。
2、设置采集附件链接与确定下载路径
①在循环流程中添加-提取数据
②设置添加页面元素
③设置拼接循环项xpath
④更改字段抓取方式为“链接地址”
⑤右击字段1,选择下载文件,生成下载路径
特别说明:a.设置提取数据直接拼接循环项目的是什么?主要是循环项已经是标准的附件定位xpath,不需要再写相对xpath拼接。具体相对/绝对xpath解析:绝对xpath、相对XPath学习
步骤四、字段格式化处理(设置多个URL分开下载)
1、调整字段位置并完善字段名称
①更改“提取数据-字段1”为“标题”
②更改“字段2”为“正文”
③更改“提取数据2-字段1”为“附件链接”
④路径名自动变化

特别说明:a.由于给“提取数据1-字段1设置过下载文件选项,则更改相关的字段名称,后面下载路径名称自己会变。
2、附件链接修改下载设置
①右击字段,点击“同一字段多行合并”
②点击字段下载设置,开启下载包含多个URL
特别说明:a. 由于此前我们一个网址只采集了标题和正文(并非循环),遇到网页多附件时,循环采集附件会导致正文和标题字段重复显示,为后续数据处理造成难度(尤其是多网址循环时),现在通过合并字段解决非附件重复问题:合并同一字段。b.由于字段合并,所以文件链接多条无法下载,这时开启包含多个URL(当字段单元格内容包含多个文件下载URL链接时,需要把链接分隔符设置一致否则链接拆分出错会导致下载失败。同时对应的“文件位置“字段内容也会同步使用相应的分隔符划分),同时合并字段就是换行符连接字段,这里不用更改。
步骤五、启动采集与下载
1、单击【采集】并【启动本地采集】。涉及到数据下载会跳出窗口确认是否下载。
特别说明:a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解,文件下载不支持云采集。
2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。

3、查看下载路径中文件下载情况。
作者:YfY