一、采集场景
澎湃新闻网站,采集新闻某个栏目下的列表页数据,再点击列表标题进入详情页获取新闻正文等字段,最后再循环滚动采集更多数据
https://www.thepaper.cn/channel_25950
二、采集字段
标题、标题链接、图片链接、栏目链接、栏目名称、时间、正文等
三、采集结果
采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:
教程说明
八爪鱼版本:V8.7.7
如果因网页改版造成网址或步骤无效,无法采集到目标数据,请联系官方客服,我们将及时修正。
四、采集步骤
步骤一:打开网页
步骤二、自动识别及字段调整
步骤三、列表进入详情提取详情数据
步骤四、优化规则
步骤五、启动采集
以下为具体步骤:
步骤一、打开网页
在首页【输入框】中输入目标网址 https://www.thepaper.cn/channel_25950,点击【开始采集】,八爪鱼自动打开网页。
步骤二、自动识别及字段调整
1、自动识别
点击自动识别,识别完成后点击【生成采集设置】,会自动生成滚动+采集列表的采集步骤
2、字段调整
自动识别生成列表提取配置后,删除不需要的字段,并对字段进行重命名
步骤三、列表进入详情提取详情数据
1、进入详情页
点击首个列表项的标题,在操作提示内,返回“A”标签层,然后点击【点击该链接】
说明:
因列表循环已创建好,故仅对列表项第一项的标题配置点击一次的步骤,即可实现循环进入详情页。
具体操作参考:从列表进入详情页采集
2、提取正文
对详情页页面所需采集的字段,逐个点击,并在操作提示内点击【文本内容】生成提取步骤。
说明:
因详情页无循环,生成提取步骤需逐个对字段进行配置。
具体操作参考:采集单个数据
步骤四、优化规则
配置好任务后,为了采集效果更稳定一些,根据页面加载情况,对任务步骤设置等待时间进行优化
说明:规则优化设置,参考教程:规则优化
步骤五、启动采集
1、单击【保存】,【采集】并选择【普通模式】。启动后八爪鱼开始自动采集数据。
建议启动采集后立即点击“显示网页”,从而及时发现网站是否出现验证码,需要先【暂停采集】自己手动完成验证码点击,然后再继续采集,如果出现验证,请及时验证通过后才能采集,如果验证无法通过,则无法正常采集数据!
特别说明:
a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解。
2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等
示例数据: