一、采集场景
澎湃新闻网站,采集新闻某个栏目下的列表页数据,再点击列表标题进入详情页获取新闻正文等字段,最后再循环滚动采集更多数据
https://www.thepaper.cn/channel_25950
二、采集字段
标题、标题链接、图片链接、栏目链接、栏目名称、时间、正文等
三、采集结果
采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

可以看到正文内文本与图片链接穿插按段落顺序采集
教程说明
八爪鱼版本:V8.7.7
如果因网页改版造成网址或步骤无效,无法采集到目标数据,请联系官方客服,我们将及时修正。
四、采集步骤
步骤一:打开网页
步骤二、配置循环点击进入详情页
步骤三、提取详情数据
步骤四、优化规则
步骤五、启动采集
以下为具体步骤:
步骤一、打开网页
在首页【输入框】中输入目标网址 https://www.thepaper.cn/channel_25950,点击【开始采集】,八爪鱼自动打开网页。
步骤二、配置循环点击进入详情页
点击第一个标题,操作提示框内,源码层定位到【A】标签层,点击【选中全部相似元素】,然后点击【循环点击每个链接】,其他都选择不需要。
说明:
具体操作参考:从列表进入详情页采集
步骤三、提取详情数据
1、提取非正文字段数据
1️⃣点击标题,在操作提示框内,点击【文本内容】,即可生成单一字段提取,其他字段如法炮制
2️⃣根据需要修改字段命名
2、对正文配置循环列表
1️⃣点击正文第一个段落,操作提示框内,点击【选中全部相似元素】,然后点击【文本内容】,生成循环列表。
2️⃣【循环列表1】循环框架内元素XPath修改为:
//div[@class="cententWrap__UojXm"]/p|//div[@class="cententWrap__UojXm"]/img
步骤四、配置判断条件
1️⃣在【循环列表1】下点击➕,
添加流程,选择判断条件,
2️⃣选中左侧【判断条件_分支】,选择【当前循环项包含元素】,元素XPath修改为:[@src]
3️⃣循环列表的提取步骤拖入右侧分支,并复制一份放入左侧分支,字段统一命名为【正文】,需保持一致
4️⃣字段右侧更多按钮,点击后勾选【同一字段的多行合并】
步骤五、优化规则
1、添加滚动
1️⃣点击【循环列表】框架,回到列表页
2️⃣在【循环列表】上方点击➕,添加流程【循环滚动网页】,滚动方式为【全局滚动】,循环次数可根据需要自行修改
3️⃣先选中【循环列表】框架,拖拽全部流程置于【循环滚动网页】步骤内部
2、规则优化
1️⃣【循环列表】内循环方式修改为【不固定循环列表】,XPath修改为://div[@class="toplink__MC3AJ"]/a
2️⃣ 配置好任务后,为了采集效果更稳定一些,根据页面加载情况,对任务步骤设置执行前等待及AJAX加载时长设置进行优化
说明:规则优化设置,参考教程:规则优化
步骤六、启动采集
1、单击【保存】,【采集】并选择【普通模式】。启动后八爪鱼开始自动采集数据。
建议启动采集后立即点击“显示网页”,从而及时发现网站是否出现验证码,需要先【暂停采集】自己手动完成验证码点击,然后再继续采集,如果出现验证,请及时验证通过后才能采集,如果验证无法通过,则无法正常采集数据!
特别说明:
a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解。
2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等

示例数据:
