请输入
菜单

【澎湃新闻】图文按顺序采集新闻正文

一、采集场景

澎湃新闻网站,采集新闻某个栏目下的列表页数据,再点击列表标题进入详情页获取新闻正文等字段,最后再循环滚动采集更多数据

https://www.thepaper.cn/channel_25950

 

二、采集字段

标题、标题链接、图片链接、栏目链接、栏目名称、时间、正文等

 

三、采集结果

采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

可以看到正文内文本与图片链接穿插按段落顺序采集

 

教程说明

八爪鱼版本:V8.7.7

如果因网页改版造成网址或步骤无效,无法采集到目标数据,请联系官方客服,我们将及时修正。

 

四、采集步骤

步骤一:打开网页

步骤二、配置循环点击进入详情页

步骤三、提取详情数据

步骤四、优化规则

步骤五、启动采集

 

以下为具体步骤:

 

步骤一、打开网页

 

在首页【输入框】中输入目标网址 https://www.thepaper.cn/channel_25950点击【开始采集】,八爪鱼自动打开网页。

 

步骤二、配置循环点击进入详情页

点击第一个标题,操作提示框内,源码层定位到【A】标签层,点击【选中全部相似元素】,然后点击【循环点击每个链接】,其他都选择不需要。

 

说明:

具体操作参考:从列表进入详情页采集

 

 

步骤三、提取详情数据

 

1、提取非正文字段数据

1️⃣点击标题,在操作提示框内,点击【文本内容】,即可生成单一字段提取,其他字段如法炮制

2️⃣根据需要修改字段命名

 

 

 

2、对正文配置循环列表

1️⃣点击正文第一个段落,操作提示框内,点击【选中全部相似元素】,然后点击【文本内容】,生成循环列表。

2️⃣【循环列表1】循环框架内元素XPath修改为:

//div[@class="cententWrap__UojXm"]/p|//div[@class="cententWrap__UojXm"]/img

 

 

 

步骤四、配置判断条件

1️⃣在【循环列表1】下点击➕,添加流程,选择判断条件,

2️⃣选中左侧【判断条件_分支】,选择【当前循环项包含元素】,元素XPath修改为:[@src]

3️⃣循环列表的提取步骤拖入右侧分支,并复制一份放入左侧分支,字段统一命名为【正文】,需保持一致

4️⃣字段右侧更多按钮,点击后勾选【同一字段的多行合并】

 

步骤五、优化规则

1、添加滚动

1️⃣点击【循环列表】框架,回到列表页

2️⃣在【循环列表】上方点击➕,添加流程【循环滚动网页】,滚动方式为【全局滚动】,循环次数可根据需要自行修改

3️⃣先选中【循环列表】框架,拖拽全部流程置于【循环滚动网页】步骤内部

 

2、规则优化

1️⃣【循环列表】内循环方式修改为【不固定循环列表】,XPath修改为://div[@class="toplink__MC3AJ"]/a

2️⃣ 配置好任务后,为了采集效果更稳定一些,根据页面加载情况,对任务步骤设置执行前等待及AJAX加载时长设置进行优化

 

 

说明:规则优化设置,参考教程:规则优化

 

步骤六、启动采集

1、单击【保存】,【采集】并选择【普通模式】。启动后八爪鱼开始自动采集数据。

建议启动采集后立即点击“显示网页”,从而及时发现网站是否出现验证码,需要先【暂停采集】自己手动完成验证码点击,然后再继续采集,如果出现验证,请及时验证通过后才能采集,如果验证无法通过,则无法正常采集数据!

 

 

特别说明:

a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等

 

 

示例数据:

 

上一个
【界面新闻】批量搜索关键词采集列表+详情
下一个
【腾讯新闻】视频采集与导出
最近修改: 2026-02-10