请输入
菜单

【澎湃新闻】图文按顺序采集新闻正文

一、采集场景

澎湃新闻网站,采集新闻某个栏目下的列表页数据,再点击列表标题进入详情页获取新闻正文等字段,最后再循环滚动采集更多数据

https://www.thepaper.cn/channel_25950

 

二、采集字段

标题、标题链接、图片链接、栏目链接、栏目名称、时间、正文等

 

三、采集结果

采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

 

 

 

教程说明

八爪鱼版本:V8.7.7

如果因网页改版造成网址或步骤无效,无法采集到目标数据,请联系官方客服,我们将及时修正。

 

四、采集步骤

步骤一:打开网页

步骤二、自动识别及字段调整

步骤三、列表进入详情提取详情数据

步骤四、优化规则

步骤五、启动采集

 

以下为具体步骤:

 

步骤一、打开网页

 

在首页【输入框】中输入目标网址 https://www.thepaper.cn/channel_25950点击【开始采集】,八爪鱼自动打开网页。

 

步骤二、自动识别及字段调整

1、自动识别

点击自动识别,识别完成后点击【生成采集设置】,会自动生成滚动+采集列表的采集步骤

2、字段调整

自动识别生成列表提取配置后,删除不需要的字段,并对字段进行重命名

 

步骤三、列表进入详情提取详情数据

1、进入详情页

点击首个列表项的标题,在操作提示内,返回“A”标签层,然后点击【点击该链接】

 

说明:

因列表循环已创建好,故仅对列表项第一项的标题配置点击一次的步骤,即可实现循环进入详情页。

具体操作参考:从列表进入详情页采集

 

2、提取正文

对详情页页面所需采集的字段,逐个点击,并在操作提示内点击【文本内容】生成提取步骤。

 

说明:

因详情页无循环,生成提取步骤需逐个对字段进行配置。

具体操作参考:采集单个数据

 

步骤四、优化规则

配置好任务后,为了采集效果更稳定一些,根据页面加载情况,对任务步骤设置等待时间进行优化

 

说明:规则优化设置,参考教程:规则优化

 

步骤五、启动采集

1、单击【保存】,【采集】并选择【普通模式】。启动后八爪鱼开始自动采集数据。

建议启动采集后立即点击“显示网页”,从而及时发现网站是否出现验证码,需要先【暂停采集】自己手动完成验证码点击,然后再继续采集,如果出现验证,请及时验证通过后才能采集,如果验证无法通过,则无法正常采集数据!

 

 

特别说明:

a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等

 

 

示例数据:

 

上一个
【界面新闻】批量搜索关键词采集列表+详情
下一个
房产
最近修改: 2025-08-15