请输入
菜单

【新华网】关键词搜索采集

一、采集场景

新华网网站:http://so.news.cn/#search/0/%E6%96%B0%E9%97%BB/1/,通过批量输入多个关键词检索相关新闻,然后采集新闻的列表页数据,再点击列表标题进入详情页获取新闻正文等字段,最后再翻页采集全部页的数据
 
 

二、采集字段

标题、标题链接、标签、时间、关键词、发布时间、来源、正文内容
 

三、采集结果

采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

 

四、采集步骤

步骤一:打开网页
步骤二、设置循环输入关键词检索
步骤三、创建【循环列表】提取列表数据
步骤四、点击进入详情提取详情字段
步骤五、修改编辑字段
步骤六、设置循环翻页
步骤七、规则优化
步骤八、保存任务启动采集
 
以下为具体步骤:
 

步骤一、打开网页

在首页【输入框】中输入目标网址:http://so.news.cn/#search/0/%E6%96%B0%E9%97%BB/1/   , 点击【开始采集】,八爪鱼自动打开网页。
 

步骤二、设置循环输入关键词检索

打开网页后,通过以下几步,实现批量输入多个关键词

① 选中新闻搜索框,在操作提示框中,点击【输入文本】

②点击操作框的【批量输入文本】,输入要搜索的所有关键词

教育
科技
汽车
创新

③ 选中【搜索】按钮,在操作提示框中,点击【点击一次】,出现关键词的搜索结果,点击确定,及在右侧生成一个循环输入文本的步骤

 
 

步骤三、创建【循环列表】提取列表数据

通过以下步骤,采集所有商品列表中的数据:

1、选中页面上1个新闻列表(注意一定要选中整个列表,包含所有所需字段) 

2、在黄色操作提示框中,点击【选中全部子元素】

3、点击【选择全部相似组】

4、点击【元素中数据内容】

5、创建一个循环列表进行提取列表数据,并且添加输入的关键词作为采集的字段





说明:如何实现采集列表数据?学习教程 03 采集列表数据
 

步骤四、点击进入详情提取详情字段

1、选中页面上1个新闻列表标题,在操作提示框中【点击该链接 】

2、选中页面中的文本,然后在操作提示框中,提取数据【文本内容】,示例中我们提取了正文内容、发布时间、来源等字段

 

步骤五、修改编辑字段

依次修改编辑字段名,或调整字段顺序,如下:


步骤六、设置循环翻页

找到并点击页面中的翻页按钮,在自动弹出的【黄色操作提示框】中点击【循环点击】。这样,用翻页按钮创建【循环翻页】的步骤就完成了。可以看到流程图中出现一个【循环翻页】的步骤,这就表明我们已经成功创建好了【循环翻页】,八爪鱼就能自动完成翻页了


步骤七、规则优化

配置好任务后,为了采集效果更稳定一些,根据页面加载情况,对任务步骤设置等待时间进行优化

说明:规则优化是怎么优化?具体学习教程 规则优化
 

步骤八、保存任务启动采集

1.配置好任务后,点击【保存】-【启动采集】
 

2、采集完成后,选择合适的导出方式导出数据



支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例:

上一个
【人民网】首页新闻采集
下一个
【央视新闻】关键词搜索列表采集
最近修改: 2026-03-31