一、采集场景
新华网网站:http://so.news.cn/#search/0/%E6%96%B0%E9%97%BB/1/,通过批量输入多个关键词检索相关新闻,然后采集新闻的列表页数据,再点击列表标题进入详情页获取新闻正文等字段,最后再翻页采集全部页的数据
二、采集字段
标题、标题链接、标签、时间、关键词、发布时间、来源、正文内容

三、采集结果
采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

四、采集步骤
步骤一:打开网页
步骤二、设置循环输入关键词检索
步骤三、创建【循环列表】提取列表数据
步骤四、点击进入详情提取详情字段
步骤五、修改编辑字段
步骤六、设置循环翻页
步骤七、规则优化
步骤八、保存任务启动采集
以下为具体步骤:
步骤一、打开网页
在首页【输入框】中输入目标网址:http://so.news.cn/#search/0/%E6%96%B0%E9%97%BB/1/ , 点击【开始采集】,八爪鱼自动打开网页。
步骤二、设置循环输入关键词检索
打开网页后,通过以下几步,实现批量输入多个关键词
① 选中新闻搜索框,在操作提示框中,点击【输入文本】
②点击操作框的【批量输入文本】,输入要搜索的所有关键词
教育
科技
汽车
创新
③ 选中【搜索】按钮,在操作提示框中,点击【点击一次】,出现关键词的搜索结果,点击确定,及在右侧生成一个循环输入文本的步骤
步骤三、创建【循环列表】提取列表数据
通过以下步骤,采集所有商品列表中的数据:
1、选中页面上1个新闻列表(注意一定要选中整个列表,包含所有所需字段)
2、在黄色操作提示框中,点击【选中全部子元素】
3、点击【选择全部相似组】
4、点击【元素中数据内容】
5、创建一个循环列表进行提取列表数据,并且添加输入的关键词作为采集的字段
说明:如何实现采集列表数据?学习教程 03 采集列表数据
步骤四、点击进入详情提取详情字段
1、选中页面上1个新闻列表标题,在操作提示框中【点击该链接 】
2、选中页面中的文本,然后在操作提示框中,提取数据【文本内容】,示例中我们提取了正文内容、发布时间、来源等字段
步骤五、修改编辑字段
依次修改编辑字段名,或调整字段顺序,如下:
步骤六、设置循环翻页
找到并点击页面中的翻页按钮,在自动弹出的【黄色操作提示框】中点击【循环点击】。这样,用翻页按钮创建【循环翻页】的步骤就完成了。可以看到流程图中出现一个【循环翻页】的步骤,这就表明我们已经成功创建好了【循环翻页】,八爪鱼就能自动完成翻页了
步骤七、规则优化
配置好任务后,为了采集效果更稳定一些,根据页面加载情况,对任务步骤设置等待时间进行优化
说明:规则优化是怎么优化?具体学习教程 规则优化
步骤八、保存任务启动采集
1.配置好任务后,点击【保存】-【启动采集】
2、采集完成后,选择合适的导出方式导出数据

支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例:
