一、采集场景
界面新闻网站,通过批量输入多个关键词检索相关新闻,然后采集新闻的列表页数据,再点击列表标题进入详情页获取新闻正文等字段,最后再翻页采集全部页的数据
二、采集字段
关键词、封面图图、标题、标题链接、简介、发布时间、正文、正文源码
三、采集结果
采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:
四、采集步骤
步骤一:打开网页
步骤二、批量输入关键词
步骤三、采集列表数据
步骤四、列表进入详情提取详情数据
步骤五、编辑字段
步骤六、设置循环翻页
步骤七、优化规则
步骤八、启动采集
以下为具体步骤:
步骤一、打开网页
在首页【输入框】中输入目标网址 https://a.jiemian.com/index.php?m=search&a=index&opt=old&msg=%E8%A5%BF%E8%97%8F,点击【开始采集】,八爪鱼自动打开网页。
步骤二、设置循环输入关键词检索
点击网页上的输入框,根据提示选择点击 输入文本-批量输入文本,然后批量输入关键词,每个关键词之间用回车键隔开。如输入:
华为
汽车
新疆
设置循环输入文本后,还需要点击网页上的检索按钮进行检索,具体流程如下:
步骤三、创建【循环列表】提取列表数据
采集列表的数据,创建一个循环列表进行提取列表数据,并且添加输入的关键词作为采集的字段
说明:如何实现采集列表数据?学习教程 03 采集列表数据
步骤四、点击进入详情提取详情字段
点击新闻标题,根据提示选择点击进入详情页提取正文、正文源码等字段
步骤五、修改编辑字段
依次修改编辑字段名,或调整字段顺序,如下:
步骤六、设置循环翻页
找到翻页按钮,设置循环点击生成循环翻页,实现采集每一页的数据
步骤七、规则优化
对任务进行优化设置,采集数据更加稳定
说明:规则优化是怎么优化?具体学习教程 规则优化
步骤八、保存任务启动采集
1.配置好任务后,点击【保存】-【启动采集】
2、采集完成后,选择合适的导出方式导出数据。
支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例: