采集场景
在淘宝首页(https://s.taobao.com/search)输入关键词搜索,采集搜索后得到的商品列表页数据。示例中关键词为【耐克】,可根据需求进行更换,同时支持自动批量输入多个关键词。
采集字段
采集字段包括关键词文本值,产品标题,产品价格,销量,店铺名称,店铺链接等。
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
采集结果
采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:
教程说明
本篇制作时间:2025/8/28 八爪鱼版本:V8.7.7
如果因网页改版造成网址或步骤无效,无法采集到目标数据,请联系官方客服,我们将及时修正。
采集步骤
步骤一、打开网页
步骤二、登录淘宝
步骤三、输入多个关键词并搜索
步骤四、创建【循环列表】,采集所有商品列表中的数据
步骤五、创建【循环翻页】,采集多页数据
步骤六、编辑字段
步骤七、启动采集
以下为具体步骤:
步骤一、打开网页
在首页【输入框】中输入目标网址 https://s.taobao.com/search ,点击【开始采集】,八爪鱼自动打开网页
特别说明:
a. 打开网页后,如果开始开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。
b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程
步骤二、登录淘宝
1️⃣打开浏览模式
点击 按钮,打开浏览模式。在浏览模式中,点击淘宝页面左上角的登录按钮【亲,请登录】,输入账密或打开手机淘宝app扫码登录。
2️⃣使用Cookie登录
进入【打开网页】设置界面,勾选【使用指定的Cookie】,点击【获取当前页面Cookie】并保存。
这样就获取到了登录后的Cookie,启动时直接以登录状态打开网页。
特别说明:
a. 什么是浏览器模式?在浏览器模式下,我们可以像在浏览器中一样点击操作网页,不会生成流程步骤。如需编辑流程步骤,需关闭浏览器模式。关闭状态:
;打开状态:
![]()
b. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的小文件,用来保存一些站点的用户数据,作用是让浏览器为用户定制内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要【记住账号密码】。选择【是】以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。详情点击查看 登录验证采集)
c. 怎么判断是否获取到Cookie?获取Cookie后
会变成
,点击
,可查看具体的Cookie内容。
步骤三、输入多个关键词并搜索
1、在【打开网页】步骤后,点击页面输入文本的位置,一般定位到INPUT标签层上,点击操作提示内的【输入文本】
2、点击操作提示内的【批量输入文本】
3、将我们准备好的关键词粘贴进去(可同时输入多个关键字,隔行输入,一行一个即可)。
特别说明:
a. 示例中输入的关键词是【手机】和【衣服】,可根据自身需求进行替换。
b. 一次最多输入2W个关键字。可先准备一个包含多个关键字的文档,然后将其复制粘贴进八爪鱼中。
4、点击搜索
选中【搜索】按钮,在操作提示框中点击【点击该按钮】,出现关键词的搜索结果列表页。
步骤四、创建【循环列表】,采集所有商品列表中的数据
1、通过以下连续3步,采集所有商品列表中的数据:
①选中页面上1个商品列表(注意一定要选中整个列表,包含所有所需字段)
②在黄色操作提示框中,点击【选中全部相似元素】
③点击【文本内容】,生成循环配置
特别说明:
a. 经过以上连续3步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有商品列表,【提取数据】中的字段,对应着每个商品列表中的字段。启动采集以后,八爪鱼就会按照循环中的顺序依次提取每个列表中的字段。
b. 为何通过以上3步,可建立【循环-提取数据】?详情点击查看 列表数据采集教程 。
2、修改循环列表XPath
①点击流程图【循环列表】窗体,进入右下角【基础设置】
②基础设置内,循环方式修改为【不固定元素列表】
③元素XPath填写://div[@id="content_wrapper"]/div/div/a
3、提取所需字段
点击页面所需文本字段,操作提示内点击【文本内容】生成提取配置。
如提取链接字段,操作提示内点击【链接地址】
步骤五、创建【循环翻页】,以采集多页数据
如果只是采集一页数据,可跳过此步骤。
如果需要翻页以采集多页数据:选择页面中的【下一页】按钮,在操作提示上单击【循环点击下一页】,创建【循环翻页】。
特别说明:
a. 创建【循环翻页】后,八爪鱼会自动点击【下一页】按钮进行翻页,从第1页,第2页......直到最后1页。如果只需采集特定页的数据,可在八爪鱼中设置循环翻页的次数,详情点击查看 翻页以采集多页数据教程。
b. 在选中【下一页】范围时,选中的范围不同,弹出的提示也不同。如果选中的是最里层的文字【下一页】,黄色操作提示框中弹出的提示是【循环点击下一页】。如果选中的是最整个【下一页】按钮,黄色操作提示框中弹出的提示是【循环点击单个链接】。两者的作用相同,都是为了实现翻页。
步骤六,编辑字段
1、进入【提取数据】设置页面,可删除多余字段,修改字段名,移动字段顺序等。
2、修改字段XPath定位
实际操作我们发现,每个列表项的字段排版顺序会有差异,自动生成的字段并不能精准定位到所有列表项,这个时候我们需要再优化下流程的设置:
① 在浏览器(任意也可以),可按键盘【F12】进入源码界面,重新写一条xpath定位到所有的列表项,
价格xpath://div[@class="innerPriceWrapper--aAJhHXD4"]
销量xpath://span[@class="realSales--XZJiepmt"]
店铺名称xpath://span[@class="shopNameText--DmtlsDKm"]
② 流程图点击到提取步骤,在数据预览区域点击【纵向字段布局】按钮
将重写的XPath逐个复制修改进价格、销量、店铺名称字段的XPath区域
价格xpath://div[@class="innerPriceWrapper--aAJhHXD4"]
销量xpath://span[@class="realSales--XZJiepmt"]
店铺名称xpath://span[@class="shopNameText--DmtlsDKm"]
注意:
XPath相关知识可参考教程进行学习:XPath系统学习与实例
此处用到相关XPath,具体参考对应教程:绝对xpath、相对XPath学习与实例
步骤七、启动采集
1、单击【保存】并【采集】。启动后八爪鱼开始自动采集数据。
特别说明:
a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集
2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。
数据示例:
作者:Leon