请输入
菜单

【小红书】博主页主页笔记采集

一、采集场景

采集网页端小红书博主主页下的笔记内容,示例网址:
 

二、采集字段

博主、博主主页链接、粉丝数量、获赞与收藏量、笔记标题、笔记内容、发布时间、点赞数、笔记链接

 

三、采集结果预览

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:
 
教程说明
本篇教程制作时间:2025/08/04 八爪鱼版本:V8.7.7
如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

 

四、采集步骤

步骤一、打开网页
步骤二、设置预登录
步骤三、提取数据
步骤四、建立【循环列表】点击进入详情页面提取笔记
步骤五、设置点击返回到笔记列表页
步骤六、设置滚动
步骤七、规则优化
步骤八、启动采集
 

以下为具体步骤:

步骤一、打开网页

在首页【新建】-【自定义任务】-【手动输入】网址

 

步骤二、设置预登录

 开启【浏览模式】手动点击网页的【登录】,然后根据提示扫码登录小红书,然后设置cookie

说明:

预登录设置详细教程参考:登录验证采集 

 步骤三、提取数据

 提取博主相关信息,如博主昵称、链接、粉丝数量等

 步骤四、建立【循环列表】点击进入详情页面提取笔记

4.1、创建循环进入笔记详情

 选中笔记标题进行创建循环点击进入笔记详情页面,然后提取笔记详情页字段,如笔记标题、笔记内容等字段

说明:详细教程讲解学习【05 从列表进入详情页采集

4.3、编辑字段

 编辑修改字段名


4.4、修改循环列表xpath

 默认生成的循环列表xpath是固定元素,会导致只能采集固定量的数据,因此需要修改循环列表的xpath为【不固定元素】,xpath设置为://body/div[2]/div[1]/div[2]/div[2]/div[1]/div[3]/div[1]/div[1]/div[1]/section/div[1]/div[1]/a[1]

特别说明:

a. 如何写精准定位到所有字段的XPath?这需要一定的XPath知识。点击查看 XPath学习与实例教程

b.什么是固定元素与不固定元素?怎么修改循环列表的xpath?学习教程【XPath实例:修改循环列表XPath

 

 

步骤五、设置点击返回到笔记列表

点击进入笔记详情是ajax的页面,我们还需要手动加个点击页面左上角的【x】按钮关闭详情页面,这样设置后才能正常循环采集每个笔记详情的信息

 

说明:
什么是ajax?ajax页面需要怎么设置?详情学习教程【ajax与新标签

 

步骤六、设置滚动

因为小红书博主网页结构的原因:网页需要往下滚动,同时不管滚动多少次都只能定位几条数据。所以这里需要设置边滚动边采集,同时勾选上【滚动时循环列表不自动去重】。

小红书博主主页特殊网页结构问题会导致采集会有大量重复数据,这个属于正常现象,采集完成后,可以选择导出去重后的数据。

1.添加循环框,选择循环的方式为循环滚动;

2.设置滚动方式-向下滚动一屏;

3.勾选上【滚动时循环列表不自动去重】;

4.把【循环列表-提取列表数据】整个拖拽放到【循环】里面进行内嵌套,如动图所示。

步骤七、规则优化

 配置好任务后,因为小红书有反爬,为了采集效果更稳定一些,对任步骤务设置等待时间进行优化

 

步骤八、启动采集

点击保存然后启动【本地采集】

特别说明:

a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。

 
最近修改: 2025-08-08