海诗网 头条热点 八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

有了上次使用模板爬取数据的经验,相信大家应该能熟练使用章鱼收集器了。或许有朋友好奇,是不是只能通过软件预设的模板抓取数据?当然不是,章鱼收集器还有自定义收集功能。

对于用户收集他们想要的数据,定制比预置模块更加灵活。虽然比预置模板复杂,但爬取的数据更符合你的意愿。本文将为大家带来章鱼收集器的定制模块教程。

第一步八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

首先启动并登录你的octopus collector,进入主界面,点击新建下的新建任务组,创建一个新组。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

单击“确定”创建新组。

第二步八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

创建组后,点击【新建】下的自定义任务,得到这样的界面。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

我们可以寻找我们想要抓取的网页的链接。在这里,边肖去JD.COM搜索手机,当搜索结果出来时,我们可以复制链接。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

将我们复制的链接粘贴到URL列,将任务组更改为之前创建的组,然后单击[保存设置]。

第三步八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

保存设置后会跳转到抓取界面,软件会自动开始识别网页中要抓取的部分。对应的等待时间根据个人机器的网速不同而不同。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

鉴定完成后,我们可以看到有很多数据,很多是没用的,需要淘汰。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

将光标移动到表格字段,将出现两个图标。钢笔图标是改变字段名,垃圾桶是删除这个字段。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

我们可以随意删除和更改字段名,这里边肖只保留上图中的字段。

第四步八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

设置完字段后,我们将注意力转向上图中的小方框。第一个不是可选的,我们直接忽略。

在采集前滚动页面加载更多数据:因为现在很多网站都使用动态页面,有些内容在加载时不会显示,只有我们下拉时才会逐渐显示,而这个功能就是为了防止这种情况的发生。

翻页并收集多页数据:设置为抓取多页,如果未选中,则仅抓取当前页面。

点击列表中的XXX,收藏下一页:此功能允许我们抓取子页面中的内容。

这里我们不深入抓取,只勾选前两项,然后点击【生成收藏设置】。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

点击生成后,您将开始保存或查看。点击此处保存并开始收集。

第五步八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

到了这个界面之后,我们可以看到一个详细的流程,里面的循环列表就是这个页面中爬取的内容。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

我们单击外部循环的设置按钮。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

展开退出循环设置并检查循环执行时间。这里我们只抓取3页。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

开始收集

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

收集完成后,单击导出。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

此外,如果你抓取的页面中存在重复数据,软件也会直接提示你根据自身情况选择保留或删除。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

导出模式

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

保存导出文件的位置。

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

保存完成

八爪鱼软件的自定义采集工作方式下(八爪鱼采集器8.0教程)

图像数据

以上是边肖为大家带来的章鱼收集器定制模块教程。熟练使用后,相信朋友们可以收集到更多的数据。使用octopus collector收集数据后,我们可以根据收集到的数据进行分析,完成各种任务。希望这篇文章能帮到你。

本文来自网络,不代表海诗网立场,转载请注明出处:https://m.hallse.com/n/173050.html
发表回复