5
新手入门 功能点介绍

【智能模式】【流程图模式】如何设置数据去重

2019-12-24 16:08:34
浏览 19390 次

摘要:本教程为大家介绍了如何设置数据去重 免费下载软件

数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。

在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。

1、去重条件

1)所有字段都重复

勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。

需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大致相同,但是都会判定为非重复的数据。

2)某些字段重复

勾选此去重条件,软件可以针对某一个或者某几个字段进行去重。

按照字段去重可以设置多个字段,点击“+”或者“—”符号进行设置,多个字段之间的关系是并且关系,即如果设置了两个字段去重,则需要满足字段1和2与已保存的某一条数据中的两个字段都相同,则判定该数据为一条重复数据。

2、执行动作

满足去重条件时,我们可以设置在这个去重条件下是跳过继续采集,还是停止任务。

分享到:
批量生成网址 python爬虫 正则匹配邮箱 网页下载成word python数据采集 批量下载视频 网页内容关键字提取 批量下载图片 数据自动整理成excel php爬虫
关闭