数据清洗是什么

子凡 2020-08-13 15:22:59
问答

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。其目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

数据清洗 Data cleaning

基本概念

数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

一致性检查

一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用 1-7 级量表测量的变量出现了 0 值,体重出现了负数,都应视为超出正常值域范围。SPSS、SAS、和 Excel 等计算机软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。具有逻辑上不一致性的答案可能以多种形式出现:例如,许多调查对象说自己开车上班,又报告没有汽车;或者调查对象报告自己是某品牌的重度购买者和使用者,但同时又在熟悉程度量表上给了很低的分值。发现不一致时,要列出问卷序号、记录序号、变量名称、错误类别等,便于进一步核对和纠正。

无效值和缺失值的处理

由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。

估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。

整例删除(casewise deletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。

变量删除(variable deletion)。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。

成对删除(pairwise deletion)是用一个特殊码(通常是 9、99、999 等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。

采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。因此,在调查中应当尽量避免出现无效值和缺失值,保证数据的完整性。

数据清洗原理

数据清洗原理:利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。

主要类型

残缺数据

这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同 Excel 文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。

错误数据

这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写 SQL 语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致 ETL 运行失败,这一类错误需要去业务系统数据库用 SQL 的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。

重复数据

对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。

数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入 Excel 文件或者将过滤数据写入数据表,在 ETL 开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。

0个人收藏 收藏

评论交流

泪雪默认头像 请「登录」后参与评论
  1. 加载中..

相关推荐

  • SSD

    固态硬盘的格式化和分区有何注意事项

    千万不可频繁地进行完全格式化。完全格式化(又称低级格式化)硬盘的过程实际上就是对硬盘进行深度清洗的过程,所有内容将被彻底删除。避免过多分区。固态硬盘在工作时,大量小块的读写会消耗更多的资源,导致速度降低。
  • 便携软路由 R86S 5G WiFi

    软路由如何有效处理DDoS攻击和网络风暴

    软路由作为现代网络的核心部件,对抗DDoS攻击和网络风暴是其关键能力。通过实时流量监控、流量限制、数据清洗、与云服务及防火墙集成、多节点部署以及定期软件更新,软路由可以有效地识别、分散和减轻恶意攻击,保障网络服务的稳定性。
  • 打印机 printer

    打印机喷头怎么清洗

    清洗打印机喷头可以使用打印机的清洁功能,和手动清洁喷头两种方法。许多打印机品牌和型号都提供了内置的喷头清洁功能,通过打印机的控制面板或相关软件,可以选择运行清洁程序进行清洗;手动清洗可使用打印机喷头清洁液,轻轻擦拭喷头,等待干燥即可。
  • DDoS 攻击

    怎么防御DDoS攻击

    DDoS攻击的防御可以采取多种手段,如增加带宽、使用CDN、部署防火墙、设置流量清洗等。此外,还可以通过多种技术手段来缓解DDoS攻击,如黑白名单、限流、源IP限制等。同时,加强安全意识培训,定期检查和更新系统漏洞,及时备份和恢复数据也是有效的防御措施。
  • 空调清洗 air-conditioning cleaning

    空调过滤网如何清洗

    在空调两侧找到进风栅并稍微用点力将滤网拉出,使用40度以下的水进行冲洗;如果比较脏,可以用软毛刷轻轻刷洗,将过滤网洗净后,先把水甩干,然后放在通风阴凉处自然晾干;这样有利于清洗过的滤网在干净的环境中使用,最后将清理好的滤网安装即可。
  • Cyber Attack 电脑网络攻击

    CC攻击防护是什么

    CC攻击防护可识别并清洗针对网站的恶意流量,有效拦截多种类型的CC攻击,避免恶意入侵长时间占用消耗服务器的核心资源,造成服务器性能异常问题。确保您的网络数据中心稳定运行,解决因恶意请求导致网站业务响应缓慢或无法正常提供服务。