数据仓库-数据清洗
定义
ETL
抽取(Extract)、转换(Transform)、加载(Load)ETL的核⼼价值在\"T\"所代表的转换部分
数据清洗是对数据进⾏重新审查和校验的过程,⽬的在于删除重复信息、纠正存在的错误,并提供数据⼀致性
为什么要进⾏数据清洗
数据仓库中的数据是⾯向某⼀主题数据的集合,这些数据从多个业务系统中抽取⽽来,并且包含历史数据,因此就不可避免地出现某些数据是错误的,或者数据相互之间存在冲突的情况。这种数据被称为脏数据。
按照⼀定的规则处理脏数据,这个过程就是数据清洗
任务
数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是直接删除掉,还是修正之后再进⾏抽取。
脏数据类型
残缺的数据
这⼀类数据主要是⼀些应该有的信息缺失,如产品名称、客户名称、客户的区域信息,还包括业务系统中由于缺少外键约束所导致的主表与明细表不能 匹配等。
错误的数据
这⼀类错误产⽣的原因多是业务系统不够健全,在接收输⼊后没有进⾏合法性检查或检查不够严格,将有问题的数据直接写⼊后台数据库造成的,⽐如 ⽤字符串存储数字、超出合法的取值范围、⽇期格式不正确、⽇期越界等。
重复的数据
源系统中相同的数据存在多份。
差异的数据
本来具有同⼀业务含义的数据,因为来⾃不同的操作型数据源,造成数据不⼀致。这时需要将⾮标准的数据转化为在⼀定程度上的标准化数据。
数据清洗原则
优先对数据清洗处理流程进⾏分析和系统化的设计,针对数据的主要问题和特征,设计⼀系列数据对照表和数据清洗程序库的有效组合,以便⾯对不断变化的、形形⾊⾊的数据清洗问题。清洗流程
预处理
对于⼤的数据加载⽂件,特别是新的⽂件和数据集合,要进⾏预先诊断和检测,不能贸然加载。有时需要临时编写程序进⾏数据清洁检查
标准化处理
应⽤建于数据仓库内部的标准字典,对于地区名、⼈名、公司名、产品名、分类名以及各种编码信息进⾏标准化处理。
查重
应⽤各种数据库查询技术和⼿段,避免引⼊重复数据;
出错处理和修正
将出错的记录和数据写⼊到⽇志⽂件,留待进⼀步处理。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务