数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于3个领域,即数据仓库领域、数据挖掘领域以及数据质量管理领域。
在数据仓库领域中,当多个数据库合并时或多个数据源进行集成时,都需要进行数据清洗。例如,当同一个实体的记录在不同数据源中以不同的表示格式或错误表示的情况下,合并后的数据仓库中就会出现重复的记录,数据清洗的程序就需要识别出重复的记录并消除重复的记录,也就是所谓的数据合并或清除(Merge/Purge)问题。在数据仓库环境中,数据清洗主要包括数据的清洗和结构的转换两个过程。
在数据挖掘领域中,数据清洗是数据进行预处理过程的第一个步骤。在数据预处理应用中,数据清洗的主要任务是提高数据的可用性,即去除噪声、无关数据以及空值等,并考虑数据的动态变化。在字符分类问题中,通过使用机器学习的技术进行数据清洗,即使用特定算法检测数据库对缺失和错误的数据予以修改。
在数据质量管理领域中,数据质量管理是一个学术界和商业界都感兴趣的领域。数据质量管理主要用于解决信息系统中的数据质量及集成问题。在该领域中,数据清洗从数据质量的角度出发,把数据清洗过程和数据生命周期集成在一起,对数据的正确性进行检查并提高数据质量。