大数据清洗加工概述
大数据清洗加工就是对收集整理的原始数据进行必要的审查、校验和加工处理,把“脏”的数据“清洗掉”,发现并纠正数据文件中的可识别错误,提高数据质量,以便数据可以更好地用于后续分析过程。数据清洗的过程涉及到对数据的收集、整理、清洗以及优化等一系列操作。它的目标是去除错误、异常或不一致的数据,提高数据的准确性和可靠性,从而使数据能够更好地服务于分析和决策过程。
一、数据清洗加工内容
数据清洗的主要内容包括以下:
(1)、缺失值处理:缺失值是指数据中的某些字段或属性没有被填写或记录的情况。处理缺失值的方法包括删除含有缺失值的记录、使用平均值或中位数填充缺失值、使用插值法进行填充等。
(2)、异常值处理:异常值是指与其他数据明显不符的数值,可能是由于测量误差或数据录入错误导致的。处理异常值的方法包括删除异常值、替换为合理的数值、使用统计方法进行修正等。
(3)、重复值处理:重复值是指数据集中存在完全相同或近似相同的记录。处理重复值的方法包括删除重复记录、合并重复记录、标记重复记录等。
(4)、数据格式转换:数据可能以不同的格式存储,如日期、时间、货币等。数据清洗时需要将数据转换为统一的格式,以便后续的分析和处理。
(5)、数据标准化:数据标准化是将不同单位或范围的数据转换为相同的标准单位或范围。常见的数据标准化方法包括最小-最大标准化等。
(6)、关联性数据验证:当数据记录有多个来源时,需要进行关联性验证,如果在数据分析过程中发现数据之间互相矛盾,需要将关联性的相关数据进行调整或去除,通过对数据的分析检测,从而使得数据保持一致。
(7)、数据一致性检查:数据清洗时需要检查数据的一致性,例如检查数据的逻辑关系、约束条件等,以确保数据的准确性和完整性。
二、数据清洗加工流程
利用数理统计、数据挖掘和预定义清理规则等有关技术将“脏数据”处理掉,从数据源中检测并消除错误、不一致、不完整和重复等数据,为满足要求提供高质量的数据。数据清理的标准模型是将数据输入到数据清理处理器,通过一系列步骤清理数据,然后以期望的格式输出清理过的数据。数据清洗通常包括以下几个步骤:
(1)、数据收集与整理:这是数据清洗的基础阶段,涉及到的数据可能包括历史数据、实时数据等不同类型的数据源。
(2)、数据质量评估:在这个阶段,会评估数据的质量,包括完整性、准确性、一致性、时效性、可靠性和可信性等方面。
(3)、数据清洗处理:根据评估的结果,对存在问题的数据进行处理,如填充缺失值、修正异常值或删除重复值。
(4)、数据持续优化:将数据清洗过程中获得的经验和最佳实践固定下来,以便未来能够重复使用并持续提升数据质量和清洗效果。
三、数据清洗加工方法
常规的数据清洗的方法包括手工清洗和自动清洗两种方式。其中手工清洗是指人工干预来对数据进行清洗和修正;自动清洗则是指使用计算机程序和算法来自动化处理和清洗数据。我们针对数据缺失、数据不匹配、数据重复、数据不合理等问题,提供了相应的数据清洗处理方法。
(一)、数据缺失值
处理缺失值非常重要,因为缺失值会影响数据的分析和决策。因此,正确选择填充或删除策略是很必要的,同时也可以根据具体情况使用不同的统计方法或数据工具进行数据清洗。具体处理方法如下:
1. 计算缺失比例
首先,我们可以计算每个字段的缺失值比例,然后根据比例和字段的重要性设置不同的策略。
2. 删除不重要或缺失率过高的数据
如果数据不重要或者缺失率过高,可以直接删除字段。
3. 填充缺失数据
对于重要数据或缺失率较低的数据,我们可以使用以下三种方法来填补数据:
- 根据业务知识或过往经验给出推测填充
- 利用同一指标数据计算结果(如均值、中位数等)填充
- 利用不同指标数据推算结果填充,例如用身份证信息可以揭示年龄等信息。
4. 重新获得数据
对于某些缺失率高,且缺失值被认为非常重要的数据,需要针对数据源重新进行数据采集补充;或需要与业务人员合作,探讨评估其他渠道重新获得数据的可能性,例如某些数据可能可以通过另一个数据库或API得到。
(二)、数据值不匹配
在处理数据值不匹配问题时,需要采用一些常规的清洗方法,并结合具体情况采用人工处理等方法,最终保证数据的准确性和完整性。以下是处理此类问题的两种方法:
1. 清洗内容中有不合逻辑的字符
在处理这种数据时,主要是要去除不合逻辑的字符,如头、尾或中间的空格、姓名中的特殊字符和拼写错误等。这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。可以通过使用数据清洗工具或者编写规则脚本来实现。
2. 内容和该字段应有内容不符
在处理数据中出现内容和字段不匹配的情况时,需要采用详细识别、分类处理问题的方法。这部分的处理往往需要人工处理,尽量细致地检查,避免遗漏或误删。处理方法包括:
- 针对某个字段的特殊值或异常值,可以通过检查业务逻辑或者调查来识别原因,并进行修正。
- 对于乱码等无法处理的问题,除了删除外,也可以先进行分类,再人工处理,提高清洗的效率和准确性。
(三)、数据重复
处理重复数据需要根据具体情况来选择合适的方法。除了使用现有的数据清洗工具外,还需要结合业务规则和数据特点来进行合理的数据清洗操作。以下是处理重复数据的方法:
1. 数据值完全相同的多条数据记录
对于值完全相同的数据,可以使用一些去重工具自动识别和删除重复的数据行。
2. 数据主体相同,但一个属性匹配到不同的多个值
对于这种情况,可以选择通过合并多列数据来实现去重。例如,可以选择使用GROUP BY的SQL语句,将相同的记录合并在一起,或者通过编写脚本来筛选出相同的唯一记录。
需要注意的是,有些情况下可能不应该对重复记录进行去重操作。以下是几种情况:
a. 重复记录用于分析演变规律
在分析数据变化历史时,重复记录是有用的,因为它们可以显示系统迭代更新时的数据变化。
b. 重复的记录用于样本不均衡处理
在数据分析中,有时需要处理样本不均衡的情况。在这种情况下,重复记录可以用于增加少数类样本,从而获得更准确的数据分析结果。
c. 重复的记录用于检测业务规则问题
在检测业务规则问题时,重复记录可以反映业务规则的缺陷和不足。在此情况下,需要人工验证每个记录是否有效,查看是否存在业务规则的漏洞。
(四)、数据不合理
处理数据不合理的问题需要使用不同的方法分析和清洗:
1. 数据分箱
分箱是将连续变量转换为离散变量的一个常见方法。可以通过将连续数据按照一定的范围分组,将分组后的数据作为一个新的类别进行分析,从而识别不合理的数据点。对于存在异常的箱子,可以将其视为无效数据并进行清洗。
2. 聚类分析
聚类是一种无监督学习方法,可以将数据集中的相似数据分成不同的集群。可以使用聚类来发现不同的数据群体,并查找其中的异常值/不合理值。
3. 回归分析
回归分析可以对数据进行建模分析,来识别模型中的离群值和异常值。通过观察回归模型的拟合效果,可以发现数据集中的异常值、离群值或者不合理数据,并采取相应的措施进行清洗。
需要注意的是,分析数据不合理值通常需要利用统计方法,找出数据中明显偏离正常分布范围的数据点,并考虑其异常性和实际业务情况,进行人工处理。和其他数据清洗操作类似,清洗过程也需要考虑业务逻辑,利用各种方法尽可能地提高准确率和效率。
(五)、数据字段格式
在进行数据字段格式处理时,必须考虑到业务需要和数据质量要求,并同时验证清洗的有效性。以下是解决此类问题的方法:
- 确定正确的数据字段格式
首先需要确定每个字段应该具有的格式类型,如日期、数字、文本等。然后,对照字段的实际格式类型,识别需要进行格式转换或清洗的字段。 - 清洗文本格式
对于文本字段,应该去除多余的空格、特殊字符、标点符号和其他格式问题。比较常见的文本清洗包括去掉HTML标记、转换大小写、识别并转换URL等。 - 数据类型转换
有时候数据类型在传递过程中会发生变化,需要对其进行转换。例如,将文本型日期转换为日期类型、将字符串型数字转换为数字类型、将布尔型数据转换为1和0等。
(六)、数据无用
由于主观因素的影响,我们有时难以判断数据的价值,因此在进行数据清洗时,必须具备一定的专业知识和数据领域的实际经验。以下是处理无用数据的建议:
1. 理解业务需求和数据特点
首先需要充分理解业务需求和数据特点,明确需要分析的的数据内容和目标输出结果。在此基础上,筛选出与业务需求不相关或无用的数据。
2. 数据分析和统计
通过数据分析和统计手段,排除无效数据。对于没有明确业务含义、维度稀少或数据量过少的数据,可以考虑将其删除或归类统计。通过数据分析和统计的方法,可以减少数据量,找到有价值的数据。
3. 根据业务需求调整数据量
不同的业务需求需要不同的数据量,如果数据量太大而无法快速有效地处理和分析时,可以根据实际需要和数据分析结果调整数据量。例如,可以通过筛选样本数据、区间采样、数据抽样等方法来减小数据量,从而提高分析的效率和精度。
在实际场景中,数据清洗的人力成本的确是非常高的,并且数据情况也更为复杂。
四、数据分析与应用
数据清洗加工后的数据分析和应用是数据科学中的关键步骤,它们有助于从数据中提取有价值的信息,并将其转化为实际的业务决策和洞察。
数据分析的工作主要包括以下内容:
(1)、描述性分析:数据清洗后,首先进行的是描述性分析。这包括数据的统计描述,如均值、中位数、众数、标准差等,以及数据的分布和可视化。这些分析帮助数据分析师理解数据的特征和结构。
(2)、探索性分析:通过探索性分析来发现数据中的模式、趋势和关联。这可能涉及使用统计方法(如相关性分析、方差分析、回归分析等)或数据可视化技术(如散点图、箱线图、热力图等)。
(3)、预测性分析:如果数据集包含历史数据或时间序列数据,那么可以进行预测性分析。这通常涉及使用机器学习算法来预测未来的趋势或结果。
(4)、模型构建与验证:根据分析目的,可能需要构建数据模型来预测或解释某些现象。这包括选择合适的模型、训练模型、评估模型的性能,并进行必要的调整和优化。
数据分析后可以能通过不同的数据应用场景进行数据应用,如业务决策支持、市场洞察、产业洞察、风险管理等业务应用场景。