数据清洗是数据分析过程中不可缺少的一个环节。通过数据清理,可以统一数据的格式,减少数据中存在的各种问题,从而提高分析过程的效率,保证分析结果。
在收集数据或时,我们获得的数据可能如下:
还是这样:
也可能是这样的:
此时,我们需要执行的步骤是数据清理。数据清理的主要对象是缺失值、异常值、重复值和噪声处理。
默认值
由于缺乏信息而对粗糙数据进行聚类、分组、删除或截断,称为[缺失值]。
这意味着现有数据集中的一个或一些属性的值不完整。
处理缺失值的方法有:
1直接删除
直接删除
适用于大样本,而小样本可能会影响最终的分析结果。
2估计
估计
统一数据,均值法填充;数据分布倾斜,中值填充;根据数据的分布情况,可以采用均值、中值或众数进行数据填充。
3插值方法
插值法
随机内插法:从总体中随机选取一些样本,替换缺失的样本。
多重填充法:用一个包含m个插值的向量替换每个缺失值的过程,要求m大于或等于20。m个完整的数据集可以由插值向量生成。
热平台插值:在非缺失数据集中找到与缺失值所在样本相似的样本,利用观测值对缺失值进行插值。
拉格朗日插值多项式和牛顿插值方法:两者都给出n+1个互不相同的插值节点,这样就可以找到一条n次的代数曲线来近似表示待插值的函数曲线。
4建模方法
建模方法
回归:建立基于完整数据集的回归方程。
将已知属性值代入方程,估计未知属性值,用估计值填充空值。
最大似然估计:在缺失类型为随机缺失的条件下,假设模型对于完整样本是正确的,缺失数据可以通过观测数据的边际分布来估计。
贝叶斯,随机森林,决策树:建立模型来预测缺失值。
异质价值
指一组测量值偏离平均值的标准偏差超过两倍。
与平均值的偏差超过标准偏差三倍的测量值称为【高度异常的异常值】。
处理异常值的方法:
1不处理
不处理
如果算法对异常值不敏感,则可能不进行处理。
算法对离群点比较敏感,比如一些基于距离计算的算法比如kmeans,knn,最好不要用这种方法。
2平均替代
平均覆盖
用平均值代替异常值简单有效。
3被认为是缺失值
考虑缺失值
离群值被视为缺失值,离群值被视为缺失值
重复数据
数据中有相同的数据,称为【重复数据】。
|重复数据消除
重复删除
数据集中的重复值包括以下两种情况:
具有相同数据值的多个数据记录。
数据主体相同,但匹配的唯一属性值不同。
当数据集中的重复值为第一种情况时,可以直接删除。如果是第二种情况,需要根据属性的性质决定是否移除。
噪音处理
有误差或异常(偏离期望值)的数据称为[噪声数据]。
这些数据干扰了数据的分析。
处理噪音的方法:
一箱法
分割盒法
将需要处理的数据按照一定的规则放入盒子中,调查每个盒子中的数据,根据每个盒子的情况采用不同的方法处理数据。
-盒子分割法:
等深度分盒法:根据记录数来分盒,每盒记录数相同
等宽分箱法:每个箱的区间范围为常数,按照区间范围进行分箱
用户定义的间隔
最小熵:使每个区间组中的记录具有最小熵
-平滑宁滨之后的数据:
均值平滑:对同一个框中的数据进行平均,用平均值替换框中的数据。
中位数平滑:取中位数,用中位数替换框中的数据。
边界平滑:框中的最大值和最小值也被视为边界。框中的每个值都被最近的边界值替换。
一般来说,宽度越大,平滑效果越明显。
2回归
回归方法
通过函数拟合数据来平滑数据。
单线性回归:找到拟合两个属性(或变量)的“最佳”直线,使一个属性可以预测另一个属性。
多元线性回归:涉及两个以上属性,数据拟合到一个多维曲面。
利用回归找出适合数据的数学方程,有助于消除噪声。
3聚类
群聚
将物理或抽象对象的集合分组到不同的簇中(一组数据对象),找出并去除簇外的孤立点,这些孤立点就是噪声。
最后,在清理之前,一定不要忘记存储你的源数据!
1.《数据清洗 搞定数据清洗,你只需要这几招》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《数据清洗 搞定数据清洗,你只需要这几招》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/junshi/1033707.html