数据清洗搞定数据清洗，你只需要这几招

数据清洗是数据分析过程中不可缺少的一个环节。通过数据清理，可以统一数据的格式，减少数据中存在的各种问题，从而提高分析过程的效率，保证分析结果。

在收集数据或时，我们获得的数据可能如下:

还是这样:

也可能是这样的:

此时，我们需要执行的步骤是数据清理。数据清理的主要对象是缺失值、异常值、重复值和噪声处理。

默认值

由于缺乏信息而对粗糙数据进行聚类、分组、删除或截断，称为[缺失值]。

这意味着现有数据集中的一个或一些属性的值不完整。

处理缺失值的方法有:

1直接删除

直接删除

适用于大样本，而小样本可能会影响最终的分析结果。

2估计

估计

统一数据，均值法填充；数据分布倾斜，中值填充；根据数据的分布情况，可以采用均值、中值或众数进行数据填充。

3插值方法

插值法

随机内插法:从总体中随机选取一些样本，替换缺失的样本。

多重填充法:用一个包含m个插值的向量替换每个缺失值的过程，要求m大于或等于20。m个完整的数据集可以由插值向量生成。

热平台插值:在非缺失数据集中找到与缺失值所在样本相似的样本，利用观测值对缺失值进行插值。

拉格朗日插值多项式和牛顿插值方法:两者都给出n+1个互不相同的插值节点，这样就可以找到一条n次的代数曲线来近似表示待插值的函数曲线。

4建模方法

建模方法

回归:建立基于完整数据集的回归方程。

将已知属性值代入方程，估计未知属性值，用估计值填充空值。

最大似然估计:在缺失类型为随机缺失的条件下，假设模型对于完整样本是正确的，缺失数据可以通过观测数据的边际分布来估计。

贝叶斯，随机森林，决策树:建立模型来预测缺失值。

异质价值

指一组测量值偏离平均值的标准偏差超过两倍。

与平均值的偏差超过标准偏差三倍的测量值称为【高度异常的异常值】。

处理异常值的方法:

1不处理

不处理

如果算法对异常值不敏感，则可能不进行处理。

算法对离群点比较敏感，比如一些基于距离计算的算法比如kmeans，knn，最好不要用这种方法。

2平均替代

平均覆盖

用平均值代替异常值简单有效。

3被认为是缺失值

考虑缺失值

离群值被视为缺失值，离群值被视为缺失值

重复数据

数据中有相同的数据，称为【重复数据】。

|重复数据消除

重复删除

数据集中的重复值包括以下两种情况:

具有相同数据值的多个数据记录。

数据主体相同，但匹配的唯一属性值不同。

当数据集中的重复值为第一种情况时，可以直接删除。如果是第二种情况，需要根据属性的性质决定是否移除。

噪音处理

有误差或异常(偏离期望值)的数据称为[噪声数据]。

这些数据干扰了数据的分析。

处理噪音的方法:

一箱法

分割盒法

将需要处理的数据按照一定的规则放入盒子中，调查每个盒子中的数据，根据每个盒子的情况采用不同的方法处理数据。

-盒子分割法:

等深度分盒法:根据记录数来分盒，每盒记录数相同

等宽分箱法:每个箱的区间范围为常数，按照区间范围进行分箱

用户定义的间隔

最小熵:使每个区间组中的记录具有最小熵

-平滑宁滨之后的数据:

均值平滑:对同一个框中的数据进行平均，用平均值替换框中的数据。

中位数平滑:取中位数，用中位数替换框中的数据。

边界平滑:框中的最大值和最小值也被视为边界。框中的每个值都被最近的边界值替换。

一般来说，宽度越大，平滑效果越明显。

2回归

回归方法

通过函数拟合数据来平滑数据。

单线性回归:找到拟合两个属性(或变量)的“最佳”直线，使一个属性可以预测另一个属性。

多元线性回归:涉及两个以上属性，数据拟合到一个多维曲面。

利用回归找出适合数据的数学方程，有助于消除噪声。

3聚类

群聚

将物理或抽象对象的集合分组到不同的簇中(一组数据对象)，找出并去除簇外的孤立点，这些孤立点就是噪声。

最后，在清理之前，一定不要忘记存储你的源数据！

1.《数据清洗搞定数据清洗，你只需要这几招》援引自互联网，旨在传递更多网络信息知识，仅代表作者本人观点，与本网站无关，侵删请联系页脚下方联系方式。

2.《数据清洗搞定数据清洗，你只需要这几招》仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址，https://www.lu-xu.com/junshi/1033707.html

数据清洗搞定数据清洗，你只需要这几招

幼儿园毕业照配文再见青春事件详情始末介绍！

中华遗嘱库白皮书办理遗嘱的老人年龄正越来越小

91sao 亚马逊AWS全球116座数据中心地址曝光，速看...

猫眼实时票房从爬虫到分析之2018猫眼电影大数据

政府工作报告31个核心数据到底是什么状况？

广东暴雨两项数据刷新历史极值对此大家怎么看？

环境数据造假风波后临汾环保局迎新局长

建议献血数据全国联网到底什么情况呢？

后羿采集器 2018最受欢迎的，20款大数据采集工具新鲜出炉！

后裔采集器 2018最受欢迎的，20款大数据采集工具新鲜出炉！

数据清洗 搞定数据清洗，你只需要这几招

幼儿园毕业照配文再见青春 事件详情始末介绍！

中华遗嘱库白皮书 办理遗嘱的老人年龄正越来越小

数据清洗搞定数据清洗，你只需要这几招

幼儿园毕业照配文再见青春事件详情始末介绍！

中华遗嘱库白皮书办理遗嘱的老人年龄正越来越小