当前位置:首页 > 旅游指南

数据清洗 搞定数据清洗,你只需要这几招

数据清洗是数据分析过程中不可缺少的一个环节。通过数据清理,可以统一数据的格式,减少数据中存在的各种问题,从而提高分析过程的效率,保证分析结果。

在收集数据或时,我们获得的数据可能如下:

还是这样:

也可能是这样的:

此时,我们需要执行的步骤是数据清理。数据清理的主要对象是缺失值、异常值、重复值和噪声处理。

默认值

由于缺乏信息而对粗糙数据进行聚类、分组、删除或截断,称为[缺失值]。

这意味着现有数据集中的一个或一些属性的值不完整。

处理缺失值的方法有:

1直接删除

直接删除

适用于大样本,而小样本可能会影响最终的分析结果。

2估计

估计

统一数据,均值法填充;数据分布倾斜,中值填充;根据数据的分布情况,可以采用均值、中值或众数进行数据填充。

3插值方法

插值法

随机内插法:从总体中随机选取一些样本,替换缺失的样本。

多重填充法:用一个包含m个插值的向量替换每个缺失值的过程,要求m大于或等于20。m个完整的数据集可以由插值向量生成。

热平台插值:在非缺失数据集中找到与缺失值所在样本相似的样本,利用观测值对缺失值进行插值。

拉格朗日插值多项式和牛顿插值方法:两者都给出n+1个互不相同的插值节点,这样就可以找到一条n次的代数曲线来近似表示待插值的函数曲线。

4建模方法

建模方法

回归:建立基于完整数据集的回归方程。

将已知属性值代入方程,估计未知属性值,用估计值填充空值。

最大似然估计:在缺失类型为随机缺失的条件下,假设模型对于完整样本是正确的,缺失数据可以通过观测数据的边际分布来估计。

贝叶斯,随机森林,决策树:建立模型来预测缺失值。

异质价值

指一组测量值偏离平均值的标准偏差超过两倍。

与平均值的偏差超过标准偏差三倍的测量值称为【高度异常的异常值】。

处理异常值的方法:

1不处理

不处理

如果算法对异常值不敏感,则可能不进行处理。

算法对离群点比较敏感,比如一些基于距离计算的算法比如kmeans,knn,最好不要用这种方法。

2平均替代

平均覆盖

用平均值代替异常值简单有效。

3被认为是缺失值

考虑缺失值

离群值被视为缺失值,离群值被视为缺失值

重复数据

数据中有相同的数据,称为【重复数据】。

|重复数据消除

重复删除

数据集中的重复值包括以下两种情况:

具有相同数据值的多个数据记录。

数据主体相同,但匹配的唯一属性值不同。

当数据集中的重复值为第一种情况时,可以直接删除。如果是第二种情况,需要根据属性的性质决定是否移除。

噪音处理

有误差或异常(偏离期望值)的数据称为[噪声数据]。

这些数据干扰了数据的分析。

处理噪音的方法:

一箱法

分割盒法

将需要处理的数据按照一定的规则放入盒子中,调查每个盒子中的数据,根据每个盒子的情况采用不同的方法处理数据。

-盒子分割法:

等深度分盒法:根据记录数来分盒,每盒记录数相同

等宽分箱法:每个箱的区间范围为常数,按照区间范围进行分箱

用户定义的间隔

最小熵:使每个区间组中的记录具有最小熵

-平滑宁滨之后的数据:

均值平滑:对同一个框中的数据进行平均,用平均值替换框中的数据。

中位数平滑:取中位数,用中位数替换框中的数据。

边界平滑:框中的最大值和最小值也被视为边界。框中的每个值都被最近的边界值替换。

一般来说,宽度越大,平滑效果越明显。

2回归

回归方法

通过函数拟合数据来平滑数据。

单线性回归:找到拟合两个属性(或变量)的“最佳”直线,使一个属性可以预测另一个属性。

多元线性回归:涉及两个以上属性,数据拟合到一个多维曲面。

利用回归找出适合数据的数学方程,有助于消除噪声。

3聚类

群聚

将物理或抽象对象的集合分组到不同的簇中(一组数据对象),找出并去除簇外的孤立点,这些孤立点就是噪声。

最后,在清理之前,一定不要忘记存储你的源数据!

1.《数据清洗 搞定数据清洗,你只需要这几招》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《数据清洗 搞定数据清洗,你只需要这几招》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/junshi/1033707.html

上一篇

幼儿园毕业照配文再见青春 事件详情始末介绍!

下一篇

中华遗嘱库白皮书 办理遗嘱的老人年龄正越来越小

91sao 亚马逊AWS全球116座数据中心地址曝光,速看...

  • 91sao 亚马逊AWS全球116座数据中心地址曝光,速看...
  • 91sao 亚马逊AWS全球116座数据中心地址曝光,速看...
  • 91sao 亚马逊AWS全球116座数据中心地址曝光,速看...

猫眼实时票房 从爬虫到分析之2018猫眼电影大数据

  • 猫眼实时票房 从爬虫到分析之2018猫眼电影大数据
  • 猫眼实时票房 从爬虫到分析之2018猫眼电影大数据
  • 猫眼实时票房 从爬虫到分析之2018猫眼电影大数据

政府工作报告31个核心数据 到底是什么状况?

5月22日上午9时,第十三届全国人民代表大会第三次会议在人民大会堂举行开幕会议。李克强总理作了政府工作报告。在今年的政府工作报告中,哪些核心数据值得关注,本网站的编辑会为你统计。2019年和今年工作回顾中的核心数据1、6....

广东暴雨两项数据刷新历史极值 对此大家怎么看?

广东暴雨两项数据刷新历史极值 对此大家怎么看?

20日至22日,广东多地暴雨,局地特大暴雨,广州站部分列车延误停运。其中,广州市黄埔区1小时内最大降水量167.8毫米,东莞市东城区3小时内降雨量351毫米,两数据均刷新广东“龙舟水”期间的历史极值。提醒注意防范城乡积涝、...

环境数据造假风波后 临汾环保局迎新局长

临汾市政府副秘书长、办公厅副主任白主持工作三个月后,深陷环境数据造假风波的临汾市环保局终于迎来了新局长。 此前,原局长张文卿于2018年5月30日被晋中市榆次区人民法院判处有期徒刑两年。 据临汾新闻网报道,2018年8月7...

建议献血数据全国联网 到底什么情况呢?

建议献血数据全国联网 到底什么情况呢?

建议将无偿献血纳入信用信息龙委员:建议全国采供血机构和用血机构普遍认可献血证建议献血数据在全国联网全国政协委员、江西省南昌市副市长龙表示,为了更好地保护献血者的权益,调动更多人参与无偿献血的积极性,我建议在全国范围内的采供...

后羿采集器 2018最受欢迎的,20款大数据采集工具新鲜出炉!

  • 后羿采集器 2018最受欢迎的,20款大数据采集工具新鲜出炉!
  • 后羿采集器 2018最受欢迎的,20款大数据采集工具新鲜出炉!
  • 后羿采集器 2018最受欢迎的,20款大数据采集工具新鲜出炉!

后裔采集器 2018最受欢迎的,20款大数据采集工具新鲜出炉!

  • 后裔采集器 2018最受欢迎的,20款大数据采集工具新鲜出炉!
  • 后裔采集器 2018最受欢迎的,20款大数据采集工具新鲜出炉!
  • 后裔采集器 2018最受欢迎的,20款大数据采集工具新鲜出炉!