当前位置:首页 > 奇闻趣事

dianes 带你和Python与R一起玩转数据科学: 探索性数据分析(附代码)

本文约5822字,建议阅读20+分钟。

本系列将介绍如何在两个最流行的开源平台上玩数据科学。让我们来看看数据分析过程中的关键步骤——探索性数据分析。

内容摘要

本系列将介绍如何在两个最流行的开源平台上玩数据科学。本文首先看一下数据分析过程中的关键步骤——探索性数据分析。

探索性数据分析发生在数据收集和数据清理之后,但在数据建模和分析结果可视化之前。然而,这是一个迭代的过程。在做了一些EDA之后,我们可以尝试构建一些数据模型或者生成一些可视化的结果。同时根据最新的分析结果,可以进一步进行EDA等等。这一切都是为了更快地找到线索,而不是专注于数据细节和审美。EDA的主要目的是了解我们的数据,它的趋势和质量,也是为了检验我们的假设,甚至开始构建我们的假设算法。

了解了以上内容,我们就用描述性统计、基础绘图、数据框架来说明如何回答一些问题,指导我们做进一步的数据分析。

这一系列教程的所有代码和应用都可以从github上获得(https://github . com/jadianes/data-science-you-way)。您可以自由参与,并与我们分享您的进步。

准备数据

我们将继续使用引入数据框时加载的相同数据集。所以可以在数据框相关教程结束后继续本章,或者重新学习数据准备教程(https://www . code mentor . io/python/tutorial/python-vs-r-for-data-science-data-frames-I)。

我们必须回答的问题

在任何数据分析过程中,总有一个或多个问题需要我们去回答。定义这些问题是整个数据分析过程中最基本、最重要的一步。因为我们想在结核病数据集中进行探索性数据分析,所以我们需要回答一些问题:

哪些国家拥有最高传染性结核病发病率?从1990年到2007年世界结核病的总体趋势是什么?哪些国家没有符合这个趋势?还有哪些关于这个疾病的真相可以从我们的数据中得到?

描述性统计

计算机编程语言

在Python中,熊猫的基本描述性统计方法。数据帧对象被描述为()。相当于R语言中data.frame的summary()方法。

您也可以为英国做同样的事情:

如果我们想知道索引值(年份),我们使用argmax方法(或者熊猫新版本中的idmax调用方法)如下:

患病率(患病率):

新发病率(发病率):

现在,我们可以使用这些指标来过滤我们的原始数据帧。

让我们从中获取一个数据帧,它只包含离群值的信息。

维基百科中有更多的发现,可以通过分析这些谷歌数据或者Gapminder提供的其他数据来证实。例如,传染性肺结核和艾滋病往往与贫困程度联系在一起。将他们的相关数据集联系起来并探索他们各自的趋势将会很有趣。读者可以尝试分析并与我们分享您的发现。

浏览其他网页

除了Gapminder网站,还有其他关于结核病的有趣资源:

盖茨基金会网站:

http://www . gates foundation . org/What-We-Do-Do/Global-Health/TB

http://www . gates foundation . org/Media-Center/Press-Releases/2007/09/New-Grants-to-Fight-TB-experience

总结

探索性数据分析是数据分析的关键步骤。在这个阶段,我们开始让接下来的工作逐渐成型。它发生在任何数据可视化或机器学习工作之前,向我们展示我们的数据或假设是好是坏。

传统上,r语言是大多数探索性数据分析工作的首选武器,尽管使用其他具有更好显示能力的图形库(如gglot2)相当方便。事实上,当我们使用Python时,熊猫所包含的基本绘图功能使这一步更加清晰和方便。无论如何,我们这里回答的问题很简单,不包括多元和数据编码。在这种复杂的情况下,像ggplot2这样的高级库会大放异彩。除了给我们更漂亮的图纸,其丰富的货币化技术和可重用性也将大大节省我们的时间。

虽然我们的分析和图表如此简单,但我们仍然可以证明一个论点,即结核病等疾病造成的人道主义危机有多严重,特别是考虑到这种疾病在更发达的国家得到了相对较好的控制。我们已经看到了一些编程技巧和大量的好奇心,这使我们能够建立一些认知和其他全球化问题。

请记住,这一系列教程的所有代码和应用都可以从github(https://github . com/jadianes/data-science-you-way)获得。

您可以自由参与,并与我们分享您的进步!

Python与数据科学;探索性数据分析

原始链接:

https://www . code mentor . io/jadianes/data-science-python-r-explorative-data-analysis-visualization-du 107 jjms

译者简介:杨楫,苏州某IT公司技术总监,工作20年,现主要负责Java项目的策划和管理。我渴望大数据、数据挖掘和分析项目,但苦于机会和数据的匮乏。目前正在探索学习,也申请了一些在线课程,希望对数据建模的应用场景有进一步的了解。不能做巨人,只想站在巨人的肩膀上,了解数据科学有趣的世界。

版权声明:这个数字的一部分来自互联网。请注明原文链接和作者。如有侵权或错误来源,请联系我们。

原创系列文章:

商务请加QQ: 365242293

1.《dianes 带你和Python与R一起玩转数据科学: 探索性数据分析(附代码)》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《dianes 带你和Python与R一起玩转数据科学: 探索性数据分析(附代码)》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/1017059.html

上一篇

“拉面哥”妻子在面摊因低血糖晕倒 主播们决定晚6时至早6时不再吵闹 还原事发经过及背后原因!

下一篇

吉林一滑雪场禁止朋友教滑雪 滑雪注意安全事项

国家统计局最新数据 猪肉价格连涨19个月后首次转降

国家统计局10日公布的数据显示,猪肉价格在上涨19个月后,10月份首次出现回落,同比下降2.8%。 根据当天公布的价格数据,10月份全国居民消费价格指数(CPI)同比上涨0.5%,涨幅较上月下降1.2个百分点。国家统计局城...

马斯克:不会向美政府提供中国客户数据 真相原来是这样!

马斯克:不会向美政府提供中国客户数据 真相原来是这样!

马斯克:不会向美提供中国客户数据他表示,特斯拉在美国或中国的公司不会收集敏感或私人数据,然后与美国政府分享,并保证中国客户的数据会得到充分保护。马斯克在会议上表示,特斯拉公司将不会向美国政府提供其车辆在中国或其他国家收集的数据。美国当地时间3月20日,特斯拉公司(TeslaInc.)首席执行官埃隆·马斯克(ElonMusk)通过网络参加中国发展高层论坛会议。...

北京动物园网红大熊猫突然头秃 登上网络热搜了!

北京动物园网红大熊猫突然头秃 登上网络热搜了!

据国内媒体报道,北京动物园网络名人大熊猫“福星”最近秃顶了!复兴顶上出现一块斑秃,约两枚硬币大小,露出部分头皮。据悉,从大约三个月前开始,福星头顶的一小块头发开始变黑,并逐渐脱落。从那以后,“脱发”就一直持续。目前,北京动...

北京动物园回应网红熊猫秃头 对此大家怎么看?

北京动物园回应网红熊猫秃头 对此大家怎么看?

今天,北京动物园回应了网上名人熊猫秃顶的热搜。我们都知道人是秃头,但动物是秃头。你听说过吗?北京动物园熊猫秃顶怎么回事?让我们看看边肖发生了什么。北京网红大熊猫“福星”遭遇“秃顶”危机,大约两枚硬币大小,部分头皮暴露。据北...

马斯克:不会向美政府提供中国客户数据 目前是什么情况?

马斯克:不会向美政府提供中国客户数据 目前是什么情况?

马斯克:不会向美提供中国客户数据他表示,特斯拉在美国或中国的公司不会收集敏感或私人数据,然后与美国政府分享,并保证中国客户的数据会得到充分保护。马斯克在会议上表示,特斯拉公司将不会向美国政府提供其车辆在中国或其他国家收集的数据。美国当地时间3月20日,特斯拉公司(TeslaInc.)首席执行官埃隆·马斯克(ElonMusk)通过网络参加中国发展高层论坛会议。...

舰娘官网 《舰队Collection》官方调查数据显示 一半玩家把舰娘当“老婆”

  • 舰娘官网 《舰队Collection》官方调查数据显示 一半玩家把舰娘当“老婆”
  • 舰娘官网 《舰队Collection》官方调查数据显示 一半玩家把舰娘当“老婆”
  • 舰娘官网 《舰队Collection》官方调查数据显示 一半玩家把舰娘当“老婆”

四川发现褪色小熊猫 真相到底是怎样的?

  • 四川发现褪色小熊猫 真相到底是怎样的?
  • 四川发现褪色小熊猫 真相到底是怎样的?
  • 四川发现褪色小熊猫 真相到底是怎样的?
马斯克:不会向美政府提供中国客户数据 究竟是怎么一回事?

马斯克:不会向美政府提供中国客户数据 究竟是怎么一回事?

马斯克:不会向美提供中国客户数据他表示,特斯拉在美国或中国的公司不会收集敏感或私人数据,然后与美国政府分享,并保证中国客户的数据会得到充分保护。马斯克在会议上表示,特斯拉公司将不会向美国政府提供其车辆在中国或其他国家收集的数据。美国当地时间3月20日,特斯拉公司(TeslaInc.)首席执行官埃隆·马斯克(ElonMusk)通过网络参加中国发展高层论坛会议。...