本文约5822字,建议阅读20+分钟。
本系列将介绍如何在两个最流行的开源平台上玩数据科学。让我们来看看数据分析过程中的关键步骤——探索性数据分析。
内容摘要
本系列将介绍如何在两个最流行的开源平台上玩数据科学。本文首先看一下数据分析过程中的关键步骤——探索性数据分析。
探索性数据分析发生在数据收集和数据清理之后,但在数据建模和分析结果可视化之前。然而,这是一个迭代的过程。在做了一些EDA之后,我们可以尝试构建一些数据模型或者生成一些可视化的结果。同时根据最新的分析结果,可以进一步进行EDA等等。这一切都是为了更快地找到线索,而不是专注于数据细节和审美。EDA的主要目的是了解我们的数据,它的趋势和质量,也是为了检验我们的假设,甚至开始构建我们的假设算法。
了解了以上内容,我们就用描述性统计、基础绘图、数据框架来说明如何回答一些问题,指导我们做进一步的数据分析。
这一系列教程的所有代码和应用都可以从github上获得(https://github . com/jadianes/data-science-you-way)。您可以自由参与,并与我们分享您的进步。
准备数据
我们将继续使用引入数据框时加载的相同数据集。所以可以在数据框相关教程结束后继续本章,或者重新学习数据准备教程(https://www . code mentor . io/python/tutorial/python-vs-r-for-data-science-data-frames-I)。
我们必须回答的问题
在任何数据分析过程中,总有一个或多个问题需要我们去回答。定义这些问题是整个数据分析过程中最基本、最重要的一步。因为我们想在结核病数据集中进行探索性数据分析,所以我们需要回答一些问题:
哪些国家拥有最高传染性结核病发病率?从1990年到2007年世界结核病的总体趋势是什么?哪些国家没有符合这个趋势?还有哪些关于这个疾病的真相可以从我们的数据中得到?描述性统计
计算机编程语言
在Python中,熊猫的基本描述性统计方法。数据帧对象被描述为()。相当于R语言中data.frame的summary()方法。
您也可以为英国做同样的事情:
如果我们想知道索引值(年份),我们使用argmax方法(或者熊猫新版本中的idmax调用方法)如下:
患病率(患病率):
新发病率(发病率):
现在,我们可以使用这些指标来过滤我们的原始数据帧。
让我们从中获取一个数据帧,它只包含离群值的信息。
维基百科中有更多的发现,可以通过分析这些谷歌数据或者Gapminder提供的其他数据来证实。例如,传染性肺结核和艾滋病往往与贫困程度联系在一起。将他们的相关数据集联系起来并探索他们各自的趋势将会很有趣。读者可以尝试分析并与我们分享您的发现。
浏览其他网页
除了Gapminder网站,还有其他关于结核病的有趣资源:
盖茨基金会网站:
http://www . gates foundation . org/What-We-Do-Do/Global-Health/TB
http://www . gates foundation . org/Media-Center/Press-Releases/2007/09/New-Grants-to-Fight-TB-experience
总结
探索性数据分析是数据分析的关键步骤。在这个阶段,我们开始让接下来的工作逐渐成型。它发生在任何数据可视化或机器学习工作之前,向我们展示我们的数据或假设是好是坏。
传统上,r语言是大多数探索性数据分析工作的首选武器,尽管使用其他具有更好显示能力的图形库(如gglot2)相当方便。事实上,当我们使用Python时,熊猫所包含的基本绘图功能使这一步更加清晰和方便。无论如何,我们这里回答的问题很简单,不包括多元和数据编码。在这种复杂的情况下,像ggplot2这样的高级库会大放异彩。除了给我们更漂亮的图纸,其丰富的货币化技术和可重用性也将大大节省我们的时间。
虽然我们的分析和图表如此简单,但我们仍然可以证明一个论点,即结核病等疾病造成的人道主义危机有多严重,特别是考虑到这种疾病在更发达的国家得到了相对较好的控制。我们已经看到了一些编程技巧和大量的好奇心,这使我们能够建立一些认知和其他全球化问题。
请记住,这一系列教程的所有代码和应用都可以从github(https://github . com/jadianes/data-science-you-way)获得。
您可以自由参与,并与我们分享您的进步!
Python与数据科学;探索性数据分析
原始链接:
https://www . code mentor . io/jadianes/data-science-python-r-explorative-data-analysis-visualization-du 107 jjms
译者简介:杨楫,苏州某IT公司技术总监,工作20年,现主要负责Java项目的策划和管理。我渴望大数据、数据挖掘和分析项目,但苦于机会和数据的匮乏。目前正在探索学习,也申请了一些在线课程,希望对数据建模的应用场景有进一步的了解。不能做巨人,只想站在巨人的肩膀上,了解数据科学有趣的世界。
版权声明:这个数字的一部分来自互联网。请注明原文链接和作者。如有侵权或错误来源,请联系我们。
原创系列文章:
商务请加QQ: 365242293
1.《dianes 带你和Python与R一起玩转数据科学: 探索性数据分析(附代码)》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《dianes 带你和Python与R一起玩转数据科学: 探索性数据分析(附代码)》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/1017059.html