简介:在大多数情况下,数据分析的过程必然包含数据探索的过程。数据探索可以从两个层面理解:
第一,只使用一些工具来查看数据的特征;第二,根据数据的特点,我们感知数据的价值来决定是否需要探索其他领域,或者如何处理这些领域,以充分发挥数据分析的价值。领域的选择不仅需要技术手段的支持,还需要数据分析师的经验和对问题解决的深刻理解。
01数字类型
分析数据时,往往需要明确每个字段的数据类型。数据类型代表数据的业务意义,分为三种类型:
1.区间数据(区间)
数值数据的值都是数值类型,大小代表对象的状态。比如年收入的价值代表其收入状况。
2.分类数据
分类数据的每个值代表一个类别,如性别,两个值代表两个组。
3.序数数据(序数)
它与分类数据非常相似,每个值代表不同的类别。但是,序数数据还有另一层含义,就是每个值都有自己的大小。比如年收入分为高、中、低三个档次,不同的数值可以分为类别和大小。
如果不理解字段的实际业务含义,数据分析师可能会在判断数据类型时出错。例如,字段的值是“1”、“2”和“3”,这并不意味着它是数字类型。它的商业意义也可以是一个不同类型的领域。“1”、“2”、“3”分别代表一个范畴,其大小没有任何意义。因此,充分理解字段的含义是非常重要的。
许多数据分析工具会根据数据中字段的实际值自动判断类型:例如,字符数据一般被认为是分类数据;如果一个字段的所有值只有“1”、“2”和“3”,则判断为分类变量,然后用户再次判断后,很可能是序数变量。
当算法训练模型时,以不同的方式处理不同的数据类型。区间数据直接计算;键入的数据首先转换成稀疏矩阵:每个类别都是一个新字段,然后根据其值“1”和“0”进行计算。
在很多场景下,人们习惯于将分类数据和序数数据称为分类数据,即有两种数据类型:数值数据(区间数据)和分类数据(分类数据和序数数据)。
02连续数据的探索
对连续数据的探索侧重于通过统计指标反映其分布和特征。典型的统计指标如下:
4.缺少值
空的值是缺少的值。缺失值比率是确定该字段是否可用的重要指标。通常,如果缺失率超过50%,则该字段完全不可用。
在很多情况下,我们需要区别对待null和0之间的关系。Null是缺失值,0是有效值。这个区分很重要,要慎重对待。例如,客户在银行的账户余额为空,这意味着客户可能没有该账户。但是,如果将null更改为0,则表示用户拥有该帐户,并且帐户余额为零。
5.均值
顾名思义,中庸就是中庸。它的大小反映了整体水平。平均分95的班肯定比平均分80的班好。
6.最大值和最小值
最大值和最小值是每个数据集中的最大值和最小值。
7.不同
方差反映了每个值与平均值的分散度。虽然两组数据的平均值有时可能相同,但每个观测量的离散程度很少相同。方差越大,离差越大。比如一个平均成绩80分的班,方差很小,说明这个班的数学能力比较一般:高分不多,低分不多。
8.均方差
标准差是方差的处方,其意义与方差相似。
9.中值
中值是将排序后的数据集分为两个数据集,即高值数据集和低值数据集。比如数据集{3,4,5,7,8}的中位数为5,低值和高值分别低于和高于5的数据集。数据集{2,4,5,7}的中位数应为(4+5)/2=4.5。
10.模式(模式)
模式是数据集中出现频率最高的数据。模式最常用的场景是分类数据的统计,但也反映了数值数据的“趋势点明显集中值”。
假设有一组数据,均值、中位数和众数的计算方法不同:
1,2,2,3,4,7,9
均值:(1 + 2 + 2 + 3 + 4 + 7 + 9)/7=4中位数:3众数:211.四分位数
四分位数,即排序后的数据用三个序号等分为四个部分,如表2-2所示。
▲表2-2季度示例
第二个四分位数(Q2)的值与中位数的值相同。
12.四分位范围(IQR)
四分位数距离由第三个四分位数和第一个四分位数之间的差值计算得出,即IQR=Q3-Q1。根据上表,IQR=61-34=27。
四分位数距离是异常值判别的重要统计指标。一般极值都在Q1-1.5×IQR以下,或者Q3+1.5×IQR以上。著名的方框图是用四分位数和四分位数距离的概念画出来的,如图2-1所示。
▲图2-1方框图和IQR
方框图中的上下水平线可能是异常分界点(Q3+1.5×IQR或Q1-1.5×IQR),也可能是最大值或最小值。这完全取决于最大值和最小值是否在截止点内。
13.歪斜
偏斜度是表示数据分布对称性的指标。如果其值为0,则表示对称分布;如果其值为正值,则表示分布的峰值被留下;如果其值为负,说明分布的峰值在右侧。图2-2给出了偏斜度的一个例子。
▲图2-2偏斜度的含义
如果偏斜度绝对值(无论是正的还是负的)大于1,就是明显的信号,你的数据分布有明显的不对称性。很多数据分析算法都是基于类似正态分布的贝尔分布,数据是围绕均值分布的。如果偏度绝对值太大,那就是另一个信号:你要小心使用那些算法!
在不同的偏度下,均值、中值和众数的值差别很大:
▲图2-3不同分布下模式、均值和中位数的比较
从图2-3可以看出,在数据范围相同的情况下,中位数是相同的。然而,意义和模式是完全不同的。因此,除了偏度指数可以直接反映分布特征外,分布的偏度也可以通过中值和均值的差异来判断。
中位数<均值:偏左分布中位数、均值相差无几:对称分布中位数>均值:偏右分布14.峰值状态(峰度)
标准正态分布的峰值为3,但在很多数据分析工具中,峰值被减去3,这样:0代表正态分布;正值表示数据分布有一个尖锐的峰值,高于正态分布的峰值;负值表示数据有平缓的峰值,低于正态分布的峰值。
峰值指数的主要作用是反映数值分布的尾厚,峰值对应的是一个粗尾,即峰度大于0时,表示尾厚。峰粗尾粗,即数值集中在峰附近,而分散在非峰附近。图2-4显示了一个峰值状态的例子。
▲图2-4峰值状态示例
在连续数据的探索中,应注意缺失率、均值、中值等指标,这可以帮助数据分析师更好地理解数据的特征。偏斜度是另一个很重要的指标,但当其绝对值接近或大于1时,必须进行对数转换才能使用,否则这个指标的值会大大降低。
默认情况下,Python熊猫中DataFrame的描述方法只统计连续性字段的最大值、最小值、平均值、标准差和四分位数。如果想得到其他特征值,需要调用相应的函数才能得到。下面是一个样例代码,其运行结果如表2-4所示。
list _ of _ series =[bank . var . rename(' variance '),
bank . middle . rename(' middle '),
Bank.skew.rename ('skewness '),
Bank.kurt.rename('峰值状态')]
df = pd。数据帧(系列列表)
Mode = bank。模式(numeric _ only = true)。重命名({0:' mode'})
pd.concat([df,mode])
▲表2-4连续变量数据勘探样本代码运行结果
03类数据的探索
对分类数据的探索主要是从分类的分布出发。常见的统计指标如下:
15.缺少值
缺失值始终是需要关注的指标,无论是连续数据还是分类数据。缺失值太多会使指标失去意义。
16.分类数
根据分类数据中的类别数量,我们可以大致判断指标是否可用。例如,从业务角度来看,一个指标应该有6个类别,但实际样本中只出现了5个类别,因此样本的质量需要重新考虑。再比如,当某类变量只有一个类别时,数据分析完全不可用。
17.类别中的人数
大多数情况下,如果某些类别的个体数量太少,比如只有1%,可以认为是离群值。分类变量异常值的研究很多,但在业务之外谈论分类变量异常值是不合适的。
数据不平衡是一个典型的与业务相关的例子。比如从业务角度,买黄金的客户只占银行客户总数的一小部分。如果采用简单的随机抽样方法,“买或不买”列的值将只有几个“是”值。
但是,“是”不能直接判断为离群值,而“是”具有极其重要的商业意义。因此,数据分析师需要灵活理解和对待类别中的个人数量。
18.模式
和连续数据一样,mode是数据集中出现频率最高的数据。例如,如果C在某个子类型的A、B、C、D中出现频率最高,那么C就是模式。
下面是分类变量数据探索的样例代码,其运行结果如表2-5所示。
bank . description(include =[NP . object])
▲表2-5不同类型变量数据探索样本代码运行结果
利用Python熊猫的相关函数,非常容易得到分类变量的探索结果。表2-5显示了数据探索示例代码的运行结果。
关于作者:彭,德勤企业咨询总监兼首席数据科学家,德勤全球AI团队核心成员,德勤数字化转型、智能营销、智能风险控制、客户体验等核心咨询服务高级顾问。
张宗耀,上海全英科技有限公司高级数据科学家,华为企业智能部原高级数据科学家,IBM SPSS算法组件团队原高级算法工程师。
聂磊,陕西万和数字科技有限公司CTO,IBM SPSS前高级数据科学家,IBM Watson Analytics数据分析引擎前技术总监、架构师。
本文摘自由出版商授权的《增强分析:人工智能驱动的数据分析、商业决策和案例实践》。
增强型分析的扩展阅读
点击上图学习购买
转载请联系微信:DoctorData
推荐:增强分析是数据科学的未来。本书阐述了如何通过尖端的大数据技术和AI技术,即增强分析,实现智能数据分析和业务决策。这本书的三位作者分别是德勤、前华为、前IBM的资深数据科学家,他们都有至少10年的大数据和AI领域的工作经验。他们都在这本书里总结了自己多年来在构建数据挖掘模型和解决实际业务问题上积累的经验。
长按二维码或点击阅读原文
多找几本好书
问:你最熟悉哪些概念?
转载/提交请联系:baiyu@hzbook.com
单击阅读原文了解更多信息
1.《ordinal 值得收藏!数据分析最常用的18个概念,终于有人讲明白了》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《ordinal 值得收藏!数据分析最常用的18个概念,终于有人讲明白了》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1085796.html