站在2022年的第一天,想得出什么结论,但耽误了该怎么写。年前建立的各种风控技术Flag还没有一一清除,很难建立新的Flag。风气人不容易.不管怎样,学习总是必要的。今天带来了西红柿风控2022年的第一个不良干货。
特征变量的相关性分析是数据分析过程中的重要工作。特别是在数据建模场景中,特征的相关性分析是变量过滤的常用方法。但是,在日常数据分析实践中,由于数据源中的要素分布,特征相关性分析往往针对连续变量和连续变量,如Pearson相关系数。对分类变量相关性的关注较少。本文以SAS实践为基础,介绍了分为连续变量和连续变量、连续变量和分类变量、分类变量和分类变量三部分的不同类型特征之间的相关性分析。
现有excel测试数据,样本数量为2000,特性数量为13,结构如下图所示。
[图1:样本数据(前10名)]
使用以下代码导入excel数据,生成SAS数据集,并在报告中显示数据的特性类型分布。
生成要素类型报告,包括变量名、类型、长度和标签等信息,如图2所示。
[图2:特征类型]
1、连续变量和连续变量
测量连续变量与连续变量的相关性有多个参数,包括皮尔逊、斯皮尔曼、肯德尔、hoeffding系数等。其中Pearson是参数测量方法,spearman、Kendall和hoeffding是非参数测量方法,在实际数据分析操作中经常使用person系数或spearman系数。
如图2信息所示,变量X1、X4~X10都是连续变量,通过SAS的corr过程步骤分析变量X4~X10和X1之间的线性相关性。
代码运行后,生成报告,如图3~4所示。其中包括变量基本信息、统计数据(最大值、最小值、平均值、中值、标准差等)、皮尔逊系数和皮尔曼系数。
[图3:统计数据]
[图4:相关系数]
如上表所示,变量X4~X10与变量X1的关联性依次减少,Pearson系数和Pearson系数都表示相同的规律。变量X1(年龄)和X4(信用卡限额)之间的相关性比较强,Pearson系数0.12149和spearson系数0.23105均出现,P值(0.0001)检查均大大小于0.1。X1与X6、X7和X10之间的关联性都很弱,相关系数小于0.04,P值检查都大于0.1。
为了更有效地评价连续变量之间的关联性,综合比较皮尔逊系数和皮尔逊系数更加合理。例如,两个变量之间的Pearson系数很大,但Pearson系数很小。
一个系数大小评估其相关性程度。2、连续变量与分类变量
连续变量与分类变量相关性程度的评估方法,有T检验、方差分析等。在SAS语言的统计分析中,主要取决于分类变量的类别数。若对比分类变量两个类别的差异,可以使用SAS中的ttest(T检验)过程;若比较分类变量多个类别的差异,可以使用anova(方差分析)过程。
T检验是通过T分布理论与假设检验原理进行样本均值与总体均值的比较,以及进行两样本均值的比较;方差分析是用于检验两组或两组以上样本的均值是否具有显著性差异性的一种数理统计方法。
2.1 二分类变量与连续变量
从图2的特征类型信息可知,变量Y(好坏标签)是二分类变量,X5(最近3个月通话次数)是连续型变量,我们通过SAS中的ttest过程步分析变量X2与X5之间的相关性程度。
代码运行后生成报表如图5~ 6所示,包括变量统计信息(最大值、最小值、平均值、标准差、标准误差等)、置信区间、T检验、方差等价性检验。
图5: 统计信息与置信区间
【图6 :T检验与方差等价检验】
根据生成的报表信息,我们来对结果指标进行解读。首先,看图6的“方差等价检验”结果,p值为0.1161,在0.1置信水平下,接受原假设,认为方差相等。然后,看图6 的“T检验”结果,在“方差”为“等于”的一行,对应p值为0.0003,在0.1置信水平下,拒绝原假设,认为变量Y的“0”和“1”两个群体间的“X5(最近3个月通话次数)”信息有显著性差异。最后,综上说明变量X5(最近3个月通话次数)可以作为区分Y变量(0或1)的一个有效特征,即两个变量之间有较好的相关性。
2.2 多分类变量与连续变量
以上是采用T检验,举例(Y与X5)对二分类变量与连续变量进行相关性分析。现选取多分类变量X3(学历)与连续变量X9(最近1年银行卡交易次数),通过SAS中的anova过程(方差分析)说明多分类变量与连续变量的相关性程度。
代码运行后生成报表如图7~9所示,包括方差分析、盒型图、方差齐性检验。根据图7方差分析结果可知,p值为0.9106,接受原假设,认为变量X3(学历)在7种不同水平下的X9(最近1年银行卡交易次数)信息没有显著性差异。从图9方差齐性检验结果可知,p值为0.9379,满足方差齐性检验,认为变量X3(学历)在7种不同水平下的X9(最近1年银行卡交易次数)信息没有较强的关联关系。图8变量盒型图则展示变量X3(学历)不同类别在X9(最近1年银行卡交易次数)的分布情况。
【图7:方差分析】
【图8:变量盒型图】
【图9:方差齐性检验】
3、分类变量与分类变量
分类变量之间的相关性检验,其理论基础为卡方检验分析,在SAS中以freq过程步(频数统计)实现分类变量相关性的分析过程。现选取分类变量X2(性别)与分类变量Y(好坏标签),对分类变量之间的相关性程度分析进行说明。
代码运行后生成如图10~13所示,包括变量交叉频数表、卡方检验、Fisher检验、优比信息,其中Fisher检验结果仅对于两个二分类变量输出,本例选取的两个分类变量均为二分类变量,即变量X2(性别)取值“男”与“女”,变量Y(好坏标签)取值“0”和“1”。
【图10:变量交叉频数 】
【图11:卡方检验】
【图12: Fisher检验】
【图13:优比信息】
由图11卡方检验结果可知,p值为0.3371,在0.1置信水平下,接受原假设,认为分类变量X2(性别)与Y(好坏标签)无关联关系。由图12的Fisher检验可知,p值为0.3781,在0.1的置信水平下,接受原假设,认为X2(性别)与Y(好坏标签)无关联关系。由图13优化比信息可知,变量优比值为0.8537,而95%的置信区间为[0.6179, 1.1795],区间范围包含1,说明优比与1无显著性差异,即认为X2与Y无关联关系。综合以上三项指标,均说明X2(性别)与Y(好坏标签)无较强关联关系。
本文进一步的实操内容,更有相关的数据集提供给大家练习,详细的数据可以到星球进行下载学习:
另外关于本文中所提到的SAS相关的内容,更全面的系统知识可关注:
第一期的《SAS数据分析训练营》。
最后,感谢所有童鞋过去一年对番茄风控的关注~
祝大家元旦节快乐!
1.《【sas怎么引入excel】2022年第一个实际干燥产品:不同类型特性变量之间的相关性分析。》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【sas怎么引入excel】2022年第一个实际干燥产品:不同类型特性变量之间的相关性分析。》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/2543512.html