当前位置:首页 > 科技

【sas怎么引入excel】行为评分卡建模的数据准备

作家|洪一素

01行为评分卡介绍

信用卡风控场景中有三种主要计分卡:A卡(申请计分卡)、B卡(行为计分卡)和C卡(催款计分卡)。评分卡以分数来衡量未来一段时间内发生违约、拖欠、失联等危险的概率。

其中,行为评分卡作用于贷款,即贷款后的用户绩效部分,根据用户观察点当天及过去的绩效信息,预测未来会过期或违约。行为评分卡的主要目的是通过风险控制,根据客户绩效调整风险战略,以达到利润最大化或成本最小化的目标。

02行为评分卡建模要求

建模过程是在大量数据中寻找规律的过程,数据是模型成功的关键因素。建模数据的准备往往基于对业务和数据的充分理解。

首先,在准备数据之前,必须明确数据时间窗口和好坏客户的标准。

其次,行为评分卡的重点是贷款中的账户管理、使用期限内限额和条件的变化、用户提前还款行为等,因此建模时应更加关注用户特征分布、逾期、老化、滚动率等指标。使用的数据一般是还款行为、消费行为等。

另外,在明确分析研究目的后,要清洗数据。数据清理包括处理缺失值和异常值、变量转换、变量派生和变量合并,如下所示:

最后,介绍了数据集的初步分析,即数据集的概述。这是为了确保数据的可靠性和准确性,消除异常值和缺失值对结果的影响,并恢复可能的样品以达到预测目的。

初始分析包括以下三个阶段:

(一)期间检查:选定的期间将过滤数据的期间,确保提取的数据子集与业务实际一致,符合开发要求,从而尽可能完整地表示业务指标。

(b)主键唯一性检查:通过数据键唯一性检查处理重复数据,以确保数据没有重复记录。

(3)统计分析:检查数据的准确性,判断变量的分布是否符合逻辑和业务实际。

03例数据导入

3.1分析目的

为了了解特定渠道的客户画像,掌握客户年龄学历分布、还款偏好、逾期绩效等信息,为下一步建模奠定基础。

3.2导入数据

这次,数据仓库共提取了6张客户信息、借款信息、信用申请信息、历史交易和报销信息、决策数据等报告。使用统计分析软件作为SAS Enterprise Guide(以下简称SAS EG)。

有两种方法可以直接从数据仓库导入数据或从本地文件导入Excel数据。后者还有两种方法:从SAS EG的“文件”选项卡导入数据,或使用代码导入数据。

本文使用第二种方法。具体流程和结果示例如下:

/*定义路径*/

libnameloan _ test“f : \ data \ loan”;

% let excel _ path=f : \ data \ loan;

/*导入数据*/

Proc import out=work.loan_INFO

Datafile="excel _ path。\ loan _ info " DBMS=xlsx replace

Getnames=yes

执行;执行。

这次共有800,000个观测值和47个变量,读起来如下:

3.3数据清理

3.3.1所选目标的子集

综合考虑行为评分卡建模要求和掌握的实际数据信息,选择1-1年半的用户绩效。因此,此次选定的目标子集开始日期被定为2020年7月至2021年12月的数据集。

在SAS EG中执行SQL语句的代码如下:

PROC SQL

CREATE TABLE LOAN_INFO_A AS

SELECT * FROM LOAN_INFO

Wheremdy (7,1,2020)=issuedate=mdy (12,31,2021);

QUIT

满足时间条件的数据共有80242个,首先对选定数据集进行基本说明。代码如下:

Proc内容数据=work . loan _ info _ a;

执行;执行。

可以获得以下结果:

amp;_iz=31825&index=2" width="611" height="530"/>

3.3.2 删除重复值

PROC SORT DATA=WORK.LOAN_INFO_A DUPOUT=NODUPS3 NODUPKEY;

BY ID;

RUN;

经检验,无重复值。

3.3.3 缺失值处理

缺失值补缺有三种方法,:PROC STDIZE; PROC SQL;

DATA MISSING;

SET WORK.LOAN_INFO_A;

ARRAY CHA[*] _CHARACTER_;

DO I=1 TO DIM(CHA);

IF MISSING(CHA[I]) THEN OUTPUT;

END;

ARRAY NUM[*] _NUMERIC_;

DO I=1 TO DIM(NUM);

IF MISSING(NUM[I]) THE OUTPUT;

END;

PROC PRINT;

RUN;

得到包含空值的1173 个数据缺失示例如下:

数据类型不同,目的不同,所选取的处理方法也不尽相同。

数值型数据补缺有四种方法:常数填充、中位数填充、均值填充和随机填充,而字符型数据补缺有常数填充和众数填充两种方法。

在SAS中,用PROC SQL语句可以对数值型数据进行常数或众数填充,用PROC STDIZE对数值型数据进行均值填充。

本次检验客户信息汇总表有工作年限、婚姻情况和某规则得分共3个字段存在缺失值,受影响的数据占比为1.5%。

由于数据量对总体影响微乎其微,故而删除带有空值的数据:

DATA WORK.LOAN_INFO_A;

SET WORK.LOAN_INFO_A;

ARRAY NUM[*] _NUMERIC_;

PUT NUM[*]=;

DO I=1 TO DIM(NUM);

IF MISSING(NUM[I]) THEN DELETE;

END;

DROP I;

RUN;

删除缺失值后,数据集LOAN_INFO_A有 79069 个观测和 47 个变量。

3.3.4 一致化处理&数据排序

由于本数据集日期等格式已一致,且按照ID排序,故本次数据清洗步骤暂不演示。

3.3.5 异常值处理

因消费信贷对客户的年龄、地域等条件上均有设限。例如,信贷的目标客户的年龄应为18-60岁之间。

因此,以年龄为例查询是否存在异常值,代码如下:

DATA ABNORMAL;

SET WORK.LOAN_INFO_A;

IF totalAcc<18 or totalAcc>60 THEN OUTPUT;

PROC PRINT;

RUN;

共有2725个异常值,因年龄不符合目标设定范围,因此直接删除。

经过对重复值、缺失值、异常值的处理后,余下目标子集中共有73619个数据,47个变量。再将经过数据清洗后的各数据集以各表的关联键与其他数据集关联。

例如,用客户信息汇总表的ID与借据信息汇总表的ID关联,用借据信息汇总表中的授信申请编号与授信申请表中的授信申请编号关联等。

04 数据探索

数据探索分为以下五个部分:

4.1 统计特性

以loanAmnt字段为例,数字型单变量统计量信息的查询代码如下:

PROC UNIVARIATE DATA=LOAN_INFO_A;

VAR loanAmnt;

RUN;

得出结果包括均值、众数、标准差等基本统计测度、均值位置的检验、分位数和极值观测等,如下图所示:

4.2 变量分布

对于变量分布,可以用SAS中的PROC SGPLOT过程步绘制数值型连续变量的直方图:

PROC SGPLOT DATA=WORK.loan_INFO_A;

HISTOGRAM loanAmnt / BINWIDTH=5000 SHOWBINS;

DENSITY loanAmnt;

TITLE "LOAN AMOUNT";

RUN;

4.3 变量交叉分析

本次提取的数据表主要包括申请信息表、客户信息表、借据信息表、月度信息表、征信信息等。通过分析每部分数据关联及匹配程度情况,对现有数据进行系统化、结构化的理解,为下一步分析建模做好数据准备。

本部分的关联分析主要包括以下三点:

1)候选预测变量与目标变量之间是否存在关联性或相关性;

2)预测变量相互之间是否存在关联性或相关性:以上两个挖掘步骤通过交叉分析得出,可以通过PROC FREQ来实现两个名义变量的列联表进行分析;

3)调查候选预测变量中正常和违约的分布情况。

以客群风险特性分析为例,可以分析工作年限分布与逾期比例、教育程度分布与逾期比例、不同产品分布与逾期比例、不同地区分布与逾期比例等维度,为建模的特征变量选择提供初始分析支持。

以年龄与逾期比例为例:用SAS得出年龄与逾期比例的关联分布,考虑到便捷性,用EXCEL制图。如图所示,年龄越大,贷后还款表现越好,风险越低;25岁以下的年轻群体,贷后还款表现较差,风险较高。

4.4 特征分析

对于信贷业务而言,滚动率和vintage是衡量客群质量的重要特征变量。滚动率代表上期余额滚入下期的百分比,vintage代表了该客群在各账龄的逾期表现。

以上两个变量都是需要通过客户逾期表现加工得到。

处于正常(M0)和极坏(M6+)的帐户,保持在原有状态的比例很高(分别为81.88和 99.52%),也就是说极坏的账户不会偿还的几率同正常的账户保持正常的几率都很高;从M1至M6+,账户逾期状态变坏的比例呈增加的趋势,即随着逾期状态的增加,帐户还款几率近似呈依次降低趋势。

而处于M6+的帐户,状态变好的比例很低,说明极坏的帐户可能再还款的比率极低。

另外,随着逾期期数的增加,M2有41.36%的账户变好,从M3开始,账户滚动到更坏状态的比例已达94.65%。

上图为该渠道发放贷款两个月及以上(M2+)、三个月及以上(M3+)逾期的百分比随账龄变化图,通过分析可以得到以下结论:每年发放的贷款逾期率随账龄的增加而增加,大部分在账龄10个月时为峰值,随后会有所下降。

以上的初步数据分析及数据挖掘分析、关联分析仅为评分卡建模的准备步骤,要选择合适的入模参数,后续还需经过变量分箱、降维,计算特征变量的WOE值和IV值得出变量的代表程度,以衡量其入模的必要性和权重。

1.《【sas怎么引入excel】行为评分卡建模的数据准备》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【sas怎么引入excel】行为评分卡建模的数据准备》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/2553597.html

上一篇

【excel怎么拼接照片】Excel制作了9张照片九宫格照片

【sas怎么引入excel】2022年第一个实际干燥产品:不同类型特性变量之间的相关性分析。

  • 【sas怎么引入excel】2022年第一个实际干燥产品:不同类型特性变量之间的相关性分析。
  • 【sas怎么引入excel】2022年第一个实际干燥产品:不同类型特性变量之间的相关性分析。
  • 【sas怎么引入excel】2022年第一个实际干燥产品:不同类型特性变量之间的相关性分析。

【sas怎么引入excel】python从8个外部数据源导入数据的方法列表

  • 【sas怎么引入excel】python从8个外部数据源导入数据的方法列表
  • 【sas怎么引入excel】python从8个外部数据源导入数据的方法列表
  • 【sas怎么引入excel】python从8个外部数据源导入数据的方法列表

【sas怎么引入excel】信用的SAS,关于它的系统内容|包括案例

  • 【sas怎么引入excel】信用的SAS,关于它的系统内容|包括案例
  • 【sas怎么引入excel】信用的SAS,关于它的系统内容|包括案例
  • 【sas怎么引入excel】信用的SAS,关于它的系统内容|包括案例
【sas怎么引入excel】描述SAS 9.4的导入过程

【sas怎么引入excel】描述SAS 9.4的导入过程

sas怎么引入excel相关介绍,描述SAS 9.4的导入过程 语法摘要示例限制 导入过程可在以下操作环境中使用: Microsoft windows UNIX或Linux文件的路径名最多可包含201个字符。 互动 所有带有百分号(%...

【sas怎么引入excel】SAS逻辑回归模型教学

  • 【sas怎么引入excel】SAS逻辑回归模型教学
  • 【sas怎么引入excel】SAS逻辑回归模型教学
  • 【sas怎么引入excel】SAS逻辑回归模型教学

【sas怎么引入excel】互联网金融、SAS工具使用经验

  • 【sas怎么引入excel】互联网金融、SAS工具使用经验
  • 【sas怎么引入excel】互联网金融、SAS工具使用经验
  • 【sas怎么引入excel】互联网金融、SAS工具使用经验

【sas怎么引入excel】SPSS Modeler将读取Excel文件数据

  • 【sas怎么引入excel】SPSS Modeler将读取Excel文件数据
  • 【sas怎么引入excel】SPSS Modeler将读取Excel文件数据
  • 【sas怎么引入excel】SPSS Modeler将读取Excel文件数据
【sas怎么引入excel】基于SAS的入门

【sas怎么引入excel】基于SAS的入门

sas怎么引入excel相关介绍,SAS语言-简介 SAS语言是提供完整编程语言的专用数据管理和分析语言。与计算机的高级语言一样,SAS用户只要掌握命令、语句和简单语法规则,就可以执行数据管理和分析处理任务。因此,掌握SAS编程技术是...