逻辑回归模型是金融信贷行业创建各种分数卡模型的核心,机器学习/统计学习模型算法中近80%是逻辑回归模型,根据逻辑美国金融公司总结的SAS建模过程,大致概括如下:
建模过程
通用模型培训过程:
1、下载数据。
a)根据指定的要求和型号要求,创建包含user_id、dep字段的驱动程序数据集
b)其中null值将被指定默认值coalesce(column,default_value)
c)从800个变量下载过去6个月的连续数据,并将每个表转换为宽表下载
2、计算变量的IV值
a)将excel数据集转换为SAS数据集
B) 1月的数据(如年龄、性别等)可以直接以1月的值计算IV
C) 6个月的数据(如每月消费金额、消费次数等),首先要进行VH转换(目前VH转换方法为36种),然后结合V1-V6和36种转换进行IV计算。
d)选择按所有变量的IV值排序的IV阈值(请求行为分数的IV阈值为0.02)。响应模型的IV阈值为0.1。从VH转换表中提取大于阈值的字段,合并生产后续数据集(约500至3000个)。
3、再次选择变量
一)使用逐步判别分析(stepdisc)首先是在所有系数中选择具有最明显判别能力的因素,然后选择第二个因素。这个元素是以第一个元素为基准,具有最明显判别能力的元素,即第一个和第二个元素相结合,具有明显判别能力的元素。然后选择第三个图元。这个因素是以第一和第二个因素为基准,具有最明显的判别能力的因素。由于系数之间的相互关系,引入新系数后,原来引入的系数将失去明显的歧视能力。因此,在引入第三个因素后,首先要检查已经引入的每个因素是否还有明显的判别能力,如果有,是否需要去除这个不重要的因素。然后继续引入,直到不再有明显能力的因素被消除为止。通过这样挑选的因素制作的判别函数来判断,可以获得很高的判别精度。选择对向前选择、向后剔除或逐步判别有用的定量变量,完成逐步判别分析。生产文件保留选择结果中的变量(约100至300个)
b)“使用逐步回归法”(stepwise)按模型引入变量,每次引入分析变量时进行F检查,对已选定的分析变量进行一次T检查,如果随后引入分析变量,原来引入的分析变量不再突出,则删除。每次引入新变量时,请确保回归方程仅包含重要性变量。这是一个反复的过程,直到回归方程中没有明显的解释变量,回归方程中也没有明显的解释变量为止。保证最后得到的解析变量集是最佳的。此步骤生成一个logi文件,您可以在文件末尾查看选定的变量(约15-30个)。
4、打印模型报告
模型报告目录
a)将数据集随机划分为培训和测试两个数据集,并在每行的末尾添加字段flag='dev '和flag='oot '
b)打印变量的模型报告:培训选定变量的模型,并使用测试数据集进行验证,以打印模型的PSI、bivar、ks等评估指标结果
c)结果中的P1。如果查看Final Model的CONSISTENT值为FALSE的变量和ProbChiSq值较大的变量,建议删除。P2。在CoLin中查看Pearson相关系数表,删除相关系数大于0.4的变量。P4。在KS Gain中查看KS值。7.查询Bivar_After_Treatment中的数据,使用
您可以使用Bivar_dev.xls快捷键ctrl W创建Bivar Plot图表,并将该表导入到模型报表中。根据上述调整,删除某些错误变量,并根据Bivar Plot图表执行treatment转换,以再次重复打印模型报告
5、模型变量说明和说明
a)根据最终选择变量和变量转换方法完成变量说明文档
b)根据变量系数、变量逻辑和dep进行逻辑验证,消除不合逻辑、相关性强的变量,再次使用模型打印报告,确保整体ks减少不大。
6、模型阈值和政策调整
a)型号报告的P4。根据KS Gain的结果,通过使Min Score成为阈值来预测模型
终端.
==
为了详细说明这一过程,将进行全文后续发布,欢迎您参加订阅咨询。
1.《【sas怎么引入excel】SAS逻辑回归模型教学》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【sas怎么引入excel】SAS逻辑回归模型教学》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/2512198.html