导语:影响关系的研究是所有研究中最常见的。我们都知道,当y是量化数据时,可以用线性回归来分析影响关系。如果要估计现在发生什么事的概率,比如有人要买一件衣服吗?这里的y是“愿意购买”,属于分类数据,不能用回归分析。
如果y是分类数据,研究x对y的影响,正确的方法是选择Logistic回归分析。
01 .概念
逻辑回归分析也用于研究影响关系,即X对Y的影响,Y是量化数据,X可以是量化数据,也可以是分类数据。
Logistic回归和线性回归最大的区别是y的数据类型,线性回归分析的因变量y属于定量数据,而Logistic回归分析的因变量y属于分类数据。(我还是不明白什么是数据类型。戳链接XX)
02.逻辑回归分类
逻辑回归可以进一步细分为二元逻辑回归、多分类逻辑回归和有序逻辑回归。
如果Y值只有两个选项,分别是有无等分类数据,选择二元Logistic回归分析。y值的选项很多,选项之间没有大小对比关系,可以使用多元Logistic回归分析。y值有很多选项,选项之间可以比较大小关系,有比较意义,所以要用多元有序Logistic回归分析。
03.逻辑回归的使用场景
逻辑回归分析可以用来估计事件的可能性,分析问题的影响因素。
在医学研究中,逻辑回归经常被用来分析某种疾病的危险因素。比如分析年龄、吸烟、饮酒、饮食是否是2型糖尿病的危险因素。
在问卷调查研究中,经常使用Logistic回归分析非量表项,如以样本的基本背景信息为X,购买意愿为Y,分析性别、年龄、家庭条件是否会影响购买意愿。
其中最常用的是二元逻辑回归分析,简单方便,易于理解和描述。下面以二元Logistic回归为例,说明操作步骤和结果的解释。
04.案例应用
(1)背景
有一份关于大学生购买某种商品意愿的问卷。共收集了468份问卷。研究者应以“性别”、“年龄”、“专业”、“每月生活费”四个变量为潜在影响因素,以购买意愿为Y,做二元Logistic回归分析。
在这些自变量中,性别、文化程度是分类数据,需要设置参考项。这里以女生和医学专业为参考项目。年龄和月收入是直接放进去的量化数据。
(2)分析步骤
①数据预处理
首先,将分类数据视为虚拟变量。SPSSAU要求Logistic回归Y值只能为1和0,其他数字不能取。所以在正式分析之前,要处理好y值。操作示意图如下:
分类数据的虚拟变量处理
y值编码
②二元逻辑回归分析
将所有分析项目(少一项应设置为虚拟变量)放入分析框,点击开始二元Logit回归。
使用路径:高级方法>:二进制逻辑
(3)结果分析
SPSSAU输出四个结果表,分别是基本汇总表、似然比检验表、二元Logit回归分析表和预测精度表。
表1基本信息汇总
表1是基本汇总表,主要用于汇总数据信息,查看Y值的分布比例,是否有缺失数据。如果缺失数据太多,或者Y值分布很不均匀,可能会导致模型质量差。
从上表可以看出,性别、年龄、专业、月生活费作为自变量,新_购买意愿作为因变量进行二元Logit回归分析。从上表可以看出,共有468个样本参与了分析,没有遗漏数据。
表2二元逻辑回归模型似然比检验结果
表2是模型似然比的检验结果,用来分析整个模型是否有效。用于多元分析时,主要注意p值、AIC值和BIC值的比较;两个值越低越好;如果多次进行分析,这两个值的变化可以进行对比,说明模型构建的优化过程。
从上表可以看出,这里模型检验的原假设是:包含自变量(性别_男、理工科、文科、艺体、年龄、月生活费)时模型质量是否相同;这里p值小于0.05,说明原假设被拒绝,即放入这个模型的自变量是有效的,这个模型的构建是有意义的。
关于上海交大智能文本分析的建议
表3二元逻辑回归分析结果汇总
表3是二元Logistic回归分析的结果,用于分析模型的整体情况以及各个X对Y的影响(显著性、影响程度等)。).
其中主要关注P值、回归系数、OR值、R伪R。
P值:判断X对Y是否呈现出显著性的影响,P<0.05说明X会对Y产生影响关系。回归系数:回归系数值,当P小于0.05时有意义。OR值:优势比,值与1作比较,越接近1影响程度越小,反之影响程度越大。Pseudo R²:用于说明模型整体情况。从上表可以看出,模型的伪R平方为0.089,这意味着所有变量都可以解释购买意愿8.9%的变化。从P值和OR值来看,理工科、艺体、年龄对购买意愿有显著的正向影响,这意味着理工科和文科专业的学生比医学专业的学生有更大的购买意愿;购买意愿随着年龄的增长而增加。
二元逻辑回归预测精度综述
表4是二元Logit回归的预测精度表,用于分析后判断模型质量。
从上表可以看出,研究模型整体预测准确率为77.14%,模型拟合情况相对较差。真值不买时,预测误差率为79.51%;另外,真实值为购买时,预测误差率为2.89%。
如果实际研究中数据预测的准确率很低,比如不到85%,此时可以考虑删除X的一部分,或者对X进行一些数据编码组合处理,多次进行二元Logit回归分析,比较结果,选择最佳模型结果。这里就不继续解释了。
05.其他解释
1.注意因变量的赋值和虚拟变量参考项的选择。y对应的数字必须只有0和1;如果没有,可以使用‘数据编码’功能进行设置。虚拟变量选择不同的选项作为参考项,结果有不同的含义。
2.如果X的个数很大(比如10个以上),就要通过筛选选择有意义的X,比如用方差分析或者卡方分析,选择X和Y有显著差异的X放入二元logit回归模型。
1.《logistic回归结果解读 快速掌握Logistic回归分析及应用》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《logistic回归结果解读 快速掌握Logistic回归分析及应用》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/1425641.html