回归定义
回归分析是一种预测建模技术,它研究因变量和自变量之间的关系。这种技术通常用于预测分析、时间序列模型和寻找变量之间的因果关系。
使用曲线/直线来拟合这些数据点。这样,从曲线或直线到数据点的距离差最小。
最常用回归方法
1.线性回归
线性回归通常是学习预测模型的首选技术之一。在这种技术中,因变量是连续的,自变量可以是连续的或离散的,回归线的性质是线性的。线性回归通过使用最佳拟合线在因变量和一个或多个自变量之间建立关系。
用一个方程表示,即Y=a+b*X+e,其中a代表截距,b代表直线斜率,e是误差项。该方程可以根据给定的预测变量预测目标变量的值。
用最小二乘法得到最佳拟合线。对于观测数据,它通过最小化从每个数据点到直线的垂直偏差的平方和来计算最佳拟合直线。因为相加时偏差先平方,所以正负不抵消。
焦点:
虽然会有一种归纳法可以拟合更高次的多项式,得到更低的误差,但是可能会导致过拟合。你需要经常画图表来检查拟合情况,重点保证拟合合理,不能过拟合,也不能欠拟合。
以下是一个帮助你理解的传说:
在这个公式中,有两个组成部分。第一个是最小二乘项,另一个是β2的λ倍,其中β是相关系数。为了缩小参数,将其添加到最小二乘项中,以获得非常低的方差。
要点:
除了常项,这个回归的假设和最小二乘回归类似。它缩小了相关系数的值,但没有达到零,说明它没有特征选择功能。它是一种正则化方法,使用L2正则化。
6.套索回归
类似于岭回归。Lasso也惩罚回归系数的绝对值。此外,还可以降低变异程度,提高线性回归模型的精度。请看下面的公式:
套索回归不同于岭回归,它使用绝对值而不是平方。这导致了一个惩罚,使得一些参数估计等于零。罚值越大,进一步估计会使还原值接近于零。这将引导我们从给定的n个变量中选择变量。
要点:
除常数项以外,这种回归的假设与最小二乘回归类似它收缩系数接近零,确实有助于特征选择这是一个正则化方法,使用的是L1正则化如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零7.回归
弹性网是套索和脊回归技术的混合。它使用L1进行训练,并首选L2作为正则化矩阵。当有许多相关特性时,弹性网非常有用。Lasso会随机挑选其中一个,而ElasticNet会选择两个。
在变量高度相关的情况下,会产生群体效应;选择的变量数量没有限制,可以承受双重收缩。除了七种最常用的回归技术,您还可以看看其他模型,如贝叶斯、生态和稳健回归。
如何正确选择回归模型?
在多类回归模型中,根据自变量和因变量的类型、数据的维数和数据的其他基本特征选择最合适的技术是非常重要的。以下是您选择正确回归模型的关键因素:
比较适合于不同模型的优点,我们可以分析不同的指标参数,如统计意义的参数,R-square,Adjusted R-square,AIC,BIC 以及误差项,另一个是 Mallows’ Cp 准则。这个主要是通过将模型与所有可能的子模型进行对比,检查在你的模型中可能出现的偏差交叉验证是评估预测模型最好的方法。 在这里,将你的数据集分成两份。使用观测值和预测值之间的一个简单均方差来衡量你的预测精度如果你的数据集是多个混合变量,那么你就不应该选择自动模型选择方法,因为你应该不想在同一时间把所有变量放在同一个模型中它也将取决于你的目的。 可能会出现这样的情况,一个不太强大的模型与具有高度统计学意义的模型相比,更易于实现回归正则化方法在高维和数据集变量之间多重共线性情况下运行良好初学者可以按照这个逻辑来选择:如果结果是连续的,就用线性回归。如果是二元,就用logistic回归!
SPSS练习
SPSS做因子分析,输出结果中有一个凯泽-迈耶-奥尔金抽样充分性测度。它的值在的范围内。如果该值大于0.5,则证明原始数据中的指标适合使用因子分析算法建模。如果小于0.5,要么重新计算指标,要么更改算法。SPSS做多元线性回归,输出结果中拟合度太低,说明指标与结果相关性不明显,需要重新计算指标或改变算法。
步骤1:导入数据
路径:–––––
第二步:数据分析
–––––
第三步:结果分析
第一个输出结果:输入/移除变量
第二个输出:模型摘要
R表示拟合优度(goodness of fit),用来衡量模型的拟合程度,越接近 1 越好R方表示决定系数,用于反映模型能够解释的方差占因变量方差的百分比,越接近 1 越好调整R方是考虑自变量之间的相互影响之后,对决定系数R方的校正,比R方更加严谨,越接近 1 越好标准估计的误差是误差项 ε 的方差 σ2的一个估计值,越小越好人们普遍认为:
小效应: R (0.1~0.3),对应 R方(0.01~0.09)中等效应: R (0.3~0.5),对应 R方(0.09~0.25)大效应: R (0.5~1),对应 R方(0.25~1)这种情况是中等效果,偏差误差值略高。
第三个输出结果:方差分析
方差分析表明方差分析的结果,主要取决于F和显著性值。是方差分析的结果。F检验的重点是显著性值,具体大小不重要。如果F值对应的显著性值小于0.05,可以认为回归方程是有用的。
显著性值0小于0.05,方程可用。
第四个输出结果:系数
系数表列出了自变量的显著性检验结果。
非标准化系数中的 B 表示自变量的系数与常数项标准系数给出的自变量系数与非标准化系数中的明显不同,这是因为考虑到不同自变量之间的量纲和取值范围不同t 值与显著性值是自变量的显著性检验结果,其 t 值对应的显著性值小于 0.05 代表自变量对因变量具有显著影响,下图中,自变量Precipitation 对 因变量具有显著影响,而自变量Longitude的影响程度相对而言就弱了很多综合所有输出结果,表明AQI、降水量和经度的拟合效果相当理想。
SPSS给出的回归方程为y =-15.6-0.034 *精度+1.12 *经度
本文转载并分享。如果侵权,请联系后台删除
基于零的就业分类,用于条目数据分析
就业班学生专属:
有趣的月度测试和数据库模拟练习
1v1职业生活规划课教师督导
专业讲师团队答疑
加入我们,您将拥有:
1.掌握SQL/Python/Excel/PPT等数据分析工具
2.真实数据库的实际项目经验
3.数据工作场所讲师1v1职业规划
五月的课现在开始了!详细扫描代码!
1.《spss多元回归分析步骤 SPSS多元线性回归案例:回归分析方法实战》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《spss多元回归分析步骤 SPSS多元线性回归案例:回归分析方法实战》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1722468.html