当前位置:首页 > 奇闻趣事

因子载荷 主成分分析和因子分析简介

近年来,热门的BA和DS相关专业对传统的经济管理类专业提出了巨大的挑战。在信息就是一切的时代,你准备好了吗?在信息复杂的时代,如何利用模型进行提取、分析、模拟和决策?

对角线是x和y的方差,对角线是协方差。协方差是对两个变量同时变化程度的度量。协方差大于0意味着如果x和y中的一个增加,另一个也增加;小于0表示增加和减少。如果x和y在统计上是独立的,那么它们之间的协方差为0;但协方差为0,并不意味着x和y是独立的。协方差绝对值越大,协方差和协方差相互影响越大,反之则越小。协方差是没有单位的量。因此,如果相同的两个变量采用的维数发生变化,它们的协方差也会在分支上发生变化。

第三步是求协方差的特征值和特征向量,得到

假设我们选择两条不同的直线进行投影,哪一条更好?根据我们之前的方差最大化理论,左边的是好的,因为投影样本点之间的方差最大(也可以说投影绝对值之和最大)。

投影计算方法见下图5:

数据集中(将坐标原点移至采样点中心):

第一主轴u1方向的集中数据分布最大,也就是说u1方向投影绝对值之和最大(或方差最大)。上面已经描述了计算投影的方法,即x和u1是内积。由于只需要u1的方向,u1也是一个单位向量。

这里,也就是最大化公式:

根据矩阵代数的知识,绝对符号项的平方是很方便的。于是就有了最大化公式:

两个向量的内积可以转化为矩阵乘法:

所以目标函数可以表示为:

在括号中,矩阵乘法表示向量的内积。列向量换位后是行向量,行向量乘以列向量得到一个数。一个数的换位本身就是,所以目标函数可以改成:

无护套:

而且因为u1和I无关,你可以得到求和器的外部,上面的公式简化为:

学过矩阵代数的同学可能已经发现,上面括号中的求和结果相当于一个大矩阵乘以它自己的转置,其中这个大矩阵的形式如下:

矩阵的第一列是xi

所以有:

所以最终的目标函数是:

其中一个是二次型,

我们假设某个特征值为λ,对应的特征向量为ξ,并且存在

类似地,目标函数也可以表示为映射向量的二范数平方:

其中是矩阵A的最大奇异值(也是矩阵A的第二范数),等于(或)的最大特征值的平方。

对于这个问题,它是一个半正定对称矩阵,这意味着它的特征值都大于等于0,不同特征值对应的特征向量是正交的,在空之间形成一组单位正交基。

然后求解第二个问题,为一般情况设置一个对称矩阵

的n个特征值是:

相应的单位特征向量是:

如果取任意向量x,由特征向量组成的空中的这组基表示为:

然后:

解决第二个问题,我们取目标函数得到最大值时对应特征向量的方向,即最大特征值,也就是第一主成分u1的方向!(第二主成分的方向是第二大特征值对应的特征向量的方向,以此类推)。

证明完成。

主成分在整个信息中的百分比可以通过以下公式计算:

公式中,分母是所有奇异值的平方和,分子是选取的前k个奇异值的平方和。

一些研究工作表明,所选主轴的总长度约占所有主轴长度总和的85%。其实这只是一个大概的说法,具体数字要看实际情况。

3.意义

PCA将N个特征缩减为K个特征,可用于数据压缩。比如一个100维的向量可以用10维来表示,那么压缩率就是90%。同样,图像处理领域的KL变换也是利用PCA进行图像压缩、人脸检测和匹配。

这里很大一部分是由http://blog.csdn.net/zhongkelee/article/details/44064401组织的

主成分分析Stata运算

读取数据:

主成分分析:

可变特征向量:

电影剧本:

前三个主要成分的预测:

前三个主要组成部分的预测结果:

前三个主成分与原始变量的相关性;

所以我们可以说第一主成分变量和原来的八个变量有关,而第二主成分变量只反映了其中的三个。至于第三个主成分变量,它只反映了一个变量净空因子(我们把绝对值>:0.5作为显著性)。

因子分析(统计因子分析及应用问题推荐参考书系列)

因子分析是一种多元统计分析方法,研究如何在信息损失最小的情况下将许多原始变量浓缩成几个因子变量,以及如何使因子变量更具可解释性。让我们以下面为例:

为了了解学生的学习能力,观察了N名学生的P科成绩,P科(如代数、几何、语文、英语等。)由X1表示,...,Xp。我们对这些数据进行总结和分析,得出所有被试的共同因素是M (M

X(i)=a(i1)F1+a(i2)F2+...+a(im)Fm+ε(i) (i=1,...,p)

m个不可观测的不相关共同因素F1...Fm和一个特殊因子ε(i)被用来描述原始可测相关变量(被试)X1...Xp,并讲解分析学生的学习能力。它们的系数a(i1),...a(im)称为系数负载。这是一个因子分析模型,可用于分类和降维。

综上所述,因子分析是一种寻找潜在主导因子模型的方法。因子分析是根据变量的相关性对变量进行分组,使同一组中的变量相关性较高,而不同组中的变量相关性较低。每组变量代表一个基本结构,称为公因子。对于所研究的问题,我们可以尝试用最少数量的所谓公共因子的不可测线性函数和特殊因子的和来描述原始观测的各个分量。

因子分析得到的新变量是每个原始变量的内部分析。因子分析不是对原始变量进行重组,而是将原始变量分解为共同因子和特殊因子。具体来说,就是要搞清楚在某个问题中可以直接测量的指标是如何被几个在专业上有意义的、不能直接测量的、相对独立的因素所支配的,从而通过每个指标的测量来间接确定每个因素的状态。因子分析只能解释部分变异,主成分分析可以解释全部变异。

因子分析是一种多元统计分析方法,它从研究变量的内在相关性出发,将一些复杂的变量简化为几个综合因子。它的基本思想是将观测到的变量进行分类,分类到相关性高的同一个类中,即紧密联系,而不同类型变量之间的相关性低,所以每一类变量实际上代表了一个基本结构,即一个共同因素。对于所研究的问题,我们试图用所谓公共因子和特殊因子的线性函数的最小不可测和来描述原始观测值的每个分量。

因子分析模型描述如下:

(1) ⑴X = (x1,x2,…,xp)¢是一个可观测的随机向量,均值向量E(X)=0,协方差矩阵Cov(X)=∑,协方差矩阵∑等于相关矩阵r(只有对变量进行标准化才能实现)。

⑵F = (F1,F2,…,Fm)¢(m & lt;p)是一个不可测向量,其均值向量E(F)=0,协方差矩阵Cov(F) =I,即向量的分量相互独立。

⑶e = (e1,e2,…,ep)¢和F相互独立,E(e)=0,E的协方差矩阵∑为对角矩阵,即各分量E相互独立,则模型:

x1 = a11F1+ a12F2 +…+a1mFm + e1

x2 = a21F1+a22F2 +…+a2mFm + e2

………

xp = ap1F1+ ap2F2 +…+apmFm + ep

称为因子分析模型,又称为R型正交因子模型,因为它是针对变量的,每个因子都是正交的。

矩阵形式为:x = af+e。

这里,

⑴百万英镑;

⑵Cov(F,e)=0,即F和e无关;

⑶D(F) = Im,即F1,F2,…,Fm不相关,方差为1;

D(e)=即e1,e2,…,ep不相关,方差不同。

我们称f为x的公共因子或潜在因子,矩阵A为因子负荷矩阵,e为x的特殊因子,A = (aij),其中aij为因子负荷。从数学上可以证明,因子load aij是ith变量与jth因子之间的相关系数,反映了ith变量对jth因子的重要性。

在模型中,F1,F2,…,Fm称为主因子或公因子,是所有原始观测变量表达式中的公因子,是独立的、不可观测的理论变量。共同因素的含义必须根据具体问题的实际意义来确定。E1,e2,...ep被称为特殊因子,它们是xi分量的特殊因子(i=1,2,...向量x的,P)。所有特殊因子和特殊因子都独立于所有公共因子。

模型中负载矩阵A中的元素(aij)是一个因子负载。因子负荷aij是xi和Fj的协方差,也是xi和Fj之间的相关系数,表示xi对Fj的依赖程度。Aij可以看作是ith变量在jth公共因子上的权重。共同执行活动的绝对值越大(|共同执行活动|£1),xi与Fj的依赖程度就越大,或者说共同因素Fj对xi的负荷就越大。为了得到因子分析结果的经济解释,因子负荷矩阵A中的两个统计量是非常重要的,即变量的公度和公因子的方差贡献。

因子负荷矩阵A中第I个元素的平方被记录为hi2,这被称为变量xi的公共性。

它是所有共同因素对xi方差的贡献,反映了所有共同因素对变量xi的影响。大的hi2表示x的ith分量xi对每个分量F1,F2,...f的,Fm .因子荷载矩阵a的jth列(j =1,2,…,m)中各元素的平方记录为gj2,称为共同因子Fj对x的方差贡献。

Gj2表示由jth公共因子Fj为x的每个分量xi(i= 1,2,…,p)提供的方差之和,这是测量公共因子相对重要性的指标。gj2越大,共同因子Fj对x的贡献越大,或者说对x的影响和作用越大,如果因子负荷矩阵A的所有gj2 (j =1,2,…,m)都按大小计算排序,那么最有影响的共同因子就可以据此提取出来。

因子旋转

建立因素分析模型的目的不仅是找出主要因素,而且要知道每个主要因素的意义,从而分析实际问题。如果求解主因子解后各主因子的典型代表变量不突出,则需要对因子进行旋转,通过适当的旋转获得满意的主因子。

旋转的方法有很多,其中正交旋转和斜向旋转是因子旋转的两种方法。最常用的方法是最大方差正交旋转法(Varimax)。因子旋转是指因子载荷矩阵中因子载荷的平方值分为0和1两个方向,这样大载荷较大,小载荷较小。在因子旋转的过程中,如果因子对应的轴相互正交,则称为正交旋转;如果各因子对应的轴互不正交,称为斜旋转。常用的斜旋转方法有Promax法。

因子得分

因子分析模型建立后,另一个重要的作用是利用因子分析模型来评价每个样本在整个模型中的位置,即做出综合评价。比如区域经济发展的因子分析模型建立后,我们要了解各个区域的经济发展情况,对区域经济进行分类,哪些区域发展较快,哪些区域发展中等,哪些区域发展较慢。这时就需要用变量的线性组合来表示共同因子,也就是用区域经济的指标值来估计其因子得分。

设变量x表示的公因子f的线性组合为:

Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1,2,…,m

这个公式叫做因子得分函数,用来计算每个样本的共同因子得分。如果m=2,可以通过将每个样本的p个变量代入上述公式计算出每个样本的因子得分F1和F2,然后在平面上绘制出因子得分,从而对样本进行分类或者对原始数据进行更深入的研究。

而因子得分函数中方程m的个数小于变量p的个数,因此因子得分无法精确计算,只能估计。因子得分的估计方法有很多,其中常用的有回归估计、Bartlett估计和Thomson估计。

因子分析有两个核心问题:一是如何构造因子变量;二是如何命名和解释因子变量。所以因子分析的基本步骤和解决方法都是围绕这两个核心问题。

㈠因素分析通常有以下四个基本步骤:

(1)确认待分析的原始变量是否适合因子分析。

⑵构造函数变量。

⑶采用旋转法,使因子变量更易解释。

⑷计算因子变量得分。

㈡因素分析的计算过程:

(1)对原始数据进行标准化,消除变量之间在数量级和维度上的差异。

⑵求标准化数据的相关矩阵;

⑶求相关矩阵的特征值和特征向量;

⑷计算方差贡献率和累计方差贡献率;

⑸决定因素:

设F1,F2,…,Fp为p因子,当前m个因子所包含的数据信息总量(即它们的累计贡献率)不小于80%时,可以用前m个因子来反映原评价指标;

[6]因子旋转:

如果得到的m个因子无法确定或者它们的实际意义不明显,那么需要对这些因子进行轮换,以获得更明显的实际意义。

⑺使用原始指数的线性组合来计算每个因子的得分:

因子得分通过回归估计、巴特利特估计或汤姆逊估计计算。

(8)综合得分

以各因素的方差贡献率为权重,由各因素的线性组合得到综合评价指标函数。

f =(w1 f1+w2 F2+…+WMFm)/(w1+w2+…+WM)

这里的Wi是旋转前后因素的方差贡献率。

(9)评分排名:使用综合评分可以得到评分排名。

为了帮助您更好地成长和发展,边肖整合的R语言、spss和时间序列分析数据的链接将在明天的推送中与您分享。

1.《因子载荷 主成分分析和因子分析简介》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《因子载荷 主成分分析和因子分析简介》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/794706.html

上一篇

世界十大最丑建筑物 2020年中国十大最丑建筑,谁中奖了?

下一篇

洪金宝全家福 洪金宝全家福,弃韩国妻子娶美女徒弟,三儿子演戏没啥名气

变量英语 程序代码中变量名到底是用英文还是用拼音

变量英语 程序代码中变量名到底是用英文还是用拼音

这个问题好像没必要讨论。所有有经验的程序员都会毫不犹豫的回答,当然是用英语。但是,我今天决心谈谈自己的看法,不能一概而论。一个网站调查显示,变量命名是程序员每天最头疼的事情。所以,变量的命名,中英文都不容易。 我先给出自己的命名规则:1。对于所有需要阅读你的代码的人...

ca144 影响因子144.8的CA发出警示:年轻人肠癌增加

ca144 影响因子144.8的CA发出警示:年轻人肠癌增加

浙江医药在线:一名18岁女大学生在5个月内死于癌症 美国的结直肠癌早期检出率为39%,而中国仅为10%;美国5年生存率高达65.1%,而中国只有32%。预防大肠癌,除了重视早期筛查外,还迫切需要在年轻人中普及科学。 什么是结直肠癌? 结直肠癌是一种来源于大肠上皮的恶...

因子是什么 护肤品中的生长因子到底是什么鬼?有用吗?

  • 因子是什么 护肤品中的生长因子到底是什么鬼?有用吗?
  • 因子是什么 护肤品中的生长因子到底是什么鬼?有用吗?
  • 因子是什么 护肤品中的生长因子到底是什么鬼?有用吗?
朴尔因子 吴大伟家庭背景身世显赫是富二代吗 吴大伟个人资料女友是谁

朴尔因子 吴大伟家庭背景身世显赫是富二代吗 吴大伟个人资料女友是谁

  最近吴大伟成为了大家关注的对象,吴大伟家庭背景成为了大家争议的焦点,无论从吴大伟的着装和服饰,都能显示出一种贵族的气氛。那么吴大伟真的是有钱人吗?现在红圈星闻小编就为大家整理一下吴大伟的相关资料,另外,吴大伟现在有女朋...

期刊影响因子查询 重磅:2017年度SCI期刊影响因子可查询(附查询方式)

  • 期刊影响因子查询 重磅:2017年度SCI期刊影响因子可查询(附查询方式)
  • 期刊影响因子查询 重磅:2017年度SCI期刊影响因子可查询(附查询方式)
  • 期刊影响因子查询 重磅:2017年度SCI期刊影响因子可查询(附查询方式)

变量英文 程序代码中变量名到底是用英文还是用拼音

这个问题好像没必要讨论。所有有经验的程序员都会毫不犹豫的回答,当然是用英语。但是,我今天决心谈谈自己的看法,不能一概而论。一个网站调查显示,变量命名是程序员每天最头疼的事情。所以,变量的命名...

王因子个人资料简介 王因子人物简历

人物基本资料一、王因子个人资料简介王因子个人资料王因子个人简介性别:女生肖:猪名字拼音:Wang Yin Zi星座:水瓶座繁体:王因子净身高:169.87公分网名:后炮否史或符人物体重:13...

验证性因子分析 验证性因子分析的三种用途和分析方法

  • 验证性因子分析 验证性因子分析的三种用途和分析方法
  • 验证性因子分析 验证性因子分析的三种用途和分析方法
  • 验证性因子分析 验证性因子分析的三种用途和分析方法