当前位置:首页 > 教育学习

聚类分析spss 聚类分析:SPSS实践和数据模拟!

聚类分析的基本原理是利用某种算法,根据样本的属性计算相似或差异指数,从而确定每个案例之间的亲缘关系。最后,将所有案例分成多个相似的组(即集群)。同一簇中的病例彼此相同,而不同簇中的病例彼此不同。常见的聚类方法有K-means聚类法、系统聚类法(也称层次聚类法)等。

简而言之,聚类分析就是根据样本的多个属性将相似的对象聚类成一个类,从而使同一个类尽可能的同质,不同的类尽可能的异质。

特征

一个

聚类分析简单直观。

2

聚类分析主要用于探索性研究,其分析结果可以提供多种可能的解决方案。选择最终解决方案需要研究者的主观判断和后续分析。

无论实际数据中是否有不同的类别,聚类分析都可以得到分成几类的解。

聚类分析的求解完全取决于研究人员选择的聚类变量,增加或删除一些变量可能会对最终的求解产生实质性的影响。

离群点和特殊变量对聚类影响很大。当分类变量的测量尺度不一致时,应提前进行标准化。

k-均值算法

K-means算法比较简单,在SPSS中也叫快速聚类。K-means算法中的每个类都是用对象的平均值来表示的。

步骤:

1.所有对象都随机分配给k个非空类。

2.计算每个类中所有对象的平均值,以表示该类的中心点。

3.根据每个物体到每个类中心的距离,分配到最近的类。

4.如果满足[终止条件],则聚类结束;否则,请转到步骤2。

终止条件可以是:

没有(或者小于某个数值的)对象被重新分配给不同的类;没有(或者小于某个数值的)类中心发生变化;误差平方和(SSE)达到局部最小;达到指定的迭代次数。

K-means算法只能在均值有意义的情况下使用,不适合对变量进行分类。它需要给定数量的簇,并且对异常数据和数据噪声敏感。

系统聚类算法

有两种类型的系统聚类:聚集(自下而上)或分解(自上而下)。

聚合系统聚类方法将每个对象视为一个独立的类,每次将最相似的聚类组合成上层的聚类,整个系统聚类方法在所有数据点组合成一个聚类时停止,或者在达到一定的终止条件时结束——这是大多数系统聚类采用的方式。

分解后的系统聚类方法首先将所有对象视为一个类,然后将根节点划分为若干子簇,每个子簇递归地继续向下分裂,直到出现一个只包含一个数据点的单节点簇,即每个簇只包含一个数据点。

系统聚类算法的优势在于,分析师可以比较不同聚类数的结果,选择更有趣(更有解释力)的结果。这种比较可以通过生成的聚类树来完成。

使用模拟数据的实践-K-均值聚类

用r生成模拟数据。

为什么不用现成的数据,而是用R生成数据?

主要是在我们自己生成的数据中,可以预先定义存在哪些类型的用户组,每个用户组的属性是什么。

这样就可以知道什么是“客观现实”。在使用SPSS进行聚类分析时,我们可以将分析结果与我们预设的“现实”进行对比,看看效果如何——聚类分析得到的类对我们预设的类的约简程度有多高。

假设我们要做的是一个企业管理软件a的用户画像,得到的数据中有1200个有效样本,其中有三类用户:

第一类用户是“典型管理者”,年龄大约在30-40岁之间,对使用A软件态度相对较积极,认为公司的管理是很自由的。其样本共有200人。第二类用户是“个性型员工”,年龄大约在20-25岁,对使用A软件态度波动较大,认为公司的管理很不自由。其样本共有400人。第三类用户是“安稳型员工”,年龄大约在25-30岁,对使用A软件态度比较消极,觉得公司的管理是相对自由的。其样本共有600人。

接下来,使用R生成上述三类用户的数据。代码如下(对代码不感兴趣的同学可以直接跳过):

#定义每类的数据量 n1=200 n2=400 n3=600 #画像1的数据 set.seed(1000) age1=rnorm(n1,mean=35,sd=3) set.seed(1100) attitude1=rnorm(n1,mean=8,sd=1.5) set.seed(1200) dof1=rnorm(n1,mean=8,sd=1) #画像2的数据 set.seed(2000) age2=rnorm(n2,mean=23,sd=2) set.seed(2100) attitude2=rnorm(n2,mean=5,sd=2) set.seed(2200) dof2=rnorm(n2,mean=4,sd=1.5) #画像3的数据 set.seed(3000) age3=rnorm(n3,mean=28,sd=2) set.seed(3100) attitude3=rnorm(n3,mean=3,sd=1.5) set.seed(3200) dof3=rnorm(n3,mean=7,sd=1.5) #合并所有数据 age=c(age1,age2,age3) attitude=c(attitude1,attitude2,attitude3) dof=c(dof1,dof2,dof3) orig_type=c(rep(1,n1),rep(2,n2),rep(3,n3)) data=data.frame(age,attitude,dof,orig_type) #输出到表格 write.csv(data,"F:/R/R-cluster.csv")

简而言之,这三类用户的特征如下:

类别年龄对A的态度公司管理自由度样本数第一类N(35,3)N(8,1.5)N(8,1)200第二类N(23,2)N(5,2)N(4,1.5)400第三类N(28,2)N(3,1.5)N(7,1.5)600

用SPSS进行k-均值聚类

接下来我们用R生成的数据做K-means聚类,看看分析结果和我们预设的类别之间的关系。

1.首先看看三个变量的相关矩阵:

对比我们最初定义的用户特征(详见上表),发现聚类分析对用户类别的还原程度非常高!在三个变量的平均值和类别样本的数量上,聚类和最初定义的类别之间有非常小的差异(注意类别的顺序是不同的)。

让我们使用交叉表来查看样本的分布:

SPSS操作:分析-描述性统计-交叉表,将原始数据定义的类别和K-means聚类得到的类别分别放在行变量和列变量中。

选中“显示复合条形图”。

横轴代表我们预设的类别,纵轴代表聚类分析得到的类别。可以看到一个非常明显的对应关系,

第一类用户大部分被聚类为类别3第二类用户大部分被聚类为类别1第三类用户大部分被聚类为类别2

聚类分析定义的用户组不仅与预设属性一致,而且与用户构成一致。

每周直播课

直播时间:周四晚上20:30

现场内容:研究公司业务

如何获取:补充:伊舒强免费获取

1.《聚类分析spss 聚类分析:SPSS实践和数据模拟!》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《聚类分析spss 聚类分析:SPSS实践和数据模拟!》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1648411.html

上一篇

浪胃仙是男的还是女的 大胃王浪胃仙性别是男是女?浪老师原名叫李杭泽是来自云南的小伙子

下一篇

李雅林 小年夜过大年!李雅林殷昭举与“新潮州人”共进团年饭

第七次全国人口普查主要数据将公布 到底是什么状况?

第七次全国人口普查主要数据将公布 到底是什么状况?

国务院新闻办公室定于2021年5月11日10时举行新闻发布会,请国务院第七次全国人口普查领导小组副组长、国家统计局局长宁吉喆,国务院第七次全国人口普查领导小组办公室主任、国家统计局副局长李晓超,国务院第七次全国人口普查领导小组办公室副主任、国家统计局总统计师曾玉平,国务院第七次全国人口普查领导小组办公室副主任、国家统计局人口和就业统计司司长张毅介绍第七次全国人口...

第七次全国人口普查主要数据将公布 事件的真相是什么?

第七次全国人口普查主要数据将公布 事件的真相是什么?

国务院新闻办公室定于2021年5月11日10时举行新闻发布会,请国务院第七次全国人口普查领导小组副组长、国家统计局局长宁吉喆,国务院第七次全国人口普查领导小组办公室主任、国家统计局副局长李晓超,国务院第七次全国人口普查领导小组办公室副主任、国家统计局总统计师曾玉平,国务院第七次全国人口普查领导小组办公室副主任、国家统计局人口和就业统计司司长张毅介绍第七次全国人口...

游戏用户名 网络上很欧是什么意思,分享一些欧气十足的游戏名字

  • 游戏用户名 网络上很欧是什么意思,分享一些欧气十足的游戏名字
  • 游戏用户名 网络上很欧是什么意思,分享一些欧气十足的游戏名字
  • 游戏用户名 网络上很欧是什么意思,分享一些欧气十足的游戏名字
第七次全国人口普查主要数据将公布 具体是啥情况?

第七次全国人口普查主要数据将公布 具体是啥情况?

国务院新闻办公室定于2021年5月11日10时举行新闻发布会,请国务院第七次全国人口普查领导小组副组长、国家统计局局长宁吉喆,国务院第七次全国人口普查领导小组办公室主任、国家统计局副局长李晓超,国务院第七次全国人口普查领导小组办公室副主任、国家统计局总统计师曾玉平,国务院第七次全国人口普查领导小组办公室副主任、国家统计局人口和就业统计司司长张毅介绍第七次全国人口...

第七次全国人口普查主要数据将公布 究竟发生了什么?

第七次全国人口普查主要数据将公布 究竟发生了什么?

国务院新闻办公室定于2021年5月11日10时举行新闻发布会,请国务院第七次全国人口普查领导小组副组长、国家统计局局长宁吉喆,国务院第七次全国人口普查领导小组办公室主任、国家统计局副局长李晓超,国务院第七次全国人口普查领导小组办公室副主任、国家统计局总统计师曾玉平,国务院第七次全国人口普查领导小组办公室副主任、国家统计局人口和就业统计司司长张毅介绍第七次全国人口...

第七次全国人口普查主要数据将公布 真相到底是怎样的?

第七次全国人口普查主要数据将公布 真相到底是怎样的?

国务院新闻办公室定于2021年5月11日10时举行新闻发布会,请国务院第七次全国人口普查领导小组副组长、国家统计局局长宁吉喆,国务院第七次全国人口普查领导小组办公室主任、国家统计局副局长李晓超,国务院第七次全国人口普查领导小组办公室副主任、国家统计局总统计师曾玉平,国务院第七次全国人口普查领导小组办公室副主任、国家统计局人口和就业统计司司长张毅介绍第七次全国人口...

第七次全国人口普查主要数据即将公布 事情的详情始末是怎么样了!

第七次全国人口普查主要数据即将公布 事情的详情始末是怎么样了!

国务院新闻办公室定于2021年5月11日10时举行新闻发布会,请国务院第七次全国人口普查领导小组副组长、国家统计局局长宁吉喆,国务院第七次全国人口普查领导小组办公室主任、国家统计局副局长李晓超,国务院第七次全国人口普查领导小组办公室副主任、国家统计局总统计师曾玉平,国务院第七次全国人口普查领导小组办公室副主任、国家统计局人口和就业统计司司长张毅介绍第七次全国人口普查主要数据结果,并答记者问。...

第七次全国人口普查主要数据将公布 对此大家怎么看?

第七次全国人口普查主要数据将公布 对此大家怎么看?

国务院新闻办公室定于2021年5月11日10时举行新闻发布会,请国务院第七次全国人口普查领导小组副组长、国家统计局局长宁吉喆,国务院第七次全国人口普查领导小组办公室主任、国家统计局副局长李晓超,国务院第七次全国人口普查领导小组办公室副主任、国家统计局总统计师曾玉平,国务院第七次全国人口普查领导小组办公室副主任、国家统计局人口和就业统计司司长张毅介绍第七次全国人口...