数据科学从业者的研究日记。数据挖掘与机器学习,R与Python,理论与实践并行。个人微信官方账号:数据科学家发展(微信ID: louwill 12)
昨天备受期待的2017年NBA总决赛G1,我相信你们JRs都看过吧?不是骑士不尽力,而是对面有高达。于是,书包杜和时钟图书馆的双星闪亮登场。就在前两天数学模型课上教了多元统计,所以复习了一些PCA和典型相关分析的知识。今天,边肖用R语言进行简单的典型相关分析,看看这些球员的身体数据和技术统计之间有什么相关性。
一个
典型相关分析的统计原理
简单来说,典型相关分析就是通过降维来研究两组变量之间的相关性。一般为了研究两组变量x = (x1,x2,...XP),y = (y1,y2,...,yq),最原始的方法是计算两组变量之间的所有相关系数。pq相关系数总共有个,主要矛盾很难把握,计算起来很麻烦。这时借助主成分分析,可以找到两组变量的线性组合,讨论线性组合之间的相关性,从而将问题简化了很多。在实际问题中,这种方法也得到广泛应用。比如我们需要研究Q个质量指标(y1,y2,...,yq)和P原料指标X=(x1,x2,...xp)
典型相关分析的核心思想如下:
首先找出每组变量中的第一对线性组合,使其具有最大相关性,然后找出每组变量中的第二对线性组合,使其与该组中的第一对线性组合无关,而第二对具有第二大相关性,以此类推,直到提取出两组变量之间的相关性。
至于典型相关分析的数学推导,这里就不贴了。简而言之,求导最终要转化为优化问题。最近发现所有问题都需要优化。
2
NBA球员典型相关分析
至于典型相关分析的工具实现,大家可以用SPSS来做。SPSS中没有典型相关分析的菜单选项,所以需要在语句窗口中调用Canonical corralation.sps宏函数。有点麻烦,今天只用R语言的一个代码就可以实现SPSS的繁琐操作。边肖利用Rvest从NBA中文网上简单抓取了部分NBA球员的体能数据和技术统计,筛选后提取了NBA联盟10位热门巨星的数据。这些数据包括球员姓名、身高、体重、翼展、得分、助攻、篮板、抢断、投篮命中率和2015-16年以来的球队胜率。边肖将这些变量分为两组:体能变量组和技术统计变量组。R语言中的Cancor函数可以实现典型相关分析。看看cancor函数使用代码:
cancor(x,y,xcenter =真,ycenter =真)
x和y是两个不同的变量数据矩阵,xcenter和ycenter取逻辑值,表示样本是否分散。用cancor函数,我们简单看一下NBA球员的体能数据和技术统计的相关性。
NBA球员<。-read . CSV(" D:/Rdata/dataset/NBA player . CSV ")
nba<。-比例(NBA球员[,2:10])
ca<。-cancor(nba[,1:3],nba[,4:9])
约
原始数据被读入并按比例标准化,然后数据被分成两组变量并放入cancor函数。ca的结果如下:
$cor
[1] 0.9916247 0.8867111 0.8023318
$xcoef
[,1] [,2] [,3]
高度-0.7366761 -0.1910185 -0.6036883
重量0.5825631 0.3859985 -0.2647233
arm let 0.3238704-0.4418187 0.6941731
$ycoef
[,1] [,2] [,3]
分数0.01132183 -0.1950769 0.40835815
反弹0.01085479 -0.6941907 0.12475701
助攻数0.16098246 0.1524297-0.2915589005
抢断-0.10015342 0.4211629-0.24876921
FG 0.27541733 0.3482109-0.5697961
wing Ames-0.31661763-0.4412749 0.0666842446
$xcenter
身高体重臂章
6.772360 e-16-6.397660 e-16 1.765255 e-15
$ycenter
得分篮板助攻
2.624637 e-16 4.510281 e-18-1.694391 e-16
根据计算结果,cancor函数为两组变量提取三组相关系数,其线性组合如下:
微信回复关键词学习
回复R R语言快速入门免费视频
回复统计的统计方法及其在R
民生银行客户画像用户画像建设及应用回复
回复大数据大数据系列免费视频教程
用R语言可视化数据的回复可视化
回复数据挖掘的数据挖掘算法原理解释及应用
回归机器学习r & Python机器学习导论
1.《典型相关分析 R语言典型相关分析:NBA球员身体素质与统计数据关联性》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《典型相关分析 R语言典型相关分析:NBA球员身体素质与统计数据关联性》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/shehui/1248386.html