t检验是医学统计学中一个重要的方法,但是如果你问你知道多少,你可能要摇头一点。今天我们的《说话人统计》系列就开始讲这个问题。边肖很自豪地宣布,今天的内容是由我们的老朋友张执浩师兄写的,他邀请了哈佛医学院的田驹修女。边肖认为我们的阵容应该在奢华中突破天际!
回复“统计”看“说话人统计”系列
✪
相信大家还记得,前两集我们花了很大力气整理中心极限定理。你可能在云里雾里心里嘀咕:说这些有什么用?
今天我们先从T检验开始,T检验是最基础但也是最常用的统计检验,看看我们之前的努力有没有白费。
仔细想想,好像很久没讲故事了!今天,让我们再次邀请失散已久的蓝精灵和格格巫
一个天蓝色的精灵正在食堂吃早餐,吃着吃着,笨笨突然说道:
“你有没有觉得食堂的包子比以前小了?」
其他蓝精灵也表达了同样的感受。回想起来,最近每天早上十一点前他们的胃就开始咕咕叫了。于是热情的人们来到包子窗口问格格巫:
“最近包子做得比以前小了吗?」
格格巫否认了,慢条斯理地说:“你们这些家伙!太简单了,有时很幼稚!!手工做的包子当然有大有小,但是包子的平均尺寸一直是按照食堂标准的。我告诉你,我经历过很多战斗,也见过很多。你们兄弟姐妹谁没吃过我的包子。你的院长,我不知道他比你高在哪里。我每天和他坐在这里,一手拿着两个小面包有说有笑。你也要努力提高自己的知识水平,不要老是想搞一个大新闻,你不可能了解的很好!?」
蓝精灵们无言以对,格格巫说的话似乎有些道理。那么,蓝精灵们怎么才能发现馒头的重量平均比食堂标准小呢?
如果要深究的话,蓝精灵们现在正在研究格格巫近期做的所有包子(就像我们上一集说的,这个在统计学上叫做“整体”)。很明显,这些馒头大部分已经在肚子里吃过了,不能再叫了。就算有这些包子在场,因为时间和成本的原因,蓝精灵们也不想把每一个包子都拿走称重。而是想测量少量的馒头(称为“样品”)来判断馒头的平均质量是否明显低于食堂规定的标准值(例如50克)。这种通过样本判断总体某一统计特征(如均值、方差、分布)的方法,称为假设检验。
就像我们很久以前说的,假设检验的思想和反证的方法有些类似(你可以戳在这里回顾一下这个系列的第一集)。
首先,我们假设原始假设是正确的,并计算观察样本中某个统计量的概率。如果概率很小,我们拒绝原假设,接受与原假设相反的替代假设。如果概率大,原假设不能被拒绝。换句话说,假设检验主要是依靠观测数据与原假设的不一致性来决定是否拒绝原假设。
这个逻辑听起来相当复杂。我们用包子问题来说明一下。
蓝精灵收集了包子样品的质量数据,发现包子样品的质量远低于标准值。如果格巫的包子真的符合食堂标准(原假设),蓝精灵们有多大可能仅仅因为运气好就拿到这样的样品?
会很低!
所以蓝精灵推断原来的假设是错误的,即格格格巫的包子不符合食堂标准。
值得注意的是,如果不能通过样本数据拒绝原假设,就不能认为原假设成立,因为可能只是统计功效不够。详情请看我们的文章《多少数据够做统计?》()()。
蓝精灵决定用假设检验的方法来验证格格巫的小面包是否比食堂标准小。他们提出了两个相反的假设-
原假设:格格巫的包子大于等于食堂标准;
备选假设:格格巫的小笼包比食堂标准小。
所以每天吃早餐的时候,蓝精灵们有了新的任务:衡量他们吃的馒头的质量。为了满足假设检验的前提,小笼包应该是随机选取的,所以格格巫不应该参与此事,蓝爸爸应该负责靠窗卖小笼包。获得馒头质量样本后,蓝精灵们如何利用馒头样本判断馒头的整体平均值?
作为一个忠实的读者,一定要记住,平均样本值是对整体平均值的合理估计(这里可以快速回顾一下),所以如果包子的平均样本值比食堂标准小很多,那么整体包子很可能比食堂标准小。但是有多小才算够小呢?蓝精灵们大惑不解。
正如格格巫所说,馒头的大小是随机的。如果随机选取100个馒头作为一个测量,就可以计算出这100个馒头的平均质量。然后随机选择另外100个馒头,计算新的平均质量。如果这个步骤重复多次,每次的平均值都会不一样。如果格巫的包子符合标准,那么随机抽取的100个包子的平均质量应该在标准包子质量附近波动。
这里我们假设蓝精灵只能取一组样本。不难想象,这个样品中的馒头平均质量很可能与食堂的标准质量有所不同。关键问题是这个差值是大于还是小于样本平均质量的波动。直觉上来说,如果这种差异与样本均值的波动幅度相比微不足道,那么蓝精灵对格格巫的指责就有点站不住脚了。因此,一种可能的思路是计算样本均值与标准值的比值以及样本均值的波动范围,然后用这个比值来判断。
如何得到样本平均质量的波动范围?
在统计学中,标准差一般用来反映一个随机变量(如包子质量)的波动情况:标准差大,说明这个随机变量容易带离平均值;如果标准差很小,数值往往接近平均值。样本均值的波动是由单个随机变量的波动和样本量决定的。不难想象,采样样本越大,样本均值越接近真实均值,样本均值的波动就会越小。
数学上,如果样本量为n,样本均值的波动(标准差)等于总波动(标准差)除以。也就是说,如果全人口馒头质量的标准差为10克,那么随机抽取的100个馒头平均质量的标准差为
为什么样本均值的波动小于整体的波动?试想一下,因为样本取N个馒头的平均质量,而这N个馒头总是更有可能是大是小,平均会互相抵消,导致波动幅度更小。而且n越大,这种“扁平化”效应就越明显,波动(标准差)就越减小。
既然我们刚才说要根据样本均值与标准值之差的比值和样本均值的波动范围来做决定,那么我们就把样本均值记为,整体均值(也就是我们真正关心的统计量Gargamel做的包子的真实平均质量)记为μ0,整体标准差记为σ,样本量记为N,这个比值就是
可以看作是标准化样本与总体均值之间的差距,称为检验统计量。
现在我们有这样一个比值z,因为分子是样品包子的平均质量减去标准包子的质量,所以如果z为负,样品包子会比标准包子轻。但我们还是不知道Z一定有多负,才能有把握地说格格巫有猫腻。
这个时候蓝精灵们需要抱紧中心极限定理的大腿!根据中心极限定理,如果多次从一个总体中抽取样本,每次得到的样本的平均值将以正态分布的形式分布在该总体的平均值周围。更具体地说,当原假设成立时,由于抽样的随机性,样本的平均值服从均值为μ 0、标准差为μ0的正态分布。
这里需要讨论一些关于正态分布的技术细节。大家记得正态分布是一个钟形曲线,但是钟形曲线在数轴上可以是左的也可以是右的,形状可以是胖的也可以是瘦的。这是什么决定的?任何正态分布都可以由两个参数决定,一个是它的均值(也叫位置参数),它决定了它在数轴上的方向;一个是它的标准差(也叫形状参数)σ,决定了它的重量和薄度。因此,我们把正态分布写成n(,σ)。需要注意的是,这里所说的均值和标准差是正态分布本身作为概率分布的性质,不应该和我们之前讨论的具体问题相混淆,比如包子质量的均值。
下图显示了两种不同的正态分布N(1,0.5)和N(0,1)。
我们已经知道样本的平均值服从正态分布N( μ0,)。我们之前说的比率z呢?正态分布的另一个有趣的性质是,任意正态分布可以通过数轴上的平移和拉伸,转化为特殊的正态分布N(0,1),即平均值为0,标准差为1的正态分布(称为“标准正态分布”)。而我们之前从z的转化正好达到了这个效果(感兴趣的读者可以回顾一下正态分布的概率密度函数,想一想为什么)。
太好了。根据中心极限定理,如果给定统计量,z服从标准正态分布N(0,1)。现在蓝精灵只需要找出在什么情况下观察Z的可能性如此之小,以至于很难相信格巫的包子按照标准正态分布N(0,1)的性质是合格的。
蓝精灵虽然不喜欢格格格美,但也不想亏待他,所以想定一个标准,让误判包子比标准小的概率小于一个临界值α,用统计学语言来说,当原假设成立时,拒绝原假设的概率小于α(还记得我们在报纸上说的男女按杯分的故事吗?)。这个概率就是我们常说的P值,显著性的阈值α通常为0.05。在“包子小于标准值”的替代假设下,p值对应的概率等于标准正态分布中小于给定z值的部分的概率之和,即下图中的阴影区域。如果我们取α= 0.05,对应的z值等于1.645(图中的zα),也就是说,只要
图片来源:http://2012 books . lardbucket . org/books/begin-statistics/S12-testing-potentials . html
现在蓝精灵们只需要用公式计算Z,比较是否小于-1.645,就可以知道格巫做的包子是不是太小了!
等等,好像有问题——我不知道这个公式中σ的值,怎么办?
就像样本的平均值可以作为总体平均值的估计,样本的标准差也可以作为总体标准差的估计。我们把样本的标准差作为S,用S代替σ得到一个新的检验统计量。
当样本量n足够大时,s会非常接近σ,t会非常接近标准正态分布。但当n较小时,样本方差往往小于总体方差。例如,在只有一个样本的极端情况下,样本方差必须为0,明显小于总体方差。
为此,当n很小时,t的分布会偏离正态分布。统计学家发现,在整个人口服从正态分布的前提下,T会服从另一种分布,称为学生T分布。根据t分布的性质,我们还可以计算出t取不同值时对应的p值,从而推断出原假设。根据检验统计量t,假设检验法称为t检验法。t检验特别适用于样本量较小时的统计假设检验。
样本量是决定T检验显著性的重要因素,它主要通过两种方式影响T检验的结果。第一,样本量影响统计检验量的t值。从公式中可以看出,t值越大,封闭t分布的阴影面积越小,对应于我们通常关注的p值越小。另一种是样本大小影响T分布的形状。如下图所示,当样本量较大时,T分布接近正态分布;但当样本量越小,T分布的尾部会变得越胖,样本量越小,尾部越胖,也就是说相同T值对应的P值会更大。基于这两个原因,在使用T检验时,增加样本数是提高统计显著性的有效手段。
图像来源、显著性、p值和t检验。Martin Krzywinski & amp;娜奥米·奥特曼。自然方法10,1041–1042(2013)
最后插一句学术八卦:很多读者可能和我一样好奇为什么T分布也叫学生T分布。我记得我曾经愚蠢地认为学生课堂实验产生的数据会服从学生的T分布。其实“学生”是发现这种分布的数学家戈塞特的笔名。1908年在一本叫《Biometrika》的杂志上发表了一篇关于T分布的文章,当时用的是。为什么要用假名发文章?Gosset当时在吉尼斯啤酒厂工作(没错,你是对的,就是现在还存在的吉尼斯黑啤),发明了测试啤酒质量的T分布。但公司不允许员工公开发表研究成果,于是gossett被迫用假名发表文章。有没有一种大师在民间的感觉?其实戈塞特并不是“诺贝尔兄弟”或者其他任何民科学科。在他发表这篇关于T检验的文章之前,他参观了卡尔皮松的实验室一两年。因此,他很好地将基础研究与实际应用相结合,在统计学史上留下了光辉的一页。
今天我们来谈谈T检验最简单的情况——单样本T检验的理论基础。在接下来的几集里,我们将把T检验的家族颠倒过来,进一步介绍配对和独立样本T检验的实际应用、正态性检验以及不能满足正态性时的应对策略。
想玩t-test?别忘了继续关注说话人的统计。
✪
作者简介
田驹于2006年进入清华大学工程物理系,并于2010年获得工程学士学位。此后,他在哈佛医学院神经科学项目中攻读博士学位,并利用电生理技术和光遗传学研究了小鼠基于奖励的学习行为的神经回路及其计算模型。因为我热爱数据分析,今年夏天博士毕业后,我将加入Facebook,成为“21世纪最性感的职业”——数据科学家。
人们欣赏它
1.《t检验法 想玩转t检验?你得从这一篇看起 | 协和八》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《t检验法 想玩转t检验?你得从这一篇看起 | 协和八》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1130195.html