统计学就像比基尼。你看到的是真实的,但隐瞒很重要。“——无名氏

统计有点枯燥,但同时也可能很有趣,不是吗?

我们知道统计学包含技术统计和推理统计,今天的主题是技术统计的介绍。

什么是技术统计?维基百科的定义:

a descriptive statistic is a summary statistic that quantitative ly describes or summarizes features of a collection of information。'

中文翻译:技术统计是定量说明或总结信息集合特征的摘要统计。

请在这里核对一下关键词。

1、Describe-说明

2、摘要-摘要

注:技术统计的对象可以是整体、整体,也可以是整体。

一、技术统计的分类

技术统计又分了

集中趋势;中央环境测量。

离散趋势Measures of Dispersion

1、集中趋势中央环境测量。

集中趋势也称为“数据的中心位置”,是表示数据集的值。集中趋势的概念是平均值的概念,在特定的时间、空间条件下,可以代表研究对象的共同性质和一般水平的整体特征。

常用的集中趋势统计(statistics)为:

算术平均值

中位数

群众人数

再次强调,在统计学中,这三种统计量都有平均值的含义。

1、平均平均Mean

观测组的算术平均值(Arithmetic mean)

2、中间麦迪安。

对应于数据集中点位置的数值,按照数据集划分为两半的大小顺序排列

3、群众人数模式

出现了频率最高的观察。

关注趋势的概念看起来很简单,那么有什么现实价值呢?

在这里,我将举两个简单的例子来说明。

某创业公司A有10名职员,其中1人月薪10万人,9人月薪2万人。创业公司B也有10名职员,其中1人月薪5万韩元,9人月薪2.5万韩元。

现在假设要比较两家公司职员的收入水平。你想怎么办?

通过简单的计算,我们可以得到:

公司a:

算术平均平均平均平均平均2.8万;中等医疗2万;公众人数mode 20,000

公司b:

算术平均平均平均平均2.75万人;中值麦迪安25000韩元;大众人数mode 2.5万人

从平均Mean来看,A公司高于B公司(少数高收入者会提高整体平均水平)。如果喜欢Median,很明显B公司更高。

那我应该用Mean还是Median?这取决于我们的目的。

如果我们的目的是研究大多数人的工资水平,那么B公司90%的工资比A公司高,所以使用中位数会更好。

但是在现实生活中,我们常见的是平均mean,统计说明,尤其是国内媒体,经常用平均值来描述特定地区某个时间段的收入水平。一个不好的结果是,大多数人会觉得自己是“平均的”。这样做的数据固然好看(和上面的公司A一样),但不能更准确地显示普通大众的实际收入水平。

看这里,“统计学就像比基尼一样。你看到的是真实的。但是隐藏很重要”这句话的意思应该可以深刻理解。

二、离散趋势度量(Measure of Dispersion)

离散趋势是研究观察偏离中心值(center)的程度。因为只研究集中趋势是不够的,所以也有必要脱离研究

散趋势Measure of Dispersion.

常用离散统计量有:

§ 极差

§ 标准差(方差)

§ 四分位数间距

§ 变异系数(相对标准差)

1、极差 Range

为一组数据的最大值和最小值之差。极差的计算较简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。极差在SPC控制图中有大量应用。

2、方差或标准差 Variance or Standard deviation

方差和标准差所反映的是一组数据与其均值为代表的中心的平均离散水平。因为标准差的计算应用到每一个变量值,所以,会受到极端值的影响,当数据中有较明显的极端值(outlier)时不宜使用。必须知道这一点,所有方差/标准差分析的前提是:样本总体服从正态分布,如果不服从,就要有补救措施,比如数据转换。



3、四分位数间距 Inter Quartile Range (IQR)

即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第三 "四分位数" 与第一 "四分位数" 的差距又称四分位距, 常和中位数一起使用。比如箱型图。



4、变异系数 Coefficient of Variation (CV)

又叫相对标准差(RSD),变异系数CV是原始数据标准差与原始数据平均数的比。标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较有时就显得不合适了。例如一个总体的标准差是10,均值是100;如果另有一个总体的标准差是20,均值是2000。如果直接用标准差来进行比较,后一总体的标准差是前一总体标准差的2倍,似乎前一总体的分布集中,而后一总体的分布分散。但前一总体用标准差来衡量的各数据的差异量是其均值的1/10;后一总体用标准差来衡量的各数据差异是其均值的1/100,是微不足道的。可见用标准差与均值的比值大小来衡量不同总体数据的相对分散程度更合理。



三、图形化工具

前文刚开始我们提到关于描述性统计的两个关键词是 Describe(描述) 和 Summarize(总结);同时我们也介绍了可以通过集中趋势统计量以及离散趋势统计量来对目标数据进行描述、总结。但这些统计量基本都是数学计算,比较抽象,有没有更好的方法呢?

答案是有:Visulization!

没错,那就是一系列的图形化工具。

在Excel软件或者Minitab软件都有很多图形化工具用以描述、总结和展示数据,下面摘选部分:

§ 柱状图

§ 条形图

§ 箱型图

§ 散点图

§ 雷达图

§ 气泡图



1.《【excel怎么算rsd】统计说明统计| Descriptive Statistics》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【excel怎么算rsd】统计说明统计| Descriptive Statistics》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/2501495.html