本文是2020年12月2日对北京大学数学科学学院诚实坦率教授的采访。这学期诚实坦率教授开设了《普通统计学》的一般核心课程,欢迎大家关注。

在这次采访中,诚实坦率的先生详细介绍了《普通统计学》课程的初衷、学生群体、课程的具体范围和评估方法。此外,坦诚先生还详细讲解了统计学在国际社会的应用前景、本专业毕业生的主要就业趋势以及统计学作为一种方法所面临的职业道德问题,为我们了解统计学提供了极大的便利。

第1173卷

微采访

让数据说话

课程设计

问:

先从这门课说起,问问老师你开设这样的课程是出于什么样的初衷?统计学是一门比较专业的内容。你认为统计学能对不同类型的学生的生活或学习有什么样的帮助?

统计学是一门研究收集和分析数据的方法的学科。在科学研究和日常生活中,经常会遇到数据分析,尤其是在当今大数据、人工智能和互联网的时代,数据的收集和分析非常重要。普通统计学是全校各学科本科生的一门课程。理工科虽然都开设了与统计学相关的概率统计课程,但普遍强调概率统计中的数学证明方法,不适合全校,尤其是文科生。

一般统计到现在已经提供十几年了。修这门课的学生来自全校各个系,很多都是学社会、经济、管理、历史、外语、法律的学生。学理工科的也不少。他们学过概率统计,认为概率统计学了更多的逻辑推理,但似乎更少谈如何分析数据。普通统计学作为全校的通识课,对于需要了解和掌握统计方法来分析数据的本科生来说是非常必要的。

统计学很重要,不管我们学什么专业。日常生活中遇到的数据需要用统计学的方法进行分析。所谓的数据不仅仅是数字,还有文字、图像、声音等形式,统计方法都可以应用到其中。我们班讲过《红楼梦》前八十回和后四十回是不是同一作者写的。可以用文字来分析。国外有学者讨论莎士比亚的作品是莎士比亚本人写的还是其他学者用莎士比亚的笔名写的。像莎士比亚和培根这样的学者是同龄的。我们可以用统计学的方法,将莎士比亚的作品与同时代学者的作品进行比较,看看是否有显著的差异。

很多统计专业的学生毕业后,曾经在金融、经济等领域工作。近年来,许多学生去了互联网公司,如华为、腾讯、头条、小米等。头条根据用户经常点击的内容推送用户可能感兴趣的消息;电子商务向客户发送广告,客户可以根据客户查询的产品购买产品。这些都需要用统计学的方法来分析。

问:

这些业务的内容其实和统计密切相关,但是这种基于统计的推荐和信用评级会不会带来一种统计上的歧视?

是的,好像有过电商杀人的报道。如果客户总是选择住高端酒店,电商可能会把高端酒店推给他,也可能会涨价。因此,国家应制定规章制度进行管理,以避免类似事件的发生。

问:

你刚才提到理工科的学生会有概率论和数理统计的专业课,社科或者经济管理系的学生会有应用统计学,比如计量经济学或者社会统计学。那么,普通统计学课程在重点和难度设置上的定位与其他院系的统计学课程作为专业课有什么区别呢?

概率统计教一些数学证明方法,比如推导一个统计量是否服从卡方分布,T分布或者F分布,这需要一定的数学训练。对于一些社会问题,社会学专业侧重于教授如何进行抽样调查,如何设计问卷,这些都很重要。计量经济学可能倾向于教授经济学中的统计模型、回归方程以及内生和外生变量。

普通统计学课程主要讲授和介绍统计学中常用的基本统计方法,如几种数据获取方法、数据可视化、统计推断、假设检验和简单回归模型,然后会介绍一些时间序列分析方法。但是这门课不会涉及太多的数学证明。比如我们会讲t分布,为什么t统计量是这样构造的;在均值检验中,我们从数据中得到一个样本均值和一个假设均值,它们是相等和不相等的。减去它们再除以标准差就可以知道是否有显著性差异,但是我们就不说为什么服从T分布了,而是直观的去理解。这样,学生可以在获得数据后学习如何可视化和分析数据。可视化就是画一些图。当数据量非常大的时候,可以通过绘制图形的方式直观地显示数据的趋势。在数据分析部分,我们将介绍统计推断、假设检验、列联表分析、回归模型、时间序列分析等。

在最后的考核中,会少涉及一些数学证明。有一些习题做的东西很多,比如多元回归变量选择,时间序列数据分析,需要大量的数据计算,期末考试会比较少,但是作业我们都练习过了。课程成绩是平时成绩的40%。期末考试占60%。

问:

这门课叫普通统计学。对数学不自信的学生可能会犹豫选择课程。你觉得人文社科的学生学这门课会很难吗?

很多文科生特别喜欢理科课程,也有一些学生需要用到统计学的方法。很多文科生都选择了这门课,很多文科生都考了90多分。

问:

你认为学好这门课最需要什么?有什么学习方法可以推荐给大家吗?

这门课不需要背一些内容,基本内容直观,容易掌握。以课本上的内容为要求。虽然课堂上增加了很多课本之外的内容和例子来教授实际数据分析中遇到的问题和悖论,但考试内容并没有超出课本的范围。

问:

我们的课程是不是不太关注软件的解读?

我们的课程还将涉及一些统计软件的应用,这些软件将在使用回归模型分析数据时使用。我们现在用的方法都很简单,比如excel等软件。本课程只需要使用统计软件。

统计方法

问:

那么你认为数据分析软件对于统计学习的意义是什么?一方面,软件使统计和计算更加简单。比如我们只要按照软件的要求输入数值就可以得到相应的结果。但同时我们也不了解很多概念以及结果是如何产生的。你认为我们应该如何看待软件在统计中的应用?

本课程的功能之一是让学生了解不同类型的数据应该使用什么统计方法。例如,在连续变量的情况下,应该使用回归分析、方差分析或列联表分析;用不同的方法各有什么优缺点?我们的课程侧重于方法,有必要澄清这样的问题:什么样的数据和目的适合什么样的方法。使用统计软件的时候,可能会出现你说的一些问题。如果不知道对什么类型的数据用什么方法和统计原理,盲目的把数据扔给统计软件,计算出来的结果可能是错误的。

问:

现在很多人在统计的过程中遇到一个类似的问题,就是对一个数据是否可以回归,回归后的结果意味着什么,没有深入的了解。因为分析软件的存在,很多基本原理人们可能不太了解,可以在无数假设和原理的基础上形成统计学。这种情况是否也会对统计产生影响?

是如果不了解统计方法,简单的把数据输入回归软件,不考虑计算模型是否合理,不检查预测残差,可能会导致错误的解释和结果。我们介绍课程中的相关内容,比如统计软件计算的结果,然后看R平方和残差图,残差是否在一定区间内随机。

问:

正如你刚才提到的,残差本身就是回归的一个基本假设。我的理解是,我们在这门课介绍这个问题的时候,不会证明回归的无偏性;这类似于检查回归线是否均匀地落在给定的两边。

可以,比如画一个横轴为x,纵轴为残差的残差图,看看残差是否随着x的增大而变得越来越大,或者是随机的。大多数残差是否合理地落在正负2个标准差内。如果个体残差很大,需要考虑是否将对应数据作为离群值,删除离群值进行重新分析,是否修改回归模型。

问:

也就是说我们会把这些定理用更日常的语言表达出来,让大家更容易理解?

可以,课程会讲数据回归分析后需要注意的点。

问:

我们也对你的学术经历感兴趣。你开始是学计算机领域的,但是读博的时候转学统计学了。你是怎么走上学统计学的道路的?你觉得统计学最吸引你的是什么?

1982年毕业于上海交通大学计算机系,被教育部派往国外。1983年,我和导师去日本九州大学学统计学。当时对计算机和人工智能比较感兴趣。当时人工智能的主要研究方向之一是数理逻辑,完全不涉及统计方法。然而,统计已经成为人工智能领域的主流方法之一。图灵奖获得者朱迪亚·珀尔教授致力于因果网络及其在人工智能领域的应用研究,运用统计学方法进行不确定性推理,利用变量X、Y、Z…的数据,找出变量之间谁是原因谁是结果,并在这些变量之间建立因果网络。基于因果网络的多变量不确定推理。

问:

我们注意到,教师研究方向的一个非常重要的部分是关于因果推理的。但是我们一般理解的统计学似乎更多的是相关性分析,那么老师能否简单的给我们介绍一下从相关性分析到因果推理可能会遇到哪些障碍,有哪些具体的方法可以让我们的统计学走向因果推理?

如果我们的目的只是为了做预测,那么我们可以利用变量之间的相关性做好预测。但如果我们的目标是做决策,就必须利用变量之间的因果关系。比如,孩子的鞋子大小与他掌握的单词量有很强的相关性:根据他穿的鞋子大小,他可以预测单词量。

至于决策,比如采取什么措施,制定什么政策,都需要因果关系。你需要找出你在意的因素Y的成因是什么,通过改变它的成因,就可以改变因素Y。利用数据找出因子Y的原因不同于传统的回归模型。

两个变量之间有相关性,但可能没有因果关系。这种错误的相关性是由第三个变量的存在引起的,称为混杂因素。比如刚才提到的童鞋尺寸和字数有很强的相关性,这是由于第三个变量“年龄”的存在,这是鞋子尺寸和字数的共同原因。

发现因果关系最好的方法就是做实验。实验方法在自然科学,尤其是医学中经常用到。但是做社会学和经济学的实验相对比较难。社会学和经济学现在正在应用实验方法。例如,通过随机发行彩票,创建了一个工具变量来评估经济研究中的因果效应。

问:

如果在一些与人有关的领域进行实验,是否存在伦理问题?

你说的这个问题很重要。比如医学和疫苗的医学实验,首先要考虑伦理问题。进行医学临床试验,需要有伦理委员会。如果有治疗疾病的有效药物,然后用无效的安慰剂作为对照进行随机试验,就会出现伦理问题。

应用前景

问:

可以看出,教师的研究会更加注重统计学在医学领域的应用。请问老师,统计学在医学领域的应用是什么,统计学的工作在这个领域会有哪些挑战?

在国际上,统计学博士毕业后,从事最多的职业是与医学、药学相关的职业。很多统计学毕业生在国内外制药公司从事统计方法研究。在开发新药的过程中,需要进行四次临床试验。第一阶段是检验药物的安全性和安全剂量,第二阶段是确定药物的有效剂量和安全性,第三阶段是评价疗效,第四阶段是监督药物上市后的疗效和副作用。前瞻性队列研究和回顾性病例对照研究常用于公共卫生领域。大数据、复杂多源数据、人工智能、生物信息、脑科学等领域对统计学提出了许多新的具有挑战性的研究问题。

问:

统计学应用于医学领域时,是否有很多次不可能完全达到理想状态?

当然可以。很多新药进入了临床试验阶段,但最后都失败了,所以研发新药的成本很高。一种新药最终可以通过医药管理局的审批,需要经过非常严格的临床试验和统计检验。

问:

这可能和理工科的实验不一样。

是的,医学临床试验是在人身上进行的。还有很多公共卫生调查,涉及敏感问题,比如吸毒、艾滋病和同性恋的关系。相关的调查方法和统计方法非常复杂。

问:

在最近的美国选举中,投票结果中的错误引发了学生们的激烈讨论。想问问老师对于美国选举过程中的这个统计错误是怎么看的?你认为这个错误的原因是什么?在统计学中,什么样的研究设计和统计方法可以最大限度地减少错误的发生?

如何收集调查数据是一个非常重要的问题。数据质量不好,无论用什么统计方法都很难避免错误的结果。不正确的数据收集方法往往会导致各种偏差。例如,美国总统选举史上的大多数民调都可以准确预测哪位候选人会当选。然而,有两个预测错误。在一个案例中,根据电话簿进行了抽样调查。当时有电话的家庭大多比较富裕,所以抽样有偏差,预测失败。在抽样调查和数据收集过程中,需要精心设计和实施,以避免抽样造成的偏差。

图为诚实坦率的老师和参加面试的学生合影

芮青访谈/芮青小姚兴袁婷婷饲料

缪欣编辑/泽坤校对

1.《刘诗诗搜狐微访谈 博雅GE微访谈 | 耿直:让数据说话》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《刘诗诗搜狐微访谈 博雅GE微访谈 | 耿直:让数据说话》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/caijing/795104.html