抽样调查是社会研究中常用的方法,但是如何做抽样调查呢?抽样调查需要注意什么?本文将向您展示样本调查的全貌,以便您对样本调查有一个总体和宏观的了解。
抽样调查中的两个推论
抽样调查涉及两个推论。第一种推断是从受访者的回答中推断出受访者的特征。我们的核心目标是了解受访者的特点,比如他们对一些基本社会态度的看法,但受访者的特点不会赤裸裸地出现在我们面前。我们需要通过一定的技巧,即问卷来询问受访者,然后通过受访者对问卷的回答来推断他们的特点。所以第一个推论来自于回答者对我们对他的特征的推论的回答。如果回答者的回答能够完美匹配我们想要知道的目标,那么这一步的推断误差就比较小,否则就会有很大的误差。这个环节称为测量环节。所以第一个推论就是测量中的推论。我们通过具体的观察结果来推断我们想要知道的目标。
第二种推断是从样本的特征推断总体特征。我们在研究中想知道的是整体,整体就是研究对象的整体。我们知道不可能调查整个人口中的每一个个体,所以只能取一个样本,通过这个样本了解整个情况。样本来自整体。只要样本是随机的,符合概念抽象的原则,样本就一定会带有整体的某些特征,从这些特征可以在一定程度上推断出整体。但是样本不等于总体,所以这个推断总会有一些误差。这一步的推断称为抽样中的推断,通过样本的特征来推断总体特征。
可以看出,抽样调查有两个核心环节,一个是测量环节,一个是抽样环节。我们把这两个环节结合在一起,最后通过统计计算得到一个统计指标,再通过统计指标得到想要的个人情况和整体情况。统计指标来源于测量和抽样。如果这两个环节中的任何一个出现问题,统计指标的计算就会出现问题。
所有抽样调查都涉及这两个推论。从这两个推论中,我们可以知道抽样调查涉及两个核心过程,一个是测量过程,一个是抽样过程。
测量过程怎么做?
首先,有一个理论概念,就是测量的目标。也是前面提到的每个人的特点。这个特点来源于一个抽象的概念。社会科学中的很多概念都很抽象,不容易衡量,比如地位和权利。如何衡量它们?这时候就需要把测量指标落实到具体的测量问题上,有一个具体的操作指标。实施这些指标的过程是一个测量过程。
比如如何衡量经济地位?比如我们认为收入可以反映人的经济地位,但是收入和我们要衡量的目标还是有一定差距的,因为有的人收入不高,但是经济地位很高。为什么?也许他有很多财产,所以财产也是一个人经济地位的体现。财产对衡量经济地位好还是收入对衡量经济地位好,这是有争议的,这意味着具体的抽样概念和操作指标之间一定有差距。这个差距是抽样调查过程中的一个问题。
说到具体的衡量指标,比如收入,我们设计了一个问题:你过去一年的总收入是多少?这个问题需要受访者回答。所以是从具体的问卷问题到回答者回答的第二个测量过程。回答者可能不会如实回答这些问题。例如,收入是一个敏感的问题。有些收入较高的人可能会少报收入,有些家庭可能会很穷。因为他们的面子,他们可能会夸大自己的收入。所以问卷上的问题和回答者的回答会有第二个错误。
第三,从回答者的回答中推断待测概念时,需要对数据进行调整。我们需要看看这个数据中有没有什么特别奇怪的值,比如最大值或者最小值,可能不是真实情况,而是人为错误。比如面试官可能在录音的时候加一个额外的零,或者受访者在回答的时候故意轻描淡写或者夸大其词。我们需要关注这些敏感的价值观,有时候需要删除这些价值观。我们还需要检查逻辑问题。比如有人可能会说他1987年出生,1988年入党。我们知道他入党前必须年满18岁。那么这两个结果至少有一个是假的,两个都有可能是错的。这个逻辑错误的问题需要校对,找出哪个更容易出错,然后纠正或者删除错误的值。因此,从被调查者的回答到用于计算的最终数据,还需要进一步的处理。如果处理好这一步,可能会修正测量误差,如果处理不好,也可能带来新的误差。
整个测量过程都要经过这些步骤。首先从理论概念到具体的问卷问题,从问卷问题到受访者的回答,然后受访者的回答经过事后的调整和处理,最后可以成为一个可以用于统计分析的数据。这是一个测量过程。
采样过程怎么做?
抽样过程从目标人群开始。目标总体性是指研究对象的整体构成。比如中国人就是我们的目标总体,我们想知道的目标都是中国人。全中国人的概念说起来容易,操作起来难,这就意味着我们需要找到一份全中国人的名单。也许我们会通过户籍的数据得到,但是这些数据和整体可能有误差。
所以它会从一个样本群体变成一个样本盒子。抽样框是一个实际可操作的列表,由人群中的每个个体组成。这份名单有时与我们的人口不同。比如在南京做调查的时候,可能没有南京所有人口的名单,但是有另外一种选择,就是通过电话号码抽样。我们只要和中国电信、中国移动联通三大运营商合作,然后获取活跃南京用户的手机号,把这个手机号作为一个抽样框,也就是把它作为一个单独的列表进行抽样。但是这个手机号作为采样帧有一个问题。首先,有些人可能没有手机,有些人可能有多个手机号,有些人可能住在南京,但他的手机号不是南京的。所以这些手机号和我们的整体目标并没有一一对应的关系,这里会出现问题。从目标人群到抽样框架都会有误差。
假设我们有一个非常好的采样框架,下一步就是采样。样品盒中可能有很多元素,所以调查每个元素是不现实的。取一个样本,这个样本和我们的采样帧可能有一定的误差,因为它只是一个样本,不是整个采样帧。比如我们得到南京抽样框的电话号码,如果有1000万,但是我们打不出1000万个电话,我们只需要打50万或10万个电话,那么这10万个电话就构成了这1000万个电话的样本,这个样本和整体以及抽样框会有一定的误差。如果打10万个电话调查南京的收入,发现人均月收入5000元,再打10万个电话,调查结果还不是5000吗?可能是5100,4900,甚至其他数字。如果你再打电话,结果可能会再次改变。这个误差就是采样过程中引起的误差,会构成从采样帧到样本的第二个误差。
第三个错误是从样本到受访者产生的。比如刚才抽取了10万个电话号码,但这并不意味着10万个电话号码都会被调查。做过电话调查的人都知道,电话拒绝率很高。拒绝访问会导致一群实际上可以被调查的人和被拉出来的人不完全一样,被调查的人会比被拉出来的人少。如果愿意配合调查的人和不愿意配合的人有一定的差异,那么受访者和样本之间就会有一定的误差。如果回答者的样本之间存在一些系统性的差距,就会导致样本结构与整体结构有一定的偏差。这是抽样过程中第三个错误,即样本和受访者之间的错误。
由于这些误差,我们在得到样本后,需要事后进行调整,比如对数据进行加权。这些方法可以在一定程度上纠正这些错误,但有时会出现新的错误。一般来说,采样过程的每一步都会出现误差,直到我们最终得到一个已经被我们调整过的样本的数据,然后结合测量过程中得到的调整后的测量结果,总结出两个环节进行统计计算。
抽样调查是一项经常处理错误的研究
只要调查中有推论,就一定有错误。推断是从不可靠的事物中推断出某种事物。因此,任何抽样调查都会有误差。如果抽样调查做得好,不可能不认为没有误差。而误差不能消除,只能减少。但是减少错误是有成本的。这意味着你可能要支付现金成本、时间成本、人工成本等等。
如果把所有可能的误差都放入抽样调查中,就会产生这样一个图形。
这是之前的测量过程和采样过程,但是每个环节都标有错误。
这些错误的概念到底是什么意思?
如何减少每个错误?
如何衡量?
订阅南京大学徐琪专栏《定量研究必备:抽样调查21讲》,可以了解全部内容。
本文来源于《定量研究的必要条件:抽样调查21讲》第三讲“抽样调查中的推断与错误”,主讲人是徐琪。
徐琪:男,北京大学社会学系社会学博士,美国密歇根大学人口研究中心访问学者,现为南京大学社会学院副教授。主要研究方向有:社会学定量研究方法、婚姻与家庭、社会分层与不平等。长期从事社会科学研究,擅长数据分析。
课程详情
1.《抽样调查的特点 一文搞懂抽样调查》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《抽样调查的特点 一文搞懂抽样调查》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/shehui/1006446.html