一、抽样的概念 1.总体
总体(population)通常与构成它的元素共同定义:总体是构成它的所有元素的集合,元素则是构成总体的最基本单位。
2.样本
样本(sample)就是从总体中按一定方式抽取出的—部分元素的集合。或者说一个样本就是总体的一个子集。
3.抽样
明白了总体和样本的概念,再来理解抽样的概念就十分容易了。所谓抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择成抽取样本的过程。
4.抽样单位
抽样单位(sampling unit)就是一次直接的抽样所使用的基本单位。抽样单位与构成总体的元素有时是相同的,有时又是不同的。
5.抽样框
抽样框(sampling frame)又称做抽样范围,它指的是一次直接抽样时总体中所有抽样单位的名单。
6.参数值
参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。在统计中最常见的总体值是某一变量的平均值,
7.统计值
统计值(statistic)也称为样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。样本值是从样本的所有元素中计算出来的,它是相应的总体值的估计量。
二、抽样的作用
在社会研究中,抽样主要解决的是对象的选取问题,即如何从总体中选出一部分对象作为总体的代表的问题。本章一开始我们就说过,一项社会研究若能对总体中的全部个体都进行了解,那当然是很好的。但实际上广大研究人员在时间、经费、人力等方面遇到难题,甚至陷入困境,从而不得不在庞大的总体与有限的时间、人力、经费这二者之间寻求平衡。以现代统计学和概率论为基础的现代抽样理论,以及不断发展、不断完善的各种抽样方法.正好适应了社会研究的发展和应用的需要,成为社会研究知识体系中必不可少的一部分内容。可以说,抽样方法是架在研究者十分有限的人力、财力和时间与庞杂、广阔、纷繁、多变的
社会现象之间的一座桥梁。有了它的帮助,研究者可以方便地从较小的部分达到很大的整体。
三、抽样的类型
根据抽取对象的具体方式,我们把抽样分为各种不同的类型。从大的方面看,各种抽样都可以归为概率抽样与非概率抽样两大类。这是两种有着本质区别的抽样类型。本章的大部分内容将主要涉及概率抽样的方法,因为它是目前用得最多、也是最有用处的抽样类型。而对于非概率抽样方法的介绍只占很小的篇幅。
在概率抽样与非概率抽样两大类中,还可细分出若干不同的形式,具体情况见图5—1。 简单随机抽样 系统抽样 概率抽样 分层抽样 整群抽样 抽样方法 多段抽样 偶遇抽样 非概率抽样 判断抽样 定额抽样 雪球抽样
图5—1
第二节 概率抽样的原理与程序
一、概率抽样的基本原理
抽样的最终目的在于通过对样本的统计值的描述来相对准确地勾画出总体的面貌。概率抽样的方法可以帮助我们实现这一目标,并量可以对这种勾画的准确程度作出估计。随机抽取是这一过程的关键。所谓随机抽取,就是保证总体中的每一个个体都有同等的机会入选样本。或者说,总体中的每一个成员被抽中的概率相等(也即被抽中的机会相等)。而且,任何一个个体的人选与否,与其他个体毫不相关,互不影响。或者说,每一个个体的抽取都是相互独立的,是一种随机事件。为了理解事件的随机性与事件发生的概率之间的关系,最好的例子也许是投掷硬币。 二、抽样的一般程序
虽然不同的抽样方法具有不同的操作要求,但它们通常都要经历这样几个步骤。 1.界定总体
界定总体就是在具体抽样前,首先对从中抽取样本的总体范围与界限作明确的界定。这一方面是由抽样的目的所决定的。因为抽样虽然只对总体中的一部分个体实施,但其目的却是为了描述和认识总体的状况与特征,是为了发现总体中存在的规律性,因此必须事先明确总体的范围;另一方面,界定总体也是达到良好的抽样效果的前提条件。如果不清楚明确地界定总体的范围与界限,那么,即使采用严格的抽样方法,也可能抽出总体严重缺乏代表性
的样本来。 2.制定抽样框
这一步骤的任务就是依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立起供抽样使用的抽样框。需要注意的是,当抽样是分几个阶段、在几个不同的抽样层次上进行时,则要分别建立起几个不同的抽样框。 3.决定抽样方案
从前面有关抽样类型的介绍中,我们已经了解到具体的抽样方法有好几种。而从后面对这些方法的介绍中我们将会看到.各种不同的抽样方法都有自身的特点和适用范围。因此,对于具有不向研究目的、不同范围、不同对象和不同客观条件的社会研究来说,所适用的抽样方法也不一样。这就需要我们在具体实施抽样之前,依据研究的目的要求、依据各种抽样方法的特点,以及其他有关因素来决定具体采用哪种抽样方法。除了抽样方法的确定以外,还要根据要求确定样本的规模以及主要目标量的精确程度。 4.实际抽取样本
实际抽取样本的工作就是在上述几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中抽取一个个的抽样单位,构成样本。依据抽样方法的不同,以及依据抽样框是否可以事先得到等因素,实际的抽样工作既可能在研究者到达实地之前就完成,也可能需要到达实地后才能完成。即既可能先抽好样本,再下去直接对预先抽好的对象进行调查或研究;也可能一边抽取样本一边就开始调查或研究。 5.评估样本质量
一般情况下,样本的抽出并不是抽样过程的结束。完整的抽样过程还应包括样本抽出后对样本进行的评估工作。所谓样本评估,就是对样本的质量、代表性、偏差等等进行初步的检验和衡量,其目的是防止由于样本的偏差过大而导致的失误。评估样本的基本方法是:将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。若二者之间的差别很小,则可认为样本的质量较高,代表性较大;反之,若二者之间的差别十分明显,那么样本的质量和代表性就一定不会很高。 三、抽样设计的原则
(1)目的性原则是指在进行抽样方案设计时,要以课题研究的总体方案和研究的目标为依据。以研究的问题为出发点,从最有利于研究资料的获取,以及最符合研究的目的等因素来考虑抽样方案和抽样方法的设计。
(2)可测性原则指的是抽样设计能够从样本自身计算出有效的估计值或者抽样变动的近似值。在研究中通常用标准误来表示。这是统计推断必需的基础,是样本结果与未知的总体值之间客观、科学的桥梁。
(3)可行性原则是指研究者所设计的抽样方案必须在实践上切实可行。它意味着研究者所设计的方案能够预料实际抽样过程中所可能出现的各种问题,井设计了处理这些问题的方
法。由于在理论上设计抽样方案和在实际中执行这一方案是两码事,因而可行性是抽样设计的一条重要标准。
(4)经济性原则主要指的是抽样方案的设计要与研究的可得资源相适应。这种资源主要包括研究的经费、时间、人力等等。
由于这四条标准相互之间存在着一定的制约关系,甚至会相互冲突,因而在实际设计中,常常存在这样的情况,即研究者很难设计出一个在上述四个原则上同时达到最大值的抽样方案。在更多的情况下,实际的抽样设计就成为研究者在这四条标准中进行取舍和保持平衡的过程。
第三节 概率抽样方法
概率抽样是按照概率原理进行的,它要求样本的抽取具有随机性。下面我们就结合这些因素对常用的几种概率抽样方法逐一进行介绍。 一、简单随机抽样
简单随机抽样又称纯随机抽样,是概率抽样的最基本形式。它是按等概率原则直接从含有N个元素的总体中随机抽取n个元素组成样本(N>n)。常用的办法类似于抽签,即把总体的每一个单位都编号,将这些号码写在一张张小纸条上.然后放入一容器如纸盒、口袋中,搅拌均匀后,从中任意抽取,直到抽够预定的样本数目。这样,由抽中的号码所代表的元素组成的就是一个简单随机样本。
对于总体元素很多的情形,我们则采用随机数表来抽样。我们书后就附有一张随机数表,其中的数码和排列都是随机形成的,没有任何—点规律性(故也称为乱数表)。利用随机数表进行抽样的具体步骤是:
(1)先取得一份总体所有元素的名单(即抽样框); (2)将总体中所有元素一一按顺序编号;
(3)根据总体规模是几位数来确定从随机数表中选几位数码;
(4)以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍; (5)根据样本规模的要求选择出足够的数码个数;
(6)依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。 二、系统抽样
系统抽样又称等距抽样或机械抽样。它是把总体中的单位进行编号排序后,再计算出某种间隔,然后按这一固定的间隔来抽取个体号码组成样本的方法。它和简单抽样一样,需要有完整的抽样框,是直接从总体中抽取个体,而无其他中间环节。
系统抽样的具体步骤是:
(1)给总体中的每一个个体按顺序编号,制定出抽样框。
(2)计算出抽样间距。计算方法是用总体的规模除以样本的规模。假设总体规模为N,样本规模为n,那么抽样间距K就由下列公式求得;
K(抽样间距)=N(总体规模)/n(样本规模)
(3)在最前面的K个个体中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号(假设所抽取的这个个体的编号为A),它称做随机的起点。
(4)在抽样框中,自A开始,每隔K个个体抽取一个个体,即所抽取个体的编号分别为A,A十K,A十2K,„,A十(n一1)K。
(5)将这n个个体合起来,就构成了该总体的一个样本。
值得注意的是,系统抽样的一个十分重要的前提条件,是总体中个体的排列,相对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。因此,我们在使用系统抽样方法时,一定要注意抽样框的编制方法。特别要注意下列两种情况:一是总体名单中,个体的排列具有某种次序上的先后、等级上的高低的情况。二是总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况。无论是哪种情况,都不符合总体的全面情况,都是一个有着严重偏差的样本。
三、分层抽样 1.分层抽样的概念
分层抽样又称类型抽样,它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。
2.分层抽样的优点
分层抽样方法的一个优点,就是在不增加样本规模的前提下降低抽样误差,提高抽样的精度。另一个优点,就是非常使于了解总体内不同层次的情况,以及对总体小不同的层次进行单独研究,或者进行比较。
3. 分层抽样的运用
在实际运用分层抽样的方法时,研究者需要考虑下列两个方面的问题:
(1)分层的标准问题。同一个总体可以按照不同的标准进行分层,或者说,根据不同的标准可以将一个总体分成不同的类别或层次。那么,在实际抽样中究竟应该按什么标准来分层呢?通常采用的原则有:
第一.以所要分析和研究的主要变量或相关的变量作为分层的标准。
第二,以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。
第三,以那些已有明显层次区分的变量作为分层变量。
(2)分层的比例问题。分层抽样中有按比例和不按比例分层两种方法。按比例分层抽样是指按各种类型或层次中的单位数目同总体单位数目间的比例来抽取子样本的方法。采取按比例分层抽样的方法,可以确保得到一个与总体结构完全一样的样本。但是,在有些情况下,又不宜采用这种方法。例如,有时总体中有的类型或层次的单位数目太少,若以按比例分层
的方法抽样,则有的层次在样本中个案太少,个便于了解各个层次的情况,这时往往要采取不按比例抽样的方法。
四、整群抽样
整群抽样与前几种抽样的最大差别在于,它的抽样单位不是单独的个体,而是成群的个体。它是从总体中随机抽取—些小的群体,然后由所抽出的若干个小群体内的所有元素构成的样本。这种小的群体可以是居民家庭、可以是学校中的班级、也可以是工厂中的车间、还可以是城市中的居委会等等。整群抽样小对小群体的抽取可采用简单随机抽样、系统抽样或分层抽样的方法。
采取整群抽样的方法,不仅可以简化抽样的过程,更重要的是它可以降低收集资料的费用,同时还能相对地扩大抽样的应用范围。许多较大规模的社会研究往往从节省经费、人力以及从研究的可行性等方面考虑,而采用整群抽样的方法。但是,应该看到,整群抽样所具有的简便易行、节省费用的优点,是以其样本的分布面不广、样本对总体的代表性相对较差等缺点为代价的。
整群抽样方法的运用,尤其要与分层抽样的方法相区别。当某个总体是由若干个有着自然界限和区分的子群(或类别、层次)所组成,同时,不同子群相互之间差别很大、而每个子群内部的差异不大时,则适合子分层抽样的方法;反之,当不同子群相互之间差别不大、而每个子群内部的异质性程度比较大时,则特别适合采用整群抽样的方法。
五、多段抽样
多段抽样又称多级抽样或分段抽样,它是按抽样元索的隶属关系或层次关系.把抽样过程分为几个阶段进行。在社会研究中,当总体的规模特别大,或者总体分布范围特别广时,研究者一般采取多段抽样的方法来抽取样本。多段抽样的具体做法是:先从总体中随机抽取若干大群(组),然后再从这几个大群(组)内抽取几个小群(组),这样一层层抽下来,直至抽到最基本的抽样元素为止。
在运用多段抽样方法时,有一点需要注意,就是要在类别和个体之间保持平衡。或者说,保持合适的比例。举例来说,假设某市共有2.4万名教师,他们分布在全市10个区的200所学校中。现在要抽取一个由1200名教师组成的样本。如果按照三阶段抽样的方法,我们就可以有下列各种不同的抽样选择(见表5-3)。
表5-3
方案1 方案2 方案3 方案4 方案5 第一阶段 抽10个区 抽2个区 抽10个区 抽8个区 抽5个区 第二阶段 每个区抽4所学校 每个区抽20所学校 每个区抽20所学校 每个区抽15所学校 每个区抽12所学校 第三阶段 每所学校抽30名教师 每所学校抽30名教师 每所学校抽6名教师 每所学校抽10名教师 每所学校抽20名教师 方案6 方案7 方案8 方案9 抽4个区 抽3个区 抽2个区 抽1个区 每个区抽10所学校 每个区抽10所学校 每个区抽10所学校 每个区抽20所学校 每所学校抽30名教师 每所学校抽40名教师 每所学校抽60名教师 每所学校抽50名教师 究竟该选择哪一种抽样方案呢?或者说,如何确定每一阶段抽样的单位数目呢?主要考虑的因素有两方面:
(1)各个抽样阶段中的子总体同质性程度。同质性程度越高的子总体,所抽的规模就应相对小一点;反之,则应大一点。(2)要考虑研究各所拥有的人力和经费。一般来说,在其他条件不变的情况下,样本所覆盖的面越大,样本的代表性也越大。因此,如果仅从这方面考虑,则“大的类别中抽取单元相对较多,而每一单元中抽取个体相对较少”的做法效果较好(即方案3最好,依次递减,方案9最差)。但是,抽样时我们还应从实践的角度来进行衡量。抽的区越多、抽的学校越多,同时也意味着收集资料时,调查员要奔波的范围越广、所需要的时间、经费越多。而这则是研究者往往最不愿意看到的。所以,如果从这方面来考虑,则“大的类别中相对较少,而每一类中抽取的个体相对较多”的做法效果较好(即方案9最好,依次递减,方案3最差)。
多段抽样的方法适用于总体范围特别大、对象的层次特别多的社会研究。
第四节 户内抽样与PPS抽样
一、户内抽样的方法
当研究者以家庭作为分析单位,以入户访谈的方法收集资料,试图研究城乡家庭的结构、关系、生活方式或其他内容时,他们往往采用多段抽样的方法从某一市(县)中抽取区(乡),再从区(乡)中抽取街(村),从街(村)中抽取居委会(居民组),然后从居委会(居民组)中抽取家庭户,最后从家庭户中抽取一位成年人作为访谈对象。在这种研究中,我们不仅需要抽出家庭户的样本,同时还要进行户内抽样——从所抽中的每户家庭中抽取一个成年人,以构成访谈对象的样本。在抽取家庭中的成年人之前的每个抽样阶段中,我们可以采用前面所介绍的某种方法来抽。而这最后一个阶段的抽样则可以采取一种被称做“Kish选择法”的方式进行。根据这种方法,每户家庭中所有的成年人(比如说18岁以上者)都具有同等的被选中的概率(机会)。
Kish从方法的具体做法是:研究者先将调查表分为(编号为)A、Bl、B2、C、D、E1、E2、F八种,每种表的数目分别占调查表总数的1/6、1/12、1/12、1/6、l/6、1/12、1/12、1/6。同时,印制若干套(一套八种)“选择卡”发给调查员,每人一套。“选择卡”的形式如表5—4。
表5-4 Kish选择表
A式选择表 如果家庭户中18 被抽选人
B1式选择表 如果家庭户中18 被抽选人 岁以上人口数为 的序号为 1 1 2 1 3 1 4 1 5 1 6或以上 1 B2式选择表 如果家庭户中18 被抽选人 岁以上人口数为 的序号为 1 1 2 1 3 1 4 2 5 2 6或以上 2 D式选择表 如果家庭户中18 被抽选人 岁以上人口数为 的序号为 1 1 2 2 3 2 4 3 5 4 6或以上 4 E2式选择表 如果家庭户中18 被抽选人 岁以上人口数为 的序号为 岁以上人口数为 的序号为 1 1 2 1 3 1 4 1 5 2 6或以上 2 C式选择表 如果家庭户中18 被抽选人 岁以上人口数为 的序号为 1 1 2 1 3 2 4 2 5 3 6或以上 3 E1式选择表 如果家庭户中18 被抽选人 岁以上人口数为 的序号为 1 1 2 2 3 3 4 3 5 3 6或以上 5 F式选择表 如果家庭户中18 被抽选人 岁以上人口数为 的序号为
1 2 3 4 5 6或以上 1 2 2 4 5 5
1 2 3 4 5 6或以上 1 2 3 4 5 6 调查员首先要对每户家庭中的成年人进行排序和编号,排序的方法是男性在前,女性在后;年纪大的在前,年纪小的在后,即最年长的男性排第一,次年长的男性排第二,以此类推;最年长的女性排在最年幼男性后面,其他女性也按年纪从大到小接着排列,如表5—5。
表5-5 家庭内成年人排序表 序号 1 2 „ n n+1 n+2 „ n+m 年龄和性别特征 最年长的男性 次年长的男性 „ 最年幼的男性 最年长的女性 次年长的女性 „ 最年幼的女性 然后,调查员按照调查表上的编号找出编号相同的那种“选择表”,根据家庭人口数目从“选择表”中查出该选个体的序号,最后对这一序号所对应的那个家庭成员进行访谈。比如,某家庭18岁以上的成年人共有四人:祖母、父亲、母亲、儿子。其排序则为:1.父亲;2.儿子;3.祖母:4.母亲。若调查表为A类,则抽取父亲;若调查表为B2类,则抽取儿子;若调查表为D类,则应抽取祖母,而调查表为F类时,则就抽取母亲。 二、PPS抽样
以上所介绍的抽样方法有一个共同的特点:总体(或子总体)中的每一个元素都具有同等的被抽中的概率。如果总体中每个元素的“大小”基本相同,或者每一个元素在总体中的地位或重要性相差不多,则这种基于同等概率的抽样是合适的。但当元素的大小不同,或者元素在总体中的地位不同时,则需要采用不等概率抽样的方法。比如,从全市几百家企业中抽取20家企业进行调查时,一个有着数万职工的大型企业与一个只有一二百人的小企业所占的地位,显然是很不一样的。如果此时仍然采用等概率抽样的方法,则样本的代表性和精度都会比较差。而如果采用不等概率抽样的方法,使大的企业入选样本的概率大,小的企业入选样本的概率小,这样就可以大大提高估计的精度。社会研究中重要、也最常用的一种不等概率抽样叫做“概率与元素的规模大小成比例的抽样”,简称PPS抽样。
第五节 非概率抽样方法
在社会研究中,人们有时还采用非概率抽样的办法来选取样本。非概率抽样不是按照概率均等的原则,而是根据人们的主观经验或其他条件来抽取样本。因而,其样本的代表性往往较小,误差有时相当大,而且这种误差又无法估计。所以,在大规模的正式研究中,一般很少用非概率抽样,常常只是在探索性研究中采用。常用的非概率抽样有以下几种。 一、偶遇抽样
偶遇抽样又称做方便抽样或自然抽样,是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近的、最容易找到的人作为对象。这种碰到谁就选谁的抽样方法往往被有些人误认为就是随机抽样。仅从表面上看,二者的确有些相似,都排除了主观因素的影响,纯粹依靠客观机遇来抽取对象、但二者有一个根本的差别,这就是偶遇抽样没有保证总体中的每一个成员都具有同等的被抽中的概率。那些最先被碰到的、员容易见到的、最方便找到的对象具啊比其他对象大得多的机会被抽中。正是这一点使我们不能依赖偶遇抽样得到的样本来推论总体。 二、判断抽样
判断抽样又称立意抽样,它是研究者根据研究的目标和自己主观的分析来选择和确定研究对象的方法。这种抽样首先要确定抽样标准。由于标准的确定带有较大的主观性,所以,此法的运用结果如何往往与研究者的理论修养、实际经验以及对对象的熟悉程度有很大关系。
判断抽样的主要优点在于可以充分发挥研究人员的主观能动作用,特别是当研究者对研究总体的情况比较熟悉、研究者的分析判断能力较强、研究方法与技术十分熟练、研究的经验比较丰富时,采用这种方法往往十分方便。但是由于它仍然属于一种非概率抽样,所以,其所得样本的代表性往往难以判断。在实际中,这种抽样多用于总体规模小、所涉及的范围较窄、或时间、人力等条件有限而难以进行大规模抽样的情况。 三、定额抽样
定额抽样又称做配额抽样,它是一种比偶遇抽样复杂一些的非概率抽样方法。进行定额抽样时,研究者要尽可能地依据那些有可能影响研究变量的因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例,然后依据这种划分以及各类成员的比例去选择对象,使样本中的成员在上述各种因素、各种特征方面的构成及其在样本中的比例都尽量接近总体。如果把各种因素或各种特征看作不同的变数的话,那么,定额抽样实际上就是依据这些变数的组合。
许多书中都谈到定额抽样与分层抽样十分相似,或把定额抽样称为分层抽样在非概率抽样中的对应词。实际上,二者同样具有本质上的差别。二者虽然都依据某些特征对总体进行分层,但二者的目的不同,抽样方法也不同。
四、雪球抽样
雪球抽样是一种极特殊的抽样方法。当我们无法了解总体情况时,可以从总体中少数成
员入手,对他们进行调查,向他们询问还知道哪些符合条件的人;再去找那些人并再询问他们知道的人。如同滚雪球一样,我们可以找到越来越多具有相同性质的群体成员。如果总体不大,有时用不了几次就会接近饱和状况,即后访问的人再介绍的都是已经访问过的人。
第六节 样本规模与抽样误差
一、样本规模
样本规模又称为样本容量,它指的是样本中所含个案的多少。确定样本规模也是每一项具体的社会研究所必须解决的问题之一。统计学中通常以30为界,把样本分为大样本(30个个案及以上)和小样本(30个个案以下)。之所以这样区分,是因为当样本规模大于30时,其平均值的分布将接近于正态分布。从而许多统计学的公式就可以运用,也可以用样本的资料对总体进行推论。但是,需要注意的是.30个个案的样本对于社会研究来说却常常是不够的。统计学中的大样本与社会研究中的大样本并不是一回事。根据一些社会研究专家的看法,社会研究中的样本规模至少不能少于100个个案。
在95%的置信度条件下(t=1.96)计算出不同抽样误差所对应的最小样本量规模见表5-8(为计算简便,取t=2)。
表5-8 95%置信水平下不同抽样误差所要求的样本规模
容许的抽样误差(%) 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 二、影响样本规模确定的因素
一般情况下,社会研究中样本规模的确定主要受到以下四个方面因素的影响:(1)总体的规模;(2)估计的精确性要求;(3)总体的异质性程度;(4)研究者所拥有的经费、人力和时间。
1.总体的规模
样本规模与总体规模有关,这不难理解。按一般的想法,总体越大时,则样本也要越大,这样才能保证一定的精确度。但是,这种想法只在一定的程度上是正确的。当总体规模大到一定程度时,样本规模的增加与它并不保持同等的增长速度。在其他有关因素一定时,样本
样本规模n 10000 4500 2500 1600 1100 816 625 494 400 容许的抽样误差(%) 5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 样本规模n 330 277 237 204 178 156 138 123 110 100 规模的增加速度大大低于总体规模的增加速度。换句话说,当总体规模达到一定程度时,样本规模的改变量是很小的。 2.抽样的精确性
抽样的目的往往是要从样本去推论总休。影响样本规模确定的第二个因素,就与这种推论的可靠性和精确性密切相关。在社会研究中,我们用置信度与置信区间两个概念来说明样本规模与抽样的可靠性及精确性之间的关系。置信度又称为置信水平,它指的是总体参数值落在样本统计值某一区间中的把握性程度。一般来说,在其他条件一定的情况下,置信度越高,即推论的把握件越大,则所要求的样本规模就越大。
上面在探讨置信度时所说的“某一区间”,叫做置信区间。它是指在一定的置信度下,样本值与总体值之间的误差范围。它所反映的是抽样的精确性程度。范围越大,精确性程度越低;范围越小,精确性程度越高。在其他条件一定的情况下,置信区间越小,即样本值与总体值之间的误差范围越小,则所要求的样本规模就越大。 3.总体的异质性程度
总体的异质性程度对所需样本规模的影响也十分明显。总体中成员相互之间不存在差别时,只要了解其中之一就行了。这当然是极端的情况。一般来说,要达到同样的精确性,在同质程度高的总体个抽样时,所需要的样本规模就小一些;而在异质程度高的总体中抽样时,所需要的样本规模就大一些。其主要原因是,同质性越高,表明总体在各种变量上的分布越集中,波动性越小,同样规模的样本对总体的反映就越难确。而异质性程度越高,表明总体在各种变量上的分市越分散,波动性越大,同样规模的样本对总体的反映就会越差。 4.研究者所拥有的经费、人力和时间
除了以上几种因素外,研究者所拥有的经费、人力利时间,也对样本规模的大小产生影响。从样本的代表性、抽样的精确性考虑,则样本规模当然是越大越好;但抽样所得到的样本是要用来进行调查的。样本规模超大,同时也意味着所需要投入的人力、物力和时间越多;意味着所可能受到的限制和障碍也越多。因此,究竞选择多大规模的样本,往往需要作出选择。而这种选择的一个重要砝码,就是研究者所拥有的经费、人力和时间。 三、样本规模与抽样误差
抽样误差就是用样本值去估计总体值时所出现的误差。它是由于抽样本身的随机性所引起的误差。无论采取什么样的抽样方式,这种误差都是不可避免的。但是,在另一方面,抽样误差的大小是可以在样本设计中事先进行控制的。除了抽样误差以外,社会研究中还存在另一种误差,即度量误差,它是指在记录、填答、汇总等工作中所出现的误差。
抽样误差主要取决于总体的分布方差和抽样规模,这两个因素都可以导致抽样误差的增加或降低。当样本规模增加时,样本统计量的随机波动程度就会降低,从而使抽样误差也降低。在简单随机抽样中,人们正是以扩大样本规模的方式来达到降低抽样误差的目的的。而分层抽样则是着眼于缩小总体的异质性程度或分布的方差,即通过将总体划分为不同的类别
或层次,既使得这些不同类别或层次在样本中都有代表,又使得抽样误差中不存在层间变差成分,而只存在层内变差成分,其效果相当于降低了总体分布的方差,从而降低了样本统计量的随机波动程度,提高了样本统计量估计总体参数的精确度。
有关抽样规模与抽样误差之间的关系问题,我们还应该注意两点:(1)对于比较小的样本来说,样本规模上的很小的一点增加,便会带来精确性方面很明显的增加。(2)而对于比较大的样本来说,同样增加这么多个个案,却收效甚微。
因篇幅问题不能全部显示,请点此查看更多更全内容