1.抽样的基本概念
抽样就是从所研究的对象中随机地抽取出其中的一部分来观察,由此而获得有关总体的信息。
在对总体进行研究时,进行抽样研究是非常重要的。尤其是对于许多实际工作来说,要研究的总体很大,我们不可能对总体逐一进行研究,或者既便我们能这样做,但由于试验是具有破坏性的,我们也就没有可能这样做了。再者,在许多情况下我们也没有必要对所有对象都进行研究、试验、或考察。比如,对灯泡这类产品质量的研究。因此,我们只有进行抽样研究。
抽样的特点:
由于抽样具有这样的特点,因此它可以用在这样一些场合:
2.样本统计量与总体统计量
3.随机抽样和判断抽样
这两种方法虽然都是从总体中抽取出样本的方法,但是它们两者之间存在本质上的区别。随机抽样是按概率规律抽取样本,在总体中所有单位被抽中的概率是相等的。而判断抽样不是一种随机抽样,它是根据个人或集体的设想或经验从总体中有目的地抽取样本,采用这种方法主要是由于人力、物力、财力、时间或其他因素有所而采取的。当然,要想使判断抽样也获得比较好的效果,条件是抽样人具有丰富的关于特定总体的专业知识。
由于判断抽样是凭主观设想和判断而抽取样本的,因此抽样的结果就不能用概率的方法来加以分析。这是随机抽样和判断抽样的根本区别。我们这里只讨论随机抽样问题。
4.抽样误差和非抽样误差
抽样调查中的误差是指样本统计量和总体统计量的相应参数之间的差距。这种误差有两种,即抽样误差和非抽样误差。
非抽样误差是指在调查过程中发生的误差和由于主观因素破坏了随机原则而产生的系统性偏差。如,登记性误差。也就是说,这主要是人为的因素造成的误差,是可以通过努力而减小的。
抽样误差是指仅仅由于抽样的随机性而带来的偶然的代表性误差。它是具有随机性质的误差,这种误差是不可避免地,但可以通过统计的理论和方法把误差控制到最小的程度。
在进行抽样时,可以根据所研究对象的特点和工作条件的不同,设计不同的抽样方式。不同的抽样方式对结果有很大地影响。因此需要根据具体情况选择合适的抽样方式。一般常用的抽样方式有下列几种。
1.纯粹随机抽样。
采用抽签法或随机数字法。
2.等距抽样
3.类型抽样
4.整群抽样
5.多阶段抽样
在抽样中,由于样本是随机抽取的,对每一个特定的样本,统计量都有一个相应的数值。可见样本统计量本身也是一个随机变量,其取值随样本的不同而不同。假如从一个总体中随机抽出容量相同的各种样本,则从这些样本计算出的某统计量所有可能值的分布就称为这个统计量的抽样分布。或者说,统计量的分布就是抽样分布。
构造抽样分布包括以下几个步骤:
这时不难发现这些全部可能的样本统计量形成了一个概率分布,即抽样分布。
例:PP137
此例主要用于概括出抽样分布的一般规律。
设,X1,X2,X3,。。。Xn,是它的一个样本。则样本平均数
的抽样分布具有如下性质:
这些结论会经常用到。
如果总体的分布不服从正态分布,那么样本平均数的抽样分布的性质只有通过中心极限定理来研究。中心极限定理是一个十分重要的定理,是抽样理论的基础。
中心极限定理:给出一个任意形式的总体,其平均值μ和方差为有限值,在对总体进行抽样时,随着样本容量n的增大,由这些样本算出的平均数
的抽样分布将近似服从平均值μ和方差为
的正态分布。或者说,若统计量
,则Z近似标准正态分布。
在现实世界中,只要一个随机变量的变化是由大量的相互的随机因素的综合影响所形成的,而其中每一个别因素在总的影响中所起的作用都是很微小时,这个变量往往服从正态分布。
一般情况下,样本的数量大于30就可以认为足够大了。
前面提到的,只适用于无限总体,以及从一个有限总体中中进行重复抽样的情形。但在实际工作中往往是采用不重复抽样或不放回抽样的方法。在这种情况下,总体的数量会不断减少,总体中各元素被抽中的概率也将发生变化。因此在这样的情况下就需要进行修正。
若抽样的总体是不重复抽样,样本平均数的抽样分布的平均值就等于总体的平均值μ,而标准差则为:
当样本容量足够大时,即大到可以应用中心极限定理时,样本平均数的抽样分布将逼近正态分布。
与
相比,多了一个
。这里N为总体容量,n为样本容量,
称为修正系数。当N很大时,根号里分母的N可以不用减1,直接写成
或
在我们的工作中,常常需要考虑在一个总体中,具有某种性质或特征的对象所占总体的比例是多少的问题。例如,在数量为N的总体中,合格品数量为N1,不合格品数量为N2,显然,。我们可以用
表示总体中合格品所占的比例。显然,总体的参数p是未知的,它是需要我们通过样本来估计的。因此,假设从总体中抽取容量为n的一个样本,从中得到的合格品数量为n1,则n1/n为合格品的样本比例,用
表示。由于每次从抽取容量为n的样本的不同,其中合格品的数量也不相同,因此
也就是一个随机变量,从而它也构成一个样本分布。
样本比例的抽样分布与二项分布有着非常密切地关系。可以将二项分布总体中具有某种属性的的单位称为“成功”,不具有的称为“失败”;将总体中成功的单位占全体的比例记为p。与之类似,将样本中成功的单位占全体样休的比例记为。可以证明,样本比例的均值就是总体的均值p,其方差为:
由于,当样本容量较大时,二项分布就接近于正态分布,因此在大样本的情况下,样本比例的抽样分布将近似服从正态分布。除要求n比较大外,还要求p不要接近0或1,并且要满足np或n(1-p)大于5。
上述情况适合于从无限总体中抽样或从有限总体中进行重复抽样的场合。如果从有限总体中进行不重复的抽样时,而且抽样的比重较大时,即n/N>0.5时,样本比例抽样的方差就要进行修正,其公式为:
例:PP151,例6.8
如果需要对来自两个不同总体的比例进行比较,就需要研究考虑两个样本比例之差的问题。设有两个总体,它们中具有某种特征的单位数所占的比重分别为p1和p2,现在从这两个总体中分别抽取容量为n1和n2的丙个的随机样本,其样本比例为和
。当n1和n2很大时,这两个样本比例之差
的抽样分布就近似服从正态分布,并且其平均值和方差分别为:
注意,这里可以利用下列公式将两个样本比例之差的抽样分布变换为服从标准正态分布:
例:PP152,例6.9
在进行抽样分布研究时常常会遇到一些特殊分布,这就是χ2分布、t分布和F分布。
设,X1,X2,X3,。。。Xn,是它的一个样本。它们的平方和记为χ2,即,
我们称χ2为服从参数为n的χ2分布,记为
χ2分布的密度函数为:
其图形如书中所示。。
χ2分布具有以下特点:
可以证明χ2分布的平均值为n,方差为2n。
设,
,并且X与Y相互,则称随机变量
服从自由度为n的t(student)分布,记为。
t分布是小样本分布,小样本一般是指n<30。t分布适用于当总体标准差未知时用样本的标准差代替总体标准差,由样本平均数推断总体平均数以及两个小样本之间差异的显著性检验等。
t分布具有以下性质:
t分布是对称分布,其均值为0。
当容量n较小时,t分布的方差就大于1;当n增大到大于或等于30时,t分布的方差就趋近于1,t分布也就渐近于标准正态分布,这时可用正态分布来代替t分布。
t分布是一个分布族,n不同,分布的形状也不同。
与标准正态分布相比,t分布的中心部分较低,两个尾部较高。
变量t的取值范围在正负无穷之间。
t分布的图形如pp156图6-5所所示。
与正态分布一样我们也可以作出t分布的数值表。
设,
,并且U与V相互,则称随机变量
服从自由度为(n1, n2)的F分布,记为。
F分布与χ2分布一样也是非对称分布。它有两个自由度,即n1和n2。
F分布具有一条重要的性质,这就是:
例如,设
Copyright © 2019- niushuan.com 版权所有 赣ICP备2024042780号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务