假设检验的步骤
假设检验按照假设的类型一般可分为参数假设检验和非参数假设检验。这里所说的步骤一般指的是参数假设检验的步骤
建立假设
原假设:又叫零假设,指的是待检验的假设。传统上被认同的、想要推翻或者验证的结论作为原假设。
备择假设:与原假设对立的假设,也称研究假设或者对立假设,是研究者想要收集数据予以支持的假设(一般把研究者的研究内容作为备择假设)。
原假设与备择假设构成完备事件组,且相互对立。
假设检验是寻找证伪证据,两个假设的地位是不等的。一般来说会把待研究的假设设为备择假设,因为原假设一旦被证伪,也意味着被接受的备择假设被否定的概率是很小的。
对于参数假设检验来说,原假设和备择假设一般都是对参数范围的假设,对于未知参数以及对应的参数空间,原假设一般为,备择假设一般为,其中和是的子集,且。
一般将两个假设简记为:
确定拒绝域形式
假设检验往往是通过构造一个检验统计量来完成的,根据设定假设的不同可以将假设检验分为单侧检验和双侧检验,根据确定的假设类型可以确定拒绝域,如果计算得到的检验统计量落在拒绝域内,那么应拒绝原假设,一般将假设检验的拒绝域记为。
显著性水平
在引入显著性水平的概念之前,需要先对假设检验中的两类错误加以说明:
- 第 Ⅰ 类错误(错误):又叫弃真错误,指在原假设成立的情况下拒绝了原假设。
- 第 Ⅱ 类错误(错误):又叫取伪错误,原假设为假时接受原假设。
一般来说,可以通过增大样本容量 n 来同时降低两类错误,但当 n 给定时,两类错误呈现出此消彼长的形势。
既然我们不可能同时控制一个检验的犯第一类、第二类错误的概率,在此背景下,只能采取折中方案。通常的做法是仅限制犯第一类错误的概率(实际中弃真错误更加严重),这就是费希尔的 显著性检验。
相较于备择假设,原假设往往相对明确一点,一个含义清楚的假设和一个含义模糊的假设,我们更愿意接受前者。正是在这个背景下,我们就更为关心错误。
在引入显著性检验的概念之前,这里先对势函数的概念加以说明:
设检验问题
的拒绝域为 , 则样本观测值 落在拒绝域 内的概率称为该检验的势函数, 记为
不难看出势函数和两类错误之间存在的关系:
前边已经提到,显著性检验往往通过控制第一类错误发生的概率来进行,借助势函数的概念,显著性检验的定义为:
对检验问题 vs , 如果一个检验满足对任意的 , 都有
则称该检验是显著性水平为 的显著性检验, 简称水平为 的检验。其中表示的是当原假设为真时,拒绝原假设的概率。也就是第一类错误发生的概率。
在引入显著性检验的概念之前,我们只是规定了拒绝域的形式。在引入了显著性检验的概念之后,我们才能给出拒绝域的具体形式。
显著性检验的目的其实就是弃真错误发生的概率是否够大,反应在问题中也就是样本均值与假设情况差异是否足够大,如果差异不显著,我们就没有充分的理由拒绝原假设。
给出拒绝域
有了势函数的概念之后,拒绝域的给出就十分自然了,只需令对于任给的成立即可,有了势函数的定义之后拒绝域的确定会简单很多,在根据拒绝域的形式确定之后,拒绝域即可很容易地求解出来,接下来以单侧检验为例加以说明:
单侧检验
实际生活中,我们希望想要进行检验的假设统计量可能带有方向性,这个时候检验统计量一般会有一个我们能够容忍的上限或者下限,这种情况下的检验我们称之为单侧检验。单侧检验问题一般分为两大类:
- 左单侧检验:又叫下限检验,指的是被检验统计量的取值有一个下限,当检验统计量的值低于该下限时,我们拒绝原假设
- 右单侧检验:又叫上限检验,与上限检验刚好相反。
单侧检验与双侧检验最大的不同时它们的拒绝域往往是朝向某一方的,下限检验的拒绝域往往趋向,故也叫作左单侧检验。
这里对下限检验的拒绝域趋向方向做一个简单的说明,以以下检验为例:
如果未知,那么构造 t 统计量:
当假设给定后,是给定的,这个时候想要推翻原假设,我们就希望样本的均值足够大,换言之,当样本均值小到趋近正无穷时,对应的 t 统计量也要落到拒绝域内,因此这里的拒绝域的形式应为应该取为。
这种拒绝域的形式其实就是默许了对一类错误进行检验(原假设为真时离比较近),从势函数的角度来看,我们有:
从势函数的角度来看,对为增函数,所以只需保证即可,因此其实上述的检验是在检验显著性水平为的检验。
作出判断
计算确立的检验统计量在抽样样本上的取值,根据其与拒绝域的关系来决定是否拒绝原假设。
p 值检验
p 值检验可以视为是利用拒绝域进行假设检验的一个补充,前边提到,当给定后,我们的拒绝域也就给定了,但因为拒绝域是用一个区间表示的,这样就存在的一个问题落在拒绝域之外的所有点进行决策时的风险是一样的,但是根据实际情况我们知道,不同的店进行决策时风险度是不完全一致的,这个时候就有必要引入一个叫 p 值的东西来精确地反应决策的风险度,一种比较通俗的理解就是 p 值是利用抽样数据进行决策时用概率衡量的风险度大小(实际的值):
The p-value tells you how often you would expect to see a test statistic as extreme or more extreme than the one calculated by your statistical test if the null hypothesis of that test was true. The p-value gets smaller as the test statistic calculated from your data gets further away from the range of test statistics predicted by the null hypothesis.(p 值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率)。
茆书中的定义:在一个假设检验问题中,利用样本观测值能够作出拒绝原假设的最小显著性水平称为检验的 p 值
这里举一个小小的例子来辅助理解 p 值的真正含义。
对于一个经常会用到的假设检验:
假设我们根据抽样结果构造样本统计量,假设根据给定样本我们算得的检验统计量的值为,那么此时对应的 p 值其实就是:
这里的相当于我们的检验统计量,然后是在原假设成立的条件下根据观察数据算得的检验统计量的值。一般来说上式的准确值是不容易进行计算的,所以一般会用计算机对 p 值进行计算。p 值的大小取决于三个因素:
- 样本数据与原假设之间的差异程度
- 被假设参数的总体分布
- 样本容量
p 值反映的是观测数据与原假设不一致的概率值,p 值越小越说明在原假设的条件下出现给结果的概率越小,但它实际却出现了,所以应该拒绝原假设。P-value,则拒绝
正态总体的检验
单个总体均值的假设检验
与正态分布相比,t 分布更加扁平,相同概率条件下得到的临界值相对较大,这是未知要付出的代价。
随着 n 的增大,t 分布逐渐接近 z 分布,样本量 n>30 时,t 分布与 z 分布已经非常接近了,具备了用 z 分布代替 t 分布的条件。
单个总体比例的假设检验因为总体的方差直接与总体比例相关使得问题的复杂性降低,只需根据样本的容量 n 进行分类即可,这里不再赘述。
两个总体参数的假设检验
均值之差
匹配样本的假设检验
在实际检验的过程中还存在一种匹配样本,匹配样本与传统的两组样本也有所区别,因为这两组样本往往来自同一组对象,因此在对匹配样本的分布参数进行检验时,可以将两者来自同一对象的这一特征考虑进去,这可以最大限度减小潜在误差,使得我们的统计检验聚焦于我们关心的问题之上
匹配样本(matched sample)是指一个样本中的数据与另一个样本中的数据相对应。比如,先指定 12 个工人用第一种方法组装产品,然后再让这 12 个工人用第二种方法组装产品,这样得到的两种方法组装产品的数据就是匹配数据。匹配样本可以消除由于样本指定的不公平造成的两种方法组装时间上的差异。
注意独立样本与这种匹配样本的区别,是否来自同一组对象。
对于这样的样本数据,如果存在以下特点,在选择检验方式时会有所区别:
- 两个样本的数据量相等记为 n
- 观察值的配对差服从正态分布
- 均值之差的标准差往往不知道
对于这样的样本,在进行假设检验时我们会根据 n 的大小分为以下两种情况:
- 如果 n<30,则认为匹配样本为小样本,这种情况下构造的统计量为,其中为配对样本差的均值。
- ,则按照同样的方法构造 Z 统计量即可.