假设检验
闲居
2020年12月于武侯
置信集(Confidence set)
关于参数ϕ ( θ ) 的水平为β 的置信集C 是一个ϕ ( θ ) 取值集合的随机子集,且满足对每个θ
P ( ϕ ( θ ) ∈ C ) ≥ β .
置信集和假设检验的关系很近,若取β = 1 − α ,则C 是ϕ ( θ ) 的显著性水平为α 的置信区间。
根据枢轴量(Pivot)来计算置信集
一个枢轴量为一个函数g ( X , θ ) ,并且它的分布对所有θ 都是一样的。注意枢轴量中的θ 与X 分布中的θ 相同。令β = P ( g ( X , θ ) ∈ A ) ,则由g ( X , θ ) ∈ A 可以推出θ ∈ C ( X , A ) 。则C 是θ 水平为β 的置信集。
简单假设和复合假设
简单假设和复合假设这两个概念是针对原假设或备择假设而言的,而不是针对一个检验问题而言的概念。
假如我们感兴趣以下假设检验问题:
(1.1) H 0 : X ∼ p 0 ( x ; θ 0 ) , θ 0 ∈ Θ 0
(1.2) H 1 : X ∼ p 0 ( x ; θ 1 ) , θ 1 ∈ Θ 1
其中集合Θ 0 和Θ 1 表示参数可能的取值集合。如果其中一个集合是一个单点集,则称该假设为简单假设;否则,则称该集合对应的假设为复合假设。可能存在情 况 情 况 1. 原假设为简单假设,而备择假设为复合假设;也可能存在情 况 情 况 2. 原假设为复合假设,而备择假设为简单假设的情况。例如Θ 0 为单点集,而Θ 1 为多点集,则属于情况1.
如果两个集合都是多点集,则称原假设和备择假设都为复合假设。
三大统计渐近检验
检验( 1.1 ) VS ( 1.2 ) ,考虑如下三大检验方法;Engel证明了这三大检验是渐进等价的。对于似然比检验,既需要估计有约束的模型,也需要估计无约束的模型;对于Wald检验,只需要估计无约束模型;对于LM检验,只需要估计有约束的模型。一般情况下,由于估计有约束模型相对更复杂,因此Wald检验最为常用。对于小样本而言,似然比检验的渐进性最好,LM检验也较好,Wald检验有时会拒绝原假设,其小样本性质不尽如人意。
似然比检验
似然比检验的思想是:如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值。似然比定义为有约束条件下的似然函数最大值与无约束条件下似然函数最大值之比。以似然比为基础可以构造一个服从卡方分布统计量。
T l , n = sup θ ∈ Θ 0 l ( X ; θ ) sup θ l ( X ; θ )
Wald检验
wald检验的思想是:如果约束是有效的,那么在没有约束情况下估计出来的估计量应该渐进地满足约束条件,因为MLE是一致的。以无约束估计量为基础可以构造一个Wald统计量,这个统计量也服从卡方分布;
T w , n = n ( θ ^ − θ ) T Σ ^ − 1 ( θ ^ − θ ) ∼ χ 2 ( q )
还有一种方法,就是先求出θ 的联合置信区间,然后看联合置信区间是否包含Θ 0 中的点,若包含,则不能拒绝原假设;否则,拒绝原假设。
Score检验
这也叫拉格朗日乘子检验。拉格朗日乘数检验的思想是:在约束条件下,可以用拉格朗日方法构造目标函数。如果约束有效,则最大化拉格朗日函数所得估计量应位于最大化无约束所得参数估计值附近。这里也是构造一个LM统计量,该统计量服从卡方分布。
T s , n = n U ( θ ^ ) T Σ ^ u − 1 U ( θ ^ ) ∼ χ 2 ( q )
具体应用
检验如下问题,检验统计量就更加清晰了。
H 0 : R ( θ ) = 0 v e r s u s H 1 : ∃ r j ( θ ) ≠ 0 , j ≤ q
其中,T w , n = n ( R ( θ ^ ) ) T Σ ^ R − 1 ( R ( θ ^ ) ) ,其中θ ^ 是无约束的估计;T s , n = n U ( θ ^ ) T Σ ^ U − 1 U ( θ ^ ) ,其中θ ^ 是有约束的估计,U ( θ ) 是原始对数似然函数的导数,也就是所谓的Score。因为对数似然函数是一种特殊的目标函数,因此Score检验也可推广到一般的目标函数上。首先得到该带约束的目标函数的参数估计,然后把参数估计代入到无约束的目标函数的导数上,这时就叫拉格朗日检验(注意:只有似然为目标的时候叫得分检验)。
一般统计检验
一般而言,我们先假设数据来自原假设,然后根据该前提假设下来推导检验统计量的(渐近)分布。
统计检验一般分成这样几步:1)构造检验统计量T n ;2)计算检验统计量的分布;3)计算检验的拒绝域W n = { T n > c 1 − α } ;4)验证检验统计量的实现值是否落在拒绝域,若在则拒绝。
其中计算检验统计量T n 的渐近分布,实质指计算T n 从原假设中生成数据下的渐近分布。若iid数据x i , i ≤ n 来自均值为μ 0 的总体,考虑均值检验问题:
H 0 : μ 0 = μ 1
1)构造检验统计量T n = n ( x ¯ − μ 1 ) .
2)计算数据来自原假设的渐近分布,有如下方法:
(1)此时渐近分布有显式形式N ( 0 , σ 2 ) .
注:T n 中数据来自原假设的分布与原数据下n ( x ¯ − μ 0 ) 的分布相等,于是等价于求这个分布。记原数据为x i ( μ 0 ) ,则检验统计量为T n ( μ 0 , μ 1 ) = n ( x ¯ ( μ 0 ) − μ 1 ) ,而我们想计算这个统计量的分布T n ( μ , μ ) ,也就是说我们可以计算T n ( μ 1 , μ 1 ) ,此时需要重新编造来自原假设的数据;也可以计算T n ( μ 0 , μ 0 ) ,此时我们计算原假设等于真实参数的分布。
注意:数据来自原假设的分布和原数据下真实参数时的分布是不同的
两个东西,尽管它们的分布是一样的,但概念所指是不一样的。
(2)若该统计量无显式渐近分布,则可以基于bootstrap来计算该渐近分布,则我们需要造数据!造什么数据呢?造来自总体参数等于原假设时的样本,即从原假设中抽样得到的样本。观测数据的随机性来自哪里,于是我们可以利用残差bootstrap:ϵ i = x i − μ 1 ,然后对ϵ i 做中心化的ϵ ~ i ,接着从ϵ ~ i 中抽样得到ϵ ~ i ∗ ,最后我们得到x i ∗ = μ 1 + ϵ i ∗ ,进而得到x ¯ ∗ ,进一步得到T n ∗ = n ( x ¯ ∗ − μ 1 ) 。重复残差抽样B 次,得到T n ∗ ( b ) ,于是得到T n 在H 0 下的分布;还可以基于乘子bootstrap来抽样,即抽取ϵ i ( b ) ∼ N ( 0 , 1 ) ,然后计算
T n ( b ) = 1 n ∑ i ( x i ϵ i ( b ) ) ,由推导可知:它就是为原假设下的渐近分布。
注意:Bootstrap只是用于计算一个检验统计量的渐近分布,
而不是用于构造检验统计量。
高维假设
三大统计检验方法是在固定参数维数的条件下提出来的,当检验的参数的维数为高维时,此时就进入高维检验的范畴了。比如考虑两样本均值检验问题,μ 1 , μ 2 ∈ R p , p / n → c > 0 来自不同的总体X 1 , X 2 ,检验
H 0 : μ 1 = μ 2 v s H 1 : μ 1 ≠ μ 2
其中,假设H 0 由p 个边际检验H 0 l : μ 1 l = μ 2 l , l ≤ p 构成。对H 0 的检验也称为联合检验(Simulatenous test)。从多重检验的角度,一个重要的问题是多少个边际检验可以被同时联合检验来做呢?
多重检验
多重检验,顾名思义就是同时检验多个假设问题,它可以帮助我们高效地进行大批量的检验问题。考虑m 个假设检验问题
H i 0 : μ i = 0 v s H i 1 : μ i ≠ 0 , i = 1 , ⋯ , m .
FDR和FWER
在统计假设问题中,我们把原假设(H i 0 : μ i = 0 )为假称为阳性,原假设为真称为阴性。错误发现率定义为 F D R = E ( F D P ) ,其中F D P = | H 0 ∩ S ^ | / ( | S ^ | ) 称为错误发现比率,其中H 0 为真阴性构成的假设集合,S ^ 为检验成阳性的假设集合(随机的,我把它取名为检验的阳性集),它是多重检验原假设集合中被某种检验方法拒绝的个数中真H 0 所占的比例。所以H 0 ∩ S ^ 为假阳性的个数,我们控制假阳性个数的比例(把非癌症检验成癌症代价是很高的,所以要控制这个)。
错误发现比率是检验阳性集中假阳性所占比例。
多重检验中常常考虑控制Familywise Error Rate(FWER),又称为多重检验的第一类错误,定义为
至 少 出 现 一 个 P ( 至 少 出 现 一 个 F a l s e p o s i t i v e )
False positive(FP)指拒绝错了,叫假阳性或错误阳性。若对m个原假设做多重检验,假设每个边际检验独立,且每个检验为FP的概率(第一类错误,假阳性错误)控制为α ,则
个 检 验 中 至 少 出 现 一 个 F W E R = P ( m 个 检 验 中 至 少 出 现 一 个 F P ) = 1 − ( 1 − α ) m
当检验个数很多时,FWER会趋向1.所以高维的多重检验必须控制FWER或者FDR,而不是控制每个检验的第一类错误在一个固定水平α .为了控制FWER,常用的方法p值调整方法,比如Bonferroni Correction。它是基于Bonferroni不等式推导得到。定义事件为 真 但 检 验 方 法 拒 绝 了 A i = { H i 0 为 真 但 检 验 方 法 拒 绝 了 H i 0 } ,则P ( A i ) 为单个检验的第一类错误概率.并且我们有
F W E R = P ( ∪ i A i )
即m 个检验过程中存在一个FP的概率。由Bonferroni不等式,我们得到
F W E R ≤ ∑ i P ( A i ) ≤ m α
我们要使得F W E R ≤ α 0 ,则只需对每个检验的第一类错误控制水平为α = α 0 / m .这个调整方法非常保守,可能把FWER控制得很低,从而第二类错误会升高,即power会降低。所以这类修正方法是直接在FWER上做文章。还有的方法直接在FDR上做文章。
基于FWER的p值调整方法,功效不够。
FDR和FWER的关系
那么FDR和FWER有什么关系呢?FWER还有一种公式的形式,因为H 0 ∩ S ^ 表示错误阳性的个数,所以有如下等价定义:
F W E R = P ( | H 0 ∩ S ^ | > 0 ) = P ( | H 0 ∩ S ^ | ≥ 1 )
当m个原假设全部为真时,我们有:| H 0 ∩ S ^ | = | S ^ | 。当| S ^ | = 0 时,规定F D P = 0 ;当| S ^ | > 0 时,则F D P = 1 ,所以
E ( F D P ) = F D R = P ( | S ^ | > 0 ) = P ( | H 0 ∩ S ^ | > 0 ) = F W E R .
当| H 0 | < m 时,我们有F D R ≤ F W E R 。因为若| H 0 ∩ S ^ | = 0 ,则F D P = 0 ;若| H 0 ∩ S ^ | > 0 ,则F D P ≤ 1 。于是得到:
I ( | H 0 ∩ S ^ | > 0 ) ≥ F D P
两边同时取期望得到:F W E R ≥ F D R . 综上可知:只要控制住FWER的方法也控制住了FDR。于是如果我们直接控制FDR,那么对FWER的控制会更松一些,于是可以提高power。若| H 0 | 越小,则FDR和FWER的差距越大,基于FDR提升Power的潜力越大。
原假设为真的情形下,统计量p 值服从均匀分布。我们平常所说的p 值为多少多少,其实是p值统计量在样本上的实现值。首先定义一个p值函数为:
p ( x ) = P ( Z > x ) = 1 − F ( x )
其中Z 为检验统计量Z n 在原假设成立时所服从分布相同的随机变量。那么p 值统计量定义为:
│ p ( Z n ) = P ( Z > Z n │ Z n ) = E ( I ( Z > Z n ) | Z n )
它是样本的一个函数。
在H 0 为真时,因为Z n 也服从F 的分布,
p ( Z n ) = 1 − F ( Z n ) = 1 − U = U ′
其中U 和U ′ 都为[ 0 , 1 ] 均匀分布的随机变量。