统计假设检验

假设检验

闲居

2020年12月于武侯

置信集(Confidence set)

关于参数\(\phi(\theta)\)的水平为\(\beta\)的置信集\(C\)是一个\(\phi(\theta)\)取值集合的随机子集,且满足对每个\(\theta\) \[P(\phi(\theta) \in C) \geq \beta.\] 置信集和假设检验的关系很近,若取\(\beta=1-\alpha\),则\(C\)\(\phi(\theta)\)的显著性水平为\(\alpha\)的置信区间。

根据枢轴量(Pivot)来计算置信集

一个枢轴量为一个函数\(g(X,\theta)\),并且它的分布对所有\(\theta\)都是一样的。注意枢轴量中的\(\theta\)\(X\)分布中的\(\theta\)相同。令\(\beta= P(g(X,\theta) \in A)\),则由\(g(X,\theta) \in A\)可以推出\(\theta \in C(X, A)\)。则\(C\)\(\theta\)水平为\(\beta\)的置信集。

简单假设和复合假设

简单假设和复合假设这两个概念是针对原假设或备择假设而言的,而不是针对一个检验问题而言的概念。 假如我们感兴趣以下假设检验问题: \[H_0:X \sim p_0(x;\theta_0), \theta_0 \in \Theta_0 \tag{1.1}\] \[H_1:X \sim p_0(x;\theta_1), \theta_1 \in \Theta_1 \tag{1.2}\] 其中集合\(\Theta_0\)\(\Theta_1\)表示参数可能的取值集合。如果其中一个集合是一个单点集,则称该假设为简单假设;否则,则称该集合对应的假设为复合假设。可能存在\(\color{#FF3030} {情况1.}\)原假设为简单假设,而备择假设为复合假设;也可能存在\(\color{#FF3030} {情况2.}\)原假设为复合假设,而备择假设为简单假设的情况。例如\(\Theta_0\)为单点集,而\(\Theta_1\)为多点集,则属于情况1. 如果两个集合都是多点集,则称原假设和备择假设都为复合假设。

三大统计渐近检验

检验\((1.1)\) VS \((1.2)\),考虑如下三大检验方法;Engel证明了这三大检验是渐进等价的。对于似然比检验,既需要估计有约束的模型,也需要估计无约束的模型;对于Wald检验,只需要估计无约束模型;对于LM检验,只需要估计有约束的模型。一般情况下,由于估计有约束模型相对更复杂,因此Wald检验最为常用。对于小样本而言,似然比检验的渐进性最好,LM检验也较好,Wald检验有时会拒绝原假设,其小样本性质不尽如人意。

似然比检验

似然比检验的思想是:如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值。似然比定义为有约束条件下的似然函数最大值与无约束条件下似然函数最大值之比。以似然比为基础可以构造一个服从卡方分布统计量。 \[T_{l,n} = \frac{\sup_{\theta \in \Theta_0} l(X;\theta) }{\sup_{\theta} l(X;\theta)}\]

Wald检验

wald检验的思想是:如果约束是有效的,那么在没有约束情况下估计出来的估计量应该渐进地满足约束条件,因为MLE是一致的。以无约束估计量为基础可以构造一个Wald统计量,这个统计量也服从卡方分布; \[T_{w,n} = n(\hat \theta-\theta)^T \hat\Sigma^{-1} (\hat \theta-\theta) \sim \chi^2(q)\] 还有一种方法,就是先求出\(\theta\)的联合置信区间,然后看联合置信区间是否包含\(\Theta_0\)中的点,若包含,则不能拒绝原假设;否则,拒绝原假设。

Score检验

这也叫拉格朗日乘子检验。拉格朗日乘数检验的思想是:在约束条件下,可以用拉格朗日方法构造目标函数。如果约束有效,则最大化拉格朗日函数所得估计量应位于最大化无约束所得参数估计值附近。这里也是构造一个LM统计量,该统计量服从卡方分布。 \[T_{s,n} = nU(\hat\theta)^T \hat \Sigma_u^{-1} U(\hat\theta)\sim \chi^2(q)\]

具体应用

检验如下问题,检验统计量就更加清晰了。 \[H_0: R(\theta)=0~~~ versus ~~~H_1: \exists r_j(\theta)\neq 0, j\leq q\] 其中,\(T_{w,n}=n(R(\hat\theta))^T \hat\Sigma_R^{-1}(R(\hat\theta))\),其中\(\hat\theta\)是无约束的估计;\(T_{s,n}= nU(\hat\theta)^T \hat\Sigma_U^{-1}U(\hat\theta)\),其中\(\hat\theta\)是有约束的估计,\(U(\theta)\)是原始对数似然函数的导数,也就是所谓的Score。因为对数似然函数是一种特殊的目标函数,因此Score检验也可推广到一般的目标函数上。首先得到该带约束的目标函数的参数估计,然后把参数估计代入到无约束的目标函数的导数上,这时就叫拉格朗日检验(注意:只有似然为目标的时候叫得分检验)。

一般统计检验

一般而言,我们先假设数据来自原假设,然后根据该前提假设下来推导检验统计量的(渐近)分布。 统计检验一般分成这样几步:1)构造检验统计量\(T_n\);2)计算检验统计量的分布;3)计算检验的拒绝域\(W_n=\{T_n>c_{1-\alpha}\}\);4)验证检验统计量的实现值是否落在拒绝域,若在则拒绝。

其中计算检验统计量\(T_n\)的渐近分布,实质指计算\(T_n\)从原假设中生成数据下的渐近分布。若iid数据\({x_i,i\leq n}\)来自均值为\(μ_0\) 的总体,考虑均值检验问题: \[H_0:μ_0=μ_1\] 1)构造检验统计量\(T_n=\sqrt{n} (\bar x -μ_1 )\). 2)计算数据来自原假设的渐近分布,有如下方法:

(1)此时渐近分布有显式形式\(N(0,σ^2)\). 注:\(T_n\)中数据来自原假设的分布与原数据下\(\sqrt{n}(\bar x-μ_0 )\)的分布相等,于是等价于求这个分布。记原数据为\(x_i (μ_0)\),则检验统计量为\(T_n (μ_0,μ_1)=\sqrt{n} (\bar x(μ_0)-μ_1 )\),而我们想计算这个统计量的分布\(T_n (μ,μ)\),也就是说我们可以计算\(T_n (μ_1,μ_1)\),此时需要重新编造来自原假设的数据;也可以计算\(T_n (μ_0,μ_0)\),此时我们计算原假设等于真实参数的分布。

注意:数据来自原假设的分布和原数据下真实参数时的分布是不同的
两个东西,尽管它们的分布是一样的,但概念所指是不一样的。

(2)若该统计量无显式渐近分布,则可以基于bootstrap来计算该渐近分布,则我们需要造数据!造什么数据呢?造来自总体参数等于原假设时的样本,即从原假设中抽样得到的样本。观测数据的随机性来自哪里,于是我们可以利用残差bootstrap:\(ϵ_i=x_i-μ_1\),然后对\(ϵ_i\)做中心化的\(\tilde \epsilon_i\),接着从\(\tilde \epsilon_i\)中抽样得到\(\tilde \epsilon^*_i\),最后我们得到\(x_i^*=μ_1+ϵ^*_i\),进而得到\(\bar x^*\),进一步得到\(T_n^*= \sqrt{n} (\bar x^*-μ_1 )\)。重复残差抽样\(B\)次,得到\(T_n^{*(b) }\),于是得到\(T_n\)\(H_0\)下的分布;还可以基于乘子bootstrap来抽样,即抽取\(ϵ_i^{(b)}∼N(0,1)\),然后计算 \(T_n^{(b)}= \frac{1}{\sqrt{n}}\sum_i(x_iϵ_i^{(b)})\),由推导可知:它就是为原假设下的渐近分布。

注意:Bootstrap只是用于计算一个检验统计量的渐近分布,
而不是用于构造检验统计量。

高维假设

三大统计检验方法是在固定参数维数的条件下提出来的,当检验的参数的维数为高维时,此时就进入高维检验的范畴了。比如考虑两样本均值检验问题,\(\mu_1,\mu_2 \in R^p, p/n \rightarrow c >0\)来自不同的总体\(X_1,X_2\),检验 \[H_0: \mu_1 = \mu_2 ~~~ vs ~~~ H_1: \mu_1 \neq \mu_2\] 其中,假设\(H_0\)\(p\)个边际检验\(H_{0l}: \mu_{1l}=\mu_{2l}, l \leq p\)构成。对\(H_0\)的检验也称为联合检验(Simulatenous test)。从多重检验的角度,一个重要的问题是多少个边际检验可以被同时联合检验来做呢?

多重检验

多重检验,顾名思义就是同时检验多个假设问题,它可以帮助我们高效地进行大批量的检验问题。考虑\(m\)个假设检验问题 \[H_{i0}: \mu_i =0 ~~ vs ~~ H_{i1}: \mu_i \neq 0, i=1, \cdots,m.\]

FDR和FWER

在统计假设问题中,我们把原假设(\(H_{i0}:μ_i=0\))为假称为阳性,原假设为真称为阴性。错误发现率定义为 \(FDR=E(FDP)\),其中\(FDP=|H^0∩ \hat S |/(|\hat S|)\) 称为错误发现比率,其中\(H^0\)为真阴性构成的假设集合,\(\hat S\) 为检验成阳性的假设集合(随机的,我把它取名为检验的阳性集),它是多重检验原假设集合中被某种检验方法拒绝的个数中真\(H_0\)所占的比例。所以\(H^0∩ \hat S\) 为假阳性的个数,我们控制假阳性个数的比例(把非癌症检验成癌症代价是很高的,所以要控制这个)。

错误发现比率是检验阳性集中假阳性所占比例。

多重检验中常常考虑控制Familywise Error Rate(FWER),又称为多重检验的第一类错误,定义为 \[P(至少出现一个False ~~ positive)\] False positive(FP)指拒绝错了,叫假阳性或错误阳性。若对m个原假设做多重检验,假设每个边际检验独立,且每个检验为FP的概率(第一类错误,假阳性错误)控制为\(\alpha\),则 \[FWER=P(m个检验中至少出现一个FP)=1-(1-α)^m\] 当检验个数很多时,FWER会趋向1.所以高维的多重检验必须控制FWER或者FDR,而不是控制每个检验的第一类错误在一个固定水平\(\alpha\).为了控制FWER,常用的方法p值调整方法,比如Bonferroni Correction。它是基于Bonferroni不等式推导得到。定义事件\(A_i=\{H_{i0} 为真但检验方法拒绝了H_{i0}\}\),则\(P(A_i)\)为单个检验的第一类错误概率.并且我们有 \[FWER=P(∪_i A_i)\]\(m\)个检验过程中存在一个FP的概率。由Bonferroni不等式,我们得到 \[FWER≤∑_i P(A_i ) ≤m α\] 我们要使得\(FWER≤ α_0\),则只需对每个检验的第一类错误控制水平为\(α=α_0/m\).这个调整方法非常保守,可能把FWER控制得很低,从而第二类错误会升高,即power会降低。所以这类修正方法是直接在FWER上做文章。还有的方法直接在FDR上做文章。

基于FWER的p值调整方法,功效不够。

FDR和FWER的关系

那么FDR和FWER有什么关系呢?FWER还有一种公式的形式,因为\(H^0∩ \hat S\)表示错误阳性的个数,所以有如下等价定义: \[FWER=P(|H^0∩ \hat S |>0)=P(|H^0∩ \hat S |≥ 1)\] 当m个原假设全部为真时,我们有:\(|H^0∩ \hat S|=|\hat S|\)。当\(|\hat S|=0\)时,规定\(FDP=0\);当\(|\hat S|>0\)时,则\(FDP=1\),所以 \[E(FDP)=FDR=P(|\hat S |>0)=P(|H^0∩ \hat S|>0)=FWER.\]\(|H^0| < m\)时,我们有\(FDR≤FWER\)。因为若\(|H^0∩ \hat S |=0\),则\(FDP=0\);若\(|H^0∩\hat S|>0\),则\(FDP≤1\)。于是得到: \[I(|H^0 ∩ \hat S |>0)≥FDP\] 两边同时取期望得到:\(FWER≥FDR\). 综上可知:只要控制住FWER的方法也控制住了FDR。于是如果我们直接控制FDR,那么对FWER的控制会更松一些,于是可以提高power。若\(|H^0 |\)越小,则FDR和FWER的差距越大,基于FDR提升Power的潜力越大。

原假设为真的情形下,统计量\(p\)值服从均匀分布。我们平常所说的\(p\)值为多少多少,其实是p值统计量在样本上的实现值。首先定义一个p值函数为: \[p(x)=P(Z>x)=1-F(x)\] 其中\(Z\)为检验统计量\(Z_n\)在原假设成立时所服从分布相同的随机变量。那么\(p\)值统计量定义为: \[p(Z_n )=P(Z>Z_n│Z_n )=E(I(Z>Z_n)|Z_n)\] 它是样本的一个函数。 在\(H_0\)为真时,因为\(Z_n\)也服从\(F\)的分布, \[p(Z_n )=1-F(Z_n )=1-U=U'\] 其中\(U\)\(U'\)都为\([0,1]\)均匀分布的随机变量。