p值的不稳定性

最近社会心理学领域,可重复性问题应该令大家非常心塞的一件事情。虽然直接重复是否真正有用是很有争议的问题,但主流的观点仍然是鼓励重复的。

但是,直接重复采用什么统计指标?这个关键的问题之前都被忽略。一个简单的想法是,直接重复应该重复出原来的效应,即以前显著(p < 0.05 ),重复实验也达到这个显著水平(p < 0.05 )就是重复。

但是p值真的是一个稳定的指标吗?最近Facebook上有研究者转Halsey等(2015)在Nature Methods上的文章,指出其实p值并不稳定。

Facebook上的这个研究者引用了文中的这么一句话:“Many scientists who are not statisticians do not realize that the power of a test is equally relevant when considering statistically significant results, that is, when the null hypothesis appears to be untenable.” 也就是说,显著性检验,是需要与统计检验力一起考虑的。统计检验力低的检验,其零假设检验并不靠谱,p < 0.05也是很不稳定的。

而转引的这个文章,实质上就是解释p值的稳定性问题,即我们在研究中所期望达到 p < 0.05,实际上非常不稳定,抽样的变化就会导致p值的变化。然而,在研究的实践中,我们通常会误解p值的真正意义,一厢情愿地认为p <.05就是有效应的铁证。

从Halsey等(2015)的引文中可以看出,关于零假设检验的争议(p <0.05)以及方法学家们对这个方法提出改进的努力,已经是很久以前的事情了。1994年,Jacob Cohen在The Earth Is Round (p < .05)一文中是如此开头的:After 4 decades of severe criticism, the ritual of null hypothesis significance testing—mechanical dichotomous decisions around a sacred .05 criterion—still persists. 也许,现在我们需要再加上两个十年。

对p值的最大误解就在于,我们认为它是二分的,p < 0.05 就是显著,p > 0.05就是不显著,即使p=0.06与p=0.04其实区别并不大。当年Fisher提出NHST时,是建议将p作为连续的变量来作为参考,但今天大部分研究者却把它当作一种二分变量来使用。

p值的定义是什么?Halsey等(2015)的定义认为,它测量的是反对零假设证据的强度。但是,当统计检验力非常小的时候,p值会变动非常大。在心理学研究中非常常见的是,一个研究的统计检验力之低,完全不足以让人完全其p值会是稳定的。

假定有两个总体,其均值相差为0.5:

 

但是,随机抽样四次,并不能保证每次都出现显著差异的结果:

之所以不同的取样会导致不同的p值,原因在于随机抽样可能抽到的是总体的不同部分,样本之间的差异不稳定。为了得到稳定的效应量,一个可取的做法是采用更大的取样。

下图是不同样本量下,effect size的CI区间,可以看出,即使在80%的power的情况下,effect size也并不是那么稳定。

 

换成p值,这个就会更加明显:当样本量很小,power很低的时候,p< 0.05的的可能性并不多,而当power是94的时候,才会好很多。

作者的建议是,不要单独使用p值,而是使用效应量+效应量的95%CI。

对于重复实验,如果原来研究中的p值就不稳定,那么重复实验p不显著应该也不奇怪了。

Reference:
Halsey, L. G., Curran-Everett, D., Vowler, S. L., & Drummond, G. B. (2015). The fickle P value generates irreproducible results. Nat Meth, 12(3), 179-185. doi: 10.1038/nmeth.3288