统计检验力和样本量的讨论


最近有一些文章都是关于研究中的样本量的问题(见这个帖子也提到
)。

Friston, Karl. (2012). Ten ironic rules for non-statistical
reviewers. NeuroImage, 61(4), 1300-1310. doi:
10.1016/j.neuroimage.2012.04.018

Friston, Karl. (2013). Sample size and the fallacies of classical
inference. NeuroImage, 81(0), 503-504. doi:
10.1016/j.neuroimage.2013.02.057
(总结性文章)

Ingre, Michael. (2013). Why small low-powered studies are worse
than large high-powered studies and how to protect against
“trivial” findings in research: Comment on Friston (2012).
NeuroImage, 81(0), 496-498. doi:
10.1016/j.neuroimage.2013.03.030

Lindquist, Martin A., Caffo, Brian, & Crainiceanu,
Ciprian. (2013). Ironing out the statistical wrinkles in “ten
ironic rules”. NeuroImage, 81(0), 499-502. doi:
10.1016/j.neuroimage.2013.02.056
Tal Yarkoni: http://www.talyarkoni.org/blog/2 …
nt-on-friston-2012/
还有Nature Review Neuroscience上关于神经科学里统计检验力的一个讨论:
Button, Ioannidis, Mokrysz, Nosek,
Flint, Robinson, & Munafo,
(2013). Power failure: why small sample size undermines the
reliability of neuroscience. Nat Rev Neurosci, 14(5), 365-376. doi:
10.1038/nrn3475
这个文章统计了神经科学里研究的统计检验力,得到的结果:神经科学里的统计检验力相当之低。
随后,有几个人跳出来表示这个问题需要没有那严重:
Ashton. (2013). Experimental power comes from powerful theories
[mdash] the real problem in null hypothesis testing. Nat Rev
Neurosci, 14(8), 585-585. doi: 10.1038/nrn3475-c2

Bacchetti. (2013). Small sample size is not the real problem. Nat
Rev Neurosci, 14(8), 585-585. doi: 10.1038/nrn3475-c3

Quinlan. (2013). Misuse of power: in defence of small-scale
science. Nat Rev Neurosci, 14(8), 585-585. doi:
10.1038/nrn3475-c1
Button, Ioannidis, Mokrys, Nosek, Flint, Robinson,
& Munafo. (2013). Confidence and precision increase
with high statistical power. Nat Rev Neurosci, 14(8), 585-585. doi:
10.1038/nrn3475-c4
一直对这个问题非常感兴趣,但是说实话,几篇文章都读得不太懂。最近又抽时间 专门阅读了一下Button et al., (2013)的这个文章,似乎多了一点点理解。写出来权且当作笔记。
首先是什么问题会导致低的统计检验力。最显明的因素就是样本量少,这个问题也大家非常关心的,因为这直接关系到实际研究的操作,也是我们在研究中可以控制的问题。
另外一个就是效应量很小,这个相对而言就没有那么容易控制了,因为一个实验操作的真正的效应量真正有多大永远是我们想知道的,但是又很少能够得知的。还有其他的因素。
其次,低统计检验力会导致什么问题,或者说低统计检验力的研究为什么不可靠。Button et al.,(2013)主要讨论了三点,层层递进。
1 低的统计检验力意味着研究中报告的效应真实存在的概率是很低的。一个检验力为0.2的研究的统计意义是:如果这个领域有100个真实存在的效应,这个研究只能够发现20个这种效应。
2  一个研究的统计检验力越低,则该研究中报告的显著结果真正反映了真实效应的可能性就越低。这个可能性称为PPV(positive
predictive value)。
3  即使一个检验力很低的研究发现了真正的效应,它也可能夸大了这种效应的量。这种效应的膨胀通常被称为:赢家的诅咒(winner’s
curse)。
 
这个问题是更加值得关注,因为低检验力的研究夸大效应量。而第一个报告低效应量的研究可能只是因为运气。重复研究想要做出这个效应,则需要采用更多的被试量。
   关于效应量鼓胀的问题,见Ioannidis, John P.
A. (2008). Why Most Discovered True Associations Are Inflated.
Epidemiology, 19(5), 640-648。
然后,作者们搜索了神经科学中的元分析文章,统计了神经科学里的检验力。然后,发现神经科学的统计检验力真的不高!
统计检验力和样本量的讨论
统计检验力和样本量的讨论
本来想介绍得更详细一点的,但发现自己的理解还不够透彻,权且当作抛砖引玉吧,望理解更深的滴友来解释一下。
PS:谁在自己非常lucky的时候在乎winner’s curse,
只有在实验总没有效应的时候,到处寻找原因时,开始怀疑前人报告的结果是运气好!嗯,我就是这样的。

Leave a Reply

Your email address will not be published. Required fields are marked *