再次探索效应量的问题

先前在博客上介绍过如何使用G*power来进行统计检验力分析和计算效应量,当时是自己在实验之前使用G*power估算了一下自己实验所需要的样本量是多少。由于当时的理解并不深,只能算是把G*power操作了一次。

这两天要对实验结果的效应量进行计算和解释,再度对效应量进行了一次探索。这次关注的重点不是统计检验力,因为检验力分析的主要作用是在研究实施之前,进行样本量的估计。当实验已经完成之后,再进行统计检验力的分析已经意义不大。
此 次要分析的数据是2*3被试内设计的结果,这种设计在认知心理学(知觉、注意之类研究)中应该是非常常见。我们最关心的是交互作用的效应量。显著性检验采 用了SPSS中的一般线性模型的repeated measures ANOVA。在输出结果中选择estimated power和effect size,可以看到主效应和交互作用的效应量的一个指标:partial eta square。一般来说,这个结果已经足够了(前段时间在微博上的讨论:http://weibo.com/1758665935 /B08v5zazA)。
但 我们很蛋疼地不太相信SPSS输出的结果,想使用其他方法来验证一下,首选是G*power 3这个软件。在这个软件中,repeated measures, within factors的计算可以使用两种方法:ANOVA approach和MANOVA approach,在Faul, et al. (2007)这个专门关于 G*Power 3的文献中提到,如果是完全的被试内设计,使用repeated measures within factors可以使用ANOVA approach, 把groups 选择为1,但是操作过程中发现,这个说明其实不太足够让你进行一次power analysis。
当 时我使用的是G*power 3.1.2, 一个已经比较老的版本,选择这种方法时,输入的参数中包括了两个measures的相关,当时我就卡住了: 在2*3的交互作用中,什么才算是measures之间的相关。于是使用G*power计算交互作用效应量来进行验证的路似乎就堵死了。
于是,我想回到计算效应量最初的方法上,即partial eta square是如何计算出来的。自己其实以前就从文献中搜寻过这个答案,其实从原理上讲eta square是非常容易懂的:
首先、eta square的统计意义是,一个效应的变异量占总的变异量的比例是多少。所以其计算还得从变量的分解开始,一个两因素被试内设计的变异分解应该是如下:
其次,每个效应都有各自的效应量计算方法(注意,这里已经把eta square变成partial eta square的计算了,因为这个指标更能突出单个的效应):
所以其实可以根据F值很容易地计算出交互作用的partial eta square。但这个公式里没有相关系数出现呀?确实没有,但相关系数应该是包括了在SS的计算之中了(上述的公式可以在诸多的文献中找到,比较清楚的是Bakeman. (2005))。
有上述的公式还不够,我并不想自己来动手算这个效应量。于是再次搜索,找到了一些方法,例先前有人问过类似的问题:
这个网页上提供了两个G*power以外的方法,但都是主要针对被试间设计相关的。直到找到Lakens (2013)这个文献。这个文章主要关注于被试内设计实验的效应是计算,有两点特别有用:
第 一,它指出,SPSS中的 partial eta square与G*power中的partial eta square实际上并不一样,所以要使用SPSS中的partial et square到G*power中去做power analysis,还需要进行转换。一个方法是自己根据公式进行转换,文章附录中有转换公式(但又涉及到两个measurements之间的相关系数的问 题!!);另外一个方法是在G*power的repeated measures: within factors ANOVA approach中进行设置,此页面中有个option的按钮,可以选择输入的partial eta square 类型,其中包括了SPSS式的partial eta square。这时我才发现,G*power 3.1.2版本根据没有那个按钮(呵呵,不经常更新软件你就SB了吧)。重新下载到G*power的最新版本(3.1.9.2)之后,发现了此按键,还发 现repeated measures: within factors ANOVA approach下不需要再输入两个measurements之间的相关系数了,不明觉厉!但似乎挺好。更新后的G*power3.1.9.2表现不俗, 输入参数基本上都可以从SPSS的输出结果中找到,计算得到的效应量和统计检验力也与SPSS中一致。
第二,在这个文献中,Lakens提供了一个excel的表格,可以说是手把手教你如何选择合适的计算效应量的方法。
看了上图之后,经常要做t检验和F检验的同学有没有觉得很幸福?
这个表格自带到各种常见的实验设计的效应量计算方法,绝对值得拥有(下载地址:https://osf.io/ixgcd/)。顺便说一下,作者Daniel Lakens也是Open Science Framework的成员,正在重复好几项研究,他提供的方法都是比较open的。
使 用Lakens的这个excel工具,轻松地计算出了交互作用的partial eta square, eta square和generalized eta square这三个效应量的指标,其中 partial eta square的结果与SPSS中是一致的。
通过三种方法得到一致的结果,终于比较安心了。但接下来是一个更加纠结的问题:效应量的90%置信区间(confidence intervals, CI)是多少?
效应量还有置信区间!!
是的,虽然很少听说,但确实是有的。一般给出的效应量的值,就是通过样本数据,对总体的效应量进行的一个点估计。一般而言,区间估计比点估计给出的信息更加丰富,于是对于效应量也有区间估计的计算。
效应量的90% CI 的原理暂时没来得及看,但目前使用比较多的是两个方法:
第一,Smithson (2001) 提出的方法,其计算的程序使用的是SPSS的代码:http://dl.dropboxusercontent.com/u/1857674/CIstuff/CI.html
第二,Cumming & Finch (2005)提供的方法,主要是他们在一本关于置信区间的一本书中的各种计算:
最近还有一个使用R的MBESS包的计算方法:http://osc.centerforopenscience.org/2014/03/06/confidence%20intervals/
简 便起见,我采用了Smithson (2001)的SPSS代码进行了计算。结果正如Fritz, Morris, & Richler. (2012). 所说的那样,置信区间的效应量包括了从非常微弱的效应到非常强的效应的范围,因此,无法从直观上告诉读者这个效应的效应量是多少。即便如何,有些作者还是 推荐报告这个CI,当然也人并不推荐(见微博讨论:http://weibo.com/1758665935/B08wi1yD2)。
这一次对效应量和统计检验力的探索大约就这些多,再把主要的相关文献列一下。
关于统计检验力最经典的文献来自Jacob Cohen的教科书《Statistical power analysis for the behavioral sciences》,但大家一般会提的文献是Cohen (1992)。
最 近APA杂志JEP: G想大力推行报告效应量,于是有一篇全面的介绍性文献,几乎包括了使用effect size的方方面面:Fritz, C. O., Morris, P. E., & Richler, J. J. (2012);关于效应量的计算:Bakeman. (2005) ,Lakens, D. (2013)。
想对效应量从理论意义上有比较深入的了解?看看这个:Kelley, & Preacher. (2012).
关于为什么要在元分析中使用 generalized eta square而不是partial eta square,见Bakeman. (2005).
还 有一本买不起的教科书:Cumming, G. (2013). Understanding the new statistics: Effect sizes, confidence intervals, and meta-analysis. New York: Routledge.
关于CI的,上面已经给出了相关的文献。
参考文献:
Bakeman. (2005). Recommended effect size statistics for repeated measures designs. Behavior Research Methods, 37(3), 379-384. doi: 10.3758/BF03192707
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159. doi: 10.1037/0033-2909.112.1.155
Cohen, J. (1977). Statistical power analysis for the behavioral sciences (rev: Lawrence Erlbaum Associates, Inc.
Cumming, G. (2013). Understanding the new statistics: Effect sizes, confidence intervals, and meta-analysis. New York: Routledge.
Cumming, G., & Finch, S. (2005). Inference by Eye: Confidence Intervals and How to Read Pictures of Data. American Psychologist, 60(2), 170-180. doi: 10.1037/0003-066X.60.2.170
Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39(2), 175-191. doi: 10.3758/BF03193146
Fritz, C. O., Morris, P. E., & Richler, J. J. (2012). Effect size estimates: Current use, calculations, and interpretation. Journal of Experimental Psychology: General, 141(1), 2-18. doi: 10.1037/a0024338
Kelley, K., & Preacher, K. J. (2012). On Effect Size. Psychological Methods, 17(2), 137-152. doi: 10.1037/a0028086
Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Front Psychol., 4, 863. doi: 10.3389/fpsyg.2013.00863
Smithson, M. (2001). Correct Confidence Intervals for Various Regression Effect Sizes and Parameters: The Importance of Noncentral Distributions in Computing Intervals. Educational and Psychological Measurement, 61(4), 605-632. doi: 10.1177/00131640121971392

Leave a Reply

Your email address will not be published. Required fields are marked *