Tag Archives: method

如何安装与使用statcheck工具包

2016.09.23更新:statcheck的作者发布了一个manual:http://rpubs.com/michelenuijten/202816

2016.10.21更新:statcheck发布了在线版:http://statcheck.io/

7月23号,psych sci的主编在自己的twitter上发推说目前psych. sci.正在测试使用statcheck工具包。

1136305613@chatroom_1469402433752_40

对于不少人来说这可能并不奇怪,因为这个工具包早就已经公布出来,能够快速地检查一篇论文中统计量是否有错误,比如F值与后面的p值是对应。这个软件的好处在于它可以检查出由于手动输入造成的错误。一经发布,得到了广大的好评。

statcheck的官网:https://mbnuijten.com/statcheck/;这个页面有教大家如何安装,当然还有另一个教大家如何使用的博客(需要翻墙)

以下是我在window 10下面进行安装和测试的结果。

第一:下载R和Rstudio,并且安装好;

第二:下载 Xpdf 并且解压(下载地址:http://www.foolabs.com/xpdf/download.html),可以选择把这个解压后的文件移动到一个存放软件程序的路径(比如我就是C:/Programfiles/xpdf)。

第三:将Xpdf添加到系统的environmental variable里,右击 this pc (此电脑) –> Properties  –> Advanced system settings –> environmental variable. 在User variable 里编辑Path,如果没有Path, 自己新建一个,把Xpdf的路径放进去。

(第二步和第三步就是安装Xpdf,其功能是将pdf转化为txt进行读取,具体安装可以看这个pdf

安装好了之后,打开Rstudio,安装statcheck这个工具包(>>后面接的是代码,如果复制的话,不要把>>也复制到R里去了):

>> # install and load statcheck

>> if(!require(statcheck)){install.packages(‘statcheck’)}

 

然后打开这个工作,使用它来检查:

>> library(statcheck)

>> checkPDF(“C:/Users/Daniel/statcheck/Zhang2015.pdf”)

如何一切正确的话,你的Rstudio里就出输出检查出来的结果,比如:

5D28.tm

值得一提的是,并不是所有的pdf都能够读出统计值 ,至少我看了两篇APA的文档可能就无法进行检查。

如果对statcheck本身有兴趣,可以查看一下原文

为了避免麻烦,我直接把Xpdf的winow版本和Lakens提供安装英文手册使用云盘共享,链接:http://pan.baidu.com/s/1kVrpWzX 密码:rpe4;下载statcheck压缩包即可。

HDDM的安装与使用

HDDM(Hierarchical Drift Diffusion Model),是一个用来估计drift diffusion model参数的python工具包,具体的介绍见官网:http://ski.clps.brown.edu/hddm_docs/。
当然,这个网站上也写了如何安装,但对于不太了解python的人来说,可能会有点周折。以下是我在window上安装的过程。

1 下载和安装Anaconda,这个软件是集合了python以及一些其他工具包的软件,Anaconda与python的关系,有点像Rstudio与R的关系。安装好Anaconda之后,会有不少可以打开的窗口,包括spyder, iPython, anaconda prompt, Jupter Notebook等,个个都可以打开,可以输入命令。但是主要用两个就可以anaconda prompt(这个是shell)和spyder(这个是集合了代码与iPython)。与R不同的是,R安装工具包与输入命令是一个地方,python却是要分开。

2 找到shell (开始–> 程序–> Anaconda –> anaconda command prompt) ,输入
conda install -c pymc hddm

当然,你有可能会失败,如果你把Anaconda安装在系统盘的话,win7以上的系统都会要求你有管理员的权限才能安装,所以你必须使用管理员模式运行Anaconda command prompt才行。

还有一点需要说明的是,python 有一个2.7的版本和3.5的版本,两个的区别不大,但是有些小细节上有明显差别,比如使用function是否要加括号。2.7里是不用加括号的,一般开始的第一行代码总是

print “Hello, World”

但是在3.4版本里,要让python输出 Hello, world, 你就得输入

print (“Hello, world”)

看别人代码的时候碰到错误时,可以先检查是不是由于版本的差异带来的错误。
OK,安装起来很简单,接下来就可以按照教程来跑一跑他们的教学数据了。

#心理学的可重复危机 (replication crisis) # 是如何形成的

2016.04.09修订:更正了OSF最初形成的时间。此外,关于心理学可重复的问题,有一个网站非常好以时间线的方式展现了一些重要的事件,有兴趣可以围观:Replication in Psychology: A Historical Perspective

记得前一段时间,物理学的引力波刷爆朋友圈和微博的时候,一位师兄如此感叹:

0

对的,上个大新闻就是心理学的研究,遇到了重复危机;没想到的是,下一个大新闻,就是另一些心理学家在science发表文章说,心理学的研究没有重复危机。不管到底有没有重复危机,反正英文的可重复危机(replication crisis)已经成为了wiki peida的词条

当然,即使facebook和twitter上关于可重复危机的讨论在心理学家之间已经吵翻了天,在国内也很见到讨论。作为一个万年酱油党,对这个领域的“热点”还是一直在关注。大约四五年前,也曾与人争论,心理学的研究到底是否可靠,也曾以问答的形式,介绍了当时刚刚“兴起”的可重复危机。几年之后,再来看这个问题,发现这个问题不仅没有解决,反而引起了一波又一波更大的争议和骚动。在心理学家之间,甚至引起了人身的攻击(言语上的)。这是我作为一个想要进入心理学学术界的年轻人所没有想到的。

即然有问题,或者说很大一部分人觉得有问题,那么,这个问题到底是什么,如何解决这个问题,就成为了这个领域的必须去面对的。诚然,如许多人所提到的,可重复危机不是心理学一个领域的问题,许多其他领域也存在。但是,记得某位心理学家(忘记了出处和原话):心理学是我们(心理学家)所唯一拥有的。所以,知道其他领域同样存在可重复的问题,并不能是我们忽视这个问题的原因。

可重复性问题到底是从何时开始的?作为一个喜欢追踪文献的博士狗,“有幸”在这个危机开始的时候,围观了一系列在science和nature上被报道而引起广泛关注的事件,在这里把个人所了解的相关事件作一个回顾。

事件1:Bem (2011)的预见未来的实验。在这个标题为“Feeling the future”的文章中,已经是知名社会心理学教授的Bem在人格与社会心理学的顶级期刊Journal of Personality and Social Psychology上指出:通过9个实验,包括了1000多名被试,他发现了未来发生的事件,可能会影响到被试当前行为反应。在这个颇具有预见性的讨论中,他讨论了统计方法、可重复性和这种预见未来现象的问题。当然,心理学界的人很快提出了质疑,两个研究小组采用贝叶斯统计对他的数据进行了分析,表明无法从数据中得到这个推断。更加晚一些重复实验也没有发现Bem的这个结果。此时,人们还无法预知,这个事件将成为心理学可重复危机的一部分。science此时也只是用相当平淡的口吻给了一个评论:ESP paper rekindles discussion about statistics

事件2:到2011年年末,另一重磅事件,彻底让人们开始反思心理学中方法的严谨性了。这就是Stapel的论文造假事件。Stapel本人是荷兰Tilburg University社会心理学的教授,刻板印象方面的专家。2011年4月8号,也就是五年前的今天,他在science上发表一篇题为 “Coping with Chaos: How Disordered Contexts Promote Stereotyping and Discrimination”的论文。这对于当时的我来说,实在是太有趣了:凌乱的环境居然会加重人们的刻板印象,太神奇了!对于这种有趣的研究,我很快在心理学与脑科学的论坛52brain.com上进行了传播。但是到了2011年11月01日,Nature报道,Stapel的这篇论文涉嫌造假,标题是“Report finds massive fraud at Dutch universities”,而Science也撤回了此论文(2011.12.02)。此后,nature 和science都对这个事件进行了持续的关注。Stapel之所以能够被发现是数据造假,是因为他的研究生举报(想想如果没有研究生举报,他会继续作假到什么时候?)。而Tilburg于2012年12月的调查报告显示,在他职业生涯中发表的137篇论文中,有55篇数据完全是捏造的。此外,还包括他指导的10个博士生博士毕业论文中的数据。在另外10篇论文中,当时还无法断定是否有造假行为。Science在报道这个最终报告的时,提出一个事实:整个心理学领域都有无法推脱的责任(Final Report on Stapel Also Blames Field As a Whole),因为Stapel的55篇数据造假的论文中,审稿过程中完全没有发现问题。而这并不是说审稿的过程是无法发现问题的,因为在2012年,宾大沃顿商学院的Uri Simonsohn通过对Smeesters已经发表的两篇论文结果进行了仔细的检查之后,怀疑作者的数据有问题,随后Smeesters所在的大学对其进行了调查,Smeesters声称自己由于某些客观原因,原始数据丢失,但是其所在大学无法接受他的这个理由,接受了其辞职(见science的报道)。

事件3:还是回到2011年,Simmons, Nelson, & Simonsohn 在psychological science上发表了一篇名为False-Positive Psychology的论文,在这个论文中,指出了心理学研究中,有一些比较常见的做法会让整个领域的假阳性过高。不过这个文章仅在学术界引起了一些关注,媒体的报道相对较少。也是这一年,Virginia University的Brian Nosek在google group里成立了一个叫做open science framework的讨论组,11月7日发起一个倡议,建议对20008年发表的研究进行大规模的重复,这应该就是后来的Open Science Framework的萌芽。

事件4:2012年1月,无法重复的启动研究。在中国的农历尚未到2012年之时,社会心理学的社交网络圈爆发了一个新闻:著名的老年启动效应无法重复出来。记得在哈佛的幸福课(positive psychology)中,讲课的老师就引用过这个研究,让我印象深刻:当大学生看到一系列老年相关的词汇之后,他们走出实验室的速度会变慢,也就是说,变得更像老年人…….。当时我并没有特别在意这个研究。但是2012年1月,开源杂志Plos One发表了Doyen等人一个研究,声称无法重复出这个著名的效应。他们做了两个实验,第一个实验完全重复Bargh等人的实验,第二个则对参与实验的人进行了某种暗示,再现了这个效应。对于这个结果,科普作者Ed Yong进行了报道,并且开头引用了心理学教科书中著名的历史安全“聪明的汉斯”的故事,暗示原作者们Bargh等在方法上的严谨性。正常情况下,这种无法重复的原因多种多样,对于批评可能也无需太在意。但是Bargh作为自动化加工(automatic process)方面的权威,面对这个研究和报道,表示非常愤怒,在自己的博客上进行了激烈的反击,对重复实验的作者、发表重复实验的杂志以及报道这个重复实验的科普作者进行抨击,语言比较激烈,后来删除了该博客(可以从这里这里找到当时其他博客上的一些引用)。正如其他信息的传播一样,客观理性的内容往往很难引起注意,但是充满情绪的内容总是非常广泛地传播,于是Bargh的博客在社会心理学家之间传播开来。

Bargh这个博客引起广泛争议的同时,应该说是再次让社会心理学家们感受到了可重复问题的压力。于是一个原本不太受到关注的网站进入了大家的视野,这就是http://psychfiledrawer.org/。这个网站的目的是让心理学家把自己未发表的数据上传,以减少在论文发表中对阳性结果偏爱而阴性结果无法发表的这个问题。原本没有人多少人关注这个网站,但是Bargh事件之后,许多人纷纷把自己重复过的数据上传。更有意思的是,诺贝尔经济学奖得主卡尼曼也站出来说话了。在题为“A proposal to deal with questions about priming effects”的邮件中,他老人家让社会心理学家解决自己领域的问题。这个邮件内容也有不少的阅读者。

事情发展到2012年,越来越多的重复失败结果被曝光,要么是在一些网站上公开数据,要么是在一些学术期刊上发表。而对于Bem预见未来的实验,也有重复实验的报告在plos one上发表出来。Michigan大学Lawrence Sanna辞职,原因是Simonsohn怀疑他的数据有问题,nature进行了报道。心理学家也开始讨论怎样的重复才能算是一个合格的重复实验。于是有了预先注册(pre-register)、然后按照注册的方法进行实验,最后来报告结果。perspectives on psychological science上,也有专刊来讨论可重复性的问题,这一次非常集中地讨论了与可重复性相关的问题。同样重要的是,2012年,John等人关于可疑研究操作(Questionable Research Practices)的调查报告发表,心理学家们承认,自己在研究的实践中,一些通常的做法其实是大大地增加了假阳性的概率的。

同样是2012年,科普作者Ed Yong回顾了一系列事件之后,认为在社会心理学领域存在着可重复危机,这一报道在nature上以Replication studies: Bad copy为题,作为新闻发表。

直到2013年1月,Center for Open Science(COS)正式在Virginia University成立,成为心理学家组成的非正组织来应对这次可重复危机。COS整合了在此之前已经搭建的开放科学框架的平台(open science framework: osf.io/),开始组织全世界的心理学家进行联合的大规模重复实验。这一年,perspectives on psychological science再次组织特刊讨论了可重复性以及一些实验方法上的问题。这一期中,Lebel将PsychDisclosure.org推出,提出了研究者要完整报告自己研究的方法部分的要求。

2014年,关于重复实验应该如何做,研究者们基本上有一些共识,许多杂志开始鼓励提前注册的重复实验或者提前注册。osf进一步完整,成为一个可以公开注册研究和分享数据的平台。Journal of Experimental Social Psychology上,发表了题为The Replication Recipe: What makes for a convincing replication?的文章。这一年,在social psychology这个杂志5月的一期中,也发表了一系列经过提前注册过的重复研究,能够重复原先实验结果的并不多。不过一个比较积极的消息是,由Klein等人发表的多实验室项目(ManyLab)中,对心理学中经典研究的重复,大部分是有结果的。Cumming 也在psychological science上发表了题为The New Statistics: Why and How的文章,指出需要在统计方法上进行变革。Psychological science也改变了其审稿的政策,对方法部分不再有字数的限制,开始启用一些强制政策来加强方法部分的严谨性,如要求像Lebel指出的那样报告方法部分四个方面的内容,使用效应量和置信区间等。其他的杂志也有一些相应的调整。

不过值得注意的是,2014年5月,剑桥心理学家Schnall在其博客上表达了Social psychology上发表的对她2008年重复研究的不满,认为做重复研究的人是Bully,Dan Gilbert也在Twitter上表达了对进行重复研究的人的愤怒。平心而论,热衷于做重复实验的人,确实在对原研究的态度上不太好,在facebook和twiiter上有许多嘲讽。

2015年,最大的事件就是COS于2013年组织的大规模重复实验的结果得以发表,许多人期待的结果在Science上发表,其结论是对100项研究的重复,大约39%能够重复出来(根据对重复的标准不同,这个比例有一点变化)。这个研究的结果有大量的数据在osf.io上共享,供研究者去挖掘,而确实也有不少研究者利用这些数据进行了后续的分析。还有一些其他的重复报告也发现先前的一些效应无法重复,如孤独会让人洗热水澡的重复权力姿势(power pose 。许多人以为,可重复危机基本上就已经确定了,心理学要开始进行艰苦卓绝的方法变革,来提高本领域研究的可重复性了。但是

2016年3月,Science上的一个评论再次引起争议,Gilbert等人分析了COS大规模重复实验的数据,认为三个方面的错误使得他们的不足以得到心理学研究的可重复率只有39%的结论。这一评论再次激起了Nosek等人的回应、博客上的论战以及媒体的报道。然而,这些评论与争议,也无法改变另一个非常著名的心理学效应在重复实验前的倒下:自我损耗(ego-depletion)的重复实验也未能重复出其效应,而元分析也显示了相似的结果。这个失败让笼罩在心理学家头上的乌云更加密布,因为这个理论非常符合直觉,大量的心理学家投入时间和精力研究这个问题,大量的研究经费投入在这个问题的研究之中。不是一个人的问题,而是一群人的问题!

self_depletion

 

 

 

 

 

 

 

 

心理学研究领域到底有没有可重复危机?目睹了从2011年Bem事件到现在的自我损耗实验的重复失败,我本人对目前心理学论文中的结果和结论非常没有底气,对于原本不该质疑的,也开始质疑了。最近,Journal of Experimental Social Psychology在准备一期特刊,讨论如何去应对这些问题,其中自我损耗理论的提出都Baumeister发表一个评论,也引起了广泛的讨论。

看到这些已经在学术界有一定地位人相互之间的争论,对于刚入门的年轻研究者来说是最痛苦的。应该如何做研究?这是一个问题。

 

参考文献

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425. doi: 10.1037/a0021524

Brandt, M. J., Ijzerman, H., Dijksterhuis, A., Farach, F. J., Geller, J., Giner-Sorolla, R., . . . van ‘t Veer, A. (2014). The Replication Recipe: What makes for a convincing replication? Journal of Experimental Social Psychology, 50(0), 217-224. doi: http://dx.doi.org/10.1016/j.jesp.2013.10.005

Doyen, S., Klein, O., Pichon, C.-L., & Cleeremans, A. (2012). Behavioral Priming: It’s All in the Mind, but Whose Mind? PLoS One, 7(1), e29081. doi: 10.1371/journal.pone.0029081

John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling. Psychological Science, 23(5), 524-532. doi: 10.1177/0956797611430953

Miller, G. (2011). ESP Paper Rekindles Discussion About Statistics. Science, 331(6015), 272-273. doi: 10.1126/science.331.6015.272

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-Positive Psychology. Psychological Science, 22(11), 1359-1366. doi: 10.1177/0956797611417632

准备一些关于可重复危机相关的博客了

引言:可重复危机是自2011年以后心理学界的大事件,心理学界在研究方法上正在进行变革。本人之前也关注过一些相关的内容,但是不太成形。2016年,计划在空闲时间对这些相关的问题写一系列的博客,讲一些相关的问题、讨论、统计方法、新的平台等。可能是收集一些以前自己写过的东西,也可能是介绍或者翻译其他人写过的,还可能是自己重新整理一些。主要的目的,是为了让自己更加透彻地理解这些问题,让自己的研究变得更加靠谱,同时,也与广大的同行们进行交流,讨论,共同学习。

1 什么是可重复危机?
之前写过关于可重复现象:(社会)心理学中的骚动:未能重复!
以及其他学科同行与心理学的争议:心理学的门户清理?

2 可重复危机的原因是什么?
2.1 出版偏见:科学出版之傲慢与偏见
2.2 可疑研究操作:主要的可疑研究操作
2.3 NHST的问题:p值的不稳定性
2.4 研究的统计检验力不够:统计检验力和样本量的讨论如何使用G*power计算统计检验力

3 可重复危机之后
3.1 Pre-rigister
3.2 基于估计的统计:效应量与置信区间
3.2.1 正确地进行t检验:如何使用Lakens的完美t检验代码
3.2 开放科学

多因素ANOVA中的多重比较校正

多重比较校正是研究中常见地用来控制假阳性的一个方法。这几年关于这个问题最值得一说的,肯定是三文鱼实验的海报。正是这个研究,神经成像领域基本上开始重视多重比较校正的问题。

心理学的学生,基本上都学习过多重比较的问题。在我的印象中,应该是在事后检验(post-hoc test)中提到这个问题。比如 one-way ANOVA中,有三个水平,如果ANOVA的效应是显著的,那么后续的三个t-test中,不能使用0.05作为alpha的水平,而应该是0.05/3=0.017 (Boferroni校正)。

但是,很少有心理学研究者注意到,多因素ANOVA中也存在这个问题。而Lakens最近的博客就是提到了这个问题。在博客中,他以2*2*2的ANOVA为例进行了说明。2*2*2的ANOVA,有三个主效应和4个交互作用,共有7个效应。这7个效应中任何一个显著的比例也不是0.05,而是大约30%左右了!

SNAG-0005

博客中还提到了Cramer等人最近在arvix上的论文,对多因素ANOVA中的校正问题进行了比较系统的说明,同样值得一看。这个论文还对主流心理学杂志进行了一个抽样的调查,发现大约50%的论文使用了多因素ANOVA(一点也不奇怪,大家都希望用一个实验多检验几个效应),而几乎没有用过多重比较校正。这里面提到了一些校正的方法,其中原理其实都差不多,都是FWE,FDR两种校正。关于这些原理,可以看刘嘉老师实验室在《心理科学进展》上的文章:全基因组关联研究中的多重校正方法比较

当然,提出问题还得有个解决方案。在上述的这个论文中,指出了几种解决方案,可以去看看论文。而在Lakens的博客中,提到了最简单粗暴的一种:

“I’ve used the mutoss package in R in my simulations to check a wide range of corrections, and came to the conclusion that unless the number of tests is huge, we don’t need anything more fancy than the Holm-Bonferroni (or sequential Bonferroni) correction (please correct me if I’m wrong in the comments!)”

也就是说,使用Holm-Bonferroni校正够用了,这一点比神经成像还是简单一些。作为业界良心的代表(他之前提供过效应量计算的excel表格!),Lakens提供了Excel表格用来校正P值,这里是链接:http://www.staff.amu.edu.pl/~kleka/_uploads/Holms-correction-calculator.xlsx。

最最关键的问题:指出这个问题并不是让大家一定要做校正,而是了解多因素ANOVA存在过高假阳性的可能性,大家需要根据自己研究的情况,在充分理解背后原因的情况下,选择是否校正,如何校正。

心理学最近在方法上不断地改进,说实话,让人感觉有些吃力。但用一句鸡汤的话说,感觉吃力表明我们在走上坡路。好好把方法搞严谨了,避免false positive psychology。

Cramer, A. O. J., Ravenzwaaij, D. v., Matzke, D., Steingroever, H., Wetzels, R., Grasman, R. P. P. P., . . . Wagenmakers, E.-J. (2016). Hidden Multiplicity in Exploratory Multiway ANOVA: Prevalence and Remedies. http://arxiv.org/abs/1412.3416