以一种什么样的心态来对待可重复危机?

最近心理学中的可重复危机反正是非常严重了,越来越多重复实验发现,之前认为很稳定或者很有趣的效应可能没法重复出来。面对这个可能影响心理学名声的危机,心理学家的反应各不相同,有人积极进行批判,提出了各种各样的方法,进行了分析等等,最后对目前心理学研究的结果表示非常悲观。也有否认目前的可重复危机,认为当前的危机都是扯谈的,就是搞重复实验的那帮人在捣乱。

 

作为心理学领域的年青人(研究生或者年轻的研究者),以一种什么样的心态来对待这个问题?说实话,我本人之前是非常忧心忡忡的,总是担心自己所研究的这些东西都是没有意义的。相当于把自己这么些年的时间折腾进去,原以为会能够做点有意义的事情,却发现都不靠谱。

 

但是最近的一个研究者的心态就比较好,以一种更理性的角度来看待这个问题。也就是说承认心理学对重复危机的正视本身就是一种进步,毕竟人类的心理过程如此复杂,先前我们喜欢那种看起来非常好的story,现在发现这种搞法不行了。虽然令自己人非常难堪,便毕竟我们还是继续批判和发展。这本身就是一种进步。说不定会有一些人搞出一些新的方法出来,让心理学作为一个整体去受益呢。具体见:http://sometimesimwrong.typepad.com/wrong/2016/02/end-of-the-world.html。

2015年读的书

All knowledge is, in final analysis, history.

All sciences are, in the abstract, mathematics.

All judgements are, in their rationale, statistics.

                                            ——Statistics and Truth  by C. R. Rao

以自己尚未阅读完的<statistics and truth>的开篇作为开头,感觉自己似乎也更加厉害了一点。这几话我深深地认同,感觉这些观点在未来一段时间里也将主导着我对科学的看法。

按照阅读的顺序,农历的2015年阅读了如下书籍:

《冰与火之歌:一》

《冰与火之歌:二》

《冰与火之歌:三》

《名利场》

《冰与火之歌:四》

Guns, Germs, and Steel : The Fates of Human Societies

《娱乐至死》

《人类简史:从动物到上帝》

《解忧杂货店》

《明朝的那些事儿》

《中国近代史》(徐中约)

50 years of data science, by David Donoho (以下称 50 years,是一本小册子)

The Lady Tasting Tea : How Statistics Revolutionized Science in the Twentieth Century,  by David Salsburg (以下称 the lady)

今年的阅读内容,并不是非常均衡,历史类的书籍较多。《人类简史》和Guns, Germs and Steel是与人类社会相关的宏观的历史;《明朝的那些事儿》、《中国近代史》是中国的历史;《The lady tasting tea》、50 years of data science是关于统计的历史。《娱乐至死》也可以算作为是历史,只不是一个聚焦于电视出现前后这一段。其他都是小说,都挺有意思的。关于《名利场》、《冰与火之歌:1~4》和《Guns, Germs, and Steel : The Fates of Human Societies》之前写过总结。《人类简史》、《娱乐至死》和《解忧杂货店》也写过总结。所以现在主要说后面的几个。

《中国近代史》应该算是我阅读的第二本关于中国近代的非官方的历史书(第一本是高华的《红太阳》),也许是一个受过教育的应该阅读的书籍,至少相对客观地讲述了不少事实。换了一个视角,少了一些煽动和夸张、多一些事实与评估。不管是对于太平天国运动,还是义和团运动,在这本书中的解读,与我在高中历史中所要记忆的内容,似乎是有一些差别的。对于历史教科书中努力所包装和掩盖的历史事实,这本书里并没有明显的避讳。非常重要的一点是,作者从中国人的角度,讲述中国人这段比较受屈辱的历史,这种情感本身还是能够体会到的。如果说一个民族或者文化确实有集体意识的话,那么作为中国人,了解近代中国这段并不辉煌的历史之后,可能会对中国人的自卑感、努力寻求“国际面子”以及崇洋媚外的现象有更多的理解和同情。对于执政党而言,从革命到目前这种角色与功能的变化,其实是很自然的转换,因此不必抱有太多的奢望。另外一点,就是对于利益既得集团是否会真正地“带动后富”持有非常强烈的怀疑态度,因为人往往很害怕失去利益,这是Tversky 和Kahneman的研究早已经发现的。

《明朝的那些事儿》写法比较有趣,掺杂的个人观点和推测过多,有一种半历史半小说的感觉,但总体还是不错的。作者个人的观点算是非常鲜明,具有明显的自由和理想主义的成分在其中,其结尾以徐霞客的事迹。不过作者还是相对客观地转述了比较残酷的历史,在这个历史之中,没有能力的理想主义者(如海瑞)是无法办成大事的,最终成为政治斗争中一个杀伤力比较大的棋子。真正能够部分实现理想主义的,比如朱元璋、朱棣、张居正等,都是复杂的、心狠手辣的但同时有一些理想主义的人。记得之前听易中天讲三国中的曹操,也是一个非常复杂的人物。不知道这是否是中国文化下的一特色,还是人类政治中的正常现象。记得在看某本书的时候,提到了近代美国历史学家们对美国国父们的重新评估,也发现他们起草《人权宣言》和《宪法》时,也是在争夺自己的经济利益。从这个角度来讲,政治家(有理想的)和政客(没有理想的)从表面上看起来区别确实很小,尤其是从当代的角度来讲。也说明确实要多去了解历史,因为历史中体现的,是真实的人性。从理解人性这个角度而言,历史与心理学其实是有着共同的理想的。难怪在《基地》系统中,最高级的科学是心理史学,用数学来预测人类社会的群体行为。

回到统计史。已经读过的the lady和50 years,和正在读的<statistics and truth>,都是几乎不涉及到公式。这些书可能对于作者来说比较难受,因为学过数学的人好像都喜欢简洁的数学公式来进行思维。the lady这本书的副标题还是非常准确的:How Statistics Revolutionized Science in the Twentieth Century。主要的内容,就是在统计学应用于其他科学之中时,许多大牛们的故事。这些大牛们的事迹也再次让我看到,搞数学或者相关专业真是需要天分的:不少为统计学做出贡献的人,出身非常低微,甚至小时候没有怎么受过正式的教育就对数学非常感兴趣,然后一旦有机会获得学习数学的机会,立刻展现出他们惊人的天赋。这一点上,真是不得不服。

the lady和50 years这两本书的共同之处,指出数理统计(mathematic statistics)比较尴尬的一点:随着统计在其他学科的应用,以至于其他学科中的研究者开始相对独立地发展自己的统计方法,不再从数理统计中寻找帮助。在the lady中提到的是,在数理统计中已经被证明或者发现的方法,在其他领域再一次被发现,然后再冠以另一个不同的名字。而在50 years这书里,提到是许多大学被大数据冲昏头脑之际要搞所谓的大数据研究时,往往完全把原有的统计学系或者应用数学系抛一边,好像统计学跟数据科学没有关系似的。这个问题一方面与数理统计学家沉迷于抽象的数学证明而不屑于做实际的数据分析问题有关,另一方面也是在实际数据分析问题本身变得越来越复杂,并不是将一些数据原理简单地套用,因此在长期进行数据分析的人可能反而更有发言权。此外,从the lady这本上来看,许多统计方法实际就是为解决某一类数据的特点而发展出来的,所以进行抽象数学分析似乎很可能被人所遗忘。

the lady这本书的特点是每一章与相对的独立,每一章或者第几章集中于某一个统计学家,讲TA们的成长与贡献,可读性比较强,尤其是早期Fisher,老Pearson,以及小Peason和Neyman之间的恩怨,非常有意思。另外这一本书比较推荐心理学背景的人读一读,因为从这本书上,我们可以了解一下本科时期在《心理统计学》以及《实验心理学》学习到许多内容的历史。至于对于我而言,认识到了这样一个事实:我们学习到的实验设计,实际上背后是有严格的数理证明。这些实验设计的方法,可以最早追溯到Fisher在农业研究站中的工作。实际上,也正是他早期几本减少数学推理,侧重原理和应用解释的书,推动了其实验设计的方法在各个学科中普及开来(后果就是大家都不再重视数学推理过程,甚至直接忽略!)。至于《心理统计学》,那更是从许多统计学家的成果中沿袭过来的,当然其实包括了将Fisher与小Pearson-Neyman两个传统强行放在一起这样行为(这一点不止在心理学中如此,在许多使用NHST的学科中都这么强行使用)。

the lady一书中,还提到了我在另一本书(The Emperor of All Maladies : A Biography of Cancer)中见过的一个内容:关于吸烟与肺癌的关系。Fisher作为一个吸烟爱好者,觉得政府禁烟是对公民吸烟自由的干涉,也写过文章来批判过一些支持吸烟与肺癌关系的研究(他的批评是很在理的,因为有些研究中确实存在着数据挑选和出版偏见等问题)。但是1959年,一个叫玉米地的人(Cornfield, J. )用30多页的文章,对多个实证数据进行评估之后指出,吸烟与肺癌的关系不可否认,他用的方法,现在在医学里面可以被称为meta-analyiss / systematic review,我一般称为元分析。Salsburg 在 <the lady>在讲述这个问题的时候,解释说这个问题触及到统计学的一个核心问题:我们如何能够从数据中进行因果推断?严格地讲,现在我们在心理学研究中所进行的实验能够进行因果推断其实还是很值得商榷的,不过我们自己就这么说而已。因果推断这个问题,也许现在仍然无法非常完美地解决。

Salsburg 在最后一章中,也提出一些非常深刻的问题,包括概率在真实生活中到底意味什么,人们到底能否理解概率这个概念等。这些问题相当具有哲学的意味,因为我们似乎对这些问题形成了某种不清的共识,说起来好像每人人都知道概率是什么,但却无法进行严格地定义。包括我们在自己的研究中也是如此,连p < 0.001意味什么,也是好像知道但并不准确知道的。这种我们所默认的共识,其实在心理学中似乎专门有人研究吧,类似于数学心理学之类,研究人们如何理解数字之类的概念,但我并不太了解。关于这个默认的共识,Salsburg提到了科学范式的转变:从经典力学的机械决定论到一切都是概率分布(C. R. Rao的statistics and truth基本上就是在讲这个),是一次巨大的变革。这一点与《量子力学史话》中提到了是一致的,这个转变在物理学中是最为明显的。但是问题在于,现在以概率分布为基础的这种思维方式,似乎也碰到了许多问题,至少它在很多领域很难提供有用的提导(或者是这些领域的统计还没有学好?)。Salsburg指出,如果我们再一次变换思维方式,从以概率为基础的方式,跳到另一种更好范式中去,也许会给科学带来另一次革命。对于这一次革命,拭目以待。

这本书里,当然提到了贝叶斯与频率主义之间分歧,不过内容并不多。此外,我还注意到一个非常有趣的事实:即使在早期的科学研究中,科学家们就存在着只报告部分数据结果的传统,对于不符合自己理论模型的数据,科学家们的做法是直接无视。这些科学家包括孟德尔,也包括开普勒。这种做法现在在心理学中被称为可疑的研究操作(questionable research practices),它正是心理学研究不可重复的一个原因。想想现在心理学家受到的批判,突然感觉有点不公平了。

52 years这个小册子,跨度相对短一些,问题也更加集中一些。其侧重点便是数据分析中问题。里面提到了许多包括我们心理学/神经成像数据分析中碰到的问题:reproducibility,这个问题已经不用吐槽了,以后专门说吧。另一个有趣的问题是两种不同取向:model fitting vs. prediction,心理学中做的比较多的,还是model fitting,甚至已经到了一种病态的地步了。有人将心理学称为“ 僵尸理论的坟场 (graveyard of undead theories )”( Ferguson & Heene, 2012 ),因为我们一直在发表有部分证据支持但是却没有否定证据(由于出版偏见的存在,否定证据几乎无法发表)的理论,由于没有否定的证据,所以这些理论就处于不死,但是却没有活力(即没有用)的状态。当然,这个小册子中还提到怎样才算是data science,是非常值得一读的。

算一算,今年居然还读完了10多本书,这个速度,应该还算是可以的了。

无法避免的参考文献:

Ferguson, C. J., & Heene, M. (2012). A Vast Graveyard of Undead Theories: Publication Bias and Psychological Science’s Aversion to the Null. Perspectives on Psychological Science, 7(6), 555-561. doi: 10.1177/1745691612459059

John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling. Psychological Science, 23(5), 524-532. doi: 10.1177/0956797611430953

2015年写过的科普短文和自己的想法

在果壳的:

“逆袭”之路:家庭条件不足,认知能力来补

做决策,“从众”还是“从善”?

为什么看你那么疼,我也觉得疼?

他有没有在说谎?跟小伙伴讨论一下吧

天才和疯子,真的只有一线之隔吗?

瞎编的东西,怎么也有人说自己懂?

在百度知道的:

科学家谈大脑时,大多在谈“柯林”的大脑?

强制戒断时,大脑里在发生什么?

坏男孩长大后更强壮?

高海拔如何影响我们的心理功能?

立秋后,为什么容易情绪低落?

诚实一定比欺骗更道德吗?

脑子“不完整”会让人变傻吗?

两个网站的科普都有自己感兴趣的东西,也有编辑命题的作文。总体上感觉,自己写的东西缺乏技巧,很难让读者满意,在这个信息流的时代,很难有较大的受众吧。而自己平时也慢慢更喜欢在博客上自说自话,写写自己的学习笔记,分享自己看到的文章或者研究中的经验,可能与科普还有很大差距。“柯林”的大脑这一篇,实际上是自己对当前fMRI研究中大脑模板相关的知识的一个简单回顾,自己觉得很有用,别人看起来可能没有多少意思。高海拔如何影响心理功能这个,一直是我想写的一个主题,因为自己喜欢户外运动,所以也想知道高海拔的攀登对大脑和心理的影响。

“逆袭”之路这个,写得感触非常深,因为当时为了贴近主题,实际上对原文中比较现实的一部分有所保留:家庭背景对收入、工作和教育的影响,远远地大过了人格的因素,仅在受教育程度上可能会为认知能力所补偿,不得不说,对于以后还在“后富起来”路上的家庭来说,是一个非常可怕的消息。近年来,社会经济地位相关的话题,总是能够引起不少人在网络上的关注,比如《返乡笔记:一个农村儿媳眼中的乡村图景》,又比如上海女青年陪男友回江西老家过年 吃了一顿团圆饭就分手事件。对于这些事件,我基本上是冷眼但热心地旁观。因为总觉得自己说出的话,绝不可能是上帝视角的,而是带着自己所认识到或者没有认识到的无数的偏见的话,还不如少说一些。

在这个社会中,自己还是喜欢做一个后排的观众,看清楚在前排的和在舞台上的人如何反应,去学习人类行为的模式以及认识自己,毕竟自己现在还认识太不清楚。对于许多我赞同的和不赞同的,总想知道背后的原因是什么?为什么他们会做出他们认为自然而然的结论,而认为与他们观点相左的人是SB。在我们自然而然地接受的这些价值观里,哪些是我们经过认真检验,哪些是我们从来没意识到就接受了(比如在认识能力还有限的时候被输入的唯一的价值观)。

一个例子,是最近朋友圈里又在转知乎关于“女性年纪大了就不好嫁人了吗”。点赞最多的答案,可以说是有理有据,而且我也不会反驳(只是不喜欢最后那种优越感),因为我所受到的教育,也是强调这些的。不过我仍然是持有同样的疑问:我们这种认为结婚就是一起玩儿,两人必须相互独立等自由的思想是从哪儿来的?总感觉跟万恶的资本主义有着非常强的联系。似乎在某些书上看到过类似的观点:从农业社会转向工业社会/资本社会之后,需要人力、资本等一切的自由流动,于是传统上把人绑到一起的制度,都成了万恶,婚姻和家庭首当其冲,成为这种革命所需要的祭品了。从这个角度来看,我们不是又被利用了?这个问题我的考虑还不有欠缺,可能还要进一步补充相关的知识。

关于写科普,自己现在反而有点胆怯了,主要的原因在于近年来心理学研究中的可重复性确实太不尽人意了。也许我们可以拿生物制药方面的研究来安慰自己,说我们不是最差的。但是问题在于,作为心理学的研究者,其实心理学就是我们所唯一所拥有的,把它做好做得靠谱,是我们自己的责任,别人可能只是点评一下,嘲笑一下就可以转身离开,但除非我们转行,否则烂摊子还是得自己人来收拾。由于这个摊子还没有收拾好,有点羞于拿出去宣传了都。

对于写科普,还有一点需要补充的就是,稿费还是太低了。

一切在慢慢变好——我的2015

终于,农历的2015也过去了,不能再活在2015年里,这一年一年的,跟翻书似的,感觉上次写2014年总结隔得并不远。

2015年,总的来说还是在2014年的基础上继续在往前推进,只是生活的重心似乎没有之前那么完美的均衡了。经过了年初的冬季攀登之后,队长的压力让我有点不能承受,从此有点力不从心,在户外活动中的投入减少。这一年可能除了日常的训练还参加之外,其他的户外运动主要投入到攀岩活动中去了。时间的投入,带来了明显的进步,自己能够开始体会到攀岩的乐趣。除了时间上的投入,金钱上的投入也开始增加,今年购买了自己的第一个头盔,还从兰姐那里获赠一个BD的安全带(冬冬用过的),加上之前的攀岩鞋、粉袋和一个ATC guide、背包,也算有了一些自己的装备。野外攀爬比往年多,因此也开始慢慢喜欢上了先锋攀爬。这种攀爬方式让自己更谨慎,实际上也非常安全。下半年北京的雾霾让我的锻炼明显减少,带来了后果就是体重开始增加,力量减弱,希望2016年上半年能够恢复运动量,把腰部增加的肥肉减掉。

2015年夏天,错过了一次去慕士塔格的机会,原因非常简单,我错过了当时的火车。不知道是不是自己内心也有一丝的犹豫,所以没有非常认真地赶火车。冬季也只去了一次攀冰,而且只有一天就回来了,因为爬得少,也感觉比较冷。反正2015年的户外活动是减少了许多,这一点并非我的理想。2016年,上半年希望能去苏格兰徒步至少一次,6月到7月期间去阿尔卑斯山来一次成熟路线的攀登,下半年回来之后购买一条主绳和一些主锁、快挂,保证自己有足够的装备去野外攀爬。一定要努力达到这些目标。

2015年,学术上算是开始有一些进展了,实验进行的得算是有条不紊吧,实际上并不快,但是也只能这样,毕竟有许多现实因素的制约。在农历的2015年年底,把第二个EEG实验做完了,数据量上至少已经比较丰富了,博士毕业论文的工作,也算是进行了三分之二或者四分之三了吧。但是数据的分析方面,可能还需要一些时间来慢慢琢磨。元分析的中文介绍,在2014年年底接收,2015年年中发表了,而第一个元分析的英文文章,也在2015年年底接收,2016年初(公历)在线发表,多多少少算是有了点底气,感觉自己算是一个科研人员了,虽然深知自己在学术水平上非常有待提高。这个文章的主要修改工作,就是在未能去慕士塔格之后的时间里修改的。另一方面,2015终于彻底放弃了某一篇中文的综述,这从2012年即开始搞的东西,但是内容没有新意,而我的主要兴趣也确实不在那里,经过一次合理的拒稿后,自己也放弃了。这可能也是学术研究的一部分吧,确实要承认,有些东西就是不行。虽然可以通过一些不太好的期刊发表,但是我觉得还是算了吧。2015年,主要的成就在于发现其实meta-analysis还是可以做一些东西的。以后学可能用这个方法来进行一些研究工作,也会将这个方法扩展到行为数据之类吧。正如我在去年的总结中写到的,这个方法其实是比较符合我的特点的。

另外一件我觉得非常重要的是事情,就是在2015年年末的时候,组织了一次规模比较大的学术沙龙。请了北大、北师大和我们系的博士生来分享他们的研究。speakers都是同辈,做出了非常好的工作。组织之前,心里非常紧张,怕搞砸了。但是在实验室的同学以及袁杰师兄、佳蔚、鸿章、芳临和玉洁的帮助下,一切都非常顺利。并且以此为基础,组建了52brain的第一个官方微信群,人数达到了500的上限,非常活跃,这是我没有想到的。不得不说,52brain这个平台,还是对于我的学术生活而言,起到了非常重要的作用。

还有一些东西,在2015年酝酿,希望能在2016年能够有一些结果,其实一个是我们实验室同学都共同关注的心理学研究中的可重复性问题。我们一起写了一个中文的综述,投到了《进展》上,希望能够引起国内同行的重视,跟上国际的形势。关于这个问题,我也跟系里的孙沛老师提过,他非常积极地在推进同学们对这个问题的关注,在他讲授的研究生心理学研究方法课上,加入了相关的内容,让大家进行讨论。这一点我觉得是比较具有实际意义的:让更多的学生去了解、讨论和反思当前心理学研究方法中存在的问题。

今年也许要增加一些内容,关于我所阅读的书籍,因为在阅读的过程中,对自己的触动比较大。自从在coursera上听过了吕世浩老师的两门历史课以及另一门历史课之后,对历史的兴趣慢慢增强。今年阅读的书中,历史占了较大的比例,包括徐中约的《中国近代史》、《明朝的那些事儿》、《人类简史:从人类到上帝》、the lady tasting tea和《数据科学50年》 这个短文。其他的书包括冰与火之歌的1到4、名利场、娱乐至死、Guns, Germs, and steel和解忧杂货店。历史书的阅读给我带来的感想比较多,还是专门来写一写。

最后,也是最重要的,应该是自己最personal的事情(所以不能说太多)。2015年,生活发生了非常重大的变化,终于从一个人的生活状态,开始慢慢向两个人状态前进了。不得不说自己非常幸运,感觉像是上帝派来一位天使出现在我的生活。我们能够相互吸引,相互促进。直到前一个月,与山野的小伙伴吃饭时才知道,原来大家都觉得我们在一起的速度实在惊人,然后我自己却不太觉得。也许这就是碰到了对的人。这大半年来,经历了不少,也解了不少。总觉得自己还有很多地方其实做得不好,而能够控制自己也是一件挺难的事情。预祝在未来的日子,我变得足够好,向自己理想的两人生活状态前进。

也许还有一件事情需要记一笔,就是爷爷的去世。虽然有一些不舍,但他老人家毕竟已经身体不好很多年了,能够安详地离开这个世界,也许是一件幸福的事情吧。自己长期在外念书,对爷爷的记忆也非常有限,愿他老人家在另一个世界里幸福。

准备一些关于可重复危机相关的博客了

引言:可重复危机是自2011年以后心理学界的大事件,心理学界在研究方法上正在进行变革。本人之前也关注过一些相关的内容,但是不太成形。2016年,计划在空闲时间对这些相关的问题写一系列的博客,讲一些相关的问题、讨论、统计方法、新的平台等。可能是收集一些以前自己写过的东西,也可能是介绍或者翻译其他人写过的,还可能是自己重新整理一些。主要的目的,是为了让自己更加透彻地理解这些问题,让自己的研究变得更加靠谱,同时,也与广大的同行们进行交流,讨论,共同学习。

1 什么是可重复危机?
之前写过关于可重复现象:(社会)心理学中的骚动:未能重复!
以及其他学科同行与心理学的争议:心理学的门户清理?

2 可重复危机的原因是什么?
2.1 出版偏见:科学出版之傲慢与偏见
2.2 可疑研究操作:主要的可疑研究操作
2.3 NHST的问题:p值的不稳定性
2.4 研究的统计检验力不够:统计检验力和样本量的讨论如何使用G*power计算统计检验力

3 可重复危机之后
3.1 Pre-rigister
3.2 基于估计的统计:效应量与置信区间
3.2.1 正确地进行t检验:如何使用Lakens的完美t检验代码
3.2 开放科学