顶级期刊上的部分社会科学论文无法复现,是危机还是机遇?

火锅厅

百家号18-09-0416:44

我们可以在多大程度相信一项科学发现?这个问题的答案至关重要,因为在许多领域中,偶有出现已发表的研究结果的可重复性受到质疑的情况。在一项名为社会科学复现项目(the Social Science Replication Project)的新研究中,再一次将研究结果的可重复性问题置于科学辩论的风口浪尖。因为科学家发现,在21个具有影响力的社会实验研究中,只有13个可以被复现。

1. 研究结果的不可重复性

社会科学复现项目的研究人员调查了在2010-2015年间,发表在顶级期刊《自然》和《科学》上的21项社会科学实验的可重复性。8月27日,他们将研究结果发表于《自然·人类行为》期刊上。

○ 研究人员重复了在2010到2015年发表在《自然》和《科学》上的21个社会科学实验。《自然》和《科学》都是非常有声望的科学期刊,发表在上面的文章通常被认为是重要的,并且具有创新性和影响力。| 图片来源:Nature

为了测试那些初始论文的结果,研究人员在进行的重复测试中采用了更多的受试人数,并采取了多种统计方法进行分析。并且这些研究的初始作者对新研究的实验拟定进行了反馈,还提供了他们使用过的数据、软件和代码。研究人员耗费了很大的心血才完成了对这些研究的检测。

在21个重复实验中,研究人员发现只有13个实验能与初始研究有着相同方向上的显著效应;而且观察到的效应量级大约只有初始研究中的一半。心理学和实验经济学中具有前瞻性的复现项目已经揭示了这些领域的问题,但是它们并没有重点关注过发表在具有高影响力期刊上的文章,因为高影响力期刊可能更注重新颖性,而且可能会有更多的编辑审查。

在未通过可重复性测试的8项实验中,有一项是来自于现为肯塔基大学副教授的Will Gervais,在2012年,当他还是英属哥伦比亚大学的一位心理学博士生时,进行了这项研究善于分析的人是否更不可能持有宗教信仰的实验。在一个测试中,接受测试的本科生被要求观看雕塑的照片:一半的参与者观看的是罗丹的雕塑“沉思者”,另一半属于控制组的参与者观看的则是“掷铁饼者”。Gervais在发表在《科学》上的文章中报告称,观看了“沉思者”的人对宗教信仰表达了更多的怀疑。

如今,他承认这个实验非常薄弱:“事后看来,这项研究简直是彻头彻尾的愚蠢。我们过分兜售了一个甚至都不具有统计显著性的研究。我想换作今天这样的研究都不太可能能被发表。”

科学研究的一个基本特征是自我纠正,那么为什么还需要正式地通过实验来复现呢?如果科学按照预想的那样运作,这难道不应该是自然就会发生的吗?所有的科学结果都应该是坚实可靠的,这一点非常重要,因为一项研究的发现常常会被用来作为未来工作的起点。因此,如果这些最初的结果是错误的,或者只在某些特定条件下有效,那么就会牵连到未来的研究工作。

发表在《科学》和《自然》这样的核心期刊上的文章,不仅会推动科学进展,还会通过媒体传播给大众。酷炫有趣的研究甚至会注入流行文化,尽管这些研究的可重复性可能是个问号。

在实验经济学复现项目(EERP)中,18个复现研究中的11个具有与初始研究相同方向的显著效应,复现结果的效应的平均值是初试结果的66%。在可重复性项目:心理学(RPP)中,97个复现研究中的35个具有与初始研究相同方向的显著效应,复现结果的平均效应值是初始结果的49%。仍在进行中的可重复性项目:癌症生物学(RPCB)中,10个复现研究中的4个成功复制了初始研究中的重要部分,另有2项取得部分成功。

2. 不可重复意味着错误吗?

这是否意味着,那些无法被复现的研究结果就是错误的?并不是。其实,实验无法复现的原因多种多样。

曾经参与过可重复性研究的普林斯顿大学的计算社会科学家Matt Salganik说:“社会生活的异质性和人们在空间与时间上的多变性使得我们难以对同样事情得到相同的结果。但是这并不意味着初始的结果没有出现过,也不代表后续复现的结果没有出现过。”

现在,数以千计的研究人员会在发表研究成果之前,预先注册他们的方法论和假说,以此来阻止外界认为他们会在事后篡改数据的担忧。一般来说期刊都会要求研究人员提交他们的整个数据集和分析代码。

心理学家Brian Nosek说:“潜在的动机是真实诚恳的。科学家试图做的是发现真实的结果,而不是让结果正确,即便整个文化驱使人们追逐刺激的发现。而与之抗衡的一些价值观——透明度、严谨性、展示完整的工作,在科学群体中仍然根植于心。“

目前的研究也开始从复现研究中更清楚地确定可能的结果。有些研究复现了研究结果的方向以及有效性的量级;有些研究复现了方向但是有效量级更低一些;还有一些复现研究似乎没能出现任何结果。

出现复现了方向却没能复现出同等有效量级的情况,可能是因为诸如研究设计或报告中的任何方面等因素导致结果的有效性在初始研究中被夸大。对研究的设计、实施和报告投入更多的精力,将会在某种程度上解决这一问题。

更有趣的是那些在复现研究中没有出现任何结果的研究。这有可能是因为一些潜在的独立变量只出现在一个实验中,而没有出现在另一个实验中。重要的是,识别这些潜在的变量并了解其影响,能提供更好的机会以理解当下正在调查的现象。

例如,在一项试图复现某种药物具有延长蠕虫生命的效应失败之初,人们收获到的是绝望;但在多年以后,它却启发了由多中心的国家衰老研究所资助的隐杆线虫干预测试计划(CITP)。经过大量努力之后,作者最终证明,存在无法被任何已知的生物学知识来解释的双峰生存模式,以及药效的差异性——有些具有广泛的疗效,还有一些对不同的菌种和菌株则有不同的效果。这为那些或许能加深我们对衰老生物学理解的实验提供了起点。

3. 危机还是机遇?

眼下正进行的这项研究是非常重要的,因为它表明了即使是发表在高影响力期刊上的研究结果,同样可能无法被成功复现;因此,期刊的影响因子并不能确保研究结果的正确性。

此外,当这些作者让一个大约由400名科学家组成的群体来预测某项研究结果能否被复现时,在该项结果能否被复现与观察到的复现结果的效应值这两方面,有着良好的相关性,也就是说,群体预测正确的时候远多于错误的时候。

重要的问题依然存在。虽然这些正式的复现项目是预先注册有着详细实验拟定的前瞻性研究,但用来复现的结果的选择却并不是随机的。在另一项研究中,Peder Mortvedt Isager鉴定了85个独立的复现工作,并发现可以基于理论影响、个人兴趣、学术、公众或社会影响、方法问题等方面来考虑选择的策略。

目前的这项研究选择的是发表在《科学》和《自然》上的论文,而它们都不太可能是社会科学研究中的典型例子。正如作者指出的那样,现有的可重复性研究有着“相对小的研究样本,并包含独特的入选标准和未知的普遍性。”

然而,在不同学科都观察到的这种不可重复性,意味着引用这些研究成果的人并不能可靠地断定报告的结果是真实的。要么我们必须尝试复现所有我们想要使用的研究结果,要么我们需要找到能预测哪些研究特征与可复现的研究结果是相关联的方法,以使得报告的结果更加可信。

我们从可重复性计划了解到,如果初始研究具有较大的效应值和较小的P值(详见《“可重复性危机”引发的一场科学辩论》),那么更可能成功复现。我们可以认为具有低误差风险的活体研究更有可能被成功复现,但是目前并没有直接证据支持这一观点。令人沮丧的是,目前没有任何一个可重复性研究没考虑到了在初始研究的设计中,作者是否在某种程度上处理了可能存在的误差风险,这或许能预测成功复现的可能性。

此外,如果用于复现研究的资源有限,那么,最好通过大幅度增加(或降低)我们对大量表现出某些共同特征的研究结果的信心,将目标集中在能够做得最好的地方。

要做到这一点,需要这样一个可重复性研究——对初始研究的选择,是通过对那些有或没有感兴趣特征的研究进行的随机取样。鉴于一项复现研究将能对初始文献进行30–65%的“修正”,那么对于研究的资助者来说,这仍然代表着高回报率的研究。

当研究人员发表的作品挑战了公认的智慧时会遇到很多困难,在这样的背景下,这种工作的重要性在职业发展中很少得到认可。各种可重复性项目,作者们理应接受的喝彩,以及为这类研究开发专门的资金流,在某种程度上都是解决这种不平衡现象的方法。

以科学地方法看待复现的“失败”,实则能提供巨大的研究机会。要对这些机会加以利用通常需要各方协作,这样,这些机会或许就能转变为更加周到、更加完善的研究计划。基于这些原因,我们不该将目前关于研究的可重复性问题视为一场危机,或许更应视其为一个机会。

编译:乌鸦少年

参考链接:

https://www.nature.com/articles/s41562-018-0399-z

https://www.nature.com/articles/s41562-018-0398-0

https://www.wired.com/story/social-science-reproducibility/

https://www.sciencenews.org/blog/science-public/replication-crisis-psychology-science-studies-statistics

本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。

返回顶部