心理复制失败不是由于研究人群的差异

在心理学研究中复制结果的大规模努力已经拒绝了这样的说法，即未能重现社会科学发现可能归因于研究人群的差异。

这项运动招募了世界各地的实验室，以尝试复制28个经典和当代心理学实验的结果。使用严格的显着性阈值（P <0.0001，P值是判断科学证据强度的常用检验），成功复制了一半。

该计划对六大洲的人口进行了抽样调查，研究小组表示，其总体发现表明，参与者群体的文化或背景对于能否复制结果并不重要。

受到审查

近年来，研究结果（尤其是心理学）的可重复性受到了审查。数种努力试图重复在各个领域发表的发现，但结果却好坏参半。

最新的一项研究称为Many Labs 2，是由弗吉尼亚州夏洛茨维尔市开放科学中心的心理学家Brian Nosek领导的。Nosek和他的同事设计他们的项目是为了解决对先前复制工作的主要批评-包括有关采样的问题以及断言研究协议可能无法在可重复性尝试中正确进行的主张。

研究人员获得了每个实验中使用的原始材料，并要求专家“在许多情况下，研究的原始作者”事先审查了他们的实验方案。然后，在36个国家和地区的60个不同的实验室重新进行了每个实验，提供的合并样本量平均比原始样本大62倍。这项工作的结果今天以预印本1的形式发布，并计划在《心理科学的方法和实践进展》中发表。

诺瑟克说：“我想解决一个普遍的反应，即复制当然会失败，因为条件发生了变化，人们也有所不同。”“这是一种可能的解释，但不是令人满意的解释，因为我们不知道为什么这种差异很重要。”

即使在这些条件下，也只能复制28个实验中只有14个的结果，研究人员确定研究人群的多样性对失败的影响很小。诺塞克说：“失败的人往往到处都失败。”

对于成功的复制尝试，情况更加复杂。对于这些研究，结果表明不同的复制尝试之间存在一些差异，但总体而言，差异较小。

Nosek说：“发生了异质性，但并不像我们想象的那么大，也不是为什么某些研究无法重复的合理解释。”“结束了显而易见的替代解释之一。” / p>

在心理学的六次大规模复制中，Many Labs 2是最新的一次。它专注于一系列研究，其他大型可重复性项目都未曾研究过这些研究。

其中包括经典研究，例如心理学家Daniel Kahneman 1981关于框架效应的工作2，一种认知偏见的形式，人们根据特定选择的呈现方式对特定选择做出不同的反应（该研究被成功复制），以及现代研究，包括Yoel Inbar在2009年的研究表明，更有可能感到厌恶感的人倾向于同性恋。

重复Inbar研究的尝试以严格的显着性标准失败，这使Nosek感到惊讶。“泪对那件事有很高的信心，因为它与我研究自己的事情有关。”？/ p>

Inbar是加拿大多伦多士嘉堡大学的心理学家，曾参加Many Labs 2，他也为自己的工作未能复制而感到惊讶，但他并不质疑结果。他说：“由于最初的样本量很小，否则态度可能会随着时间的推移而发生变化。”

英巴（Inbar）说，他的原始研究也有缺点。例如，他使用了最初由同事收集的数据进行另一项研究。

近年来，对可重复性的关注意味着Inbar和许多心理学家一样，已经改变了他的工作方式，以期获得更可靠的结果。他说：“在过去的日子里，我永远不会接受这样的机会主义的二级分析。”

诸如Nosek之类的复制项目无法确定一个领域的总体复制率，因为选择用于复制的研究不是代表性的样本。他们也没有回答“泛滥”复制率是多少的问题。研究人员的目标并不是获得完美的成绩。Nosek说：“在最初发现的结果上实现100％的可重复性将意味着我们太保守了，并且不够努力。”

之前的许多实验室项目4成功复制了13项研究中的10项，而其他项目发现复制率低至36％。在这6项大规模研究中共进行了190项研究，其中90项被成功复制，成功率为47％。

对于Inbar来说，这似乎太低了。他说：“我们只有一次大样本复制的机会，感觉不对。”

但是德国维尔茨堡大学的心理学家弗里茨·斯特克（Fritz Strack）不确定这样的复制项目是否揭示了任何有关心理学状态的有用信息。他说，相反，每次复制都可以告诉我们更多有关可能影响结果的信息。而不是宣布另一个经典发现是“积极”？复制者应该确定在什么条件下可以获得和不能获得效果。

Nosek指出，正在进行的复制工作很重要，其原因有两个：确保复制结果本身可复制，并解决对以前工作的批评，就像这样做一样。他说：“科学进步的方式是：证据，批评，更多的证据来检验批评的可行性。”