top of page
阅读研究中级指南

在我的上一篇文章中,我写了一本阅读教育研究的初学者指南。令我惊讶的是,它最终成为我有史以来第二受欢迎的文章,并且我收到了多个编写中级指南的请求。在本文中,我将尝试做到这一点。但是,由于我假设读者已经阅读了我的第一篇文章,因此我将尝试解决有关子主题的一些细微差别,而不是逐步解释人们应该如何解释文献。话虽如此,我不会写高级指南,因为我觉得没有资格这样做。在过去的几年里,我一直在研究和谈论基于证据的教育,因为我运行了这个博客、播客,并写了一本关于这个主题的书。但是,归根结底,我不是教授,我没有博士学位。我只是一个书呆子老师。我确实认为总体上如何阅读科学存在严重的误解,而这个系列是我试图为普通人增加一点清晰度的尝试。

 

 通货膨胀问题:

在教育研究中,我们倾向于看到夸大的效应量。平均而言,教育研究产生的影响大小为 0.40。相比之下,我们在运动科学和营养研究中看到,大多数影响大小都低于 0.20。由于安慰剂干预的平均效应量为 0.20,因此许多领域的研究在跨越 0.20 障碍并证明自己优于安慰剂的那一刻被认为是相关的。然而,在教育领域,绝大多数研究表明效果远高于 .20. 

 

这里可能有许多因素夸大了教育研究的平均效应大小。迪伦威廉向我指出的一个这样的因素是“文件抽屉问题”。 “文件抽屉问题”是研究人员不愿发表结果微不足道的研究的显着现象。事实上,这就是为什么一些更有声望的研究人员预先注册他们的研究,以便他们的事业在开始之前就记录在案。然而,据我所知,大多数研究人员不会预先注册他们的研究。 

 

另一个问题可能与一般教育研究的质量有关。由于教育大多被视为一门艺术而不是一门科学,因此在教育研究的质量方面存在一定的不足。事实上,这在较早的论文中似乎尤其是一个更明显的问题。许多教育论文没有对照组,样本量小,持续时间过长。这通常会大大夸大效果大小的大小。 

 

此外,还有我称之为结构因素的东西。一般而言,我们看到结构化的干预措施比没有结构化的干预措施具有更大的效果。例如,直接指导优于基于探究的学习,基于探究的学习优于基于问题的学习,基于问题的学习优于基于发现的学习。话虽如此,大多数甚至有对照组的研究都没有为对照组分配特定的教学干预或策略。所以我们最终得到的是结构化教学组与非结构化教学组的对比,而结构化教学组几乎总是优于非结构化教学组。 

 

由于所有这些原因,我认为教育研究人员应该采取这样的心态,即教育安慰剂的效应大小应该被认为是 0.40,而不是 0.20。话虽如此,我认为可能会有时间和地点来实施影响较小的干预措施。最终,我参与这项研究的原因是意识到教育干预存在机会成本。您在课堂上所做的一切都需要时间,无论是在学习曲线上还是在实施上,这就是为什么使用高收益策略很重要的原因。然而,不同策略的时间成本并不完全相同。我宁愿建议一种影响小到中等的超低时间成本策略,而不是一种时间成本极高、影响中等到高的教学策略。尽管最终,我认为最好的策略是那些既易于实施又高收益的策略。我们也许可以将这种范式称为影响时间比率。 

 

质量问题:

正如您在这一点上无疑意识到的那样,并非所有研究都是平等创建的。然而,在荟萃分析中,我们对不同质量水平的研究给予同等重视。不幸的是,研究论文的质量越高或结构越结构化,效应量往往越低。这可能是因为我们正在消除干预中的一些安慰剂影响。如前所述,对照组研究的效应量往往低于没有对照组的研究。话虽如此,有许多不同的对照组设计,都旨在减少干预结果的一些随机性。

 

实验设计的黄金标准是随机对照试验。这意味着人们被随机分配到对照组和实验组。这是为了阻止研究人员做一些不道德的事情,比如把所有最强的学生都放在实验组里。但是,有时使用的更好的设计(在我看来)涉及基于测试分数的分组。所以你要确保对照组和实验组的平均预测试分数相同。 

 

如前所述,结构几乎总是胜过较少的结构。这就是为什么一些研究人员不只是让对照组没有结构,而是将对照组中的教师分配给特定的替代干预,并给予两组平等的培训。例如,与其有一个拼音小组和一个非结构化小组,不如有一个拼音小组和一个平衡的识字小组。这种方法可能更公平,特别是如果两组都不知道他们是对照组还是实验组。然而,采用这种设计的研究往往具有非常低的效应量。最终,我们进行得越公平,研究设计越结构化,结果往往越低。 

 

由于这些原因,一些学者会反对解释不太严格的研究设计的荟萃分析。在某些情况下,他们可能是对的。您更愿意看一项进行得很好的研究还是 4 项进行得很差的研究?不幸的是,有几个原因使这种还原论方法不太有用。首先,许多教育主题背后没有任何高质量的研究,因此,如果我们仅将假设仅建立在有高质量研究的领域上,我们就会强迫自己不要对大多数文献采取任何立场。然而,这并不反映科学过程。一个更具反思性的立场是承认证据总是流动的,永远不会完美,并认识到我们只能用可能性的程度来说话,而不是绝对的。话虽如此,当我们在多项高质量研究和荟萃分析中发现高产量时,我们可以合理地确定该策略是高产量。然而,当我们有多项做得不好但产量很高的研究时,一个更具反思性的陈述可能是“根据我们现在拥有的证据,该策略似乎是基于证据的,但需要更多高质量的研究。”_cc781905- 5cde-3194-bb3b-136bad5cf58d_

 

忽略低质量研究的另一个问题是它迫使我们忽略大多数较早的研究。 80 年代和 90 年代的研究很少有随机对照试验或统计校正的测试组,如果我们忽视这项研究,我们最终不得不放弃大量的研究。这可能有一天是可取的,但在教育领域,我们没有足够的高质量研究基础来实现这一点。最后,我们对教育研究中效应量的理解主要来自低质量的研究。由于大多数研究质量低下,因此进行的自然比较是对教育研究中影响大小的正常范围的上下文理解。

 

赞助问题:

在研究中,我们经常看到特定方进行的研究得到了特定的结果。与推广相同策略的研究人员相比,对特定策略持批评态度的 IE 研究人员往往会获得更少的积极结果。当然,这就是我们尝试使用严格的研究设计来纠正这种偏见的原因。但是,这并不总是有效。例如,我最近对 LLI 主题进行了自己的元分析。在这个荟萃分析中,我遇到了一个机构为支持 LLI 所做的一系列实验。这些论文,尽管看起来是关于该主题的最出色的论文,但始终显示出优于所有其他关于该主题的研究的结果。更糟糕的是,尽管研究所实验是唯一严格进行的实验,但我还是有一些可靠性问题,因为我在他们的论文中注意到了几个奇怪的统计异常。

 

示例问题: 

平均而言,大样本量往往比小样本量产生更多的标准化结果。由于较小的样本量会扭曲 SD 计算,因此它会使数据看起来或多或少地随机化。例如,假设我们有 6 个样本,所有学生得到的结果彼此相差 5%,这将产生极低的 SD 和极高的效果大小。现在让我们假设在适当的样本量内,我们会看到大多数学生的平均结果范围在 10% 以内,异常值在任一方向的范围都高达 40%。如果我们有另一个样本量为 6 的研究并且我们得到两个大的异常值,那么我们的 SD 将突然变得非常高,而 ES 将非常低。由于这些原因,在计算样本太少的研究的 ES 时,有时最好从具有类似设计的大样本研究中借用假设 SD。当然,总的来说,我们可能不应该高度重视样本量低于 20 的研究。

 

大小不是我们在检查样本时必须考虑的唯一考虑因素,因为不同的人口统计数据往往会产生不同的结果。总的来说,我们看到年轻学生比年长学生进步得更快,部分原因是他们的课程更基础。事实上,我们还看到不同的教育干预措施可能对不同年级的学生产生截然不同的结果。例如,语音干预往往在学前班和 2 年级之间产生最大的结果。而基于问题的学习往往对 12 年级或以上的学生产生最好的结果。由于这些原因,将不属于目标人群的研究纳入荟萃分析可能是不合适的。最后关于样本的话题,我们看到处于弱势人口统计数据的学生,即贫困社区的学生,报告的结果往往低于来自富裕社区的学生。 

 

影响大小计算的类型: 

虽然 Cohen 的 d 可能是教育研究中最常用的效应量,但它并不是唯一使用的。 Hedge 的 g 也常用于教育研究,旨在对较小样本量的结果进行标准化。 Hedge 的 g 是通过将结果除以合并的 SD 来计算的。当对照组与实验组的偏差有很大差异时,建议使用 Glass 的 Delta,它只使用对照组的 SD。在检查两个变量的影响以确定相关性时,使用 Pearson 效应大小。例如,如果您想检查父母收入和学生成绩之间的相关性,您可以使用 Pearson 计算。虽然所有这些计算都不同,但它们旨在在特定情况下使用,并在标准解释内标准化结果。一些作者批评荟萃分析包括不同类型的效应量计算的研究;然而,由于所有这些计算的解释都是一样的,我不能说我同意这些批评。有时,作者不使用效应量计算,而是使用 T 值或 p 值,这些检验用于在考虑变异程度时确定显着性的可能性。他们本质上是在尝试测量研究结果可能是随机噪声的程度。 

 

比较问题:

所以这当然引出了一个问题,我们如何比较低质量和高质量的研究,如果它们产生不同的效果大小?现实是谦逊的。虽然文献状况远非完美,但我们必须与现有的研究合作。是的,荟萃分析中包含的高质量研究平均会降低效应量,是的,低质量研究平均会提高效应量。但是我们应该只从概率的角度来检查研究,而不是绝对的。此外,并非所有控制良好的研究的效果大小都低于 0.40,而所有控制不佳的研究的效果大小都高于 0.70。事实上,我遇到过多项效果大于 1 的做得好的研究和多项效果小于 0.2 的做得不好的研究。最终,我们只需要了解所有这些都会影响荟萃分析的可能结果,因此应该提高我们的信心。 

 

理想情况下,样本量可以纠正所有错误。以语音为例。 Phonics 是文献中研究最多的主题之一,进行了 1000 多项研究。在个别研究中,我看到低于 0.20 和高于 1.0 的结果;然而,在荟萃分析中,我看到的结果范围要窄得多。我能想到的 phonics 的最低荟萃分析效应量发现效应量为 0.4,最高约为 0.8;然而,大多数关于该主题的荟萃分析发现效果大小在 0.40-0.70 的相对较小范围内。 John Hattie 对该主题进行了最大的荟萃分析,发现效应量为 0.60。当关于该主题的绝大多数荟萃分析一致发现语音具有中等大的影响时,我有信心说语音具有中等积极的结果。 

 

有些人会争辩说,研究中的可变性程度表明我们需要忽视荟萃分析,而专注于解析每个主题中结构最好的研究;但是,出于几个原因,我不同意这种方法。首先,即使在结构良好的研究中,我们仍然看到很大的可变性。人类状况很复杂,确定人为干预的效果具有挑战性。其次,它忽略了大部分研究。但最后也是最重要的是,我认为在去民主化研究中。 

 

没有荟萃分析,我们在很大程度上只能依靠善良和杰出的学者为其他所有人解释文献的能力,可以说是“舞台上的圣人”。然而,这种方法的问题在于它需要个别教师找到值得信赖的学者来为他们解释证据。这在很大程度上是理解文学的最流行的方法。然而,受欢迎的通常不是最有见识的学者,而是最擅长营销的学者。正是这种实践和信仰体系让伪科学实践(例如从教学到学习方式)开始在我们的领域内流行起来。 

 

当我们使用元分析时,我们使教师能够快速轻松地解释文献中不同教学干预措施的效果。如果我完全诚实,我认为这就是元分析有时在该领域受到批评的真正原因教育之中。元分析有能力证明人们毕生致力于推广和研究的教学法是徒劳的。此外,它降低了所有渴望成为“舞台上的圣人”的学者的重要性,因为它使人们能够为自己解释文学作品,而无需花费一生阅读所有已发表的研究。

订阅表格

感谢提交!

7052091873

  • Facebook
  • Twitter
  • LinkedIn

©2021 Pedagogy Non Grata。
在 Pedagogy Non Grata,我们很自豪能为您免费提供高质量的教育研究。但是,服务器费用不是免费的。如果您喜欢我们的研究,请考虑在我们的 Patreon 页面上捐款,以帮助我们继续免费提供更多内容:https://www.patreon.com/user?u=70587114

bottom of page