Un guide intermédiaire de la recherche en lecture
Dans mon dernier article, j'ai écrit un guide du débutant sur la recherche en éducation à la lecture. À ma grande surprise, cela a fini par être mon deuxième article le plus populaire et j'ai reçu plusieurs demandes pour écrire un guide intermédiaire. Dans cet article, je vais essayer de faire exactement cela. Cependant, comme je suppose que les lecteurs auront déjà lu mon premier article, je vais essayer d'aborder certaines des nuances concernant les sous-sujets, plutôt que d'expliquer étape par étape, comment les gens devraient interpréter la littérature. Cela étant dit, je n'écrirai pas de guide avancé, car je ne me sens pas qualifié pour le faire. J'ai passé les dernières années à faire des recherches et à parler de l'éducation fondée sur des preuves, alors que je dirigeais ce blog, un podcast et écrivais un livre sur le sujet. Cependant, en fin de compte, je ne suis pas professeur, je ne suis pas titulaire d'un doctorat. Je ne suis qu'un professeur ringard. Je pense qu'il y a un grave malentendu sur la façon de lire la science en général et cette série a été ma tentative d'ajouter un peu de clarté pour la personne moyenne.
Le problème de l'inflation :
Dans la recherche en éducation, nous avons tendance à voir des tailles d'effet exagérées. En moyenne, les études sur l'éducation produisent une taille d'effet de 0,40. Comparativement, nous voyons dans la science de l'exercice et la recherche nutritionnelle, la plupart des tailles d'effet sont inférieures à 0,20. Comme la taille moyenne de l'effet d'une intervention placebo est de 0,20, la recherche dans de nombreux domaines est considérée comme pertinente dès qu'elle franchit cette barrière de 0,20 et se révèle meilleure qu'un placebo. Cependant, en éducation la grande majorité des études montrent un effet bien supérieur à .20.
Il y a probablement de nombreux facteurs ici qui gonflent la taille moyenne de l'effet dans la recherche en éducation. L'un de ces facteurs, comme Dylan William me l'a fait remarquer, est le «problème du tiroir à dossiers». Le « problème du tiroir à dossiers » est le phénomène noté des chercheurs qui ne prennent pas la peine de publier des études avec des résultats insignifiants. En effet, c'est pourquoi certains des chercheurs les plus réputés pré-enregistrent leurs études, afin que leurs engagements soient consignés avant de commencer. Cependant, à ma connaissance, la plupart des chercheurs ne pré-enregistrent pas leurs études.
Un autre problème est probablement lié à la qualité des études en éducation en général. Étant donné que l'éducation a été principalement considérée comme un art et non comme une science, il existe un certain déficit en termes de qualité des études en éducation. En effet, cela semble être un problème particulièrement prononcé dans les articles plus anciens. De nombreux articles sur l'éducation n'ont pas de groupe de contrôle, des échantillons de petite taille et des durées excessivement longues. Cela a généralement tendance à exagérer énormément la taille des tailles d'effet.
De plus, il existe ce que j'appellerais le facteur de structure. En général, nous constatons que les interventions plus structurées ont des tailles d'effet plus importantes que les interventions qui ne le sont pas. Par exemple, l'instruction directe surpasse l'apprentissage basé sur l'enquête, l'apprentissage basé sur l'enquête surpasse l'apprentissage basé sur les problèmes et l'apprentissage basé sur les problèmes surpasse l'apprentissage basé sur la découverte. Cela étant dit, la plupart des études qui ont même un groupe témoin n'attribuent aucune intervention ou stratégie d'enseignement spécifique au groupe témoin. Donc, ce que nous finissons par avoir, c'est un groupe d'enseignement structuré par rapport à un groupe d'enseignement non structuré et seul le groupe structuré surpasse presque toujours le groupe non structuré.
Pour toutes ces raisons, je pense que les chercheurs en éducation devraient adopter l'état d'esprit selon lequel la taille de l'effet d'un placebo en éducation devrait être considérée comme étant de 0,40 et non de 0,20. Cela étant dit, je pense qu'il pourrait y avoir un moment et un lieu pour mettre en œuvre des interventions avec des tailles d'effet plus petites. En fin de compte, la raison pour laquelle je me suis lancé dans cette recherche était la prise de conscience qu'il y a un coût d'opportunité aux interventions éducatives. Tout ce que vous faites dans votre classe prend du temps, tant dans sa courbe d'apprentissage que dans sa mise en œuvre, c'est pourquoi il est important d'utiliser des stratégies à haut rendement. Cependant, les coûts en temps des différentes stratégies ne sont pas tous égaux. Je suggérerais plutôt une stratégie à très faible coût en temps avec un impact faible à modéré, qu'une stratégie d'enseignement avec un coût en temps extrêmement élevé et un impact modéré à élevé. Bien qu'en fin de compte, je pense que les meilleures stratégies sont celles qui sont à la fois faciles à mettre en œuvre et à haut rendement. Nous pouvons peut-être appeler ce paradigme le rapport impact/temps.
Le problème de qualité :
Comme vous le savez sans doute à ce stade, toutes les études ne sont pas créées de la même manière. Cependant, dans la méta-analyse, nous accordons un poids égal aux études de différents niveaux de qualité. Malheureusement, plus un document de recherche est de qualité ou structuré, plus la taille de l'effet a tendance à être faible. C'est peut-être parce que nous supprimons certains des effets placebo de l'intervention. Comme indiqué précédemment, les études avec groupe témoin ont tendance à avoir des tailles d'effet plus faibles que les études sans groupe témoin. Cela étant dit, il existe de nombreux modèles de groupes de contrôle différents, tous visant à réduire une partie du caractère aléatoire des résultats de l'intervention.
L'étalon-or des conceptions expérimentales est un essai contrôlé randomisé. Cela signifie que les personnes sont assignées au hasard au groupe témoin et au groupe expérimental. Cela vise à empêcher les chercheurs de faire des choses sans scrupules comme mettre tous les étudiants les plus forts dans le groupe expérimental. Cependant, une conception encore meilleure (à mon avis) qui est parfois utilisée consiste à baser des groupes sur la base des résultats des tests. Assurez-vous donc que le groupe témoin et le groupe expérimental ont les mêmes scores moyens au pré-test.
Comme indiqué précédemment, la structure bat presque toujours moins de structure. C'est pourquoi certains chercheurs, plutôt que de laisser le groupe témoin sans structure, assignent les enseignants du groupe témoin à une intervention alternative spécifique et donnent aux deux groupes une formation égale. Par exemple, plutôt que d'avoir un groupe phonics et un groupe non structuré, avoir un groupe phonics et un groupe d'alphabétisation équilibré. Ce type d'approche est probablement plus juste, surtout si aucun des deux groupes ne sait s'il s'agit du groupe témoin ou du groupe expérimental. Cependant, les études avec cette conception ont tendance à avoir des tailles d'effet très faibles. En fin de compte, plus la conception d'une étude est menée équitablement et structurée, plus les résultats ont tendance à être faibles.
Pour ces raisons, certains chercheurs s'opposeraient à une méta-analyse qui rend compte de plans d'étude moins rigoureux. Et dans certains cas, ils pourraient avoir raison. Préférez-vous regarder une étude très bien menée ou 4 études très mal menées ? Malheureusement, plusieurs raisons rendent cette approche réductionniste moins utile. Premièrement, de nombreux sujets d'éducation n'ont pas d'études de haute qualité derrière eux, donc si nous ne basons nos hypothèses que sur des domaines où il existe des études de haute qualité, nous nous forçons à ne pas prendre position sur peut-être la plupart de la littérature. Cependant, cela ne reflète pas le processus scientifique. Une position plus réfléchie serait de reconnaître que les preuves sont toujours fluides, jamais parfaites, et d'être conscient que nous ne pouvons parler qu'en degrés de possibilités, pas en absolus. Cela étant dit, lorsque nous avons un rendement élevé trouvé dans plusieurs études de haute qualité et dans une méta-analyse, nous pouvons être raisonnablement certains que la stratégie est à rendement élevé. Alors que, lorsque nous avons plusieurs études mal faites, avec un rendement élevé, une déclaration plus réfléchie pourrait être "la stratégie semble fondée sur des preuves, selon les preuves dont nous disposons actuellement, mais il doit y avoir plus de recherche de haute qualité."_cc781905- 5cde-3194-bb3b-136bad5cf58d_
Un autre problème lié au fait d'ignorer la recherche de qualité inférieure est que cela nous oblige à ignorer la majorité des recherches plus anciennes. Très peu d'études des années 80 et 90 ont des essais contrôlés randomisés ou des groupes de test corrigés statistiquement et si nous ignorons cette recherche, nous finissons par devoir jeter une grande partie de notre corpus de recherche. Cela pourrait être un jour souhaitable, mais dans le domaine de l'éducation, nous n'avons pas suffisamment de base de recherche de haute qualité pour que cela soit faisable. Enfin, notre compréhension des tailles d'effet dans la recherche en éducation provient en grande partie d'études de faible qualité. Comme la plupart des recherches sont de faible qualité, les comparaisons naturelles sont faites avec la compréhension contextuelle de la fourchette normale des tailles d'effet dans la recherche en éducation.
Le problème du parrainage :
Dans le cadre de la recherche, nous voyons souvent des recherches menées par des parties spécifiques obtenir des résultats spécifiques. Les chercheurs en IE qui critiquent une stratégie spécifique ont tendance à obtenir des résultats moins positifs que les chercheurs qui promeuvent la même stratégie. Bien sûr, c'est pourquoi nous essayons d'utiliser des plans d'étude rigoureux, pour corriger ce biais. Cependant, cela ne fonctionne pas toujours. Par exemple, j'ai récemment mené ma propre méta-analyse du sujet LLI. Dans cette méta-analyse, je suis tombé sur une série d'expériences réalisées par un institut en faveur de LLI. Ces articles, malgré les articles apparemment les plus bien faits sur le sujet, ont toujours montré des résultats bien supérieurs à toutes les autres études menées sur le sujet. Pour aggraver les choses, malgré le fait que les expériences de l'institut étaient les seules expériences rigoureusement menées, j'avais quelques soucis de fiabilité, car j'ai noté plusieurs anomalies statistiques étranges dans leurs articles.
L'exemple de problème :
Les échantillons de grande taille ont en moyenne tendance à produire des résultats plus normalisés que les échantillons de petite taille. Comme des tailles d'échantillon plus petites peuvent fausser un calcul SD, les données peuvent sembler plus ou moins aléatoires qu'elles ne le sont en réalité. Par exemple, disons que nous avons un échantillon de 6 et que tous les étudiants obtiennent un résultat à moins de 5% les uns des autres, cela créera un SD extrêmement faible et une taille d'effet extrêmement élevée. Maintenant, disons que dans une taille d'échantillon appropriée, nous verrions que la plupart des étudiants ont en moyenne une plage de résultats à moins de 10%, avec des valeurs aberrantes allant jusqu'à 40% dans les deux sens. Si nous avons une autre étude avec une taille d'échantillon de 6 et que nous obtenons deux grandes valeurs aberrantes, alors notre SD deviendra soudainement extrêmement élevé et l'ES sera extrêmement faible. Pour ces raisons, il peut parfois être préférable d'emprunter un SD hypothétique, à partir d'une étude de conception similaire avec un échantillon de grande taille, lors du calcul de l'ES d'une étude avec un trop petit échantillon. Bien sûr, en général, nous ne devrions probablement pas accorder une grande importance aux études dont la taille des échantillons est inférieure à 20.
La taille n'est pas la seule considération que nous devons prendre en compte lors de l'examen des échantillons, car différentes données démographiques ont tendance à avoir des résultats différents. Dans l'ensemble, nous constatons que les élèves plus jeunes progressent beaucoup plus rapidement que les élèves plus âgés, en partie parce que leur programme est plus élémentaire. En effet, nous constatons également que différentes interventions éducatives peuvent avoir des résultats radicalement différents sur différentes classes d'élèves. Par exemple, les interventions phoniques ont tendance à avoir de loin les résultats les plus importants entre la maternelle et la 2e année. Alors que l'apprentissage par problèmes a tendance à avoir les meilleurs résultats sur les élèves de 12e année ou plus. Pour ces raisons, il est probablement inapproprié d'inclure dans une méta-analyse des études qui ne proviennent pas de ce qui devrait être le groupe démographique ciblé. Enfin, en ce qui concerne l'échantillon, nous constatons que les étudiants des groupes démographiques défavorisés, c'est-à -dire les quartiers pauvres, ont tendance à avoir des résultats inférieurs à ceux des étudiants des quartiers riches.
Types de calculs de taille d'effet :
Bien que le d de Cohen soit probablement la taille d'effet la plus couramment utilisée dans la recherche en éducation, ce n'est pas la seule utilisée. Le g de Hedge est également couramment utilisé dans la recherche en éducation et vise à normaliser les résultats pour des échantillons de plus petite taille. Le g de Hedge est calculé en divisant les résultats par l'écart-type regroupé. Lorsque le groupe témoin présente des écarts sensiblement différents par rapport au groupe expérimental, le Delta de Glass est recommandé à la place, qui n'utilise que l'écart-type du groupe témoin. Une taille d'effet Pearson est utilisée lors de l'examen de l'effet de deux variables pour déterminer la corrélation. Par exemple, vous utiliseriez un calcul de Pearson si vous vouliez examiner la corrélation entre le revenu des parents et les résultats des étudiants. Bien que tous ces calculs soient différents, ils sont destinés à être utilisés dans des circonstances spécifiques et à normaliser les résultats dans le cadre d'une interprétation standard. Certains auteurs critiquent les méta-analyses qui incluent des études avec différents types de calculs de taille d'effet ; cependant, comme tous ces calculs sont censés être interprétés de la même manière, je ne peux pas dire que je suis d'accord avec la critique. Parfois, au lieu d'utiliser un calcul de taille d'effet, les auteurs utilisent une valeur T ou une valeur p, ces tests sont utilisés pour déterminer la probabilité de signification, lors de la prise en compte du degré de variabilité. Ils essaient essentiellement de mesurer dans quelle mesure les résultats de l'étude pourraient être un bruit aléatoire.
Le problème de comparaison :
Donc, bien sûr, tout cela soulève la question, comment comparer la recherche de faible qualité et de haute qualité, si elles génèrent des tailles d'effet différentes ? La réalité est avec humilité. Bien que l'état de la littérature soit loin d'être parfait, nous devons travailler avec les recherches dont nous disposons. Oui, les études de haute qualité incluses dans la méta-analyse réduiront en moyenne la taille de l'effet et oui, les études de faible qualité augmenteront en moyenne la taille de l'effet. Mais nous ne devrions jamais examiner la recherche qu'en degrés de probabilités, et non en absolus. De plus, ce n'est pas comme si toutes les études bien contrôlées avaient des tailles d'effet inférieures à 0,40 et que toutes les études mal contrôlées avaient des tailles d'effet supérieures à 0,70. En effet, j'ai rencontré plusieurs études bien faites avec des tailles d'effet supérieures à 1 et plusieurs études mal faites avec des tailles d'effet inférieures à 0,2. En fin de compte, il suffit de comprendre que tout cela influence le résultat possible de la méta-analyse et doit donc tempérer nos confidences.
Idéalement, la taille de l'échantillon corrige toutes les erreurs. Prenez la phonétique par exemple. La phonétique est l'un des sujets les plus étudiés dans la littérature, avec plus de 1000 études menées. Dans des études individuelles, j'ai vu des résultats inférieurs à 0,20 et supérieurs à 1,0 ; cependant, dans la méta-analyse, j'ai vu une gamme de résultats beaucoup plus étroite. La taille d'effet de méta-analyse la plus basse à laquelle je puisse penser pour la phonétique a trouvé une taille d'effet de 0,4 et la plus élevée était d'environ 0,8 ; cependant, la majorité des méta-analyses sur le sujet ont trouvé une taille d'effet dans la fourchette relativement petite de 0,40 à 0,70. La plus grande méta-analyse sur le sujet a été réalisée par John Hattie et a trouvé une taille d'effet de 0,60. Lorsque la grande majorité des méta-analyses sur le sujet trouvent systématiquement que la phonétique a une taille d'effet modérément importante, je suis confiant en disant que la phonétique a un résultat modérément positif.
Certains diront que le degré de variabilité au sein de la recherche suggérerait que nous devons ignorer la méta-analyse et nous concentrer sur l'analyse des meilleures études construites dans chaque sujet ; cependant, je ne suis pas d'accord avec cette approche pour plusieurs raisons. Premièrement, même au sein d'études bien construites, nous constatons toujours une grande variabilité. La condition humaine est complexe et il est difficile de déterminer l'effet d'une intervention humaine. Deuxièmement, il escompte la majorité de la recherche. Mais enfin et surtout, à mon avis dé-démocratise la recherche.
Sans méta-analyse, nous devons en grande partie compter sur la capacité d'érudits bienveillants et brillants à interpréter la littérature pour tout le monde, le "sage sur scène" pour ainsi dire. Cependant, le problème avec cette approche est qu'elle oblige les enseignants à trouver des universitaires dignes de confiance pour interpréter les preuves à leur place. Cela a été en grande partie la méthode la plus populaire pour comprendre la littérature. Cependant, ce ne sont généralement pas les universitaires les plus informés qui gagnent en popularité, mais plutôt ceux qui sont les meilleurs en marketing. C'est cette pratique et ce système de croyance qui ont permis à des pratiques pseudo-scientifiques telles que l'enseignement aux styles d'apprentissage de devenir populaires dans notre domaine pour commencer.
Lorsque nous utilisons la méta-analyse, nous donnons aux enseignants les moyens d'interpréter rapidement et facilement l'efficacité des différentes interventions pédagogiques dans la littérature. Si je suis parfaitement honnête, je pense que c'est la véritable raison pour laquelle la méta-analyse est parfois critiquée dans le domaine de l'éducation. La méta-analyse a la capacité de prouver que les pédagogies que les gens ont passé leur vie à promouvoir et à rechercher sont futiles. De plus, cela diminue l'importance de tous ces universitaires qui ont aspiré à être le «sage sur scène», car cela permet aux gens d'interpréter la littérature par eux-mêmes, sans passer leur vie à lire chaque étude publiée.