Les preuves empiriques sont des informations que les chercheurs génèrent pour aider à découvrir des réponses à des questions qui peuvent avoir des implications importantes pour notre société.
Prenez les ceintures de sécurité. Avant leur invention, des personnes étaient tuées ou mutilées dans ce que nous considérerions aujourd’hui comme des accidents de la route mineurs. Alors, des ingénieurs intelligents ont mis leurs têtes ensemble pour essayer de faire quelque chose à ce sujet.
Essayons d’attacher les gens ! Changeons la composition du volant ! Mettons un sac d’air explosif dans le volant ! (Imaginez à quel point cela semble fou dans une réunion de présentation.) Ces idées semblent toutes raisonnables (enfin, sauf celle de l’airbag explosif), alors comment savoir laquelle nous devrions faire ?
La réponse est de générer et de peser les preuves empiriques.
Théorie contre preuve empirique
On peut avoir une théorie sur la façon dont quelque chose va se dérouler, mais ce que l’on observe ou expérimente peut être différent de ce qu’une théorie pourrait prédire. Les gens veulent connaître l’efficacité de toutes sortes de choses, ce qui signifie qu’ils doivent les tester.
Les spécialistes des sciences sociales produisent des preuves empiriques de diverses manières pour tester les théories et mesurer la capacité de A à produire un résultat attendu : B.
En général, les chercheurs recueillent des données par l’observation directe ou indirecte, et ils analysent ces données pour répondre à des questions empiriques (questions auxquelles on peut répondre par l’observation).
Reprenons notre exemple de sécurité automobile. Des ingénieurs et des scientifiques ont équipé des voitures de divers dispositifs de sécurité dans différentes configurations, puis les ont écrasées contre des murs, des poteaux et d’autres voitures et ont enregistré ce qui s’est passé. Au fil du temps, ils ont pu déterminer quels types de dispositifs de sécurité fonctionnaient et lesquels ne fonctionnaient pas. Il s’avère que toute cette histoire d’airbag n’était pas si folle après tout.
Ils n’ont pas tout compris immédiatement. Par exemple, les premières ceintures de sécurité n’étaient pas rétractables. Certains airbags projetaient des morceaux de métal sur les passagers. Mais, par à-coups, la sécurité automobile s’est améliorée et, même si les gens parcourent de plus en plus de kilomètres, ils sont de moins en moins nombreux à mourir sur la route.
Tester les effets, par exemple, d’une politique publique sur un groupe de personnes nous place dans le territoire des sciences sociales.
Par exemple, la recherche sur l’éducation n’est pas la même que la recherche sur l’automobile parce que les enfants (personnes) ne sont pas des voitures (objets). L’éducation, cependant, peut être améliorée en tentant de nouvelles choses, en recueillant des données sur ces efforts, en analysant rigoureusement ces données et en pesant ensuite toutes les preuves empiriques disponibles pour voir si ces nouvelles choses accomplissent ce que nous espérons qu’elles fassent.
Malheureusement, la partie « analyse rigoureuse » est souvent absente de la recherche en éducation. Dans les laboratoires des ingénieurs automobiles, on prend grand soin de ne modifier qu’un élément de la conception (une variable) à la fois, afin que chaque test isole le facteur individuel qui rend une voiture plus ou moins sûre. OK, pour ce test, changeons juste le matériau du volant et gardons tout le reste identique, ainsi nous saurons si c’est le volant qui blesse les gens.
Comparer des pommes avec des pommes
En sciences sociales et particulièrement en éducation, essayer d’isoler des variables est un défi, mais possible, si les chercheurs peuvent faire des comparaisons « de pommes à pommes ».
La meilleure façon d’obtenir une comparaison de pommes à pommes est d’effectuer quelque chose appelé un essai contrôlé randomisé (ECR). Vous en avez peut-être entendu parler en relation avec les tests de médicaments. Dans un essai contrôlé randomisé sur l’éducation, les étudiants sont divisés en deux groupes par un tirage au sort aléatoire et la moitié des étudiants reçoivent le « traitement » éducatif (un nouveau programme de lecture, un changement d’approche de la discipline, un bon d’études, etc. Les chercheurs comparent les résultats de ces deux groupes et estiment l’effet du « traitement ». Cette approche nous donne la certitude que l’effet observé est dû à l’intervention et à aucun autre facteur.
Les ECR ne sont pas toujours possibles. Parfois, les chercheurs peuvent s’en approcher en utilisant des événements aléatoires qui séparent les enfants en deux groupes, comme les frontières des districts scolaires créées par des rivières ou des ruisseaux qui divisent une communauté plus ou moins par hasard ou les seuils d’anniversaire pour la maternelle qui placent un enfant né le 31 août dans une classe mais un autre né le 1er septembre dans une autre, même s’il n’y a fondamentalement aucune différence entre eux. Selon la nature exacte de l’événement, ces analyses peuvent être connues sous le nom de « discontinuité de la régression » ou de « variable instrumentale », et elles peuvent être des outils utiles pour estimer les effets d’un programme.
Les chercheurs peuvent également suivre des enfants individuels qui reçoivent un traitement s’ils disposent de données avant et après pour voir comment la trajectoire éducative de cet enfant change au fil du temps. Ces analyses sont connues sous le nom d’analyses à « effets fixes ».
Toutes ces trois méthodes – essais de contrôle randomisés, analyses de discontinuité de régression et analyses à effets fixes – ont leurs inconvénients.
Très peu d’événements extérieurs sont vraiment aléatoires. Si, comme le fait souvent l’analyse de discontinuité de la régression, les chercheurs ne s’intéressent qu’aux enfants situés juste au-dessus ou juste en dessous du seuil, ou, comme le fait souvent l’analyse des effets fixes, les chercheurs ne s’intéressent qu’aux enfants qui passent d’une école à une autre, ces enfants pourraient ne pas être représentatifs de la population. Comment une intervention affecterait-elle les enfants qui ne sont pas proches d’un seuil ou d’une frontière ? Ou les enfants qui ne changent pas d’école ?
Dans le SlideShare ci-dessous, nous présentons des preuves empiriques basées sur des recherches rigoureuses sur les programmes de choix d’écoles privées comme un exemple de la façon dont nous, en tant qu’universitaires et chercheurs nous-mêmes, identifions et caractérisons les preuves empiriques de haute qualité dans un domaine d’étude donné.
Un couple de considérations
C’est beaucoup à parcourir, alors avant de le faire, nous aimerions offrir deux notes.
Premièrement, il est toujours important de comprendre les compromis entre la validité interne et externe.
La validité interne se réfère à la façon dont une étude est menée – elle nous donne confiance que les effets que nous observons peuvent être attribués à l’intervention ou au programme, et non à d’autres facteurs.
Par exemple, lorsque le gouvernement fédéral a voulu savoir si le programme de bons scolaires de Washington, D.C. augmentait les résultats des élèves aux tests de lecture et de mathématiques, les chercheurs ont pris les 2 308 élèves qui ont demandé le programme et ont assigné au hasard 1 387 d’entre eux à recevoir des bons et 921 à ne pas en recevoir. Ils ont ensuite suivi les deux groupes au fil du temps, et lorsqu’ils ont analysé les résultats, ils ont pu raisonnablement conclure que toute différence était due à l’offre d’un bon d’achat, car c’est la seule chose qui était différente entre les deux groupes et ils n’étaient différents qu’en raison du hasard. Cette étude avait une validité interne élevée.
La validité externe fait référence à la mesure dans laquelle nous pouvons généraliser les résultats d’une étude à d’autres contextes.
Pensons à cette même étude. Le programme de D.C. était unique. La somme d’argent que les étudiants reçoivent, les règlements que les écoles participantes devaient accepter, la taille du programme, sa situation politiquement précaire et de nombreux autres facteurs étaient différents dans ce programme que dans d’autres, sans parler du fait que Washington D.C. n’est pas représentatif des États-Unis dans leur ensemble sur le plan démographique, politique ou vraiment de toutes les manières que nous pouvons imaginer. Par conséquent, nous devons être prudents lorsque nous essayons de généraliser les résultats. L’étude a une validité externe plus faible.
Pour combattre les problèmes autour d’une validité externe plus faible, les chercheurs peuvent recueillir et analyser des preuves empiriques sur la conception du programme pour comprendre son impact. Nous pouvons également examiner de multiples études pour voir comment des interventions similaires affectent les étudiants dans différents contextes.
Deuxièmement, le respect et l’utilisation de la recherche ne cautionnent pas la technocratie. La recherche et l’expertise sont incroyablement utiles. Lorsque vous montez dans un avion ou que vous vous dirigez vers une chirurgie, vous voulez que la personne qui fait le travail soit un expert. Les preuves empiriques peuvent nous aider à mieux connaître le monde et à être plus performants dans ce que nous faisons. Mais nous devons également faire preuve de retenue et d’humilité en reconnaissant les limites des sciences sociales.
La politique publique implique de peser des compromis que les sciences sociales ne peuvent pas faire pour nous. Les sciences sociales peuvent nous dire qu’un programme améliore les résultats en lecture mais augmente aussi l’anxiété et la dépression chez les enfants. Faut-il autoriser la poursuite de ce programme ? En fin de compte, cela relève du jugement et des valeurs humaines. Il ne faut jamais l’oublier.