La evidencia empírica es la información que los investigadores generan para ayudar a descubrir respuestas a preguntas que pueden tener implicaciones significativas para nuestra sociedad.
Por ejemplo, los cinturones de seguridad. Antes de su invención, la gente moría o quedaba mutilada en lo que hoy consideraríamos accidentes de tráfico menores. Así que los ingenieros inteligentes se pusieron manos a la obra para intentar hacer algo al respecto.
¡Intentemos atar a la gente! ¡Cambiemos el material del volante! ¡Pongamos una bolsa de aire que explote en el volante! (Imagínese lo descabellado que suena eso en una reunión de presentación.) Todas parecen ideas razonables (bueno, excepto la del airbag explosivo), así que ¿cómo sabemos cuál debemos hacer?
La respuesta es generar y sopesar las pruebas empíricas.
Teoría frente a pruebas empíricas
Uno puede tener una teoría sobre cómo se desarrollará algo, pero lo que uno observa o experimenta puede ser diferente de lo que una teoría podría predecir. La gente quiere saber la eficacia de todo tipo de cosas, lo que significa que tienen que ponerlas a prueba.
Los científicos sociales producen pruebas empíricas de diversas maneras para poner a prueba las teorías y medir la capacidad de A para producir un resultado esperado: B.
Por lo general, los investigadores recogen datos a través de la observación directa o indirecta, y analizan estos datos para responder a las preguntas empíricas (preguntas que se pueden responder a través de la observación).
Veamos nuestro ejemplo de la seguridad de los coches. Los ingenieros y los científicos equiparon los coches con diversos dispositivos de seguridad en varias configuraciones, luego los estrellaron contra paredes, postes y otros coches y registraron lo que sucedió. Con el tiempo, pudieron averiguar qué tipos de dispositivos de seguridad funcionaban y cuáles no. Resulta que todo eso del airbag no era tan descabellado después de todo.
No lo hicieron todo bien inmediatamente. Por ejemplo, los primeros cinturones de seguridad no eran retráctiles. Algunos airbags disparaban trozos de metal a los pasajeros. Pero, a trompicones, la seguridad de los automóviles mejoró y, aunque la gente conduce cada vez más kilómetros, cada vez mueren menos en la carretera.
Poner a prueba los efectos de, por ejemplo, una política pública en un grupo de personas nos sitúa en el territorio de las ciencias sociales.
Por ejemplo, la investigación en educación no es lo mismo que la investigación en automoción porque los niños (personas) no son coches (objetos). Sin embargo, se puede mejorar la educación intentando hacer cosas nuevas, recopilando datos sobre esos esfuerzos, analizando rigurosamente esos datos y sopesando después todas las pruebas empíricas disponibles para ver si esas cosas nuevas consiguen lo que esperamos que hagan.
Desgraciadamente, la parte del «análisis riguroso» suele faltar en la investigación educativa. En los laboratorios de los ingenieros de automóviles, se tiene mucho cuidado en cambiar sólo una parte del diseño (una variable) a la vez para que cada prueba aísle el factor individual que hace que un coche sea más o menos seguro. Bien, para esta prueba, cambiemos el material del volante y mantengamos todo lo demás igual, así sabremos si es el volante el que está dañando a la gente.
Comparar manzanas con manzanas
En las ciencias sociales y especialmente en la educación, intentar aislar las variables es un reto, pero es posible, si los investigadores pueden hacer comparaciones «de manzanas con manzanas».
La mejor manera de conseguir una comparación de manzanas con manzanas es llevar a cabo algo llamado ensayo de control aleatorio (ECA). Es posible que haya oído hablar de ellos en relación con las pruebas de medicamentos. Las pruebas de medicamentos utilizan RCTs todo el tiempo.
En un RCT educativo, los estudiantes se dividen en dos grupos mediante una lotería aleatoria y la mitad de los estudiantes reciben el «tratamiento» educativo que sea (un nuevo programa de lectura, un cambio en el enfoque de la disciplina, un vale escolar, etc.) mientras que el otro no. Los investigadores comparan los resultados de esos dos grupos y estiman el efecto del «tratamiento». Este enfoque nos permite confiar en que el efecto observado se debe a la intervención y no a otros factores.
Los ECA no siempre son posibles. A veces, los investigadores pueden acercarse utilizando sucesos aleatorios que separan a los niños en dos grupos, como los límites de los distritos escolares creados por ríos o arroyos que dividen una comunidad más o menos por casualidad o los límites de cumpleaños para el preescolar que colocan a un niño nacido el 31 de agosto en un grado, pero a uno nacido el 1 de septiembre en otro, aunque no haya básicamente ninguna diferencia entre ellos. Dependiendo de la naturaleza exacta del evento, estos pueden conocerse como análisis de «discontinuidad de la regresión» o de «variables instrumentales», y pueden ser herramientas útiles para estimar los efectos de un programa.
Los investigadores también pueden seguir a niños individuales que reciben un tratamiento si tienen datos de antes y después para ver cómo cambia la trayectoria educativa de ese niño con el tiempo. Estos se conocen como análisis de «efectos fijos».
Los tres -ensayos de control aleatorios, análisis de discontinuidad de la regresión y análisis de efectos fijos- tienen sus inconvenientes.
Muy pocos acontecimientos externos son realmente aleatorios. Si, como suele hacer el análisis de discontinuidad de la regresión, los investigadores sólo se fijan en los niños que están justo por encima o por debajo del límite, o, como suele hacer el análisis de efectos fijos, los investigadores sólo se fijan en los niños que cambian de escuela, esos niños podrían no ser representativos de la población. ¿Cómo afectaría una intervención a los niños que no están cerca del límite o de la frontera? O a los niños que no cambian de colegio?
En el SlideShare que aparece a continuación, presentamos pruebas empíricas basadas en investigaciones rigurosas sobre los programas de elección de colegio privado como ejemplo de cómo nosotros mismos, como académicos e investigadores, identificamos y caracterizamos las pruebas empíricas de alta calidad en un área de estudio determinada.
Un par de consideraciones
Es mucho lo que hay que leer, así que antes de hacerlo, nos gustaría ofrecer dos notas.
Primero, siempre es importante entender las compensaciones entre la validez interna y la externa.
La validez interna se refiere a lo bien que se realiza un estudio – nos da la confianza de que los efectos que observamos pueden atribuirse a la intervención o al programa, y no a otros factores.
Por ejemplo, cuando el gobierno federal quiso saber si el programa de vales escolares de Washington D.C. aumentaba los resultados de los estudiantes en los exámenes de lectura y matemáticas, los investigadores tomaron a los 2.308 estudiantes que solicitaron el programa y asignaron al azar a 1.387 para que recibieran vales y a 921 para que no los recibieran. Luego siguieron a los dos grupos a lo largo del tiempo, y cuando analizaron los resultados, pudieron concluir razonablemente que cualquier diferencia se debía a la oferta de un vale, porque eso es lo único que era diferente entre los dos grupos y eran diferentes sólo por el azar. Este estudio tenía una alta validez interna.
La validez externa se refiere a la medida en que podemos generalizar los resultados de un estudio a otros entornos.
Pensemos en ese mismo estudio. El programa de D.C. era único. La cantidad de dinero que reciben los estudiantes, las normas que tenían que aceptar las escuelas participantes, el tamaño del programa, su situación políticamente precaria y otros numerosos factores eran diferentes en ese programa que en otros, por no mencionar el hecho de que Washington, D.C. no es representativo de los Estados Unidos en su conjunto desde el punto de vista demográfico, político o de cualquier forma que podamos imaginar. Como resultado, tenemos que ser cautelosos cuando tratamos de generalizar los resultados. El estudio tiene menor validez externa.
Para combatir los problemas relacionados con la menor validez externa, los investigadores pueden recopilar y analizar pruebas empíricas sobre el diseño del programa para comprender su impacto. También podemos analizar múltiples estudios para ver cómo afectan a los estudiantes intervenciones similares en diferentes entornos.
En segundo lugar, el respeto y el uso de la investigación no avalan la tecnocracia. La investigación y la experiencia son increíblemente útiles. Cuando uno se sube a un avión o se dirige a un quirófano, quiere que la persona que realiza el trabajo sea un experto. La evidencia empírica puede ayudarnos a saber más sobre el mundo y a ser mejores en lo que hacemos. Pero también debemos actuar con moderación y humildad reconociendo los límites de las ciencias sociales.
Las políticas públicas implican sopesar compromisos que las ciencias sociales no pueden hacer por nosotros. Las ciencias sociales pueden decirnos que un programa aumenta los resultados de lectura, pero también aumenta la ansiedad y la depresión en los niños. ¿Debe permitirse que ese programa continúe? En última instancia, eso se reduce al juicio y los valores humanos. Eso no debe olvidarse nunca.