Estratificación endógena en experimentos aleatorios: posibles sesgos en la estimación de los efectos de intervenciones educativas

En los últimos años se ha observado un imponente crecimiento en el uso de técnicas de experimentación aleatoria para evaluar cuáles son los efectos de una política, programa o intervención educativa. Un experimento aleatorio consiste, en líneas generales, en aplicar un tratamiento (programa educativo, por ejemplo) sólo a una parte de la población potencial que podría beneficiarse de dicho tratamiento. La clave está en que la selección de esa fracción de la población debe ser aleatoria, es decir, al azar. Como consecuencia, la población beneficiaria potencial queda dividida en dos partes, un grupo tratado (o experimental) y un grupo no tratado (o grupo de control) donde ambos poseen las mismas características y la única diferencia entre ellos es el tratamiento. De este modo, tras aplicar el tratamiento es posible comparar directamente los resultados de ambos grupos y adjudicar las diferencias al tratamiento. Estas diferencias en los resultados son lo que se denomina el estimador de “efectos medios del tratamiento” (ATT por sus siglas en inglés). Asimismo, este tipo de experimentos también permite analizar cuál es el efecto de un tratamiento sobre diferentes subgrupos de la población, lo cual resulta de suma importancia sobre todo para los responsables de las políticas. Es necesario, en este caso, que los subgrupos se formen basándose en características inmutables o en características observadas antes de aplicar el tratamiento y que no puedan ser afectadas por este.

Sin embargo, en muchos casos los investigadores o responsables de las políticas quieren analizar cómo afecta el tratamiento a aquellos individuos más desaventajados, es decir, aquellos que sin el tratamiento hubieran obtenido los peores resultados. Para ello, se suele utilizar una técnica de estimación denominada estratificación endógena de la muestra completa[1] que consiste en predecir para cada individuo cuál hubiera sido su resultado sin el tratamiento. En general, la predicción del resultado en ausencia del tratamiento se lleva a cabo, primero regresando el resultado sobre las características iniciales del grupo de control y utilizando luego los coeficientes estimados para predecir el resultado potencial sin tratamiento del grupo experimental. En función de los resultados predichos se crean intervalos y se analiza el efecto para cada subgrupo por separado.

Sin embargo, en un reciente estudio “Endogenous Stratification in Randomized Experiments[2] los profesores Alberto Abadie, Matthew Chingos y Martin West demuestran que las estimaciones resultantes de la estratificación endógena con la muestra completa pueden estar significativamente sesgadas y, por tanto, las conclusiones en algunos casos pueden llegar a ser totalmente opuestas a las encontradas hasta el momento.

En términos generales, los autores demuestran que estimar los resultados potenciales que hubieran obtenido los individuos en ausencia del tratamiento (resultado predicho) mediante la estratificación endógena con la muestra completa del grupo de control, conduce a una sobreestimación del efecto del tratamiento para los individuos con menores resultados predichos y a una subestimación del efecto del tratamiento para los individuos con mayores resultados predichos. Para superar estos posibles problemas de sesgo los autores proponen dos estimadores alternativos para estimar el resultado potencial sin tratamiento (leave-one-out and repeated split sample estimators). En la investigación los autores demuestran teóricamente y mediante simulaciones que estas metodologías mejoran significativamente las estimaciones respecto a la estimación mediante estratificación endógena, e ilustran empíricamente los efectos del sesgo en las estimaciones mediante la comparación de los resultados que se obtendrían aplicando las diferentes metodologías en la evaluación de dos programas sociales experimentales en Estados Unidos. El primero es el National JTPA Study, un experimento que mide el impacto que tiene haber participado de un programa de capacitación laboral sobre el salario nominal durante los treinta meses siguientes de finalizado el programa. El segundo programa evaluado es el Tennessee STAR Class Size Experiment, un experimento que mide el impacto de la reducción del tamaño del aula sobre los resultados en matemáticas en educación infantil.

blog abadíeEn ambos programas los resultados son significativamente distintos si se estiman mediante estratificación endógena o mediante las nuevas metodologías propuestas por los autores. En el caso del JTPA, los resultados son directamente opuestos. Mientras que la estimación mediante estratificación endógena predice que el programa de capacitación laboral sólo tiene efectos significativos sobre el salario de los participantes del estrato con menor resultado predicho, al aplicar las dos propuestas alternativas el efecto del programa sólo resulta significativo para los individuos de mayor resultado predicho. En la evaluación del programa STAR los efectos también resultan significativamente distintos. Al estimar mediante estratificación endógena con toda la muestra, se observa un efecto significativo y positivo de la reducción del tamaño del aula sobre el test en matemáticas (medido en desviaciones estándar) en los niños de menor resultado predicho. Por el contrario, en el caso de los niños con mayor valor predicho el impacto es negativo y significativo. Es decir, que la reducción del ratio alumno/profesor tendría un efecto negativo sobre los alumnos que, en ausencia del programa STAR, obtendrían mejores resultados en matemáticas, lo cual resulta ser contra intuitivo. Sin embargo, cuando se estima el impacto del programa mediante las técnicas de leave-one-out ó repeated split sample este efecto negativo deja de ser significativo y se mantienen los efectos positivos sobre los alumnos que se espera obtengan peores resultados en ausencia del programa.En suma, el presente estudio proporciona nuevas herramientas para llevar a cabo estimaciones del impacto de programas educativos y pone de manifiesto que la metodología seleccionada para llevar a cabo la evaluación es tan importante como la adecuada implementación y diseño del experimento. En efecto, la evidencia presentada pone de manifiesto que las recomendaciones de política que surjan de una evaluación no apropiada pueden ser hasta opuestas a las efectivamente adecuadas.

Gabriela Sicilia, Universidad Complutense de Madrid. 

 Imagen de cabecera: INEE


[1] La técnica se denomina estratificación endógena ya que utiliza la información del grupo de control completo para predecir el resultado sin tratamiento.

[2]  Excede el objetivo de este post desarrollar la metodología propuesta por los autores. Para mayor detalle puede ver: Endogenous Stratification in Randomized Experiments http://www.nber.org/papers/w19742.

Más información: Vídeo del Seminario del profesor Alberto Abadíe (Universidad de Harvard)

Sobre el autor

El Instituto Nacional de Evaluación Educativa (INEE) es el organismo del Ministerio de Educación, Formación Profesional y Deportes responsable de la evaluación del sistema educativo español, misión que desarrolla en los tres ámbitos reflejados en la estructura de nuestro sitio web - Evaluaciones nacionales, Evaluaciones internacionales e Indicadores educativos - y que responde a las funciones asignadas al Instituto por la legislación vigente. El Instituto comenzó su andadura en el año 1990, cuando se denominó INCE (Instituto Nacional de Calidad Educativa) y fue en 2012 cuando adquirió la denominación actual. El INEE se encuadra dentro de la Dirección General de Evaluación y Cooperación Territorial del Ministerio.