En los últimos años se ha observado un imponente crecimiento en el uso de técnicas de experimentación aleatoria para evaluar cuáles son los efectos de una política, programa o intervención educativa. Un experimento aleatorio consiste, en líneas generales, en aplicar un tratamiento (programa educativo, por ejemplo) sólo a una parte de la población potencial que podría beneficiarse de dicho tratamiento. La clave está en que la selección de esa fracción de la población debe ser aleatoria, es decir, al azar. Como consecuencia, la población beneficiaria potencial queda dividida en dos partes, un grupo tratado (o experimental) y un grupo no tratado (o grupo de control) donde ambos poseen las mismas características y la única diferencia entre ellos es el tratamiento. De este modo, tras aplicar el tratamiento es posible comparar directamente los resultados de ambos grupos y adjudicar las diferencias al tratamiento. Estas diferencias en los resultados son lo que se denomina el estimador de “efectos medios del tratamiento” (ATT por sus siglas en inglés). Asimismo, este tipo de experimentos también permite analizar cuál es el efecto de un tratamiento sobre diferentes subgrupos de la población, lo cual resulta de suma importancia sobre todo para los responsables de las políticas. Es necesario, en este caso, que los subgrupos se formen basándose en características inmutables o en características observadas antes de aplicar el tratamiento y que no puedan ser afectadas por este.
Sin embargo, en muchos casos los investigadores o responsables de las políticas quieren analizar cómo afecta el tratamiento a aquellos individuos más desaventajados, es decir, aquellos que sin el tratamiento hubieran obtenido los peores resultados. Para ello, se suele utilizar una técnica de estimación denominada estratificación endógena de la muestra completa[1] que consiste en predecir para cada individuo cuál hubiera sido su resultado sin el tratamiento. En general, la predicción del resultado en ausencia del tratamiento se lleva a cabo, primero regresando el resultado sobre las características iniciales del grupo de control y utilizando luego los coeficientes estimados para predecir el resultado potencial sin tratamiento del grupo experimental. En función de los resultados predichos se crean intervalos y se analiza el efecto para cada subgrupo por separado.
Sin embargo, en un reciente estudio “Endogenous Stratification in Randomized Experiments”[2] los profesores Alberto Abadie, Matthew Chingos y Martin West demuestran que las estimaciones resultantes de la estratificación endógena con la muestra completa pueden estar significativamente sesgadas y, por tanto, las conclusiones en algunos casos pueden llegar a ser totalmente opuestas a las encontradas hasta el momento.
En términos generales, los autores demuestran que estimar los resultados potenciales que hubieran obtenido los individuos en ausencia del tratamiento (resultado predicho) mediante la estratificación endógena con la muestra completa del grupo de control, conduce a una sobreestimación del efecto del tratamiento para los individuos con menores resultados predichos y a una subestimación del efecto del tratamiento para los individuos con mayores resultados predichos. Para superar estos posibles problemas de sesgo los autores proponen dos estimadores alternativos para estimar el resultado potencial sin tratamiento (leave-one-out and repeated split sample estimators). En la investigación los autores demuestran teóricamente y mediante simulaciones que estas metodologías mejoran significativamente las estimaciones respecto a la estimación mediante estratificación endógena, e ilustran empíricamente los efectos del sesgo en las estimaciones mediante la comparación de los resultados que se obtendrían aplicando las diferentes metodologías en la evaluación de dos programas sociales experimentales en Estados Unidos. El primero es el National JTPA Study, un experimento que mide el impacto que tiene haber participado de un programa de capacitación laboral sobre el salario nominal durante los treinta meses siguientes de finalizado el programa. El segundo programa evaluado es el Tennessee STAR Class Size Experiment, un experimento que mide el impacto de la reducción del tamaño del aula sobre los resultados en matemáticas en educación infantil.

Gabriela Sicilia, Universidad Complutense de Madrid.
Imagen de cabecera: INEE
[1] La técnica se denomina estratificación endógena ya que utiliza la información del grupo de control completo para predecir el resultado sin tratamiento.
[2] Excede el objetivo de este post desarrollar la metodología propuesta por los autores. Para mayor detalle puede ver: Endogenous Stratification in Randomized Experiments http://www.nber.org/papers/w19742.
Más información: Vídeo del Seminario del profesor Alberto Abadíe (Universidad de Harvard)