Evaluación de Programas: Medición y Seguimiento de Resultados - Rossi, Lipsey y Freeman (PDF)

Summary

Este documento presenta un capítulo de un libro sobre evaluación de programas sociales. Describe los componentes clave del proceso de medir y monitorear el impacto de un programa en la población objetivo, abordando cuestiones como la fiabilidad, validez y sensibilidad de las medidas para evaluar resultados.

Full Transcript

Traducido del inglés al español - www.onlinedoctranslator.com 7 Medición y seguimiento de los resultados del programa Esquema del capítulo Resultados del programa...

Traducido del inglés al español - www.onlinedoctranslator.com 7 Medición y seguimiento de los resultados del programa Esquema del capítulo Resultados del programa Nivel de resultado, cambio de resultado y efecto neto Identificación de resultados relevantes Perspectivas de las partes interesadas Teoría del impacto del programa Investigaciones previas Resultados no deseados Medición de los resultados del programa Procedimientos y propiedades de medición Fiabilidad Validez Selección de medidas de resultados según la sensibilidad Monitoreo de los resultados del programa Indicadores para el seguimiento de resultados Dificultades en el seguimiento de resultados Interpretación de los datos de resultados En el capítulo anterior se analizó cómo se puede supervisar el proceso y el desempeño de un programa. Sin embargo, el objetivo último de todos los programas no es simplemente que funcionen bien, sino que produzcan cambios, es decir, que afecten de manera beneficiosa a algún problema o condición social. Las condiciones modificadas son los resultados o productos previstos de los programas. Evaluar el grado en que un programa produce estos resultados es una función fundamental de los evaluadores. Los resultados previstos de un programa se identifican normalmente en la teoría del impacto del programa. La medición sensible y válida de esos resultados es técnicamente difícil, pero esencial para evaluar el éxito de un programa. Además, el seguimiento continuo de los resultados puede ser fundamental para una gestión eficaz del programa. Sin embargo, la interpretación de los resultados de la medición y el seguimiento de los resultados presenta un desafío para las partes interesadas porque un conjunto determinado de resultados puede ser 177 producidos por factores distintos de los procesos del programa. En este capítulo se describe cómo se pueden identificar los resultados del programa, cómo se pueden medir y monitorear, y cómo se pueden interpretar adecuadamente. A Evaluar los efectos de un programa sobre los clientes a los que sirve y las condiciones sociales que pretende mejorar es la medida más importante. La evaluación es una tarea crítica porque se ocupa de la cuestión de “resultado final” de los programas sociales. No importa lo bien que un programa aborde las necesidades de los destinatarios, incorpore un buen plan de ataque, llegue a su población destinataria y preste servicios aparentemente apropiados; no se puede juzgar que haya tenido éxito a menos que realmente produzca algún cambio beneficioso en su ámbito social. Por lo tanto, medir ese cambio beneficioso no es sólo una función central de la evaluación, sino también una actividad de alto riesgo para el programa. Por estas razones, es una función que los evaluadores deben cumplir con sumo cuidado para asegurarse de que los hallazgos sean válidos y se interpreten correctamente. Por estas mismas razones, es una de las tareas más difíciles y, a menudo, políticamente cargadas que emprende el evaluador. Comenzando en este capítulo y continuando a través deCapítulo 10, consideramos la mejor manera de identificar los cambios que se espera que produzca un programa, cómo diseñar medidas de estos cambios y cómo interpretar dichas medidas. La consideración de los efectos del programa comienza con el concepto de un programaresultado,Así que primero discutimos ese concepto fundamental. Resultados del programa Unresultadoes el estado de la población destinataria o las condiciones sociales que se espera que haya cambiado un programa. Por ejemplo, la cantidad de fumadores entre los adolescentes después de la exposición a una campaña antitabaco en su escuela secundaria es un resultado. Las actitudes hacia el tabaquismo de aquellos que aún no habían comenzado a fumar también son un resultado. De manera similar, la "preparación escolar" de los niños después de asistir a un programa preescolar sería un resultado, al igual que el peso corporal de las personas que completaron un programa de pérdida de peso, las habilidades de gestión del personal de negocios después de un programa de capacitación en gestión y la cantidad de contaminantes en el río local después de una ofensiva por parte de la agencia de protección ambiental local. Observe dos cosas sobre estos ejemplos. En primer lugar, los resultados son características observadas de la población destinataria o de las condiciones sociales, no del programa, y la definición de resultado no hace referencia directa a las acciones del programa. Aunque los servicios prestados a los participantes del programa se describen a menudo como “productos” del programa,resultados,tal como se define aquí, debe relacionarse con labeneficiosEstos productos o servicios pueden tener para los participantes, no sólo su recepción. Por lo tanto, “recibir terapia familiar de apoyo” no es un resultado del programa en nuestros términos, sino, más bien, la prestación de un servicio del programa. De manera similar, proporcionar comidas a 100 personas mayores confinadas en sus hogares no es un resultado del programa; es la prestación de un servicio, un aspecto del proceso del programa. Los beneficios nutricionales de esas comidas para la salud de los ancianos, por otro lado, son resultados, como lo son las mejoras en su moral, la calidad de vida percibida y el riesgo de lesiones por intentar cocinar para sí mismos. Dicho de otra manera, los resultados siempre se refieren a características que, en principio, podrían observarse en individuos o situaciones que no han recibido servicios del programa. Por ejemplo, podríamos evaluar la cantidad de 178 El tabaquismo, la preparación escolar, el peso corporal, las habilidades de gestión y la contaminación del agua en situaciones relevantes en las que no hubo intervención del programa. De hecho, como veremos más adelante, podríamos medir los resultados en estas situaciones para compararlos con aquellas en las que se implementó el programa. En segundo lugar, el concepto de resultado, tal como lo definimos, no significa necesariamente que los objetivos del programa hayan cambiado realmente o que el programa haya hecho que cambiaran de alguna manera. Es posible que la cantidad de fumadores que fuman los adolescentes de secundaria no haya cambiado desde que comenzó la campaña antitabaco y que nadie haya perdido peso durante su participación en el programa de adelgazamiento. También puede haber un cambio, pero en la dirección opuesta a la esperada: los adolescentes pueden haber aumentado su consumo de tabaco y los participantes del programa pueden haber ganado peso. Además, lo que haya ocurrido puede haber sido el resultado de algo distinto a la influencia del programa. Tal vez el programa de adelgazamiento se llevó a cabo durante una temporada de vacaciones en la que la gente era propensa a abusar de los dulces. O tal vez los adolescentes redujeron su consumo de tabaco como reacción a la noticia de la muerte relacionada con el tabaquismo de una celebridad popular de la música rock. El desafío para los evaluadores, entonces, es evaluar no sólo los resultados que realmente se obtienen, sino también el grado en que cualquier cambio en los resultados es atribuible al programa en sí. Nivel de resultado, cambio de resultado y efecto neto Las consideraciones anteriores conducen a importantes distinciones en el uso del términoresultado: Nivel de resultadoes el estado de un resultado en algún momento en el tiempo (por ejemplo, la cantidad de tabaquismo entre los adolescentes). Cambio de resultadoses la diferencia entre los niveles de resultados en diferentes puntos del tiempo. Efecto del programaes aquella parte de un cambio de resultado que puede atribuirse únicamente a un programa y no a la influencia de algún otro factor. Considere el gráfico en7-A, que representa gráficamente los niveles de una medida de resultado a lo largo del tiempo. El eje vertical representa unvariable de resultadorelevante para un programa que deseamos evaluar. Una variable de resultado es una característica o condición mensurable de la población objetivo de un programa que podría verse afectada por las acciones del programa. Puede ser la cantidad de tabaquismo, el peso corporal, la preparación para la escuela, el grado de contaminación del agua o cualquier otro resultado que se ajuste a la definición anterior. El eje horizontal representa el tiempo, específicamente, un período que va desde antes de que se implementara el programa para su población objetivo hasta algún tiempo después. La línea sólida en el gráfico muestra el nivel de resultado promedio de un grupo de personas que recibieron los servicios del programa. Tenga en cuenta que su estado a lo largo del tiempo no se representa como una línea horizontal recta, sino como una línea que se mueve. Esto es para indicar que no se espera que el tabaquismo, la preparación para la escuela, las habilidades de gestión y otras dimensiones de resultados similares permanezcan constantes; cambian como resultado de muchas causas naturales y circunstancias bastante ajenas al programa. El tabaquismo, por ejemplo, tiende a aumentar desde la preadolescencia hasta la adolescencia. Los niveles de contaminación del agua pueden fluctuar según la actividad industrial en la región y las condiciones climáticas, por ejemplo, lluvias intensas que diluyen las concentraciones. Si medimos la variable de resultado (más sobre esto en breve), podemos determinar qué tan alto o bajo se encuentra el grupo objetivo con respecto a esa variable, por ejemplo, cuánto fuman o cuánto están preparados para la escuela. 179 nos dice elnivel de resultado,A menudo se denomina simplemente resultado. Cuando se mide después de que la población destinataria ha recibido los servicios del programa, nos dice algo sobre cómo le va a esa población: cuántos adolescentes fuman, el nivel promedio de preparación escolar entre los niños en edad preescolar, cuántos contaminantes hay en el agua. Si todos los adolescentes fuman, podemos sentirnos decepcionados y, a la inversa, si ninguno fuma, podemos sentirnos satisfechos. Sin embargo, por sí solos, estos niveles de resultados no nos dicen mucho sobre la eficacia del programa, aunque pueden limitar las posibilidades. Si todos los adolescentes fuman, por ejemplo, podemos estar bastante seguros de que el programa antitabaco no fue un gran éxito y posiblemente incluso fue contraproducente. Si ninguno de los adolescentes fuma, ese hallazgo es un fuerte indicio de que el programa ha funcionado porque no esperaríamos que todos dejaran de fumar espontáneamente por sí solos. Por supuesto, estos resultados extremos rara vez se encuentran y, en la mayoría de los casos, los niveles de resultados por sí solos no pueden interpretarse con confianza como indicadores del éxito o el fracaso de un programa. miPROHIBIR7-A Nivel de resultado, cambio de resultado y efecto del programa Si medimos los resultados en nuestra población objetivo antes y después de que participen en el programa, podemos describir más que el nivel de resultado, también podemos discernir el resultado.cambiar.Si el gráfico enAnexo 7-ASi se representara gráficamente la preparación escolar de los niños en un programa preescolar, se vería que los niños muestran menos preparación antes de participar en el programa y mayor preparación después, un cambio positivo. Incluso si su preparación escolar después del programa no fue tan alta como los maestros de preescolar esperaban que fuera, la dirección del cambio antes y después muestra que hubo una mejora. Por supuesto, a partir de esta información únicamente, en realidad no sabemos si el programa preescolar tuvo algo que ver con la mejora de la preparación escolar de los niños. Los niños en edad preescolar están en un período de desarrollo en el que sus habilidades cognitivas y motoras aumentan con bastante rapidez a través de procesos de maduración normales. También pueden intervenir otros factores; por ejemplo, sus padres pueden leerles y apoyar de otra manera su desarrollo intelectual y su preparación para ingresar a la escuela, y eso puede explicar al menos parte de su mejora. La línea discontinua enAnexo 7-Amuestra la trayectoria de la variable de resultado que se habría observado si los participantes del programa no hubieran recibido el programa. Para los niños en edad preescolar, por ejemplo, la línea discontinua muestra cómo habría aumentado su preparación escolar si no hubieran asistido al programa preescolar. 180 La línea continua muestra cómo se desarrolló la preparación escolar cuando estaban en el programa. Una comparación de las dos líneas indica que la preparación escolar habría mejorado incluso sin la exposición al programa, pero no tanto. La diferencia entre el nivel de resultados obtenidos con la participación en el programa y el que las mismas personas habrían obtenido de no haber participado en él es la parte del cambio en el resultado que produjo el programa. Se trata de la parte del resultado que no se habría producido sin el programa que se denomina valor añadido o ganancia neta. A ese incremento lo denominamos efecto del programa o, alternativamente, impacto del programa. Es la única parte del resultado por la que el programa puede atribuirse el mérito. La estimación del efecto del programa, o evaluación del impacto, es la tarea de investigación evaluativa más exigente. Las dificultades se destacan en7-A, donde el efecto del programa se muestra como la diferencia entre el resultado que realmente se produjo y el resultado que se habría producido en ausencia del programa. Por supuesto, es imposible observar simultáneamente los resultados para las mismas personas (u otras entidades) en condiciones en las que reciben y no reciben un programa. Por lo tanto, debemos observar el resultado después de la participación en el programa y luego, de alguna manera, estimar cuál habría sido ese resultado sin el programa. Debido a que este último resultado es hipotético para las personas que, de hecho, recibieron el programa, debe inferirse en lugar de medirse u observarse. Desarrollar inferencias válidas en estas circunstancias puede ser difícil y costoso.Capítulos 8y9Describir las herramientas metodológicas que los evaluadores tienen disponibles para esta desafiante tarea. Aunque los niveles de resultados y los cambios en los resultados tienen usos bastante limitados para determinar los efectos de un programa, son de cierto valor para los administradores y patrocinadores a la hora de supervisar el desempeño del programa. Esta aplicación se analizará más adelante en este capítulo. Por ahora, continuaremos nuestra exploración del concepto de resultado analizando cómo se pueden identificar, definir y medir los resultados a los efectos de la evaluación. Identificación de resultados relevantes El primer paso para desarrollar medidas de los resultados del programa es identificar de manera muy específica qué resultados son candidatos relevantes para la medición. Para ello, el evaluador debe tener en cuenta las perspectivas de las partes interesadas sobre los resultados esperados, los resultados que se especifican en la teoría del impacto del programa y las investigaciones previas pertinentes. El evaluador también deberá prestar atención a los resultados no previstos que pueda producir el programa. Perspectivas de las partes interesadas Los distintos participantes del programa tienen su propia interpretación de lo que se supone que debe lograr el programa y, en consecuencia, de los resultados que esperan que produzca. Las fuentes de información más directas sobre estos resultados esperados suelen ser los objetivos, las metas y la misión establecidos del programa. Las propuestas de financiación y las subvenciones o contratos de servicios de patrocinadores externos también suelen identificar los resultados que se espera que el programa influya. Una dificultad común con la información proveniente de estas fuentes es la falta de la especificidad y concreción necesarias para identificar claramente las medidas de resultados específicas. Por lo tanto, a menudo es responsabilidad del evaluador traducir la información de entrada. 181 de las partes interesadas en una forma viable y negociar con ellas para garantizar que las medidas de resultados resultantes capten sus expectativas. Para los fines del evaluador, una descripción del resultado debe indicar la característica, conducta o condición pertinente que se espera que el programa cambie. Sin embargo, como veremos en breve, puede ser necesario especificar y diferenciar más a medida que el evaluador pasa de esta descripción a la selección o desarrollo de medidas de este resultado.Anexo 7-BPresenta ejemplos de descripciones de resultados que normalmente serían útiles para fines de evaluación. Teoría del impacto del programa Una articulación completa de la teoría del impacto del programa, como se describe enCapítulo 5, es especialmente útil para identificar y organizar los resultados del programa. Una teoría del impacto expresa los resultados de los programas sociales como parte de un modelo lógico que conecta las actividades del programa con resultados próximos (inmediatos) que, a su vez, se espera que conduzcan a otros resultados más distantes. Si se describe correctamente, esta serie de relaciones vinculadas entre los resultados representa las suposiciones del programa sobre los pasos críticos entre los servicios del programa y los beneficios sociales finales que el programa pretende producir. Por lo tanto, es especialmente importante que el evaluador recurra a esta parte de la teoría del programa al identificar los resultados que se deben considerar para la medición. Anexo 7-Cmuestra varios ejemplos de la parte de los modelos de lógica de programa que describe la teoría del impacto (se encuentran ejemplos adicionales enCapítulo 5). A los efectos de la evaluación de resultados, es útil reconocer el carácter diferente de los resultados más próximos y más distantes en estas secuencias. Los resultados próximos son aquellos que se espera que los servicios del programa afecten de manera más directa e inmediata. Estos pueden considerarse como los resultados “para llevar”: aquellos que los participantes del programa experimentan como resultado directo de su participación y se llevan consigo cuando se van. Para la mayoría de los programas sociales, estos resultados próximos son psicológicos: actitudes, conocimiento, conciencia, habilidades, motivación, intenciones de comportamiento y otras condiciones similares que son susceptibles de una influencia relativamente directa por parte de los procesos y servicios de un programa. miPROHIBIR7-B Ejemplos de resultados descritos con suficiente precisión para poder medirlos Delincuencia juvenil Conducta de jóvenes menores de 18 años que constituye un delito punible según las leyes aplicables, independientemente de si las autoridades detectan los delitos o si el joven es detenido por el delito. Contacto con compañeros antisociales Interacciones amistosas y pasar tiempo con uno o más jóvenes de aproximadamente la misma edad que regularmente participan en conductas que son ilegales y/o perjudiciales para los demás. Uso constructivo del tiempo libre Participar en conductas que tengan valor educativo, social o personal durante el tiempo libre fuera del trabajo. 182 escuela y trabajo. Calidad del agua La ausencia de sustancias en el agua que sean nocivas para las personas y otros organismos vivos que beben el agua o tienen contacto con ella. Descarga de residuos tóxicos La liberación de sustancias que se sabe que son nocivas al medio ambiente desde una instalación industrial de una manera que probablemente exponga a las personas y a otros organismos vivos a esas sustancias. Capacidad cognitiva Desempeño en tareas que involucran pensamiento, resolución de problemas, procesamiento de información, lenguaje, imágenes mentales, memoria e inteligencia general. Preparación para la escuela Capacidad de los niños para aprender en el momento en que ingresan a la escuela; específicamente, la salud y el desarrollo físico, el desarrollo social y emocional, las habilidades lingüísticas y de comunicación, y las habilidades cognitivas y el conocimiento general que permiten que un niño se beneficie de la participación en la escolarización formal. Actitudes positivas hacia la escuela El gusto del niño por la escuela, sentimientos positivos acerca de asistir y voluntad de participar en actividades escolares. Los resultados proximales rara vez son los resultados finales que el programa pretende generar, como se puede ver en los ejemplos de7-CEn este sentido, no son los resultados más importantes desde una perspectiva social o de políticas. Sin embargo, esto no significa que se los deba pasar por alto en la evaluación. Estos resultados son los que el programa tiene mayor capacidad de afectar, por lo que puede ser muy informativo saber si se logran. Si el programa no logra producir estos resultados más inmediatos y directos, y la teoría del programa es correcta, entonces es poco probable que se produzcan los resultados más distales de la secuencia. Además, los resultados proximales son generalmente los más fáciles de medir y atribuir a los esfuerzos del programa. Si el programa tiene éxito en generar estos resultados, es apropiado que reciba crédito por ello. Los resultados más distales, que son más difíciles de medir y atribuir, pueden arrojar resultados ambiguos. Tales resultados serán más equilibrados e interpretables si se dispone de información sobre si se lograron los resultados proximales. miPROHIBIR7-C Ejemplos de teorías sobre el impacto de los programas que muestran los efectos esperados de los programas en los resultados proximales y distales 183 No obstante, los resultados más distantes suelen ser los que tienen mayor importancia práctica y política. Por ello, es especialmente importante identificar y describir con claridad los que cabe esperar razonablemente que resulten de las actividades del programa. El valor de desarrollar cuidadosamente la teoría del impacto para estos fines es que proporciona la base para evaluar qué resultados son realmente razonables, dada la naturaleza del programa. Sin embargo, en general, un programa tiene una influencia menos directa sobre los resultados distales en su teoría de impacto. Además, los resultados distales también están influenciados por muchos otros factores fuera del control del programa. Esta circunstancia hace que sea especialmente importante definir los resultados distales esperados de una manera que se alinee lo más estrechamente posible con los aspectos de las condiciones sociales que las actividades del programa pueden afectar. Consideremos, por ejemplo, un programa de tutoría para niños de escuela primaria que se centra principalmente en la lectura, con la intención de aumentar el rendimiento educativo. Los resultados de rendimiento educativo definidos para una evaluación de este programa deben distinguir entre aquellos estrechamente relacionados con las habilidades de lectura y aquellas áreas, como las matemáticas, que tienen menos probabilidades de ser influenciadas por lo que el programa está haciendo realmente. Investigaciones previas Al identificar y definir los resultados, el evaluador debe examinar en profundidad las investigaciones previas sobre cuestiones relacionadas con el programa que se está evaluando, especialmente las investigaciones de evaluación sobre programas similares. 184 El hecho de que los resultados hayan sido examinados en otros estudios puede llamar la atención sobre resultados relevantes que de otro modo podrían haber pasado desapercibidos. También será útil determinar cómo se han definido y medido los distintos resultados en investigaciones anteriores. En algunos casos, existen definiciones y medidas relativamente estándar que tienen una importancia política establecida. En otros casos, puede haber problemas conocidos con ciertas definiciones o medidas que el evaluador deberá conocer. Resultados no deseados Hasta ahora, hemos estado considerando cómo identificar y definir los resultados que las partes interesadas esperan que produzca el programa y los que son evidentes en la teoría de impacto del programa. Sin embargo, puede haber resultados imprevistos significativos de un programa que no se identificarán a través de estos medios. Estos resultados pueden ser positivos o negativos, pero su característica distintiva es que surgen a través de algún proceso que no forma parte del diseño ni de la intención directa del programa. Esa característica, por supuesto, hace que sea muy difícil anticiparlos. En consecuencia, el evaluador a menudo debe hacer un esfuerzo especial para identificar cualquier resultado imprevisto potencial que podría ser significativo para evaluar los efectos del programa sobre las condiciones sociales que aborda. Las investigaciones previas pueden ser especialmente útiles en este tema. Puede haber resultados que otros investigadores hayan descubierto en circunstancias similares que puedan alertar al evaluador sobre posibles efectos imprevistos del programa. En este sentido, no sólo son relevantes otras investigaciones de evaluación, sino también cualquier investigación sobre la dinámica de las condiciones sociales en las que interviene el programa. Las investigaciones sobre la evolución del consumo de drogas y las vidas de los consumidores, por ejemplo, pueden proporcionar pistas sobre las posibles respuestas a una intervención del programa que el plan del programa no ha tenido en cuenta. A menudo, se puede encontrar buena información sobre posibles resultados no deseados en los relatos de primera mano de personas que están en condiciones de observar esos resultados. Por esta razón, así como por otras que hemos mencionado en otras partes de este texto, es importante que el evaluador tenga un contacto sustancial con el personal del programa en todos los niveles, los participantes del programa y otros informantes clave que tengan una perspectiva sobre el programa y sus efectos. Si los resultados no deseados tienen alguna consecuencia, debe haber alguien en el sistema que esté al tanto de ellos y que, si se le pregunta, pueda alertar al evaluador sobre ellos. Estas personas pueden no presentar esta información en el lenguaje de los resultados no deseados, pero sus descripciones de lo que ven y experimentan en relación con el programa serán interpretables si el evaluador está alerta a la posibilidad de que pueda haber efectos importantes del programa que no estén articulados en la lógica del programa o previstos por los principales interesados. Medición de los resultados del programa No todos los resultados identificados mediante los procedimientos que hemos descrito tendrán la misma importancia o relevancia, por lo que el evaluador no necesariamente necesita medirlos todos para realizar una evaluación. En cambio, puede ser apropiado seleccionar algunos. Además, algunos resultados importantes (por ejemplo, los de muy largo plazo) pueden ser bastante difíciles o costosos de medir y, en consecuencia, puede que no sea factible incluirlos en la evaluación. Una vez que se han elegido los resultados relevantes y se dispone de una descripción completa y cuidadosa de cada uno de ellos, el evaluador debe afrontar la cuestión de cómo medirlos. La medición de resultados es una cuestión de representar 185 Las circunstancias definidas como resultado por medio de indicadores observables que varían sistemáticamente con los cambios o diferencias en esas circunstancias. Algunos resultados del programa tienen que ver con circunstancias relativamente simples y fáciles de observar que son prácticamente unidimensionales. Un resultado esperado de un programa de seguridad industrial, por ejemplo, podría ser que los trabajadores usen sus gafas de seguridad en el lugar de trabajo. Un evaluador puede capturar este resultado bastante bien para cada trabajador en un momento dado con una simple observación y registro de si se usan o no las gafas y, al hacer observaciones periódicas, ampliar la observación para indicar con qué frecuencia se usan. Sin embargo, muchos resultados importantes del programa no son tan simples como determinar si un trabajador usa anteojos de seguridad. Para representar plenamente un resultado, puede ser necesario considerarlo como multidimensional y diferenciar múltiples aspectos del mismo que sean relevantes para los efectos que el programa intenta producir.7-BPor ejemplo, el programa ofrece una descripción de la delincuencia juvenil en términos de delitos legalmente punibles cometidos. Sin embargo, los delitos punibles cometidos por jóvenes tienen varias dimensiones distintas que podrían verse afectadas por un programa que intente reducir la delincuencia. Para empezar, es probable que tanto la frecuencia de los delitos como la gravedad de esos delitos sean relevantes. El personal del programa no estaría feliz de descubrir que había reducido la frecuencia de los delitos, pero que los que todavía se cometían eran ahora mucho más graves. De manera similar, puede ser necesario tener en cuenta el tipo de delito. Un programa centrado en el abuso de drogas, por ejemplo, puede esperar que los delitos relacionados con las drogas sean el resultado más relevante, pero también puede ser sensato examinar los delitos contra la propiedad, porque los drogadictos pueden cometerlos para financiar sus compras de drogas. Otras categorías de delitos pueden ser relevantes, pero menos, y obscurecería distinciones importantes agrupar todos los tipos de delitos como una única medida de resultados. La mayoría de los resultados son multidimensionales en este sentido; es decir, tienen diversas facetas o componentes que el evaluador puede tener que tener en cuenta. En general, el evaluador debe pensar en los resultados de la manera más completa posible para asegurarse de que no se pase por alto ninguna dimensión importante. Esto no significa que todos deban recibir la misma atención o incluso que todos deban incluirse en la cobertura de las medidas de resultados seleccionadas. La cuestión es, más bien, que el evaluador debe considerar la gama completa de dimensiones potencialmente relevantes antes de determinar las medidas finales que se utilizarán.Anexo 7-DPresenta varios ejemplos de resultados con diversos aspectos y dimensiones desglosados. Una de las consecuencias de las múltiples dimensiones de los resultados del programa es que una sola medida de resultados puede no ser suficiente para representar su carácter completo. En el caso de los delitos cometidos por jóvenes, por ejemplo, la evaluación podría utilizar medidas de frecuencia de los delitos, gravedad, tiempo transcurrido hasta el primer delito después de la intervención y tipo de delito como una batería de medidas de resultados que intentarían representar plenamente este resultado. De hecho, las múltiples medidas de resultados importantes del programa ayudan al evaluador a evitar pasar por alto un logro importante del programa debido a una estrategia de medición limitada que deja fuera dimensiones de resultados relevantes. miPROHIBIR7-D Ejemplos de las múltiples dimensiones y aspectos que constituyen los resultados Delincuencia juvenil 186 Número de delitos punibles cometidos durante un período determinado Gravedad de los delitos Tipo de delito: violento, delito contra la propiedad, delitos relacionados con drogas, otros Tiempo transcurrido hasta el primer delito a partir de una fecha de índice Respuesta oficial al delito: contacto con la policía o arresto; sentencia, condena o disposición judicial Descarga de residuos tóxicos Tipo de residuo: químico, biológico; presencia de toxinas específicas Toxicidad, nocividad de las sustancias de desecho Cantidad de residuos vertidos durante un período determinado Frecuencia de vertido Proximidad de descarga a zonas pobladas Tasa de dispersión de toxinas a través de acuíferos, atmósfera, cadenas alimentarias y similares. Actitudes positivas hacia la escuela Gusto por el profesor Gusto por los compañeros de clase Gusto por las actividades escolares Disposición para ir a la escuela Participación voluntaria en actividades escolares La diversificación de las medidas también puede proteger contra la posibilidad de que las medidas de bajo rendimiento subrepresentarán los resultados y, al no medir los aspectos del resultado que más afecta un programa, harán que éste parezca menos eficaz de lo que es en realidad. Por ejemplo, en el caso de los resultados que dependen de la observación, puede ser útil contar con más de un observador para evitar los sesgos asociados a cualquiera de ellos. Por ejemplo, un evaluador que estuviera evaluando el comportamiento agresivo de los niños con sus compañeros podría querer las observaciones de los padres, del maestro y de cualquier otra persona que esté en posición de ver una parte significativa del comportamiento del niño. En la figura 1 se presenta un ejemplo de medidas múltiples.7-E. miPROHIBIR7-E Múltiples medidas de resultados Una intervención comunitaria para prevenir el consumo de tabaco entre los adolescentes en Oregón incluyó actividades antitabaco para los jóvenes (por ejemplo, entrega de carteles y camisetas) y actividades de comunicación familiar (por ejemplo, folletos para los padres). En la evaluación de impacto, los resultados se midieron de diversas maneras: Resultados para los jóvenes 187 Actitudes hacia el consumo de tabaco Conocimiento sobre el tabaco Informes de conversaciones sobre tabaco con los padres. Intenciones calificadas de fumar o masticar tabaco. Si fumó o masticó tabaco durante el último mes y, de ser así, ¿cuánto? Resultados para los padres Conocimiento sobre el tabaco Actitudes hacia la prevención comunitaria del consumo de tabaco Actitudes hacia el consumo de tabaco Intenciones de hablar con los niños sobre no consumir tabaco Informes de conversaciones con sus hijos sobre no consumir tabaco FUENTE: Adaptado de A. Biglan, D. Ary, H. Yudelson, TE Duncan, D. Hood, L. James, V. Koehn, Z. Wright, C. Black, D. Levings, S. Smith y E. Gaiser, “Experimental Evaluation of a Modular Approach to Mobilizing Antitobacco Influences of Peers and Parents” (Evaluación experimental de un enfoque modular para movilizar las influencias antitabaco de pares y padres).Revista Americana de Psicología Comunitaria,1996, 24(3):311-339. De este modo, la medición múltiple de resultados importantes puede proporcionar una cobertura más amplia del concepto y permitir que las fortalezas de una medida compensen las debilidades de otra. También puede ser posible combinar estadísticamente múltiples medidas en una única medida compuesta, más sólida y válida, que sea mejor que cualquiera de las medidas individuales tomadas por separado. En un programa para reducir la fecundidad familiar, por ejemplo, los cambios en el tamaño deseado de la familia, la adopción de prácticas anticonceptivas y el número promedio deseado de hijos podrían medirse y usarse en combinación para evaluar el resultado del programa. Incluso cuando las medidas deben limitarse a un número menor del que podría requerir una cobertura integral, es útil que el evaluador elabore todas las dimensiones y variaciones para hacer una selección meditada entre las alternativas factibles. Procedimientos y propiedades de medición Los datos sobre los resultados de los programas tienen relativamente pocas fuentes básicas: observaciones, registros, respuestas a entrevistas y cuestionarios, pruebas estandarizadas, aparatos de medición física y similares. La información de esas fuentes se convierte en medición cuando se operacionaliza, es decir, se genera a través de un conjunto de operaciones o procedimientos sistemáticos específicos. La medición de muchas variables de resultados en la evaluación utiliza procedimientos e instrumentos que ya están establecidos y aceptados para esos fines en las respectivas áreas del programa. Esto es especialmente cierto para los resultados más distantes y relevantes para las políticas. En la atención de la salud, por ejemplo, las tasas de morbilidad y mortalidad y la incidencia de enfermedades o problemas de salud se miden de formas relativamente estandarizadas que difieren principalmente según la naturaleza del problema de salud en cuestión. El rendimiento académico se mide convencionalmente con pruebas de rendimiento estandarizadas y promedio de calificaciones. Las ocupaciones y la situación laboral se evalúan comúnmente por medio de medidas desarrolladas por el 188 Oficina del Censo. Para otros resultados, puede haber varios instrumentos o procedimientos de medición ya preparados, pero hay poco consenso sobre cuáles son los más apropiados para fines de evaluación. Esto es especialmente cierto para resultados psicológicos como la depresión, la autoestima, las actitudes, las capacidades cognitivas y la ansiedad. En estas situaciones, la tarea del evaluador es generalmente hacer una selección apropiada entre las opciones disponibles. En esta decisión se deben sopesar consideraciones prácticas, como cómo se administra el instrumento y cuánto tiempo lleva. Sin embargo, la consideración más importante es qué tan bien una medida ya preparada se ajusta a lo que el evaluador quiere medir. Tener una descripción cuidadosa del resultado que se va a medir, como se ilustra en 7-B, será útil para tomar esta determinación. También será útil que el evaluador haya diferenciado las distintas dimensiones del resultado que son relevantes, como se ilustra en7-D. Cuando se utilizan instrumentos de medición ya preparados, es especialmente importante asegurarse de que sean adecuados para representar adecuadamente el resultado de interés. Una medida no es necesariamente apropiada sólo porque el nombre del instrumento, o la etiqueta dada al constructo que mide, sea similar a la etiqueta dada al resultado de interés. Diferentes instrumentos de medición para el “mismo” constructo (por ejemplo, autoestima, actitudes ambientales) a menudo tienen contenidos y orientaciones teóricas bastante diferentes que les dan un carácter que puede o no coincidir con el resultado del programa de interés una vez que ese resultado se describe cuidadosamente. Para muchos de los resultados que interesan a los evaluadores no existen medidas establecidas ni una gama de medidas ya elaboradas entre las que elegir. En estos casos, el evaluador debe desarrollar las medidas. Lamentablemente, rara vez se dispone de tiempo y recursos suficientes para hacerlo adecuadamente. Algunos procedimientos de medición ad hoc, como la extracción de información pertinente específica de registros oficiales de calidad conocida, son lo suficientemente sencillos como para considerarse una práctica de medición aceptable sin necesidad de una demostración adicional. Sin embargo, otros procedimientos de medición, como los cuestionarios, las escalas de actitudes, las pruebas de conocimientos y los esquemas sistemáticos de codificación observacional, no son tan sencillos. Construir tales medidas de modo que midan lo que se supone que deben medir de manera consistente a menudo no es fácil. Debido a esto, existen procedimientos de desarrollo de mediciones bien establecidos para hacerlo que involucran una serie de consideraciones técnicas y generalmente requieren una cantidad significativa de pruebas piloto, análisis, revisión y validación antes de que una medida recientemente desarrollada pueda usarse con confianza (ver, por ejemplo, DeVellis, 2003; Nunnally y Bernstein, 1994). Cuando un evaluador debe desarrollar una medida sin pasar por estos pasos y controles, la medida resultante puede ser razonable en la superficie pero no necesariamente funcionará bien para fines de evaluar con precisión los resultados del programa. Cuando es necesario desarrollar medidas ad hoc para una evaluación sin la posibilidad de que ese desarrollo se haga de manera sistemática y técnicamente adecuada, es especialmente importante comprobar sus propiedades de medición básicas antes de asignarles un peso en una evaluación. De hecho, incluso en el caso de medidas ya elaboradas y procedimientos aceptados para evaluar determinados resultados, es conveniente confirmar que las medidas respectivas funcionan bien para la situación específica a la que se aplicarán. Hay tres propiedades de medición de particular importancia: fiabilidad, validez y sensibilidad. Fiabilidad 189 ElfiabilidadLa fiabilidad de una medida es el grado en que la medida produce los mismos resultados cuando se utiliza repetidamente para medir lo mismo. La variación de esos resultados constituye un error de medición. Así, por ejemplo, una báscula postal es fiable en la medida en que informe la misma "puntuación" (peso) para el mismo sobre en diferentes ocasiones. Ningún instrumento de medición, sistema de clasificación o procedimiento de recuento es perfectamente fiable, pero los distintos tipos de medidas tienen problemas de fiabilidad en distintos grados. Las mediciones de características físicas para las que se dispone de dispositivos de medición estándar, como la altura y el peso, serán generalmente más consistentes que las mediciones de características psicológicas, como la inteligencia medida con un test de CI. A su vez, se ha comprobado que las medidas de rendimiento, como los tests de CI estandarizados, son más fiables que las medidas que se basan en la memoria, como los informes de gastos domésticos en bienes de consumo. Para los evaluadores, una fuente importante de falta de fiabilidad reside en la naturaleza de los instrumentos de medición que se basan en las respuestas de los participantes a preguntas escritas u orales planteadas por los investigadores. Las diferencias en la situación de prueba o medición, las diferencias entre el observador o el entrevistador en la administración de la medida e incluso los cambios de humor de los encuestados contribuyen a la falta de confiabilidad. El efecto de la falta de fiabilidad en las medidas es diluir y oscurecer las diferencias reales. Una intervención verdaderamente eficaz, cuyo resultado se mide de forma poco fiable, parecerá menos eficaz de lo que es en realidad. La forma más sencilla para el evaluador de comprobar la fiabilidad de una medida de resultado candidata es administrarla al menos dos veces en circunstancias en las que el resultado que se mide no debería cambiar entre administraciones de la medida. Técnicamente, el índice convencional de estaprueba-repruebaLa fiabilidad es una estadística conocida como correlación del momento del producto entre los dos conjuntos de puntuaciones, que varía entre 0,00 y 1,00. Sin embargo, para muchos resultados, esta comprobación es difícil de realizar porque el resultado puede cambiar entre aplicaciones de medición que no están muy espaciadas. Por ejemplo, los ítems del cuestionario que preguntan a los estudiantes qué tan bien les gusta la escuela pueden ser respondidos de manera diferente un mes después, no porque la medición no sea confiable sino porque los eventos intermedios han hecho que los estudiantes sientan algo diferente sobre la escuela. Por otro lado, cuando la medida implica respuestas de personas, las medidas poco espaciadas están contaminadas porque los encuestados recuerdan su respuesta anterior en lugar de generarla de nuevo. Cuando la medición no se puede repetir antes de que el resultado pueda cambiar, la fiabilidad suele comprobarse examinando la coherencia entre ítems similares en una medida de múltiples ítems administrada al mismo tiempo (lo que se conoce como fiabilidad de consistencia interna). En el caso de muchas de las medidas ya preparadas que utilizan los evaluadores, ya se dispone de información sobre la fiabilidad procedente de otras investigaciones o de informes sobre el desarrollo original de la medida. Sin embargo, la fiabilidad puede variar según la muestra de encuestados y las circunstancias de la medición, por lo que no siempre es seguro asumir que una medida que ha demostrado ser fiable en otras aplicaciones seguirá siendo fiable cuando se utilice en la evaluación. No existen reglas estrictas sobre los niveles aceptables de confiabilidad. El grado en que el error de medición puede oscurecer un resultado significativo del programa depende en gran medida de la magnitud de ese resultado. Analizaremos esta cuestión más a fondo enCapítulo 10Sin embargo, como regla general, los investigadores generalmente prefieren que sus medidas tengan coeficientes de confiabilidad de 0,90 o más, un rango que mantiene el error de medición pequeño en relación con todos los resultados, excepto los más pequeños. Sin embargo, para muchas medidas de resultados aplicadas en las circunstancias características de la evaluación de programas, este es un estándar relativamente alto. 190 Validez La cuestión de la validez de la medición es más difícil que el problema de la fiabilidad.validezLa importancia de una medida es el grado en que mide lo que pretende medir. Por ejemplo, los registros de arrestos de menores proporcionan una medida válida de la delincuencia sólo en la medida en que reflejen con precisión en qué medida los menores han participado en delitos punibles. En la medida en que también reflejen las prácticas de arresto de la policía, no son medidas válidas de la conducta delictiva de los menores sujetos a arresto. Aunque el concepto de validez y su importancia son fáciles de comprender, suele ser difícil comprobar si una medida concreta es válida para la característica de interés. En el caso de las medidas de resultados que se utilizan para la evaluación, la validez depende en gran medida de que las partes interesadas pertinentes acepten o no una medida como válida. Confirmar que representa el resultado previsto por el programa cuando dicho resultado se describe de forma completa y detallada (como se ha comentado anteriormente) puede proporcionar cierta seguridad de validez para los fines de la evaluación. El uso combinado de múltiples medidas del resultado también puede proporcionar cierta protección contra la posibilidad de que alguna de esas medidas no se refiera al resultado real de interés. Las demostraciones empíricas de la validez de una medida dependen de alguna comparación que muestre que la medida produce los resultados que se esperarían si fuera, de hecho, válida. Por ejemplo, cuando la medida se aplica junto con medidas alternativas del mismo resultado, como las utilizadas por otros evaluadores, los resultados deberían ser aproximadamente los mismos. De manera similar, cuando la medida se aplica a situaciones que se reconoce que difieren en el resultado en cuestión, los resultados deberían diferir. Así, una medida de actitudes ambientales debería diferenciar claramente a los miembros del Sierra Club local de los miembros de una asociación de motociclistas todo terreno. La validez también se demuestra mostrando que los resultados de la medida se relacionan con o “predicen” otras características que se espera que estén relacionadas con el resultado. Por ejemplo, una medida de actitudes ambientales debería estar relacionada con el grado de favorabilidad de los encuestados hacia candidatos políticos con diferentes posiciones sobre cuestiones ambientales. Sensibilidad La función principal de las medidas de resultados es detectar cambios o diferencias en los resultados que representan efectos del programa. Para lograr esto adecuadamente, las medidas de resultados deben ser sensibles a dichos efectos. sensibilidadLa medida de una medida es el grado en que cambian los valores de la medida cuando hay un cambio o una diferencia en lo que se mide. Supongamos, por ejemplo, que estamos midiendo el peso corporal como resultado de un programa de pérdida de peso. Una báscula calibrada con precisión, como las que se usan en los consultorios médicos, podría medir el peso con una precisión de unas pocas onzas y, en consecuencia, ser capaz de detectar la pérdida de peso en ese rango. En cambio, las básculas que se usan para pesar camiones en las autopistas interestatales también son medidas de peso válidas y fiables, pero no son sensibles a diferencias menores de unos pocos cientos de libras. Una báscula que no fuera sensible a fluctuaciones significativas en el peso de las personas que hacen dieta en el programa de pérdida de peso sería una mala elección para medir ese resultado. Hay dos formas principales en las que los tipos de medidas de resultados que se utilizan con frecuencia en la evaluación de programas pueden ser insensibles a los cambios o diferencias de la magnitud que el programa podría producir. En primer lugar, la medida puede incluir elementos que se relacionan con algo distinto de lo que se podría esperar razonablemente que el programa produzca. 191 El cambio diluye la concentración de elementos que son sensibles y silencia la respuesta general de la medida. Consideremos, por ejemplo, un programa de tutoría de matemáticas para niños de la escuela primaria que se ha concentrado en fracciones y problemas de división larga durante la mayor parte del año escolar. El evaluador podría elegir una prueba de rendimiento en matemáticas estándar como una medida de resultado razonable. Sin embargo, dicha prueba incluirá elementos que cubran una gama más amplia de problemas matemáticos que las fracciones y la división larga. Los grandes avances que los niños hayan logrado en estas últimas áreas podrían quedar eclipsados por los elementos sobre otros temas que se promedian en la puntuación final. Una medida más sensible, claramente, sería una que cubriera solo los temas de matemáticas que el programa realmente enseña. En segundo lugar, las medidas de resultados pueden ser insensibles a los tipos de cambios o diferencias inducidos por los programas cuando se han desarrollado principalmente con fines de diagnóstico, es decir, para detectar diferencias individuales. El objetivo de las medidas de este tipo es distribuir las puntuaciones de manera que se diferencie a los individuos que tienen más o menos de la característica que se está midiendo. La mayoría de las medidas psicológicas estandarizadas son de este tipo, incluidas, por ejemplo, las medidas de personalidad, las medidas de síntomas clínicos (depresión, ansiedad, etc.), las medidas de capacidades cognitivas y las escalas de actitud. Estas medidas son generalmente buenas para determinar quién tiene un nivel alto o bajo en la característica medida, que es su propósito, y por lo tanto son útiles para, por ejemplo, evaluar las necesidades o la gravedad de los problemas. Sin embargo, cuando se aplican a un grupo de individuos que difieren ampliamente en la característica medida antes de participar en un programa, pueden producir una variación tan amplia en las puntuaciones después de la participación que cualquier incremento de mejora experimentado por cada individuo se perderá en medio de las diferencias entre individuos. Desde el punto de vista de la medición, las diferencias individuales a las que estas medidas responden tan bien constituyen ruido irrelevante para los fines de detectar cambios o diferencias de grupo y tienden a oscurecer esos efectos.Capítulo 10Se analizan algunas formas en que el evaluador puede compensar la insensibilidad de medidas de este tipo. La mejor manera de determinar si una medida de resultados candidata es lo suficientemente sensible para su uso en una evaluación es encontrar investigaciones en las que se haya utilizado con éxito para detectar cambios o diferencias en el orden de magnitud que el evaluador espera del programa que se está evaluando. La forma más clara de esta evidencia, por supuesto, proviene de evaluaciones de programas muy similares en los que se encontraron cambios o diferencias significativas utilizando la medida de resultados. Para evaluar esta evidencia también se debe tener en cuenta el tamaño de la muestra de los estudios de evaluación anteriores, porque el tamaño de la muestra afecta la capacidad de detectar efectos. Un enfoque análogo para investigar la sensibilidad de una medida de resultados es aplicarla a grupos de diferencias conocidas o situaciones de cambios conocidos y determinar su capacidad de respuesta. Consideremos el ejemplo del programa de tutoría de matemáticas mencionado anteriormente. El evaluador puede querer saber si las pruebas estandarizadas de rendimiento en matemáticas que administra el sistema escolar todos los años serán lo suficientemente sensibles como para usarlas como medida de resultados. Esto puede ser un asunto de cierta duda, dado que la tutoría se centra en solo unos pocos temas de matemáticas, mientras que la prueba de rendimiento cubre una amplia gama. Para comprobar la sensibilidad antes de usar esta prueba para evaluar el programa, el evaluador puede administrar primero la prueba a una clase de niños antes y después de que estudien fracciones y división larga. Si la prueba demuestra ser lo suficientemente sensible para detectar cambios durante el período en el que solo se enseñan estos temas, proporciona cierta seguridad de que responderá a los efectos del programa de tutoría de matemáticas cuando se use en la evaluación. 192 Elección de medidas de resultados Como se ha indicado hasta ahora, la selección de las mejores medidas para evaluar los resultados es un problema de medición crítico en las evaluaciones (Rossi, 1997). Recomendamos que los evaluadores inviertan el tiempo y los recursos necesarios para desarrollar y probar medidas de resultados apropiadas (Anexo 7-FUn indicador de resultados mal conceptualizado puede no representar adecuadamente las metas y objetivos del programa que se está evaluando, lo que lleva a cuestionamientos sobre la validez de la medida. Un indicador de resultados poco confiable o insuficientemente sensible probablemente subestime la efectividad de un programa y podría llevar a inferencias incorrectas sobre el impacto del programa. En resumen, un indicador mal elegido o mal concebido puede socavar completamente el valor de una evaluación de impacto al producir estimaciones engañosas. Solo si los indicadores de resultados son válidos, confiables y adecuadamente sensibles pueden considerarse creíbles las estimaciones de impacto. Monitoreo de los resultados del programa Una vez formulados los procedimientos para la medición adecuada de los resultados significativos del programa, el evaluador o los administradores del programa pueden adoptar diversos enfoques para aprender algo sobre esos resultados. El enfoque más simple es el seguimiento de los resultados, que definimos enCapítulo 6como la medición y presentación de informes continuos de indicadores del estado de las condiciones sociales que el programa es responsable de mejorar. Es similar al seguimiento del programa, como se describe enCapítulo 6, con la diferencia de que la información que se recoge y revisa periódicamente se relaciona con los resultados del programa y no sólo con el proceso y el desempeño del programa. El seguimiento de los resultados de un programa de capacitación laboral, por ejemplo, podría implicar llamar por teléfono de manera rutinaria a los participantes seis meses después de la finalización del programa para preguntarles si están empleados y, de ser así, qué trabajo tienen y qué salario reciben. Se pueden encontrar análisis detallados del seguimiento de los resultados en Affholter (1994) y Hatry (1999). miPROHIBIR7-F Fiabilidad y validez de las medidas de autoinforme en personas con enfermedades mentales sin hogar Las evaluaciones de los programas para personas sin hogar con enfermedades mentales suelen basarse en gran medida en medidas de autoinforme. Pero, ¿cuán fiables y válidas son esas medidas, en particular en el caso de personas con problemas psiquiátricos? Un grupo de evaluadores incorporó un estudio de medición a su evaluación de los servicios de gestión de casos para clientes sin hogar con enfermedades mentales. Se centraron en medidas de autoinforme sobre síntomas psiquiátricos, abuso de sustancias y utilización de servicios. Síntomas psiquiátricos.El autoinforme sobre el Inventario Breve de Síntomas (BSI, por sus siglas en inglés) fue la principal medida utilizada en la evaluación para evaluar los síntomas psiquiátricos. Se examinó la fiabilidad de la consistencia interna en cinco oleadas de recopilación de datos y se observaron fiabilidades generalmente altas (0,76-0,86) en las escalas de ansiedad, depresión, hostilidad y somatización, pero una fiabilidad menor en el caso del psicoticismo (0,65-0,67). Para obtener evidencia de la validez de estas escalas, se obtuvieron correlaciones entre ellas y escalas comparables del Programa Breve de Calificación Psiquiátrica (BPRS, por sus siglas en inglés), calificado para los clientes por psicólogos y trabajadores sociales de nivel de maestría. 193 En las cinco oleadas de recopilación de datos, estas correlaciones mostraron una concordancia moderada (0,40-0,60) para la ansiedad, la depresión, la hostilidad y la somatización. Sin embargo, hubo poca concordancia con respecto a los síntomas psicóticos (–0,01 a 0,22). Abuso de sustancias.La medida de evaluación fue la estimación de los clientes de cuánto necesitaban tratamiento para el abuso de alcohol y otras sustancias utilizando escalas del Índice de Gravedad de la Adicción (ASI). Para la validación, los entrevistadores calificaron la necesidad de los clientes de tratamiento para el abuso de alcohol y otras sustancias en las mismas escalas del ASI. Las correlaciones a lo largo de las cinco oleadas de medición mostraron una concordancia moderada, que oscilaba entre 0,44 y 0,66 para el alcohol y entre 0,47 y 0,63 para las drogas. Los clientes en general informaron una menor necesidad de servicio que los entrevistadores. Programa de contacto y utilización de servicios.Los clientes informaron con qué frecuencia habían tenido contacto con el programa que se les había asignado y si habían recibido alguno de los 14 servicios específicos. La validez de estos informes se puso a prueba comparándolos con los informes de los gestores de casos en dos de las oleadas de medición. El acuerdo varió sustancialmente según el área de contenido. Las correlaciones más altas (0,40-0,70) se encontraron para el contacto con el programa, los servicios de apoyo y las áreas de recursos específicos (legal, vivienda, financiero, empleo, atención sanitaria, medicación). El acuerdo fue considerablemente menor para los servicios de salud mental, abuso de sustancias y formación en habilidades para la vida. La mayoría de los desacuerdos se relacionaron con un servicio de informes del gestor de casos y el cliente que no informó ninguno. Los evaluadores concluyeron que el uso de medidas de autoinforme con personas sin hogar con enfermedades mentales estaba justificado, pero con salvedades: los evaluadores no deberían confiar únicamente en medidas de autoinforme para evaluar los síntomas psicóticos, ni para obtener información sobre la utilización de servicios de salud mental y abuso de sustancias, ya que los clientes proporcionan subestimaciones significativas en estas áreas. FUENTE: Adaptado de Robert J. Calsyn, Gary A. Morse, W. Dean Klinkenberg y Michael L. Trusty, “Fiabilidad y validez de los datos de autoinforme de personas sin hogar con enfermedades mentales”,Evaluación y planificación de programas, 1997, 20(1): 47-54. El seguimiento de los resultados exige que se identifiquen indicadores para los resultados importantes del programa que sean prácticos de recopilar de manera sistemática y que proporcionen información sobre la eficacia del programa. Este último requisito es particularmente difícil. Como se ha comentado anteriormente en este capítulo, la simple medición de los resultados proporciona información sólo sobre el estado o el nivel del resultado, como el número de niños en situación de pobreza, la prevalencia del abuso de drogas, la tasa de desempleo o las habilidades de lectura de los estudiantes de la escuela primaria. La dificultad radica en identificarcambiaren ese estado y, especialmente, vincular ese cambio específicamente con los esfuerzos del programa para poder evaluar los efectos o el impacto del programa. La fuente de esta dificultad, como se mencionó anteriormente, es que generalmente hay muchas influencias sobre una condición social que no están bajo el control del programa. Así, las tasas de pobreza, el consumo de drogas, el desempleo, los puntajes de lectura, etc., pueden cambiar por diversas razones relacionadas con la economía, las tendencias sociales y los efectos de otros programas y políticas. En estas circunstancias, encontrar indicadores de resultados que hagan un trabajo razonable para aislar los resultados atribuibles al programa en cuestión no es una tarea fácil. Aislar los efectos del programa de una manera convincente de otras influencias que podrían tener efectos similares requiere la 194 Técnicas especiales de evaluación de impacto discutidas enCapítulos 8y9. Dicho esto, el seguimiento de los resultados proporciona información útil y relativamente barata sobre los efectos del programa, normalmente en un plazo razonable. Mientras que una evaluación de impacto puede tardar años en completarse, los resultados del seguimiento de los resultados pueden estar disponibles en cuestión de meses. Además, las evaluaciones de impacto suelen requerir gastos de magnitudes superiores a las necesarias para los sistemas de seguimiento de los resultados. Sin embargo, debido a sus limitaciones, el seguimiento de los resultados es principalmente una técnica para generar retroalimentación que ayude a los administradores de programas a administrar y mejorar mejor sus programas, no una técnica para evaluar los efectos del programa sobre las condiciones sociales que se pretende beneficiar. A modo de ejemplo, consideremos el seguimiento de los resultados de un programa de tratamiento del alcoholismo. Un resultado que muestre que el 80% de los clientes del programa ya no beben varios meses después de que finalice el programa presentaría pruebas más coherentes con la eficacia que uno que muestre que sólo el 20% se abstiene. Por supuesto, ninguno de los resultados es suficiente para establecer los efectos reales del programa, porque el nivel medido de abstinencia también se verá afectado por la gravedad de los casos de los clientes y por otras influencias sobre el consumo de alcohol que pueden anular el del propio programa. Sin embargo, un buen plan de seguimiento también incluirá indicadores de la gravedad del problema inicial, la exposición a otras influencias importantes y otros factores pertinentes. Si bien no se trata de una evaluación formal del impacto, la interpretación y comparación razonables de los patrones de dichos indicadores y, especialmente, de las tendencias en esos indicadores a medida que los programas intentan mejorar su eficacia, pueden proporcionar indicaciones útiles de la eficacia de un programa. Indicadores para el seguimiento de resultados Los indicadores que se utilicen para el seguimiento de los resultados deben responder lo mejor posible a los efectos del programa. Por ejemplo, los indicadores de resultados deben medirse sólo en relación con los miembros de la población destinataria que realmente reciben los servicios del programa. Esto significa que los indicadores sociales fácilmente disponibles para las zonas geográficas a las que presta servicios el programa, como los distritos censales, los códigos postales o los municipios, no son buenas opciones para el seguimiento de los resultados si incluyen una cantidad apreciable de personas que no reciben realmente servicios del programa. También significa que aquellos participantes iniciales del programa que no completen realmente el paquete completo de servicios prescritos deben quedar excluidos del indicador. Esto no quiere decir que las tasas de abandono escolar no sean importantes como medida del desempeño del programa, sino sólo que deben evaluarse como una cuestión de utilización de los servicios, no como una cuestión de resultados. Los indicadores de resultados más interpretables, en ausencia de una evaluación de impacto, son aquellos que involucran variables que sólo el programa puede afectar en un grado apreciable. Cuando estas variables también representan resultados centrales para la misión del programa, constituyen un sistema de monitoreo de resultados especialmente informativo. Consideremos, por ejemplo, un programa de limpieza de calles de una ciudad cuyo objetivo sea recoger basura, hojas y similares de las calles municipales. Las fotografías de las calles que observadores independientes califican en cuanto a limpieza serían informativas para evaluar la efectividad de este programa. A menos que un pequeño huracán arrastre toda la basura al condado vecino, simplemente no hay mucho más probable que suceda para limpiar las calles. El indicador de resultados que se vincula directamente con las acciones del programa es la satisfacción del cliente, cada vez más denominada satisfacción del cliente incluso en los programas de servicios humanos. Las calificaciones directas de los beneficiarios de los beneficios que creen que les proporcionó el programa son una forma de evaluación de los resultados. Además, crear sentimientos de satisfacción sobre la interacción con el programa entre los participantes es una forma de resultado, aunque 195 No es un programa que, en sí mismo, necesariamente mejore la vida de los participantes. La información más pertinente proviene de los informes de los participantes sobre si los servicios prestados por el programa produjeron beneficios muy específicos (véase Anexo 7-G). La limitación de estos indicadores es que los participantes en los programas no siempre están en condiciones de reconocer o admitir los beneficios del programa, como en el caso de los drogadictos a quienes se les anima a utilizar agujas esterilizadas. Por otra parte, los participantes pueden informar sobre los beneficios pero ser reacios a parecer críticos y, por lo tanto, sobrevalorarlos, como en el caso de las personas mayores a quienes se les pregunta sobre las enfermeras que visitan sus hogares. miPROHIBIR7-G Elementos de la encuesta de satisfacción del cliente relacionados con beneficios específicos Las encuestas de satisfacción del cliente suelen centrarse en la satisfacción con los servicios del programa. Si bien un cliente satisfecho es un tipo de resultado del programa, esto por sí solo dice poco sobre los beneficios específicos del programa que el cliente puede haber considerado satisfactorios. Para que las encuestas de satisfacción del cliente vayan más allá de las cuestiones relacionadas con el servicio, deben preguntar sobre la satisfacción con los resultados del servicio, es decir, la satisfacción con los cambios particulares que el servicio podría haber generado. Martin y Kettner sugieren agregar elementos como los siguientes a las encuestas de satisfacción del cliente de rutina: Servicio:Información y referencias Pregunta:¿El programa de información y referencia le ha resultado útil para acceder a los servicios que necesita? Servicio:Comidas a domicilio Pregunta:¿El programa de comidas a domicilio le ha resultado útil para mantener su salud y ¿nutrición? Servicio: Asesoramiento Pregunta:¿El programa de asesoramiento le ha resultado útil para afrontar el estrés en su vida? FUENTE: Adaptado de Lawrence L. Martin y Peter M. Kettner,Medición del desempeño de los programas de servicios humanos(Thousand Oaks, CA: Sage, 1996), pág. 97. Dificultades en el seguimiento de resultados Debido a la naturaleza dinámica de las condiciones sociales que los programas típicos intentan afectar, las limitaciones de los indicadores de resultados y las presiones sobre las agencias del programa, existen muchos obstáculos asociados con el monitoreo de los resultados del programa. Por lo tanto, si bien los indicadores de resultados pueden ser una fuente valiosa de información para los encargados de tomar decisiones en el programa, deben desarrollarse y usarse con cuidado. Una consideración importante es que cualquier indicador de resultados al que los financiadores del programa u otros tomadores de decisiones influyentes presten una atención seria también recibirá inevitablemente el énfasis del personal y los administradores del programa. Si los indicadores de resultados no son apropiados o no cubren todos los resultados importantes, los esfuerzos por mejorar el desempeño que reflejan pueden distorsionar las actividades del programa. Affholter (1994), por ejemplo, describe un 196 Situación en la que un estado utilizó el número de nuevos hogares de acogida autorizados como indicador del aumento de las colocaciones para niños con problemas múltiples. Los trabajadores respondieron reclutando y otorgando licencias a nuevos hogares de acogida, incluso cuando los padres de acogida carecían de las habilidades necesarias para trabajar con estos niños. Como resultado, el indicador siguió subiendo, pero la colocación real de los niños en hogares de acogida adecuados no mejoró. En educación, esta respuesta se llama "enseñar para la prueba". Por el contrario, los buenos indicadores de resultados deben "evaluarse para la enseñanza". Un problema relacionado es la “corruptibilidad de los indicadores”, que se refiere a la tendencia natural de quienes están siendo evaluados a manipular y aumentar el indicador siempre que sea posible para que su desempeño parezca mejor de lo que es. Por ejemplo, en un programa en el que la tasa de empleo entre los participantes después del programa es un indicador de resultados importante, considérese la presión sobre el personal del programa asignado a la tarea de llamar por teléfono a los participantes después de completar el programa para determinar su situación laboral. Incluso con un esfuerzo razonable de honestidad, es muy probable que los casos ambiguos se registren como empleo. Por lo general, es mejor que esa información la recopilen personas independientes del programa. Si se recopila dentro del programa, es especialmente importante que se utilicen procedimientos cuidadosos y que los resultados se verifiquen de alguna manera convincente. Otro problema potencial tiene que ver con la interpretación de los resultados de los indicadores de resultados. Dado que hay una serie de factores distintos del desempeño del programa que pueden influir en esos indicadores, las interpretaciones hechas fuera de contexto pueden ser engañosas e incluso con el contexto adecuado, pueden resultar difíciles de realizar. Para proporcionar un contexto adecuado para la interpretación, los indicadores de resultados generalmente deben ir acompañados de otra información que proporcione una base pertinente para la comparación o explicación de los resultados encontrados en esos indicadores. Analizamos los tipos de información que pueden ser útiles en el siguiente análisis de la interpretación de los datos de resultados. Interpretación de los datos de resultados Los datos de resultados recopilados como parte de la supervisión sistemática de resultados pueden ser especialmente difíciles de interpretar si no están acompañados de información sobre los cambios en la combinación de clientes, las tendencias demográficas y económicas pertinentes, etc. Las tasas de colocación laboral, por ejemplo, se interpretan con mayor precisión como un indicador del desempeño del programa a la luz de la información sobre la gravedad de los problemas de desempleo de los participantes del programa y la magnitud de las vacantes de empleo en la economía local. Una baja tasa de colocación laboral puede no reflejar el desempeño del programa cuando éste trabaja con clientes con pocas habilidades laborales y un largo historial de desempleo que se enfrentan a una economía con pocas vacantes de empleo. De manera similar, los datos de resultados suelen ser más interpretables cuando se acompañan de información sobre el proceso del programa y la utilización de los servicios. La tasa de colocación laboral de los clientes que completan la capacitación puede parecer favorable, pero, no obstante, puede ser motivo de preocupación si, al mismo tiempo, la tasa de finalización de la capacitación es baja. La tasa de colocación favorable puede deberse a que todos los clientes con problemas graves abandonaron el programa, dejando sólo a los “mejores” para que el programa los colocara. Es especialmente importante incorporar información sobre el proceso y la utilización en la interpretación de los indicadores de resultados cuando se comparan diferentes unidades, sitios o programas. No sería ni preciso ni justo emitir un juicio negativo sobre una unidad del programa que tuviera un resultado inferior al de otras unidades del programa sin tener en cuenta si estaba tratando casos más difíciles, manteniendo tasas de deserción más bajas o haciendo frente a otros factores atenuantes. 197 Igualmente importante para la interpretación de los datos de seguimiento de los resultados es el desarrollo de un marco que proporcione algún estándar para juzgar qué constituye mejores o peores resultados dentro de las limitaciones inherentes de los datos para los que se deben hacer estos juicios. Un marco útil, cuando es aplicable, es una comparación del estado de los resultados con el estado previo al programa en la medida de resultados para revelar la cantidad de cambio que se ha producido. Por ejemplo, es menos informativo saber que el 40% de los participantes en un programa de capacitación laboral están empleados seis meses después que saber que esto representa un cambio con respecto a un estado previo al programa en el que el 90% no había tenido un trabajo durante el año anterior. Un enfoque para los indicadores de resultados es definir un "umbral de éxito" para los participantes del programa e informar cuántos pasaron de estar por debajo de ese umbral a estar por encima de él después de recibir el servicio. Por lo tanto, si el umbral se define como "tener un trabajo de tiempo completo de forma continua durante seis meses", un programa podría informar la proporción de participantes que cayeron por debajo de ese umbral durante el año anterior al ingreso al programa y la proporción de los que estaban por encima de ese umbral durante el año posterior a la finalización de los servicios. Una simple comparación pre-post (antes y después) de este tipo no tiene por qué formar parte del seguimiento rutinario de los resultados. También puede ser realizada por el evaluador como parte de una evaluación de los resultados. Como hemos señalado, el principal inconveniente de este diseño es que las diferencias entre las medidas antes y después no pueden atribuirse con seguridad a los efectos del programa porque otros procesos que intervienen en el período intermedio pueden afectar a las diferencias pre-post. Una de las principales razones por las que las personas deciden participar en programas de formación laboral, por ejemplo, es que están desempleadas y tienen dificultades para conseguir empleo. Por lo tanto, se encuentran en un punto bajo en el momento de entrar en el programa y, a partir de ahí, es probable que algunas encuentren trabajo independientemente de su participación en el programa. Por lo tanto, las comparaciones pre-post del empleo para un programa de este tipo siempre mostrarán una tendencia al alza que tiene poco que ver con los efectos del programa. Otras tendencias entre los dos momentos también pueden influir en el cambio anterior y posterior. Un programa para reducir la delincuencia puede parecer más eficaz si coincide, por ejemplo, con esfuerzos para aumentar la vigilancia policial. Los factores de confusión también pueden sesgar una comparación anterior y posterior en la dirección opuesta: un programa de capacitación laboral parecerá ineficaz si va acompañado de un período prolongado de aumento del desempleo y condiciones económicas deprimidas. En general, entonces, las comparaciones anterior y posterior pueden proporcionar información útil a los administradores del programa como parte del seguimiento de los resultados, pero no suelen proporcionar conclusiones creíbles sobre el impacto de un programa. La rara excepción es cuando prácticamente no hay eventos o tendencias intermedias que puedan explicar plausiblemente una diferencia anterior y posterior. Anexo 7-Hproporciona un ejemplo de tal situación. La información que resulta de la medición de las variables de resultados del programa, o de los cambios en esas variables, generalmente debe interpretarse sobre la base de los juicios de los administradores del programa, las partes interesadas o los expertos en relación con sus expectativas de un buen o mal desempeño. Estos juicios son más fáciles de realizar en los extremos, cuando los resultados son más positivos de lo que es probable que ocurran por razones no relacionadas con el programa, o son tan negativos que sólo el fracaso del programa puede explicarlos. Por ejemplo, supongamos que, después de un programa vocacional de dos meses para capacitar a conductores de camiones con remolque, más del 90% de los participantes (seleccionados entre personas sin esas habilidades) calificaron para obtener la licencia de conducir correspondiente. Este hallazgo sugiere que el programa ha tenido bastante éxito en la impartición de habilidades vocacionales; parece bastante improbable que una proporción tan grande de personas previamente no calificadas que querían convertirse en conductores de camiones con remolque pudieran calificar para obtener licencias por sí mismas en un período de dos meses. Por la misma razón, podríamos llegar a un juicio relativamente firme de que el programa fue ineficaz. 198 Si todos los participantes reprobaron el examen de licencia. En realidad, por supuesto, el resultado observado probablemente sería más ambiguo: digamos que sólo el 30% aprobaría la primera vez. Este resultado más típico es difícil de juzgar y plantea la cuestión de si un grupo comparable que no hubiera recibido formación habría tenido el mismo rendimiento. En tales circunstancias, se podría recurrir a la opinión de expertos. Por ejemplo, se podría pedir a personas familiarizadas con la educación vocacional de adultos y los resultados típicos de los programas de intervención en ese campo que se basaran en su experiencia para juzgar si un resultado del 30% representa un éxito dada la naturaleza de los objetivos. Es evidente que la utilidad y la validez de tales juicios, y por lo tanto el valor de una evaluación que los utilice, dependen en gran medida de la experiencia y el conocimiento de los jueces sobre el área del programa. miPROHIBIR7-H Un diseño convincente de resultados previos y posteriores para un programa de reducción de los niveles de plomo en viviendas de bajos ingresos Los efectos tóxicos del plomo son especialmente nocivos para los niños y pueden impedir su desarrollo conductual, reducir su inteligencia, causar pérdida de audición e interferir en importantes funciones biológicas. Los niños pobres corren un riesgo desproporcionado de envenenamiento por plomo porque las viviendas disponibles para inquilinos de bajos ingresos son generalmente viviendas antiguas, que tienen más probabilidades de estar pintadas con pintura a base de plomo y de estar ubicadas cerca de otras fuentes de contaminación por plomo. La pintura a base de plomo en interiores se deteriora y produce cantidades microscópicas de plomo que los niños pueden ingerir al llevarse las manos a la boca. Además, el polvo arrastrado por el viento o arrastrado puede estar contaminado por la pintura a base de plomo en el exterior en deterioro o por el suelo de las carreteras que contiene una acumulación de plomo procedente de la gasolina con plomo utilizada antes de 1980. Para reducir los niveles de polvo de plomo en las viviendas urbanas de bajos ingresos, se creó en Baltimore el Community Lead Education and Reduction Corps (CLEARCorps), un esfuerzo público-privado conjunto. Los miembros de CLEARCorps limpian, reparan y hacen que las viviendas sean seguras para el plomo, educan a los residentes sobre técnicas de prevención del envenenamiento por plomo y alientan a los residentes a mantener bajos los niveles de polvo de plomo mediante esfuerzos de limpieza especializados. Para determinar en qué medida CLEARCorps logró reducir los niveles de polvo de plomo en las unidades de vivienda urbanas tratadas, los miembros de CLEARCorps recolectaron muestras de polvo de plomo con un paño inmediatamente antes, inmediatamente después y seis meses después de sus esfuerzos de control del peligro del plomo. En cada una de las 43 casas tratadas, se recolectaron cuatro muestras de cada una de cuatro ubicaciones (pisos, alféizares de ventanas, huecos de ventanas y alfombras) y se enviaron a laboratorios para su análisis. Se encontraron diferencias estadísticamente significativas entre los niveles de polvo de plomo antes y después de la exposición en pisos, alféizares y huecos de ventanas. En el seguimiento de seis meses, se encontraron disminuciones significativas adicionales en pisos y huecos de ventanas, con una disminución marginalmente significativa en los alféizares de ventanas. Dado que no se utilizó un grupo de control, es posible que otros factores además del programa CLEARCorps hayan contribuido a la disminución de los niveles de polvo de plomo detectados en la evaluación. Aparte de los efectos estacionales relevantes, pero modestos, relacionados con el período de seguimiento y la pequeña posibilidad de que se haya producido otra intervención, 199 Si bien el programa CLEARCorps trató a estos mismos hogares, para los cuales no había evidencia disponible, hay pocas explicaciones alternativas plausibles para la disminución. Por lo tanto, los evaluadores concluyeron que el programa CLEARCorps fue eficaz para reducir los niveles de plomo en las viviendas. FUENTE: Adaptado de Jonathan P. Duckart, “Una evaluación del programa del Cuerpo de Educación y Reducción del Plomo en la Comunidad de Baltimore (CLEARCorps)”,Revisión de evaluación, 1998, 22(3):373-402. Siempre que sea posible, los valores de resultados como estos podrían compararse con los de programas similares. Este proceso se conoce a menudo como “evaluación comparativa” (Keehley et al., 1996), en particular cuando se compara el desempeño de un programa en un resultado particular con el de un programa especialmente eficaz. Como en todas las comparaciones de este tipo, por supuesto, los resultados son significativos para fines de evaluación sólo cuando todos los demás factores son iguales entre los programas que se comparan, un estándar difícil de cumplir en la mayoría de los casos. Resumen Los programas están diseñados para afectar algún problema o necesidad de manera positiva. Los evaluadores evalúan en qué medida un programa produce una mejora particular midiendo el resultado, el estado de la población destinataria o la condición social que se espera que el programa haya modificado. Debido a que los resultados se ven afectados por eventos y experiencias que son independientes de un programa, los cambios en los niveles de resultados no pueden interpretarse directamente como efectos del programa. Para identificar los resultados relevantes para un programa es necesario obtener información de las partes interesadas, revisar los documentos del programa y articular la teoría del impacto incorporada en la lógica del programa. Los evaluadores también deben tener en cuenta las investigaciones previas pertinentes y considerar los posibles resultados no previstos. Para producir resultados creíbles, las medidas de resultados deben ser confiables, válidas y lo suficientemente sensibles como para detectar cambios en el nivel de resultados del orden de magnitud que se podría esperar que produzca el programa. Además, a menudo es aconsejable utilizar múltiples medidas o variables de resultados para reflejar resultados multidimensionales y corregir posibles debilidades en una o más de las medidas. El seguimiento de los resultados puede ser útil para los administradores de programas y otras partes interesadas, ya que proporciona resultados oportunos y relativamente económicos que pueden orientar el ajuste y la mejora de los programas. Un seguimiento eficaz de los resultados requiere una elección cuidadosa de los indicadores, así como una interpretación cuidadosa de los datos resultantes. La interpretación de las medidas de resultados y de los cambios en dichas medidas es difícil. La interpretación requiere tener en cuenta el entorno de un programa, los acontecimientos que tienen lugar durante el mismo y los cambios naturales que experimentan los objetivos a lo largo del tiempo. La interpretación generalmente debe basarse en el juicio de expertos sobre lo que constituye un buen desempeño, aunque las comparaciones con otros programas (evaluación comparativa) también pueden ser útiles. 200 KOJOdoCONCEPTOS Impacto Verefecto del programa. Resultado El estado de la población objetivo o las condiciones sociales que se espera que un programa cambie. Cambio de resultados La diferencia entre los niveles de resultados en distintos puntos del tiempo. Véase tambiénnivel de resultado. Nivel de resultado El estado de un resultado en un momento determinado. Véase tambiénresultado. Efecto del programa La parte de un cambio de resultado que puede atribuirse únicamente a un programa, es decir, con la influencia de otras fuentes controladas o eliminadas; también denominada impacto del programa. Véase tambiéncambio de resultado. Fiabilidad El grado en que una medida produce los mismos resultados cuando se utiliza repetidamente para medir lo mismo. Sensibilidad El grado en que cambian los valores de una medida cuando hay un cambio o diferencia en lo que se está midiendo. Validez El grado en que una medida mide realmente lo que pretende medir. 201

Use Quizgecko on...
Browser
Browser