Validez de un Instrumento - Carlos Riego PDF

UNIVERSIDAD NACIONAL DE ASUNCIÓN FACULTAD DE FILOSOFÍA CARRERA DE PSICOLOGÍA AREA BÁSICA CÁTEDRA DE PSICOMETRÍA BÁSICA 3er. Curso 3ra. Sección (Turno Tarde) LIC. CARLOS FERNANDO RIEGO CABRAL “Cualquier cosa que existe, existe en alguna cantidad”. Thorndike, 1918. ”Cualquier cosa que existe en cantidad, puede medirse”. McCall, 1939 Lewis R. Aiken (1996) Test Psicológicos y Evaluación Lic. Carlos F. Riego C. VALIDEZ DE UN INSTRUMENTO en Investigación Cuantitativa ¿Qué es valido? En lenguaje cotidiano decimos que es válido si es sólido, si está bien fundado en principios y evidencias. En términos legales cuando es “ejecutado con las formalidades apropiadas”. Ej. Contrato válido, testamento válido. Es la significación o grado de veracidad de algo. En lenguaje de Evaluación Psicológica, Validez es un término usado conjuntamente con la significación de una puntuación de prueba. Concepto de Validez La palabra validez cuando se aplica a una prueba se refiere a un juicio concerniente a lo bien que mide de hecho una prueba lo que pretende medir. De manera específica, es un juicio basado en evidencia sobre lo apropiado de las inferencias extraídas de las puntuaciones de prueba. ¿Qué es inferencia? Es un resultado lógico o deducción en un proceso de razonamiento. Las características de validez de las pruebas y las puntuaciones de prueba son expresadas con frecuencia con términos “aceptable” o “débil”. En un juicio de validez hay inherente un juicio de utilidad de un instrumento de medición. “Útil desde el punto de vista científico” (Nunnally, 1978, p.86) Entonces ¿Qué es Validación? Es el proceso de recopilación y valoración de la evidencia de validez.  Tanto quien elabora la prueba como el administrador de la misma pueden desempeñar una función en la validación de una prueba para un propósito específico.  OBS: Es responsabilidad del elaborador de la prueba suministrar evidencia de la validez en el manual de la misma.  En ocasiones puede ser apropiado para los administradores de la prueba realizar sus propios estudios de validación con los grupos de personas que responderán la prueba. Estos estudios de validación “local” son necesarios cuando el usuario de la prueba planea alterar de alguna manera el formato, instrucciones, lenguaje o contenido de la prueba.  Los estudios de validación local también serían apropiados cuando la prueba será usada con una población de personas que difiere de alguna manera significativa de la población en la que fue estandarizada. ¿Cómo se procede a valorar la validez de una prueba? Una forma de conceptualizar la validez se ha dado con respecto a la siguiente taxonomía de tres categorías: Validez de contenido. Validez relacionada con un criterio. Validez de constructo. Esta perspectiva de la validez, a la que hace referencia Guion (1980) como la perspectiva “trinitaria”, es la que prevalece en el campo de la psicología en la actualidad y lo ha sido al menos desde la década de 1950. Dentro del contexto de la taxonomía de tres categorías, la validez de una prueba puede evaluarse: 1.Examinando a fondo su contenido. 2.Relacionando las puntuaciones obtenidas en la prueba con otras puntuaciones de prueba u otras medidas. 3.Realizando un análisis general no sólo de la forma en que las puntuaciones de la prueba se relacionan dentro de algún marco teórico para comprender el constructo al que la prueba está diseñada a medir. “No son mutuamente excluyentes; cada uno deberá considerarse como un tipo de evidencia que, con otras, contribuye a un juicio de la validez de la prueba”. Un administrador de pruebas puede no necesitar conocer los tres tipos de evidencia de validez. Dependerá del uso que se le vaya a dar a la prueba. VALIDEZ APARENTE Se relaciona más con lo que la prueba parece medir que con lo que en realidad mide. La validez aparente es un juicio concerniente a lo relevante que parecen ser los reactivos de la prueba. Planteado de otra forma, si una prueba parece medir en forma clara lo que pretende medir “a primera vista”, podría decirse que tiene una validez aparente alta. Ej. Una prueba de personalidad por escrito que mida “Introversión/Extroversión”. ¿Qué debe preguntar? 1. ¿Creo que valgo tanto como cualquier otra persona? - Totalmente en desacuerdo - Moderadamente en desacuerdo - Parte de acuerdo y parte desacuerdo - Moderadamente de acuerdo - Totalmente de acuerdo 2. Tengo muchas ganas de vivir - Nunca o casi nunca - Algunas veces - Bastante veces - Casi siempre - Siempre 3. Muchas veces cuando tengo que hacer un halago, no sé qué decir - No me identifico en lo absoluto; la mayoría de las veces no me ocurre o no lo haría - Más bien no tiene que ver conmigo, aunque alguna vez me ocurra - Me describe aproximadamente, aunque no siempre actúe o me sienta así - Muy de acuerdo y me sentiría o actuaría 4. ¿Te gusta salir a menudo? así en la - Sí mayoría de los casos - No 5. ¿Tienes muchos amigos? - Sí - No 6. ¿Prefieres leer o realizar otras actividades antes que conocer gente? - Sí - No Respuestas: 1- Autoestima. 4- Extroversión. 2- Ideación suicida – Depresión. 5- Extroversión. 3- Habilidades Sociales. 6- Introversión. Por otra parte, una prueba de personalidad en la que la responden se les hacen preguntas sobre una variedad de manchas de tintas puede ser percibida por lo general como una prueba con validez aparente baja. Pueden preguntar: ¿Cómo dicen que vieron en mis respuestas a las manchas de tinta algo que tiene que ver en realidad con la personalidad? Ejemplo: Persona bajo la lluvia (Aparición de paraguas en el dibujo relacionado con baja tolerancia a la frustración), Rorschach, Test de los Colores, etc. A diferencia de los juicios concernientes de la confiabilidad de una prueba y a la validez de contenido, constructo o relacionada con un criterio de una prueba, los juicios concernientes a la validez aparente de una prueba son considerados con frecuencia desde la perspectiva de quien responde la prueba en oposición a la del administrador de la prueba. Ejemplo: La falta de Validez Aparente podría contribuir a una falta de confianza con respecto a la efectividad percibida de la prueba, con una disminución consecuente en la motivación de quien la responde para hacer su mejor esfuerzo. Su preocupación podría derivarse de una creencia de que dichas pruebas dará como resultado conclusiones inválidas. Desde la perspectiva del administrador de la prueba, la Validez Aparente también puede ser importante ya que contribuye (o deja de contribuir) a la confianza del administrador en la prueba. VALIDEZ DE CONTENIDO Es un juicio concerniente a lo adecuado del muestreo que hace una prueba del comportamiento representativo del universo de comportamiento del que la prueba estaba diseñada para tomar una muestra. Ejemplo: El universo de comportamientos (indicadores) denominado “Bienestar Psicológico” es muy amplio. Podríamos esperar que dicha prueba contendría reactivos que hicieran un muestreo de situaciones hipotéticas en el trabajo...... “Bienestar Psicológico Laboral” Mi trabajo da sentido a mi vida. - Nunca - Raras veces - Algunas veces - Con frecuencia - Casi siempre Mi trabajo es creativo, variado y -estimulante. Nunca - Raras veces - Algunas veces - Con frecuencia - Casi siempre  Estoy discriminado/a en mi trabajo. - Nunca - Raras veces - Algunas veces - Con frecuencia - Casi siempre “Bienestar en Relación con la Pareja”  Atiendo el deseo sexual de mi - Totalmente esposo/a. en desacuerdo - Moderadamente en desacuerdo - Parte de acuerdo y parte desacuerdo - Moderadamente de acuerdo - Totalmente de acuerdo  Mi esposa/o y yo estamos de acuerdo en la mayoría de las cosas. - Totalmente en desacuerdo - Moderadamente en desacuerdo - Parte de acuerdo y parte desacuerdo - Moderadamente de acuerdo - Totalmente de acuerdo  Cuando estoy en casa no aguanto a mi mujer en ella todo el día. - Totalmente en desacuerdo - Moderadamente en desacuerdo - Parte de acuerdo y parte desacuerdo - Moderadamente de acuerdo - Totalmente de acuerdo “Bienestar Psicológico Subjetivo” Acostumbro a ver el lado favorable de -las Nunca cosas. - Algunas veces - Bastantes veces - Casi siempre - Siempre -Nunca Me gusta lo que hago. - Algunas veces - Bastantes veces - Casi siempre  Creo que no puedo superar mis errores y debilidades. - Nunca - Algunas veces - Bastantes veces - Casi siempre - Siempre Con respecto a las pruebas de rendimiento educativo, se acostumbra considerar a una prueba como una medida con contenido válido cuando la proporción de material cubierto por la prueba se aproxima a la proporción de material cubierto en el curso. Ejemplo: El desarrollo del programa de estudio del curso, del libro de texto, etc. Para que una prueba de empleo tenga un contenido válido, éste debe ser una muestra representativa de las habilidades relacionadas con el trabajo requerida para el empleo. Ejemplo: Un Psicólogo Laboral, interesado en desarrollar un instrumento para seleccionar a las personas con mayor capacidad para las ventas, decide utilizar tres o cuatro indicadores... 1. Capacidad para expresarse verbalmente (razonamiento verbal): conversación y escucha; 2. capacidad de relacionamiento (sociabilidad); 3. independencia, como una medida de la capacidad para la toma de decisiones e iniciativa; 4. agresividad para las ventas. CUANTIFICACION DE LA VALIDEZ DE CONTENIDO Uno de los métodos creados para cuantificar la validez de contenido fue elaborado por LAWSHE (1.975), quien propuso una fórmula simple para cuantificar el grado de consenso pidiendo a un grupo de expertos que determinen la validez de contenido de una prueba. Incluye a un grupo de jueces y cada miembro del jurado responde a la siguiente pregunta para cada uno de varios reactivos: ¿El indicador o contenido utilizado en este reactivo es: o.... ¿La habilidad o conocimiento medido por este reactivo es: Esencial Útil pero no esencial No necesaria …para medir este Factor? o …para el desempeño del trabajo? Lawshe desarrolló una fórmula denominada Razón de Validez de Contenido:ne – CVR = N/2 = N/2 CVR = Razón de Validez de Contenido. ne = número de expertos que indican “esencial”. N = Número total de expertos. Ítem 1: 4– 4- ne – N/2 -1 CV (10/2) 5 = = = = = - 0,20 R N/2 10/2 5 5 Ítem 2: 5– 5- ne – N/2 0 CV (10/2) 5 = = = = = 0,00 R N/2 10/2 5 5 CVR = Razón de Validez de Contenido. ne = número de expertos que indican “esencial”. N = Número total de expertos. Ítem 3: 7– 7- ne – N/2 2 CV (10/2) 5 = = = = = 0,40 R N/2 10/2 5 5 Ítem 4 9– 9- ne – N/2 4 CV (10/2) 5 = = = = = 0,80 R N/2 10/2 5 5 Cuadro 6.1: Valores mínimos de la razón de validez de contenido para asegurar que es improbable que el acuerdo se deba al azar. Número Valor de mínimo expertos 5.99 6.99 7.99 8.85 9.78 10.62 11.59 VALIDEZ DE CRITERIO Es un juicio respecto a lo adecuado que puede ser el uso de una puntuación de prueba para inferir la posición más probable del individuo en alguna medida de interés, siendo la medida de interés el criterio. Dos tipos de evidencias de validez se incluyen bajo el encabezado de “Validez con base en Criterios”: 1° Validez Concurrente y 2° Validez Predictiva. 1° Validez Concurrente: Es un índice del grado en que una puntuación de prueba se relaciona con alguna medida criterio obtenida al mismo tiempo (en forma concurrente). 2° Validez Predictiva: Es un índice del grado en que una puntuación de prueba predice alguna medida criterio. Pero…. ¿QUÉ ES UN CRITERIO? Un Criterio puede definirse como la norma contra la cual es valorada una prueba o una puntuación de prueba. Desde el punto de vista operativo un criterio puede ser cualquier cosa: Ejemplo: Número de ventas de un producto, ficha clínica con el Dx. de un paciente, notas de un colegio, desempeño laboral, índice de ausentismo, puntaje de una prueba, cantidad de tiempo, etc. La fórmula se lee como sigue: el coeficiente de validez es menor o igual que la raíz cuadrada del coeficiente de confiabilidad de la prueba multiplicado por el coeficiente de confiabilidad del criterio. ¡Es relevante un criterio adecuado! 1. Es de esperar, por ejemplo, que una prueba que pretende decirnos algo de la aptitud, actitud, diagnóstico, etc. de un individuo, se haya validado usando alguna especie de criterio que incluya datos obtenidos por otros profesionales o personas. 2. Una medida criterio adecuada también debe ser válida para el propósito para el que se está usando. Si una prueba (X) se está usando como el criterio para validar una segunda prueba (Y), entonces debe existir evidencia de que la prueba “X” es válida. Ejemplo: Si, un manual de prueba para una prueba diagnóstica de personalidad reportó que la prueba había sido validada usando como criterio “Diagnósticos hechos por un grupo de expertos galardonados en psicodiagnóstico”, el administrador de la prueba podría desear investigar más a fondo, ya sea leyendo en el manual o escribiéndole al editor de la prueba, respecto a variables como: a)Las definiciones específicas de términos y categorías diagnósticas. b) La naturaleza precisa de los antecedentes, capacitación y experiencia del “grupo de expertos galardonados” y c) La naturaleza y extensión del contacto fuera de la prueba, de los miembros del grupo de expertos con los sujetos diagnosticados. 3. De manera ideal, un criterio tampoco está contaminado. La contaminación del criterio es el término aplicado a una situación donde la medida criterio en sí se ha basado, al menos en parte, en medidas de predicción. Ejemplo: Supongamos que acabamos de completar una investigación de la precisión con la que una prueba llamada MMPI predijo diagnósticos en la población de pacientes del Hospital Neuropsiquiátrico. En este estudio, quien lleva a cabo el pronóstico es el MMPI y el criterio es el diagnóstico psiquiátrico obtenido de las fichas clínicas de los pacientes. Supongamos además que, mientras estamos en el proceso de análisis de nuestros datos, alguien nos informa que el diagnóstico para cada paciente en el Hospital Neuropsiquiátrico fue determinado, al menos en parte, por puntuaciones de la prueba MMPI. ¿Aún deberíamos proseguir con nuestro análisis? Por supuesto que no. Debido a que la medida pronosticadora a contaminado a la medida criterio. VALIDEZ CONCURRENTE Si las puntuaciones de prueba se obtienen más o menos al mismo tiempo que las medidas criterio, las medidas de relación entre las puntuaciones de prueba y el criterio proporcionan evidencia de Validez Concurrente. Las declaraciones de Validez Concurrente indican el grado en que las puntuaciones de prueba pueden ser usadas para estimar la posición presente de un individuo en un criterio. Ejemplo: La puntuaciones (o clasificaciones) hechas con base en una prueba de psicodiagnóstico fueran a ser validadas contra un criterio de pacientes psiquiátricos ya diagnosticados. En ocasiones se explora la validez concurrente de una prueba (a la que llamaremos Prueba A – en construcción) con respecto a la forma en que se compara con otra prueba (a la que llamaremos Prueba B). En otros estudios, las investigaciones anteriores demuestran en forma satisfactoria la Validez de la Prueba B. Así, la prueba B se usa como lo que se conoce como el “criterio de validación”. VALIDEZ PREDICTIVA La relación entre las puntuaciones de la prueba pueden obtenerse en un momento y las medidas criterio obtenerse en un momento futuro proporcionan un indicio de la Validez Predictiva de la prueba. Es decir con cuanta precisión las puntuaciones de la prueba predicen alguna medida criterio. Ejemplo: Puntaje del ingreso y promedio de calificaciones en la universidad. Además, en otros escenarios donde podrían emplearse pruebas, las Validez Predictiva alta de una prueba puede ser un auxiliar muy útil para quienes toman decisiones para seleccionar a: estudiantes exitosos, trabajadores productivos, convictos que son buenos para salir bajo palabra, homicidio, suicidio, etc. Los juicios de la validez relacionada con un criterio, sea concurrente o predictiva, se basan en dos tipos de evidencia estadística: “El Coeficiente de Validez y los Datos de Expectativa”. 1. Coeficiente de Validez: es un coeficiente de correlación que proporciona una medida de la relación entre las puntuaciones de prueba y las puntuaciones en la medida criterio. Ejemplo: el coeficiente de correlación calculado a partir de una puntuación (o clasificación) en una prueba psicodiagnóstica y la puntuación (o clasificación) criterio asignada por psicodiagnosticadores es un ejemplo de un coeficiente de validez. Normalmente, la prueba estadística más utilizada para determinar la validez entre dos medidas es el coeficiente de correlación de Pearson. Sin embargo, dependiendo de variables como el tipo de datos, el tamaño de la muestra y la forma de distribución (Normalidad - Homocedasticidad), podrían usarse otros coeficientes de correlación. 2.Datos de Expectativa: Muestran la distribución de las puntuaciones obtenidas en el test por uno o más grupos de individuos en tablas cruzadas con el rendimiento en el criterio. Partiendo de que existe un grado de correlación grande entre las puntuaciones del test y las medidas del criterio, esta información puede utilizarse para calibrar la probable posición en el criterio de los individuos que obtienen diferentes puntuaciones. Tabla de Expectativa: Relación entre las puntuaciones obtenidas a mitad y a final de curso Porcentaje que obtienen cada nota final Númer Suspen Aproba Notabl Sobresalie o de so do e nte casos 90 o 11 22 67 más Entre 8 25 50 17 Puntuaci 80 y 89 ón a Entre 23 46 31 mitad de 70 y 79 curso Entre 33 67 60 y 69 59 o 67 33 menos Fuente: Urbina, S. (2007, pp. 138-139) ¿Qué tan alto debería ser un coeficiente de validez para que un administrador o un elaborador de pruebas infieran que la prueba es válida? No hay reglas para determinar el rango mínimo aceptable de un coeficiente de validez. De hecho, Cronbach y Gleser (1965) advirtieron contra el establecimiento de tales reglas. Afirmaron que los coeficientes de validez no necesitan ser tan elevados. Debe permitir al administrador de la prueba tomar decisiones precisas dentro del contexto único en el que se está usando una prueba. En esencia, el coeficiente de validez debería ser lo bastante alto para que conduzca a la identificación y diferenciación de personas que responderán la prueba con respecto a un atributo o atributos deseados. Validez incremental: Los administradores de pruebas implicados en la predicción de algún criterio a partir de puntuaciones de prueba a menudo están interesados en la utilidad de pronosticadores múltiples. El valor de incluir más de un pronosticador depende de un par de factores: 1° Validez predictiva (Ya explicado) y 2° Validez incremental. 2° Validez incremental: Es el grado en que un pronosticador adicional explica algo de la medida criterio que no estaba explicado por los otros pronosticadores. Ejemplo: Cuando se predice algo como el éxito académico. Un estudio de pronosticadores potenciales del promedio de calificaciones puede revelar: Correlacionan a) tiempo pasado en la biblioteca, con el promedio deycalificaciones b) tiempo dedicado al estudio c) cantidad de horas de sueño. Entonces ¿Cuál es la forma más eficiente de predecir el promedio de calificaciones? Empleando un enfoque con los principios de la validez incremental, es comenzar con el mejor pronosticador, el pronosticador que se correlaciona de manera más alta con el promedio de calificaciones. Ejemplo: El tiempo dedicado al estudio. Entonces, utilizando técnicas de regresión múltiple, uno analiza la utilidad de los otros pronosticadores. OJO: Aún cuando el tiempo pasado en la biblioteca se correlaciona de manera alta con el promedio de calificaciones, puede no poseer validez incremental si se superpone demasiado con el primer pronosticador. Dicho de otra manera, si el tiempo dedicado al estudio y el tiempo pasado en la biblioteca se correlacionan de manera tan alta entre sí que reflejan en esencia lo mismo, entonces sólo uno de ellos necesita incluirse como pronosticador; incluir ambos proporcionaría poca información nueva sobre uno solo. En contraste, uno puede encontrar que la cantidad de sueño durante los exámenes tiene buena validez incremental debido a que refleja un aspecto diferente de la preparación para los exámenes (descansar) que el primer pronosticador (estudiar). La validez incremental se utiliza para mejora la predicción. Promedio Tiempo en Tiempo de la dedicado al Calificacion biblioteca estudio es Tiempo en la 0,78 * 1 0,96 ** biblioteca Tiempo dedicado al 0,80 * 0,96 ** 1 estudio Horas de sueño 0,67 * 0,12 - 0, 23 (descanso) *. La correlación es significante al nivel 0,05 (bilateral). **. La correlación es significante al nivel 0,01 (bilateral). TASA BASAL y VALIDEZ PREDICTIVA  La teoría de la decisión aplicada a las pruebas y la medición psicológica: tasa base, índice de aciertos, índice de fallas, falso positivo y falso negativo.  Tasa base puede definirse como el grado en que un rasgo, comportamiento, característica o atributo particular existe en la población (se expresa en proporción).  Índice de aciertos (Sensibilidades- Especificidad) puede definirse como la proporción de personas que una prueba identifica con precisión como poseedoras o que exhiben un rasgo, comportamiento, característica o atributo particular. Ej. Proporción de pacientes oncológicos en quienes se identifica con precisión (correctamente) como poseedoras o que exhiben un rasgo, comportamiento, característica o atributo particular. Sensibilidad: Proporción de individuos con la enfermedad que presentan un resultado positivo. Indica lo buena que es la prueba para identificar a las personas enfermas. Especificidad: Proporción de individuos sin la enfermedad que presentan un resultado negativo. Indica hasta qué punto es buena la prueba para identificar a los individuos que no tienen la enfermedad.  Índice de fallas (Falso positivo y falso negativo) puede definirse como la proporción de personas en las que una prueba falla en identificar como que tienen o no tienen un atributo particular.  Falla equivale a una predicción imprecisa.  Falso positivo es una falla en la cual la prueba predijo que quien la respondió posee la característica o atributo particular que se está midiendo.  Falso negativo es una falla en la cual la prueba predijo que quien la respondió no posee la característica o atributo particular que se está midiendo. Aplicación práctica de los procedimientos de Validez: Situación real Casos (+) Control (-) Falso Positivo a b a + b (+) Negativo c d c + d (-) = a+c b+d a+b+c+d Sensibilidad Especificidad Enfermedad Presente Ausente Positiv Verdaderos Total de pruebas Falsos positivos Prueb a positivos positivas a Negati Verdaderos Total de pruebas Falsos negativos va negativos negativas = a+c b+d N Sensibilidad Especificidad  Sensibilidad:  Tasa Base: a/(a+c).100 (a+c)/(a+b+c+d).100  Especificidad:  Valor Predictivo Positivo: d/(b+d).100 a/(a+b).100 Aplicación del MBI en una población con una tasa base “alta” de Sx. de Burnout Situación real Quemado No quemado Falso Resultados Quemado 91 13 104 11,81 (+) de la prueba No quemado 19 97 116 17,27 (-) 110 vs.110 = 110 110 220 82,7% 88,2% Sensibilidad Especificidad  Tasa Base: (110/220).100 = 50%  Sensibilidad: (91/110).100 = 82,7%  Especificidad: (97/110).100 = 88,2%  Falso Positivo: (13/110).100 = 11,81%  Falso Negativo: (19/110).100 = 17,27%  Valor Predictivo Positivo: (91/104).100 = 87,5%  Valor Predictivo Negativo:(97/116).100 = 83,62% Aplicación del MBI en una población con una tasa base “alta” de Sx. de Burnout Situación real Quemado No quemado Falso Resultados Quemado 91 13 104 11,81 (+) de la prueba No quemado 19 97 116 17,27 (-) 110 vs.110 = 110 110 220 82,7% 88,2% Sensibilidad Especificidad Aplicación de la escala CISNEROS en una población con una tasa base “baja” de Acoso Psicológico (Moobing) Situación real Acosado No acosado Falso Resultados Acosado 41 112 153 11,78% (+) de la prueba No acosado 09 838 847 18% (-) 50 vs.950 = 50 950 1.000 82% 88,2% Sensibilidad Especificidad  Tasa Base: (50/1000).100 = 5%  Sensibilidad: (41/50).100 = 82%  Especificidad: (838/950).100 = 88,2%  Falso Positivo: (112/950).100 = 11,78%  Falso Negativo: (09/50).100 = 18%  Valor Predictivo Positivo: (41/153).100 = 26,79%  Valor Predictivo Negativo: (838/847).100 = 98,93% * CISNEROS = Cuestionario Individual sobre Psicoterror, Negación, Estigmatización y VALIDEZ DE CONSTRUCTO Es un juicio de lo apropiado de las inferencias extraídas de las puntuaciones de prueba respecto a posiciones individuales en una variable llamada “constructo”. Un constructo es una idea científica informada elaborada o construida para describir o explicar el comportamiento. Ej. Si la prueba es una medida válida del constructo, quienes obtienen puntuaciones altas y quienes obtienen puntuaciones bajas se comportarán como lo predice la teoría. Evidencia de validez de constructo: Evidencia de Homogeneidad: La homogeneidad, también denominada consistencia interna, por lo general se refiere a lo bien que mide una prueba un solo concepto. Evidencia de cambios con la edad: La naturaleza de algunos constructos es tal que se esperaría que ocurrieran cambios en ellos a lo largo del tiempo. Ej. Comprensión lectora, maduración motriz, etc. Evidencia de cambios preprueba/posprueba: La evidencia que muestra que las puntuaciones de prueba cambian como resultado de alguna experiencia entre una preprueba y una posprueba puede ser evidencia de validez de constructo. Ej. Satisfacción matrimonial, medida poco después de haber contraído nupcias y una posprueba aplicada poco después de solicitar el divorcio (empleando sólo parejas que consultaron abogados especialistas en divorcios para los propósitos del grupo experimental en este estudio). Evidencia de grupos distintos: También conocido como el “método de grupos contrastados”, una forma de proporcionar evidencia de la validez de una prueba es demostrar que las puntuaciones en la prueba varían en una forma predecible como una función de la pertenencia a algún grupo. El razonamiento aquí es que si una prueba es una medida válida de un constructo particular, entonces... las puntuaciones de prueba de grupos de personas que se supone que difieren con respecto a ese constructo tendrían puntuaciones de prueba correspondientemente diferentes. Ej. Grupo de “Casos” (pacientes con Depresión) y grupo de “Control” (estudiantes universitarios sin Depresión). Evidencia convergente: Puede provenir de diversas fuentes, como otras pruebas o medidas diseñadas para evaluar el mismo constructo (o uno similar). Por tanto, si las puntuaciones en la prueba sometida a validación de constructo tienden a correlacionarse altamente en la dirección predicha con las puntuaciones en pruebas anteriores, más establecidas y ya validadas diseñadas para medir..... el mismo constructo (o uno similar), éste sería un ejemplo evidencia convergente. Ej. Satisfacción matrimonial con adaptación matrimonial. Depresión y ansiedad. Evidencia discriminante: Un coeficiente de validez que muestra poca relación (estadísticamente insignificante) entre puntuaciones de prueba y/u otras variables con las que las puntuaciones en la prueba que se está sometiendo a validez de constructo no debería correlacionarse desde el punto de vista teórico proporciona evidencia discriminativa de la validez de constructo. Ej. Neuroticismo y Psicoticismo. Razonamiento verbal y razonamiento matemático.  Análisis Factorial: La evidencia convergente o discriminativa de la validez de constructo puede obtenerse por medio del uso del análisis factorial. Análisis factorial es un término abreviado singular que es usado para describir una clase de procedimientos matemáticos que están diseñados para identificar factores o variables específicas que comúnmente son atributos, características o dimensiones en las que pueden diferir las personas. Un término empleado por lo común en el análisis factorial es la carga factorial. La carga de un factor en una prueba transmite información del grado en que el factor determina la puntuación o puntuaciones de prueba.  Referencia Bibliográfica: Cohen, R. y Swerdlik M. (2001) “Pruebas y Evaluación Psicológicas”. Editorial McGraw Hill. 4ª Edic. México. Hulley S. y Cummings S. (1993) Diseño de la Investigación Clínica. Editorial Doyma. España. Urbina, S. (2007) Test Psicológicos. TEA Ediciones. Madrid.

Validez de un Instrumento - Carlos Riego PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue