Fundamentos de Investigación en Psicología PDF
Document Details
Uploaded by LeadingLead1018
Tags
Summary
This document analyzes the different components of validity in research, including internal, external, statistical conclusion, and construct validity. It examines various threats and factors that can impact the validity of the research findings.
Full Transcript
3.2 EL ANÁLISIS DE LA VALIDEZ: COMPONENTES Y AMENAZAS El análisis de la validez de las conclusiones de una investigación es un juicio sobre el grado de seguridad con el que una inferencia se puede considerar cierta por estar basada en evidencias relevantes. Los juicios sobre la validez no son absolu...
3.2 EL ANÁLISIS DE LA VALIDEZ: COMPONENTES Y AMENAZAS El análisis de la validez de las conclusiones de una investigación es un juicio sobre el grado de seguridad con el que una inferencia se puede considerar cierta por estar basada en evidencias relevantes. Los juicios sobre la validez no son absolutos (es cuestión de grados), como no lo son tampoco los juicios sobre la verdad de las conclusiones de una investigación, que son, en todo caso, solo tentativas y provisionalmente ciertas. El análisis de la validez de la investigación ha llevado a la identificación de posibles errores de procedimiento o limitaciones inherentes a la propia estrategia de investigación, que se consideran amenazas; es decir, problemas que pueden poner en cuestión la veracidad de sus conclusiones. Se identifican como amenazas por sus posibles consecuencias, dado que pueden provocar que el investigador obtenga conclusiones Fundamentos de investigación en Psicología parcial o totalmente equivocadas sobre la relación entre las variables estudiadas, la naturaleza causal de dicha relación, o sobre su generalización a los constructos teóricos o a otras poblaciones o situaciones. El análisis conceptual de la validez y de sus posibles amenazas es importante para el investigador y tiene la doble función de: 1. Ayudar al investigador a resolver problemas que pueden limitar la validez de sus conclusiones. Conociendo sus riesgos, el investigador en la planificación de la investigación puede anticipar las amenazas y manejar las condiciones del estudio para evitarlas, bien sea introduciendo controles que minimicen la posibilidad de que ocurran, o incluyendo en el estudio estrategias complementarias que permitan poner a prueba y descartar hipótesis explicativas alternativas. 2. Desarrollar nuestra capacidad crítica, tanto para extraer las conclusiones correctas (es decir, adecuadas al alcance y posibilidades del estudio realizado) como para valorar, en la lectura de artículos o informes, la adecuación y el alcance de las conclusiones de esos trabajos. En este tema trataremos el concepto de validez a partir de la sistematización original de Cook y Campbell (1979), pero teniendo en cuenta también aportaciones de la revisión posterior de Shadish et al. (2002). Estos autores identifican cuatro componentes de la validez, estrechamente relacionados entre sí. De esta forma, se plantea el análisis de la validez de una investigación en función de grado de seguridad de sus conclusiones sobre: a) la relación entre las variables estudiadas (validez de conclusión estadística), b) la naturaleza causal de dicha relación (validez interna), c) su utilidad para el conocimiento sobre los constructos teóricos (validez de constructo), y d) sus posibilidades de generalización a otras poblaciones o situaciones (validez externa). A continuación, expondremos los cuatro componentes de la validez de las conclusiones de un estudio y un análisis de sus principales amenazas. Este análisis no es exhaustivo, sino una selección de las principales amenazas en pro de la claridad y la adecuación del contenido de este capítulo a las necesidades específicas del programa de la asignatura. Presentaremos los cuatros componentes de la validez, siguiendo un orden próximo a los procesos de decisión del investigador en el diseño y la realización de un estudio. En la planificación de un proyecto y el desarrollo de una investigación el investigador debe tener en cuenta elementos muy diversos y tomar muchas decisiones. Del acierto de todas y cada una de estas decisiones dependerá que el estudio realizado proporcione resultados útiles y permita extraer conclusiones válidas. Comenzaremos, por tanto, por el análisis de la validez de constructo que juzga fundamentalmente el análisis teórico del constructo y las decisiones de cómo definirlo operativamente para poder estudiarlo. Veremos después la validez interna, cuyas amenazas están ligadas especialmente a las decisiones de procedimiento; para seguir con la validez de conclusión estadística, relacionada con la calidad de las medidas y la adecuación de las decisiones en el análisis de los datos; y terminaremos con el análisis de la validez externa, que nos lleva a juzgar el grado en que las conclusiones del estudio se pueden hacer extensivas a otras personas o situaciones distintas de las del estudio realizado. Si bien la reflexión sobre la validez a través de sus cuatro componentes facilita su comprensión y el análisis pormenorizado de sus posibles amenazas, es importante tener en cuenta que estas diferentes facetas de la validez no son módulos estancos e independientes, sino que están estrechamente relacionadas entre sí, y el resultado global es la combinación de todos ellos (Figura 3.1). En el análisis de la validez juzgamos el grado de certeza o seguridad de las conclusiones de una investigación, que son fruto del conjunto combinado de las decisiones del investigador en la planificación y la realización de cada una de las fases del estudio. Fundamentos de investigación en Psicología 3.2.1 Validez de constructo Las teorías psicológicas están constituidas por entramados lógicos que relacionan conceptos teóricos o constructos. A partir de la teoría se plantean las hipótesis o predicciones relacionadas con esos constructos. Para ser sometidas a comprobación empírica las hipótesis tendrán que incorporar los constructos definidos de forma operativa; esto es, traducidos en indicadores que puedan ser observables o medibles. La situación que se plantea es la siguiente. Los científicos llevamos a cabo estudios empíricos con el fin de contribuir al mejor conocimiento de un determinado fenómeno o problema de estudio. Las conclusiones de estos estudios serán más útiles si la información que proporcionan sus resultados se puede conectar con los conceptos (constructos) y argumentos del modelo teórico, para reforzar la teoría o ponerla en cuestión e, incluso, a través de ella, poder extraer aplicaciones prácticas. Pero los constructos son conceptos abstractos y los investigadores hacemos estudios sobre aspectos concretos; elegimos condiciones, situaciones, participantes y formas de medida específicas. La importancia de esas decisiones sobre los aspectos concretos del estudio está, entre otras cuestiones, en que son la vía por la que se definen de forma operativa los constructos que queremos estudiar y, así, poder analizarlos a través de esas condiciones y medidas. Los constructos son conceptos abstractos no observables directamente (p. ej., reputación, ansiedad, inteligencia, estrés, etc.), pero que podemos inferir de manera indirecta a través de situaciones que nos pueden informar de su presencia y de su grado o magnitud. La correcta definición operativa de los constructos es lo que permitirá conectar los resultados de la investigación con la teoría y las hipótesis derivadas de ella. Una correcta definición exige una adecuada comprensión y explicación del constructo en su complejidad, que permita desarrollar indicadores del constructo e, incluso, elaborar instrumentos para su evaluación y medida. Esta definición operativa supone realizar una delimitación conceptual lo más precisa posible y su concreción acertada en tareas o preguntas que se atengan a su contenido. Así, por ejemplo, en el estudio del inicio del capítulo, si la investigación está orientada a constatar la importancia que damos a la reputación moral y nuestra disposición a realizar sacrificios para protegerla, los investigadores deben plantear preguntas y situaciones sobre ese dilema y evitar generar confusión con conceptos próximos como, por ejemplo, el «sentimiento de vergüenza». Confusión que podría aparecer si en lugar de darles a elegir a los estudiantes entre difundir sus rasgos racistas o participar en un estudio con vivencias desagradables o dolorosas, se les preguntara sobre cómo se sentirán cuando se difundan sus puntuaciones de racismo; ya que, en Validez de las conclusiones de la investigación este segundo caso, se les estaría preguntando por emociones asociadas a la pérdida de reputación, como es la vergüenza. El logro de la adecuada delimitación conceptual de un constructo depende del acierto del investigador en su análisis y decisiones, pero también del grado de avance de la propia teoría y de la acumulación de evidencias científicas sobre el concepto que esta haya logrado. En el Capítulo 1 pusimos como ejemplo de constructo la creatividad. Este es un constructo complejo, difícil de definir, pero sobre el que se han elaborado diversas teorías que han servido para proponer indicadores (p. ej., la fluidez de pensamiento y su flexibilidad, la elaboración y la originalidad; Rodríguez, 1997), que a su vez han permitido el desarrollo de pruebas para evaluar y recoger datos. Así por ejemplo, Torrance (1966) desarrolló un test (TTCT: Torrance Tests of Creative Thinking) que marcó un hito en el estudio de este constructo y que mantiene aún su vigencia (al menos para fines de investigación). Este test evalúa la creatividad planteando al participante problemas que ponen a prueba las capacidades consideradas por este autor como componentes básicos de la creatividad, esto es, la capacidad para identificar lagunas en la información, formular y probar hipótesis acerca de los defectos y lagunas encontrados, producir nuevas ideas y recombinarlas, proponer varias alternativas para la solución de problemas y comunicar los resultados. Los datos obtenidos con la aplicación del test son considerados medidas de la creatividad de las personas evaluadas, y los resultados de los estudios que lo hayan utilizado habrán contribuido a enriquecer nuestro conocimiento sobre la creatividad y su relación con factores de personalidad, cultura, educación, etc., en la medida en que ese constructo haya sido hecho operativo correctamente a través de este test. La validez de constructo de un estudio valora la posibilidad de extraer de los resultados obtenidos conclusiones aplicables a los constructos generales que hemos tratado de estudiar a través de las situaciones concretas elegidas (variables, condiciones y formas de medida). Es decir, la validez de constructo se basa en el grado de correspondencia entre las variables observadas y el constructo teórico que se quiere medir. La validez de constructo dependerá entonces del acierto del investigador en las decisiones de cómo concreta operativamente los constructos de su problema de estudio, tanto en la forma de manejo de las variables manipuladas como en la medida de las variables evaluadas. Ese acierto depende, en inicio, de la correcta comprensión de los constructos, de la delimitación del constructo dentro de la teoría y en su relación con otros conceptos. En definitiva, los pilares básicos de la validez de constructo son: una buena comprensión y explicación de los constructos implicados y la adecuación de su forma de evaluación. Fundamentos de investigación en Psicología 3.2.1.1 Amenazas a la validez de constructo Se consideran amenazas a la validez de constructo de un estudio la inadecuada comprensión y definición de los constructos y la inadecuación de su evaluación. Fallos en la comprensión y definición (explicación) del constructo pueden llevar al investigador a no contemplar aspectos relevantes, a considerar cuestiones irrelevantes para ese constructo o a obtener una visión parcial e incompleta, y fallos en la elección de los indicadores pueden llevar a desarrollar instrumentos de evaluación inadecuados para el estudio de ese constructo. Otra fuente de problemas que pueden limitar el valor de las conclusiones de un estudio, como contribución al conocimiento sobre un constructo, está relacionada con el hecho de que buena parte de la investigación psicológica se realiza con humanos, y estos, al ser conscientes de su participación, pueden modificar su respuesta por reactividad a la propia situación de estudio. El simple hecho de estar participando en una investigación, de sentirse observados o evaluados, puede producir reactividad y llevar a los participantes a comportarse de forma diferente a como lo harían en la realidad natural. El problema que se plantea es que las respuestas de los participantes no dependen solo de la influencia de la variable manipulada o tratamiento, sino de su propia percepción de la situación de investigación. Los participantes en un estudio pueden responder en función de lo que ellos consideran que procede o que sería esperable que les ocurriese (p. ej., mejorar en sus síntomas, mejorar en su rendimiento, cometer errores en la tarea, etc.); es decir, su comportamiento puede verse influido por su adivinación de la hipótesis o las características de la demanda que infieren de la condición experimental que les ha correspondido. En ocasiones, según el tipo de situación o de preguntas que se les planteen, los participantes pueden ocultar sus verdaderas ideas o inhibir su comportamiento espontáneo para tratar de ajustarse a lo que consideran que sería socialmente más adecuado; esto es, su comportamiento respondería a lo que denominamos deseabilidad social. Sus respuestas pueden resultar también influidas por las expectativas del experimentador, que puede transmitir de forma no intencional (a través de su tono de voz, gestos, cambios de postura, etc.) los resultados esperados. Entre las recomendaciones más habituales para evitar que la reactividad se convierta en una amenaza a la validez están: a) planificar al máximo todos los aspectos de información y contacto con los participantes en el procedimiento (información previa, instrucciones, respuestas a posibles preguntas o ante incidentes, etc.); b) reducir al mínimo las interacciones del investigador con los participantes; c) evitar evaluaciones pretratamiento innecesarias que puedan dar pistas a los participantes de los objetivos e hipótesis del estudio; d) utilizar grupo control con placebo, cuando sea posible; e) utilizar los procedimientos ciego (desconocimiento de los objetivos y condiciones de la investigación por parte de los participantes) y doble ciego (desconocimiento de los objetivos y la condición experimental del participante también por parte del experimentador que interactúa con él y analiza los datos). Debemos tener en cuenta que si bien la reactividad se considera una amenaza a la validez de constructo de las conclusiones, puede serlo también para la validez interna del estudio, especialmente si puede afectar de forma diferente a los participantes de unas u otras condiciones experimentales. Por tanto, el adecuado control de las amenazas relacionadas con la reactividad es importante para asegurar tanto la validez de constructo como la validez interna del estudio. En la Tabla 3.1 podemos ver un resumen de las principales amenazas a la validez de constructo. 3.2.2 VALIDEZ INTERNA El concepto de validez interna, tal como fue formulado por Cook y Campbell (1979), está estrechamente ligado a la idea de causalidad, bajo el supuesto de que la Fundamentos de investigación en Psicología capacidad explicativa de una ciencia será mayor en la medida en la que pueda llegar a identificar relaciones causales en su análisis de los fenómenos. La valoración de la validez interna de las conclusiones de un estudio se basa en el grado de seguridad que proporciona el estudio para poder concluir que la relación detectada entre las variables refleja una relación de causalidad. El método experimental constituye la estrategia de investigación que más garantías ofrece para poner a prueba hipótesis causales. En la experimentación se generan las condiciones de estudio a través de la manipulación directa de la variable independiente, se mide su efecto sobre la variable dependiente y se ejerce control sobre aquellas variables potencialmente contaminadoras de los resultados (variables extrañas). Sin embargo, en la medida en que en una investigación (por la naturaleza de las variables o por las condiciones del contexto) disminuyan las posibilidades de manipular las variables y garantizar estas condiciones de control de la situación, también disminuirá la posibilidad de extraer conclusiones seguras de relaciones de causalidad entre las variables estudiadas. De hecho, el análisis de la validez interna de las conclusiones de una investigación solo tiene verdadero sentido en el análisis de estudios que tengan el propósito y las condiciones de extraer conclusiones de relaciones de causalidad entre las variables estudiadas, es decir, en los experimentos o cuasiexperimentos, pág. 126. 3.2.2.1 Amenazas a la validez interna En coherencia con el planteamiento anterior, se identifican ciertos riesgos como amenazas a la validez interna; es decir, se anticipan problemas que podrían afectar negativamente a la seguridad de las conclusiones sobre la relación causal de las variables, y que podemos tratar de evitar aplicando procedimientos de control que los neutralicen. Veamos, entonces, las principales amenazas a la validez interna, que encontrará resumidas en la Tabla 3.2. 1) Si no hay seguridad sobre qué variable ocurre primero y cuál después, aunque detectemos que esas variables están relacionadas no podremos identificar cuál de ellas es la causa y cuál refleja el efecto. Cuando el investigador puede manipular la variable independiente (VI), generando una situación en la que la introduce para evaluar sus efectos en la variable dependiente (VD), puede garantizar la relación antecedente- consecuente entre estas dos variables. Sin embargo, en los estudios en los que la variable no es manipulable no se puede garantizar esta contingencia temporal Validez de las conclusiones de la investigación (p. ej., estudios ex post facto). Se produce, entonces, una importante amenaza a la validez interna por la ambigüedad de la contingencia antecedente-consecuente. Un ejemplo ilustrativo de esta dificultad podría ser el estudio de la relación entre la autoestima y el rendimiento académico en estudiantes de secundaria. Estaremos de acuerdo en que son dos cuestiones relacionadas, pero la cuestión es cómo es esa relación. Podemos encontrar modelos teóricos que nos hagan considerar que una autoestima elevada lleva a afrontar la tarea de estudio con confianza y motivación, y que esto se reflejará en buenos resultados en la evaluación académica. Pero también podemos considerar que la experiencia de buenos resultados académicos contribuye positivamente al desarrollo de la autoestima, y que los fracasos pueden acabar minando la autoestima del que los sufre. ¿Cuál es entonces la dirección de esa relación? ¿Qué podemos considerar como causa y cuál como efecto? Para tratar de avanzar en el conocimiento de esta relación un investigador se plantea realizar un estudio con 200 adolescentes de diversos centros educativos, en el que primero evaluará su autoestima (a principio de curso del tercer año de educación secundaria) para estudiar su relación con las notas que obtengan tres meses después (en la primera evaluación del curso). Cree que al hacerlo de esta forma, si encuentra que estas dos variables están positivamente relacionadas (valores altos de autoestima se corresponden con calificaciones altas y valores bajos con calificaciones bajas), podrá concluir que es la autoestima la que favorece el buen rendimiento académico y no al revés. Sin embargo, su pretensión hace aguas por el tipo de estudio; un estudio en el que la variable independiente no es manipulable sino que forma parte de la realidad y la historia vital de sus participantes. El hecho de haber medido antes la autoestima, si bien fue una buena idea, no es suficiente para garantizar la relación antecedente- consecuente entre ella y el rendimiento académico. Aunque utilicemos las calificaciones posteriores a la evaluación de la autoestima, estos adolescentes tienen ya una historia vital de éxitos o dificultades académicas que forman parte de su experiencia y que han ido configurando su autoestima. ¿No será su rendimiento académico de los cursos anteriores lo que explica su nivel de autoestima a principios de este curso? Resulta difícil descartar esta hipótesis alternativa solo con los datos de este estudio. A pesar de la buena estrategia aplicada por el investigador, las limitaciones de este tipo de estudios de variables de selección de valores hacen que el simple orden de las evaluaciones no pueda resolver con seguridad el problema de la ambigüedad de la relación antecedente-consecuente entre las variables estudiadas. 2) Si existen diferencias sistemáticas en las características de los participantes previas a la aplicación del tratamiento (VI), estas podrían explicar las diferencias Fundamentos de investigación en Psicología posteriores encontradas y confundirse con el efecto del tratamiento. Las conclusiones del efecto de la VI se basan en la comparación de los resultados obtenidos en la VD de grupos de participantes que han sido sometidos a la influencia de la VI en condiciones distintas (sea simplemente ausencia o presencia de la VI o distintas condiciones de aplicación); por tanto, estos grupos deben ser lo más parecidos posible para poder concluir que las diferencias encontradas en la VD se deben, con seguridad, a la influencia de la VI y no a diferencias previas existentes. Si no podemos garantizar esta equivalencia inicial de los grupos, la validez de las conclusiones será cuestionable por la selección diferencial de los grupos. Como veremos con más detalle en el Capítulo 4, entre los recursos de control propios de la metodología experimental ocupan un lugar fundamental las técnicas utilizadas para garantizar la equivalencia inicial de los grupos (aleatorización, bloques, equiparación o el sujeto como control de sí mismo). Sin embargo, en los estudios identificados como cuasiexperimentales (que trataremos en el Capítulo 6) el investigador no puede aplicar estas técnicas de control, por lo que debe ser consciente y tener en cuenta las posibles consecuencias de la amenaza de la selección diferencial en la planificación del estudio y, en especial, en la interpretación de los resultados y en sus conclusiones. Veamos esto con un ejemplo. Un estudiante de psicología se propuso conocer si el deporte en equipo es una actividad eficaz para mejorar la regulación emocional. Algunos estudios habían mostrado que las situaciones de cooperación y competitividad que se producen en el juego en equipo podrían favorecer tanto la capacidad de inhibición como de expresión emocional. Aprovechando su colaboración en las actividades extraescolares de un centro educativo se ofreció para entrenar él mismo el equipo de futbol del colegio, y así poder hacer énfasis en los entrenamientos en esos aspectos de regulación emocional. Con el fin de tener un grupo con el que comparar los resultados seleccionó a otro grupo de niños de la misma edad, que hacían otro tipo de actividades extraescolares, pero no deportes de equipo. El primer grupo, el equipo de fútbol, estaba compuesto mayoritariamente por niños varones, en cambio, en el otro grupo (que hacían otro tipo de actividades) la mayoría eran niñas. Transcurridos varios meses, durante los que había estado realizando el entrenamiento del equipo de futbol haciendo énfasis en el control emocional, aplicó a los/as niños/as de ambos grupos una prueba para evaluar su regulación emocional. Los resultados indicaron que no había diferencias entre los dos grupos. Por tanto, su conclusión fue que el deporte en equipo no fomenta la regulación emocional. ¿Es válida esta afirmación? ¿Qué problemas tiene este estudio? La respuesta es que la afirmación no Validez de las conclusiones de la investigación es válida, porque los resultados de este estudio tienen problemas de validez interna, entre los que destaca la amenaza de contaminación de los datos por selección diferencial. Los grupos no son comparables, las diferencias de género existentes entre ellos pueden estar enmascarando el efecto de la intervención (la actividad de deporte de equipo) y llevando al investigador a conclusiones erróneas. 3) Aunque hayamos organizado los grupos aplicando técnicas de control que garanticen su equivalencia inicial, si en el transcurso del estudio hay pérdida de participantes, esta puede generar efectos que se confundan con el efecto del tratamiento. El riesgo que plantea la pérdida de participantes como amenaza a la validez interna no está en el simple hecho de que disminuya la muestra; su peligro fundamental está en que esta pérdida afecte de manera selectiva a algunas de las condiciones experimentales. Si esta pérdida no es aleatoria y afecta de forma diferente a los distintos grupos, la equivalencia inicial que habíamos logrado puede resultar dañada y las diferencias en la VD ya no podrían ser atribuidas con seguridad a la influencia de la VI. En el caso de los diseños intragrupo, la aplicación secuencial de todas las condiciones experimentales a los mismos participantes puede generar riesgos de abandono por aburrimiento o complicaciones sobrevenidas que interrumpan su participación y que esta pérdida de información afecte negativamente a algunas de las condiciones que quedaron pendientes de aplicar. 4) Si los participantes son seleccionados porque presentan valores extremos en la medida de una variable, pueden presentar de forma natural puntuaciones menos extremas en una segunda medición, y este cambio puede confundirse con el efecto del tratamiento. Este riesgo se basa en el supuesto de que las puntuaciones extremas pueden deberse a circunstancias excepcionales que se den en el momento de medida. Dado lo improbable de que esas circunstancias se repitan en una segunda medida, los valores podrían dejar de ser tan extremos de forma espontánea y que en las siguientes medidas estos mismos participantes presenten valores más próximos a la media, entendiendo que este sería su lugar natural. De ahí la denominación de esta amenaza como regresión a la media. Esta amenaza será especialmente un riesgo en aquellos estudios en los que los participantes hayan sido seleccionados por presentar puntuaciones extremas en la variable de interés (criterio de inclusión en la muestra). Para evitar el riesgo de confusión de este fenómeno con el efecto del tratamiento, los expertos recomiendan no realizar la selección de los participantes basándonos en sus puntuaciones extremas en una sola medida, sino aplicar una segunda medida y utilizar la media de ambas como dato para aplicar el criterio de selección (León y Montero, 2015). Fundamentos de investigación en Psicología Una vez más utilicemos un ejemplo ficticio para ilustrar esta amenaza. Un profesor, nuevo en el instituto, fue advertido de que la clase que se le había asignado tenía dificultades con las matemáticas. Así que planificó una estrategia para ayudar a los estudiantes que tenían problemas con esta asignatura. Con este grupo trabajaría las reglas y problemas de Lógica en una clase extra, mientras que el resto del grupo sin problemas con la asignatura seguiría la enseñanza tradicional. Con el objetivo de seleccionar a los alumnos con dificultades, el profesor hizo un examen de matemáticas, a toda su clase, a última hora del viernes de la segunda semana del curso. A final de la primera evaluación comprobó que se había producido una gran mejoría en el dominio de las matemáticas en el grupo con dificultades que había seguido la clase extra de Lógica, llegando casi a igualarse con los del otro grupo. De acuerdo a estos resultados, ¿podríamos decir que el complemento de las clases de Lógica fue eficaz? ¿Cree que la decisión de poner un examen el viernes a última hora podía ofrecer resultados seguros sobre las auténticas competencias o dificultades de sus alumnos con las matemáticas? Posiblemente algunos de los alumnos que obtuvieron malos resultados en esa prueba inicial y que fueron identificados como alumnos con dificultades, podrían haber obtenido mejores resultados de haber realizado la prueba en mejor momento. La consecuencia es que la supuesta mejoría del grupo puede ser confusa, porque en realidad no todos los que componían ese grupo tenían verdaderas dificultades; sus puntuaciones iniciales no eran fiables, simplemente aquel viernes de la evaluación pretratamiento estaban cansados, distraídos o muy poco motivados. De esta forma, los mejores resultados que obtuvo el grupo en matemáticas en la evaluación del trimestre podrían estar contaminados por la regresión a la media de las puntuaciones de algunos de sus miembros, y, en consecuencia, las conclusiones del profesor sobre la eficacia de su método no serían válidas. 5) Si se producen cambios en la forma de medir la VD o en la precisión de las medidas, que afecten de manera diferente a las condiciones de tratamiento, estos cambios pueden confundirse con el efecto del tratamiento. Esta amenaza es conocida como instrumentación. Los fallos en la precisión de las medidas, sea por mala calidad métrica de los instrumentos o por fallos en el procedimiento de aplicación, son una fuente de error que puede afectar a los resultados de forma diferente. Si estos fallos de medida afectan a todos los participantes o se producen de forma aleatoria serán una fuente de error aleatorio que dificultará la posibilidad de obtener resultados seguros sobre la existencia o no de covariación entre las variables; esto lo identificaremos como errores de medida y, como veremos más adelante, afectarían a la validez de conclusión estadística del estudio. Sin embargo, si los fallos en la forma Validez de las conclusiones de la investigación de aplicación o en la precisión de las medidas afectan de forma diferente a las distintas condiciones experimentales del estudio, su efecto se confundirá con los efectos del tratamiento y puede llevar a extraer conclusiones erróneas sobre la relación entre la variable independiente (VI) y la variable dependiente (VD). Este problema es lo que se identifica como la amenaza a la validez interna denominada instrumentación, y es perfectamente evitable si aseguramos que la medición de la VD se realice de forma sistemática y precisa (con los mismos instrumentos y que sean fiables), en todos los momentos de la investigación y para todos los participantes. Siguiendo con el ejemplo anterior, supongamos que el profesor en la evaluación del trimestre (mediante la cual pretendía comprobar los avances de su clase en matemáticas y la eficacia de su programa complementario de Lógica) para evitar que sus alumnos copien en el examen prepara dos modelos distintos, modelos A y B. Durante la corrección los exámenes es cuando se da cuenta de que uno de los modelos tenía un problema que lo hacía bastante más difícil que el otro. ¿Qué consecuencias tendría que por su ubicación en el aula la mayoría de los alumnos/as del grupo con la actividad extra de Lógica hubiese hecho el modelo A, y la mayoría del otro grupo el modelo B? Si efectivamente esto fue así y un modelo de examen era más difícil que el otro, esta situación podría haber contaminado los resultados, ya sea enmascarando los efectos positivos del trabajo extra con Lógica (si a ese grupo les hubiera tocado mayoritariamente el modelo difícil) o sobreestimándolos (si les hubiera tocado el más fácil). El profesor tendría que comprobar cómo han quedado distribuidos los dos modelos de exámenes entre los grupos, porque de asociarse de forma mayoritaria un modelo con un grupo los datos estarían contaminados por un problema de instrumentación y, en consecuencia, debería cuestionarse la validez interna de sus conclusiones sobre la eficacia de su método de trabajo. 6) Acontecimientos externos que ocurran de forma simultánea a la aplicación del tratamiento (VI) podrían tener efectos que se confundieran con los efectos del tratamiento. Ciertos acontecimientos, si pueden influir en la variable dependiente, se convierten en variables extrañas cuyo efecto puede contaminar los datos. Esta amenaza es conocida como historia. Retomemos una vez más el ejemplo del profesor de matemáticas y sus clases extras de Lógica. Supongamos que recién iniciado su programa de refuerzo con clases extra, el director anuncia que el colegio está inscrito en un concurso de matemáticas. Podemos pensar que esta circunstancia externa a la investigación (historia) motiva de forma extraordinaria a los estudiantes a trabajar y a mejorar en Fundamentos de investigación en Psicología esta área. Este acontecimiento ha podido arruinar el estudio de nuestro profesor sobre la eficacia de su método. Aunque al analizar los resultados de la evaluación trimestral encontrara una notable mejoría de sus alumnos/as en matemáticas, tendría dificultades para poder atribuirla con seguridad al efecto de su intervención. Los datos estarán contaminados por el posible efecto de motivación que ha generado el concurso, lo que le impedirá extraer conclusiones válidas sobre la eficacia de su programa. Una vez más debemos considerar que si estos acontecimientos afectan de forma diferente a los distintos grupos o condiciones, el riesgo de confusión con el tratamiento es mayor y especialmente dañino para la validez interna del estudio. Esta amenaza de que la historia afecte de forma diferencial a los grupos que comparamos se denomina historia local (interacción selección x historia), y como veremos más adelante, es un riesgo que merece especial atención en los estudios de carácter cuasiexperimental. Buena parte de las técnicas de control propias de la metodología experimental (diseños experimentales) están orientadas a garantizar que las condiciones generales en las que se realiza el estudio sean comunes y constantes para todos los participantes (técnicas de eliminación y constancia), con la única excepción de aquellas que diferencian las condiciones experimentales por aplicación de los distintos niveles de la VI. La realización de los experimentos en entornos asépticos (laboratorios) facilita la aplicación de estas técnicas y el control de estos riesgos. De esta forma, se entiende que un experimento correctamente realizado ha debido poder controlar el riesgo de interferencia de acontecimientos externos (historia) que hubiesen podido contaminar los resultados. Por el contrario, la investigación cuasiexperimental tiene lugar usualmente en los entornos habituales de los participantes, en los que el riesgo de acontecimientos externos concurrentes con la intervención que realiza el investigador es mayor. En los estudios cuasiexperimentales, el investigador debe estar especialmente atento a este riesgo y valorar en los resultados si hay indicadores de posibles interferencias de acontecimientos externos, por ejemplo, analizando los cambios en las medidas de antes y después del tratamiento no solo en el grupo con intervención sino también en el grupo de control. 7) Los cambios psicobiológicos que se producen de forma natural con el paso del tiempo pueden confundirse con los efectos del tratamiento. Esta amenaza, denominada maduración, es más probable en los estudios de larga duración y, en especial, cuando los participantes están en etapas evolutivas de cambios notables (por ejemplo, Validez de las conclusiones de la investigación niños y adolescentes), en los que el mero paso del tiempo provoca cambios biológicos y psicológicos que pueden reflejarse en la VD y confundirse con el efecto de la VI. Volvamos al ejemplo sobre el estudio de la actividad de deporte en equipo como medio para favorecer la regulación emocional. Supongamos que otro estudiante decide aplicar una estrategia distinta y, en lugar de comparar dos grupos, decide implementar un programa de entrenamiento solo a un grupo de niños. Para comprobar la eficacia de su programa evaluará a sus alumnos en su regulación emocional antes de iniciar los entrenamientos (medida pretratamiento) y al final del curso académico volverá a evaluarlos (medida postratamiento), y analizará los resultados. En este caso el problema que se plantea es que los cambios de mejora que encuentre en los chicos (que han seguido el programa pero que también están en pleno proceso de desarrollo) pueden deberse sencillamente a cambios madurativos en su control emocional fruto de su desarrollo evolutivo. Por tanto, no debería extraer conclusiones sobre la eficacia de su programa de entrenamiento simplemente comparando las medidas de esos chicos a principio de curso y 9 meses después, ya que la maduración sería una fuente de confusión que podría invalidarlas. La inclusión de grupos de control en el estudio es uno de los elementos básicos para el control de esta amenaza, en la medida en que si se producen cambios naturales por maduración, estos se manifestarán también en el grupo de control. Esto permitirá al investigador tener conocimiento de la existencia o no de maduración y además poder comprobar si el grupo con intervención tiene resultados más notorios que el grupo control (a pesar de los cambios comunes en los dos grupos debidos al efecto de la maduración). De esta forma y si se dan estas condiciones, podrá atribuir los cambios más notorios del grupo con intervención al efecto del tratamiento. 8) La aplicación de una prueba puede alterar las puntuaciones que se obtengan en administraciones posteriores de esa misma prueba, y este efecto puede confundirse con el efecto del tratamiento. En determinados estudios se realiza la evaluación de la variable dependiente en repetidas ocasiones, y esta repetición de pruebas puede convertirse en una amenaza a la validez interna en la medida en que pueda generar una sensibilización (p. ej., por adivinación de la hipótesis) o familiarización de los participantes con las pruebas (aprendizaje), que afecte a los resultados del tratamiento. Esta amenaza puede estar ligada a la aplicación de medidas pre y postratamiento, es decir, a la aplicación de una prueba que mida la variable dependiente antes de la aplicación del tratamiento, con el fin de comprobar la equivalencia de los grupos o de poder obtener información del cambio que produce el tratamiento. Esta medida previa al tratamiento puede sensibilizar a los participantes a ciertos aspectos del estudio y cambiar (intensificando o disminuyendo) el efecto del tratamiento. Por tanto, es importante valorar si existe ese riesgo y si compensa Validez de las conclusiones de la investigación asumirlo en comparación con la información que puede proporcionar esa medida pretratamiento. Otra situación en la que se produce una repetición de medidas es cuando utilizamos una estrategia intragrupo/intrasujeto, en la que todas las condiciones experimentales son aplicadas de forma secuencial al mismo grupo de participantes. En este tipo de diseños es fundamental aplicar las técnicas de control del orden de aplicación (se explicarán en el Capítulo 4), para evitar que los efectos de esta práctica repetida se asocien de forma particular con unas u otras condiciones experimentales y que puedan confundirse con el efecto de dichas condiciones. 9) Por último, conviene tener en cuenta que el impacto de estas amenazas puede ser aditivo o de interacción (que puede producir un efecto distinto a la simple suma de las amenazas) y que su efecto de confusión con la VI puede variar según su combinación. 3.2.3 Validez de conclusión estadística La validez de conclusión estadística se refiere a la seguridad de las inferencias (conclusiones) estadísticas sobre la relación entre las variables; es decir, sobre si las variables del estudio covarían y sobre la fuerza de esa covariación. Estas inferencias se realizan a través del análisis estadístico de los datos, y la seguridad de los resultados de esos análisis va a depender de la calidad de las medidas que tengamos y de la adecuación y potencia de las técnicas estadísticas utilizadas. Si las medidas obtenidas no son fiables y las técnicas estadísticas aplicadas no se adecúan a la naturaleza de los datos, los análisis estadísticos pueden concluir incorrectamente que las variables covarían cuando en realidad no lo hacen (Error Tipo I) o que no covarían cuando en realidad sí lo hacen (Error Tipo II); y también pueden valorar incorrectamente la magnitud o fuerza de esa covariación, bien sea porque la sobreestimen o porque la infraestimen. 3.2.3.1 Amenazas a la validez de conclusión estadística Destacaremos entre las posibles amenazas a la validez de conclusión estadística: los errores de medida, la restricción del rango de variabilidad de las variables, la aplicación de pruebas estadísticas inadecuadas y la baja potencia estadística. Veamos a continuación las características de estas amenazas, que se recogen de forma resumida en la Tabla 3.3. Fundamentos de investigación en Psicología Los errores de medida debilitan la capacidad de los análisis para detectar correctamente las covariaciones de las variables. Los fallos en la precisión de las medidas, sea por mala calidad métrica de los instrumentos o por fallos en su aplicación, son una fuente de error que dificultará la posibilidad de obtener resultados seguros sobre la existencia o no de covariación entre las variables. Incluso aunque estos errores se repartan de forma aleatoria y no afecten de forma diferente a unas u otras condiciones (situación que ya hemos tratado como la amenaza a la validez interna denominada instrumentación) introducirán «ruido» en los datos, que dificultará la obtención de resultados significativos. Se recomienda, por tanto, el uso de instrumentos de medida (tests, cuestionarios u otros) con calidad métrica comprobada, que nos garanticen la fiabilidad de los datos; así como, la aplicación de estrategias que aseguren la correcta evaluación, codificación y grabación de los datos. Restricción del rango de variabilidad. Si los valores que presentan las variables están restringidos a un rango de variabilidad muy pequeño se puede ver afectada negativamente la potencia estadística de las pruebas, dificultando que se detecten las covariaciones entre las variables. Claros ejemplos de este problema son los denominados efecto suelo y efecto techo de la variable dependiente. Decimos que se produce un efecto suelo cuando todos los participantes del estudio presentan en sus puntuaciones los valores más bajos de la variable dependiente o muy cercanos a ellos. Y, decimos que se produce efecto techo cuando todos los participantes del estudio puntúan en torno a los valores máximos de la variable dependiente. Por ejemplo, difícilmente podremos obtener resultados estadísticos que demuestren la relación entre el número horas de estudio (VI) y el rendimiento académico en una asignatura (VD) si el examen resulta tan difícil que todos los estudiantes sacan notas entre 0 y 2 (efecto suelo), o si resulta tan fácil que todos obtienen notas sobresalientes, 9 o 10 (efecto techo). Con la realización de estudios piloto previos, con solo algunos participantes pero aplicando los instrumentos de medida previstos, se pueden detectar estos posibles efectos, lo que permitiría al investigador tomar decisiones a tiempo para evitar que afecten al estudio definitivo. Inadecuación de las pruebas estadísticas. Las pruebas estadísticas aplicadas deben ser las adecuadas a la naturaleza de los datos obtenidos. Debemos tener en cuenta para su elección los objetivos y características del estudio, pero también aspectos como el nivel de medida de las variables, que los datos cumplan con determinados supuestos que exigen algunas pruebas y la independencia o dependencia de los datos. Por ejemplo, si nuestro estudio ha seguido una estrategia intergrupos en la que distintos grupos de participantes han sido sometidos a distintas condiciones experimentales, para comparar los resultados obtenidos en dichas condiciones tendremos que recurrir a pruebas para medidas independientes (provienen de distintos participantes y, por tanto, las medidas no tiene relación entre sí); mientras que si hemos seguido una estrategia intragrupo, en la que a todos los participantes se les aplican todas las condiciones experimentales debemos utilizar pruebas para medidas repetidas o relacionadas, ya que los datos provienen de los mismos participantes que han sido evaluados varias veces. Esto es solo un ejemplo sobre uno de los diversos aspectos a tener en cuenta en la elección del estadístico. El análisis más detallado de estos aspectos forma parte de los contenidos de la estadística inferencial, y, por tanto, será objeto de estudio en la asignatura Diseños de investigación y análisis de datos. Baja potencia estadística. Un estudio con baja potencia estadística puede llevarnos a concluir erróneamente que no existe relación significativa entre las variables. La potencia estadística se refiere a la capacidad de una prueba estadística para detectar en los datos de un estudio la covariación entre las variables. La potencia estadística depende de varios factores entre los que se encuentran el tamaño de muestra, la variabilidad de las medidas, la elección de la prueba adecuada, el tamaño del efecto y el nivel de significación estadística asumido en las pruebas (Cohen, 1988; Lipsey, 1990). Si el tamaño de la muestra es pequeño, disminuye la potencia estadística y es mayor la dificultad para que el resultado del análisis estadístico informe de la relación o covariación de las variables de estudio. Es importante prever y contar con una muestra de tamaño suficiente para lograr una buena potencia estadística en los análisis de los resultados del estudio, evitando así el riesgo de extraer posibles conclusiones incorrectas de ausencia de relación entre ellas. Fundamentos de investigación en Psicología 3.2.4. Validez externa El análisis de la validez externa de un estudio pretende responder a la pregunta ¿En qué medida se puede generalizar la relación entre las variables (detectada en una muestra concreta de personas, situaciones y medidas) a otras personas, situaciones o medidas distintas? Un estudio tendrá más validez externa en la medida en que la muestra de participantes represente adecuadamente a la población básica a la que queremos generalizar los resultados, y que la situación planteada para evaluar los efectos de la intervención sea también una buena representación de las situaciones reales en las que se produce el fenómeno en estudio. La estrategia formalmente más adecuada para lograr una muestra representativa, que permita una mayor generalización de los resultados, es utilizar técnicas de muestreo probabilístico, como, por ejemplo, la selección aleatoria de la muestra. Conseguir este muestreo no es sencillo, pues supone tener delimitada la población de interés (disponer de un listado completo) y tener acceso a la información básica de cada uno de sus miembros para seleccionar aleatoriamente a los que participarán en el estudio. Este proceso es frecuente en investigación no manipulativa como estudios de encuesta, pero muy poco frecuente en investigaciones experimentales o cuasiexperimentales. No obstante, tal como señalan Shadish et al. (2002), el muestreo probabilístico no es la única forma de muestreo útil para sustentar la generalización de los resultados y conclusiones. En los estudios manipulativos es frecuente el uso del muestreo de juicio experto, también llamado muestreo teórico o muestreo intencional. Con esta forma de muestreo se pretende que la muestra de participantes esté compuesta por casos seleccionados en función de que posean determinadas características relevantes en relación con los objetivos del estudio. Este tipo de muestreo tiene limitaciones para garantizar la representatividad de la muestra, pero su uso correcto facilita la generalización de las conclusiones del estudio a la población de interés. Sin embargo, otra forma de muestreo muy frecuente, el muestreo incidental, por conveniencia o accesibilidad de los participantes, plantea bastantes más limitaciones para la generalización. La escasa representatividad de la muestra respecto a la población afecta negativamente a la validez externa del estudio; pero esto es especialmente dañino cuando la combinación particular de los contenidos del estudio (tipo de intervención cuyos efectos se quieren valorar) y las características de la muestra utilizada puede generar unos resultados muy particulares, que no se darían con una muestra con otras características. Validez de las conclusiones de la investigación En resumen, los principales riesgos para la validez externa de una investigación están en que la selección de la muestra de participantes, el diseño de la situación de estudio o la forma de medida de las variables tengan unas características de particularidad que puedan generar una interacción específica con la intervención o tratamiento cuyo efecto se quiere evaluar. Si esto se produce, los resultados obtenidos serán también particulares de esa combinación y, en consecuencia, no generalizables a otros participantes o situaciones. Se considera, por tanto, que las principales amenazas a la validez externa de una investigación son las posibles interacciones del tratamiento (VI) con las condiciones concretas del estudio, entre las que destacaremos, por su importancia, la composición de la muestra o la situación de estudio (Tabla 3.4). 3.2.4.1 Amenazas a la validez externa Interacción del tratamiento con la composición de la muestra. Supongamos, por ejemplo, que queremos evaluar la eficacia de un programa para la aceptación de la diversidad funcional en niños de enseñanza primaria. Si solo lo aplicamos en un centro educativo al que tenemos fácil acceso por amistad con su directora, y ese centro en su ideario y planificación escolar da una gran importancia a la inclusión educativa de niños con discapacidad, los resultados obtenidos pueden ser muy positivos, pero serán singulares y poco representativos de la realidad general. Los resultados obtenidos con la aplicación del programa de sensibilización serán difícilmente generalizables a otros niños de otros centros educativos, cuya experiencia real de convivencia con niños con discapacidad sea menor o muy distinta por cómo se afronta la inclusión en sus centros. La validez externa de las conclusiones de nuestro estudio será limitada, porque los resultados no son solo fruto del programa sino de la interacción del programa con las características particulares de la muestra. En el ejemplo expuesto, los investigadores no habrían controlado bien la amenaza a la validez externa de la posible interacción del tratamiento con la composición de la muestra, también conocida como interacción de selección x tratamiento. Este mismo efecto se puede producir en algunas investigaciones en las que la muestra esté formada por voluntarios. Prestarse como voluntario a una investigación puede suponer no solo una disposición positiva, sino también un alto grado de motivación en el momento de realizar las pruebas. Si en el estudio que queremos realizar tenemos la sospecha de que las pruebas que apliquemos son sensibles a la motivación (es decir, que la motivación con que se realizan puede afectar a los resultados) sería un error realizarlo con una muestra de voluntarios, porque los resultados serían también singulares. El efecto obtenido no sería atribuible solo a la VI que hayamos utilizado sino a la interacción de esta con esa característica particular de nuestra muestra (altamente motivados). En definitiva, se considera que las conclusiones de una investigación tienen baja validez externa poblacional cuando falla la representatividad de la muestra respecto a la población, y especialmente cuando (por la combinación del tipo de intervención y las características de la muestra utilizada) los resultados obtenidos reflejan una realidad particular propia de la muestra pero no necesariamente previsible si hubiéramos utilizado otra muestra diferente, por lo que no pueden generalizarse a la población de interés. Interacción del tratamiento con la situación de estudio. Configurar el diseño de un estudio que permita manipular la variable independiente y eliminar el riesgo de contaminación de los resultados por la influencia de variables extrañas, nos puede llevar a plantear situaciones «artificiales» que se alejen mucho de las situaciones reales en las que se da el problema o el fenómeno de interés. Esta artificialidad puede ayudar a generar datos seguros en cuanto a la relación entre las variables, pero singulares de esa situación, limitados a ese contexto en el que se han obtenido y con difícil generalización a los contextos reales. Esto limitaría, por tanto, la validez externa ecológica de las conclusiones del estudio. Este riesgo es más probable en estudios experimentales, pero se puede dar también en otras formas de investigación. Son diversos los factores del contexto de la investigación que pueden llevar a obtener resultados singulares fruto de la interacción del tratamiento con las características particulares de la situación del estudio. Validez de las conclusiones de la investigación 3.3 RELACIÓN ENTRE VALIDEZ Y MÉTODO Recordemos que la validez no es cuestión de todo o nada, sino de grados. Además, la validez de las conclusiones de un estudio tiene diversos componentes complementarios, cuya combinación genera un resultado global de certeza o seguridad de las conclusiones del estudio. Estos componentes están muy relacionados entre sí, pero también con ciertas posibilidades de colisión, de forma que resulta difícil de lograr en un mismo estudio un grado máximo en todos los componentes de la validez. Los diferentes métodos, por sus características, proporcionan recursos distintos que permiten fortalecer una investigación, en mayor o menor medida, en algunos de esos componentes. Veamos esto con un sencillo análisis de algunos de los tipos de diseños que vamos a tratar en detalle en los temas siguientes. Es fácil intuir que los estudios realizados con el método experimental reúnen condiciones que aumentan sus posibilidades de obtener resultados y conclusiones con alto grado de validez interna. La manipulación de la variable independiente y la aplicación de recursos de control experimental permiten descartar, en su correcta aplicación, buena parte de las amenazas de la validez interna; pero, al mismo tiempo, esos procedimientos pueden llevar a situaciones artificiales de estudio que limiten la validez externa ecológica de sus conclusiones. A su vez, los diseños cuasiexperimentales reciben esa denominación porque se ven limitadas las posibilidades de control al no poder asignar aleatoriamente los participantes a las condiciones experimentales, a menudo por las restricciones que se encuentra el investigador al realizar el estudio en los entornos habituales de los participantes (centros de trabajo, centros educativos u otros). Su grado de validez interna tenderá, por tanto, a ser menor que la alcanzable con un estudio experimental, y por ello el análisis de las posibles amenazas cobra en estos diseños especial relevancia; pero, al mismo tiempo, al realizarse en el entorno natural del problema en estudio, la investigación reunirá mejores condiciones para lograr mayor grado de validez externa ecológica. Si valoramos el caso de los estudios de encuesta, vemos que con su procedimiento están muy lejos de poder obtener conclusiones de relaciones causa-efecto en la información que obtienen, pero, al mismo tiempo, por sus objetivos estos estudios otorgan gran importancia a la representatividad de la muestra, por lo que al cuidar especialmente ese aspecto el poder de generalización de sus resultados puede ser muy alto y, por lo tanto, también su validez externa poblacional. Estos ejemplos reafirman la idea de cierta relación entre validez y método, es decir, que ciertos métodos plantean procedimientos que favorecen la posibilidad de Fundamentos de investigación en Psicología lograr distintos grados de validez en sus distintos componentes. Es más, recordemos que si bien el análisis de la validez de constructo, de conclusión estadística y de validez externa puede tener sentido en el análisis de las conclusiones de cualquier investigación, el análisis de la validez interna solo tiene verdadero sentido en aquellos estudios que tengan la pretensión y las condiciones de hacer inferencias de relaciones de causalidad entre las variables estudiadas, es decir, en los experimentos o cuasiexperimentos. En los estudios en los que no se tiene ese propósito ni se dan esas condiciones para el estudio de relaciones de causalidad, las consideraciones en torno a las posibles limitaciones y formas de mejora de la validez interna se alejan del sentido original de ese concepto; son más bien reflexiones sobre el interés de obtener datos lo más limpios e informativos posibles sobre las variables de estudio y su relación (aunque no pueda concluirse como causal) y de las técnicas aplicables para lograrlo. No obstante, es importante también tener en cuenta que la validez no depende solo del tipo de diseño planteado, sino del acierto de las decisiones del investigador y de la adecuación de los procedimientos. Un mismo tipo de diseño puede aportar resultados y conclusiones más o menos válidas dependiendo de las condiciones y la calidad del estudio realizado. Tal como señalan Shadish et al. (2002) «La validez es una cualidad de las inferencias. No es una cualidad de los diseños o los métodos… Ningún método garantiza por sí mismo la validez de una inferencia» (p. 34).