Introduccion al Analisis Inferencial de Datos en CCSS PDF
Document Details
Uploaded by Deleted User
Fernando Martínez Abad
Tags
Summary
This document provides an introduction to inferential data analysis in social sciences. It explains the importance of representative samples, different sampling techniques and the need for statistical inference to draw conclusions about a larger population from a smaller sample. It also discusses the concept of the normal distribution in the context of educational research.
Full Transcript
Análisis de datos en Educación Fernando Martínez Abad ([email protected]) INTRODUCCIÓN AL ANÁLISIS INFERENCIAL DE DATOS EN CCSS Tal y como hemos estudiado el curso pasado (paradigmas de la investigación educativa, T1 ‘Metodología de Investigación’), cuando se lleva a...
Análisis de datos en Educación Fernando Martínez Abad ([email protected]) INTRODUCCIÓN AL ANÁLISIS INFERENCIAL DE DATOS EN CCSS Tal y como hemos estudiado el curso pasado (paradigmas de la investigación educativa, T1 ‘Metodología de Investigación’), cuando se lleva a cabo un proceso de investigación empírica en el ámbito de las Ciencias de la Educación desde la perspectiva del paradigma positivista o cuantitativo, se posee el objetivo primordial de extraer, a partir de los datos obtenidos en la muestra (n) recogida, conclusiones que sean generalizables a toda la población (N) de la que proviene dicha muestra. Dicho de manera más formal, podemos definir la inferencia estadística como el “conjunto de técnicas para llegar a inducciones (o inferencias) acerca de una población completa basándose en datos de una muestra integrante de la misma” (Welkowitz, Ewen & Cohen, 1981, p.106). Ocurre, como ya vimos, que para que fuera posible extraer estas generalizaciones las características de la muestra obtenida debían ser similares a las de la población, es decir, la muestra debía de ser representativa. Si esto no fuera así, la muestra podría estar sesgada, y nos encontraríamos con muchas posibilidades de que los resultados obtenidos distasen mucho de los parámetros reales en los que se mueve la población. En este caso, el estudio resulta erróneo y queda invalidado simplemente por esta falta de representatividad de la muestra elegida. POBLACIÓN N MUESTRA n Figura 1. Población y muestra Cabe recordar también, que para obtener una muestra representativa se consideraba como lo más importante que las características socio-demográficas de interés en la muestra (distribución por sexo, edad, curso, provincia, nivel socio-económico, localidad rural-urbana, estado civil, etc.) debían estar repartidas de manera similar a las características de la población, y que para conseguir esto existían diversas técnicas de muestreo probabilísticas (aleatoria simple y sistemática, estratificada y por conglomerados) y no probabilísticas (accidental, intencional y por cuotas). Podríamos preguntarnos en este punto que, dado que se puede cometer un sesgo (error) importante al seleccionar una muestra inapropiada, por qué no trabajar directamente con la población completa para evitarlo, asegurando de este modo la representatividad y posibilidad de generalización de los 1 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) resultados obtenidos. Realmente, una situación en la que se trabaja con la población completa es la ideal en el marco de la investigación cuantitativa en Ciencias Sociales. No obstante, en contadas ocasiones se puede trabajar en la práctica de la Investigación Educativa con una población completa, por diversos factores: En muchas ocasiones, el tamaño de la población es infinito, es decir ni siquiera está claramente definido el alcance de la población, ni se tiene un listado completo de todos los sujetos que la componen, por lo que el acceso a todos ellos es una labor imposible. Si, por ejemplo, queremos realizar un estudio a partir de la población de educadores en Castilla y León, independientemente de si se trata de educadores en el ámbito formal, no formal o informal, o en cualquier nivel educativo, nos va a ser muy difícil delimitar el tamaño y características de la población de referencia. En este ejemplo, el acceso a la población completa será imposible, ya que no es posible conocer con exactitud (sí de manera aproximada) la distribución completa de la población. Por tanto, será imposible disponer de un listado completo con todas las personas que desarrollan su labor profesional en el ámbito de la educación en Castilla y León y, en última instancia, acceder a ellas. Existen otras ocasiones en las que, a pesar de que sí es viable obtener un listado íntegro acerca de todos los sujetos y/o grupos que componen la población, no es recomendable o posible acceder a la población completa por varios motivos. Estos motivos pueden estar relacionados con varias cuestiones: o Los recursos (económicos, humanos y/o materiales) de los que dispone el grupo que está implementando la investigación son demasiado limitados como para poder establecer un contacto con todos los miembros de la población. o El tamaño de la población es tan elevado y/o parte de la población de tan difícil acceso que el tiempo y esfuerzo necesarios para obtener información de todos los sujetos no lo posibilita (por la planificación temporal o cronograma, por falta de recursos, por rápida obsolescencia de los temas tratados, etc.). Se desean estudiar las competencias digitales del profesorado de educación básica (Educación Infantil, Primaria y Secundaria) de centros educativos de Castilla y León. La Consejería de Educación tiene un registro de todo el profesorado, por lo que podemos obtener un listado completo del mismo. No obstante, tanto el tamaño de la población como la extensión de la propia comunidad autónoma y las posibilidades de acceso a profesores dificultan poder realizar la prueba de competencias digitales a todos los profesores: Conforme al cronograma disponemos de 2 meses para el trabajo de campo, 2 investigadores que están disponibles para desplazarse a las localidades de cada profesor y 3000€ para gastos de dietas y desplazamiento. Así, dadas las limitaciones, se estima necesario llevar a cabo un muestreo a partir de ese listado completo de profesores. Dicho esto, queda clara la importancia capital de establecer técnicas de muestreo apropiadas y lo que es más importante, una vez obtenida la muestra representativa, implementar técnicas estadísticas concretas para obtener información precisa acerca de la población de referencia a partir 2 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) de la información muestral disponible en el estudio. A este conjunto de técnicas, que tratan de ofrecer la información poblacional con la mayor precisión a partir de la información aportada por la muestra obtenida, se les denomina como técnicas inferenciales, o estadística inferencial. Todo el procedimiento de la estadística inferencial, al menos a nivel conceptual, se puede resumir en el gráfico mostrado a continuación. Figura 2. Procedimiento de la estadística inferencial Resulta que, dadas las cuestiones anteriormente señaladas, en las investigaciones cuantitativas desarrolladas en el ámbito de las Ciencias de la Educación se emplea de manera generalizada información de muestras de sujetos procedentes de una población para tratar de establecer conclusiones o generalizaciones acerca de la población completa. Desde un punto de vista formal, cabe destacar que todos los índices que se pueden calcular a partir de una muestra (media, desviación típica, mediana, varianza, asimetría, curtosis, coeficiente de correlación, etc.) se denominan estadísticos. Estos estadísticos simplemente aportan una información acerca de los sujetos disponibles en nuestra muestra, nunca sobre la población completa. Por eso surgen las técnicas de estadística inferencial, que se emplean para estimar los parámetros poblacionales de los que provienen esos estadísticos muestrales. Así, partiendo de los datos de una muestra que se supone que es representativa de la población, podemos estimar, con unos supuestos previos y unos niveles de error previamente asumidos, que el valor poblacional (parámetro) de un estadístico obtenido en la muestra se encuentra en un intervalo o rango de puntuaciones. Por ejemplo, si he evaluado el nivel de competencia lingüística en lengua inglesa de una muestra representativa de profesores de Educación Primaria de Castilla y León, conocida la puntuación media (𝑋̅) en esta variable (estadístico), puedo aplicar las técnicas inferenciales para estimar entre qué valores se encontrará la competencia lingüística media () en toda la población (parámetro) asumiendo un error en esta estimación de, por ejemplo, el 5% (el asumido comúnmente). 3 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) FUNDAMENTOS DE LA ESTIMACIÓN DE PARÁMETROS Siempre que tengamos el interés de generalizar los datos obtenidos en una muestra a la población de referencia, va a ser necesaria la estimación de los parámetros poblacionales a partir de los estadísticos descriptivos obtenidos en nuestra muestra. Para poder estimar estos parámetros, las técnicas estadísticas parten de unas bases teóricas fundamentales relacionadas con la existencia de distribuciones teóricas y con las distribuciones muestrales de los datos. En este apartado se estudiarán de manera superficial estas dos cuestiones. DISTRIBUCIONES TEÓRICAS: LA DISTRIBUCIÓN NORMAL La mayor parte de las medidas cuantitativas de rendimiento, actitudes, percepciones, etc. tomadas en el marco de la investigación cuantitativa en Ciencias de la Educación (y en las Ciencias Sociales en general) suelen tener un comportamiento similar en cuanto a la forma de su distribución: La medida de la altura de la población, del peso de los bebés recién nacidos, el cociente intelectual, el nivel socio- económico, el rendimiento académico, etc., poseen distribuciones muy parecidas. Las características de estas distribuciones tienen que ver con varias cuestiones: La mayor parte de los sujetos de la población se encuentran alrededor o cerca de los niveles medios de altura, peso, cociente intelectual, rendimiento o nivel, mientras que son pocos los que se alejan mucho del punto central, ya sea por la parte inferior o por la parte superior de la distribución. Aproximadamente, los sujetos se distribuyen de manera simétrica en torno a las puntuaciones superiores e inferiores a la media, es decir, existe más o menos una proporción igual de personas con puntuaciones muy altas y muy bajas. En suma, la distribución de puntuaciones en estas variables tiene forma acampanada y simétrica, o dicho de otra forma, la distribución de este tipo de variables se ajusta habitualmente de una manera muy importante a la distribución normal, también conocida como la campana de Gauss. Figura 3. Distribución normal o campana de Gauss (Fuente: www.wikipedia.org) 4 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) La fórmula para la obtención de la función de densidad de esta distribución teórica es muy compleja, ya que estamos hablando de una distribución continua: 1 𝑥−𝜇 2 1 [− ( ) ] (x,) = 𝑒 2 𝜎 𝜎√2𝜋 A esta distribución teórica la llamaremos a partir de ahora distribución normal o Z, con una media y una desviación típica , y su notación habitual será del siguiente modo: Z(). Así, una variable observada en una muestra tendrá una distribución similar a la normal siempre y cuando la forma de la distribución sea similar a esta distribución teórica. Esta cuestión es independiente de la media y desviación típica de la variable1, de hecho, lo más habitual es estandarizar la media y desviación típica de la distribución normal a una =0 y =1, o lo que es lo mismo, Z(0,1). Cabe destacar también que el valor mínimo y máximo de esta distribución, dado que es asintótica, está entre (-∞, +∞). Por tanto, la propiedad fundamental de esta distribución es que es simétrica y posee curtosis mesocúrtica. Gracias a esta propiedad a la que generalmente se ajustan las distribuciones de las variables estudiadas, es posible simplificar el conjunto de técnicas estadísticas empleadas para estimar los parámetros poblacionales, o lo que es lo mismo, calcular entre qué valores se encontrará un parámetro poblacional partiendo de unos datos y unos estadísticos muestrales y asumiendo un nivel de error concreto. Pero en muchos casos en la investigación práctica ocurre que a partir de las variables originales disponibles se realizan una serie de cálculos que impiden utilizar directamente la distribución teórica Z como distribución de referencia para la estimación de parámetros, y es necesario emplear otras distribuciones. Las otras distribuciones empleadas habitualmente son la T de student, la distribución 2 y la F de Snedecor. En lo que respecta a la distribución 2, cabe señalar que es una distribución teórica conformada por un sumatorio de variables independientes que siguen una distribución normal Z(0,1) al cuadrado2. 2n= 𝑍12 + 𝑍22 + 𝑍32 + ⋯ + 𝑍𝑛2 Así, como se puede observar en la figura 4, en este caso no se obtiene una distribución teórica simétrica, sino que, al estar conformada por un sumatorio de cuadrados, la distribución tiene origen en el 0, estando su rango de puntuaciones entre (0, +∞), dado que se trata de una curva asintótica por el lado derecho. El apuntamiento (curtosis) de la curva de esta distribución y la intensidad de su caída hacia el eje x está determinado por el número de grados de libertad (n) de la distribución, es decir, el número de sumas de Z2 del que provenga. Si una variable que sigue esta distribución proviene de una suma de 10 variables que provienen de una distribución normal (Z) al cuadrado, 1 Cabe recordar que, gracias a las propiedades de la media y la varianza/desviación típica, podemos modificar la media o la desviación típica de una variable sin modificar su forma. Por lo tanto, podemos encontrarnos variables con distribuciones muy similares o iguales a la normal con medias y desviaciones típicas muy diferentes. 2 La mayor parte de las veces que tratamos de estimar parámetros a partir de distribuciones teóricas, estandarizamos los valores de la media y la desviación típica de la variable que entendemos que se distribuye como una Z a una =0 y =1. 5 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) entonces los grados de libertad serán 10, lo cual implica que esa curva asociada a la distribución teórica 2 sea de una manera y no de otra. Figura 4. Función de densidad 2 (Fuente: adaptado de www.wikipedia.org) En cuanto a la T de student, es la distribución que se emplea en la estimación de parámetros como alternativa a la distribución normal cuando las varianzas o desviaciones típicas poblacionales () son desconocidas. Así, la distribución T posee propiedades similares a la Z, ya que es una distribución simétrica asintótica por ambos lados, con puntuaciones por tanto entre (-∞, +∞). De hecho, a medida que los tamaños de las muestras a partir de las que se emplea para la estimación de los parámetros son mayores, la distribución T se aproximará más a la Z, siendo ambas distribuciones iguales cuando el tamaño o tamaños de muestra tienden a infinito. La formulación de la distribución t es algo más compleja, ya que procede de una combinación entre la distribución Z y la 2: 𝑍 𝑡= √𝑋 𝑛 en donde Z sigue una distribución normal Z(0,1) y X sigue una distribución 2 con n grados de libertad. Esta distribución, por tanto, es simétrica, con media 0 y n grados de libertad. Esto quiere decir que en función del número de grados de libertad de la distribución, su forma variará ligeramente. A nivel general, la distribución T se representa como una normal. En la figura 5 se puede observar cómo cambia el apuntamiento de la curva en función de los grados de libertad encontrados en la distribución teórica. 6 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) Figura 5. Función de densidad T (Fuente: adaptado de www.wikipedia.org) Por último, estudiaremos la distribución F de Snedecor, basada también en la distribución normal Z(0, 1), como una distribución teórica proveniente de una división entre dos variables que siguen una distribución 2: 𝑋 𝐹= 𝑛 𝑌 𝑛 en donde X es una variable con distribución 2 con n grados de libertad e Y es otra variable con distribución 2 con m grados de libertad. Así, en este caso, en lugar de trabajar con un indicador de grados de libertad, como ocurría en las distribuciones 2 y T, en este caso trabajamos con 2 indicadores n y m. Así, se suele notar esta distribución como Fn,m. La función de densidad de esta distribución la podemos observar en la figura 6. Nótese que, al igual que la distribución 2, la distribución F tiene el mínimo en el valor 0 y es asintótica por la cola derecha. Así, su rango de puntuaciones es (0, +∞), como se puede observar en la figura 6. 7 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) Figura 5. Función de densidad F (Fuente: adaptado de www.wikipedia.org) LA DISTRIBUCIÓN MUESTRAL y DISTRIBUCIÓN MUESTRAL DE LA MEDIA Cuando se extrae una muestra de n sujetos a partir de una población de N sujetos, la muestra obtenida es una de las otras muchas muestras que se habrían podido obtener en base a esa población. Para poder extraer conclusiones o inferencias acerca de toda la población con respecto a la variable o variables estudiadas a partir de los sujetos obtenidos en la muestras, es necesario tener en cuenta que los valores, por ejemplo, de la media o medias de las variables medidas (𝑋̅) en la muestra obtenida pueden no coincidir exactamente con el valor de la media poblacional (). Analicemos más en profundidad este aspecto: Sabemos que el cálculo del número de muestras posibles de tamaño n a partir de una población de tamaño N se calcula de la siguiente manera: 𝑁! [𝑛! (𝑁 − 𝑛)!] 8 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) EJEMPLO 1 Por ejemplo, si tenemos una población de 5 sujetos y queremos obtener una muestra de 2 sujetos, 5! 5∗4∗3∗2∗1 120 = = = 10 [2! (5 − 2)!] [2 ∗ 1! (5 − 2)!] 2 ∗ (3 ∗ 2 ∗ 1) la cantidad de muestras posibles a obtener son 10. Imaginemos en este mismo ejemplo que evaluamos el rendimiento en matemáticas de los 5 sujetos de la población, obteniendo los siguientes resultados: Tabla 1. Distribución poblacional. Variable rendimiento en matemáticas (N=5) PUNTUACIÓN (xi) María 6 Pedro 6 Juan 8 Sonia 4 Laura 6 Si calculamos la puntuación media de la población → =(6+6+8+4+6)/5=6. Podemos tratar de obtener todas las muestras posibles de tamaño 2 para esta población. Tabla 2. Distribución muestral de la media. Variable rendimiento en matemáticas (N=5; n=2) xi 𝑋̅ María y Pedro 6; 6 6 María y Juan 6; 8 7 María y Sonia 6; 4 5 María y Laura 6; 6 6 Pedro y Juan 6; 8 7 Pedro y Sonia 6; 4 5 Pedro y Laura 6; 6 6 Juan y Sonia 8; 4 6 Juan y Laura 8; 6 7 Sonia y Laura 4; 6 5 Así, se puede observar que, por ejemplo, la probabilidad de obtener una muestra con una media de 7 puntos (si se elige en la muestra a Juan y a Laura, a Pedro y Juan o a Juan y Laura) es de 3 entre 10 muestras posibles (si consideramos que todas las muestras posibles han tenido las mismas probabilidades de ser elegidas, es decir, si el muestreo se ha realizado de manera probabilística), es 9 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) decir, existe un 30% de probabilidades o 3/10 de que sea elegida. Por su parte, la probabilidad de obtener una muestra con una media de 6 puntos es de 4 (María y Pedro; María y Laura; Pedro y Laura; Juan y Sonia) entre 10 muestras posibles, es decir, de 4/10, o lo que es lo mismo, 2/5 o un 40% de probabilidad. O visto en una tabla con los datos acumulados: Tabla 3. Frecuencias distribución muestral de la media rendimiento en matemáticas (N=5; n=2) ̅ 𝑿 ni Pi Pa 5 3 30% 30% 6 4 40% 70% 7 3 70% 100% Así, se puede definir el siguiente gráfico de la distribución muestral de la media en la variable ‘rendimiento en matemáticas’ para la población definida de N=5 y n=2: Frecuencia 5 4 4 3 3 3 2 1 0 Cinco Seis Siete Gráfico 1. Distribución muestral de la media. Variable rendimiento en matemáticas (n=2) Nótese que de todas las muestras posibles (10), la mayor parte tienen una puntuación media de 6, es más probable obtener una muestra con una puntuación media igual a la puntuación media de la población que una muestra con una puntuación media de 5 (tres muestras de las 10, un 30% de probabilidades de que salga elegida) o con una puntuación media de 7 ((tres muestras de las 10, un 30% probabilidades de que salga elegida). EJEMPLO 2 Pensemos ahora en un ejemplo un poco más complejo, imaginemos que tenemos una población de 10 sujetos (N=10) y que queremos medir el rendimiento en matemáticas a una muestra de 5 sujetos (n=5) de los 10 que componen la población. En este caso, el número de muestras posibles que se pueden extraer aumenta considerablemente: 10 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) 10! 10 ∗ 9 ∗ … ∗ 2 ∗ 1 3628800 = = = 252 [5! (10 − 5)!] [5 ∗ 4 ∗ 3 ∗ 2 ∗ 1! (10 − 5)!] 14400 Tenemos las siguientes puntuaciones de los sujetos de la población: Tabla 4. Distribución poblacional. Variable rendimiento en matemáticas (N=10) PUNTUACIÓN (xi) María 3 Julio 8 Claudia 5 Marta 6 Elena 6 Fernando 7 Carmen 4 Álvaro 6 Rodrigo 7 Andrés 8 En este caso, la puntuación media de la población es → =(3+8+5+6+6+7+4+6+7+8)/10=6.Todas las muestras posibles que se pueden extraer de este conjunto de sujetos de la población tienen la siguiente distribución: Tabla 5. Frecuencias distribución muestral media rendimiento en matemáticas (N=10; n=5) ̅ 𝑿 ni Pi Pa 4.8 3 1.2% 1.2% 5.0 7 2.8% 4.0% 5.2 15 6.0% 9.9% 5.4 20 7.9% 17.9% 5.6 28 11.1% 29.0% 5.8 31 12.3% 41.3% 6.0 42 16.7% 57.9% 6.2 32 12.7% 70.6% 6.4 30 11.9% 82.5% 6.6 21 8.3% 90.9% 6.8 13 5.2% 96.0% 7.0 7 2.8% 98.8% 7.2 3 1.2% 100.0% TOTAL 252 100.0% Y esta distribución muestral de la media se puede representar en el siguiente diagrama de densidad: 11 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) Frecuencia relativa (%) 20% 18% 16,7% 16% 14% 12,7% 12,3% 11,9% 12% 11,1% 10% 7,9% 8,3% 8% 6,0% 6% 5,2% 4% 2,8% 2,8% 2% 1,2% 1,2% 0% 4.8 5.0 5.2 5.4 5.6 5.8 6.0 6.2 6.4 6.6 6.8 7.0 7.2 Gráfico 2. Distribución muestral de la media. Variable rendimiento en matemáticas (n=5) Pensemos, en primer lugar, en el porcentaje de las muestras que está en un rango de puntuaciones determinado; por ejemplo, el 97.6% de todas las muestras posibles obtiene una media en la variable rendimiento en matemáticas de entre 5 y 7 puntos, por lo que es muy poco probable que se obtenga una muestra de n=5 a partir de una población de N=10 en la que la puntuación media sea de 4.8 (3 muestras posibles de las 252 → 3/252) o de 7.2 puntos (3 muestras posibles). En la estadística inferencial se juega con esta probabilidad, asumiendo un error (nivel de significación) o una confianza (nivel de confianza) en todas las estimaciones de parámetros. En el caso de este ejemplo anterior, lo más probable (un 97.6% de probabilidad, o un nivel de confianza del 97.6%) es que yo obtenga una muestra con un rendimiento medio en matemáticas de entre 5 y 7 puntos. Así, el error que se asume si se estima que la media poblacional está entre 5 y 7 puntos es del 2.4% (100%-97.6%). Igualmente, existen un 80.9% de probabilidades de que obtenga una muestra cuya puntuación media esté entre 5.4 y 6.6 puntos (7.9% + 11.1% + 12.7% + 16.7% + 12.7% + 11.9% + 7.9% ó (20+28+32+42+32+30+20)/252). Así, si yo estimo que la media poblacional (parámetro) en esta variable está entre 5.4 y 6.6 puntos estoy asumiendo un nivel de significación del 19.1% o un nivel de confianza del 80.9%, un error quizá demasiado grande (hay un 19.1% de posibilidades de que la media de la muestra obtenida finalmente no esté dentro del intervalo del parámetro poblacional). De todos modos, el problema no es tan sencillo como lo planteado en el ejemplo anterior por dos cuestiones básicas: En primer lugar, en los estudios que se implementan en el ámbito de las Ciencias de la Educación rara vez se tiene un conocimiento exacto de las puntuaciones de toda la población en la variable, por lo que no se puede calcular directamente la distribución muestral de la media a partir de la distribución poblacional empírica. De hecho, si se conocieran las puntuaciones de todos los sujetos de la población en la variable o variables medidas no 12 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) tendría sentido estimar el intervalo en el que se encontraría el parámetro poblacional (ya lo conoceríamos exactamente) y, por ende, la distribución muestral de la media. Por otro lado, normalmente ni los tamaños de la población ni los tamaños de la muestra con los que contamos en nuestras investigaciones en Ciencias Sociales son tan reducidos como en el ejemplo, por lo que el número posible de muestras a seleccionar es excesivamente grande, y la obtención empírica de la distribución muestral de la media en la mayor parte de los casos es una cuestión muy compleja o imposible si la población es infinita/desconocida. Así, para simplificar y posibilitar la obtención de la distribución muestral de la media, la estadística inferencial aprovecha las propiedades de las distribuciones teóricas (Z, T, 2, F). Antes de continuar, es necesario añadir dos definiciones básicas al respecto: Si una variable se distribuye normalmente, entonces la distribución muestral de la media de esa variable también tendrá una distribución normal. La media de la distribución muestral de la media coincide con el valor puntual de la media poblacional () en la variable medida. Así, en el caso de que se cumpla el supuesto de normalidad de una variable (que la variable sea normal), entonces la distribución muestral de la media de esa variable será también normal. Podemos ir más allá de esta simple definición y apoyarnos en el teorema central del límite para afirmar que “a medida que el tamaño muestral crece, la distribución de la media muestral se aproxima cada vez más a la normal, independientemente de la distribución de la variable que se esté mididendo” (Tejedor Tejedor & Etxeberría Murgiondo, 2006, p.52). En este caso, podemos afirmar que, si una muestra es de un tamaño muy grande, que tiende al infinito, su distribución muestral de la media tenderá a una distribución normal. Nótese además que la distribución de la distribución muestral de la media en la variable del ejemplo 2 (anterior ejemplo) tiene una forma acampanada (distribución normal). De hecho, se entiende que la gran mayoría de las variables de escala (cuantitativas) que se miden en Ciencias Sociales tienen una forma similar a la distribución normal, o lo que es lo mismo, las variables de escala que medimos en Ciencias de la Educación (rendimiento, actitud, percepción, etc.) provienen en la mayor parte de los casos de una distribución normal. Cuando se cumple este supuesto de normalidad de la variable (o la fundamentación del teorema central del límite), se entiende que la distribución muestral de la media de esa variable es normal, y se puede partir de esta distribución (Z) para estimar el intervalo en el que se encontrará el parámetro poblacional de la media () a partir del estadístico de la media (𝑋̅) obtenido en la muestra. Basadas en la distribución normal o Z se encuentran otras distribuciones que (T, 2, F), una vez identificada la distribución muestral de la media como normal, permiten llevar a cabo estimaciones de parámetros en diversas situaciones prácticas, como veremos en los siguientes temas. Por tanto, como conclusión práctica de este apartado se puede señalar que, si las variables medidas en nuestra muestra siguen una distribución normal, es posible aprovechar el potencial de las distribuciones teóricas para estimar los parámetros poblacionales de los que provienen los estadísticos de interés calculados. Este conjunto de técnicas de análisis de datos es el que aplicaremos cuando llevemos a cabo algún procedimiento estadístico inferencial o de contraste de hipótesis paramétrico. 13 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) ESTIMACIÓN DE PARÁMETROS y CONTRASTE DE HIPÓTESIS Es a partir de las bases teóricas estudiadas desde donde es posible extraer inferencias poblacionales habiendo simplemente obtenido información en una muestra (al menos desde una perspectiva paramétrica). En estos 2 apartados siguientes estudiaremos cómo extraer esta inferencia partiendo del supuesto de que las variables obtenidas en la muestra proceden de la distribución normal, planteada a nivel teórico. ESTIMACIÓN DE PARÁMETROS Ya hemos señalado que, gracias a la inferencia estadística, es posible estimar con un margen de error determinado entre qué valores se encontrará en la población (parámetro) un estadístico obtenido en la muestra. Lo cierto es que, mientras que es posible estimar el intervalo poblacional sobre cualquier estadístico descriptivo (media, mediana, desviación típica, varianza, asimetría, etc.), lo más habitual es emplear la media como estadístico sobre el que extraer inferencias3. De hecho, en este curso estudiaremos a nivel teórico simplemente la estimación paramétrica de la media, aunque a nivel práctico también estudiaremos las técnicas estadísticas alternativas cuando las distribuciones de las variables no se ajustan a la distribución normal. Decíamos que para estimar un parámetro debemos asumir un error en esa estimación, y que la estimación consiste (generalmente) en el cálculo de un intervalo en el que tenemos cierta seguridad de que se encuentra el valor del estadístico que estamos estimando en la población (normalmente la media). Así, en términos generales, si en una estimación queremos asumir un error más pequeño, el intervalo de confianza será más grande. ¿Por qué ocurre esto?, pues lo vemos sencillamente con un ejemplo: Imaginemos que me apuesto con un amigo una cena: si soy capaz de calcular correctamente la altura de un edificio, con un margen de error de 2 metros, mi amigo me pagará la cena, si no, se la pago yo. En el ejemplo, me está permitido alejarme de la altura real del edificio como máximo 2 metros. Así, si el edificio mide realmente 23 metros, mi estimación tiene que ser de entre 21 y 25 metros, o lo que es lo mismo, debe estar dentro del intervalo (21, 25). Dicho de otro modo, tengo un margen de error de 23 ±2 (este margen de error de 4 metros como máximo, 2 m por encima y 2 m por debajo, podría ser considerado como mi nivel de confianza en la estimación). Imaginemos ahora que realizo la misma apuesta, pero que en este caso el margen de error en mi estimación es de 4 metros. En este caso, para ganar la apuesta, considerando que el edificio mide 23 metros, debo dar una estimación de 23 ±4, es decir de entre 19 y 27 metros. Quiere decir esto que, al aumentar el tamaño del intervalo de confianza, esto es, al aumentar el nivel de confianza de la estimación, es menos probable que yo pierda la apuesta, es decir, que cometa un error en la estimación. 3 Cuando no es posible considerar que la distribución muestral de la media de una variable posee la distribución normal porque la variable de origen tiene una forma de su distribución muy diferente a la normal, se suele utilizar la mediana como estadístico para realizar la estimación poblacional de la tendencia central de la distribución. 14 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) En el segundo ejemplo, por tanto, dado que al aumentar el intervalo en el que puede entrar mi estimación de la altura del edificio aumenta mi confianza en ganar la apuesta, también se reduce la posibilidad de error, la posibilidad de que mi estimación sea errónea. En la estimación de parámetros estadística ocurre exactamente lo mismo que en este ejemplo: Mientras que en el ejemplo trato de estimar cuál es la altura real del edificio a partir de la información obtenida a través de mis sentidos, permitiendo un margen de error más o menos amplio, en la estimación de parámetros trato de estimar cuál es el valor real (poblacional) de un estadístico a partir de la información obtenida en la muestra, permitiendo un margen de error concreto (intervalo de confianza). Y, ¿cómo se realiza la estimación del intervalo de confianza exactamente? Pues bien, para realizar la estimación llevamos a cabo varios pasos: 1. Aceptación del supuesto previo de que la distribución de la variable a partir de la que quiero realizar la estimación es similar a la distribución normal Z(, ). 2. Establecimiento del nivel de error y de confianza asumidos en la estimación. 3. Estimación del parámetro a partir de la distribución muestral de la media de la variable, bajo el supuesto previo de que es normal. 1. Supuesto previo de normalidad de la variable observada La aceptación de este supuesto previo se puede llevar a cabo mediante la aplicación de varias técnicas estadísticas, que nos van a dar una seguridad suficiente como para aceptar que la distribución de la variable y, por ende, de la distribución muestral de la media, es normal Z(, ). En el caso más habitual de que la varianza de la variable estudiada en la población de referencia sea desconocida, la distribución empleada para la estimación será la T, y la media y desviación típica de 𝑆 la distribución serán =𝑋̅ y = 𝑥. √𝑛 Las técnicas que se emplean de modo más habitual son las siguientes: Exploración gráfica de la variable original obtenida en la muestra. Se puede obtener el histograma y/o el diagrama de cajas de la variable y comprobar de manera visual si la distribución es simétrica y si el apuntamiento (curtosis) es muy elevado o muy poco. Mientras que su empleo puede bastar para asumir la falta de normalidad de una variable cuando tenemos distribuciones claramente asimétricas, cuando parece que la distribución es simétrica y con curtosis mesocúrtica esta técnica suele acompañarse de otro análisis numérico que confirme la normalidad de la variable o variables. Análisis de los valores de asimetría y curtosis de la variable o variables. Como ya se ha estudiado el curso pasado, la distribución normal posee un valor de asimetría=0 y un valor de curtosis=0, es decir, es una distribución simétrica y con curtosis mesocúrtica. Así, se podrían analizar los valores de asimetría y curtosis de las variables directamente para comprobar si éstos son o no son cercanos al 0, como prueba confirmatoria de la exploración visual llevada a cabo previamente. Si con este análisis aún tenemos dudas sobre la normalidad de las variables, podemos aplicar alguna prueba concreta o contraste de hipótesis, técnica señalada a continuación. 15 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) El contraste de hipótesis comúnmente empleado para comprobar la hipótesis de normalidad de una variable es la prueba de Shapiro-Wilk. Esta prueba simplemente plantea la hipótesis nula de que la distribución de la variable es normal, hipótesis que se rechaza o no se rechaza. Esta prueba se estudiará en los siguientes temas. 2. Establecimiento del nivel de error y de confianza asumidos El nivel de error asumido generalmente se denomina nivel o nivel de significación, y en Ciencias Sociales se suele emplear de manera generalizada un 5% de error, aunque en ocasiones en las que interesa mantener errores más pequeños a la hora de plantear las estimaciones e hipótesis se emplea el 1% de error. Un término íntimamente relacionado con el nivel o nivel de significación es el nivel de confianza. El nivel de confianza es igual al valor inverso del nivel de significación. Así, por ejemplo, si establecemos un nivel de significación del 5%, el nivel de confianza será del 95% (100%- 5%). Por otro lado, si el nivel a es del 1%, el nivel de confianza será del 99%. Como ya se ha indicado previamente, si el nivel de significación o de error es del 5%, el intervalo de confianza de la estimación de un parámetro será más pequeño que si el nivel de error asumido para la estimación de ese mismo parámetro es del 1%. Recordemos que esto es así porque, si quiero tener una mayor seguridad en que no me estoy equivocando en mi estimación (si quiero asumir un error menor en mi estimación), necesariamente deberé incluir un rango superior, un intervalo más grande, de puntuaciones en las que posiblemente se encuentre el parámetro poblacional (normalmente de la media). Por lo tanto, si decido asumir un error muy pequeño, es muy probable que el intervalo resultante en la estimación del parámetro sea demasiado amplio, y que no me aporte por tanto demasiada información. Por otro lado, si asumo un error muy grande, mi estimación estará dada en un intervalo muy pequeño, por lo que mientras que voy a tener una información más clara también va a ser mucho más probable que mi estimación esté equivocada. El consenso científico más común acerca del nivel de error, como hemos señalado, es del 5%, y si no se indica lo contrario, ese será el nivel de significación empleado en adelante. 3. Estimación del parámetro deseado Una vez tomadas las decisiones y asunciones previas, llega el momento de calcular el intervalo de confianza del parámetro. En el caso (más habitual) de que el parámetro a estimar sea la media, partiremos, como ya hemos señalado, de la distribución muestral de la media para llevar a cabo la estimación, considerando que la forma de esta distribución es como la distribución normal teórica ya estudiada. Imaginemos que hemos obtenido una muestra de tamaño n y queremos estimar el intervalo del parámetro media en una variable. El objetivo ahora es calcular un intervalo a partir de la media de esa variable que incluya la mayor cantidad posible de muestras que hubieran podido extraerse de la población inicial (cada una de ellas con una puntuación media que puede ser distinta), hasta llegar al error máximo definido en el paso 2. Por eso debemos volver a la distribución muestral de la media para calcular esto. Entendemos en primer lugar que la distribución muestral de la media de nuestra variable a partir de la que queremos estimar el parámetro de la media es normal Z(, ). Como hemos visto antes, a partir de la distribución muestral de la media de una variable, podemos calcular en qué porcentaje de todas las muestras posibles su media se encuentra dentro de un intervalo dado (ver ejemplo 2 página 12). O dicho de otro modo, podemos calcular un intervalo alrededor del punto 16 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) central de la distribución muestral de la media que incluya un porcentaje determinado de todas las muestras posibles de tamaño n que se podrían obtener a partir de la población de referencia. En la mayor parte de los casos, en los que es imposible obtener la distribución muestral de la media empírica porque no se tiene información sobre todos los sujetos de la población, si se cumple el supuesto de normalidad de la variable, se entiende que la distribución de la media es normal y se genera el intervalo de confianza alrededor de la media de la variable (estimación puntual de la media poblacional) a partir de esta distribución normal (Z o T, en función de si se conoce o desconoce la varianza poblacional). Aquí, como se puede ver en la figura 6, se puede generar un intervalo alrededor de la media (por definición, la media de la distribución muestral de la media se entiende que es igual a la media poblacional, que se estima puntualmente a partir de la media muestral) que incluya un porcentaje concreto de todas las muestras posibles. Este porcentaje debe coincidir exactamente con el nivel de confianza asumido en el paso anterior. Figura 6. Distribución muestral de la media normal (Fuente: adaptado de www.sac.org.ar) Por definición, en una distribución normal Z(0, ), exactamente el 95% de los sujetos de la distribución está entre ±1.96*. Por tanto, si la distribución se estandariza a una Z(0, 1), el 95% de los sujetos y, por ende, el 95% de las todas las muestras posibles en una distribución muestral de la media normal, se encontrará en el intervalo (-1.96, 1.96). Así, si asumo la normalidad de la variable original y un error del 5%, tendré un 95% de confianza si afirmo que el intervalo del parámetro media para una 𝑋̅=0 y Sx=1 se encontrará entre -1.96 y 1.96. Si se mantiene todo igual excepto el nivel de error, que pasa del 5% al 1%, podría afirmar con un 99% de confianza que la media poblacional se encuentra en el intervalo (-2.58, 2.58). Claro, siempre puedo haber elegido por pura mala suerte o por errores/problemas en el muestreo una muestra tan extrema que esté equivocándome en la estimación, este es el error asumido. 17 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) Ocurre, no obstante, que las variables que obtenemos en nuestros estudios no tienen 𝑋̅=0 y Sx=1, sino puntuaciones totalmente diferentes. En este caso, simplemente aplicando las propiedades de la media y de la varianza, se puede estimar el intervalo del parámetro ajustado a los valores exactos de la media y la desviación típica de la variable original. La fórmula general para el cálculo de la amplitud del intervalo de confianza si se conoce la varianza poblacional es la siguiente: 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = 𝑍1−𝛼/2 ∗ 𝐸𝑇 Donde 1-/2 se refiere al percentil correspondiente a la puntuación Z que hay que seleccionar, siendo el nivel de error asumido; y el ET se refiere al error típico, un valor obtenido directamente a 𝜎 partir de la varianza de la variable, en este caso: 𝐸𝑇 = √𝑛 En el caso de desconocer la varianza poblacional, cuestión que ocurre en la práctica totalidad de los casos, no podemos emplear la distribución Z, sino que tenemos que recurrir a la T, y por eso cambia mínimamente la fórmula: 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = 𝑇𝑛−1; 1−𝛼/2 ∗ 𝐸𝑇 Donde n-1 se refiere al número de grados de libertad (igual al tamaño de la muestra menos 1) y al 𝑆𝑥 nivel de error asumido. En este caso, el 𝐸𝑇 = √𝑛 Cabe destacar que las fórmulas anteriores son válidas para todos los casos en los que se realiza un contraste de hipótesis basado en las distribuciones teóricas Z o T. Lo único que cambia en el cálculo de la fórmula es el cálculo del Error Típico, que es diferente en función del tipo de contraste realizado. Nosotros trabajaremos en todo caso con esta segunda fórmula para la estimación de la amplitud del intervalo de las medias poblacionales, ya que los ejemplos que veremos en clase consideran desconocida la varianza poblacional. Así, la fórmula que emplearemos definitivamente para el cálculo de un intervalo de confianza para la media poblacional será la siguiente: 𝑺𝒙 ̅ ± (𝑻 𝑰𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒐: 𝑿 𝜶 ∗ ) 𝒏−𝟏;𝟏−( ) 𝟐 √𝒏 EJEMPLO 3. Cálculo de un intervalo para la media Imaginemos que obtenemos una muestra representativa de n=61 maestros de Educación Primaria en formación en la que medimos mediante una escala el nivel de actitudes hacia el empleo de la Pizarra Digital Interactiva (PDI) en la docencia. Esta escala tiene un valor máximo posible de 100 puntos y mínimo de 0, y en la muestra se obtienen los siguientes descriptivos para la variable: 𝑋̅=35.6 Sx=8.3 Tras comprobar que la variable actitudes hacia el empleo de la PDI en la docencia se distribuye conforme a la distribución normal, se nos pide que calculemos el intervalo de confianza para el parámetro media (media poblacional) a partir de los datos de la muestra, tanto para el caso de que el error sea de =5% como que sea de =1%. 18 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) Para el caso en el que el error es del 5%, debemos calcular el valor de la T para 60 (n-1) grados de libertad y un error de 0.025 (2.5% por cada lado de la distribución). Si consultamos las tablas de la distribución teórica T, resulta que el valor para un nivel del 5% y 60 grados de libertad es de 2.000: Podemos observar esto mismo de manera visual. Como se muestra en la figura 7, en una distribución muestral de la media con forma T y 60 grados de libertad, el 95% de las muestras posibles están en el intervalo (-2.003, 2.003). Figura 7. Intervalo para un nivel =0.05 en la distribución t60;0.025 (Fuente: elaboración propia) Así, ya disponemos de toda la información para poder calcular el intervalo del parámetro media: 𝟖. 𝟑 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 (𝛼 = 0.05) → 𝟑𝟓. 𝟔 ± (𝟐. 𝟎𝟎𝟎 ∗ ) = 𝟑𝟓. 𝟔 ± 𝟐. 𝟏𝟑 → (𝟑𝟑. 𝟒𝟕 , 𝟑𝟕. 𝟕𝟑) √𝟔𝟏 En conclusión, si establezco una seguridad del 95% en mi estimación, puedo afirmar que la media poblacional de la variable actitudes hacia el empleo de la PDI en la docencia se encuentra dentro del intervalo (33.47 , 37.73). Para el caso en el que el error es del 1%, debemos calcular el valor de la T para 60 (n-1) grados de libertad y un error de 0.005 (0.5% por cada lado de la distribución). Si consultamos las tablas de la 19 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) distribución teórica T, resulta que el valor para un nivel del 1% y 60 grados de libertad es de 2.660, como se puede observar en la figura 8. Figura 8. Intervalo para un nivel =0.01 en la distribución t60;0.005 (Fuente: elaboración propia) Así, ya disponemos de toda la información para poder calcular el intervalo del parámetro media: 𝟖. 𝟑 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 (𝛼 = 0.01) → 𝟑𝟓. 𝟔 ± (𝟐. 𝟔𝟔𝟎 ∗ ) = 𝟑𝟓. 𝟔 ± 𝟐. 𝟖𝟑 → (𝟑𝟐. 𝟕𝟕 , 𝟑𝟖. 𝟒𝟑) √𝟔𝟏 Nótese que la amplitud del intervalo, en este caso, es mayor que en el anterior, porque estamos asumiendo un error menor, es decir, que tenemos una confianza mayor (del 99% en este caso) sobre la estimación realizada. CONTRASTE DE HIPÓTESIS Todo este artefacto matemático tiene mucho más potencial que la simple estimación del valor o valores entre los que con mucha seguridad se va a encontrar el estadístico en la población. Las bases teóricas y matemáticas de la estimación de parámetros se emplean de manera generalizada para tratar de contrastar hipótesis de todo tipo: Hipótesis sobre un solo estadístico en un grupo o una muestra: Comprobar si es plausible o si se puede aceptar que una determinada población posee una puntuación media () determinada en una variable estudiada a partir de una muestra. Esto nos puede servir para determinar el comportamiento de una población, en comparación con algún fundamento teórico (por ejemplo, si planteo la hipótesis teórica de que la población de Finlandia posee un cociente intelectual superior a 100 puntos, valor medio en toda la población general, puedo obtener una muestra representativa de ciudadanos finlandeses a la que mido el cociente intelectual con algún instrumento y estimar posteriormente el intervalo de la media en esa población. Si toda la amplitud o rango del intervalo calculado está por encima de 100, o lo 20 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) que es lo mismo, si el límite inferior del intervalo obtenido es superior a 100 puntos, entonces puedo aceptar la hipótesis planteada. En caso contrario, no puedo aceptar la hipótesis). Hipótesis sobre un estadístico en dos o más grupos o muestras: En muchas ocasiones nos ocurre que queremos conocer si se puede concluir que una población posee una puntuación media más elevada que otro en alguna variable. Esto nos puede servir, por ejemplo, para determinar si una población tiene un grado de conocimientos superior a otra, si posee unas actitudes más elevadas que otra, etc. (por ejemplo, puedo querer comparar, a partir de la muestra obtenida en las pruebas PISA, el rendimiento en comprensión lectora de las poblaciones de estudiantes de algunas comunidades autónomas de España. Para ello, estimaré el intervalo para la media en cada una de las poblaciones por separado y compararé dichos intervalos en cada pareja. Si los dos intervalos obtenidos en dos de las comunidades no se solapan en ningún momento, es decir, si los rangos de ambos intervalos no tienen valores conjuntos, podré afirmar con el nivel de confianza establecido que existen diferencias significativas en ambas poblaciones. En el caso contrario, si existe alguna parte conjunta en la amplitud o rango de ambos intervalos, no podré afirmar que existan diferencias significativas en cuanto a la media de ambas poblaciones). Hipótesis sobre dos o más estadísticos en un grupo o muestra: Principalmente en los estudios de corte experimental en los que existe al menos una medida pretest y una postest, nos interesa conocer si existen diferencias significativas entre el nivel alcanzado en la medición de la variable en el pretest y la medición en el postest. Así, determinaremos si una población ha alcanzado, por ejemplo, aprendizajes significativos (por ejemplo, si he diseñado un programa para la mejora de la convivencia en centros de Educación Secundaria y quiero evaluar su eficacia, puedo tomar como medida pretest el número de conductas disruptivas de la convivencia generadas por la muestra de estudiantes de institutos las semanas previas a la implementación del programa y como medida postest el número de conductas disruptivas generadas las semanas posteriores. En este caso, la técnica procede calculando el intervalo para la media poblacional de la diferencia entre las conductas disruptivas generadas en el postest y en el pretest (postest-pretest), y comprobando si el valor 0 está incluido en ese intervalo. En este caso, podré concluir que el programa no genera efecto alguno sobre la población de estudiantes de educación secundaria en cuanto al número de conductas disruptivas generadas antes y después del programa. En el caso contrario (el intervalo de la variable postest-pretest no incluye el 0) podré concluir que el programa genera un efecto significativo en la población de estudiantes de educación secundaria). Antes de entrar a estudiar en profundidad el funcionamiento de los contrastes de hipótesis para resolver problemas, conjeturas o hipótesis como las planteadas encima, es necesario reparar brevemente en los aspectos o elementos clave que posee todo contraste de hipótesis: Hipótesis nula (H0): Se refiere a la conjetura que se pone a prueba en el contraste, es decir, la hipótesis que plantea para su rechazo o no rechazo. La hipótesis nula siempre es la hipótesis de igualdad. Hipótesis alternativa (H1): Es la hipótesis opuesta o complementaria a la hipótesis nula. Si se rechaza la hipótesis nula, entonces la hipótesis alternativa no se puede rechazar (se puede aceptar como válida). Sin embargo, si no se rechaza la hipótesis nula, entonces deberemos 21 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) rechazar la hipótesis alternativa planteada. En todo caso, la hipótesis alternativa es la hipótesis de desigualdad. Región de rechazo (RR): Se refiere al conjunto de valores para los que se rechaza la H0, y por tanto se acepta como válida la hipótesis alternativa. Al igual que existe una Región de Rechazo de la hipótesis nula, existe una región de aceptación o no rechazo de la misma, que denominaremos RA. Por último, el punto o valor exacto que separa la región de rechazo de la región de aceptación lo denominaremos región crítica (RC). Nivel de significación o error tipo I (): Ya hemos hablado del error, nivel o nivel de significación. Se refiere a la probabilidad de rechazar la H0 cuando realmente es verdadera (normalmente se asume un error del 5%). Se podría llamar algo así como falso positivo. Hemos dicho que cuando realizamos la estimación de un parámetro, si asumimos un error del 5%, resulta que nos puede haber ocurrido (por mala suerte o errores de muestreo) que la muestra obtenida sea una muestra con una puntuación media extrema, y que el intervalo estimado no incluya el valor real del parámetro en la población. Asumiendo ese nivel de error, la probabilidad de que eso ocurra es del 5%. Cuando realizamos un contraste de hipótesis nos ocurre lo mismo, podemos haber tenido mala suerte en la obtención de la muestra y que este problema nos lleve a rechazar hipótesis que en realidad en la población son ciertas. Error tipo II (): Al igual que se puede rechazar la H0 cuando realmente esta hipótesis es verdadera, también nos puede ocurrir lo contrario, que no rechacemos la H0 cuando en la realidad esta hipótesis es falsa. A este error, que en realidad es un falso negativo, se le llama error tipo II, o , y es mucho más difícil de controlar que el error tipo I en un contraste de hipótesis. En realidad, se puede pensar el procedimiento del contraste de hipótesis como un juicio. Pensemos en que somos miembros de un tribunal que debe juzgar y decidir sobre si un acusado es condenado o queda en libertad. Evidentemente, al igual que en un contraste de hipótesis, deberemos tomar la decisión a partir de las pruebas o evidencias que se tengan disponibles. Antes de iniciar el juicio y durante el mismo se mantiene la propia presunción de inocencia del acusado (hipótesis nula, el acusado es inocente) hasta que las evidencias no demuestren claramente lo contrario (hipótesis alternativa, de culpabilidad). Podríamos resumir todas las posibles conclusiones del juicio en una simple tabla. EN REALIDAD Es inocente Es culpable El acusado es inocente y El acusado es culpable y Queda en queda en libertad queda en libertad libertad ACEPTO H0 ERROR II (Ac. H0) SENTENCIA El acusado es inocente y es El acusado es culpable y es Es condenado condenado condenado ERROR I (Rech. H0) RECHAZO H0 22 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) En estos 4 escenarios existen dos situaciones acertadas y otras dos erróneas. Sin embargo, el lector estará de acuerdo con que no es lo mismo el error de condenar a un inocente que el error de que un culpable quede en libertad. Al igual que ocurre con un juicio, lo más importante en un contraste de hipótesis es evitar el error tipo I, ya que se considera más grave que el error tipo II. No obstante, si nos ponemos muy estrictos (asumimos un error muy pequeño) para evitar el error tipo I, es decir, para evitar condenar a un inocente, va a ser más fácil acabar cayendo en el error tipo II, dejar en libertad a una persona que realmente es culpable. Si un tribunal o juez nunca condena a nadie, evidentemente no caerá en el error tipo I, pero no pensaremos por ello que está realizando su labor encomendada correctamente. Al respecto, se ha convenido en la comunidad científica que el mejor equilibrio entre el error tipo I y el II está en considerar como tolerable un erro tipo I del 5% o del 1%, según el caso, como hemos visto hasta ahora. “En realidad este procedimiento corresponde al espíritu de un juicio en el que la presunción de inocencia (hipótesis nula) se mantiene mientras no se demuestre claramente lo contrario (hipótesis alternativa). El juez ha de tomar la decisión a partir de las pruebas que se presenten. En estadística las pruebas son los datos, los resultados del experimento, las observaciones o las respuestas de una encuesta. La pregunta que nos hacemos es: ¿desmienten los hechos claramente la hipótesis nula? […] Resulta evidente que si nos ponemos muy estrictos en el control del Error I podríamos caer fácilmente en el Error II lo que tampoco es muy deseable. [...] Un equilibrio entre las probabilidades de ambos errores es muy deseable […]. No es más que un reflejo de la vida misma, en la que tomamos las decisiones asumiendo siempre un cierto riesgo” (López Fidalgo, 2015, p.86-88). Partiendo de estas ideas, podemos plantear el esquema general o los pasos que deben ser seguidos en el contraste de hipótesis: 0. Planteamiento inicial del problema: Hipótesis o cuestiones de investigación. 1. Determinación de la normalidad de la variable o variables implicadas en el análisis y del nivel de error asumido. 2. Planteamiento de la hipótesis nula (H0) y la hipótesis alternativa (H1). 3. Cálculo del intervalo o intervalos de los parámetros intervinientes en las hipótesis. 4. Toma de una decisión con respecto a las hipótesis planteadas Normalmente, las cuestiones o hipótesis iniciales de la investigación, vienen formuladas previamente, ya que es lo que nos suele llevar a realizar todo el proceso investigador. Veamos a continuación algunos ejemplos de contrastes de hipótesis para los 3 casos generales abordados al inicio de este apartado. EJEMPLO 4. Contraste de hipótesis para una media en un grupo Un investigador plantea que la clave de que los estudiantes de Educación Secundaria de Finlandia alcancen rendimientos tan altos en relación a estudiantes de otros países de la OCDE tiene que ver con que el cociente intelectual medio de los jóvenes Finlandeses es superior al del resto de estudiantes de estos países. Por los estudios demográficos previos que existen al respecto, se sabe que el cociente intelectual medio de los jóvenes de los países de la OCDE es de 100 puntos (no se posee información acerca de la varianza en la población). Tras obtener una muestra representativa de n=105 estudiantes de Finlandia, resulta que poseen un CI medio de 𝑋̅=102.2 y una varianza de Sx2=164. La 23 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) exploración previa de datos muestra que la distribución de la variable CI es normal, y el investigador decide asumir un nivel de significación o error del 5%. Así, podemos plantear como hipótesis de investigación (paso 0): El cociente intelectual alcanzado por la población estudiantes finlandeses de Educación Secundaria será más elevado que el cociente intelectual general del resto de estudiantes de Educación Secundaria de países miembros de la OCDE En cuanto al paso 1, ya hemos señalado que la variable CI en la muestra de estudiantes finlandeses obtenida se distribuye normalmente y que el nivel de confianza marcado es del 95%. En este ejemplo deberemos calcular el intervalo del parámetro poblacional media en la población de estudiantes finlandeses para comprobar si es plausible considerar que el CI medio de esta muestra es de 100 puntos (H0) o no (H1). En este caso, como el valor del CI medio obtenido en la muestra es superior a 100 puntos, en caso de rechazar la hipótesis nula podremos concluir que los estudiantes finlandeses tienen un CI superior a 100 puntos. De este modo, las hipótesis estadísticas planteadas son, por tanto, las siguientes (paso 2): H0: finl=100 H1: finl≠100 Nótese que la hipótesis nula es la de igualdad y la alternativa la de desigualdad, y que lo que plantea es, o bien que el CI medio poblacional de los estudiantes finlandeses se puede considerar de 100 puntos, o que no puede realizarse esta consideración. Una vez planteadas las hipótesis estadísticas, ya estamos en disposición de generar el intervalo de confianza para la media de la muestra, apoyándonos en la fórmula descrita en la página 18. En este caso, dado que no se posee información sobre la varianza poblacional, sólo sabemos la muestral, la distribución a emplear es la distribución t con 104 (n-1) grados de libertad. Cabe destacar que los valores disponibles son los del tamaño de la muestra, la media y la varianza. La varianza debe ser previamente transformada en el valor de la desviación típica, ya que este es el valor necesario para realizar los cálculos. Recordemos que la desviación típica es la raíz cuadrada de la varianza: Sx2=164 → Sx=12.81. 𝑺𝒙 𝟏𝟐. 𝟖𝟏 ̅ ± (𝑻𝟏𝟎𝟒;𝟎.𝟎𝟐𝟓 ∗ 𝑿 ) = 𝟏𝟎𝟐. 𝟐 ± (𝟏. 𝟗𝟖𝟒 ∗ ) = 𝟏𝟎𝟐. 𝟐 ± 𝟐. 𝟒𝟖 → (𝟗𝟗. 𝟕𝟐 , 𝟏𝟎𝟒. 𝟔𝟖) √𝒏 √𝟏𝟎𝟓 Se observa que el intervalo (99.72, 104.68), aunque por unas pocas décimas, incluye el valor 100 dentro de los valores poblacionales de la media plausibles, por lo que no se puede rechazar la hipótesis nula. Así, la decisión tomada por el investigador (paso 4), o la conclusión final, es que los estudiantes de educación secundaria finlandeses no poseen un cociente intelectual diferente (ni por supuesto superior) al del resto de estudiantes de este nivel educativo de países pertenecientes a la OCDE. A pesar de que la muestra de estudiantes finlandeses tuvo una media superior a 100, las evidencias no son suficientes como para afirmar que en la población esto sea así. 24 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) Podemos ver este intervalo mejor en una imagen (figura 9). Resulta que, como hemos entendido que la distribución muestral de la media en la variable CI tiene una forma normal, y que la estimación puntual de la coincide con el valor de la media muestral obtenido, podemos calcular el intervalo de puntuaciones entre el que se encuentran, en esta distribución muestral, el 95% de todas las muestras posibles obtenidas a partir de la población de estudiantes de educación secundaria en Finlandia: Figura 8. Intervalo para un nivel =0.05. EJEMPLO 4 (Fuente: elaboración propia) Se puede observar cómo ahora tenemos en este gráfico una región de aceptación (si el valor hipotético 100 entra en esta región se acepta la hipótesis nula) y una región de rechazo (sin el valor hipotético 100 se encuentra fuera del intervalo, esto es, dentro de la región de rechazo, se rechaza la hipótesis nula), que nos aportan una indicación precisa acerca de la decisión a tomar. EJEMPLO 5. Contraste de hipótesis para comparar la media de una variable en varios grupos Un grupo de investigadores de la Universidad de Salamanca cree que existen diferencias significativas en cuanto al nivel de comprensión lectora de los estudiantes de Educación Secundaria de algunas comunidades autónomas en España. Por eso, quiere comparar, a partir de la muestra obtenida en las pruebas PISA 2012, el rendimiento en comprensión lectora de las poblaciones de estudiantes de Madrid, Andalucía y Castilla y León. Para ello, extrae los resultados obtenidos por los estudiantes de estas 3 comunidades autónomas, comprobando previamente que se cumple el supuesto previo de normalidad en cada una de las 3 poblaciones (se desea trabajar con un 1% de error): nMad= 536 𝑋̅𝑀𝑎𝑑 =87.9 𝑆𝑥𝑀𝑎𝑑 =32.3 nAnd= 883 𝑋̅𝐴𝑛𝑑 =83.6 𝑆𝑥𝐴𝑛𝑑 =15.2 nCyL= 345 𝑋̅𝐶𝑦𝐿 =90.1 𝑆𝑥𝐶𝑦𝐿 =19.8 Podemos plantear como hipótesis de investigación (paso 0): 25 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) Los niveles de comprensión lectora de los estudiantes de último curso de educación secundaria en España serán diferentes en función de la comunidad autónoma en la que cursen sus estudios Ya sabemos que las distribuciones son normales y que el nivel de confianza deseado en este caso es del 99% (paso 1), así que directamente vamos a plantear las hipótesis estadísticas. En este caso no planteo que si los valores medios en la muestra se ajustan o no a un valor teórico exacto, sino que me estoy planteando si existen diferencias entre varios grupos, por eso ahora no debo estimar solamente el intervalo de un parámetro, sino de 3. Por lo tanto, estos 3 parámetros deben estar presentes en la hipótesis, y mantenerse el criterio general de que la hipótesis nula es de igualdad y la alternativa de desigualdad (paso 2): H0: Mad = And = CyL H1: Mad ≠ And ≠ CyL Vemos que simplemente planteo en un caso que las medias entre los grupos son iguales y en el otro que no son iguales. Podría generar a partir de esta hipótesis general algunas hipótesis subordinadas, una por cada pareja de comunidades autónomas (Madrid con Andalucía; Madrid con Castilla y León; Andalucía con Castilla y León), pero esta formulación puede ser suficiente en este caso (lo importante en el planteamiento de las hipótesis es que se entienda lo que se contrasta, en este caso vamos a contrastar la igualdad o desigualdad de las medias poblacionales de 3 poblaciones distintas). Ahora, pues, debemos calcular los parámetros poblacionales en los 3 grupos a partir de una T con n-1 grados de libertad en todo caso (paso 3). A pesar de que existe un procedimiento estadístico más ajustado para el contraste de estas diferencias entre grupos (que es el que emplea el software JASP), el procedimiento estudiado puede ser considerado como válido: 𝟑𝟐. 𝟑 ̅ 𝑴𝒂𝒅 ± (𝟐. 𝟓𝟕𝟔 ∗ 𝑿 ) = 𝟖𝟕. 𝟗 ± 𝟑. 𝟔𝟎 → (𝟖𝟒. 𝟑𝟎 , 𝟗𝟏. 𝟓𝟎) √𝟓𝟑𝟔 𝟏𝟓. 𝟐 ̅ 𝑨𝒏𝒅 ± (𝟐. 𝟓𝟕𝟔 ∗ 𝑿 ) = 𝟖𝟑. 𝟔 ± 𝟏. 𝟑𝟐 → (𝟖𝟐. 𝟐𝟖 , 𝟖𝟒. 𝟗𝟐) √𝟖𝟖𝟑 𝟏𝟗. 𝟖 ̅ 𝑪𝒚𝑳 ± (𝟐. 𝟓𝟕𝟔 ∗ 𝑿 ) = 𝟗𝟎. 𝟏 ± 𝟐. 𝟕𝟓 → (𝟖𝟕. 𝟑𝟓 , 𝟗𝟐. 𝟖𝟓) √𝟑𝟒𝟓 En este caso, vemos que la media poblacional con un intervalo de puntuaciones más bajo es el de los estudiantes de Andalucía, pero que su intervalo se solapa con el de los estudiantes de Madrid. Por otro lado, el intervalo de los estudiantes de Castilla y León, que poseen los valores más elevados, se solapa con el de los de Madrid, pero con el de los estudiantes Andaluces. Veamos estos resultados incluyendo las 3 distribuciones muestrales de la media en un hipotético eje x conjunto en la figura 9: 26 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) Figura 9. Intervalos distribuciones muestrales EJEMPLO 5 (Fuente: elaboración propia) Claramente se muestra cómo, mientras que existe un intervalo común en las estimaciones poblacionales de Andalucía y Madrid y de Madrid y Castilla y León, los intervalos entre Andalucía y Castilla y León están separados. Entonces, puedo acabar tomando las siguientes decisiones a partir de este contraste (paso 4): - A nivel general, puedo rechazar H0, ya que los niveles de comprensión lectora de los estudiantes en España son diferentes en función de la comunidad autónoma, al menos en algún caso. Así, existen diferencias significativas en función de la comunidad autónoma de procedencia en cuanto al nivel de comprensión lectora de los estudiantes españoles. - A nivel específico, puedo establecer 3 conclusiones: o No rechazo la H0 en el caso de las diferencias entre los estudiantes de Andalucía y de Madrid. No se poseen evidencias suficientes para afirmar que las poblaciones de estudiantes de estas dos comunidades autónomas posean unos rendimientos en comprensión lectora diferentes (recordemos que esto es un juicio, y que no debemos juzgar al acusado como culpable hasta que no tengamos evidencias irrefutables, en este caso parece que los estudiantes de la muestra de Madrid tienen un rendimiento ligeramente superior, pero con el nivel de error asumido no podemos afirmar que estas diferencias puedan ser reales en la población). Así, no existen diferencias significativas entre ambos grupos en cuanto a su nivel de comprensión lectora. o No rechazo la H0 en el caso de las diferencias entre los estudiantes de Madrid y Castilla y León por las mismas circunstancias. Además, en este caso, las puntuaciones son mucho más cercanas entre ambos grupos, y el área común de los intervalos estimados (Región de Aceptación) es mucho más grande, por lo que tenemos mucha más seguridad en nuestra afirmación de no rechazar la H0. Por tanto, no existen diferencias significativas entre ambos grupos. o Rechazo la H0 en el caso de las diferencias entre los estudiantes de Andalucía y Castilla y León. Parece que la población de estudiantes de Castilla y León posee un rendimiento en comprensión lectora superior a la población de estudiantes de Andalucía, alcanzándose diferencias significativas entre ambos grupos. 27 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) EJEMPLO 6. Contraste de hipótesis para comparar varias variables en un grupo Un equipo de investigadores quiere comprobar la eficacia de un programa integral para la mejora de la convivencia en el aula de Educación Primaria. Para ello, tras medir el número de conductas disruptivas de cada uno de los 15 estudiantes de 6º curso participantes en el programa durante el mes anterior a la aplicación del programa (pretest), procede a la implementación de las actividades del mismo, con una duración de tres meses. Finalmente, durante el mes posterior a la aplicación del programa, se vuelve a registrar la cantidad de conductas disruptivas de cada estudiante, obteniéndose los siguientes resultados: Pretest Postest Estudiante 1 6 3 Estudiante 2 0 1 Estudiante 3 2 3 Estudiante 4 11 2 Estudiante 5 15 10 Estudiante 6 27 12 Estudiante 7 4 2 Estudiante 8 7 1 Estudiante 9 8 0 Estudiante 10 20 3 Estudiante 11 4 2 Estudiante 12 6 5 Estudiante 13 8 1 Estudiante 14 7 3 Estudiante 15 2 0 Para tomar una mayor seguridad de los resultados obtenidos, se desea trabajar con un nivel del 1%. En este caso, debemos trabajar con los datos de la diferencia entre el postest y el pretest, así que el primer paso es generar una nueva variable que resulte de esta resta (diferencia=postest-pretest). Pretest Postest Diferencia Estudiante 1 6 3 3 Estudiante 2 0 1 -1 Estudiante 3 2 2 0 Estudiante 4 11 2 9 Estudiante 5 15 10 5 Estudiante 6 27 12 15 Estudiante 7 4 2 2 Estudiante 8 7 1 6 Estudiante 9 8 0 8 Estudiante 10 20 3 17 Estudiante 11 4 2 2 Estudiante 12 6 5 1 Estudiante 13 8 1 7 Estudiante 14 7 3 4 Estudiante 15 2 0 2 ̅ 𝑿 8.47 3.13 5.33 Sx 7.26 3.46 5.21 28 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) Ya vemos, en primer lugar, cómo, mientras que inicialmente la cantidad media de conductas disruptivas de la muestra de estudiantes fue de 8.47 puntos, tras la aplicación del programa se reduce a 3.13 conductas disruptivas de media por estudiante. Así, se han reducido de media 5.33 conductas disruptivas por estudiante. Ahora la duda es si estas diferencias son suficientes como para poder considerarse significativas. Aunque los programas estadísticos emplean un cálculo estadístico específico más ajustado para realizar esta estimación, realizaremos los cálculos a partir de la fórmula estudiada inicialmente, que realiza un ajuste razonablemente similar. La hipótesis de investigación planteada en este caso podría ser la siguiente (paso 0): El número de conductas disruptivas de la convivencia escolar de estudiantes de 6º de educación primaria se reducirá tras la aplicación de un programa de mejora de la convivencia escolar en el aula. En cuanto al paso 1, ya se ha señalado que se posee un nivel de significación del 1%, y tras el estudio de la distribución de la variable, resulta que se acepta la normalidad de la misma. Así, se pueden generar las siguientes hipótesis estadísticas con respecto a los grupos (paso 2): H0: pretest = postest → postest - pretest = 0 H1: pretest ≠ postest → postest - pretest ≠ 0 Vamos a calcular ahora el intervalo de confianza de la variable diferencia (paso 3). Dado que esta variable nos muestra la diferencia de conductas disruptivas entre el postest y el pretest, en este orden, en este caso nos interesa que exista un intervalo con un rango de puntuaciones negativo (indicando que en el postest existen menos conductas disruptivas que en el pretest) y que no incluya el valor 0 como plausible (que nos indicaría que se podría aceptar que en la población no existe ningún tipo de reducción de las conductas disruptivas). Recordemos que en este caso trabajamos con una distribución T con 14 grados de libertad y un nivel /2 de 0.005 (existe un error de 0.01, el 1%): 𝟓. 𝟐𝟏 ̅ 𝑷𝒐𝒔𝒕𝒆𝒔𝒕 − 𝑿 (𝑿 ̅ 𝑷𝒓𝒆𝒕𝒆𝒔𝒕 ) ± (𝟐. 𝟗𝟕𝟔𝟖 ∗ ) = −𝟓. 𝟑𝟑 ± 𝟒. 𝟎𝟎 → (−𝟗. 𝟑𝟑 , −𝟏. 𝟑𝟑) √𝟏𝟓 En conclusión (paso 4), resulta que tengo evidencias suficientes para rechazar la H0, ya que resulta que postest-pretest≠0 para un nivel de confianza del 99%. Así, el programa de mejora de la convivencia es efectivo, ya que parece que ejerce un efecto significativo sobre la reducción de conductas disruptivas en el aula. CONTRASTES DE HIPÓTESIS CON SOFTWARE INFORMÁTICO (JASP) Aunque en realidad cuando realizamos un contraste de hipótesis estamos empleando todo este artefacto estadístico/matemático, el software estadístico empleado para el análisis de datos descriptivo e inferencial no nos suele aportar la información de los contrastes de hipótesis de este modo, incorporando las hipótesis estadísticas, los intervalos de confianza para los parámetros que se deben estimar y la decisión tomada. En su lugar, en todo contraste de hipótesis nos aporta información simplificada acerca del valor de la significación exacta de ese contraste (JASP llama a este valor ‘p’), que nosotros denominaremos p-valor. Es decir, el p-valor de un contraste de hipótesis que devuelven los programas informáticos indica la probabilidad que existe de que la H0 sea en realidad cierta. 29 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) Así, el valor devuelto por el programa informático es una probabilidad, es decir, un valor entre 0 y 1. Lo que nos está indicando exactamente en cada uno de los 3 casos estudiados es lo siguiente: Contraste de hipótesis para una media en un grupo: El valor de la significación (p) devuelto por el programa estadístico en este caso nos indica la probabilidad que existe de que la muestra a partir de la que se ha generado la estimación provenga de una población con una media siendo el valor señalado en la hipótesis nula (en el ejemplo 3, =100). Contraste de hipótesis para comparar la media de una variable en varios grupos: En este caso, el valor de la significación devuelto por JASP nos indica la probabilidad exacta de que las muestras que se comparan provengan de la misma población o de poblaciones con la misma media (en el ejemplo 4, Mad = And = CyL). En el caso de que el contraste sea no paramétrico, la comparación se hace entre las medianas de los grupos (MdnMad = Mdn And = MdnCyL) Contraste de hipótesis para comparar varias variables en un grupo: Lo que indica este valor p o p-valor es la probabilidad de que la muestra obtenida en el estudio provenga de una población en la que la diferencia entre las puntuaciones de las variables es 0 (En el caso del ejemplo 5, las variables pretest y postest, o sea, postest-pretest=0). En el caso de que el contraste sea no paramétrico, la comparación se hace entre las medianas de las variables (Mdnpret = Mdnpost). Nótese que en realidad, este valor de la significación o p-valor se está refiriendo en todos los casos a la probabilidad de que H0 sea cierta o, dicho en términos del ejemplo del juicio, la probabilidad de que el acusado sea inocente (si la probabilidad de que sea inocente no es suficientemente baja, tan baja como el nivel de significación planteado inicialmente, no deberíamos acusarle). Así, la interpretación de este p-valor siempre es la misma, en función del nivel de error o que hayamos prefijado: En el caso de que p-valor < , entonces tendré evidencias suficientes como para rechazar la H0, ya que la probabilidad de cometer un error tipo I es menor al nivel de error establecido previamente (normalmente del 5%). En este caso rechazaré la hipótesis nula y podré afirmar que existen diferencias significativas bien entre varios grupos, o entre varias medidas en un mismo grupo, o entre la media de un grupo y la de una población hipotética. En el caso de que p-valor ≥ , entonces no tendré evidencias suficientes como para rechazar la H0, ya que la probabilidad de cometer un error tipo I es mayor al nivel de error establecido previamente. En este caso no rechazaré la hipótesis nula y no podré afirmar que existan diferencias significativas entre las puntuaciones en una variable de varias muestras, o entre la puntuación en varias variables en una muestra, o entre la puntuación de una muestra y la de una población hipotética. A lo largo de los siguientes temas abordaremos desde un punto de vista práctico una por una las técnicas estadísticas inferenciales más habituales, por lo que profundizaremos en las implicaciones de este p-valor. SESGO DEL TAMAÑO MUESTRAL EN UN CONTRASTE DE HIPÓTESIS: USO DEL TAMAÑO DEL EFECTO A pesar de que el contraste de hipótesis es la técnica estadística aceptada y de uso generalizado para la extracción de conclusiones en torno a las poblaciones de estudio, tiene asociado un sesgo 30 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) fundamental relacionado con el tamaño de la muestra que debemos tener en cuenta. Recordemos en primer lugar la fórmula general para el cálculo de la amplitud del intervalo: 𝐴𝐼𝑣𝑎𝑟.𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎 = 𝑍1−𝛼/2 ∗ 𝐸𝑇 𝐴𝐼𝑣𝑎𝑟.𝑑𝑒𝑠𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎 = 𝑇𝑛−1;𝛼/2 ∗ 𝐸𝑇 Es importante destacar que la fórmula para el cálculo del error típico (ya sea con varianza poblacional conocida o desconocida) incluye en el denominador la raíz cuadrada del tamaño de la muestra: 𝜎 𝑆𝑥 𝐸𝑇𝑣𝑎𝑟. 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎 = 𝐸𝑇𝑣𝑎𝑟. 𝑑𝑒𝑠𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎 𝐸𝑇 = √𝑛 √𝑛 Esto implica que, ante idénticos valores en la varianza y el estadístico de contraste (Z o T), la amplitud del intervalo será mayor si tenemos tamaños de muestra más pequeños. Veamos un ejemplo: EJEMPLO 6. Influencia del tamaño de la muestra sobre el intervalo de confianza Se quiere comprobar, con datos de dos muestras diferentes de estudiantes de ingeniería, si se puede considerar que la media poblacional de la variable ‘motivación intrínseca hacia la carrera (0-10 puntos)’ es =4 (= 5%). Los resultados obtenidos en ambas muestras son los siguientes: n Media Sx Muestra 1 16 4.5 2.0 Muestra 2 1600 4.5 2.0 Nótese que tanto la media como la desviación típica (y por ende la varianza) son iguales en ambas muestras, y que tenemos los mismos niveles de significación. Tenemos las siguientes hipótesis: H0: motiv=4 H1: motiv≠4 Teniendo en cuenta que para un nivel de significación del 5% → T15;0.975=2.131 y T1599;0.975=1.960, podemos calcular los errores típicos, amplitudes del intervalo e intervalos de confianza en ambas muestras: ET AI IC 2 Muestra 1 𝐸𝑇 = = 𝟎. 𝟓 𝐴𝐼 = 2.13 ∗ 0.5= 1.065 𝑋̅ = 4.5 → (𝟑. 𝟒𝟑𝟓 , 𝟓. 𝟓𝟔𝟓) √16 2 Muestra 2 𝐸𝑇 = = 𝟎. 𝟎𝟓 𝐴𝐼 = 1.96 ∗ 0.05 = 0.098 𝑋̅ = 4.5 → (𝟒. 𝟒𝟎𝟐 , 𝟒. 𝟓𝟗𝟖) √1600 Se observa que, en el caso de la muestra 1, de tamaño pequeño (n=16), el intervalo de confianza es grande, tanto que aceptamos H0. No obstante, en el caso de la muestra 2, de tamaño grande (n=1600), la influencia de este gran tamaño de muestra lleva a que la amplitud del intervalo sea mucho más pequeña (más de 10 veces menor), y que el intervalo de confianza sea pequeño, lo que nos lleva a rechazar H0. 31 Análisis de datos en Educación Fernando Martínez Abad ([email protected]) En conclusión, como se puede verificar en el ejemplo 6, es importante tener en cuenta que tamaños de muestra muy grandes llevan a intervalos de confianza muy pequeños (y viceversa), lo cual implica que: Con tamaños de muestra grandes será más fácil rechazar las hipótesis nulas, ya que los intervalos de confianza que se deben comparar serán más pequeños, incluso con diferencias muy pequeñas en las medias muestrales Así, cuando trabajamos con muestras muy grandes existirá una tendencia a rechazar la hipótesis nula y encontrar diferencias significativas en los contrastes de hipótesis, independientemente de que las diferencias en las medias de las muestras sean muy pequeñas. Para tratar de atajar este sesgo, se propone el uso del estadístico tamaño del efecto, que informa sobre la intensidad de la diferencia de medias, o lo que es lo mismo, sobre la intensidad de la relación entre las dos variables estudiadas. Normalmente este estadístico se emplea como complemento de un contraste de hipótesis cuando este resulta significativo, para saber si la relación entre ambas variables es de intensidad baja, media o alta. En función del contraste de hipótesis aplicado, se empleará un estadístico diferente de tamaño del efecto. Estos son los principales estadísticos de tamaño del efecto que estudiaremos, en función del contraste de hipótesis: Contraste paramétrico Contraste no paramétrico 2 grupos independientes D de Cohen (d) Correlación Biserial-Puntual (rbp) 2 grupos relacionados D de Cohen (d) Correlación Biserial-Puntual (rbp) Eta Cuadrado (2) [contraste principal] Eta Cuadrado (2) [contraste principal] k grupos independientes D de Cohen (d) [post hoc] D de Cohen (d) [post hoc] Regresión lineal Coeficiente de determinación (R2) - Prueba de independencia Phi () - (Chi Cuadrado) Coeficiente de Contingencia (CC) La interpretación de estos estadísticos de tamaño del efecto la haremos conforme a los siguientes criterios: d rbp / / CC 2 / R2 Sin efectos (efectos nulos) < 0.2 < 0.1 < 0.01 Efectos bajos (0.2 , 0.6) (0.1 , 0.3) (0.01 , 0.1) Efectos medios (0.6 , 1.1) (0.3 , 0.5) (0.1 , 0.25) Efectos altos (1.1 , 2.0) (0.5 , 0.7) (0.25 , 0.5) Efectos muy altos > 2.0 > 0.7 > 0.5 32