Tema 5: Estadistica Inferencial Y Contraste De Hipotesis PDF
Document Details
Uploaded by ChivalrousToucan3503
UCAM
Marina Iniesta Sepulveda
Tags
Summary
This document covers inferential statistics and hypothesis testing, including topics like parameters and statistics, hypothesis testing, and the concept of statistical significance, focusing on an analysis of data. It's intended for an undergraduate-level course in psychology.
Full Transcript
Tema 5 Estadística inferencial y contraste de hipótesis Análisis de datos Marina Iniesta Sepúlveda Grado en Psicología Índice de contenidos 1. Parámetros y estadísticos ............................................ 1 2. Contraste de hipótesis .................................................. 1 3....
Tema 5 Estadística inferencial y contraste de hipótesis Análisis de datos Marina Iniesta Sepúlveda Grado en Psicología Índice de contenidos 1. Parámetros y estadísticos ............................................ 1 2. Contraste de hipótesis .................................................. 1 3. El proceso de inferencia estadística ............................ 4 4. Concepto de significación estadística: el valor p ...... 8 4.1 Error tipo I y error tipo II ...................................... ¡Error! Marcador no definido. 5. Referencias bibliográficas .......................................... 10 Análisis de datos 1. Parámetros y estadísticos Como hemos visto, la investigación psicológica normalmente implica medir una o más variables en una muestra y calcular índices descriptivos (por ejemplo, medias, coeficientes de correlación, etc.) para esas variables. Recordemos que los datos descriptivos de la muestra se denominan estadísticos. Sin embargo, el objetivo del investigador no es sacar conclusiones sobre la muestra, sino obtener conclusiones sobre la población. Por lo tanto, deben utilizar los estadísticos de las muestras para extraer conclusiones acerca de los valores de los parámetros en la población. Los estadísticos (𝜃̂) se convierten entonces en estimadores de los parámetros (θ). Esto es posible aplicando la estadística inferencial que utiliza procedimientos estadísticos basados en la teoría de la probabilidad. Recordemos que los estadísticos se representan con letras latinas y los parámetros con letras griegas, en la Tabla 1 podemos ver la equivalencia entre estadísticos y parámetros. Tabla 1 Equivalencia entre parámetros y estadísticos Denominación Estadístico Parámetro General 𝜃̂ θ Media 𝑋̅ 𝜇 Proporción 𝑝 𝜋 Varianza 𝑆2 𝜎2 Desviación típica 𝑆 𝜎 𝑟𝑥𝑦 𝜌 Correlación 2. Contraste de hipótesis Como sabemos, una de las etapas de la investigación es el planteamiento de hipótesis, en la que el investigador plantea predicciones acerca de los resultados de la investigación que deberá confirmar o refutar dependiendo de la evidencia empírica (pruebas) recogida. Un ejemplo de hipótesis podría ser: “los alumnos motivados tendrán un rendimiento superior al de los alumnos no motivados”. Estas hipótesis son denominadas hipótesis conceptuales. Para poder ser verificada, la hipótesis conceptual debe ser reformulada como hipótesis estadística. 1 Análisis de datos Las hipótesis estadísticas son afirmaciones acerca de los valores que tomarán los parámetros en la población. Siguiendo con el ejemplo, la hipótesis estadística podría formularse de la siguiente manera: “la media de rendimiento de los alumnos motivados, será superior a la media de los alumnos desmotivados”. La hipótesis se representa con la letra H seguida de la afirmación en términos matemáticos. Vemos que en el ejemplo la hipótesis se plantea acerca de las medias poblacionales: 𝐻: 𝜇𝑀 > 𝜇𝐷 El contraste de hipótesis es entendido como un método de toma de decisiones mediante el cual se comprueba si una afirmación acerca de las propiedades de una población puede ser mantenida según la información que se obtiene de una muestra representativa. Es decir, se comprueba si la hipótesis estadística del investigador, puede ser mantenida en función de la evidencia disponible. A pesar de que en nuestro ejemplo se ha formulado una sola hipótesis, todo contraste de hipótesis se basa en la formulación de dos hipótesis: • La hipótesis nula H0: siempre se expresa en términos de igualdad. Por ejemplo, cuando se trata de estimar el valor de un parámetro, será la hipótesis que mantenga que el parámetro es igual a ese valor, o cuando se trata de comparar los valores de dos parámetros, será la hipótesis que afirme que no hay diferencias entre los mismos (que ambos son iguales). • La hipótesis alternativa H1: consiste en la negación de la hipótesis nula, incluyendo todo lo que esta excluye. Por ejemplo, si la hipótesis nula afirma que el parámetro es igual a un valor, la hipótesis alternativa afirmará que el parámetro es diferente a dicho valor. Si la hipótesis nula afirma que un parámetro es igual a otro, la hipótesis alternativa afirmará que uno de los parámetros es diferente, mayor o menor que otro. La hipótesis alternativa suele ser la derivada de la hipótesis conceptual del investigador. Siguiendo con el ejemplo, este sería el planteamiento del contraste de hipótesis en una investigación que pretende comprobar si el rendimiento de los alumnos motivados es superior al de los desmotivados: 𝐻0 : 𝜇𝑀 ≤ 𝜇𝐷 𝐻1 : 𝜇𝑀 > 𝜇𝐷 Vemos que la hipótesis nula afirma que el rendimiento de los motivados es menor o igual que el de los desmotivados, mientras que la alternativa afirma que el rendimiento de los motivados es mayor que el de los desmotivados. Como se puede deducir, estas dos hipótesis son complementarias y mutuamente excluyentes, aceptar una implica 2 Análisis de datos necesariamente rechazar la otra. En este sentido, los contrastes de hipótesis pueden ser bilaterales o unilaterales: • Contraste bilateral: Este tipo de contraste plantea si existen o no diferencias entre los parámetros, o entre el parámetro y un valor, sin especificar el sentido de tales diferencias. La hipótesis nula afirma que los parámetros son iguales o que el parámetro es igual a un valor, conteniendo el símbolo (=), mientras que hipótesis alternativa afirma que los parámetros son diferentes o que el parámetro es diferente a un valor, conteniendo el símbolo (≠). Un ejemplo sería: 𝐻0 : 𝜇𝑀 = 𝜇𝐷 𝐻1 : 𝜇𝑀 ≠ 𝜇𝐷 • Contraste unilateral izquierdo: Este tipo de contraste, sí plantea el sentido de las diferencias. La hipótesis nula afirma que un parámetro es igual o mayor que otro, o que un parámetro es igual o mayor que un valor, conteniendo el símbolo (≥), mientras que la hipótesis alternativa, afirma que un parámetro es menor que otro, o que el parámetro es menor a un valor, conteniendo el símbolo (<). 𝐻0 : 𝜇𝑀 ≥ 𝜇𝐷 𝐻1 : 𝜇𝑀 < 𝜇𝐷 • Contraste unilateral derecho: Este tipo de contraste, también plantea el sentido de las diferencias. La hipótesis nula afirma que un parámetro es igual o inferior que otro, o que un parámetro es igual o inferior a un valor, conteniendo el símbolo (≤), mientras que la hipótesis alternativa, afirma que un parámetro es mayor que otro, o que el parámetro es mayor a un valor, conteniendo el símbolo (>). 𝐻0 : 𝜇𝑀 ≤ 𝜇𝐷 𝐻1 : 𝜇𝑀 > 𝜇𝐷 Es importante señalar que la hipótesis acerca de la cual se toma una decisión (aceptar o rechazar) es la hipótesis nula. Si los datos muestrales aportan suficientes pruebas a favor de la hipótesis nula esta tendrá que ser mantenida, por el contrario, si se obtiene suficiente evidencia en contra de la hipótesis nula, esta será rechazada. Siguiendo con el ejemplo, si en una muestra de 100 universitarios se evalúa la motivación y la nota media obtenida, la diferencia entre las medias de los motivados y los desmotivados será la evidencia que 3 Análisis de datos ayudará a los investigadores a decidir si mantienen o rechazan la hipótesis nula. Veamos de que manera. 3. El proceso de inferencia estadística Los valores de los estadísticos calculados en diferentes muestras, se comportan como las puntuaciones de una variable aleatoria, obtenidas en diferentes participantes. La correlación de Pearson entre dos variables podría ser 0.24 en una muestra, −0.04 en una segunda muestra, y 0.15 en una tercera, aunque estas muestras se seleccionaran al azar de la misma población. El error de muestreo es el que hace que el estadístico tome diferentes valores en diferentes muestras escogidas de una población. Recordemos que los valores de la variable se repartían en los participantes siguiendo una determinada distribución de frecuencias en la muestra, además cuando un valor de la variable presentaba una mayor frecuencia su probabilidad era mayor. Por lo tanto, podemos asumir que los estadísticos calculados en las muestras siguen una determinada distribución de probabilidad en la población. Una distribución de probabilidad es un modelo teórico simplificado acerca del comportamiento real de una variable en la población (ej., la distribución normal). Las distribuciones teóricas de probabilidad tienen propiedades conocidas. Por ejemplo, sabemos que la distribución normal tipificada tiene media igual a 0. Este hecho, es el que va a posibilitar conocer las propiedades de la población a partir de los datos obtenidos en las muestras. Imaginemos que queremos conocer cuál es la media de la estatura en la población adulta española (µ). Lo más adecuado sería medir la estatura de todos y cada uno de los adultos españoles y calcular la media. Sin embargo, como sabemos, este procedimiento es logísticamente imposible. En este sentido, la estadística nos aporta la solución de estimar lo que vale la media en la población mediante la media obtenida en una muestra aleatoria representativa (𝑋̅) ¿Cómo es esto posible? Como sabemos, la altura en la población sigue una distribución normal, es decir hay un gran número de personas que tienen estaturas en torno a la media y son cada vez menos aquellos que presentan estaturas inferiores o superiores a la media. Imaginemos que se conociera que la estatura media de la población española fuera de 170 cm, con una desviación típica de 12, por lo tanto la distribución poblacional de la variable altura se representaría como N(170, 12). 4 Análisis de datos Figura 1 Distribución de la estatura en la población (tomado de Píldoras Matemáticas, 16 abril 2017) Si escogemos mediante muestreo aleatorio varias muestras de tamaño N de la población española y calculamos la media de la estatura en ellas: - La distribución muestral de las medias tendería a la forma de una distribución normal conforme el número de muestras escogidas fuera mayor. - La media de esta distribución de las medias muestrales (llamada esperanza matemática en este caso) sería igual a la media de la población (µ). En otras palabras, una gran parte de las muestras que escogiéramos tendrían como media 170 o valores cercanos y serían cada vez menos las muestras con valores medios más alejados. - La dispersión en la distribución de las medias muestrales de la estatura sería bastante menor que la dispersión en la distribución poblacional de la estatura. Es decir, aunque es poco probable escoger una persona al azar de la población que presente un valor de estatura extremo (195 cm), no es imposible, pues existen personas muy altas, sin embargo, escoger una muestra que tuviera como media 195 cm es prácticamente imposible. Es por ello, que la desviación típica de la distribución de las medias (denominada error típico en este caso) sería menor que la desviación típica de la población. 5 Análisis de datos Figura 2. Distribución de las medias muestrales de la estatura (tomado de Píldoras Matemáticas, 16 abril 2017) Para entender mejor esta explicación veamos el ejemplo de Píldoras Matemáticas (16 abril 2017) video disponible en YouTube. Esto que acabamos de describir, ocurriría con la distribución muestral de la media de cualquier variable, incluso aunque esta no siguiera una distribución normal en la población (si se escogiera un número suficiente de muestras). Es lo que se conoce como teorema central del límite. Que se resume en el siguiente cuadro: Teorema central del límite Si una variable aleatoria X se distribuye normalmente en una población y se seleccionan infinitas muestras de tamaño N y se calcula en ellas la media, la distribución muestral resultante tendrá las siguientes propiedades: • • • • Tendrá la forma de una distribución normal. Incluso si la variable aleatoria no siguiera una distribución normal en la población. La esperanza matemática de la distribución muestral coincidirá con la media de la población: E(X) = μ. La varianza será igual a la varianza de la población dividida entre el tamaño muestral: V(X) = σ2/ N. La desviación típica es denominada en este caso como error típico de la 𝜎 media (𝜎𝑋 = ). √𝑁 La distribución muestral del estadístico es lo que hace posible conocer la probabilidad de que un estadístico tome un valore concreto en una población, a partir de su cálculo en las muestras. En esto consiste exactamente el proceso de inferencia estadística. Ahora que 6 Análisis de datos sabemos que la distribución muestral de la media tiene forma de distribución normal, veamos como se lleva a cabo el proceso de inferencia estadística siguiendo con el ejemplo de la estatura en la población española. Unos alumnos de la UCAM quieren poner a prueba la información que se conoce acerca de la estatura en la población española (que tiene media 170 y desviación típica 12). Las hipótesis estadísticas planteadas serían las siguientes: 𝐻0 : 𝜇 = 170 𝐻1 : 𝜇 ≠ 170 Para ello seleccionan al azar una muestra 100 personas adultas y miden su estatura. La media de la estatura obtenida en la muestra es 𝑋̅ = 168 con una desviación típica S = 9.5. Como podemos imaginar, que la estatura media obtenida en su muestra sea de 168 no significa que la estatura media de la población no pueda ser 170, ya que el error de muestreo hace que los estadísticos no reflejen siempre el verdadero valor del parámetro. Entonces, la pregunta que se plantean estos estudiantes es la siguiente: si la media de la población fuera 170 ¿qué probabilidad habría de haber obtenido una media de 168 en nuestra muestra? Si la probabilidad es muy pequeña, lo más lógico será asumir que la media de la población no puede ser 170 y tendrán que rechazar la hipótesis nula. Pero ¿cómo van a conocer dicha probabilidad? Recordemos que cuando una variable sigue una distribución normal, transformando el valor obtenido en una puntuación z podemos conocer la probabilidad asociada a ese valor en la distribución normal tipificada. Como conocen las propiedades de la distribución muestral de la media, los alumnos deciden transformar la media de su muestra a puntuación z mediante la siguiente fórmula: 𝑧= 𝑧= 𝑋̅ − µ 𝜎 √𝑁 168 − 170 = −1.66 12 √100 La puntuación z obtenida es de -1.66, nuestra media es menor que la media hipotética de la población. Como sabemos buscando en las tablas de la distribución normal podemos conocer la probabilidad de obtener una puntuación de -1.66 o menor aún, en este caso esa 7 Análisis de datos probabilidad es de 0.048 (4.8%). ¿Es una probabilidad suficientemente baja para concluir que la altura en la población no puede ser 170? Necesitamos un criterio. 4. Concepto de significación estadística: el valor p Como hemos visto, la H0 es aquella que indica que el efecto estudiado no existe en la población (ej., no hay diferencias entre grupos o las variables no están relacionadas). El investigador tomará la decisión de aceptar o rechazar la H0 en función de la probabilidad de ocurrencia del efecto que hemos observado en la muestra (o de un efecto aún más extremo), bajo el supuesto de que la H0 fuese cierta en la población. Esto es lo que se conoce como p-valor, la probabilidad asociada al estadístico de contraste si la hipótesis nula fuese cierta. Es decir, cómo de probable sería observar un estadístico con ese valor si la hipótesis nula fuese cierta, si la probabilidad de observar ese valor fuese muy pequeña, lo lógico sería rechazar la hipótesis nula (si aun siendo tan pequeña la probabilidad de observar un estadístico con este valor, lo hemos observado en nuestra muestra, tenemos suficiente evidencia en contra de la hipótesis nula). Pero ¿cómo de pequeña debe ser esa probabilidad para considerar el rechazo de la hipótesis nula? Evidentemente será necesario un criterio. Esta probabilidad, es denominada nivel de significación (α) y es prefijada por el investigador, utilizándose en psicología generalmente un valor de 0.05 (5%). Por lo tanto, cuando los estadísticos de contraste tienen asociados p-valores (probabilidades de ocurrencia) inferiores o iguales a 0.05 se rechaza la hipótesis nula y se acepta la alternativa. Por el contrario, se aceptará la hipótesis nula, si la probabilidad de ocurrencia del estadístico toma un valor superior a 0.05. Retomemos el ejemplo anterior recordando que los alumnos habían obtenido una media de estatura en su muestra de 168 cuyo p-valor fue igual a 0.04. Esto significa que si la altura de la población fuese realmente 170 la probabilidad de que estos alumnos por azar hubieran obtenido una muestra con una estatura media de 168 es inferior al 5%. Por lo tanto, si era tan difícil obtener una muestra con esa media y aún así la hemos obtenido, lo más lógico es rechazar la hipótesis de que la media poblacional es 170. El contraste de hipótesis implica tomar la decisión de aceptar o rechazar la hipótesis nula. Asimismo, H0 puede ser falsa o puede ser verdadera. Si es verdadera y la mantenemos estaremos tomando una decisión correcta. Si es falsa y la rechazamos también estaremos tomando una decisión correcta. Sin embargo, tanto si H0 es verdadera y la rechazamos como si es falsa y la mantenemos, estaremos cometiendo dos tipos de error: 8 Análisis de datos • El error Tipo I se comete cuando se decide rechazar una H0 que en realidad es verdadera. La probabilidad de cometer este error es igual a α. Por lo tanto, es conocida ya que viene fijada de antemano por el investigador. • El error Tipo II es el que ocurre cuando se decide aceptar una H0 que en realidad es falsa. La probabilidad de cometer este error es desconocida y se representa como β. De esto se desprende que 1- α es la probabilidad de tomar una decisión correcta cuando H0 es verdadera y que 1- β es la probabilidad de tomar una decisión correcta cuando H0 es falsa, esta última decisión correcta es conocida como potencia del contraste. La Tabla 2 sintetiza las ideas presentadas: Tabla 2 Error tipo I, error tipo II y potencia del contraste Hipótesis Nula Decisión Mantener H0 Rechazar H0 Verdadera Falsa Decisión correcta Error Tipo II 1- α β Error Tipo I Decisión correcta (Potencia contraste) α 1- β 5. Estimación de parámetros En el ejemplo anterior hemos visto, que los estudiantes han tenido que rechazar la hipótesis nula de que la media de la estatura de la población española era igual a 170, ahora se están preguntando cual será entonces la verdadera media poblacional. El proceso de inferencia estadística permite estimar el valor de un parámetro cuando no se conoce el verdadero valor poblacional (situación que suele ser la más frecuente). La estimación de los parámetros poblacionales a partir de los estadísticos calculados en las muestras se lleva a cabo mediante el procedimiento de estimación por intervalo de confianza. Este consiste en estimar el parámetro calculando un rango de valores entre los que se espera que pueda encontrarse el verdadero valor con una probabilidad elevada y conocida. 9 Análisis de datos Para obtener los dos valores (límite superior Ls y límite inferior Li) que delimitan el intervalo, se sumará o se restará un valor al estadístico hallado en la muestra. Este valor es denominado Error Muestral Máximo (Emax) y está relacionado con el error típico de la distribución muestral del estadístico. La probabilidad de que el parámetro se encuentre dentro del intervalo de confianza será igual al 95% cuando α tenga un valor de 0.05, este valor que es prefijado de antemano se le denomina nivel de confianza. Cuando la distribución muestral del estadístico es normal, el intervalo de confianza se calcula mediante la siguiente fórmula. 𝐿𝑖 = 𝜃̂ − 𝐸𝑚𝑎𝑥 𝐿𝑠 = 𝜃̂ + 𝐸𝑚𝑎𝑥 𝐸𝑚𝑎𝑥 = |𝑧𝛼/2 |𝜎𝜃̂ En esta fórmula 𝜃̂ es el valor del estadístico obtenido en la muestra, 𝑧𝛼/2 es la puntuación z en valor absoluto que deja por debajo de si una probabilidad 0.025, este valor siempre es igual a 1.96 y 𝜎𝜃̂ es el error típico del estadístico, que es igual a la desviación típica de la muestra ente la raíz del tamaño muestral menos uno 𝜎𝜃̂ = 𝑆𝑥 /√𝑁 − 1 Los estudiantes de la UCAM deciden entonces utilizar la media obtenida en su muestra para calcular el intervalo de confianza en el que con una probabilidad del 95% se encontrará la media poblacional de la estatura. 𝐿𝑖 = 168 − 1.87 = 166.13 𝐸𝑚𝑎𝑥 = 1.96 ( 𝐿𝑠 = 168 + 1.87 = 169.87 9.5 √100 − 1 ) = 1.87 Finalmente, los alumnos pueden concluir que con un nivel de confianza del 95% la estatura media de la población española se encuentra entre 166.13 y 169.87. Referencias bibliográficas Píldoras Matemáticas. (16 abril 2017). 08 Inferencia estadística [Video]. YouTube. https://www.youtube.com/watch?v=nbJU4iS-LEg 10