Tema 2. Estimacion de parametros - Parte II.pptx
Document Details
Uploaded by SpiritualJoy
Comillas
Full Transcript
Tema 2. Estimación de parámetros Parte II Pasos para construir un intervalo: La estimación por intervalos se compone de una serie de pasos: 1. Establecer el nivel de confianza: • El nivel de confianza () es la probabilidad con la que cabe esperar que el intervalo de confianza contenga al parámetro...
Tema 2. Estimación de parámetros Parte II Pasos para construir un intervalo: La estimación por intervalos se compone de una serie de pasos: 1. Establecer el nivel de confianza: • El nivel de confianza () es la probabilidad con la que cabe esperar que el intervalo de confianza contenga al parámetro • El nivel de significación () es el complementario: la probabilidad con la que cabe esperar que el intervalo de confianza no contenga al parámetro • En ciencias sociales, lo habitual es usar (o ) 2. Obtener una muestra de tamaño n y calcular el estadístico 3. Calcular el intervalo de confianza: • Para ello necesitaremos conocer la distribución muestral del estadístico, principalmente el error típico • El intervalo de confianza dependerá del error típico y el nivel de confianza Intervalo en torno a una puntación directa La fórmula para construir el intervalo en torno a una puntación directa sería: Vemos que a la puntuación se le suma y se le resta una cantidad para construir el intervalo. Esta cantidad se llama error máximo. Según el error máximo que elijamos, el nivel de confianza será mayor o menor (más error máximo = más nivel de confianza, y viceversa). En ciencias, está establecido por consenso que el nivel de confianza deseable es del 95%. Es decir, queremos tener una confianza de al menos el 95% () de que nuestro intervalo contiene el valor verdadero que estamos tratando de estimar, y estaremos dispuestos a tolerar una probabilidad de error del 5% () Intervalo en torno a una puntación directa Tomando un nivel de confianza de , el intervalo de confianza en torno a una puntuación directa sería: ¿Por qué el error máximo se calcula como ? Pensad que lo que queremos es sumarle y restarle una cantidad a la estimación puntual, de tal forma que 95 de cada 100 veces, el valor verdadero que tratamos de estimar caiga dentro del intervalo construido. Para entender la formula mejor, vamos a ver un ejemplo simplificado con una puntuación directa, y luego lo extrapolamos a la distribución muestral de cualquier estadístico. Intervalo en torno a una puntación directa Vamos a quedar mañana con un colega que vive en la otra punta de Madrid. Hemos quedado tantas veces que ya sabemos que, en promedio, suele tardar unos 100 minutos en llegar a nuestra casa, con una desviación típica de . Es decir: Y ~ N(100,15) Intervalo en torno a una puntación directa Sabiendo la media y la desviación típica de lo que suele tardar en llegar, podemos calcular cuál es la probabilidad de que tarde, por ejemplo, 115 minutos o más. Para ello, primero traducimos esos 115 minutos a puntuaciones Z: 𝑍= 𝑌 −𝑌 115 − 1 00 15 = = =1 𝜎𝑌 15 15 La probabilidad nuestro colega tarde 115 minutos o más () es... Intervalo en torno a una puntación directa Sabiendo la media y la desviación típica de lo que suele tardar en llegar, podemos calcular cuál es la probabilidad de que tarde, por ejemplo, 115 minutos o más. Para ello, primero traducimos esos 115 minutos a puntuaciones Z: 𝑍= 𝑌 −𝑌 115 − 1 00 15 = = =1 𝜎𝑌 15 15 La probabilidad nuestro colega tarde 115 minutos o más () es... p =0.16. Dicho de otro modo, de cada 100 veces que viene a nuestra casa, 16 de ellas tardará 115 minutos o más... Intervalo en torno a una puntación directa Vamos a quedar mañana con un colega que vive en la otra punta de Madrid. Hemos quedado tantas veces que ya sabemos que, en promedio, suele tardar unos 100 minutos en llegar a nuestra casa, con una desviación típica de . Es decir: Y ~ N(100,15) Nuestro colega dice que tardará más o menos 100 minutos () Además, está seguro al 99.999% de que tardará entre 40 y 160 minutos. A nosotros eso no nos vale. No vamos a estar esperando dos horas a ver si llega o no. Queremos que nos de un intervalo más razonable. Además, una vez que nos dé el intervalo, no queremos que llegue más pronto (porque tenemos que recoger la casa un poco), ni tampoco más tarde (porque no nos gusta esperar). Intervalo en torno a una puntación directa Vamos a quedar mañana con un colega que vive en la otra punta de Madrid. Hemos quedado tantas veces que ya sabemos que, en promedio, suele tardar unos 100 minutos en llegar a nuestra casa, con una desviación típica de . Es decir: Y ~ N(100,15) Nuestro colega nos dice que vale, nos puede dar un intervalo más estrecho, pero ya no nos asegura al 99.999% que vaya a llegar dentro de ese intervalo. Más bien, está seguro al 95%. Es decir, que de cada 100 veces que viene a nuestra casa, 95 de ellas el tiempo que tarde se encontrará dentro de dicho intervalo. A nosotros nos parece razonable. ¿Pero entre qué valores está el intervalo al 95%? 𝜶/𝟐=𝟎.𝟎𝟐𝟓 𝜶/𝟐=𝟎.𝟎𝟐𝟓 𝟏−𝜶=𝟎.𝟗𝟓 Intervalo en torno a una puntación directa ¿Cómo construimos este intervalo? Antes, para saber la probabilidad de tardar 115 minutos o más, hacíamos lo siguiente: 115 minutos Transformamos a puntuación Z Z=1 Calculamos la probabilidad p =0.16 Ahora queremos hacer justo lo contrario. Queremos saber qué puntuación es la que deja una probabilidad de 0.025 a la izquierda (Límite inferior) y cuál es la que deja una probabilidad de 0.025 a la derecha (Límite superior). ??? minutos Transformamos a puntuación directa Z=? Calculamos la puntuación Z p =0.025 Intervalo en torno a una puntación directa ??? minutos Transformamos a puntuación directa Z=? Calculamos la puntuación Z p =0.025 Aquí, elegimos la opción de “2P(X > |x|)=“, y en la casilla roja ponemos 0.05. Este 0.05 es la suma de 0.025 por el lado izquierdo de la distribución (la probabilidad de que llegue más pronto de lo prometido) y 0.025 por el derecho (probabilidad de que llegue más tarde de lo prometido). Intervalo en torno a una puntación directa ??? minutos Transformamos a puntuación directa Z=? Calculamos la puntuación Z p =0.025 Aquí, elegimos la opción de “2P(X > |x|)=“, y en la casilla roja ponemos 0.05. Este 0.05 es la suma de 0.025 por el lado izquierdo de la distribución (la probabilidad de que llegue más pronto de lo prometido) y 0.025 por el derecho (probabilidad de que llegue más tarde de lo prometido). Obtenemos la puntuación: Como la distribución Z es simétrica, la puntuación Z que deja a la izquierda una probabilidad de 0.025 es , y la que deja a la derecha otra probabilidad de 0.025 es Intervalo en torno a una puntación directa ??? minutos Transformamos a puntuación directa |𝒁 𝜶/ 𝟐|=𝟏. 𝟗𝟔 Calculamos la puntuación Z p =0.025 Aquí, elegimos la opción de “2P(X > |x|)=“, y en la casilla roja ponemos 0.05. Este 0.05 es la suma de 0.025 por el lado izquierdo de la distribución (la probabilidad de que llegue más pronto de lo prometido) y 0.025 por el derecho (probabilidad de que llegue más tarde de lo prometido). Obtenemos la puntuación: Como la distribución Z es simétrica, la puntuación Z que deja a la izquierda una probabilidad de 0.025 es , y la que deja a la derecha otra probabilidad de 0.025 es Intervalo en torno a una puntación directa Recordemos la fórmula del intervalo: ??? minutos Transformamos a puntuación directa |𝒁 𝜶/ 𝟐|=𝟏. 𝟗𝟔 Calculamos la puntuación Z p =0.025 Ahora, sólo queda pasar de la puntuación Z a la puntuación directa, para saber entre qué límites está el intervalo que nos ha dado nuestro colega, y así saber más o menos cuánto tardará en llegar a nuestra casa. ¿Cómo era la formula para transformar a Z? Sólo tenemos que despejar la incognita. 𝑍 𝛼 /2 = 𝑳𝒔 − 𝑌 − 𝑍 𝛼 / 2= 𝜎𝑌 Despejamos 𝑳𝒊 − 𝑌 𝜎𝑌 Despejamos 𝑍 𝛼 /2 · 𝜎 𝑌 =𝑳 𝒔 − 𝑌 𝑌 + 𝒁 𝜶/ 𝟐 · 𝝈 𝒀 = 𝑳 𝒔 Límite superior − 𝑍 𝛼 / 2 · 𝜎 𝑌 =𝑳 𝒊 −𝑌 𝑌 − 𝒁 𝜶 /𝟐 · 𝝈𝒀 =𝑳 𝒊 Límite inferior Intervalo en torno a una puntación directa En resumen: 𝐿𝑖 =𝑌 − 𝑍 𝛼 /2 · 𝜎 𝑌 𝐿 𝑠 =𝑌 + 𝑍 𝛼 /2 · 𝜎 𝑌 Para calcular el error máximo, estamos buscando las puntuaciones Z que dejan a cada lado de la distribución una probabilidad de error de . Con un nivel de confianza de 0.95, estas puntuaciones son y . Estos son los límites del intervalo tipificado. Ahora, necesitamos “des-tipificar” el intervalo. Es decir, necesitamos transformarlo de vuelta a puntuaciones directas (a minutos). Para lograr esta transformación, solo tenemos que multiplicar la puntuación Z por la desviación típica (el por qué de esto lo tenemos en la diapositiva anterior). Intervalo en torno a una puntación directa Vamos a quedar mañana con un colega que vive en la otra punta de Madrid. Hemos quedado tantas veces que ya sabemos que, en promedio, suele tardar unos 100 minutos en llegar a nuestra casa, con una desviación típica de . Es decir: Y ~ N(100,15) Además, nos ha dicho que mañana tardará “en torno a” 100 minutos en llegar. ??? minutos Transformamos a puntuación directa |𝒁 𝜶/ 𝟐|=𝟏. 𝟗𝟔 Calculamos la puntuación Z 𝐿𝑖 =𝑌 − 𝑍 𝛼 /2 · 𝝈 𝒀 =𝟏𝟎𝟎−1.96× 𝟏𝟓=??? 𝐿𝑠 =𝑌 + 𝑍 𝛼 /2 · 𝝈 𝒀 =𝟏𝟎𝟎+1.96 ×𝟏𝟓=??? p =0.025 Intervalo en torno a una puntación directa Vamos a quedar mañana con un colega que vive en la otra punta de Madrid. Hemos quedado tantas veces que ya sabemos que, en promedio, suele tardar unos 100 minutos en llegar a nuestra casa, con una desviación típica de . Es decir: Y ~ N(100,15) 70.6 minutos 129.4 minutos Transformamos a puntuación directa | 𝒁 𝜶/ 𝟐|=𝟏. 𝟗𝟔 Calculamos la puntuación Z 𝐿𝑖 =𝑌 − 𝑍 𝛼 /2 · 𝝈 𝒀 =𝟏𝟎𝟎−1.96× 𝟏𝟓=70.6 𝐿𝑠 =𝑌 + 𝑍 𝛼 /2 · 𝝈 𝒀 =𝟏𝟎𝟎+1.96 ×𝟏𝟓=129.4 p =0.025 Intervalo en torno a una puntación directa Conclusión: Con un nivel de confianza de 0.95, nuestro colega tardará en llegar a nuestra casa entre 70.6 y 129.4 minutos. Un nivel de confianza del 95% significa que, de cada 100 veces que venga a nuestra casa, 95 de ellas tardará entre 70.6 y 129.4 minutos. Por supuesto, dejamos un 5% de margen de error, pues habrá unas pocas veces que, por la razón que sea, llegue más pronto o más tarde de lo esperado (en concreto 5 de cada 100). 𝑳𝒊 =𝟕𝟎 . 𝟔 𝜶/𝟐 𝑳 𝒔 =𝟏𝟐𝟗.𝟒 𝟏 − 𝜶 =𝟎 .𝟗𝟓 𝜶/𝟐 Construcción de intervalos para estadísticos El ejemplo, construíamos un intervalo en torno a una puntuación directa concreta (100 minutos). Para esto, utilizábamos la distribución empírica, obtenida a partir de los datos observados de lo que suele tardar el colega en llegar en nuestra casa. • Este intervalo nos decía: El tiempo que tarde nuestro colega en llegar se encontrará entre este límite (ej. 79 min.) y este otro (ej. 129 min.) el 95% de las veces que venga a casa. Es decir, tenemos una confianza del 95% de que el tiempo que tarde mañana caerá dentro de ese intervalo. Sin embargo, a partir de ahora usaremos esta misma lógica de construcción de intervalos para los estadísticos (medias y proporciones) utilizando sus distribuciones muestrales. • Estos intervalos nos dirán: El valor del parámetro poblacional se encontrará entre este límite () y este otro () en un 95% de las muestras que yo tome de la población. Es decir, tenemos una confianza del 95% de que el valor del parámetro caerá dentro de ese intervalo. Para construir estos intervalos, utilizaremos la distribución normal y la T de Student (). Distribución Z y T de Student La distribución normal La usaremos para transformar a puntuaciones Z las proporciones (porque con muestras grandes, la distribución binomial tiende a la normal), y las medias sólo cuando conozcamos la desviación típica poblacional (os adelanto que casi nunca la vais a conocer) La distribución t de Student La usaremos transformar a puntuaciones TErrores las medias típicoscuando no conozcamos la desviación típica poblacional, pero sí la muestral. La diferencia entre una distribución y otra está en: 1) Cómo se calcula el error típico 2) Qué calculadora hay que usar Errores típicos Distribución Z y T de Student La distribución normal Para construir el intervalo, usaremos las siguientes fórmulas (con errores típicos): Tenemos que buscar , es decir, la puntuación Z en la distribución N(0,1) que tiene asociada una probabilidad asociada de por el lado izquierdo, y lo mismo por el derecho. La distribución t de Student (donde n−1 se llaman “grados de libertad”) Para construir el intervalo, usaremos las siguientes fórmulas (con errores típicos): Tenemos que buscar , es decir, la puntuación T en la distribución que tiene asociada una probabilidad de por el lado izquierdo, y lo mismo por el derecho. Distribución Z y T de Student ¿Por qué para calcular puntuaciones T me pide el número de sujetos y para calcular puntuaciones Z no me lo pide? Porque la distribución T tiene una forma distinta dependiendo del tamaño muestral. Es decir, que según el tamaño muestral, una misma puntuación T tendrá una probabilidad asociada u otra. Por ejemplo, con n = 100, la puntuación T que usaríamos para construir el intervalo es , mientras que con n = 10, la puntuación T sería Estimación por intervalos de la media Una empresa de domótica va a sacar una nueva aspiradora al mercado, pero antes quieren tener una estimación de cómo van a valorarla los clientes. Para ello, seleccionan una muestra aleatoria de n = 30 sujetos y les piden que prueben y valoren la nueva aspiradora. La valoración media ha sido de , con una desviación típica de . Con un nivel de confianza del 95%, ¿cuál es el rango de valores en el que me esperaría encontrar al parámetro poblacional ? Paso 1: Establecer el nivel de confianza. Ya hemos decidido que es 0.95 (). Paso 2: Extraer una muestra aleatoria y calcular la media muestral. Hecho: Paso 3.1: Calcular el error típico de la media (lo necesitaremos para calcular el intervalo). Paso 3.2: Calcular las puntuaciones T que tienen asociado un valor a cada lado de la distribución: Estimación por intervalos de la media Una empresa de domótica va a sacar una nueva aspiradora al mercado, pero antes quieren tener una estimación de cómo van a valorarla los clientes. Para ello, seleccionan una muestra aleatoria de n = 30 sujetos y les piden que prueben y valoren la nueva aspiradora. La valoración media ha sido de , con una desviación típica de . Con un nivel de confianza del 95%, ¿cuál es el rango de valores en el que me esperaría encontrar al parámetro poblacional ? Paso 1: Establecer el nivel de confianza. Ya hemos decidido que es 0.95 (). Paso 2: Extraer una muestra aleatoria y calcular la media muestral. Hecho: Paso 3.1: Calcular el error típico de la media (lo necesitaremos para calcular el intervalo). Paso 3.2: Calcular las puntuaciones T que tienen asociado un valor a cada lado de la distribución: Estimación por intervalos de la media Una empresa de domótica va a sacar una nueva aspiradora al mercado, pero antes quieren tener una estimación de cómo van a valorarla los clientes. Para ello, seleccionan una muestra aleatoria de n = 30 sujetos y les piden que prueben y valoren la nueva aspiradora. La valoración media ha sido de , con una desviación típica de . Con un nivel de confianza del 95%, ¿cuál es el rango de valores en el que me esperaría encontrar al parámetro poblacional ? Paso 3.3: Una vez conocemos el error típico y el valor T que necesitamos, calculamos el intervalo: Conclusión: Con un nivel de confianza de 0.95, esperaría que la valoración media de la población de usuarios estuviera entre 7.35 y 8.25. Estimación por intervalos de la proporción De los 150 estudiantes aleatoriamente seleccionados entre los matriculados en una determinada facultad, el 43% mostró actitudes calificables de hostiles hacia la asignatura Métodos II. Con un nivel de confianza de 0.95, ¿entre qué límites estimaremos que se encuentra la verdadera proporción de estudiantes de esa facultad con actitudes hostiles hacia la mencionada asignatura? Paso 1: El nivel de confianza es 0.95 (). Paso 2: Extraer una muestra aleatoria y calcular la proporción muestral. Hecho: Paso 3.1: Calcular el error típico de la proporción (lo necesitaremos para calcular el intervalo). Paso 3.2: Calcular las puntuaciones Z que tienen asociado un valor a cada lado de la distribución: Estimación por intervalos de la proporción De los 150 estudiantes aleatoriamente seleccionados entre los matriculados en una determinada facultad, el 43% mostró actitudes calificables de hostiles hacia la asignatura Métodos II. Con un nivel de confianza de 0.95, ¿entre qué límites estimaremos que se encuentra la verdadera proporción de estudiantes de esa facultad con actitudes hostiles hacia la mencionada asignatura? Paso 1: El nivel de confianza es 0.95 (). Paso 2: Extraer una muestra aleatoria y calcular la proporción muestral. Hecho: Paso 3.1: Calcular el error típico de la proporción (lo necesitaremos para calcular el intervalo). Paso 3.2: Calcular las puntuaciones Z que tienen asociado un valor a cada lado de la distribución: Estimación por intervalos de la proporción De los 150 estudiantes aleatoriamente seleccionados entre los matriculados en una determinada facultad, el 43% mostró actitudes calificables de hostiles hacia la asignatura Métodos II. Con un nivel de confianza de 0.95, ¿entre qué límites estimaremos que se encuentra la verdadera proporción de estudiantes de esa facultad con actitudes hostiles hacia la mencionada asignatura? Paso 3.3: Una vez conocemos el error típico y el valor Z que necesitamos, calculamos el intervalo: Conclusión: Con un nivel de confianza de 0.95, esperaría que la proporción de estudiantes de la población universitaria con actitudes hostiles hacia Métodos II estuviera entre 35% y 51%. Resumen... Pasos para calcular un intervalo de confianza: 1. Establecer el nivel de confianza () 2. Obtener una muestra de tamaño n y calcular la media muestral 3.1 Estimar el error típico 3.2 Calcular el estadístico T ó Z (con calculadora online): ó 3.3 Calcular el intervalo de confianza: * Información que obtenemos de la muestra ** Información que obtenemos de tablas estadísticas o aplicaciones web. Resumen… Estimación por intervalos Paso 1. Establecer 1 – α El nivel de confianza es la probabilidad con la que cabe esperar que el parámetro poblacional se encuentre en el intervalo de confianza. Normalmente, . El nivel de significación o nivel de riesgo es el complementario (p.ej., ). Resumen… Estimación por intervalos Paso 2. Obtener una muestra de tamaño n y calcular un estadístico Con la información de los pasos (1) y (2) ya podríamos calcular, para cualquier distribución conocida (Z, t, χ2…), la probabilidad asociada a cualquier valor. Las distribuciones t y Z están asociadas a los estadísticos y . Si miramos en las tablas estadísticas veremos que, para : La distribución t depende de los grados de libertad (n – 1). P. ej., para n = 15: Resumen… Estimación por intervalos Paso 2. Obtener una muestra de tamaño n y calcular un estadístico Calculadora para valores T: https://homepage.divms.uiowa.edu/~mbognar/applets/t.html Calculadora para valores Z: https://homepage.divms.uiowa.edu/~mbognar/applets/normal.html Resumen… Estimación por intervalos Paso 3. Calcular el error típico, el valor del estadístico T o Z y finalmente el intervalo de confianza () El caso del estadístico media () Conociendo Sin conocer (3.1 ) (3.2 ) (3.3 ) 𝐼𝐶 1− α =𝑌 ±| Z α /2|× 𝜎 𝑌 ^𝑌 𝐼𝐶1−α =𝑌 ±|𝑡 𝑛−1 ;α /2|× 𝜎 Resumen… Estimación por intervalos Paso 3. Calcular el error típico, el valor del estadístico T o Z y finalmente el intervalo de confianza () El caso del estadístico proporción () Conociendo Sin conocer (3.1 ) (3.2 ) (3.3 ) 𝐼𝐶 1−α =𝜋 1 ±| Z α /2|× 𝜎 𝑃 1 ^𝑃 𝐼𝐶1− α =𝑃 1 ±| Z α /2|× 𝜎 1