Tema 2. Estimacion de parametros - Parte I.pptx

Full Transcript

Repaso Distribuciones empíricas y muestrales Pablo Fernández Cáncer Pablo Nájera Álvarez La distribución normal Antes de pasar a hablar de la distribución muestral, repasemos una de las distribuciones más famosas: la distribución normal La distribución normal tiene dos parámetros: la media y la d...

Repaso Distribuciones empíricas y muestrales Pablo Fernández Cáncer Pablo Nájera Álvarez La distribución normal Antes de pasar a hablar de la distribución muestral, repasemos una de las distribuciones más famosas: la distribución normal La distribución normal tiene dos parámetros: la media y la desviación típica 𝑌 𝑁 (10,4) La distribución normal Antes de pasar a hablar de la distribución muestral, repasemos una de las distribuciones más famosas: la distribución normal La distribución normal tiene dos parámetros: la media y la desviación típica La distribución normal Antes de pasar a hablar de la distribución muestral, repasemos una de las distribuciones más famosas: la distribución normal La distribución normal tiene dos parámetros: la media y la desviación típica La distribución normal Muchas variables naturales y psicológicas siguen una distribución normal Sin embargo, cada una de ellas tendrá una media y una desviación típica distinta Para facilitar el trabajo, solemos transformar todas las variables que se distribuyen normalmente a puntuaciones típicas: El proceso de transformar una variable () a puntuaciones se llama tipificar La distribución normal Muchas variables naturales y psicológicas siguen una distribución normal Sin embargo, cada una de ellas tendrá una media y una desviación típica distinta Para facilitar el trabajo, solemos transformar todas las variables que se distribuyen normalmente a puntuaciones típicas: El proceso de transformar una variable () a puntuaciones se llama tipificar 𝑌 𝑁 (100,15) 𝑌 =115 La distribución normal Muchas variables naturales y psicológicas siguen una distribución normal Sin embargo, cada una de ellas tendrá una media y una desviación típica distinta Para facilitar el trabajo, solemos transformar todas las variables que se distribuyen normalmente a puntuaciones típicas: El proceso de transformar una variable () a puntuaciones se llama tipificar 𝑌 𝑁 (100,15) 𝑌 =115 𝑌 𝑁 (0,15) 𝑌 =15 La distribución normal Muchas variables naturales y psicológicas siguen una distribución normal Sin embargo, cada una de ellas tendrá una media y una desviación típica distinta Para facilitar el trabajo, solemos transformar todas las variables que se distribuyen normalmente a puntuaciones típicas: El proceso de transformar una variable () a puntuaciones se llama tipificar 𝑌 𝑁 (100,15) 𝑌 =115 𝑌 𝑁 (0,15) 𝑌 =15 𝑌 𝑁 (0,1) 𝑌 =1 La distribución normal La ventaja de trabajar con la distribución normal estandarizada es poder conocer la probabilidad asociada a cada valor Las puntuaciones en un test de inteligencia se distribuyen según . Una persona ha obtenido una puntuación de 130. ¿Cómo interpretamos esta puntuación? La puntuación está 2 desviaciones típicas por encima de la media La probabilidad de obtener una puntuación Z de 2 o mayor, 𝑋=130 𝑍 =2 La distribución muestral En el ejemplo anterior, hablábamos de la distribución normal para referirnos a la distribución de las puntuaciones de las personas. La distribución muestral hace referencia a la distribución de un estadístico (obtenido a partir de una muestra). Es decir, el estadístico (media, proporción...) que calculamos en nuestra muestra toma un valor determinado, pero este valor puede cambiar de una muestra a otra. La distribución muestral nos informa de la probabilidad asociada a cada uno de los valores que puede tomar el estadístico. Esto nos permite calcular cómo de probable es obtener un determinado resultado. Visualización de una distribución muestral a. Entra en esta web y dale a Begin (arriba a la izquierda) b. En el panel inferior, selecciona Mean y N=16 c. En el panel Sample Data, pulsa Animated para simular la extracción de una muestra de tamaño N=5 y otra de N=16 f d. Luego pulsa 100,000 para simular 100000 muestras a la vez c e. En los paneles inferiores aparecerán las d distribuciones muestrales de la media con N=5 y N=16, respectivamente, y a su izquierda aparecerá información sobre ellas f. ¿Cómo es la media de esas distribuciones e en comparación con la media de las b puntuaciones? ¿Y la desviación típica? Aplicación de la distribución muestral de la proporción En 2010, un 20% de los adolescentes de entre 12 y 16 años fumaban tabaco. Para reducir este número, el gobierno implantó un plan de prevención en todos los colegios de España. Ahora, en 2023, hemos tomado una muestra de 1000 niños, y hemos encontrado una prevalencia de fumadores del 16% (un 4% menos que en 2010). La pregunta es: ¿ha habido una reducción real (a nivel poblacional) del número de fumadores? ¿O ese 16% es tan solo un resultado muestral obtenido por azar? Aplicación de la distribución muestral de la proporción En 2010, un 20% de los adolescentes de entre 12 y 16 años fumaban tabaco. Para reducir este número, el gobierno implantó un plan de prevención en todos los colegios de España. Ahora, en 2023, hemos tomado una muestra de 1000 niños, y hemos encontrado una prevalencia de fumadores del 16% (un 4% menos que en 2010). Es decir, supongamos que, en la población, no ha habido una reducción del número de fumadores. De forma que la proporción sigue siendo un 20%. En tales condiciones, ¿cómo de probable es obtener una muestra aleatoria de n = 1000 en la que la proporción de fumadores sea del 16%? Aplicación de la distribución muestral de la proporción En 2010, un 20% de los adolescentes de entre 12 y 16 años fumaban tabaco. Para reducir este número, el gobierno implantó un plan de prevención en todos los colegios de España. Ahora, en 2023, hemos tomado una muestra de 1000 niños, y hemos encontrado una prevalencia de fumadores del 16% (un 4% menos que en 2010). Aquí tenemos dos rumbos de acción posibles para calcular esta probabilidad: 1) Utilizar la distribución binomial 2) Utilizar la distribución normal, pues sabemos que con muestras grandes (mayores de n=30), la distribución binomial tiende a la normal. 𝑃 𝑎 𝐵(3,0.5) 𝑃 𝑎 𝐵(6,0.5) 𝑃 𝑎 𝐵(12,0.5) 𝑃 𝑎 𝐵(24,0.5) 𝑃 𝑎 𝐵(42,0.5) Aplicación de la distribución muestral de la proporción En 2010, un 20% de los adolescentes de entre 12 y 16 años fumaban tabaco. Para reducir este número, el gobierno implantó un plan de prevención en todos los colegios de España. Ahora, en 2023, hemos tomado una muestra de 1000 niños, y hemos encontrado una prevalencia de fumadores del 16% (un 4% menos que en 2010). Para utilizar la distribución normal, tendremos que tipificar el estadístico primero: Aplicamos la fórmula y... Aplicación de la distribución muestral de la proporción En 2010, un 20% de los adolescentes de entre 12 y 16 años fumaban tabaco. Para reducir este número, el gobierno implantó un plan de prevención en todos los colegios de España. Ahora, en 2023, hemos tomado una muestra de 1000 niños, y hemos encontrado una prevalencia de fumadores del 16% (un 4% menos que en 2010). Entramos en https://homepage.divms.uiowa.edu/~mbognar/applets/normal.html, introducimos nuestro resultado Z = -3.16, y vemos que la probabilidad de obtener una proporción igual o menor a 0.16 es... = 0.00079 Aplicación de la distribución muestral de la proporción En 2010, un 20% de los adolescentes de entre 12 y 16 años fumaban tabaco. Para reducir este número, el gobierno implantó un plan de prevención en todos los colegios de España. Ahora, en 2023, hemos tomado una muestra de 1000 niños, y hemos encontrado una prevalencia de fumadores del 16% (un 4% menos que en 2010). Tenemos dos opciones: Opción 1) La proporción de fumadores NO ha disminuido realmente. He seleccionado aleatoriamente una muestra que me ha dado como resultado 16%, pero ha sido por azar. La probabilidad de que esto ocurra es: p = .00079 Opción 2) La proporción de fumadores SÍ ha disminuido en la población. Mi muestra es un reflejo preciso de la población. La opción 1 es tan improbable, que concluimos que la opción correcta es la 2. Aplicación de la distribución muestral de la media En 2010, el Índice de Masa Corporal (IMC) de los habitantes de EEUU estaba en 25, con una desviación típica de 2.5. Quiero comprobar si el IMC ha aumentado durante la última década. Tomo una muestra de 100 estadounidenses y obtengo una media de 26. La pregunta es: ¿ha habido un aumento real (a nivel poblacional) del IMC promedio? ¿O ese aumento de 25 a 26 es tan solo un resultado muestral obtenido por azar? Aplicación de la distribución muestral de la media En 2010, el Índice de Masa Corporal (IMC) de los habitantes de EEUU estaba en 25, con una desviación típica de 2.5. Quiero comprobar si el IMC ha aumentado durante la última década. Tomo una muestra de 100 estadounidenses y obtengo una media de 26. Es decir, supongamos que, en la población, no ha habido un aumento del IMC realmente. De forma que el IMC medio sigue siendo 25. En tales condiciones, ¿cómo de probable es obtener una muestra aleatoria de n = 100 en la que el IMC medio sea 26? Aplicación de la distribución muestral de la media En 2010, el Índice de Masa Corporal (IMC) de los habitantes de EEUU estaba en 25, con una desviación típica de 2.5. Quiero comprobar si el IMC ha aumentado durante la última década. Tomo una muestra de 100 estadounidenses y obtengo una media de 26. Para responder a estas preguntas, primero tenemos que tipificar nuestro estadístico. Para ello se utiliza esta fórmula: La aplicamos y... Aplicación de la distribución muestral de la media En 2010, el Índice de Masa Corporal (IMC) de los habitantes de EEUU estaba en 25, con una desviación típica de 2.5. Quiero comprobar si el IMC ha aumentado durante la última década. Tomo una muestra de 100 estadounidenses y obtengo una media de 26. Entramos en https://homepage.divms.uiowa.edu/~mbognar/applets/normal.html... La probabilidad de obtener una puntuación Z igual o mayor a 4 es... Aplicación de la distribución muestral de la media En 2010, el Índice de Masa Corporal (IMC) de los habitantes de EEUU estaba en 25, con una desviación típica de 2.5. Quiero comprobar si el IMC ha aumentado durante la última década. Tomo una muestra de 100 estadounidenses y obtengo una media de 26. De nuevo, tenemos dos opciones: Opción 1) El IMC medio NO ha aumentado. He seleccionado aleatoriamente una muestra que me ha dado como resultado una media de 26, pero ha sido por azar. La probabilidad de que esto ocurra es: Opción 2) El IMC medio SÍ ha aumentado. Mi muestra es un reflejo preciso de lo que ha ocurrido en la población. La opción 1 es tan improbable, que concluimos que la opción correcta es la 2. p = .00003 Tema 2: Estimación de parámetros Pablo Fernández Cáncer Pablo Nájera Álvarez La estimación de parámetros Sigamos con el ejemplo del IMC en EEUU. Queremos saber cuál es el IMC medio de la población estadounidense. … No es viable calcular la media poblacional () Pero podemos estimar la media poblacional () a partir de una muestra 1 La estimación de parámetros Por tanto, la estadística inferencial sirve para afrontar el siguiente problema: 1. Quiero conocer un parámetro de una población (p. ej., , ) 2. La población es inaccesible, por lo que no puedo calcular el parámetro 3. Escojo una muestra de dicha población para estimar dicho parámetro a través de su equivalente en la muestra; es decir, el estadístico (p. ej., , ) Hay dos estrategias complementarias para realizar estadística inferencial: la estimación de parámetros y el contraste de hipótesis Dentro de la estimación de parámetros, hay dos posibilidades: la estimación puntual y la estimación por intervalos La estimación puntual La estimación puntual es muy sencilla y directa. Consiste en tomar el valor del estadístico como estimador del valor del parámetro. Por ejemplo, la estimación puntual de la media consistiría en: 1. Extraer una muestra aleatoria de tamaño N de la población 2. Calcular la media muestral 3. Emplear el valor de la media muestral como estimador de la media poblacional … 3 La estimación puntual La estimación puntual es muy sencilla y directa. Consiste en tomar el valor del estadístico como estimador del valor del parámetro. Por ejemplo, la estimación puntual de la media consistiría en: 1. Extraer una muestra aleatoria de tamaño N de la población 2. Calcular la media muestral 3. Emplear el valor de la media muestral como estimador de la media poblacional 𝑁 1 29+24+28+26+25 ^ 𝑌 =𝑌 = ∑ 𝑌 𝑖= 𝜇 =26 𝑁 𝑖=1 5 … 3 La estimación puntual El problema de la estimación puntual es que, al aportar un valor concreto, es imposible que sea perfecta Si cogemos varias muestras aleatorias (de tamaño N), obtendremos una estimación diferente de la media cada vez Ya sabemos que esto compone la distribución muestral de la media … … 4 La estimación por intervalos La estimación puntual consiste en quedarnos con un único valor (imperfecto) 5 La estimación por intervalos La estimación puntual consiste en quedarnos con un único valor (imperfecto). La estimación por intervalos consiste en asignar un rango de valores entre los que se encuentre el valor del parámetro con una probabilidad conocida. 5 Estimación por intervalos La estimación puntual consiste en quedarnos con un único valor (imperfecto). La estimación por intervalos consiste en asignar un rango de valores entre los que se encuentre el valor del parámetro con una probabilidad conocida. Esto supone sumarle y restarle al valor del estimador una cantidad conocida como error máximo, de manera que construyamos un intervalo para el estimador. 5 Estimación por intervalos El rango de valores que se asigna a un parámetro es lo que llamamos intervalo de confianza (IC). Los extremos de este intervalo son: límite inferior y límite superior . Para construir el intervalo de confianza de un parámetro, al correspondiente estimador puntual se le suma y se le resta el error máximo . Por ejemplo, el intervalo de una media se construiría como: 𝐼 𝐶 𝑌 =𝑌 ± 𝐸 𝑚 á 𝑥 𝐿 𝑠 =𝑌 + 𝐸𝑚 á 𝑥 𝐿𝑖 =𝑌 − 𝐸𝑚á 𝑥 Construcción de un intervalo Supongamos que administramos una escala de bienestar subjetivo, donde el bienestar se puntúa con los siguientes valores (1 es el mínimo bienestar y 5 el máximo). Extraemos todas las muestras posibles de tamaño 2 y calculamos la media en cada una de ellas. Sabemos que la media poblacional es 3. Construcción de un intervalo Probemos primero con un error máximo de 1. Extraemos una muestra, nos sale (1, 1), con media = 1: Con esta muestra obtendríamos el intervalo [0 – 2]. Estaríamos diciendo que el parámetro se encuentra (con una cierta probabilidad) entre 0 y 2, cuando realmente = 3. Construcción de un intervalo Si extraemos una muestra (1, 4), la media obtenida es = 2.5 y los límites del intervalo son: Con esta muestra obtendríamos el intervalo [1.5 – 3.5], que sí contendría el valor verdadero del parámetro. Construcción de un intervalo Supongamos que probamos esto con todas las muestras posibles. Con 6 muestras de 25, construimos intervalos incorrectos (rojo). Con 19 de 25, intervalos correctos (azul). Hay una probabilidad de 19/25 = 0.76 de construir un intervalo que contenga . Y una prob. de 6/25=0.24 de construir un intervalo que no capture el valor de . Construcción de un intervalo Podemos mostrar esto gráficamente. La zona no rayada representa las 19 medias que llevarán a construir un intervalo correcto; en la zona rayada se encuentran las 6 medias que llevarán a construir un intervalo incorrecto. La anchura del intervalo corresponde justamente a la zona no rayada. Nivel de confianza y de riesgo Llamamos nivel de confianza () a la zona no rayada. Es la probabilidad de construir un intervalo entre cuyos límites se encuentre el valor verdadero del parámetro. En este caso, el nivel de confianza es 0.76. Llamamos nivel de riesgo o nivel de significación () a la zona no rayada. Es la probabilidad de construir un intervalo entre cuyos límites no se encuentre el verdadero valor del parámetro. En este caso Nivel de confianza y de riesgo ¿Qué pasaría si utilizáramos 1.5 de error máximo (en lugar de solo 1)? Habría una probabilidad de 23/25 = 0.92 de construir un intervalo que contenga . Y una prob. de 2/25 = 0.08 de construir un intervalo que no capture el valor de . El nivel de confianza sería 0.92 y el nivel de riesgo o significación sería 0.08. Nivel de confianza y de riesgo ¿Qué pasaría si utilizáramos 1.5 de error máximo (en lugar de solo 1)? Habría una probabilidad de 23/25 = 0.92 de construir un intervalo que contenga . Y una prob. de 2/25 = 0.08 de construir un intervalo que no capture el valor de . El nivel de confianza sería 0.92 y el nivel de riesgo o significación sería 0.08. Nivel de confianza y de riesgo Intervalos construidos con Intervalos construidos con Interpretación del nivel de confianza Un intervalo construido con una confianza de 0.92 puede interpretarse como: Estimamos, con una confianza del 92%, que el verdadero valor del parámetro estimado se encuentra entre los límites del intervalo construido. Dicho de otro modo: Si tomara 100 muestras de una población y construyera 100 intervalos, 92 de ellos contendrían el valor verdadero del parámetro (8 de ellos no lo harían). Por supuesto, creemos (con una confianza del 92%) que nuestro intervalo es uno de los correctos... Interpretación del nivel de confianza El razonamiento utilizado hasta ahora vale igual con (izquierda) y con (derecha). Cuanto mayor sea el error máximo elegido, mayor será la amplitud del intervalo y, por tanto, mayor la probabilidad de que el intervalo construido incluya el verdadero valor del parámetro (pero menos precisa será la estimación). Interpretación del nivel de confianza La clave es buscar un equilibrio entre dos objetivos: 1) Que el intervalo sea lo bastante amplio como para garantizar que la probabilidad de incluir el parámetro sea alta 2) Que el intervalo sea lo bastante estrecho como para ofrecer una precisión aceptable. Cuanto mayor sea el tamaño de mi muestra, menor será el error típico, y por tanto la amplitud del intervalo será menor. Es decir, podré construir intervalos más precisos (más estrechos) manteniendo un nivel alto de confianza. Pasos para construir un intervalo: La estimación por intervalos se compone de una serie de pasos: 1. Establecer el nivel de confianza: • El nivel de confianza () es la probabilidad con la que cabe esperar que el intervalo de confianza contenga al parámetro • El nivel de significación () es el complementario: la probabilidad con la que cabe esperar que el intervalo de confianza no contenga al parámetro • En ciencias sociales, lo habitual es usar (o ) 2. Obtener una muestra de tamaño n y calcular el estadístico 3. Calcular el intervalo de confianza: • Para ello necesitaremos conocer la distribución muestral del estadístico, principalmente el error típico • El intervalo de confianza dependerá del error típico y el nivel de confianza

Use Quizgecko on...
Browser
Browser