Distribuciones de Probabilidad PDF

ESTADÍSTICA APLICADA A LA SALUD / ESTADÍSTICA GENERAL PROF. ENGELY A. PÉREZ A. SEMESTRE II-2016 DISTRIBUCIONES DE PROBABILIDAD Anteriormente se analizó el concepto de probabilidad. El objetivo era determinar la probabilidad de ocurrencia de uno o varios eventos relacionados. A continuación se combinaran los métodos de estadística descriptiva y los de probabilidad para crear distribuciones de probabilidad que describan lo que probablemente sucederá en lugar de lo que en realidad sucedió. Este aspecto es fundamental para discernir las distribuciones de frecuencia de las distribuciones de probabilidad. Una distribución de frecuencias es un listado de las frecuencias observadas de todos los resultados de un experimento, que en realidad se han presentado cuando se llevó a cabo el experimento; en cambio, una distribución de probabilidad es un listado de las probabilidades de todos los resultados posibles que podrían presentarse si se efectuara un experimento. Una distribución de probabilidad es una lista de todos los resultados posibles de algún experimento y de la probabilidad relacionada con cada resultado. Dado que esta clase de distribuciones se ocupan de las expectativas, son modelos de gran utilidad para hacer inferencias y tomar decisiones en condiciones de incertidumbre. Por ejemplo, si se realiza el experimento de lanzar una moneda tres veces y anotar el número de caras que se obtienen. Los posibles resultados son 0 caras, 1 cara, 2 caras, o 3 caras. Además, con los conceptos de probabilidad desarrollados anteriormente se puede determinar que la probabilidad de obtener (1) ninguna cara es 1/8, (2) 1 cara es 3/8, (3) 2 caras es 3/8 y (4) 3 caras es 1/8. Esta distribución de probabilidad se presenta en la siguiente tabla, la cual muestra todos los resultados posibles y sus probabilidades. Resultado (caras) Probabilidad 0 0,125 1 0,375 2 0,375 3 0,125 Total: 1 En general, la probabilidad de que la variable aleatoria X tome algún valor específico, xi , se escribe P X  xi . Por tanto, la probabilidad de que los tres lanzamientos de una moneda resulten en dos caras puede denotarse como P X  2  0,375.Vale la pena notar que toda distribución de probabilidad debe satisfacer cada uno de los dos requisitos siguientes: (1)  P X  x   1 i (2) 0  P X  xi   1 El primer requisito establece que la suma de las probabilidades de todos los valores posibles de la variable aleatoria debe ser igual a 1. Lo anterior tiene sentido cuando nos damos cuenta de que los valores de la variable 1 ESTADÍSTICA APLICADA A LA SALUD / ESTADÍSTICA GENERAL PROF. ENGELY A. PÉREZ A. SEMESTRE II-2016 aleatoria X representan todos los resultados posibles en el espacio muestral completo, de modo que tenemos la certeza (con probabilidad 1) de que uno de los sucesos ocurrirá. El segundo requisito implica que P X  xi  debe estar entre 0 y 1 para cualquier valor de xi. TIPOS DE DISTRIBUCIONES DE PROBABILIDAD Las distribuciones de probabilidad se clasifican como discretas y continuas, de acuerdo al tipo de variable aleatoria considerada. En una distribución de probabilidad discreta la variable aleatoria X puede asumir sólo ciertos valores, con frecuencia números enteros, y resulta principalmente del conteo. La tabla anterior, donde se muestran los resultados posibles al lanzar una moneda tres veces, es un ejemplo de una distribución de probabilidad discreta, pues los valores de la variable aleatoria se restringen sólo a ciertos números: 0, 1, 2 y 3. De manera análoga, la probabilidad de que usted haya nacido en un mes dado es también discreta, puesto que sólo hay 12 posibles valores (los 12 meses del año). En una distribución de probabilidad continua, por otro lado, la variable aleatoria X resulta principalmente de la medición y puede tomar cualquier valor dentro de un intervalo dado. Suponga que se está examinando el tiempo transcurrido entre la llegada de cada cliente a la biblioteca; puesto que la variable aleatoria puede medirse con cualquier valor, incluyendo fracciones de unidad, podríamos decir que la distribución de esta variable es una distribución continua. Las distribuciones de probabilidad continuas también son una forma conveniente de presentar a las distribuciones de probabilidad discretas que tienen muchos resultados posibles, todos muy cercanos entre sí. MEDIA Y VARIANZA DE LAS DISTRIBUCIONES DISCRETAS Así como en la unidad anterior se calculó la media de un conjunto de datos, también se puede determinar la media de una distribución de probabilidad. La media aritmética de una distribución de probabilidad se llama valor esperado E  X  y, cuando la variable aleatoria es discreta, se obtiene multiplicando cada resultado posible por su probabilidad y sumando los resultados, tal como se muestra en la siguiente ecuación:   E  X    xi  Pxi  La distribución de probabilidad para el experimento de lanzar tres veces una moneda y anotar el número de caras se muestra en las primeras dos columnas de la siguiente tabla. La columna (3) ilustra el cálculo del valor esperado para el experimento utilizando la ecuación anterior, produciendo   E X   1,5. Este resultado sugiere que si el experimento se repite muchas veces (teóricamente, un número infinito) se obtendrá, en promedio, 1,5 caras. (1) (2) (3) (4) xi P  xi  xi  P  xi   xi   2  P  xi  0 0,125 0,000 0,28125 1 0,375 0,375 0,09375 2 0,375 0,750 0,09375 3 0,125 0,375 0,28125 1 1,5   0,75   2 2 ESTADÍSTICA APLICADA A LA SALUD / ESTADÍSTICA GENERAL PROF. ENGELY A. PÉREZ A. SEMESTRE II-2016 La varianza de una distribución de probabilidad es conceptualmente es la misma varianza que se calculó en la unidad anterior. Es el promedio de las desviaciones al cuadrado con respecto a la media. La varianza se obtiene a partir de la siguiente ecuación:    2   xi   2  Pxi  La fórmula anterior mide la diferencia entre cada uno de los resultados y su media. Tales diferencias se elevan al cuadrado y se multiplican por sus respectivas probabilidades. Luego se suman sus resultados. La columna (4) de la tabla presentada anteriormente revela que  2  0,75. La desviación estándar es    2  0,75  0,87. La varianza y la desviación estándar tienen la misma interpretación que se les dio en la unidad anterior, miden la dispersión de los resultados alrededor de su media. La varianza se expresa en unidades al cuadrado, pero la desviación estándar se expresa en las mismas unidades que la variable aleatoria y por ende con frecuencia tiene una interpretación más racional. DISTRIBUCIÓN BINOMIAL Una de las distribuciones teóricas de probabilidad discreta ampliamente utilizada es la distribución binomial. Esta distribución es aplicable como modelo para situaciones de toma de decisiones en las que puede suponerse que un proceso de muestreo responde a un proceso de Bernoulli. El proceso de Bernoulli, llamado así por Jacob Bernoulli (1654-1705), miembro de una familia de matemáticos suizos, es un proceso que presenta cuatro propiedades: (1) Sólo debe haber dos resultados posibles mutuamente excluyentes. Por convención, estos resultados se identifican como éxito y fracaso. Sin embargo, se advierte que estos términos no tienen ninguna connotación de "bueno" o "malo". Son completamente objetivos, y un "éxito" no implica necesariamente un resultado deseable. (2) La probabilidad de un éxito en un ensayo es totalmente independiente de cualquier otro ensayo. (3) La probabilidad de un éxito, p, sigue siendo constante de un ensayo al siguiente. (4) El experimento puede repetirse muchas veces. Note que el experimento de lanzar la moneda discutido anteriormente tiene sólo dos posibles resultados: cara y sello. La probabilidad de cada uno es conocida y constante de un intento (lanzamiento) al siguiente, y además el experimento puede repetirse muchas veces. Por lo tanto, el lanzamiento de la moneda cumple con los requisitos de una distribución binomial. En general, si se conoce la probabilidad de que un ensayo determinado producirá un éxito, es posible estimar cuánto éxitos habrá en un número dado de ensayos. Es decir, la distribución binomial puede servir para determinar la probabilidad de obtener un número establecido de éxitos en un proceso de Bernoulli. Específicamente, se puede determinar la probabilidad de un número específico de éxitos, x, en una distribución binomial a partir la siguiente ecuación: 3 ESTADÍSTICA APLICADA A LA SALUD / ESTADÍSTICA GENERAL PROF. ENGELY A. PÉREZ A. SEMESTRE II-2016 P X  x   n!  p x  q n x x!n  x ! Donde: n = Número de ensayos efectuados. x = Número de éxitos esperados. p = Probabilidad de éxito de cada ensayo. q = Probabilidad de fracaso de cada ensayo ( q  1  p ). El símbolo de factorial !, denota el producto de factores decrecientes. Dos ejemplos de factoriales son 3! 3  2 1  6 y 0! 1 (por definición). Muchas calculadoras incluyen una tecla para el factorial, al igual que una tecla con n Cr que permite simplificar los cálculos. Para las calculadoras con esa tecla, utilice esta versión de la fórmula de probabilidad binomial: P X  x   nCx  p x  q nx A menudo interesa la probabilidad acumulada de “x o más” éxitos o “x o menos” éxitos en n ensayos. En tal caso debe determinarse la probabilidad de cada resultado incluido en el intervalo establecido, después de lo cual se suman estas probabilidades. La media y la varianza de una distribución binomial: Anteriormente se mostró cómo determinar la media, la varianza y la desviación estándar de cualquier distribución de probabilidad discreta. Sin embargo, si sólo hay dos resultados posibles, como en la distribución binomial, la media y la varianza pueden determinarse más fácilmente: Media o “valor esperado”: E X     np Varianza:  2  npq Desviación estándar:   npq DISTRIBUCIÓN DE POISSON Es una distribución de probabilidad discreta, ideada por el matemático francés Simeon Poisson (1781-1840), que se aplica a las ocurrencias de algún suceso durante un intervalo específico. Usualmente, la medición de la probabilidad de un evento se realiza sobre alguna unidad de tiempo o espacio; por ejemplo, se utiliza para describir el número de llegadas de clientes por hora, el número de accidentes industriales cada mes, el número de conexiones eléctricas defectuosas por milla de cableado en un sistema eléctrico de una ciudad, o el número de máquinas que se dañan y esperan ser reparadas. Son necesarios dos supuestos para la aplicación de la distribución de Poisson:  La probabilidad de ocurrencia del evento es constante para dos intervalos cualesquiera de tiempo o espacio.  La ocurrencia del evento en un intervalo es independiente de la ocurrencia de otro intervalo cualquiera. 4 ESTADÍSTICA APLICADA A LA SALUD / ESTADÍSTICA GENERAL PROF. ENGELY A. PÉREZ A. SEMESTRE II-2016 Dados estos supuestos, es posible calcular la probabilidad de exactamente x ocurrencias en una distribución de Poisson mediante la siguiente formula:  x  e  P X  x   x! Donde: µ = Número medio de ocurrencias por unidad de tiempo o de espacio. x = Número de veces que ocurre el evento. e = Constante, base del sistema de logaritmos naturales ( e  2,71828 ). En ocasiones, la distribución de Poisson se utiliza para aproximar la distribución binomial, cuando n es grande y p es pequeña. Una regla práctica es utilizar la distribución de Poisson como una buena aproximación de la distribución binomial cuando se satisfacen las siguientes dos condiciones: (1) n  20. (2) p  0,05. Si se cumplen dichas condiciones y deseamos utilizar la distribución de Poisson, como aproximación de la distribución binomial, necesitamos un valor de µ; ese valor se calcula a partir de la siguiente ecuación:   np La media y la varianza de una distribución de Poisson: Por definición, el valor esperado y la varianza de una distribución de Poisson son iguales al número medio de ocurrencias de la distribución; de modo que la media, la varianza y la desviación estándar vienen dadas por: Media o “valor esperado”: E X    Varianza: 2   Desviación estándar:   DISTRIBUCIÓN NORMAL Denominada también distribución de Gauss o distribución gaussiana, en honor al trabajo realizado por Carl Gauss (1777-1855), es una distribución de probabilidad continua (no discreta) utilizada para reflejar la distribución de variables tales como estaturas, pesos, distancias y otras medidas que son divisibles infinitamente. Las distribuciones normales son sumamente importantes por su utilidad para interpretar una gran variedad de eventos naturales y porque juegan un papel fundamental en los métodos de estadística inferencial. La distribución normal se caracteriza por la forma de campana (simétrica) que tiene la curva en la que se distribuyen los valores de la distribución; adicionalmente, el centro de la curva normal coincide con la media de la población distribuida normalmente. La siguiente figura muestra la gráfica de una distribución normal, colocando las observaciones individuales en el eje horizontal y la frecuencia con la cual cada una de estas observaciones ocurrió en el eje vertical. 5 ESTADÍSTICA APLICADA A LA SALUD / ESTADÍSTICA GENERAL PROF. ENGELY A. PÉREZ A. SEMESTRE II-2016 50% 50% -3,00 -2,00 -1,00 μ 0,00 1,00 2,00 3,00 Observe que cuando los valores están distribuidos normalmente (como en la figura anterior) aparece la curva en forma de campana; en tal caso, el 50% de toda el área bajo la curva normal está a la derecha de la media y el 50% de esta área está a la izquierda de la media. La forma y posición de una distribución normal están determinadas por dos parámetros: su media μ y su desviación estándar  , de modo que N (  ,  2 ). Por lo tanto, puede existir un número infinito de distribuciones normales posibles, cada una con su propia media y su desviación estándar. Ya que obviamente no se puede analizar un número tan grande de posibilidades, es necesario convertir todas estas distribuciones normales a una forma estándar. Distribución normal estándar: Esta distribución, también denominada distribución Z, se creó como un modelo que permite simplificar el trabajo de tabulación de las distribuciones de probabilidad pues, debido a la existencia de tablas, es posible obtener con relativa rapidez los valores donde se recoge la probabilidad acumulada para cada punto de la curva de la distribución. Específicamente, la distribución normal estándar de probabilidad tiene una media de 0 y una desviación estándar de 1, tal que N (0, 1). En general, toda distribución normal se puede transformar en una distribución normal estándar. Para realizar esta conversión se crea una nueva variable Z, a partir de la siguiente ecuación: X  Z  Donde: X = Valor de la variable aleatoria que nos interesa. µ = Media de la distribución de esa variable aleatoria. σ = Desviación estándar de esa distribución. Z = Número de desviaciones estándar a las que X está con respecto a la media. -3,00 5 -2,00 10 -1,00 15 0,00 20 1,00 25 302,00 353,00 Variable aleatoria X -3 -2 -1 0 1 2 3 Valores de Z 6 ESTADÍSTICA APLICADA A LA SALUD / ESTADÍSTICA GENERAL PROF. ENGELY A. PÉREZ A. SEMESTRE II-2016 En la figura anterior se ilustra la transformación de una distribución normal con una media de 20 y a una desviación estándar 5, correspondiente a una variable aleatoria X de cierta población, a una distribución normal estándar con una media de 0 y una desviación estándar de 1. Estandarizar una distribución normal permite determinar más fácilmente la probabilidad de que ocurra cierto evento. Por ejemplo, es posible determinar la probabilidad de que la variable aleatoria X este entre 20 y 27, P(20  X  27) , simplemente hallando el área que está bajo la curva normal entre 20 y 27. En general, el área de cualquier distribución normal que se limita por algún valor X, es igual que el área que se limita por el valor de Z equivalente en la distribución normal estándar. Como el área relacionada con un valor de Z puede hallarse en la TABLA DE DISTRIBUCIÓN NORMAL ESTÁNDAR DE PROBABILIDADES, es necesario realizar el proceso de conversión de cada valor de X que sea un límite de la región sombreada a un valor de Z equivalente, de modo que: 27  20 Z  1,40 5 Dado que la tabla de distribución normal estándar proporciona el área bajo la curva desde la media hasta algún valor por encima o por debajo de ésta, al ubicar el valor de Z  1,40 se encontrará que el área bajo la curva que esta entre la media y el valor de Z es de 0,4192. Es decir, el 41,92% del área que está bajo la curva está entre 20 y 27. Hay 41,92% de probabilidad de que la variable aleatoria este entre 20 y 27. En la siguiente figura se ilustra la situación: 0,4192 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 20 27 0 1,40 Valores de Z P(20  X  27)  P(0  Z  1,40)  0,4192 Aunque la tabla solo muestra el área desde la media hasta algún valor por encima o por debajo de ella, otras probabilidades pueden hallarse fácilmente. Destaca, además, que la tabla de distribución normal estándar contiene solo valores de Z positivos; no obstante, dado que la distribución es simétrica los valores de una mitad de la curva lo son también para la otra. Incidentalmente, P( X  x)  P( X  x) , en donde x es cualquier valor dado. Esto se debe a que la distribución normal es una distribución continua. Existe un número infinito de posibles valores que puede tomar X. Por tanto, incluir el valor de x no incrementa la probabilidad de que el evento ocurra. ___________________ REFERENCIAS BIBLIOGRÁFICAS  Levin, Richard I. (1991). Estadística para administradores (2ª Edición). México: Prentice-Hall Hispanoamericana, S.A. P 940.  Webster, Allen (2000). Estadística aplicada a los negocios y la economía (3ª Edición). Colombia: McGraw-Hill Interamericana, S.A., P 640. 7

Distribuciones de Probabilidad PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue