Apuntes Estadística Descriptiva y Probabilidad PDF

Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 139 ESTADÍSTICA DESCRIPTIVA Y PROBABILIDAD Tema 7. MODELOS PARA VARIABLES ALEATORIAS Uno de los objetivos del Cálculo de Probabilidades es determinar distribuciones “prototipo” que puedan servir de modelos para el comportamiento de las variables que aparecen en los problemas reales. En ocasiones estas distribuciones corresponden de forma exacta a situaciones reales, mientras que en muchas otras constituyen una ‘idea- lización’ (a menudo, un lı́mite) de distribuciones de problemas reales. Estos prototipos se eligen con una doble finalidad: que sean representación exacta o buena aproximación de distribuciones reales; que sean fáciles de manejar y permitan el desarrollo de técnicas estadı́sticas ade- cuadas. MODELOS DE DISTRIBUCIONES PARA VARIABLES ALEATORIAS DISCRETAS Los modelos de distribuciones discretas que vamos a describir sirven de modelo exacto o lı́mite de distribuciones que aparecen en problemas reales, por lo que mayori- tariamente se presentarán mediante el planteamiento de tales problemas, las variables aleatorias asociadas y la deducción posterior de su distribución. Comenzamos con un modelo que tiene más interés teórico que práctico, y de hecho ya hemos hecho referencia a ella en algunas de las propiedades de las medidas resumen en el Tema 6. Se dice que una variable aleatoria tiene distribución degenerada en un punto c ∈ R si toma este valor con probabilidad 1 y cualquier otro con probabilidad 0. Se representará habitualmente por c. La función de distribución de una variable con distribución degenerada toma únicamente dos valores, 0 (para valores x < c) y 1 (para valores x ≥ c). A una variable aleatoria con distribución degenerada suele referirse también como variable aleatoria causal. Entre los modelos para distribuciones de tipo discreto, cabe destacar los que se basan en resultados que se clasifican en dos categorı́as (por ejemplo, si una pieza observada en un proceso de producción es o no defectuosa, si se detecta éxito o fracaso según cierto procedimiento, etc.). Son distribuciones basadas en el llamado experimento de Bernoulli asociado a A, en el que sólo se tiene interés en saber si ha ocurrido o no cierto suceso A, es decir, en saber si en la realización experimental ocurre A o Ac (con A = pieza defectuosa, A = éxito, etc.). Entre éstas cabe destacar los modelos binomial, de Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 140 Poisson (en el paso al lı́mite), de Pascal o geométrica, binomial negativa (cuando se refieren a ejecuciones independientes del experimento de Bernoulli) e hipergeométrica (cuando concierne a ciertas realizaciones dependientes). La distribución binomial de parámetros n y p (con n ∈ N, p ∈ (0, 1)) se presenta habitualmente asociada con la variable X = número de veces en las que ocurre cierto suceso A de entre n realizaciones independientes del experimento de Bernoulli asociado a A. Se denota esta distribución por B(n, p), donde p = ‘probabilidad de que ocurra A en una realización del experimento de Bernoulli asociado a A’. Los posibles valores de la variable X serán: 0, 1, 2,... , n. Además, su función de probabilidad viene dada para cualquier k ∈ {0, 1, 2,... , n} por: P (X = k) = P (en n realizaciones experimentales independientes aparezca k veces A y n − k veces Ac ) n! = [P (A)]k [P (Ac )]n−k , k!(n − k)! es decir: µ ¶ µ ¶ n k n−k n P (X = k) = [P (A)] [1 − P (A)] = pk (1 − p)n−k. k k Según que los valores del ‘parámetro’ p ∈ (0, 1) sean menores o mayores el tipo de distribución es simétrica respecto a la media (caso p = 0.5), asimétrica con cola por la derecha (caso p < 0.5) o asimétrica con cola por la izquierda (caso p > 0.5) (ver Figura 24). 0,45 0,40 0,35 p = 0.1 p = 0.7 0,30 0,25 0,20 0,15 0,10 0,05 0,00 0 1 2 3 4 5 6 7 8 9 10 Figura 24. Diagramas de barras de la distribución B(10, p) para p = 0.1 y p = 0.7 Si X es una variable aleatoria con distribución B(n, p), los valores de su esperanza matemática y varianza, vienen dados por: E(X) = n · p, Var(X) = n · p (1 − p), Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 141 ya que, basándose en el desarrollo del binomio de Newton: n n n X X X n! E(X) = k · P (X = k) = k · P (X = k) = k· · pk (1 − p)n−k k=0 k=1 k=1 k!(n − k)! n n µ ¶ X (n − 1)! k−1 n−k X n−1 = np · p (1 − p) = np · pk−1 (1 − p)n−k k=1 (k − 1)!(n − k)! k=1 k − 1 n−1 µ X n−1 ¶ = np · pj (1 − p)n−1−j = np · [p + (1 − p)]n−1 = np, j=0 j ¡ ¢2 ¡ ¢ Var(X) = E(X 2 ) − E(X) = E X(X − 1) + E(X)[1 − E(X)] Xn Xn = k(k − 1) · P (X = k) + np(1 − np) = k(k − 1) · P (X = k) + np(1 − np) k=0 k=2 n X n! = k(k − 1) · · pk (1 − p)n−k + np(1 − np) k=2 k!(n − k)! n 2 X (n − 2)! = n(n − 1)p · pk−2 (1 − p)n−k + np(1 − np) k=2 (k − 2)!(n − k)! n Xµ n − 2 ¶ = np · pk−2 (1 − p)n−k + np(1 − np) k=2 k − 2 n−2 µ ¶ X n−2 2 = n(n − 1)p · pj (1 − p)n−2−j + np(1 − np) j=0 j = n(n − 1)p2 · [p + (1 − p)]n−2 + np(1 − np) = np(1 − p). Cuando n = 1, la distribución binomial se denomina distribución de Bernoulli de parámetro p, y se denota por B(p) o B(1, p). El hecho de que la media y la varianza de una B(n, p) sean n veces las de la Bernoulli B(p) no es casual. Aunque la justificación no podrá verse en este curso, ese resultado se debe a que la variable binomial B(n, p) puede interpretarse como suma de n variables independientes B(p). La distribución binomial aparece más asiduamente como modelo exacto que idea- lizado. En esta última situación, su adopción obedece frecuentemente al hecho de que Var(X) < E(X) en el caso binomial. La distribución de Poisson de parámetro λ (con λ > 0) es la asociada con una variable que toma como posibles valores 0, 1, 2,... y cuya función de probabilidad viene dada por: e−λ λk P (X = k) =. k! Se denota esta distribución por P(λ), y se trata de una distribución asimétrica con cola por la derecha (ver Figura 25 para varios valores de λ). Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 142 λ = 0.01 λ = 0.1 λ = 0.5 λ=1 λ=2 λ=5 λ = 10 λ = 25 λ = 50 λ = 100 Figura 25. ‘Diagramas de barras’ de la distribución P(λ) para λ = 0.01, 0.1, 0.5, 1, 2, 5, 10, 25, 50, 100. Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 143 Si X es una variable aleatoria con distribución P(λ), los valores de su esperanza matemática y varianza, vienen dados por: E(X) = Var(X) = λ, de modo que el ‘parámetro’ λ corresponde al valor esperado/medio de la variable (además de a su varianza). En efecto, teniendo en cuenta el desarrollo en serie de eλ : n n X X E(X) = k · P (X = k) = k · P (X = k) k=0 k=1 ∞ ∞ ∞ X e−λ λk λk−1 X X λj = k· = λe−λ = λe−λ = λe−λ eλ = λ, k=1 k! k=1 (k − 1)! j=0 j! ∞ X ¡ ¢ Var(X) = E X(X − 1) + E(X)[1 − E(X) = k(k − 1) · P (X = k) + λ(1 − λ) k=0 ∞ ∞ X X λk−2 = k(k − 1) · P (X = k) + λ(1 − λ) = λ2 e−λ + λ(1 − λ) k=2 k=2 (k − 2)! ∞ 2 −λ X λj =λ e + λ(1 − λ) = λ2 e−λ eλ + λ(1 − λ) = λ. j=0 j! La distribución Poisson aparece en la práctica como modelo lı́mite o idealizado. En esta última situación, su adopción se debe fundamentalmente al hecho de que Var(X) = E(X). Para obtener la distribución de Poisson suelen considerarse dos caminos que pueden verse como enfoques o interpretaciones diferentes de una misma aproximación: el lı́mite de una distribución binomial y el cumplimiento de los “postulados de Poisson”. Cuando la variable X = ‘número de veces en las que ocurre cierto suceso aislado A (suele referirse a A como “suceso raro”, es decir con probabilidad P (A) pequeña, en la terminologı́a de esta distribución) en un gran número de realizaciones experi- mentales de Bernoulli independientes’, la distribución binomial puede aproximarse por la distribución de Poisson, en el sentido de que si limn→∞ limP [A]→ 0+ n · P [A] = λ, entonces: µ ¶ n e−λ λk lim lim + [P (A)]k [1 − P (A)]n−k = , n→∞ P [A]→ 0 k k! ya que µ ¶ n lim lim + [P (A)]k [1 − P (A)]n−k n→∞ P [A]→ 0 k n(n − 1)(n − 2)... (n − k + 1) [nP (A)]k [1 − P (A)]n = lim lim · · n→∞ P [A]→ 0+ nk k! [1 − P (A)]k Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 144 µ ¶µ ¶ µ ¶ 1 2 k−1 = lim lim 1− 1−... 1 − n→∞ P [A]→ 0+ n n n [nP (A)]k ¡ ¢−nP [A] λk −λ · · [1 − P (A)]−1/P [A] · [1 − P (A)]−k = ·e. k! k! En la práctica, este resultado proporciona una posible aproximación para calcular las probabilidades de una distribución binomial cuando n es muy grande y p = P (A) es muy pequeño (concretamente, suele recurrirse a la aproximación cuando n ≥ 50, p < 0.01 y n · p < 5. En estas condiciones, si X tiene distribución B(n, p): e−n·p (n · p)k P (X = k) '. k! La Figura 26 ilustra la aproximación anterior en el caso en que n = 100 y p = 0.01. Figura 26. Diagramas de barras de la distribución B(100, 0.01) y de la aproximación por P(100 · 0.01) = P(1) Cuando la variable ‘número de veces en las que ocurre cierto suceso aislado A’ se evalúa en un continuo (por ejemplo, el número de burbujas o desperfectos en cierta superficie de una lámina de plástico), entonces puede examinarse el cumplimiento de los postulados de Poisson. Según éstos, si A es un suceso que ocurre esporádicamente en el tiempo (o en otro continuo cualquiera, como el espacio, superficie, etc.) y Xt denota la variable aleatoria ‘número de veces que ocurre A en un intervalo de tiempo de t unidades: 1. Si se consideran dos intervalos de tiempo disjuntos, las variables Xt asociadas son variables independientes. 2. La distribución de Xt únicamente depende del número de unidades del intervalo de tiempo al que se refiere, y no del inicio de ese intervalo. 3. Si un intervalo de tiempo es suficientemente pequeño, entonces P (Xt = 1) (es decir, la probabilidad de que ocurra una vez el suceso A en un intervalo de duración suficientemente corta) es proporcional al número t de unidades de tiempo de ese intervalo. Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 145 4. Si un intervalo de tiempo es suficientemente pequeño, entonces P (Xt > 1) (es decir, la probabilidad de que ocurra más de una vez el suceso A en un intervalo de duración suficientemente corta) es infinitesimal frente a P (Xt = 1). Si se admiten estos postulados, y se formalizan adecuadamente los mismos, puede probarse que la variable Xt sigue distribución P(λ · t), donde λ = ‘número medio de veces que ocurre A por unidad de tiempo.’ Como hemos indicado, en realidad estas dos formas de llegar a la distribución de Poisson pueden identificarse. En ocasiones, cuando se trabaja con experimentos como los que acabamos de des- cribir en estos postulados, no es posible distinguir el número medio de veces que ocurre un suceso A por unidad de tiempo (espacio, superficie, etc.), pero sı́ es posible distinguir para cada intervalo temporal (o zona del espacio, superficie, etc.) de 1 unidad si ha ocurrido (alguna vez) o no el suceso A. Si a partir de esta distinción, puede aproximarse el valor de P (X1 = 0), entonces puede también aproximarse el valor de λ como sigue: e−λ λ0 P (X1 = 0) = = e−λ ⇒ λ = − log P (X1 = 0), 0! de modo que: £ ¤k £ ¤k elog P (X1 =0) − log P (X1 = 0) P (X1 = 0) · − log P (X1 = 0) P (X1 = k) = =. k! k! La distribución de Pascal o geométrica de parámetro p (con p ∈ (0, 1)) se presenta habitualmente asociada con la variable X = número de veces que hay que ejecutar el experimento de Bernoulli asociado a A antes de que aparezca por primera vez A o con la dada por Y = X + 1 = número de veces que hay que ejecutar el experimento de Bernoulli asociado a A hasta que aparezca por primera vez A, incluyendo esta última (es decir, posición de la ejecución en la que A aparece por primera vez) Se denota esta distribución por G(p), donde p = ‘probabilidad de que ocurra A en una realización del experimento de Bernoulli asociado a A’. Los posibles valores de la variable X serán: 0, 1, 2,.... Además, su función de probabilidad viene dada para cualquier k ∈ {0, 1, 2,...} por: k veces ¡ z }| { ¢ P (X = k) = P Ac ,... , Ac , A) = [P (Ac )]k P (A), es decir: P (X = k) = [1 − P (A)]k P (A) = (1 − p)k p. Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 146 La distribución es asimétrica (de hecho, la función de probabilidad es estrictamente decreciente respecto a los valores de X, ver Figura 27). Figura 27. Diagramas de barras de las distribuciones G(0.1), G(0.8) y G(0.5) Si X es una variable aleatoria con distribución G(p), los valores de su esperanza matemática y varianza, vienen dados por: 1−p 1−p E(X) = , Var(X) = , p p2 ya que, denotando por q = 1 − p y recurriendo a la suma de los términos de una progresión geométrica de razón q: ∞ X ∞ X n X E(X) = k · P (X = k) = k · P (X = k) = k · qk p k=0 k=1 k=1 ∞ X ∞ X ∞ d qk d X k d q 1 q = pq k · q k−1 = pq = pq q = pq = pq 2 = , k=1 k=1 dq dq k=1 dq 1 − q (1 − q) p ¡ ¢ 2 ¡ ¢ Var(X) = E(X 2 ) − E(X) = E X(X − 1) + E(X)[1 − E(X)] X∞ µ ¶ X ∞ µ ¶ q q q q = k(k − 1) · P (X = k) + 1− = k(k − 1) · P (X = k) + 1− k=0 p p k=2 p p X∞ µ ¶ X∞ µ ¶ k q q 2 d2 q k q q = k(k − 1) · q p + 1− = pq + 1− k=2 p p k=1 dq 2 p p 2 X∞ µ ¶ µ ¶ 2 d k q q 2 2 q q q = pq q + 1 − = pq + 1 − =. dq 2 k=1 p p (1 − q)3 p p p2 Si la variable considerada fuera Y = X + 1, se cumplirı́a que q 1 q E(Y ) = E(X) + 1 = +1= , Var(Y ) = Var(X) =. p p p2 Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 147 La distribución de Pascal es un modelo que se ajusta a experimentos relacionados con el ‘tiempo de espera’ hasta que se presenta cierta situación, cuando ese tiempo se cuantifica de forma discreta en términos del número de ejecuciones del correspondiente experimento de Bernoulli. Un útimo modelo al que vamos a hacer referencia, en principio no necesariamente en conexión con la realización de experimentos de Bernoulli, es el siguiente: se dice que una variable aleatoria X tiene distribución uniforme discreta en el conjunto de valores {x1 ,... , xn }, si 1 P (X = x1 ) =... = P (X = xn ) =. n Se denota esta distribución por U{x1 ,...,xn } , y los valores de su esperanza matemática y varianza, vienen dados por: µ ¶2 x1 +... + xn x21 +... + x2n x1 +... + xn E(X) = , Var(X) = −. n n n MODELOS DE DISTRIBUCIONES PARA VARIABLES ALEATORIAS CONTINUAS Los modelos para distribuciones de tipo continuo representan una idealización de distribuciones reales. Entre estos modelos vamos a exponer tres de los más usuales: la distribución uniforme (modelo para idealización del caso en el que todos los rectángulos del histograma tienen, aproximadamente, la misma altura), la distribución normal o de Gauss (para el caso de distribuciones con histograma simétrico y campaniforme) y la distribución exponencial (para distribuciones con histograma asimétrico con cola por la derecha). Se dice que una variable aleatoria X tiene distribución uniforme en el inter- valo [a, b] si es una variable continua con función de densidad dada por (ver Figura 28):   1 si x ∈ [a, b] f (x) = b−a  0 si x ∈ / [a, b]. Se denota esta distribución por U[a, b]. Si X es una variable con distribución U[a, b], los valores de su esperanza matemática y varianza, vienen dados por: a+b (b − a)2 E(X) = = punto medio de [a, b], Var(X) = , 2 12 Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 148 1 b−a a b Figura 28. Función de densidad de la distribución U[a, b]. ya que Z b Z b ¸x=b 1 1 1 x2 a+b E(X) = x· dx = x dx = , = a b−a b−a a b−a 2 x=a 2 Z b µ ¶2 2 ¡ ¢2 2 1 a+b Var(X) = E(X ) − E(X) = x · dx − a b−a 2 Z b µ ¶2 ¸ x=b µ ¶ 2 1 a+b 1 x3 a+b (b − a)2 = x2 dx − = − =. b−a a 2 b − a 3 x=a 2 12 En la práctica, la distribución uniforme suele considerarse como prototipo idealizado del caso en el que se conoce que la variable toma valores dentro de ciertos lı́mites (a y b) y, en principio, no hay evidencias de que unos valores se presenten con más o menos asiduidad que otros (en ocasiones se indica diciendo que la variable se distribuye al azar dentro del intervalo). Observación: En particular, la distribución U[0, 1] tiene aplicación especial en la llamada Estadı́stica Bayesiana y en la simulación de distribuciones continuas, debido a la propiedad vista en el Tema 6 sobre la transformación de una variable continua por la curva integral. Se dice que una variable aleatoria X tiene distribución normal de ‘paráme- tros’ µ y σ (con µ ∈ R, σ > 0) si es una variable continua con función de densidad dada por: (x − µ)2 1 − f (x) = √ e 2σ 2 para todo x ∈ R. σ 2π Se denota esta distribución por N (µ, σ). Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 149 La gráfica de la función de densidad es campaniforme (la llamada “campana de Gauss”), es decir, simétrica (respecto a x = µ) y cóncava hacia abajo en [µ − σ, µ + σ] y hacia arriba en el resto (ver Figura 29 en el caso µ = 0, σ = 1). −3 −2 −1 0 1 2 3 Figura 29. Función de densidad de la distribución N (0, 1). Si X es una variable con distribución N (µ, σ), los valores de su esperanza matemática y varianza, puede probarse que vienen dados por: E(X) = µ, Var(X) = σ 2. Según que los valores del ‘parámetro’ µ ∈ R sean menores o mayores el eje de simetrı́a estará más a la izquierda o más a la derecha (µ = 0 corresponde a los casos en los que el eje de simetrı́a coincide con el de ordenadas). Cuanto mayor sea el valor del ‘parámetro’ σ ∈ (0, ∞) menor será la altura máxima de la gráfica de la función de densidad y más amplio será el intervalo de concavidad hacia abajo de esa función (ver Figura 30 en la que aparecen varias funciones de densidad de distribuciones N (5, σ) para σ = 0.5, 1, 2, 3, 4). σ = 0.5 σ=1 σ=2 σ=3 σ=4 Figura 30. Funciones de densidad de varias distribuciones N (5, σ). Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 150 La distribución normal es el modelo más relevante de todos por varias razones: tiene propiedades matemáticas muy útiles (entre ellas puede probarse, recurrien- do a técnicas de transformación de variables o utilizando la función generatriz de momentos, que: X Ã N (µ, σ) ⇒ Y = aX + b Ã N (aµ + b, |a|σ) para a ∈ R \ {0}, b ∈ R); como se verá en cursos posteriores, es distribución lı́mite de otras distribuciones y, de forma más general, de sumas y medias de variables independientes con las misma distribución (lo que resulta especialmente útil para las inferencias basadas en sumas y medias de muestras de observaciones independientes); algunas otras distribuciones pueden reducirse a la normal u obtenerse a partir de la normal, mediante un cambio de variable apropiado. Observación: La distribución normal es un modelo que se ajusta bien a un buen número de problemas reales, si bien en ocasiones se abusa de su empleo adoptándola como modelo sin evidencias de su idoneidad. Muchas de las técnicas de Inferencia Estadı́stica más operativas se basan en la suposición de que la distribución de la va- riable considerada es normal. A veces, el que esta suposición no sea muy sostenible no afecta demasiado a las conclusiones estadı́sticas que se deriven de la aplicación de tales técnicas (son los denominados “métodos robustos”), pero en otras ocasiones las técnicas utilizadas son muy sensibles a alteraciones de las condiciones supuestas, lo que conducirı́a a errores importantes en las conclusiones obtenidas. Para evitar tales erro- res, es preciso recurrir previamente a la aplicación de procedimientos inferenciales de “bondad de ajuste”, a través de los cuales puede determinarse si la normalidad supuesta es admisible con cierto grado de confianza o de error prefijados. Desde el punto de vista probabilı́stico, es muy importante destacar que la función de densidad de la distribución normal es poco manejable directamente, en el sentido de que la función de densidad de la normal no admite primitiva. En consecuencia, es imposible hallar los valores de su función de distribución, o las probabilidades de que una variable normal tome valores en un intervalo cualquiera, mediante técnicas de integración exactas. Por ello, se recurre a procedimientos de aproximación del Análisis Numérico para determinar los valores de la función de distribución y, a partir de éstos, los de las probabilidades de intervalos. Si esta aproximación tuviera que realizarse para cada posible elección de µ y σ, la determinación de las probabilidades a partir de la normal resultarı́an costosas computacionalmente. Sin embargo, la operatividad matemática de la distribución normal, a la que nos hemos referido antes, permite asegurar que (tomando a = 1/σ, b = −µ/σ en la transformación X 0 = aX + b): X −µ X Ã N (µ, σ) ⇒ X 0 = Ã N (0, 1). σ Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 151 A este proceso de cambio de variable, consistente en restar la media y dividir poste- riormente por la desviación tı́pica, se le conoce con el nombre de tipificación de una variable normal, y a la distribución N (0, 1) se le denomina distribución normal tı́pica. Cono consecuencia del proceso de tipificación, es suficiente con conocer los valores de la función de distribución de una variable N (0, 1) para hallar las probabilidades relativas a una distribución normal cualquiera. Tales valores se encuentran recogidos en tablas. De este modo, si X Ã N (µ, σ), entonces su función de distribución F en un punto cualquiera c ∈ R puede hallarse a partir de la función de distribución de la N (0, 1), que habitualmente denotaremos por Φ, como sigue: µ ¶ µ ¶ µ ¶ X −µ c−µ 0 c−µ c−µ F (c) = P (X ≤ c) = P ≤ =P X ≤ =Φ. σ σ σ σ De forma análoga, si X Ã N (µ, σ), entonces, cualesquiera que sean a, b ∈ R: µ ¶ a−µ X −µ b−µ P (a ≤ X ≤ b) = P ≤ ≤ σ σ σ µ ¶ µ ¶ µ ¶ a−µ 0 b−µ b−µ a−µ =P ≤X ≤ =Φ −Φ. σ σ σ σ Se dice que una variable aleatoria X tiene distribución exponencial de ‘pará- metro’ λ si es una variable continua con función de densidad dada por: ½ λ e−λx , si x > 0 f (x) = 0, en el resto. Se denota esta distribución por E(λ) o Exp(λ). La gráfica de la función de densidad, en su parte positiva, es cóncava hacia arriba y decreciente (ver Figura 31 en el caso λ = 1). 1 0.8 0.6 0.4 0.2 0 1 2 3 4 5 Figura 31. Función de densidad de la distribución E(1). Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 152 Si X es una variable con distribución E(λ), los valores de su esperanza matemática y varianza, vienen dados por: 1 1 E(X) = , Var(X) = 2 , λ λ ya que (integrando por partes, tomando u = x, dv = e−λx dx en el cálculo de la espe- ranza y aplicando dos veces ese método empezando por u = x2 , dv = e−λx dx para el cálculo de la E(X 2 )): Z ∞ ix→∞ Z ∞ ix→∞ 1 −λx −λx 1 E(X) = x · λe dx = −x e + e−λx dx = − e−λx = , 0 x=0 0 λ x=0 λ Z ∞ 2 ¡ ¢2 1 Var(X) = E(X ) − E(X) = x2 · λ e−λx dx − 2 0 λ ix→∞ Z ∞ 1 2 E(X) 1 1 = −x2 e−λx +2 x e−λx dx − 2 = − 2 = 2. x=0 0 λ λ λ λ Cuanto mayor sea el valor del ‘parámetro’ λ ∈ (0, ∞) mayor será la altura máxima de la gráfica de la función de densidad (es decir, será un modelo más adecuado para variables que tomen con probabilidad alta valores positivos pequeños (ver Figura 32 en la que aparecen varias funciones de densidad de distribuciones E(λ) para λ = 0.5, 1, 2, 4). λ=4 λ=2 λ=1 λ = 0.5 Figura 32. Funciones de densidad de varias distribuciones E(λ). La distribución E(λ) es también muy operativa, ya que: X Ã E(λ) ⇒ Y = aX Ã E(λ/a) para a > 0, de forma que eligiendo a = λ cualquier probabilidad relativa a una distribución expo- nencial puede reducirse a una probabilidad que puede calcularse a partir de las de la E(1). Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 153 No obstante, a diferencia de lo que ocurrı́a con la densidad de la distribución normal, la parte positiva de la función de densidad de la E(λ) admite como primitiva e−λx , de modo que el cálculo de las probabilidades que involucran una variable E(λ) pueden resolverse directamente sin dificultades de cálculo. La distribución exponencial suele ser prototipo adecuado en la práctica para varia- bles relacionadas con el tiempo (espacio, superficie, etc.) durante el que se desarrolla un fenómeno determinado. Más concretamente, si la variable Xt a la que nos referimos en la distribución de Poisson satisface los postulados de Poisson, entonces la variable ‘tiempo transcurrido hasta que por primera vez ocurre el suceso A’ tiene distribución exponencial de parámetro λ = ‘número medio de veces que ocurre A por unidad de tiempo’. Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 154 Tema 7. Modelos para variables aleatorias (Estudios complementarios - fuera de Programa -) Otros modelos de distribuciones dicretas Cuando en la realización reiterada e independiente del experimento del experimento de Bernoulli asociado al suceso A, en lugar de esperar hasta la primera aparición de A se espera hasta que éste aparece por n-ésima vez, la distribución binomial negativa de paráme- tros n y p se presenta asociada con la variable X = número de veces en las que aparece A en ejecuciones independientes del experimento de Bernoulli asociado a A hasta que por n-ésima vez aparece A Se denota esta distribución por BN (n, p), donde p = ‘probabilidad de que ocurra A en una realización del experimento de Bernoulli asociado a A’. Los posibles valores de la variable X serán: 0, 1, 2,.... Además, su función de probabilidad viene dada para cualquier k ∈ {0, 1, 2,...} por: ¡ kzveces A y }| (n − 1) veces A c ¢ P (X = k) = P....................{. , A) = [P (Ac )]k P (A), es decir: Ã ! Ã ! n+k−1 k n n+k−1 P (X = k) = [1 − P (A)] [P (A)] = (1 − p)k pn. k k La Figura 13’ muestra algunas distribuciones binomiales negativas. Figura 13’. Diagramas de barras de la distribución BN (10, p) para p = 0.1 y p = 0.7 Si X es una variable aleatoria con distribución BN (n, p), los valores de su esperanza matemática y varianza, vienen dados por: n(1 − p) n(1 − p) E(X) = , Var(X) =. p p2 Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 155 Cuando n = 1, se tiene que BN (1, p) = G(p). El hecho de que la media y la varianza de una BN (n, p) sean n veces las de la Pascal G(p) no es casual. Aunque la justificación no podrá verse en este curso, ese resultado se debe a que la variable binomial BN (n, p) puede interpretarse como suma de n variables independientes G(p). En las distribuciones anteriores el experimento de Bernoulli asociado a la ocurrencia del suceso A se realizaba en condiciones idénticas y los resultados de las distintas ejecuciones no dependı́an entre sı́. Un ejemplo particular de realizaciones independientes de un experimento de Bernoulli podemos verlo en la selección al azar y con reemplazamiento de elementos de un conjunto finito en los que los N elementos se suponen clasificados en dos categorı́as bien definidas y exhaustivas: A y Ac. Supongamos que D de esos elementos corresponden a la clase A, y los N − D restantes a la Ac. Si se seleccionaran al azar, de uno en uno y con reemplazamiento, n elementos del conjunto, la variable X = ‘número de elementos de la clase A de los n seleccionados’ seguirı́a una distribución B(n, D/N ), ya que al realizarse la selección devolviendo cada elemento al conjunto antes de seleccionar el siguiente los resultados de cada selección son independientes entre sı́ y las selecciones se realizan siempre en las mismas condiciones. Si, la selección se llevara a cabo al azar pero sin reemplazamiento los resultados de cada selección no son independientes entre sı́, ya que ante cada selección la composición del conjunto sufre un cambio. Supongamos ahora que se realiza una selección al azar y sin reemplazamiento de elementos de un conjunto finito en los que los N elementos se supo- nen clasificados en dos categorı́as bien definidas y exhaustivas: A y Ac. Supongamos que D de esos elementos corresponden a la clase A, y los N − D restantes a la Ac. Si se se- leccionaran al azar, de uno en uno y sin reemplazamiento, n elementos del conjunto, la distribución hipergeométrica de parámetros N , D y n es la que corresponde a la variable X = ‘número de elementos de la clase A de los n seleccionados’. Los posibles valores de la variable X serán: k ∈ {0, 1, 2,... , n} tal que k ≤ D, n − k ≤ N − D, es decir, k entero y max{0, n − N + D} ≤ k ≤ min{n, D}. Además, su función de probabilidad viene dada para cualquier valor posible k por: Ã ! Ã ! n! D N − D VD,k · VN −D,n−k · · k! (n − k)! k n−k P (X = k) = = Ã !. VN,n N n Se denota esta distribución por H(N, D, n), y los valores de su esperanza matemática y varianza, vienen dados por: D D ND N − n E(X) = n · , Var(X) = n · · ·. N N N N −1 Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 156 La distribución hipergeométrica puede aproximarse por la distribución de binomial, en el sentido de que si limN →∞ D/N = p, entonces: Ã ! Ã ! D N −D · Ã ! k n−k n lim Ã ! = pk (1 − p)n−k. N →∞ N k n En la práctica, este resultado proporciona una posible aproximación para calcular las probabilidades de una distribución hipergeométrica cuando N es grande y n es relativamente pequeño (concretamente, suele recurrirse a la aproximación cuando N > 50 y n ≤ 0.1N. En estas condiciones, si X tiene distribución H(N, D, n): Ã !µ ¶ µ ¶ n D k N − D n−k P (X = k) '. k N N Una implicación de esta aproximación, con especial interés en el muestreo de poblaciones, es que cuando el tamaño poblacional es grande y el muestral relativamente pequeño, los resultados probabilı́sticos del muestreo sin reposición son muy próximos a los del muestreo con reposición, de manera que se pueden considerar que aproximadamente las observaciones muestrales son independientes entre sı́. Otros modelos de distribuciones continuas La distribución exponencial es un caso especial de la distribución gamma. Se dice que una variable aleatoria X tiene distribución gamma de ‘parámetros’ p y a (con p > 0 y a > 0) si es una variable continua con función de densidad dada por:   1 e−ax xp−1 , si x > 0 f (x) = Γ(p)  0, en el resto. R∞ donde Γ(p) = función gamma de Euler = 0 e−x xp−1 dx (cumpliéndose que si p > 1 entonces √ γ(p) = (p − 1)Γ(p − 1), si p ∈ N : Γ(p) = (p − 1)! y que Γ(1/2) = π). Se denota esta distribución por γ(p, a). La gráfica de la función de densidad, para distintas elecciones de p y a puede verse en la Figura 14’. Si X es una variable con distribución γ(p, a), puede verificarse que los valores de su esperanza matemática y varianza, vienen dados por: p p E(X) = , Var(X) = 2. a a La distribución E(λ) es bastante operativa, ya que: X Ã γ(p, a) ⇒ Y = kX Ã γ(p, a/k) para k > 0. Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 157 Figura 14’. Funciones de densidad de varias distribuciones γ(p, a). La distribución exponencial de parámetro λ se corresponde con la γ(1, λ). La distribución gamma, como la exponencial, también es adecuada en la práctica para variables relacionadas con el tiempo (espacio, superficie, etc.) durante el que se desarrolla un fenómeno determinado. Más concretamente, si la variable Xt a la que nos referimos en la distribución de Poisson satisface los postulados de Poisson, entonces la variable ‘tiempo transcurrido hasta que por k-ésima vez ocurre el suceso A’ tiene distribución γ(k, λ) con λ = ‘número medio de veces que ocurre A por unidad de tiempo’. Otra distribución muy notable en Inferencia Estadı́stica que es una caso especial de la gamma es la conocida como distribución ji-dos (ó chi-cuadrado ó ji-cuadrado) de Pearson con n ∈ N grados de libertad que es una variable con distribución γ(n/2, 1/2), y se denota por χ2n. Se dice que una variable aleatoria X tiene distribución beta de ‘parámetros’ p y q (con p > 0 y q > 0) si es una variable continua con función de densidad dada por:  1  xp−1 (1 − x)q−1 , si x ∈ (0, 1) f (x) = B(p, q)  0, en el resto. R1 donde B(p, q) = función beta de Euler = 0 xp−1 (1 − x)q−1 dx (cumpliéndose que Γ(p) Γ(q) B(p, q) = ). Γ(p + q) Se denota esta distribución por β(p, q). Estadı́stica Descriptiva y Probabilidad - 1o de Matemáticas - UNIVERSIDAD DE OVIEDO 158 La gráfica de la función de densidad, para distintas elecciones de p y q puede verse en la Figura 15’. Figura 15’. Funciones de densidad de varias distribuciones β(p, q). Si X es una variable con distribución β(p, q), puede verificarse que los valores de su esperanza matemática y varianza, vienen dados por: p pq E(X) = , Var(X) =. p+q (p + q)2 (p + q + 1) La distribución uniforme en (0, 1) se corresponde con la distribución β(1, 1). La distribución beta es adecuada en la práctica para modelar variables relacionadas con proporciones. Tiene especial relevancia en Inferencia Bayesiana, al ser un modelo muy ope- rativo para ese tipo de variables, especialmente cuando el parámetro p de un experimento de Bernoulli se considera a su vez como una variable aleatoria.

Apuntes Estadística Descriptiva y Probabilidad PDF

Document Details

Tags

Related

Summary

Full Transcript