Apuntes Probabilidades y Estadística Tema 1 PDF

Summary

These notes cover the topic of vectors in probability and statistics, focusing on the concept of k-dimensional vectors, also known as random vectors. The document defines the notion of random vectors and discusses concepts like Borel σ-algebra and the probability induced by random vectors in the context of a probabilistic space and random experiments.

Full Transcript

Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 1 PROBABILIDADES Y ESTADÍSTICA Tema 1. VECTORES ALEATORIOS Estudios de las variables aleatorias n-dimensionales El interés del concepto de variable aleatoria k-dimensional o vector a...

Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 1 PROBABILIDADES Y ESTADÍSTICA Tema 1. VECTORES ALEATORIOS Estudios de las variables aleatorias n-dimensionales El interés del concepto de variable aleatoria k-dimensional o vector aleatorio (k- dimensional), con k ∈ N, k ≥ 2, reside en el hecho de que: mediante el mismo, además de disponerse de la información individualizada de cada variable unidimensional componente y poder analizarse su distribución, a partir de su comportamiento conjunto pueden incorporarse formalmente y estu- diarse dependencias entre tales variables componentes, y dicho concepto suministra un modelo fundamental para formalizar el mecanismo asociado a la obtención de muestras de observaciones y algunas relaciones entre éstas (como, por ejemplo, la independencia de las observaciones muestrales). De hecho, una de las aplicaciones más relevantes de este tema será la relativa al modelo para los mecanismos aleatorios que generan las muestras de observaciones base de la Estadı́stica Inferencial. Otra aplicación de interés será la asociada al tratamiento probabilı́stico involucrado en los problemas de Inferencia Bayesiana, en los que tanto la variable en estudio como los parámetros de su distribución se modelan como variables aleatorias de modo que aunque no necesite referirse de forma expresa al vector aleatorio que ambas determinan, sı́ subyace tal vector en todos los desarrollos. EL ESPACIO PROBABILIZABLE (Rk , BRk ) Y LOS VECTORES ALEATORIOS Para formalizar el concepto de vector aleatorio se extiende el de variable aleatoria unidimensional de forma que a cada resultado del experimento aleatorio considerado se le asocie un valor vectorial en lugar de un valor real. Si el modelo asociado al experimento aleatorio de partida es el espacio de probabilidad (Ω, A, P ), un vector aleatorio va a consistir en una aplicación de Ω en Rk que satisfaga cierta condición de medibilidad (medibilidad Borel). En el caso unidimensional (k = 1) dicha condición se basaba en la consideración de la σ-álgebra de Borel en R. La extensión al caso k-dimensional recurrirá al concepto de σ-álgebra de Borel en Rk que se presenta a continuación. La σ-álgebra de Borel en Rk , se define como sigue: © ¯ BRk = B ⊂ Rk ¯ B puede expresarse en función de ‘rectángulos’ de Rk mediante ª complementación y unión/intersección numerables , Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 2 donde por un ‘rectángulo’ de Rk entendemos el producto cartesiano de k intervalos (acotados o no). Abreviadamente, se dice que BRk es la mı́nima σ-álgebra generada (o engendrada) por la clase de todos los rectángulos de Rk (si bien, desde una perspectiva topológica, suele introducirse como la mı́nima σ-álgebra generada por los abiertos de Rk con una topologı́a definida sobre este espacio). La σ-álgebra de Borel en Rk puede definirse de manera equivalente como: n ¯ BRk = B ⊂ Rk ¯ B puede expresarse en función de ‘rectángulos’ de la forma (−∞, x1 ] ×... × (−∞, xk ] o mediante complementación y unión/intersección numerables. Como en el caso unidimensional, la σ-álgebra de Borel BRk juega un papel central en la formalización de los vectores aleatorios y su función de distribución (conjunta). El hecho de que todos los conjuntos de BRk se puedan expresar en función de ‘rectángulos’ que quedan caracterizados por un único valor vectorial (cuyas componentes son los extremos superiores de los intervalos de cada dimensión) permitirá reducir el estudio de la probabilidad asociada a un experimento (definida sobre conjuntos) al de una función real de variable vectorial. Es conveniente tener en cuenta que BRk 6= BR ×... × BR ya que, de hecho, este producto cartesiano no tiene estructura de σ-álgebra. Caso bidimensional: Para presentar el concepto de vector aleatorio vamos a comenzar con el caso k = 2 que corresponde a las situaciones que involucran dos magnitudes numéricas y que se establecerá como una regla que asigna a cada resultado experimental un par de valores reales. Formalmente: Dado un espacio de probabilidad (Ω, A, P ) asociado a un experimento aleatorio, un vector aleatorio (bidimensional) o variable aleatoria bidimensional asociado(a) a dicho experimento es una aplicación (X, Y ) : Ω → R2 tal que cualquiera que sea el conjunto de Borel B ∈ BR2 se satisfaga que el conjunto imagen inversa (anti-imagen o contra-imagen) de B por (X, Y ) sea medible en el espacio de partida, es decir: (X, Y )−1 (B) = ((X, Y ) ∈ B) = {ω ∈ Ω | (X(ω), Y (ω)) ∈ B} ∈ A. Por la definición alternativa de BR2 y las propiedades de la imagen inversa de un con- junto por una aplicación (que es invariante por la unión, intersección, complementación, y elementos neutros), un vector aleatorio (bidimensional) puede definirse alternativa- mente como una aplicación (X, Y ) : Ω → R2 tal que, cualesquiera que sean los valores c, d ∈ R, se satisfaga que el conjunto {ω ∈ Ω | X(ω) ≤ c, Y (ω) ≤ d} es un suceso de interés, es decir: {ω ∈ Ω | X(ω) ≤ c, Y (ω) ≤ d} ∈ A. Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 3 Observación: Puede comprobarse que el cumplimiento de la condición de medibilidad del caso bidimensional es equivalente al cumplimiento de la medibilidad de cada una de las funciones componentes del vector. Es decir, que la aplicación (X, Y ) : Ω → R2 es un vector aleatorio si, y sólo si, X : Ω → R e Y : Ω → R son variables aleatorias unidimensionales. Es oportuno reseñar también en este punto que la afirmación última se refiere al caso de dos variables asociadas a un mismo espacio de probabilidad de partida, pero si los espacios de probabilidad de las variables componentes fueran distintos, bastarı́a con considerar el llamado ‘espacio de probabilidad producto’ y definir sobre el mismo el vector aleatorio para que la afirmación siguiera siendo válida. El cumplimiento de la medibilidad Borel garantiza que si B ∈ BR2 , entonces {ω ∈ Ω | (X(ω), Y (ω)) ∈ B} ∈ A. En consecuencia, tiene sentido definir la probabilidad inducida por el vector aleatorio (X, Y ) como sigue: Si (Ω, A, P ) es un espacio de probabilidad y (X, Y ) es un vector aleatorio asociado a él, se define la probabilidad inducida por el vector aleatorio (X, Y ), como la aplicación P(X,Y ) (a veces denotada como P ∗ ) que a cada conjunto B ∈ BR2 le asigna el valor ¡ ¢ P(X,Y ) (B) = P (X, Y ) ∈ B. Puede comprobarse fácilmente, teniendo en cuenta que P es una probabilidad y las propiedades de la imagen inversa de un conjunto por una aplicación, que cualquiera que sea el vector aleatorio (X, Y ) la correspondiente probabilidad inducida cumple los tres axiomas de probabilidad. De este modo, con la introducción de la probabilidad inducida reducimos el estudio de la probabilidad inicial P , definida para ciertos subconjuntos de Ω, al de la probabili- dad P(X,Y ) definida para conjuntos de Borel de R2. Es decir, hemos conseguido unificar para todos los posibles experimentos la naturaleza de los sucesos de interés con los que finalmente vamos a trabajar, que van a poder expresarse en términos de subconjun- tos de R2 , y que el espacio de probabilidad en el que centremos nuestra atención sea (R2 , BR2 , P(X,Y ) ). Esta unificación es consecuencia de haber impuesto la condición de medibilidad Borel. Por otro lado, al unirse la condición de medibilidad a la consideración sobre R2 de BR2 , al ser cualquier conjunto B ∈ BR2 expresable en función de de rectángulos de la forma (−∞, c] × (−∞, d] (a través de la complementación y de la unión/intersección numerables), el estudio de la probabilidad inducida puede reducirse a su vez al de la probabilidad inducida para este tipo especial de intervalos que, como sólo dependen del valor vectorial (c, d) puede caracterizarse por la función real de variable vectorial siguiente: Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 4 Si (Ω, A, P ) es un espacio de probabilidad y (X, Y ) es un vector aleatorio (bidimen- sional) asociado al mismo, se define la función de distribución conjunta de X e Y , como la aplicación F(X,Y ) : R2 → R tal que para todo par de valores x, y ∈ R: ¡ ¢ F(X,Y ) (x, y) = P(X,Y ) (−∞, x] × (−∞, y] ¡ ¢ ¡ = P (X ≤ x) ∩ (Y ≤ y) = P {ω ∈ Ω | X(ω) ≤ x, Y (ω) ≤ y}. Las propiedades de la probabilidad y la estructura concreta de BR2 garantizan que si se conoce F(X,Y ) es posible (con menor o mayor dificultad, pero siempre posible) ¡ ¢ determinar de forma única las probabilidades P (X, Y ) ∈ B para cualquier B ∈ BR2. Por ello, se dice que la función de distribución conjunta de X e Y caracteriza la distribución del vector aleatorio (X, Y ). En lo que sigue, y mientras no sea imprescindible especificar el vector aleatorio al que se refiere, denotaremos la función de distribución conjunta de X e Y por F , en lugar de por F(X,Y ). Sobre la base de las propiedades de la probabilidad (las vistas en el Tema 4 de la asignatura Estadı́stica Descriptiva y Probabilidad de Primer Curso y las incluidas en los estudios complementarios de ese tema), puede verificarse que la función de distribución conjunta de dos variables aleatorias cualesquiera satisface las cuatro propiedades si- guientes: Propiedad 1. lim F (x, y) = P(X,Y ) (R2 ) = P (Ω) = 1. x,y→∞ Propiedad 2. lim F (x, y) = lim F (x, y) = P(X,Y ) (∅) = 0. x→−∞ y→−∞ Propiedad 3. F es no decreciente en cada variable, es decir: cualesquiera que sean x1 , x2 , y ∈ R, con x1 < x2 ⇒ F (x1 , y) ≤ F (x2 , y); cualesquiera que sean x, y1 , y2 ∈ R, con y1 < y2 ⇒ F (x, y1 ) ≤ F (x, y2 ). Propiedad 4. F es continua por la derecha en cada variable en todos los puntos de R, es decir, cualesquiera que sean x0 , y0 , x, y ∈ R se cumple que lim F (x, y) = lim F (x, y) = F (x0 , y)); x→x+ x→x0 , x>x0 0 lim F (x, y) = lim F (x, y) = F (x, y0 )); y→y0+ y→y0 , y>y0 Estas cuatro propiedades constituyen una extensión de las que caracterizaban la función de distribución de una variable aleatoria unidimensional. Sin embargo, en el caso bidimensional es imprescindible añadir una quinta propiedad para caracterizar la función de distribución conjunta de dos variables aleatorias. Esta propiedad es la siguiente: Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 5 Figura 1: Ejemplo de función de distribución conjunta de dos variables aleatorias Propiedad 5. Cualesquiera que sean x1 , x2 , y1 , y2 ∈ R con x1 < x2 e y1 < y2 , se cumple que F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) ≥ 0, ya que, en efecto, el primer miembro de esa desigualdad corresponde a la proba- ¡ ¢ bilidad P X ∈ (x1 , x2 ] ∩ Y ∈ (y1 , y2 ]. Puede verificarse que cualquier función real de dos variables reales que satisfaga las Propiedades 1-5 caracteriza la función de distribución conjunta de dos variables aleato- rias, es decir, que puede definirse un vector aleatorio bidimensional tal que la función de distribución conjunta de sus componentes coincida con la dada. La Figura 1 es un ejemplo de función de distribución conjunta de dos variables aleatorias y corresponde a la función F (x, y) = (1 − e−x )(1 − e−y ) en el primer cuadrante y que se anula en el resto. Como contraejemplo de la necesidad de exigir la Propiedad 5 basta con considerar la función indicador del semiplano de los puntos que quedan por encima de o sobre la bisectriz del segundo cuadrante, es decir, F (x, y) = I{(x,y)∈R2 | x+y≥0} (Figura 2). Esta función cumple las Propiedades 1-4 y, no obstante, por las propiedades de las operaciones de conjunto y de las probabilidades se cumplirı́a que ¡ ¢ P (X ∈ (−1, 1]) ∩ (Y ∈ (−1, 1]) = F (1, 1) − F (−1, 1) − F (1, −1) + F (−1, −1) = 1 − 1 − 1 + 0 = −1 < 0. Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 6 Figura 2: Ejemplo de función que cumple Propiedades 1-4 pero no es función de distribución Caso k-dimensional: El concepto de vector aleatorio de dimensión k extiende de forma inmediata el bidimensional y corresponde a las situaciones que involucran k magnitudes numéricas de modo que se establece como una regla que asigna a cada resultado experimental una k-upla de valores reales. Formalmente: Dado un espacio de probabilidad (Ω, A, P ) asociado a un experimento aleatorio, un vector aleatorio (k-dimensional) o variable aleatoria k-dimensional asociado(a) a dicho experimento es una aplicación (X1 ,... , Xk ) : Ω → Rk tal que cualquiera que sea el conjunto de Borel B ∈ BRk se satisfaga que el conjunto imagen inversa (anti-imagen o contra-imagen) de B por (X1 ,... , Xk ) sea medible en el espacio de partida, es decir: (X1 ,... , Xk )−1 (B) = ((X1 ,... , Xk ) ∈ B) = {ω ∈ Ω | (X1 (ω),... , Xk (ω)) ∈ B} ∈ A. Por la definición alternativa de BRk y las propiedades de la imagen inversa de un conjunto por una aplicación un vector aleatorio puede definirse alternativamente como una aplicación (X1 ,... , Xk ) : Ω → Rk tal que, cualesquiera que sean los valores c1 ,... , ck ∈ R, se satisfaga que el conjunto {ω ∈ Ω | X1 (ω) ≤ c1 ,... , Xk (ω) ≤ ck } es un suceso de interés, es decir: {ω ∈ Ω | X1 (ω) ≤ c1 ,... , Xk (ω) ≤ ck } ∈ A. Observación: Una aplicación (X1 ,... , Xk ) : Ω → Rk es un vector aleatorio si, y sólo si, X1 : Ω → R,... , Xk : Ω → R son variables aleatorias unidimensionales. Esta conclusión es también válida en el caso en que se consideran las variables definidas sobre espacios de probabilidad diferentes, sin más que considerar el ‘espacio de probabilidad producto’ correspondiente. Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 7 La probabilidad inducida por un vector aleatorio k-dimensional se extiende en forma trivial y de la misma forma se extiende el concepto de función de distribución conjunta de las k variables aleatorias componentes. Más concretamente, si (Ω, A, P ) es un espa- cio de probabilidad y (X1 ,... , Xk ) es un vector aleatorio asociado al mismo, se define la función de distribución conjunta de las variables X1 ,... , Xk , como la apli- cación F(X1 ,...,Xk ) : Rk → R tal que para todo vector de valores (x1 ,... , xk ) ∈ Rk : ¡ ¢ F(X1 ,...,Xk ) (x1 ,... , xk ) = P (X1 ≤ x1 ) ∩... ∩ (Xk ≤ xk ) ¡ = P {ω ∈ Ω | X1 (ω) ≤ x1 ,... , Xk (ω) ≤ xk }. La función de distribución conjunta de k variables aleatorias satisface propiedades que extienden las vistas para el caso bidimensional. CLASIFICACIÓN DE LOS VECTORES ALEATORIOS Habida cuenta de que una de las aplicaciones más relevantes de los vectores aleato- rios es la formalización de los mecanismos que generan las muestras de observaciones a partir de una variable aleatoria (usualmente unidimensional) dos de las situaciones que más interesa modelar son las que corresponden a los casos en los que las variables unidimensionales componentes son o bien todas ellas discretas o todas ellas continuas, aunque en la exposición de estos dos casos no exigiremos en principio que las compo- nentes sigan la misma distribución (lo cual ocurrirá en particular cuando se adopten como modelo en el muestreo de una variable a partir de una población). Estas serán las dos clases que estudiaremos en primer lugar: Vectores aleatorios discretos: Se dice que un vector aleatorio (X, Y ) es un vector aleatorio discreto si sus dos variables unidimensionales componentes, X e Y , son discretas o, equivalentemente, si (X, Y )(Ω) es finito o infinito numerable. Si denotamos los valores que toma X por xi y los que toma Y por yj , y pij = P (X = ¡ ¢ xi , Y = yj ) = P {ω ∈ Ω | X(ω) = xi , Y (ω) = yj } , el conjunto de las probabilidades © ª p1j con pij > 0 se denomina función de probabilidad conjunta de X e Y (o función de cuantı́a conjunta de X e Y o función de masa de probabilidad conjunta de X e Y ). La función de probabilidad conjunta caracteriza la distribución del vector aleatorio, del mismo modo a como lo hace su función de distribución, de manera que es indistinto conocer una u otra. Al igual que ocurrı́a en el caso unidmensional, habitualmente la primera es más sencilla e intuitiva de determinar que la segunda. De hecho, para todo par (x, y) ∈ R2 : X X F (x, y) = pij. i | xi ≤x j | yj ≤y Gráficamente, la función de probabilidad suele representarse mediante un gráfico de barras. Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 8 Figura 3: Gráfico de barras de la función de probabilidad de un vector aleatorio discreto De forma más general, si B ⊂ BR2 , entonces: ¡ ¢ X X P (X, Y ) ∈ B = P (X = xi , Y = yj ) = pij. (xi ,yj )∈B (xi ,yj )∈B Además, X P (X = xi , Y = yj ) = 1. (xi ,yj ) Como ejemplo de un vector aleatorio discreto podemos considerar el (X, Y ) cuya función de probabilidad conjunta viene dada por: P (X = 0, Y = 1) = P (X = 1, Y = 1) = 0.25, P (X = 2, Y = 0) = 0.5, cuyo gráfico de barras está representado en la Figura 3. En efecto, se trata de una función de probabilidad ya que P (X = x, Y = y) ≥ 0 para cualquier (x, y) ∈ R2 y P (xi ,yj ) P (X = xi , Y = yj ) = P (X = 0, Y = 1) + P (X = 1, Y = 1) + P (X = 2, Y = 0) = 1. Se dice que un vector aleatorio (X1 ,... , Xk ) es un vector aleatorio discreto si sus k variables unidimensionales componentes son discretas o, equivalentemente, si (X1 ,... , Xk )(Ω) es finito o infinito numerable. Del mismo modo se extiende el concepto de función de probabilidad conjunta de k variables unidimensionales y las propiedades de la misma. Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 9 Vectores aleatorios continuos: Se dice que un vector aleatorio (X, Y ) es un vector aleatorio continuo si sus dos variables unidimensionales componentes, X e Y , son continuas y la función de distribución conjunta de X e Y , F , es absolutamente continua de forma que puede expresarse para cada par de valores x, y ∈ R como la integral (entendida en el sentido de Riemann): Z Z x y F (x, y) = f (t, u) dt du −∞ −∞ para cierta función f : R2 → R tal que f (x, y) ≥ 0 cualesquiera que sean x, y ∈ R y R∞ R∞ −∞ −∞ f (x, y) dx dy = 1. La función f recibe el nombre de función de densidad conjunta de las variables X e Y , y cualquier función real de dos variables que cumpla las dos condiciones precedentes de no negatividad y normalización será función de densidad asociada a un vector aleatorio (bidimensional). La función de densidad conjunta de X e Y caracteriza la distribución del vector aleatorio (X, Y ), de manera que es prácticamente indistinto conocer la función de dis- tribución o la de densidad. De hecho, para casi todo par (x, y) ∈ R2 y siempre que se satisfagan las condiciones del Teorema de Schwarz, se cumple que: ∂ 2 F (x, y) f (x, y) =. ∂x ∂y Por convenio, suele considerarse que en los puntos en los que F no es diferenciable parcialmente dos veces la función de densidad se anula. Una variable continua toma una infinidad no numerable de pares de valores distintos y su función de distribución, al ser absolutamente continua, es continua, de modo que para cada (x, y) ∈ R2 la probabilidad P (X = x, Y = y) = 0. De forma general, si B ∈ BR2 , entonces: Z Z P (X ∈ B) = f (t, u) dt du, B que gráficamente corresponderı́a al volúmen de la región limitada en B por la superficie que representa la gráfica de la función de densidad conjunta y el plano XOY. Como ejemplo de vector aleatorio continuo consideremos el vector (X, Y ) con función de densidad conjunta: ½ 4xy si x, y, ∈ (0, 1) f (x, y) = 0 en el resto que aparece representada en la Figura 4 Se trata, en efecto de una función de densidad conjunta ya que f (x, y) ≥ 0 para cualquier (x, y) ∈ R2 y, además: Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 10 Figura 4: Ejemplo de función de densidad de un vector aleatorio continuo Z ∞ Z ∞ Z 1 Z 1 f (x, y) dx dy = 4xy dx dy −∞ −∞ 0 0 Z 1 Z 1 ¸x=1 ¸y=1 x2 y2 1 1 =4 x dx · y dy = 4 · =4· · = 1. 0 0 2 x=0 2 y=0 2 2 Como ilustración del cálculo de una probabilidad relativa a este vector puede verse la siguiente: Z 0.4 Z ∞ Z 0.4 Z 1 P (0.2 ≤ X < 0.4, Y > 0.8) = f (x, y) dx dy = 4xy dx dy 0.2 0.8 0.2 0.8 Z 0.4 Z 1 ¸ 2 x=0.4 ¸ 2 y=1 x y 0.16 − 0.04 1 − 0.64 =4 x dx · y dy = 4 · =4· · = 0.0432. 0.2 0.8 2 x=0.2 2 y=0.8 2 2 Posteriormente, dentro de este tema, comprobaremos que tanto la verificación de que se trata de una función de densidad como el cálculo de la probabilidad realizado en el ejemplo precedente es poco complejo debido a que las dos variables unidimensionales componentes son independientes. Sin embargo, incluso con funciones de densidad con expresiones muy sencillas, la complejidad suele aumentar cuando las variables dependen (y, más concretamente, los posibles valores de cada variable dependen de los de la otra). Esta situación se ilustra en el ejemplo que examinamos a continuación. Se considera un vector aleatorio continuo (X, Y ) cuya función de densidad conjunta toma valor constante en el triángulo de vértices (−1, 0), (0, 1) y (1, 0) (Figura 5); de hecho, corresponderı́a a la que se conoce como distribución uniforme en dicho triángulo. Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 11 Figura 5: Ejemplo de función de densidad de un vector aleatorio continuo La primera dificultad surge al expresar la función de densidad conjunta, dado que en este ejemplo la variación de cada variable depende de la de la otra en el recinto en el que la función de densidad es positiva (Figura 6). Figura 6: Recinto de los pares de valores del ejemplo de la Figura 5 (variación de y en función de x) Teniendo en cuenta las ecuaciones de las rectas que determinan el lado del triángulo que une los puntos (−1, 0) y (0, 1) (y = −x + 1) y el lado del triángulo que une los puntos (1, 0) y (0, 1) (y = x + 1), la función de densidad vendrı́a dada por la expresión: ½ k si −1 ≤ x ≤ 0, 0 ≤ y ≤ x + 1 ó 0 ≤ x ≤ 1, 0 ≤ y ≤ −x + 1 f (x, y) = 0 en el resto donde k es una constante no negativa (para garantizar que f (x, y) ≥ 0 para cualquier (x, y) ∈ R2 ) y además debe satisfacer que Z ∞Z ∞ Z 0 µZ x+1 ¶ Z 1 µZ −x+1 ¶ 1= f (x, y) dx dy = k dy dx + k dy dx −∞ −∞ −1 0 0 0 Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 12 Z 0 ¸y=x+1 Z 1 ¸y=−x+1 Z 0 Z 1 = ky dx + ky dx = k(x + 1) dx + k(−x + 1) dx −1 y=0 0 y=0 −1 0 µ ¶¸x=0 µ 2 ¶¸x=1 x2 x =k +x + k − +x = k, 2 x=−1 2 x=0 de modo que k = 1. Figura 7: Recinto de los pares de valores del ejemplo de la Figura 5 (variación de x en función de y) Alternativamente, si se fija primero la variación de y el recinto se podrı́a expresar de manera más sencilla, de modo que la función de densidad vendrı́a dada por: ½ k si 0 ≤ y ≤ 1, y − 1 ≤ x ≤ −y + 1 f (x, y) = 0 en el resto donde k es una constante no negativa y además debe satisfacer que Z ∞Z ∞ Z 1 µZ −y+1 ¶ 1= f (x, y) dx dy = k dx dy −∞ −∞ 0 y−1 Z 1 ¸x=−y+1 Z 1 µ ¶¸y=1 y2 = kx dy = 2k(1 − y) dy = 2k y − = k, 0 x=y−1 0 2 y=0 de modo que k = 1. Como ilustración del cálculo de una probabilidad relativa a este vector puede verse la de P (0.2 ≤ X < 0.4, Y > 0.5) que, a la vista de la intersección del recinto en el que (X, Y ) toma valores (es decir, f (x, y) > 0) con el conjunto B = [0.2, 0.4) × (0.5, +∞) (ver Figura 8), viene dada por: Z 0.4 Z ∞ Z 0.4 µZ −x+1 ¶ P (0.2 ≤ X < 0.4, Y > 0.5) = P (B) = f (x, y) dx dy = dy dx 0.2 0.5 0.2 0.5 Z 0.4 iy=−x+1 Z 0.4 = y dx = (−x + 0.5) dx 0.2 y=0.5 0.2 ¸x=0.4 −x2 + x 0.4 − 0.16 − 0.2 + 0.04 = = = 0.04. 2 x=0.2 2 Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 13 Figura 8: El recinto cuadriculado es la intersección de [0.2, 0.4) × (0.5, +∞) con el de valores de (X, Y ) Se dice que un vector aleatorio (X1 ,... , Xk ) es un vector aleatorio continuo si sus k variables unidimensionales componentes son continuas y su función de distribución puede expresarse en términos de una integral múltiple en forma similar a lo visto para el caso bidimensional. Además de este tipo de vectores aleatorios bidimensionales, existen otras de tipo mixto a las que no nos referiremos en esta sección sino más tarde dentro del tema y que aparecen con cierta asiduidad en problemas relativos a la determinación de dis- tribuciones a posteriori en problema de Inferencia o Decisión Bayesiana. DISTRIBUCIONES MARGINALES Y CONDICIONADAS A partir de la distribución conjunta de dos o más variables aleatorias unidimen- sionales (caracterizada por su función de distribución, de probabilidad o de densidad conjunta), pueden determinarse de forma simple las distribuciones ‘separadas’ de cada variable unidimensional o de subconjuntos propios de variables componentes, dando lugar a las distribuciones marginales. Distribuciones marginales: Si un vector aleatorio (X, Y ) es tal que F (x, y) denota la función de distribución conjunta de X e Y asociada a un experimento aleatorio, la función de distribución marginal de X viene dada para cualquier x ∈ R por: F1 (x) = lim F (x, y), y→∞ y la función de distribución marginal de Y viene dada para cualquier y ∈ R por: F2 (y) = lim F (x, y), x→∞ de manera que las funciones de distribución marginales F1 y F2 consisten sencillamente en las funciones de distribución individualizadas para cada variable unidimensional Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 14 componente, y el calificativo ‘marginal’ hace referencia al hecho de que se obtiene a partir de la conjunta de ambas variables. En particular: En el caso en el que (X, Y ) sea un vector aleatorio discreto, se define la función de probabilidad marginal de X por: X P (X = xi ) = P (X = xi , Y = yj ) para todo valor xi de X, yj y la función de probabilidad marginal de Y por: X P (Y = yj ) = P (X = xi , Y = yj ) para todo valor yj de Y. xi En el caso en el que (X, Y ) es una vector aleatorio continuo, se define la función de densidad marginal de X por: Z ∞ f1 (x) = f (x, y) dy para todo valor x ∈ R, −∞ y la función de densidad marginal de Y por: Z ∞ f2 (y) = f (x, y) dx para todo valor y ∈ R. −∞ De forma más general, si (X1 ,... , Xk ) es un vector aleatorio tal que F (x1 ,... , xk ) denota la función de distribución conjunta de sus variables unidimensionales compo- nentes, la función de distribución marginal de Xi viene dada para cualquier xi ∈ R por: Fi (xi ) = lim F (x1 ,... , xk ), xj →∞, j6=i y la función de distribución marginal del vector r-dimensional (r < k), (Xi1 ,... , Xir ) viene dada para cualquier (xi1 ,... , xir ) ∈ Rr por: Fi1 ,...,ir (xi1 ,... , xir ) = lim F (x1 ,... , xk ). xj →∞, j ∈{i / 1 ,...,ir } En particular: Si (X1 ,... , Xk ) es un vector aleatorio discreto, se define la función de proba- bilidad marginal de Xi por: X P (X = xi ) = P (X1 = x1 ,... , Xk = xk ), xj , j6=i y la función de probabilidad marginal del vector r-dimensional (r < k), (Xi1 ,... , Xir ) viene dada por: X P (Xi1 = xi1 ,... , Xi1 = xi1 ) = P (X = x1 ,... , Xk = xk ). xj , j ∈{i / 1 ,...,ir } Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 15 Si (X1 ,... , Xk ) es un vector aleatorio continuo, se define la función de densi- dad marginal de Xi por: Z fi (xi ) = f (x1 ,... , xk ) dx1... dxi−1 dxi+1... dxk , Rk−1 y la función de densidad marginal del vector r-dimensional (r < k), (Xi1 ,... , Xir ) por: Z fi1 ,...,ir (xi1 ,... , xir ) = f (x1 ,... , xk ) dxi01... dxi0k−r Rk−r con {i01 ,... , i0k−r } = {1,... , k} \ {i1 ,... , ir }. Distribuciones condicionales o condicionadas: A partir de la distribución conjunta de dos variables aleatorias X e Y podrı́an determinarse también de forma simple las distribuciones de cada variable cuando se conoce el valor de la otra sobre la base del concepto de probabilidad condicionada de un suceso por otro, dando lugar a las distribuciones condicionales o condicionadas. Si (X, Y ) es un vector aleatorio discreto, se define la función de probabilidad condicionada de X por el valor yj de Y (supuesto P (Y = yj ) > 0) como aquella que a cada posible valor xi de X asocia la probabilidad: P (X = xi , Y = yj ) P (xi |yj ) = P (X = xi |Y = yj ) =. P (Y = yj ) En efecto, se trata de una función de probabilidad unidimensional, ya que P (xi |yj ) ≥ 0 P y i P (xi |yj ) = 1. Análogamente, se define la función de probabilidad condicionada de Y por el valor xi de X (supuesto P (X = xi ) > 0) como aquella que a cada posible valor yj de Y asocia la probabilidad: P (X = xi , Y = yj ) P (yj |xi ) = P (Y = yj |X = xi ) =. P (X = xi ) En efecto, se trata de una función de probabilidad unidimensional, ya que P (yj |xi ) ≥ 0 P y j P (yj |xi ) = 1. Recurriendo al razonamiento considerado para la demostración del Teorema de Bayes, se concluye que en el caso bidimensional discreto cada distribución condicionada puede hallarse a partir de la otra como sigue: P (xi |yj ) · P (Y = yj ) P (yj |xi ) · P (X = xi ) P (yj |xi ) = X , P (xi |yj ) = X. P (xi |yj 0 ) · P (Y = yj 0 ) P (yj |xi0 ) · P (X = xi0 ) j0 i0 Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 16 Si (X, Y ) es un vector aleatorio continuo, la definición de la distribución condi- cionada de X por un valor de Y no puede basarse ‘directamente’ en la de probabilidad condicionada de un suceso por otro, ya que cualquiera que sea y ∈ R se tiene que P (Y = y) = 0. Sin embargo, si y es uno de los valores de Y en el sentido de que f2 (y) > 0, sı́ puede establecerse la definición de distribución condicionada basándose en el ‘paso al lı́mite’ de la probabilidad condicionada de ciertos sucesos. Más concreta- mente, se define la función de densidad condicionada de X por el valor y de Y (supuesto f2 (y) > 0) como aquella que a cada x ∈ R asocia el valor: f (x, y) f (x|y) =. f2 (y) En efecto, se trata de una función de densidad unidimensional, ya que f (x|y) ≥ 0 y R∞ además −∞ f (x|y) dx = 1. Por otro lado, esta densidad serı́a la que corresponderı́a a la función de distribución definida a través del paso al lı́mite siguiente: ¡ ¢ F (x|y) = lim+ P X ≤ x|Y ∈ (y − h, y] , h→0 Rx supuesto que en el punto y son continuas las funciones f2 (·) y −∞ f (t, ·) dt, ya que: Z x · Z y ¸ Z x 1 Gt (y) − Gt (y − h) f (t, u) du dt dt −∞ h y−h −∞ h F (x|y) = lim+ Z = lim+ h→0 1 y h→0 F2 (y) − F2 (y − h) f2 (u) du h y−h h Ry con Gt (y) = −∞ f (t, u) du, de manera que Z x µ ¶ Z x d Gt (u) dt f (t, y) dt Z x Z x −∞ du u=y −∞ f (t, y) F (x|y) = µ ¶ = = dt = f (t|y) dt. d f2 (y) −∞ f2 (y) −∞ F2 (u) du u=y Análogamente, se define la la función de densidad condicionada de Y por el valor x de X (supuesto f1 (x) > 0) como aquella que a cada y ∈ R asocia el valor: f (x, y) f (y|x) =. f1 (x) En efecto, se trata de una función de densidad unidimensional, ya que f (y|x) ≥ 0 y R∞ además −∞ f (y|x) dx = 1. Recurriendo al razonamiento considerado para la demostración del Teorema de Bayes, se concluye que en el caso bidimensional continuo cada densidad condicionada puede hallarse a partir de la otra como sigue: f (x|y) · f2 (y) f (y|x) · f1 (x) f (y|x) = Z ∞ , f (x|y) = Z ∞. f (x|u) · f2 (u) du f (y|t) · f1 (t) dt −∞ −∞ Las definiciones del caso bidimensional pueden extenderse al caso k-dimensional en forma evidente, pudiéndose de hecho definir la distribución de una o varias variables a algunas o todas las demás. Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 17 Como ejemplo de determinación de distribuciones marginales y condicionadas, se considera el vector aleatorio continuo (X, Y ) cuya función de densidad conjunta toma valor igual a 1 en el triángulo de vértices (−1, 0), (0, 1) y (1, 0), que examinamos ante- riormente, es decir: ½ 1 si −1 ≤ x ≤ 0, 0 ≤ y ≤ x + 1 ó 0 ≤ x ≤ 1, 0 ≤ y ≤ −x + 1 f (x, y) = 0 en el resto o alternativamente ½ 1 si 0 ≤ y ≤ 1, y − 1 ≤ x ≤ −y + 1 f (x, y) = 0 en el resto La función de densidad marginal de X vendrı́a dada por:  Z x+1     dy = x + 1 si −1 ≤ x ≤ 0     0   Z −x+1 f1 (x) =   dy = −x + 1 si 0 < x ≤ 1   0       0 en el resto La función de densidad marginal de Y vendrı́a dada por:  Z −y+1     dx = 2 − 2y si 0 ≤ y ≤ 1 y−1 f2 (y) =     0 en el resto La función de densidad de X condicionada por cualquier y ∈ [0, 1] será:   1   2 − 2y si y − 1 ≤ x ≤ −y + 1 f (x|y) =    0 en el resto La función de densidad de Y condicionada por cualquier x ∈ [−1, 0] será:   1   si 0 ≤ y ≤ x + 1 x+1 f (y|x) =    0 en el resto y por cualquier x ∈ (0, 1] será:   1   si 0 ≤ y ≤ −x + 1 −x + 1 f (y|x) =    0 en el resto Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 18 Entenderemos que un vector aleatorio (X, Y ) es de tipo mixto o compuesto si una de sus variables componentes es discreta y la otra continua, y aparecen con cierta asiduidad en problemas relativos a la determinación de distribuciones a posteriori en problema de Inferencia o Decisión Bayesiana. La situación más usual en estos casos es que se conozca la distribución de una de las variables condicionada por cada valor de la otra y la marginal de esta última. Ası́, por ejemplo, si se sabe que X dado el valor y de Y tiene una distribución (condicionada) discreta con función de probabilidad P (X = xi |y) y que Y sigue distribución continua con función de densidad f2 (y), en- tonces la distribución de Y dado cada posible valor xi de X viene caracterizada (según la extensión del Teorema de Bayes) por la función de densidad: P (X = xi |y) · f2 (y) f (y|xi ) = Z ∞ , P (X = xi |u) · f2 (u) du −∞ siendo la función de probabilidad marginal de X: Z ∞ P (X = xi ) = P (X = xi |u) · f2 (u) du. −∞ En forma análoga, si se sabe que X dado el valor yj de Y tiene una distribución (condicionada) continua con función de densidad f (x|Y = yj ) y que Y sigue distribución discreta con función de probabilidad P (Y = yj ), entonces la distribución de Y dado cada posible valor x de X viene dada (según la extensión del Teorema de Bayes) la función de probabilidad: f (x|Y = yj ) · P (Y = yj ) P (Y = yj |x) = X , f (x|Y = yj 0 ) · P (Y = yj 0 ) j0 siendo la función de densidad marginal de X: X f1 (x) = f (x|Y = yj 0 ) · P (Y = yj 0 ). j0 Como ejemplo de este caso mixto, supongamos que la distribución de X condi- cionada por el valor de la proporción p es Bernoulli de parámetro p (es decir, X|p à B(1, p)) y la distribución marginal de p es uniforme en (0, 1)) (es decir, p à U[0, 1]). Si se quiere determinar la distribución de p condicionada por x = 0 ó 1, se tiene que viene dada por la función de densidad:  1−p   R1 = 2(1 − p) si p ∈ (0, 1) f (p) · P (X = 0|p)  (1 − u) du f (p|X = 0) = Z 1 = 0   f (u) · P (X = 0|u) du  0 0 en el resto Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 19  p   R1 = 2p si p ∈ (0, 1) f (p) · P (X = 1|p)  u du 0 f (p|X = 1) = Z 1 =  f (u) · P (X = 1|u) du  0 en el resto 0 VARIABLES ALEATORIAS INDEPENDIENTES A menudo el conocimiento del valor de una variable aleatoria modifica la distribución de otra u otras, pero en ocasiones no tiene lugar esa modificación. En tales casos se dice que las dos variables aleatorias son independientes. Sobre la base de la definición de independencia de sucesos, puede establecerse la siguiente definición de independencia de dos variables aleatorias: Si dos variables aleatorias están asociadas a un espacio de probabilidad (Ω, A, P ), se dice que son dos variables aleatorias independientes si cualesquiera que sean los sucesos A, B ∈ BR se cumple que los sucesos X −1 (A) e Y −1 (B) son independientes, ¡ ¢ ¡ ¢ ¡ ¢ es decir, P X −1 (A) ∩ Y −1 (B) = P X −1 (A) · P Y −1 (B). Teniendo en cuenta las propiedades de la independencia de sucesos, la anti-imagen de sucesos por una función y las probabilidades, se concluye que la definición anterior es equivalente a la siguiente: Si dos variables aleatorias están asociadas a un espacio de probabilidad (Ω, A; P ), se dice que son dos variables aleatorias independientes si cualesquiera que sean x, y ∈ R se cumple que F (x, y) = F1 (x) · F2 (y). En el caso en el que (X, Y ) sea un vector aleatorio bidimensional discreto, se cumple que X e Y son variables aleatorias discretas independientes si: P (X = xi , Y = yj ) = P (X = xi ) · P (Y = yj ) para todo valor xi de X e yj de Y , es decir, si y sólo si P (X = xi |Y = yj ) = P (X = xi ) y P (Y = yj |X = xi ) = P (Y = yj ) para todo valor xi de X e yj de Y. En el caso en el que (X, Y ) sea un vector aleatorio bidimensional continuo, se cumple que X e Y son variables aleatorias continuas independientes si: f (x, y) = f1 (x) · f2 (y) para todo x, y ∈ R, es decir, si y sólo si f (x|y) = f1 (x) y f (y|x) = f2 (y) para todo x, y ∈ R tales que f1 (x) > 0 y f2 (y) > 0. En el ejemplo visto anteriormente del vector aleatorio continuo (X, Y ) con función de densidad conjunta: ½ 4xy si x, y, ∈ (0, 1) f (x, y) = 0 en el resto Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 20 la variable X llevarı́a asociada la función de densidad marginal  R 1 Z ∞   0 4xy dy si x ∈ (0, 1) ½ 2x si x ∈ (0, 1) f1 (x) = f (x, y) dy = = −∞   0 0 en el resto en el resto y la variable Y llevarı́a asociada la función de densidad marginal  R 1 Z ∞   0 4xy dx si y ∈ (0, 1) ½ 2y si y ∈ (0, 1) f2 (y) = f (x, y) dx = = −∞   0 0 en el resto en el resto de manera que f (x, y) = f1 (x) · f2 (y) para todo x, y ∈ R, y en consecuencia X e Y son variables aleatorias independientes. En general, si k variables aleatorias X1 ,... , Xk están asociadas a un espacio de probabilidad (Ω, A, P ), se dice que son variables aleatorias independientes si cualesquiera que sean x1 ,... , xk ∈ R se cumple que F (x1 ,... , xk ) = F1 (x1 ) ·... · Fk (xk ). En el caso en el que (X1 ,... , Xk ) sea un vector aleatorio discreto, se cumple que X1 ,... , Xk son variables aleatorias discretas independientes si: P (X1 = x1 ,... , Xk = xk ) = P (X1 = x1 ) ·... P (Xk = xk ) para todo valor (x1 ,... , xk ) del vector. En el caso en el que (X1 ,... , Xk ) sea un vector aleatorio continuo, se cumple que X1 ,... , Xk son variables aleatorias continuas independientes si: f (x1 ,... , xk ) = f1 (x1 ) ·... · fk (xk ) para todo valor (x1 ,... , xk ) ∈ Rk. TRANSFORMACIONES DE VECTORES ALEATORIOS Cuando se considera un vector aleatorio (X1 ,... , Xk ) asociado a un espacio de probabilidad (Ω, A, P ) y una función real o vectorial de variable vectorial g que sea medible (es decir, g : Rk → Rl tal que para cualquier B ∈ BRl se cumple que g −1 (B) = {(x1 ,... , xk ) ∈ Rk | g(x1 ,... , xk ) ∈ B} ∈ BRk ), (Y1 ,... , Yl ) = g(X1 ,... , Xk ) es también un vector aleatorio asociado a (Ω, A, P ), de manera que (Y1 ,...,Yl )=g(X1 ,...,Xk )=g◦(X1 ,...,Xk ) −−−−−−−−−−−−−−−−−−−−−−−−−−→ (X1 ,...,Xk ) g (Ω, A, P ) −→ (Rk , BRk , P(X1 ,...,Xk ) ) −→ (Rl , BRl , Pg(X1 ,...,Xk ) ). Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 21 Si la función de distribución conjunta F de X1 ,... , Xk es conocida, puede hallarse la función de distribución conjunta H de Y1 ,... , Yl , (Y1 ,... , Yl ) = g(X1 ,... , Xk ) = ¡ ¢ g1 (X1 ,... , Xk ),... , gl (X1 ,... , Xk ) de forma general como sigue: H(y1 ,... , yl ) = P (Y1 ≤ y1 ,... , Yl ≤ yl ) ¡ ¢ = P {ω ∈ Ω | g1 (X1 (ω),... , Xk (ω)) ≤ y1 ,... , gl (X1 (ω),... , Xk (ω)) ≤ yl }  X   P (X1 = x1 ,... , Xk = xk )     (x1 ,...,xk ): g1 (x1 ,...,xk )≤y1 ,...,gl (x1 ,...,xk )≤yl         si (X1 ,... , Xk ) es discreto = Z       f (x1 ,... , xk ) dx1... dxk   {(x ,...,x ) | g (x ,...,x )≤y ,...,g (x ,...,x )≤y }   1 k 1 1 k 1 l 1 k l     si (X1 ,... , Xk ) es continuo con función de densidad conjunta f (x1 ,... , xk ) Si se conoce la función de probabilidad o de densidad de X puede determinarse a menudo la función de probabilidad o densidad de Y de forma sencilla, sin pasar por la determinación de la función de distribución de Y. Más concretamente: Función de probabilidad de una transformada discreta. Si (X1 ,... , Xk ) es un vector aleatorio discreto, la función de probabilidad conjunta ¡ ¢ de Y1 ,... , Yl con (Y1 ,... , Yl ) = g1 (X1 ,... , Xk ),... , gl (X1 ,... , Xk ) será P (Y1 = y1 ,... , Yl = yl ) ¡ ¢ = P {ω ∈ Ω | g1 (X1 (ω),... , Xk (ω)) = y1 ,... , gl (X1 (ω),... , Xk (ω)) = yl } X = P (X1 = x1 ,... , Xk = xk ). (x1 ,...,xk ): g1 (x1 ,...,xk )=y1 ,...,gl (x1 ,...,xk )=yl Si (X1 ,... , Xk ) es un vector aleatorio continuo con densidad f (x1 ,... , xk ), y ¡ ¢ se cumple que (Y1 ,... , Yl ) = g1 (X1 ,... , Xk ),... , gl (X1 ,... , Xk ) es un vector aleatorio discreto, la función de probabilidad conjunta de Y1 ,... , Yl será P (Y1 = y1 ,... , Yl = yl ) ¡ ¢ = P {ω ∈ Ω | g1 (X1 (ω),... , Xk (ω)) = y1 ,... , gl (X1 (ω),... , Xk (ω)) = yl } Z = f (x1 ,... , xk ) dx1... dxk. {(x1 ,...,xk ) | g1 (x1 ,...,xk )=y1 ,...,gl (x1 ,...,xk )=yl } Función de densidad de una transformada continua. Por último, y aplicando resultados de cambios de variable en integrales múltiples, se concluye que: Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 22 Si (X1 ,... , Xk ) es un vector aleatorio continuo con densidad f (x1 ,... , xk ), y se ¡ ¢ cumple que (Y1 ,... , Yk ) = g1 (X1 ,... , Xk ),... , gk (X1 ,... , Xk ) donde gj : Rk → Rk (j = 1,... , k) son funciones medibles Borel que admiten inversas únicas con parciales continuas y el jacobiano de la transformación inversa ¯ ¯ ¯ ∂g −1 ∂g −1 ¯ ¯ 1... 1 ¯ ¯ ∂y ∂yk ¯¯ ¯ 1 ¯.. ¯ 6= 0 |J| = ¯....... ¯¯ ¯ ¯ ∂gk−1 ∂gk−1 ¯¯ ¯... ¯ ∂y1 ∂yk ¯ entonces la función de densidad conjunta de Y1 ,... , Yk será ¡ ¢ h(y1 ,... , yk ) = f g1−1 (y1 ,... , yk ),... , gk−1 (y1 ,... , yk ) · |J|. Es interesante señalar en relación con los Momentos de vectores aleatorios que la esperanza matemática de una función g(X1 ,... , Xk ) con g : Rk → R puede obtenerse en modo análogo al caso unidimensional en función de la distribución del vector (X1 ,... , Xk ) como sigue: ¡ ¢ E g(X1 ,... , Xk )  X   g(x1 ,... , xk ) · P (X1 = x1 ,... , Xk = xk )     (x1 ,...,xk )         si (X1 ,... , Xk ) es discreto =   Z     g(x1 ,... , xk ) · f (x1 ,... , xk ) dx1... dxk   Rk       si (X1 ,... , Xk ) es continuo con función de densidad conjunta f (x1 ,... , xk ) Resultados relevantes para la suma/media de variables independientes Es muy importante reseñar que la media y la varianza de la suma de variables independientes equivalen a la suma de las medias y varianzas, respectivamente, de las variables que intervienen en la suma. De este modo: Si X1 ,... , Xk son variables aleatorias asociadas a un espacio de probabilidad, se cumple que: E(X1 +... + Xk ) = E(X1 ) +... + E(Xk ). El resultado precedente no obliga a que las variables involucradas sean independientes, pero en el el caso en que X1 ,... , Xk sean independientes, se cumple además que: Var(X1 +... + Xk ) = Var(X1 ) +... + Var(Xk ). Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 23 Esta última propiedad va a ser especialmente útil en Inferencia Estadı́stica cuando se trabaja con sumas o medias de muestras de observaciones independientes. De hecho, en muchos de los resultados inferenciales se recurre a la misma. También en relación con la suma de variables aleatorias independientes y especial- mente si están igualmente distribuidas cobra especial interés la función generatriz de momentos de una variable aleatoria. Como se recordará, si X es una variable aleatoria, se define su función generatriz (o función generatriz de momentos) de X como la función (si existe en un entorno del punto 0) dada por: ¡ ¢ gX (t) = E etX. La función generatriz no siempre está definida aunque sı́ lo está para la mayorı́a de las distribuciones y modelos de distribuciones más relevantes. Además, si dos variables aleatorias llevan asociada la misma función generatriz, puede probarse que necesaria- mente sus distribuciones coinciden. El término ‘generatriz de momentos’ se debe a que siempre que existan las esperanzas involucradas, se cumple que: 0 00 k) gX (0) = 1, gX (0) = E(X), gX (0) = E(X 2 ),... , gX (0) = E(X k ),... y E(X k ) recibe el nombre de momento de orden k de X (respecto al origen). La función generatriz cumple además que, ga·X+b (t) = etb · gX (at), resultado que es muy útil para algunas conclusiones relativas a transformaciones lineales de ciertas distribuciones. Una propiedad relevante de la función generatriz es la relativa a la suma de variables independientes, según la cual coincide con el producto de las funciones generatrices de los sumandos. Es decir, si X e Y son variables aleatorias independientes se cumple que las variables eX y eY son independientes, de donde: gX+Y (t) = gX (t) · gY (t). El resultado recı́proco no es válido en general, de manera que puede la función generatriz de la suma coincidir con el producto de las funciones generatrices de los sumandos y no ser éstas independientes. Las funciones generatrices de las distribuciones más notables son las siguientes: X à B(n, p) ⇒ gX (t) = (p · et + (1 − p))n , X à P(λ) ⇒ gX (t) = eλ (et − 1), p X à G(p) ⇒ gX (t) = , 1 − (1 − p) · et µ ¶n p X à N B(n, p) ⇒ gX (t) = , 1 − (1 − p) · et Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 24 etb − eta X à U[a, b] ⇒ gX (t) = , t(b − a) λ X à E(λ) ⇒ gX (t) = , 1−λ 1 X à γ(p, a) ⇒ gX (t) = , (1 − (t/a))p 2 t2 /2) X à N (µ, σ) ⇒ gX (t) = etµ+(σ. El paso de la suma al producto a través de la función generatriz cuando se trabaja con variables independientes está relacionada con un concepto con importantes im- plicaciones, especialmente en el tratamiento de variables independientes e igualmente distribuidas: la reproductividad de una clase de distribuciones. Se dice que una fa- milia de distribuciones P es reproductiva respecto del parámetro τ si, dadas dos variables independientes X1 y X2 con distribución perteneciente a P y para las que τ toma valores τ1 y τ2 , respectivamente, la suma de las mismas X1 + X2 es una variable con distribución también perteneciente a P y cuyo valor de τ es igual a τ1 + τ2. Como ejemplos de distribuciones particulares reproductivas, pueden mencionarse: La distribución binomial es reproductiva respecto del parámetro n; es decir: B(n1 , p) + B(n2 , p) = B(n1 + n2 , p). La distribución de Poisson es reproductiva respecto de su parámetro; es decir: P(λ1 ) + P(λ2 ) = P(λ1 + λ2 ). La distribución binomial negativa es reproductiva respecto del parámetro n; es decir: N B(n1 , p) + N B(n2 , p) = N B(n1 + n2 , p) ⇒ G(p) + G(p) = N B(2, p). La distribución gamma es reproductiva respecto de su parámetro p; es decir: γ(p1 , a) + γ(p2 , a) = γ(p1 + p2 , a). La distribución normal es reproductiva respecto de su parámetro ‘vectorial’ (µ, σ 2 ); es decir: ³ q ´ 2 2 N (µ1 , σ2 ) + N (µ2 , σ2 ) = N µ1 + µ2 , σ1 + σ2. Es imprescindible para aplicar la propiedad de resproductividad que se satisfaga la independencia de las variables que se suman, pues de lo contrario no es válida la aplicación de dicha propiedad. Probabilidades y Estadı́stica - 2o de Matemáticas - UNIVERSIDAD DE OVIEDO 25 Resultado relevante para el producto de funciones de variables independientes Si X1 ,... , Xk son variables aleatorias asociadas a un espacio de probabilidad e independientes, y g1 : R → R,... , gk : R → R son funciones medibles Borel, se cumple que: ³ ´ ³ ´ ³ ´ E g1 (X1 ) ·... · gk (Xk ) = E g1 (X1 ) ·... · E gk (Xk ) , ya que si, por ejemplo, (X1 ,... , Xk ) es un vector aleatorio continuo, se tiene que f (x1 ,... , , xk ) = f1 (x1 ) ·... · fk (xk ), de donde: n z }| Z { ³ ´ Z ∞ ∞ E g1 (X1 ) ·... · gk (Xk ) =... g1 (x1 ) ·... · gk (xk ) · f (x1 ,... , xk ) dx1... dxk −∞ −∞ n z Z }| Z { ∞ ∞ =... g1 (x1 ) ·... · gk (xk ) · f1 (x1 ) ·... · fk (xk ) dx1... dxk −∞ −∞ Z ∞ Z ∞ = g1 (x1 ) · f1 (x1 ) dx1 ·... · gk (xk ) · fk (xk ) dxk −∞ −∞ ³ ´ ³ ´ = E g1 (X1 ) ·... · E gk (Xk ) , probándose en forma análoga en el caso discreto y mixto. VECTOR ESPERANZA Y MATRIZ DE VARIANZAS-COVARIANZAS DE UN VECTOR ALEATORIO Si (X1 ,... , Xk ) es un vector aleatorio, se define el vector esperanza de (X1 ,... , Xk ) como el vector ¡ ¢ E(X1 ,... , Xk ) = E(X1 ),... , E(Xk ) si existen todas las esperanzas matemáticas de las variables unidmensionales compo- nentes. Y se define la matriz de varianzas y covarianzas de (X1 ,... , Xk ) como la matriz cuadrada k × k dada por:   Var(X1 )... Cov(X1 , Xk ) .......  Σ(X1 ,...,Xk ) = [Cov(Xi , Xj )]ij = ..  Cov(X1 , Xk )... Var(Xk ) donde la covarianza de Xi e Yj viene dada por ³¡ ¢ ¡ ¢´ Cov(Xi , Xj ) = E Xi − E(Xi ) · Xj − E(Xj ) = E(Xi · Xj ) − E(Xi ) · E(Xj ). Sobre la base de las propiedades de la covarianza de dos variables aleatorias (análogas a las vistas para variables estadı́sticas en Descriptiva), puede concluirse que la matriz de varianzas y covarianzas es simétrica y definida positiva (es decir, para cualquier P P τ = (τ1 ,... , τk ) ∈ Rk , se cumple que ki=1 kj=1 Cov(Xi , Xj )τi τj ≥ 0.

Use Quizgecko on...
Browser
Browser