Inferencia Estadı́stica PDF

Capı́tulo 1 Estadı́stica Descriptiva 1.1. Introducción Una caracterı́stica del ser humano que lo distingue de otros seres vivos es que tiene la capaci- dad de interpretar los fenómenos que lo rodean, aprender del mundo a partir de lo que se observa y de su experiencia a lo largo del tiempo. A partir de estas experiencias el hombre aprende a hacer deducciones útiles del mundo en que vive. Como sabemos, existe una gran variedad de fenómenos que quisieramos describir de forma matemática y exacta para poder hacer pronósticos 100 % certeros, sin embargo la misma naturaleza de ciertos fenómenos nos ha obligado a crear modelos matemáticos que permitieran la interacción con la incertidumbre y el azar con base en la teorı́a de las probabilidades. Definición 1.1.1 (Fenómenos deterministas). Un fenómeno determinista es aquel que, cuando se reproduce en las mismas condiciones, podemos predecir con certeza cuál va a ser el resultado, en otras palabras se rige bajo leyes causales. Este tipo de fenómenos no son parte de nuestro estudio. Definición 1.1.2 (Fenómenos aleatorios). Por otro lado, el fenómeno aleatorio es el que cada vez que se realiza, aun bajo condiciones casi idénticas, el resultado no se conoce con certeza, además que el resultado sólo se sabe después de realizado el experimento. El estudio de los fenómenos deterministas quedarán fuera del estudio de esto curso, por lo que nos concentraremos en desarrollar teorı́a para poder atacar los fenómenos aleatorios. Las herramientas con la que contamos para estudiar los fenómenos aleatorios son: 1. La probabilidad, la cual se suele definir de tres formas: a) Como un grado de confianza o fundada apariencia de que algo suceda. 1 Capı́tulo 1. Estadı́stica Descriptiva 2 b) La razón entre el número de casos favorables y el número de casos posibles. (Juegos de azar) c) Como una medida basada en planteamiento axiomático de Kolmogorov en 1933. (Teorı́a de la Medida) 2. La estadı́stica, la cual la podemos definir como sigue: a) Es el estudio de los datos cuantitativos de la población, además que es la rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades. La estadı́stica clásica o frecuentista se basa en la regularidad estadı́stica, es decir que, al repetir un fenómeno aleatorio un número grande de veces en condiciones constantes, las proporciones en las que ocurren los posibles resultados son muy estables. 1.2. Concepto de medición y de variable Para cuantificar o clasificar lo que percibimos de un fenómeno aleatorio necesitamos hacer mediciones u observaciones que nos ayuden a investigar una o varias caracterı́sticas de interés sobre el fenómeno en estudio. Para un correcto manejo de nuestras mediciones, las observaciones deben ser registradas tomando en cuenta su tipo, para poder saber que tipo de operaciones podemos hacer con ellas. Cada variable tiene una escala de medición, como vemos a continuación: Variables Escalas de medición     Nominales  Categóricas    Ordinales     De intervalo        Numéricas De razón          Absoluta Capı́tulo 1. Estadı́stica Descriptiva 3 Una variable es categórica cuando el registro de la medición es un elemento o una categorı́a, es muy importante que dichas categorı́as deben de cumplir con ser: mutuamente excluyentes (No hay un elemento que pertenezcan a dos o más categorı́as a la vez) y exhaustivas (Todo elemento pertenece a una categorı́a); con este tipo de variables podemos calcular, frecuencia de ocurrencia en cada categorı́a, la(s) moda(s), proporciones, porcentajes y tablas de contingencia. (Análisis de datos categóricos). La escala de medición que utilizamos en este tipo de variables son básicamente las siguientes dos: 1. Nominales: Cuando las categorı́as sólo se les da un nombre pero no tienen un orden entre ellas, ejemplos: ¿Está de acuerdo con las obras de continuación del segundo piso del Periférico? Sı́ , No. Sexo: Masculino, Femenino. 2. Ordinales: Cuando el registro de la medición se expresa en grados de intensidad que tienen un orden, pero no se puede determinar el incremento entre los grados, ejemplo: Grados de satisfacción en un servicio Muy bueno, Bueno, Regular y Malo. Nivel socio económico: Bajo, Medio, Alto Por otro lado, tenemos una variable numérica cuando el resultado de nuestra medición son valores numéricos. Con este tipo de variables podemos calcular promedios o medias, desviaciones estándar, modas, correlaciones y serán las variables que más estarémos trabajando en este curso. La escala de medición que utilizamos en este tipo de variables son básicamente las siguientes tres: 1. Escala de intervalo: hay un orden entre observaciones, y la distancia entre las mismas tiene significado. En esta escala hay un cero, pero no indica ausencia de medición. Un ejemplo tı́pico de este tipo de variable con esta escala, es la temperatura cuando se mide en grados Fahrenheit o en grados Centı́grados. Sabemos que la diferencia entre 30 C y 35 C es la misma que entre 45 C y 50 C y si se dice que un lı́quido se encuentra a 0 C, no significa que no tiene temperatura. 2. Escala de razón: el cero sı́ indica una ausencia de la variable, es decir una completa ausencia de medición. Las variables peso, altura son de este tipo. 3. Escala absoluta: se usa para variables discretas o conteos. Ejemplo: Número de hijos en una familia Capı́tulo 1. Estadı́stica Descriptiva 4 1.3. Conceptos estadı́sticos: población y muestra Parte esencial de un análisis estadı́stico es tener bien definido el alcance que tienen nues- tras inferencias, para ello surgen conceptos básicos como población y muestra que definimos a continuación: Definición 1.3.1 (Poblacion y muestra). Definamos como población a todos los elementos pre- sentan una caracterı́stica común que estamos estudiando (de interés), acerca de la cual intenta- mos sacar alguna conclusión. Y entenderémos como una muestra a un subconjunto de elementos de la población. Nuestro principal estudio en el curso será el estudio de muestras, pero surge la pregunta: ¿Por qué estudiamos muestras en vez de la población? La respuesta es simple, porque en ocasiones es poco factible o hasta imposible observar la totalidad de los individuos, es por esto que en lugar de examinar a toda la población, se estudia una pequeña parte, sin embargo esto no es tan fácil de hacer pues surgen preguntas muy interesantes respecto al proceso de muestreo, como por ejemplo el tamaño de la muestra y la forma en que la obtendremos para que sea representativa. Una muestra de tamaño n de una población en general, denotaremos como: X = {X1 , X2 ,... , Xn } Debe de observarse que dicha muestra está formada por variables aleatorias, esto ocurre ası́ porque estamos suponiendo que la muestra aun no la observamos y por lo tanto se considera variable aleatoria a los posibles valores que estaremos observando una vez realizado el experimento. Por otro lado, cuando ya hemos observado los valores de la muestra, entonces la denotaremos como sigue: x = {X1 = x1 , X2 = x2 ,... , Xn = xn } Si además suponemos que la variable que analizamos es numérica, entonces denotaremos a la muestra ordenada como: X(1) , X(2) ,... , X(n) Donde X(1) es la observación mas chica, X(2) es la segunda observación más chica, y ası́ sucesi- vamente hasta que X(n) representa la observación mayor, es decir: X(1) = min {X1 , X2 ,... , Xn } ;... ; X(n) = max {X1 , X2 ,... , Xn } Notemos entonces que X(i) con i ∈ {1,... , n} son funciones de variables aleatorias y por tanto X(i) también es un variable aleatoria a la cual le podremos calcular su distribución. Capı́tulo 1. Estadı́stica Descriptiva 5 1.4. Estadı́stica Descriptiva La estadı́stica descriptiva tiene como fin presentar resúmenes de un conjunto de datos X = {X1 , X2 , X3 ,... , Xn } y poner de manifiesto sus caracterı́sticas, mediante representaciones numéri- cas y/o gráficas. Los datos se usan para fines comparativos, y no se usan principios de proba- bilidad. El interés se centra en describir un conjunto dado de datos y no se plantea el extender las conclusiones a otros datos diferentes o a una población, es decir, solo tiene como fin dar una descripción de los datos mediante un resumen             Media                   Mediana            Moda   Medidas de tendencia central                  Percentı́les                   Decı́les            Cuartı́les                     Numéricamente        Varianza muestral                   Desviación estándar      Medidas de dispersión      Rango Estadı́stica descriptiva =            Rango intercuartil                  Coeficiente de variación                          Coeficiente de Asimétria Medidas de Forma            Coeficiente de Curtosis                  Histograma        Gráfico Box Plot  Gráficamente        Distribución acumulada   ...        Capı́tulo 1. Estadı́stica Descriptiva 6 1.4.1. Medidas de tendencia central Las medidas de tendencia central pretende resumir la tendencia o localización de los datos por medio de un sólo número. Media, el promedio de los datos : X̄ = ni=1 Xni P Mediana X̃ es el valor tal que el 50 % de los datos son menores que él y el 50 % son mayores. Aquı́ hay que distinguir entre dos casos: Si el tamaño de la muestra n es par entonces: X( n ) + X( n +1) 2 2 X̃ = 2 Por otro lado si el tamaño de la muestra es impar X̃ = X( n+1 ) 2 Moda es el valor o categorı́a más frecuente (Por lo general es util para datos categóricos y no funciona para variables continuas El cuantı́l o porcentı́l de α %, Pα % es aquel valor tal que un α % de los datos son menores a él y un (1 − α) % de ellos es mayor a él, es decir: X(1) , X(2) ,... , X(p−1) P25 % , X(p) ,... , X(q) , P50 % X(q+1) ,... X(s−1) , P75 % X(s) ,... , X(n−1) , X(n) | {z } Primer cuartil | {z } Segundo cuartil tercer cuartil| {z } 25 % 25 % 25 % | {z } 50 % | {z } 75 % 1.4.2. Medidas de dispersion Las medidas de disepersión pretenden darnos una idea de que tan variables son nuestros datos, se podrı́a decir que sirve para medir el grado de dispersión que tienen los datos que analizamos. Varianza muestral se define como: Xn 2 Xi − X̄ S2 = i=1 n−1 Desviación estándar se define como: √ S= S2 Rango se define como: R = X(n) − X(1) Capı́tulo 1. Estadı́stica Descriptiva 7 Rango intercuantilico se definie como: RIC = P75 % − P25 % Coeficiente de variación S cv = × 100 X̄ 1.4.3. Medidas de Forma Las medidas de forma pretender darnos una idea de la caracterı́sticas de la distribución de la población. Coeficiente de Asimetrı́a se define como: Pn (xi − x)3 CAF = i=1 3 nS Cuando CAF < 0 la distribución tiene una asimetrı́a negativa y decimos que los datos están sesgados a la derecha, por otro lado cuando CAF > 0 la distribución tiene una asimetrı́a positiva y decimos que los datos están sesgados a la izquierda. Finalmente cuando CAF = 0 los datos son simétricos. Coeficiente de Curtosis se define como: Pn (xi − x)4 Curtosis = i=1 4 −3 nS La curtosis (o apuntamiento) es una medida de forma que mide cuán escarpada o achatada está una curva o distribución. Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva. Cuando Curtosis > 0 la distribución tiene un apuntalamiento superior a la distribución normal y decimos que la distribución es leptocurtica mientras que cuando Curtosis < 0, la distribución es platicurtica 1.4.4. Medidas de dependencia entre dos muestras Muchas veces nos enfrentaremos al problema de analizar dos variables de forma simultánea, en cuyo caso será necesario definir métricas que nos ayuden a analizar de forma conjunta a las dos variables. Una pregunta de interés en este caso podrı́a ser identificar si existe algún tipo de Capı́tulo 1. Estadı́stica Descriptiva 8 dependencia o relación entre ambas variables, pare responder esto se define la covarianza para variables numéricas: Definición 1.4.1 (Covarianza). Supongamos que tenemos dos muestras del mismo tamaño, X1 ,... , Xn , Y1 ,... , Yn , definimos la covarianza muestral como: Pn i=1 Xi − X̄ Yi − Ȳ cov (X, Y ) = n−1 La covarianza no es mas que una medida de la variabilidad conjunta entre las dos variables para entender mejor este concepto consideremos lo siguiente: Supongamos que tenemos n observaciones que consta de una variable respuesta Y y X la variable explicativa. Se desea medir la dirección y que tan fuerte es la relación entre Y y X. Si hacemos un gráfico de dispersión entre Y contra X, después trazamos una lı́nea vertical en x̄ y una horizontal en ȳ. Las dos lı́neas dividen el gráfico en cuatro cuadrantes. Para cada punto i en el gráfico, calculamos lo siguiente: yi − ȳ, la desviación de cada observación yi con respecto a su media muestral y xi − x̄, la desviación de cada observación xi con respecto a su media muestral x El producto de estas dos cantidades, (yi − ȳ)(xi − x̄) Es claro que: Cuadrante xi − x̄ yi − ȳ (xi − x̄)(yi − ȳ) 1 + + + 2 - + - 3 - - + 4 + - - Luego entonces, si la relación entre Y y X es positiva (cuando X aumenta Y también aumenta), entonces hay mas puntos en le cuadrante 1 y 3 que en el cuadrante 2 y 4 y si la relación entre Y y X es negativa (cuando X aumenta Y disminuye), entonces hay más puntos en los cuadrantes 2 y 4 que en los cuadrantes 1 y 3. Por lo tanto Pn i=1 Xi − X̄ Yi − Ȳ cov (X, Y ) = n−1 Capı́tulo 1. Estadı́stica Descriptiva 9 Toma un numero positivo cuando hay relación positiva entre X y Y , toma un valor negativo cuando hay una relación negativa y 0 cuando no hay ningún tipo de relación. En general la covarianza entre X y Y , nos indica la dirección de la relación lineal entre Y y X. Por desgracia, Cov(Y, X) no es una medida muy informativa de que tan fuerte es la relación, puesto que es afectada por cambios en las unidades de medida. Para evitar esta desventaja de la covarianza, lo que se estila hacer es estandarizar los datos antes de cálcular la covarianza de la siguiente forma: yi − ȳ xi − x̄ , sy sx Donde: sP sP n n − i=1 (yi ȳ)2 − ȳ)2 i=1 (yi sy = , sx=. n−1 n−1 Finalmente, a la covarianza entre las variables estandarizadas la conocemos como coeficiente de correlación entre Y y X y está dada por: n Pn 1 X (xi − x̄) (yi − ȳ) Cov(X, Y ) (xi − x̄)(yi − ȳ) rXY = = = pPn i=1 Pn n − 1 i=1 sx sy sx sy i=1 (xi − x̄) 2 i=1 (yi − ȳ) 2 Algunas observaciones importantes que podemos hacer sobre la correlación son: rXY mide la correlación lineal entre dos conjuntos de datos (X1 , Y1 ) , (X2 , Y2 ) ,... , (Xn , Yn ). Se puede probar que −1 ≤ rX Y ≤ 1 (Tarea) Si rX Y ≈ 1 ó rX Y ≈ −1 entonces podrı́amos escribir yi ≈ β0 + β1 xi , para i = 1,... , n, donde β0 , β1 ∈ R. Más aún, si rX Y ≈ −1 entonces β1 < 0 , en cambio, si rX Y ≈ 1 entonces β1 > 0 Si rX Y ≈ 0, lo único que podrı́amos afirmar es que nuestras muestras no guardan ninguna asociación lineal. No podemos afirmar que las muestras sean independientes. El único caso en el que rX Y = 0 implica independencia es cuando las dos muestras sigan una distribución normal bi-variada (Tarea) 1.4.5. Estadı́stica descriptiva vı́a gráficas Sin duda, una de las herramientas mas poderosas de la estadı́stica es la generación de gráfi- cos descriptivos que nos ayuden a visualizar el comportamiento de una población o muestra, a continuación presentamos los gráficos comunmente utilizados en la práctica: Capı́tulo 1. Estadı́stica Descriptiva 10 Histograma Un histograma es una gráfica en forma de barras, donde las bases de las barras son una partición del rango muestral, R = X(n) − X(1) , es decir, X(1) = a0 < a1 <... < ak−1 < ak = X(n) y esto forma las siguientes marcas de clase: [a0 , a1 ] (a1 , a2 ] (a2 , a3 ]... (ak−2 , ak−1 ] (ak−1 , ak ] Luego, la altura de cada barra es la frecuencia o número de elementos que cae en cada marca del clase. Un histograma se usa cuando se estudia una variable continua, por ejemplo para ver las franjas de edades o alturas de una muestra. Existen varios criterios para determinar el número de √ marcas de clases o barras, una de ellas es la regla de Sturgess que establece que k = n, aunque otras personas recomiendan tomar k = log (n) + 1 Siempre será recomendable experimentar con varios valores de k dependiendo de cómo estén los datos y cuantos sean. Frecuencia acumulada o distribución empı́rica acumulada Otra de las gráficas mas importantes con las que contamos es aquella a la que denominamos distribución empı́rica, este gráfico tiene como fin aproximar a la verdadera función de distribución de donde vinieron los datos y la construcción es la siguiente: supongamos que tenemos una mues- tra X = {X1 , X2 , X3 ,... , Xn } , ahora al ordenar la muestra tenemos X(1) , X(2) , X(3) ,... , X(n). Entonces la función de distribución empı́rica acumulada o frecuencia acumulada (cuando no hay empates) se define como la proporción de los datos menores o iguales a x.    0 si x ∈ −∞, X(1)        u Fn (x) = si x ∈ X(u) , X(u+1) y u ∈ {1,... , n − 1} (1.1) n        si x ∈ X(n) , ∞  1 Los diagramas de caja Uno de los gráficos más puluares para visualizar la forma en como se distribuye una variable es utilizando el denominado diagrama de caja y brazos, esta técnica de análisis exploratorio de datos nos puede servir para ver que tan dispersos están los datos Capı́tulo 1. Estadı́stica Descriptiva 11 si hay simetrı́a entre los datos o no la detección de valores atı́picos Un diagrama de caja y brazos se elabora como sigue: 1. De la muestra ordenada X(1) , X(2) , X(3) ,... , X(n) encontramos el primer cuartil P25 % y el tercer cuartil P75 % y dibujamos la caja o rectángulo cuyos extremos son (P25 % , P75 % ) , dentro del rectangulo dibujamos con una linea la posición de la mediana, P50 % 2. El lı́mite inferior del brazo, Li será la primera observación mayor o igual al número P25 % − 1.5RIC donde RIC = (P75 % − P25 % ) 3. El lı́mite superior del brazo, Ls será la primera observación menor o igual al número P75 % + 1.5RIC 4. Consideraremos como valores atı́picos a los valores situados fuera del intervalo (Li , Ls ) Ejercicio 1.4.1. Indica qué variables son numéricas y cuales categóricas, además indica la escala de medición : Comida Favorita. Profesión que te gusta. Número de goles marcados por tu equipo favorito en la última temporada. Número de alumnos de tu Instituto. El color de los ojos de tus compañeros de clase. Coeficiente intelectual de tus compañeros de clase. Demuestre que −1 ≤ rXY ≤ 1, donde Pn i=1 (xi− x̄)(yi − ȳ) rXY = pPn Pn 2 2 i=1 (xi − x̄) i=1 (yi − ȳ) Demuestre que |rXY | = 1 si y solo si existen una relación lineal entre las variables X y Y , es decir, yi = αxi + β con α 6= 0 Capı́tulo 1. Estadı́stica Descriptiva 12 Las calificaciones de 50 alumnos en Estadı́stica han sido las siguientes: 0, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 9, 9, 10 Calcular las medidas de tendencia central y de dispersión, ademas encuentre el Percentil 0.25 y 0.75 y elabore un gráfico de caja y brazos. ¿Los distribución de estos datos es Sesgada a la Izquierda? Hint: n = 50, ni=1 xi = 274, ni=1 x2i = 1700, ni=1 x3i = 11356 P P P Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Fı́sica. 48, 47, 44, 42, 41, 39, 39, 38, 38, 38, 37, 36, 36, 35, 35, 34, 34, 34, 33, 32, 32, 31, 29, 28, 28, 27, 26, 25, 24, 23, 22, 20, 17, 15, 15, 13, 13, 11, 7, 3 Calcular las medidas de tendencia central y de dispersión, ademas encuentre el Cuartil 1 y 3 ası́ como los Deciles 1 y 9. Elabore un gráfico de caja y brazos, ası́ como el gráfico de distribución empı́rica. ¿ Los datos tiene una distribución platicurtica? Hint: n = 40, ni=1 xi = 1169, ni=1 x2i = 38929, ni=1 x3i = 1388327, ni=1 x4i = 51786709 P P P P Capı́tulo 2 Repaso de Probabilidad 2.1. Funciones de distribución 2.1.1. Introducción Supongamos que tenemos una muestra de un cierto fenómeno o experimento aleatorio {X1 , X2 , X3 ,... , Xn } Como ya hemos visto una primera aproximación que podemos hacer es un análisis descriptivo de estos datos, sin embargo hagamos un paso mas de abstracción y preguntémonos si existe algún modelo matemático–probabı́listico que describa este fenómeno aleatorio. Resulta entonces interesante revisar los modelos probabilı́sticos más importantes que exis- ten, para ello recordemos el concepto más importante de la teorı́a de probabilidad, la variable aleatorı́a. 2.1.2. Variable Aleatoria El modelo matemático que explica el comportamiento de los resultados de los experimentos aleatorios está compuesto por dos elementos: El espacio de estados o espacio muestral Ω Una función de probabilidad, que denotaremos como P que toma valores en el intervalo [0, 1], esta función asigna probabilidades a los sucesos. Los elementos que integran el espacio muestral Ω son eventos y aquı́ se nos dificulta hacer operaciones con estos elementos. Para resolver este problema se recurre a la asignación de números 13 Capı́tulo 2. Repaso de Probabilidad 14 a los elementos de Ω. Para llevar a cabo las transformaciones de sucesos en números reales se introduce el concepto de variable aleatoria. Definición 2.1.1 (Variable Aleatoria). Una variable aleatoria (v.a.) X es una función (medible) que manda elementos de Ω a R (o un subconjunto de R), denotado por X : Ω → R, y al conjunto de los valores reales que puede tomar X le llamamos rango o recorrido. Diremos que una variable aleatoria X es discreta cuando el conjunto de valores que toma es finito o numerable. Por otro lado diremos que una variable aleatoria X es continua cuanto los valores puede tomar es un conjunto no numerable. Ejemplo 2.1.1. Pensemos en el experimento de lanzar tres volados con una moneda hones- ta y queremos calcular la probabilidad de que el número de águilas sea k, obviamente k ∈ {0, 1, 2, 3}.Entonces nuestro espacio muestral será: Ω = {(a, a, a), (a, a, s), (a, s, a), (s, a, a), (s, s, a), (s, a, s), (a, s, s), (s, s, s)} Luego, denamos una variable X como el número de águilas en los tres volados. Entonces el rango de la variable aleatoria, o los valores que puede tomar son X ∈ {0, 1, 2, 3}. Y las probabilidades de cada valor es: 1 P (X = 0) = P ({(s, s, s)}) = (2.1) 8 3 P (X = 1) = P ({(s, s, a)}) + P ({(s, a, s)}) + P ({(a, s, s)}) = (2.2) 8 3 P (X = 2) = P ({(a, a, s)}) + P ({(a, s, a)}) + P ({(s, a, a)}) = (2.3) 8 1 P (X = 3) = P ({(a, a, a)}) = (2.4) 8 Para resumir todas estas asignaciónes que hace la variable aleatoria ası́ como las probabili- dades asociadas se deben el concepto de función de distribución. Definición 2.1.2 (Función de distribución). La función de distribución acumulada de una va- riable aleatoria X evaluada en un real x la denotamos como FX (x) y representa: FX (x) = P (X ≤ x) Notemos que 0 ≤ FX (x) ≤ 1 por ser la probabilidad de un evento. Capı́tulo 2. Repaso de Probabilidad 15 Propiedades de la función de distribución FX (·) FX (−∞) = P (X ≤ −∞) = 0 y FX (∞) = P (X ≤ ∞) = 1 P (a < X ≤ b) = FX (b) − FX (a) Es monótona no decreciente P (a < X ≤ b) = FX (b) − FX (a) ≥ 0 La función de distribución es continua por la derecha. 2.1.3. Tipos de Variables Variable aleatoria discreta Una variable aleatoria es discreta cuando su rango es un conjunto finito o numerable de puntos. Cada punto tiene una masa de probabilidad de ocurrir P (X = xi ) = pi , a P (X = xi ) se le conoce como función de masa de probabilidad. Además si sumamos sobre todo el rango de la variable aleatoria los pesos deben ser igual a uno, es decir, X X P (X = xi ) = pi = 1. Entonces para una v.a. discreta la función de distribución FX (·) queda definida como: X FX (u) = P (X ≤ u) = P (X = xi ) , ∀u ∈ R. xi ≤u Observación: Cuando tenemos una variable aleatoria discreta en general P (X ≤ u) 6= P (X < u). Variables aleatorias continuas Una variable aleatoria X es continua si su función de distribución está definida como, Z x FX (x) = fX (u) du −∞ donde fX (·) se le conoce como la función de densidad y cumple con ser: 1. una función continua 2. fX (x) ≥ 0 R∞ 3. FX (∞) = −∞ fX (x)dx = 1 Algunas observaciones que podemos hacer son las siguientes: Capı́tulo 2. Repaso de Probabilidad 16 1. Como fX (·) es continua entonces FX (·) será también continua. 2. A partir de FX (·) podemos obtener fX (·) usando el Teorema Fundamental del Cálculo, puesto que d FX (x) = fX (x) dx 3. El conjunto de puntos donde fX (·) > 0 será el rango o soporte de la variable aleatoria. 4. Notemos que Z x P (X = x) = fX (u) du = 0 x y por lo tanto en este caso P (X ≤ u) = P (X < u) 2.2. Esperanza A continuación estudiaremos una de las caracterı́sticas más importantes de las variables alea- torias. La esperanza matemática (o sus sinónimos: Esperanza, valor esperado, media poblacional, media, primer momento) de una v.a. X es un promedio ponderado de acuerdo a la distribución teórica de probabilidades del fenómeno estudiado. O también lo podemos ver como el valor hacı́a el que tenderı́a la media aritmética x̄ si se tuvieran un número suficientemente grande de observaciones del fenómeno. La esperanza de una v.a. X, lo denotaremos por E (X) y lo calcularemos como sigue:  P  x · P (X = x) si la v.a. X es discreta,  x∈Rango(X)   E (X) =  R ∞ x · f (x) dx   −∞ X si la v.a. X es continua. Las propiedades más importantes de la Esperanza son las siguientes: Supongamos que k es constante, entonces la esperanza de una constante es igual a la misma constante, es decir E (k) = k. Sean X1 , X2 ,... , Xn , v.a.’s entonces la esperanza matemática de la suma (o resta) de varia- bles aleatorias es igual a la suma (o resta) de las esperanzas de cada una de esas variables Capı́tulo 2. Repaso de Probabilidad 17 aleatorias, es decir E (X1 ± X2 ±... ± Xn ) = E (X1 ) ± E (X2 ) ±... ± E (Xn ) Sean X1 , X2 ,... , Xn , v.a.’s, independientes, entonces la esperanza de un producto de v.a.’s es igual al producto de las esperanzas de cada una de las v.a.’s, si y sólo si son X1 , X2 ,... , Xn independientes E (X1 X2... Xn ) = E (X1 ) E (X2 )... E (Xn ) Sea X una v.a. y b una constante real, entonces la esperanza de una v.a. más una constante es igual a la esperanza de la v.a. más la constante, es decir: E (X + b) = E (X) + b. Sea X una v.a. y a una constante real, entonces la esperanza matemática de una constante por una v.a. es igual a la constante por la esperanza de la v.a. E (aX) = aE (X). Como una consecuencia inmediata de lo anterior diremos que la esperanza es un operador lineal, es decir que abre sumas y saca escalares. Es decir que si X1 , X2 ,... , Xn son v.a.’s, y a1 , a2 ,... , an , b son escalares, entonces: E (a1 X1 + a2 X2 +... + an Xn + b) = a1 E (X1 ) + a2 E (X2 ) +... + an E (Xn ) + b. Muchas veces estarémos interesados en calcular la esperanza de una funcion evaluada en una v.a., la definición de esperanza nos obligarı́a entonces a primero encontrar la distribución de la transformación de la v.a. sin embargo el siguiente teorema nos brinda una manera mas fácil de llevar a cabo el cálculo de la esperanza: Teorema 2.2.1. Sea X una v.a. g una función (medible) , entonces g(X) también es una variable aleatoria y su esperanza puede ser calculada como sigue:  P  g(x)P (X = x) si la v.a. X es discreta,  x∈Rango(X)   E (g(X)) =  R ∞ g(x)f (x) dx   −∞ X si la v.a. X es continua. Capı́tulo 2. Repaso de Probabilidad 18 En particular si en el teorema anterior, proponemos la transformación g(X) = X r , entonces a la cantidad E (g(X)) = E (X r ) se le conoce como el r-ésimo momento con respecto a el origen, y en forma compacta lo denotamos por E (X r ) = αr. Un resultado muy importante nos dice que si el momento de orden t existe, entonces todos los momentos de orden inferior existen. En sı́mbolos esto se escribe ası́: αt = E X t < ∞ entonces αr = E (X r ) < ∞, con r ≤ t. Los momentos con respecto al origen más usados son: α0 = E (X 0 ) = 1 α1 = E (X) = µ α2 = E (X 2 ) α3 = E (X 3 ) α4 = E (X 4 ) Por otro lado, si definimos g(X) = (X − µ)r , donde E (X) = µ. Entonces a E ((X − µ)r ) lo llamamos el r-ésimo momento respecto a la media y lo denotaremos por µr = E ((X − µ)r ). Los momentos con respecto a la media más usados son: µ1 = E (X − µ)1 = 0 µ2 = E (X − µ)2 , ası́ definiremos la varianza µ3 = E (X − µ)3 , se usa para calcular el coeficiente de asimetrı́a poblacional. µ4 = E (X − µ)4 , se usa para calcular la kurtosis poblacional. Notemos que los momentos con respecto a la media, µr , se pueden calcular a partir de los momentos con respecto al origen αr. Por ejemplo µ2 = E (X − µ)2 = E X 2 − 2µX + µ2 = E X 2 − 2µE (X) + µ2 = E X 2 − 2µ2 + µ2 = α2 − α12 = E X 2 − (E (X))2 Capı́tulo 2. Repaso de Probabilidad 19 De manera análoga podemos calcular µk = E (X − µ)k usando el binomio de Newton, la única condición que necesitamos es que los momentos con respecto al origen αj = E (X j ) para j ∈ {1, 2,... , k} existan, que de hecho es equivalente a decir que αk = E X k exista. 2.3. Varianza El segundo momento respecto a la media µ2 = E (X − µ)2 lo conoceremos como la varianza y lo denotado por Var(X) ó σ 2 y es una medida que refleja que tan dispersos esperamos que estén los valores que toma la v.a. con respecto de la media µ. Propiedades de la varianza La varianza siempre es mayor o igual a cero, puesto que estamos calculando la esperanza de la v.a. (X − µ)2 ≥ 0 La desviación tı́pica o estándar es la parte positiva de la raı́z cuadrada de la varianza, y la denotaremos por σ. Esta medida también representa que tanta dispersión hay en la v.a., pero σ está en las mismas unidades que la media µ de la v.a. La varianza de una variable aleatoria que no muestra dispersión será cero, es decir es constante. Si definimos el Error Cuadrático Medio como, ECMu (X) = E (X − u)2 , con u ∈ R. Es decir, ECMu (X) representa la dispersión de la v.a. al rededor de algún número real u. Entonces se puede probar que minE (X − u)2 = E (X − µ)2 = V ar (X). u∈R Si X es una v.a. con segundo momento y c es una constante real, entonces V ar (cX) = c2 V ar (X) Si X es una v.a. con segundo momento y b es una constante real, entonces V ar (X + b) = V ar (X) Sean X y Y dos v.a. y el primer momento de cada v.a. lo representaremos como sigue: Capı́tulo 2. Repaso de Probabilidad 20 E (X) = µX y E (Y ) = µY , entonces como: E (X ± Y ) = E (X) ± E (Y ) = µX ± µY. Entonces la varianza de la v.a. X ± Y es por definición: Var(X ± Y ) = E {(X ± Y ) − (µX ± µY )}2 definición = E {(X − µx ) ± (Y − µY )}2 reordenando = E (X − µx )2 + E (Y − µy )2 ± 2 · E ((X − µX ) (Y − µy )) = Var(X) + Var(Y ) ± 2 · Cov (X, Y ). A la expresión E ((X − µx ) (Y − µy )) la conocemos como la covarianza entre las v.a.’s X y Y , y la denotamos por el sı́mbolo Cov (X, Y ) o como σX Y Si Cov (X, Y ) > 0 significa que cuando la v.a. X crece (disminuye) también la v.a. Y crece (disminuye). Si Cov (X, Y ) < 0 significa que cuando la v.a. X crece (disminuye) la v.a. Y disminuye (crece). Si Cov (X, Y ) = 0 entonces Var(X ± Y ) = Var(X) + varY Algunas observaciones de la varianza son las siguiente: Si X y Y son v.a. independientes entonces la covarianza es cero pues Cov (X, Y ) = E ((X − µx ) (Y − µy )) por independencia = E (X − µx ) E (Y − µy ) = 0·0=0 Y por lo tanto Var(X ± Y ) = Var(X) + Var(Y ) Pero es muy importante notar que Cov (X, Y ) = 0 no implica necesariamente indepen- dientes entre las v.a.’s. Para poder afirmar que Cov (X, Y ) = 0 implica independencia se debe de añadir la hipótesis de Normalidad conjunta del vector (X, Y ). Capı́tulo 2. Repaso de Probabilidad 21 El siguiente ejercicio muestra la necesidad de pedir Normalidad Conjunta para poder afir- mar la independencia cuando Cov (X, Y ) = 0 Ejercicio 2.3.1. Considere X v.a. con función de densidad dada por: 1 1 2 fX (x) = √ e− 2 x 2π Defina además a la v.a. discreta W tal que P (W = 1) = P (W = −1) = 12. Suponga que X es independiente de W. Ahora defina la v.a. Y como: Y = WX Demuestre entonces que Y sigue la misma distribución de X ∼ N ormal(0, 1) Cov (X, Y ) = 0 X no es independiente de Y Algunas funciones de distribución discretas Nombre Parámetro P (X = x) Rango E (X) V ar (X) 1−x Bernoulli p ∈ (0, 1) px (1 − p) x ∈ {0, 1} p p(1 − p) n x p (1 − p)n−x Binomial n ∈ N, p ∈ (0, 1) x x ∈ {0, 1,... , n} np np(1 − p) x−1 k p (1 − p)x−k k k(1−p) Binomial Negativa p ∈ (0, 1) , k ∈ N k−1 x ∈ {k, k + 1,... , } p p2 e−λ λx Poisson λ ∈ (0, ∞) x! x ∈ {0, 1, 2,...} λ λ Algunas funciones de distribución continuas Nombre Parámetro fX (x) Rango E (X) V ar (X) 1 b+a (b−a)2 Uniforme a < b, a, b ∈ R b−a x ∈ (a, b) 2 12 −λx 1 1 Exponencial λ ∈ R+ λe x ∈ (0, ∞) λ λ2 + β α α−1 −βx α α Gamma α, β ∈ R Γ(α) x e x ∈ (0, ∞) β β2 x α−1 (1−x)β−1 α αβ Beta α ∈ R+ ,β ∈ R+ Beta(α,β) x ∈ (0, 1) β+α (α+β)2 (α+β+1) n o (x−µ)2 Normal µ ∈ R,σ 2 ∈ R+ √ 1 exp − 2σ2 x∈R µ σ 2 2πσ 2 Donde: Z ∞ Γ (α) Γ (β) Γ (x) = tx−1 e−t dt; ; Beta (α, β) = 0 Γ (α + β) Capı́tulo 2. Repaso de Probabilidad 22 Dentro de la teorı́a estadı́stica, surgen otras distribuciones las cuales enunciamos a continua- ción: Definición 2.3.1 (Densidad χ2 ). Decimos que X es una v.a. continua con distribución χ2 con n grados de libertad si su función de densidad está dada por: 1 n 1 fX (x) = n n x 2 −1 e− 2 x ; x > 0; n > 0; 2 Γ 2 2 y lo denotamos como X ∼ χ2(n). Se puede además probar que: E(X) = n Var(X) = 2n Observe que la distribución χ2(n) es un caso particular de la densidad Gamma con parámetros α = n2 y β = 12 Definición 2.3.2 (Densidad t-student). Decimos que X es una v.a. continua con distribución t-student con n grados de libertad si su función de densidad está dada por: (n+1) 2 − 2 Γ n+1 2 x fX (x) = √ 1+ ; x > 0; n>0 nπΓ n2 n y lo denotamos como X ∼ t(n). Se puede además probar que: E(X) = 0; n>1 n Var(X) = n−2 ; n>2 Definición 2.3.3 (Densidad F-snedecor). Decimos que X es una v.a. continua con distribución F-snedecor con n1 y n2 grados de libertad si su función de densidad está dada por: n q (n1 x)n1 n2 2 (n1 x+n2 )n1 +n2 fX (x) = x > 0; n1 > 0; n2 > 0 xBeta n21 , n22 y lo denotamos como X ∼ F(n1 ,n2 ). Se puede además probar que: n2 E(X) = n2 −2 ; n2 > 2 2n22 (n1 +n2 −2) Var(X) = n1 (n2 −2)2 (n2 −4) n2 > 4 Diremos que la v.a. X sigue cierta una distribución FX (x), de las siguientes formas Capı́tulo 2. Repaso de Probabilidad 23 X ∼ fX (x) X ∼ FX (x) X ∼ nombre de la v.a. y sus parámetros Ejercicio 2.3.2. Sea X una v.a. continua tal que tiene por función de densidad dada por fX (x) = a + bx si x ∈ [−1, 1] y 0 fuera de dicho intervalo. Se pide: Calcular a y b sabiendo que E(X) = 1 6 Calcular la varianza de X Calcular la distribución de la variable X 1 Encontrar la esperanza de X 2 y la V ar(|X| 2 ) Encuentre la esperanza y varianza para el modelo Binomial Negativo con función de masa de probabilidad dada por: x−1 k P (X = x) = p (1 − p)x−k ; x ∈ {k, k + 1, k + 2,...} k−1 Encuentre la esperanza y varianza para el modelo Gamma con función de densidad dada por: β α α1 −βx fX (x) := x e ; x ∈ (0, ∞) Γ(α) 2.3.1. Función Generadora de Momentos Supongamos que tenemos 2 variables aleatorias X y Y tales que se cumple que: E(X) = E(Y ) E X2 = E Y2 E X3 = E Y3 ... E Xk = E Yk Si ocurre lo anterior para un k muy grande pareciera mucha coincidencia y uno empezarı́a a sospechar que posiblemente X y Y tienen la misma distribución. ¿Pero cómo calculo todos los Capı́tulo 2. Repaso de Probabilidad 24 momentos de una distribución?, precisamente aquı́ es donde entra la necesidad de definir una función que nos ayude a generar los momentos de las distribuciones que estamos estudiando. Definición 2.3.4 (Función Generadora de Momentos F.G.M). Sea X una v.a. aleatoria, tal que E etX < ∞, definimos la función generadora de momentos para X como: Z ∞ tX etx fX (x) dx MX (t) = E e = −∞ Pero, ¿por qué le decimos función generadora de momento? Notemos lo siguiente, sabemos utilizando el polinomio de Taylor que: ∞ x x x2 x3 X xn e =1+ + + +...+ = 1! 2! 3! n=0 n! Por lo tanto : ∞ ! ∞ ∞ (tX)n (tX)n tn X X X tX MX (t) = E e =E = E = mn n=0 n! n=0 n! n=0 n! Donde mn = E(X n ) es el momento de orden n de la variable aleatoria X. Entonces: ∞ ∂ X tn−1 MX (t) = mn = m1 = E(X) ∂t t=0 n=1 (n − 1)! t=0 ∞ ∂2 X tn−2 = m2 = E X 2 MX (t) = mn ∂t2 t=0 n=2 (n − 2)! t=0... ∞ ∂k X tn−k = mk = E X k MX (t) = mn ∂tk t=0 n=k (n − k)! t=0 Luego entonces, la función MX (t) es tal que su k-ésima derivada evaluada en 0 genera el k-ésimos momento de de la variable aleatoria X. Por lo tanto si resulta que dos variables aleatorias es tal que MX (t) = MY (t) entonces se concluye que ambas variables tendrán todos los momentos iguales, lo que nos harı́a sospechar que siguen la misma distribución. Esto se ve reflejado en el siguiente teorema. Teorema 2.3.1. Sea X y Y dos variables aleatorias tales que MX (t) = MY (t) entonces, X y Y Capı́tulo 2. Repaso de Probabilidad 25 tienen la misma distribución lo que denotamos como: d X=Y Ejemplo 2.3.1. Supongamos que tenemos X ∼ N (0, 1). Entonces: Z ∞ 1 x2 1 2 MX (t) = etx √ e− 2 dx = e 2 t −∞ 2π Luego si derivamos y valuando en cero verificamos que en efecto genera los primeros momentos de la distribución normal. ∂ 1 2 MX (t) = e2t t = 0 = E(X) ∂t t=0 t=0 ∂2 1 2 1 2 = e 2 t + e 2 t t2 = 1 = E X2 MX (t) ∂t2 t=0 t=0 Algunas propiedades del F.G.M son la siguientes: Si X y Y son independientes entonces: MX+Y (t) = MX (t)MY (t) Si a ∈ R y X es variable aleatoria entonces: MaX (t) = MX (at) Si a, b ∈ R y X es variable aleatoria entonces: MaX+b (t) = etb MX (at) Ejercicio 2.3.3. Sea X ∼ N (µ, σ 2 ) muestre: 1 2 2 MX (t) = e 2 t σ +tµ Sea X ∼ Exp (λ) muestre: λ MX (t) = λ−t Observe entonces que por el ejercicio anterior y el teorema (2.3.1) sabemos que si encontramos Capı́tulo 2. Repaso de Probabilidad 26 Z una v.a. tal que Z ∞ 1 2 2 MZ (t) = etz fZ (z)dz = e 2 t σ +tµ −∞ Entonces podrı́amos concluir que Z sigue una distribución Normal de parámetros µ , σ 2. Ejercicio 2.3.4. Utilizando la función generadora de momentos pruebe que si U ∼ U (0, 1) 1 entonces Y = − λ log U sigue una distribución exponencial Sea X ∼ Gamma(α, β) con función de densidad dada por: β α α−1 −βx fX (x) := x e ; x ∈ (0, ∞) Γ(α) 1. Pruebe que la función generado de momentos de X está dada por: −α t MX (t) = 1 − t 0 es función de densidad del vector si: Z x1 Z x2 Z xn FX (x1 ,... , xn ) =... fX (t1 ,... , tn ) dt1... dtn −∞ −∞ −∞ De aquı́ queda claro usando el T.F.C que: ∂ fX (x1 ,... , xn ) = FX (x1 ,... , xn ) ∂x1 ∂x2... ∂xn Por otro lado si el vector contiene variables aleatorias discretas entonces, la función de densidad de probabilidad del vector se define como: fX (x1 ,... , xn ) = P (X1 = x1 ,... , Xn = xn ) De esto se prueba entonces que cuando el vector es discreto que: X FX (x1 ,... , xn ) = fX (xi1 ,... , xin ) {i1 :xi1 ≤x1 };...;{in :xin ≤xn } Con la definición de independencia y de función de densidad podemos probar que X y Y son independientes si y solo si: fX,Y (x, y) = fX (x) fY (y) Esto se generaliza para n variables fácilmente diciendo que X1 ,... , Xn son variables aleatorias independientes si y solo si: n Y fX (x1 ,... , xn ) = fX1 (x1 )... fXn (xn ) = fXi (xi ) i=1 Adamás se pueden encontrar la funciones de densidad marginales integrando o sumando respecto Capı́tulo 2. Repaso de Probabilidad 30 al resto de las variables como se muestra a continuación: Z ∞ Z ∞ fXi (xi ) =... fX (x1 ,... , xn ) dx1... dxi−1 dxi+1... dxn −∞ −∞ Ejercicio 2.4.1. Supongamos que las variables (X, Y ) pueden tomar los valores (0, 0); (1, 1); (−1, 1); (1, −1)y(−1, −1) cada uno con probabilidad 51. Encuentre la función de distribución y determine si estas variables son independientes Supongamos que las variables (X, Y ) pueden tomar los valores (1, 1); (2, 1); (1, 2); (3, 1) tal que: P (X = i, Y = j) = C (i + j) Donde C es una constante, determine el valor de C y obtenga la función de densidad de probabilidad marginal correspondiente a la primera variable. Suponga que P (X = i, Y = j) = Cαi β j i, j ∈ N; 0 < α, β < 1 Halle el valor de C para que P (X = i, Y = j) sea una función de densidad de probabilidad. Se lanzan dos tetraedros con caras numeradas del 1 al 4. Escriba el espacio muestral Ω de este experimento Sea X la v.a que indica el número obtenido en el primer tetraedro y Y la v.a. que indica el mı́nimo de las dos caras obtenidas, encuentre la función de densidad de probabilidad P (X = x, Y = y) con x ∈ {1, 2, 3, 4}, y ∈ {1, 2, 3, 4}. Finalmente encuentre la función de distribución FXY (x, y). 2.4.1. Probabilidades Condicionales Dentro del estudio de probabilidades surgió la necesidad de medir la probabildad de los eventos dado que ocurrio otro cierto evento, a esto se le llamsa una medida de probabilidad condicional y se define como sigue: Capı́tulo 2. Repaso de Probabilidad 31 Definición 2.4.5 (Probabilidad Condicional). Sea A y B dos evento tal que P (B) > 0, definimos la probabilidad condicional como: P (A ∩ B) P(A | B) = P (B) Ahora supongamos que tenemos dos variables aleatorias discretas X y Y , se desea obtener la función de densidad de probabilidad para la variable aleatoria X condicionada a que ocurrió el evento Y = y (Suponga que P (Y = y) > 0), resulta natural entonces definir a dicha función como: P (X = x ∩ Y = y) fX,Y (x, y) fX|Y (x|y) = = P (Y = y) fY (y) Finalmente este último resultado se extiende para variables aleatorias continuas de la misma forma Definición 2.4.6 (Densidad Condicional). Sean X y Y v.a. aleatorias, definimos la función de densidad condicional de X dado Y = y tal que fY (y) > 0 como: fX,Y (x, y) fX|Y (x|y) = fY (y) Observe que cuando X y Y son independientes se tiene que: fX,Y (x, y) fX (x) fY (y) fX|Y (x|y) = = = fX (x) fY (y) fY (y) Generalizando lo anterior se puede probar que la función de distribución condicional se puede obtener sumando o integrando a la respectiva función de densidad condicional, en el caso continuo Z x FX|Y (x|y) = P (X ≤ x|Y = y) = fX|Y (t|y) dt −∞ Mientras que en el caso discreto: X FX|Y (x|y) = P (X ≤ x|Y = y) = fX|Y (xi |y) {i:xi ≤x} Por otro lado el concepto de esperanza también puede ser extendido al caso condicional el cual se define de forma natural como: Definición 2.4.7 (Esperanza Condicional evaluada). Sea X y Y variables aleatorias tal que fY (y) > 0 entonces definimos la esperanza condicional de X dado Y = y como: Capı́tulo 2. Repaso de Probabilidad 32 Si X y Y son continuas: Z ∞ E(X|Y = y) = xfX|Y (x|y) dx −∞ Si X y Y son discretas: X E(X|Y = y) = xfX|Y (x|y) x∈Rango(X) Se podrá además probar que la esperanza condicional de una transformación de variables aleato- rias está dado por: Z ∞ E(h(X)|Y = y) = h(x)fX|Y (x|y) dx −∞ A partir de la varianza condicional podremos definir a la varianza condicional: Definición 2.4.8 (Varianza Condicional evaluada). Sea X y Y variables aleatorias tal que fY (y) > 0 entonces definimos la varianza condicional de X dado Y = y como: Var(X|Y = y) = E X 2 |Y = y − (E(X|Y = y))2 La interpretación que daremos a E(X|Y = y) es nuevamente la de un promedio ponderado y nos indica el valor que en promedio estará obteniendo la variable aleatoria X condicionada a que la v.a. Y en todas las repeticiones siempre tomó el valor de Y = y. Por otro lado Var(X|Y = y) se interpreta como una medida de la variabilidad que tiene la variable X condicionada a que la v.a. Y tomó el valor de Y = y. Observe además que E(X|Y = y) es una función de y, muchas veces escribimos entonces E(X|Y = y) = g(y), sin embargo aveces será necesario calcular la esperanza de X condicionada a Y sin evaluar a la variable aleatoria, en este caso también vamos a poder definir una esperanza condicional de la siguiente manera: Definición 2.4.9 (Esperanza Condicional). Sea X y Y variables aleatorias tal que existe E(X|Y = y) = g(y) ∀y en el soporte de Y , definimos a E(X | Y ) como a la variable aleatoria dada por: E(X | Y ) = g (Y ) Definición 2.4.10 (Varianza Condicional). Sea X y Y variables aleatorias tal que existe Var(X|Y = y) = g(y) Capı́tulo 2. Repaso de Probabilidad 33 ∀y en el soporte de Y , definimos a Var(X|Y ) como a la variable aleatoria dada por: Var(X|Y ) = g (Y ) Dado que E(X | Y ) es una v.a. resulta entonces interesante también poder calcularle sus momentos, en este caso se prueba que: E(X) = E(E(X | Y )) Var(X) = E(Var(X|Y )) + Var(E(X|Y )) Ejercicio 2.4.2. Considera la siguientes densidad conjunta: 1 −( 2yx + y4 ) f (x, y) = e x, y > 0 8y Encuentra la densidad marginal fY (y) y la densidad condicional fX|Y (x|y), finalmente encuentre E(Y ) y Var(Y ) ası́ como E(X | Y ) y Var(X|Y ) Considera la siguiente densidad conjunta: 2 −y 2 f (x, y) = 4xye−x x, y > 0 Encuentre las marginales fX (x), fY (y) ası́ como las condicionales fX|Y (x|y), fY |X (y|x), finalmente encuentre E(Y ) y Var(Y ) ası́ como E(X | Y ) y Var(X|Y ) Considera la densidad Normal Multivariada. (x − µ1 )2 (y − µ2 )2 1 1 x − µ1 y − µ2 fXY (x, y) = exp − − 2ρ + 2(1 − ρ2 ) σ12 σ22 p 2πσ1 σ2 1 − ρ2 σ1 σ2 Prueba que la densidad marginal fX (x) corresponde a la densidad Normal de parámetros µ = µ1 y σ 2 = σ12 , N µ1 , σ12 Finalmente encuentre la densidad condicional fY |X (x|y) y prueba que corresponde a una densidad N µ = µ2 + ρ σσ21 (x − µ1 ) , σ 2 = σ22 (1 − ρ2 ) Sea (X, Y ) un vector aleatorio con función de densidad dada por: y fXY (x, y) = 2e− x 0 ≤ x ≤ 1; y>0 Encuentre E(Y ) y Var(Y ) sin utilizar la densidad de Y. Capı́tulo 2. Repaso de Probabilidad 34 2.5. Teorema de Cambio de Variable Dentro del análisis de la muestra que haremos en nuestro estudio será necesario llevar a cabo transformaciones de variables aleatorias y por tanto debemos conocer herramientas que nos ayuden a encontrar las distribuciones de dichas transformaciones. Como ya vimos una forma de atacar el problema es utilizar la función generadora de momentos para deducir la distribución de la transformación, sin embargo a veces dicha técnica no funcionará. El caso mas sencillo es el siguiente, supongamos que tenemos una v.a. X y construimos Y otra v.a. tal que Y es una transformación monótona (creciente o decreciente) de X, es decir: Y = g(X) Suponiendo X continua sabemos que Y también será continua por lo tanto podemos preguntarnos por encontrar a FY (y) el cual nos dice el comportamiento distribucional de Y. FY (y) := P (Y ≤ y) = P (g(X) ≤ y) = P X ≤ g −1 (y) = FX g −1 (y) Luego entonces, si queremos a la función de densidad de Y bastarı́a con derivar respecto a y a la función de distribución y entonces obtener: ∂ ∂ ∂ −1 FX g −1 (y) = fX g −1 (y) fY (y) = FY (y) = g (y) ∂y ∂y ∂y ∂ −1 en la última igualdad tenemos el problema que no necesariamente ∂y g (y) es positivo, (pues depende de si g es creciente o decreciente) luego entonces para garantizar que fY (y) sea densidad debemos colocar valor absoluto ∂ −1 fY (y) = fX g −1 (y) g (y) ∂y Con la formula anterior es fácil por ejemplo , obtener la densidad de transformaciones lineales de variables aleatorias. X−µ Ejemplo 2.5.1. Sea X ∼ N (µ, σ 2 ), muestre que Z = σ ∼ N (0, 1). FZ (z) = FX (zσ + µ) Derivando: 1 1 2 1 1 2 fZ (z) = fX (zσ + µ) σ = √ e− 2σ2 (zσ+µ−µ) = √ e− 2 z 2πσ 2 2π Capı́tulo 2. Repaso de Probabilidad 35 Esté método también puede ser utilizado en funciones que son invertibles por partes, esto lo podemos ver en el siguiente ejemplo: Ejemplo 2.5.2. Sea Z ∼ N (0, 1), muestre que Y = Z 2 ∼ χ21. Observemos primero que Y es una variable aleatoria que solo puede tomar valores positivos √ √ √ FY (y) = P (Y ≤ y) = P Z 2 ≤ y = P (|Z| ≤ y) = P (− y ≤ Z ≤ y) √ √ √ √ = P (Z ≤ y) − P (Z < − y) = FZ ( y) − FZ (− y) Derivando obtenemos que la densidad de Y está dada por: ∂ √ √ √ 1 √ 1 fY (y) = (FZ ( y) − FZ (− y)) = fZ ( y) √ + fZ (− y) √ ∂y 2 y 2 y √ 1 1 1 1 1 1 1 = fZ ( y) √ = √ e− 2 y √ = 1 1 y 2 −1 e− 2 y y 2π y 22 Γ 2 Lo que demuestra que Y sigue una distribución χ2(1). El teorema de cambio puede generalizarse para transformaciones de Rn a Rn invertibles de la siguiente forma: Teorema 2.5.1 (Teorema de Cambio de Variable - Caso Absolutamente Continuo). Sea X = (X1 ,... , Xn )T un vector aleatorio con función de densidad dada por fX (x1 ,... , xn ). Sea g : Rn → Rn una transformación invertible. g (x1 ,... , xn ) = (y1 = g1 (x1 ,... , xn ) ,... , yn = gn (x1 ,... , xn )) Como g es invertible entonces sabemos existen w1 ,... , wn funciones de Rn a R tales que: x1 = w1 (y1 ,... , yn ) x2 = w2 (y1 ,... , yn )... xn = wn (y1 ,... , yn ) Definamos al vector aleatorio Y = (Y1 ,... , Yn )T obtenido de transformar a X por medio de g, es decir Y = g (X). Entonces la densidad conjunta del vector aleatorio Y está dado por: fY (y1 ,... , yn ) = fX (w1 (y1 ,... , yn ) ,... , w1 (y1 ,... , yn )) |det J| Capı́tulo 2. Repaso de Probabilidad 36 Donde J es la matriz jacobiana. ∂ (J)ij = wi ∂yj Consideremos por ejemplo una transformación lineal de R3 a R3 dada por: g(x1 , x2 , x3 ) = (3x1 , x1 − 4x2 , x3 )T Ahora supongamos que tenemos un vector aleatorio continuo en R3 con función de densidad fX (x1 , x2 , x3 ), definamos al vector aleatorio Y = (Y1 , Y2 , Y3 )T , tal que: Y = g (X) = (3X1 , X1 − 4X2 , X3 )T Se desea encontrar la función de densidad del vector Y. Esto lo podemos resolver utilizando el teorema de cambio de variable muy fácilmente, primero notemos que al ser g una transformación lineal, entonces existe una matriz que construye a dicha transformación lineal. Y = g (X) = AX = (3X1 , X1 − 4X2 , X3 )T Con A una matriz de la forma:   3 0 0 A = 1 −4 0   0 0 1 Observe que como A es de rango completo, entonces existe su inversa lo cual era de esperarse al ser g invertible, luego entonces: 1   3 0 0 Y1 T 1 1 1 X = A−1 Y =  12 1 1 − 4 0 Y2  = Y1 , Y1 − Y2 , Y3   3 12 4 0 0 1 Y3 En este caso entonces las funciones wi están dadas por: 1 x1 = w1 (y1 , y2 , y3 ) = y1 3 1 1 x2 = w2 (y1 , y2 , y3 ) = y1 − y2 12 4 x3 = w3 (y1 , y2 , y3 ) = y3 De donde queda claro que la matriz Jacobiana está dada precisamente por A−1 , luego entonces, Capı́tulo 2. Repaso de Probabilidad 37 por el teorema de cambio de variable la densidad del vector aleatorio Y está dado por: 1 1 1 1 1 1 1 fY (y1 ,... , yn ) = fX y1 , y1 − y2 , y3 |det J| = fX y1 , y1 − y2 , y3 3 12 4 3 12 4 12 Ejercicio 2.5.1. Sea Z = (Z1 ,... , Zn )T un vector aleatorio continuo tal que: n n ! n 1 1X 2 1 1 fZ (z1 ,... , zn ) = √ exp − z = √ exp − z t z 2π 2 i=1 i 2π 2 Sea Σ una matriz definida positiva y µ ∈ Rp un vector de números reales. Demuestre que el vector 1 aleatorio X = Σ 2 Z + µ tiene por densidad: n 1 − 12 1 T −1 fX (x1 ,... , xn ) = fX (x) = √ det Σ exp − x − µ Σ x−µ 2π 2 Observacion: Cuando un vector aleatorio X tiene la densidad anterior, decimos que X sigue una distribución multivariada y lo denotamos por: X ∼ Nn µ, Σ Hint: Recuerde que como Σ es definida positiva entonces puede ser expresada según la descom- posición espectral como: Σ = Γ∆ΓT Luego entonces defina: Σα = Γ∆α ΓT α∈R Donde: ∆α = diag (λα1 ,... , λαn ) Ahora utilizaremos el teorema de cambio de variable para obtener uno de los resultados mas utilizados en la teorı́a de la estadı́stica: Teorema 2.5.2. Sea Z ∼ N (0, 1) y X ∼ χ(n) , suponga Z y X independientes. Entonces: Z T = q ∼ t(n) (t − student) X n Capı́tulo 2. Repaso de Probabilidad 38 Demostración. Por la definición (2.3.2), tenemos que demostrar que: − (n+1) Γ n+1 2 t2 2 fT (t) = √ 1 + ; t > 0; n>0 nπΓ n2 n Como Z ∼ N (0, 1) y X ∼ χ(n) por independencia tendrı́amos que: n x 2 −1 1 2 fXZ (x, z) = fX (x) fZ (z) = n n √ exp − z + x z ∈ R; x > 0 22Γ 2 2π 2 Definamos la siguiente transformación del vector aleatorio (X, Z)T !   !   V X X V =  √Z  ⇒ =  qV  T X Z T n n Note que: ! z g (x, z) = x, p x = (v, t) n Por lo tanto las funciones inversas son: x = w1 (v, t) = v r v z = w2 (v, t) = t n Esta tranformación tiene por Jacobiano: ! ! ∂w1 ∂w1 ∂v ∂t 1 0 J= ∂w2 ∂w2

Inferencia Estadı́stica PDF

Document Details

Tags

Related

Summary

Full Transcript