Inferencia Estadística - Capítulo 1 - PDF
Document Details
Uploaded by Deleted User
Tags
Summary
\"Capítulo 1 de Inferencia Estadística\" introduce conceptos fundamentales de la estadística descriptiva, incluyendo fenómenos deterministas y aleatorios, la medición y tipos de variables, y los conceptos de población y muestra. El capítulo presenta una introducción clara y concisa a estos temas básicos, utilizando definiciones precisas y ejemplos ilustrativos. El enfoque principal es el estudio de datos cuantitativos, preparándose para análisis estadísticos más complejos.
Full Transcript
Capı́tulo 1 Estadı́stica Descriptiva 1.1. Introducción Una caracterı́stica del ser humano que lo distingue de otros seres vivos es que tiene la capaci- dad de interpretar los fenómenos que lo rodean, aprender del mundo a partir de lo que se observa y de su experiencia a lo largo del tie...
Capı́tulo 1 Estadı́stica Descriptiva 1.1. Introducción Una caracterı́stica del ser humano que lo distingue de otros seres vivos es que tiene la capaci- dad de interpretar los fenómenos que lo rodean, aprender del mundo a partir de lo que se observa y de su experiencia a lo largo del tiempo. A partir de estas experiencias el hombre aprende a hacer deducciones útiles del mundo en que vive. Como sabemos, existe una gran variedad de fenómenos que quisieramos describir de forma matemática y exacta para poder hacer pronósticos 100 % certeros, sin embargo la misma naturaleza de ciertos fenómenos nos ha obligado a crear modelos matemáticos que permitieran la interacción con la incertidumbre y el azar con base en la teorı́a de las probabilidades. Definición 1.1.1 (Fenómenos deterministas). Un fenómeno determinista es aquel que, cuando se reproduce en las mismas condiciones, podemos predecir con certeza cuál va a ser el resultado, en otras palabras se rige bajo leyes causales. Este tipo de fenómenos no son parte de nuestro estudio. Definición 1.1.2 (Fenómenos aleatorios). Por otro lado, el fenómeno aleatorio es el que cada vez que se realiza, aun bajo condiciones casi idénticas, el resultado no se conoce con certeza, además que el resultado sólo se sabe después de realizado el experimento. El estudio de los fenómenos deterministas quedarán fuera del estudio de esto curso, por lo que nos concentraremos en desarrollar teorı́a para poder atacar los fenómenos aleatorios. Las herramientas con la que contamos para estudiar los fenómenos aleatorios son: 1. La probabilidad, la cual se suele definir de tres formas: a) Como un grado de confianza o fundada apariencia de que algo suceda. 1 Capı́tulo 1. Estadı́stica Descriptiva 2 b) La razón entre el número de casos favorables y el número de casos posibles. (Juegos de azar) c) Como una medida basada en planteamiento axiomático de Kolmogorov en 1933. (Teorı́a de la Medida) 2. La estadı́stica, la cual la podemos definir como sigue: a) Es el estudio de los datos cuantitativos de la población, además que es la rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades. La estadı́stica clásica o frecuentista se basa en la regularidad estadı́stica, es decir que, al repetir un fenómeno aleatorio un número grande de veces en condiciones constantes, las proporciones en las que ocurren los posibles resultados son muy estables. 1.2. Concepto de medición y de variable Para cuantificar o clasificar lo que percibimos de un fenómeno aleatorio necesitamos hacer mediciones u observaciones que nos ayuden a investigar una o varias caracterı́sticas de interés sobre el fenómeno en estudio. Para un correcto manejo de nuestras mediciones, las observaciones deben ser registradas tomando en cuenta su tipo, para poder saber que tipo de operaciones podemos hacer con ellas. Cada variable tiene una escala de medición, como vemos a continuación: Variables Escalas de medición Nominales Categóricas Ordinales De intervalo Numéricas De razón Absoluta Capı́tulo 1. Estadı́stica Descriptiva 3 Una variable es categórica cuando el registro de la medición es un elemento o una categorı́a, es muy importante que dichas categorı́as deben de cumplir con ser: mutuamente excluyentes (No hay un elemento que pertenezcan a dos o más categorı́as a la vez) y exhaustivas (Todo elemento pertenece a una categorı́a); con este tipo de variables podemos calcular, frecuencia de ocurrencia en cada categorı́a, la(s) moda(s), proporciones, porcentajes y tablas de contingencia. (Análisis de datos categóricos). La escala de medición que utilizamos en este tipo de variables son básicamente las siguientes dos: 1. Nominales: Cuando las categorı́as sólo se les da un nombre pero no tienen un orden entre ellas, ejemplos: ¿Está de acuerdo con las obras de continuación del segundo piso del Periférico? Sı́ , No. Sexo: Masculino, Femenino. 2. Ordinales: Cuando el registro de la medición se expresa en grados de intensidad que tienen un orden, pero no se puede determinar el incremento entre los grados, ejemplo: Grados de satisfacción en un servicio Muy bueno, Bueno, Regular y Malo. Nivel socio económico: Bajo, Medio, Alto Por otro lado, tenemos una variable numérica cuando el resultado de nuestra medición son valores numéricos. Con este tipo de variables podemos calcular promedios o medias, desviaciones estándar, modas, correlaciones y serán las variables que más estarémos trabajando en este curso. La escala de medición que utilizamos en este tipo de variables son básicamente las siguientes tres: 1. Escala de intervalo: hay un orden entre observaciones, y la distancia entre las mismas tiene significado. En esta escala hay un cero, pero no indica ausencia de medición. Un ejemplo tı́pico de este tipo de variable con esta escala, es la temperatura cuando se mide en grados Fahrenheit o en grados Centı́grados. Sabemos que la diferencia entre 30 C y 35 C es la misma que entre 45 C y 50 C y si se dice que un lı́quido se encuentra a 0 C, no significa que no tiene temperatura. 2. Escala de razón: el cero sı́ indica una ausencia de la variable, es decir una completa ausencia de medición. Las variables peso, altura son de este tipo. 3. Escala absoluta: se usa para variables discretas o conteos. Ejemplo: Número de hijos en una familia Capı́tulo 1. Estadı́stica Descriptiva 4 1.3. Conceptos estadı́sticos: población y muestra Parte esencial de un análisis estadı́stico es tener bien definido el alcance que tienen nues- tras inferencias, para ello surgen conceptos básicos como población y muestra que definimos a continuación: Definición 1.3.1 (Poblacion y muestra). Definamos como población a todos los elementos pre- sentan una caracterı́stica común que estamos estudiando (de interés), acerca de la cual intenta- mos sacar alguna conclusión. Y entenderémos como una muestra a un subconjunto de elementos de la población. Nuestro principal estudio en el curso será el estudio de muestras, pero surge la pregunta: ¿Por qué estudiamos muestras en vez de la población? La respuesta es simple, porque en ocasiones es poco factible o hasta imposible observar la totalidad de los individuos, es por esto que en lugar de examinar a toda la población, se estudia una pequeña parte, sin embargo esto no es tan fácil de hacer pues surgen preguntas muy interesantes respecto al proceso de muestreo, como por ejemplo el tamaño de la muestra y la forma en que la obtendremos para que sea representativa. Una muestra de tamaño n de una población en general, denotaremos como: X = {X1 , X2 ,... , Xn } Debe de observarse que dicha muestra está formada por variables aleatorias, esto ocurre ası́ porque estamos suponiendo que la muestra aun no la observamos y por lo tanto se considera variable aleatoria a los posibles valores que estaremos observando una vez realizado el experimento. Por otro lado, cuando ya hemos observado los valores de la muestra, entonces la denotaremos como sigue: x = {X1 = x1 , X2 = x2 ,... , Xn = xn } Si además suponemos que la variable que analizamos es numérica, entonces denotaremos a la muestra ordenada como: X(1) , X(2) ,... , X(n) Donde X(1) es la observación mas chica, X(2) es la segunda observación más chica, y ası́ sucesi- vamente hasta que X(n) representa la observación mayor, es decir: X(1) = min {X1 , X2 ,... , Xn } ;... ; X(n) = max {X1 , X2 ,... , Xn } Notemos entonces que X(i) con i ∈ {1,... , n} son funciones de variables aleatorias y por tanto X(i) también es un variable aleatoria a la cual le podremos calcular su distribución. Capı́tulo 1. Estadı́stica Descriptiva 5 1.4. Estadı́stica Descriptiva La estadı́stica descriptiva tiene como fin presentar resúmenes de un conjunto de datos X = {X1 , X2 , X3 ,... , Xn } y poner de manifiesto sus caracterı́sticas, mediante representaciones numéri- cas y/o gráficas. Los datos se usan para fines comparativos, y no se usan principios de proba- bilidad. El interés se centra en describir un conjunto dado de datos y no se plantea el extender las conclusiones a otros datos diferentes o a una población, es decir, solo tiene como fin dar una descripción de los datos mediante un resumen Media Mediana Moda Medidas de tendencia central Percentı́les Decı́les Cuartı́les Numéricamente Varianza muestral Desviación estándar Medidas de dispersión Rango Estadı́stica descriptiva = Rango intercuartil Coeficiente de variación Coeficiente de Asimétria Medidas de Forma Coeficiente de Curtosis Histograma Gráfico Box Plot Gráficamente Distribución acumulada ... Capı́tulo 1. Estadı́stica Descriptiva 6 1.4.1. Medidas de tendencia central Las medidas de tendencia central pretende resumir la tendencia o localización de los datos por medio de un sólo número. Media, el promedio de los datos : X̄ = ni=1 Xni P Mediana X̃ es el valor tal que el 50 % de los datos son menores que él y el 50 % son mayores. Aquı́ hay que distinguir entre dos casos: Si el tamaño de la muestra n es par entonces: X( n ) + X( n +1) 2 2 X̃ = 2 Por otro lado si el tamaño de la muestra es impar X̃ = X( n+1 ) 2 Moda es el valor o categorı́a más frecuente (Por lo general es util para datos categóricos y no funciona para variables continuas El cuantı́l o porcentı́l de α %, Pα % es aquel valor tal que un α % de los datos son menores a él y un (1 − α) % de ellos es mayor a él, es decir: X(1) , X(2) ,... , X(p−1) P25 % , X(p) ,... , X(q) , P50 % X(q+1) ,... X(s−1) , P75 % X(s) ,... , X(n−1) , X(n) | {z } Primer cuartil | {z } Segundo cuartil tercer cuartil| {z } 25 % 25 % 25 % | {z } 50 % | {z } 75 % 1.4.2. Medidas de dispersion Las medidas de disepersión pretenden darnos una idea de que tan variables son nuestros datos, se podrı́a decir que sirve para medir el grado de dispersión que tienen los datos que analizamos. Varianza muestral se define como: Xn 2 Xi − X̄ S2 = i=1 n−1 Desviación estándar se define como: √ S= S2 Rango se define como: R = X(n) − X(1) Capı́tulo 1. Estadı́stica Descriptiva 7 Rango intercuantilico se definie como: RIC = P75 % − P25 % Coeficiente de variación S cv = × 100 X̄ 1.4.3. Medidas de Forma Las medidas de forma pretender darnos una idea de la caracterı́sticas de la distribución de la población. Coeficiente de Asimetrı́a se define como: Pn (xi − x)3 CAF = i=1 3 nS Cuando CAF < 0 la distribución tiene una asimetrı́a negativa y decimos que los datos están sesgados a la derecha, por otro lado cuando CAF > 0 la distribución tiene una asimetrı́a positiva y decimos que los datos están sesgados a la izquierda. Finalmente cuando CAF = 0 los datos son simétricos. Coeficiente de Curtosis se define como: Pn (xi − x)4 Curtosis = i=1 4 −3 nS La curtosis (o apuntamiento) es una medida de forma que mide cuán escarpada o achatada está una curva o distribución. Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva. Cuando Curtosis > 0 la distribución tiene un apuntalamiento superior a la distribución normal y decimos que la distribución es leptocurtica mientras que cuando Curtosis < 0, la distribución es platicurtica 1.4.4. Medidas de dependencia entre dos muestras Muchas veces nos enfrentaremos al problema de analizar dos variables de forma simultánea, en cuyo caso será necesario definir métricas que nos ayuden a analizar de forma conjunta a las dos variables. Una pregunta de interés en este caso podrı́a ser identificar si existe algún tipo de Capı́tulo 1. Estadı́stica Descriptiva 8 dependencia o relación entre ambas variables, pare responder esto se define la covarianza para variables numéricas: Definición 1.4.1 (Covarianza). Supongamos que tenemos dos muestras del mismo tamaño, X1 ,... , Xn , Y1 ,... , Yn , definimos la covarianza muestral como: Pn i=1 Xi − X̄ Yi − Ȳ cov (X, Y ) = n−1 La covarianza no es mas que una medida de la variabilidad conjunta entre las dos variables para entender mejor este concepto consideremos lo siguiente: Supongamos que tenemos n observaciones que consta de una variable respuesta Y y X la variable explicativa. Se desea medir la dirección y que tan fuerte es la relación entre Y y X. Si hacemos un gráfico de dispersión entre Y contra X, después trazamos una lı́nea vertical en x̄ y una horizontal en ȳ. Las dos lı́neas dividen el gráfico en cuatro cuadrantes. Para cada punto i en el gráfico, calculamos lo siguiente: yi − ȳ, la desviación de cada observación yi con respecto a su media muestral y xi − x̄, la desviación de cada observación xi con respecto a su media muestral x El producto de estas dos cantidades, (yi − ȳ)(xi − x̄) Es claro que: Cuadrante xi − x̄ yi − ȳ (xi − x̄)(yi − ȳ) 1 + + + 2 - + - 3 - - + 4 + - - Luego entonces, si la relación entre Y y X es positiva (cuando X aumenta Y también aumenta), entonces hay mas puntos en le cuadrante 1 y 3 que en el cuadrante 2 y 4 y si la relación entre Y y X es negativa (cuando X aumenta Y disminuye), entonces hay más puntos en los cuadrantes 2 y 4 que en los cuadrantes 1 y 3. Por lo tanto Pn i=1 Xi − X̄ Yi − Ȳ cov (X, Y ) = n−1 Capı́tulo 1. Estadı́stica Descriptiva 9 Toma un numero positivo cuando hay relación positiva entre X y Y , toma un valor negativo cuando hay una relación negativa y 0 cuando no hay ningún tipo de relación. En general la covarianza entre X y Y , nos indica la dirección de la relación lineal entre Y y X. Por desgracia, Cov(Y, X) no es una medida muy informativa de que tan fuerte es la relación, puesto que es afectada por cambios en las unidades de medida. Para evitar esta desventaja de la covarianza, lo que se estila hacer es estandarizar los datos antes de cálcular la covarianza de la siguiente forma: yi − ȳ xi − x̄ , sy sx Donde: sP sP n n − i=1 (yi ȳ)2 − ȳ)2 i=1 (yi sy = , sx=. n−1 n−1 Finalmente, a la covarianza entre las variables estandarizadas la conocemos como coeficiente de correlación entre Y y X y está dada por: n Pn 1 X (xi − x̄) (yi − ȳ) Cov(X, Y ) (xi − x̄)(yi − ȳ) rXY = = = pPn i=1 Pn n − 1 i=1 sx sy sx sy i=1 (xi − x̄) 2 i=1 (yi − ȳ) 2 Algunas observaciones importantes que podemos hacer sobre la correlación son: rXY mide la correlación lineal entre dos conjuntos de datos (X1 , Y1 ) , (X2 , Y2 ) ,... , (Xn , Yn ). Se puede probar que −1 ≤ rX Y ≤ 1 (Tarea) Si rX Y ≈ 1 ó rX Y ≈ −1 entonces podrı́amos escribir yi ≈ β0 + β1 xi , para i = 1,... , n, donde β0 , β1 ∈ R. Más aún, si rX Y ≈ −1 entonces β1 < 0 , en cambio, si rX Y ≈ 1 entonces β1 > 0 Si rX Y ≈ 0, lo único que podrı́amos afirmar es que nuestras muestras no guardan ninguna asociación lineal. No podemos afirmar que las muestras sean independientes. El único caso en el que rX Y = 0 implica independencia es cuando las dos muestras sigan una distribución normal bi-variada (Tarea) 1.4.5. Estadı́stica descriptiva vı́a gráficas Sin duda, una de las herramientas mas poderosas de la estadı́stica es la generación de gráfi- cos descriptivos que nos ayuden a visualizar el comportamiento de una población o muestra, a continuación presentamos los gráficos comunmente utilizados en la práctica: Capı́tulo 1. Estadı́stica Descriptiva 10 Histograma Un histograma es una gráfica en forma de barras, donde las bases de las barras son una partición del rango muestral, R = X(n) − X(1) , es decir, X(1) = a0 < a1 <... < ak−1 < ak = X(n) y esto forma las siguientes marcas de clase: [a0 , a1 ] (a1 , a2 ] (a2 , a3 ]... (ak−2 , ak−1 ] (ak−1 , ak ] Luego, la altura de cada barra es la frecuencia o número de elementos que cae en cada marca del clase. Un histograma se usa cuando se estudia una variable continua, por ejemplo para ver las franjas de edades o alturas de una muestra. Existen varios criterios para determinar el número de √ marcas de clases o barras, una de ellas es la regla de Sturgess que establece que k = n, aunque otras personas recomiendan tomar k = log (n) + 1 Siempre será recomendable experimentar con varios valores de k dependiendo de cómo estén los datos y cuantos sean. Frecuencia acumulada o distribución empı́rica acumulada Otra de las gráficas mas importantes con las que contamos es aquella a la que denominamos distribución empı́rica, este gráfico tiene como fin aproximar a la verdadera función de distribución de donde vinieron los datos y la construcción es la siguiente: supongamos que tenemos una mues- tra X = {X1 , X2 , X3 ,... , Xn } , ahora al ordenar la muestra tenemos X(1) , X(2) , X(3) ,... , X(n). Entonces la función de distribución empı́rica acumulada o frecuencia acumulada (cuando no hay empates) se define como la proporción de los datos menores o iguales a x. 0 si x ∈ −∞, X(1) u Fn (x) = si x ∈ X(u) , X(u+1) y u ∈ {1,... , n − 1} (1.1) n si x ∈ X(n) , ∞ 1 Los diagramas de caja Uno de los gráficos más puluares para visualizar la forma en como se distribuye una variable es utilizando el denominado diagrama de caja y brazos, esta técnica de análisis exploratorio de datos nos puede servir para ver que tan dispersos están los datos Capı́tulo 1. Estadı́stica Descriptiva 11 si hay simetrı́a entre los datos o no la detección de valores atı́picos Un diagrama de caja y brazos se elabora como sigue: 1. De la muestra ordenada X(1) , X(2) , X(3) ,... , X(n) encontramos el primer cuartil P25 % y el tercer cuartil P75 % y dibujamos la caja o rectángulo cuyos extremos son (P25 % , P75 % ) , dentro del rectangulo dibujamos con una linea la posición de la mediana, P50 % 2. El lı́mite inferior del brazo, Li será la primera observación mayor o igual al número P25 % − 1.5RIC donde RIC = (P75 % − P25 % ) 3. El lı́mite superior del brazo, Ls será la primera observación menor o igual al número P75 % + 1.5RIC 4. Consideraremos como valores atı́picos a los valores situados fuera del intervalo (Li , Ls ) Ejercicio 1.4.1. Indica qué variables son numéricas y cuales categóricas, además indica la escala de medición : Comida Favorita. Profesión que te gusta. Número de goles marcados por tu equipo favorito en la última temporada. Número de alumnos de tu Instituto. El color de los ojos de tus compañeros de clase. Coeficiente intelectual de tus compañeros de clase. Demuestre que −1 ≤ rXY ≤ 1, donde Pn i=1 (xi− x̄)(yi − ȳ) rXY = pPn Pn 2 2 i=1 (xi − x̄) i=1 (yi − ȳ) Demuestre que |rXY | = 1 si y solo si existen una relación lineal entre las variables X y Y , es decir, yi = αxi + β con α 6= 0 Capı́tulo 1. Estadı́stica Descriptiva 12 Las calificaciones de 50 alumnos en Estadı́stica han sido las siguientes: 0, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 9, 9, 10 Calcular las medidas de tendencia central y de dispersión, ademas encuentre el Percentil 0.25 y 0.75 y elabore un gráfico de caja y brazos. ¿Los distribución de estos datos es Sesgada a la Izquierda? Hint: n = 50, ni=1 xi = 274, ni=1 x2i = 1700, ni=1 x3i = 11356 P P P Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Fı́sica. 48, 47, 44, 42, 41, 39, 39, 38, 38, 38, 37, 36, 36, 35, 35, 34, 34, 34, 33, 32, 32, 31, 29, 28, 28, 27, 26, 25, 24, 23, 22, 20, 17, 15, 15, 13, 13, 11, 7, 3 Calcular las medidas de tendencia central y de dispersión, ademas encuentre el Cuartil 1 y 3 ası́ como los Deciles 1 y 9. Elabore un gráfico de caja y brazos, ası́ como el gráfico de distribución empı́rica. ¿ Los datos tiene una distribución platicurtica? Hint: n = 40, ni=1 xi = 1169, ni=1 x2i = 38929, ni=1 x3i = 1388327, ni=1 x4i = 51786709 P P P P Capı́tulo 2 Repaso de Probabilidad 2.1. Funciones de distribución 2.1.1. Introducción Supongamos que tenemos una muestra de un cierto fenómeno o experimento aleatorio {X1 , X2 , X3 ,... , Xn } Como ya hemos visto una primera aproximación que podemos hacer es un análisis descriptivo de estos datos, sin embargo hagamos un paso mas de abstracción y preguntémonos si existe algún modelo matemático–probabı́listico que describa este fenómeno aleatorio. Resulta entonces interesante revisar los modelos probabilı́sticos más importantes que exis- ten, para ello recordemos el concepto más importante de la teorı́a de probabilidad, la variable aleatorı́a. 2.1.2. Variable Aleatoria El modelo matemático que explica el comportamiento de los resultados de los experimentos aleatorios está compuesto por dos elementos: El espacio de estados o espacio muestral Ω Una función de probabilidad, que denotaremos como P que toma valores en el intervalo [0, 1], esta función asigna probabilidades a los sucesos. Los elementos que integran el espacio muestral Ω son eventos y aquı́ se nos dificulta hacer operaciones con estos elementos. Para resolver este problema se recurre a la asignación de números 13 Capı́tulo 2. Repaso de Probabilidad 14 a los elementos de Ω. Para llevar a cabo las transformaciones de sucesos en números reales se introduce el concepto de variable aleatoria. Definición 2.1.1 (Variable Aleatoria). Una variable aleatoria (v.a.) X es una función (medible) que manda elementos de Ω a R (o un subconjunto de R), denotado por X : Ω → R, y al conjunto de los valores reales que puede tomar X le llamamos rango o recorrido. Diremos que una variable aleatoria X es discreta cuando el conjunto de valores que toma es finito o numerable. Por otro lado diremos que una variable aleatoria X es continua cuanto los valores puede tomar es un conjunto no numerable. Ejemplo 2.1.1. Pensemos en el experimento de lanzar tres volados con una moneda hones- ta y queremos calcular la probabilidad de que el número de águilas sea k, obviamente k ∈ {0, 1, 2, 3}.Entonces nuestro espacio muestral será: Ω = {(a, a, a), (a, a, s), (a, s, a), (s, a, a), (s, s, a), (s, a, s), (a, s, s), (s, s, s)} Luego, denamos una variable X como el número de águilas en los tres volados. Entonces el rango de la variable aleatoria, o los valores que puede tomar son X ∈ {0, 1, 2, 3}. Y las probabilidades de cada valor es: 1 P (X = 0) = P ({(s, s, s)}) = (2.1) 8 3 P (X = 1) = P ({(s, s, a)}) + P ({(s, a, s)}) + P ({(a, s, s)}) = (2.2) 8 3 P (X = 2) = P ({(a, a, s)}) + P ({(a, s, a)}) + P ({(s, a, a)}) = (2.3) 8 1 P (X = 3) = P ({(a, a, a)}) = (2.4) 8 Para resumir todas estas asignaciónes que hace la variable aleatoria ası́ como las probabili- dades asociadas se deben el concepto de función de distribución. Definición 2.1.2 (Función de distribución). La función de distribución acumulada de una va- riable aleatoria X evaluada en un real x la denotamos como FX (x) y representa: FX (x) = P (X ≤ x) Notemos que 0 ≤ FX (x) ≤ 1 por ser la probabilidad de un evento. Capı́tulo 2. Repaso de Probabilidad 15 Propiedades de la función de distribución FX (·) FX (−∞) = P (X ≤ −∞) = 0 y FX (∞) = P (X ≤ ∞) = 1 P (a < X ≤ b) = FX (b) − FX (a) Es monótona no decreciente P (a < X ≤ b) = FX (b) − FX (a) ≥ 0 La función de distribución es continua por la derecha. 2.1.3. Tipos de Variables Variable aleatoria discreta Una variable aleatoria es discreta cuando su rango es un conjunto finito o numerable de puntos. Cada punto tiene una masa de probabilidad de ocurrir P (X = xi ) = pi , a P (X = xi ) se le conoce como función de masa de probabilidad. Además si sumamos sobre todo el rango de la variable aleatoria los pesos deben ser igual a uno, es decir, X X P (X = xi ) = pi = 1. Entonces para una v.a. discreta la función de distribución FX (·) queda definida como: X FX (u) = P (X ≤ u) = P (X = xi ) , ∀u ∈ R. xi ≤u Observación: Cuando tenemos una variable aleatoria discreta en general P (X ≤ u) 6= P (X < u). Variables aleatorias continuas Una variable aleatoria X es continua si su función de distribución está definida como, Z x FX (x) = fX (u) du −∞ donde fX (·) se le conoce como la función de densidad y cumple con ser: 1. una función continua 2. fX (x) ≥ 0 R∞ 3. FX (∞) = −∞ fX (x)dx = 1 Algunas observaciones que podemos hacer son las siguientes: Capı́tulo 2. Repaso de Probabilidad 16 1. Como fX (·) es continua entonces FX (·) será también continua. 2. A partir de FX (·) podemos obtener fX (·) usando el Teorema Fundamental del Cálculo, puesto que d FX (x) = fX (x) dx 3. El conjunto de puntos donde fX (·) > 0 será el rango o soporte de la variable aleatoria. 4. Notemos que Z x P (X = x) = fX (u) du = 0 x y por lo tanto en este caso P (X ≤ u) = P (X < u) 2.2. Esperanza A continuación estudiaremos una de las caracterı́sticas más importantes de las variables alea- torias. La esperanza matemática (o sus sinónimos: Esperanza, valor esperado, media poblacional, media, primer momento) de una v.a. X es un promedio ponderado de acuerdo a la distribución teórica de probabilidades del fenómeno estudiado. O también lo podemos ver como el valor hacı́a el que tenderı́a la media aritmética x̄ si se tuvieran un número suficientemente grande de observaciones del fenómeno. La esperanza de una v.a. X, lo denotaremos por E (X) y lo calcularemos como sigue: P x · P (X = x) si la v.a. X es discreta, x∈Rango(X) E (X) = R ∞ x · f (x) dx −∞ X si la v.a. X es continua. Las propiedades más importantes de la Esperanza son las siguientes: Supongamos que k es constante, entonces la esperanza de una constante es igual a la misma constante, es decir E (k) = k. Sean X1 , X2 ,... , Xn , v.a.’s entonces la esperanza matemática de la suma (o resta) de varia- bles aleatorias es igual a la suma (o resta) de las esperanzas de cada una de esas variables Capı́tulo 2. Repaso de Probabilidad 17 aleatorias, es decir E (X1 ± X2 ±... ± Xn ) = E (X1 ) ± E (X2 ) ±... ± E (Xn ) Sean X1 , X2 ,... , Xn , v.a.’s, independientes, entonces la esperanza de un producto de v.a.’s es igual al producto de las esperanzas de cada una de las v.a.’s, si y sólo si son X1 , X2 ,... , Xn independientes E (X1 X2... Xn ) = E (X1 ) E (X2 )... E (Xn ) Sea X una v.a. y b una constante real, entonces la esperanza de una v.a. más una constante es igual a la esperanza de la v.a. más la constante, es decir: E (X + b) = E (X) + b. Sea X una v.a. y a una constante real, entonces la esperanza matemática de una constante por una v.a. es igual a la constante por la esperanza de la v.a. E (aX) = aE (X). Como una consecuencia inmediata de lo anterior diremos que la esperanza es un operador lineal, es decir que abre sumas y saca escalares. Es decir que si X1 , X2 ,... , Xn son v.a.’s, y a1 , a2 ,... , an , b son escalares, entonces: E (a1 X1 + a2 X2 +... + an Xn + b) = a1 E (X1 ) + a2 E (X2 ) +... + an E (Xn ) + b. Muchas veces estarémos interesados en calcular la esperanza de una funcion evaluada en una v.a., la definición de esperanza nos obligarı́a entonces a primero encontrar la distribución de la transformación de la v.a. sin embargo el siguiente teorema nos brinda una manera mas fácil de llevar a cabo el cálculo de la esperanza: Teorema 2.2.1. Sea X una v.a. g una función (medible) , entonces g(X) también es una variable aleatoria y su esperanza puede ser calculada como sigue: P g(x)P (X = x) si la v.a. X es discreta, x∈Rango(X) E (g(X)) = R ∞ g(x)f (x) dx −∞ X si la v.a. X es continua. Capı́tulo 2. Repaso de Probabilidad 18 En particular si en el teorema anterior, proponemos la transformación g(X) = X r , entonces a la cantidad E (g(X)) = E (X r ) se le conoce como el r-ésimo momento con respecto a el origen, y en forma compacta lo denotamos por E (X r ) = αr. Un resultado muy importante nos dice que si el momento de orden t existe, entonces todos los momentos de orden inferior existen. En sı́mbolos esto se escribe ası́: αt = E X t < ∞ entonces αr = E (X r ) < ∞, con r ≤ t. Los momentos con respecto al origen más usados son: α0 = E (X 0 ) = 1 α1 = E (X) = µ α2 = E (X 2 ) α3 = E (X 3 ) α4 = E (X 4 ) Por otro lado, si definimos g(X) = (X − µ)r , donde E (X) = µ. Entonces a E ((X − µ)r ) lo llamamos el r-ésimo momento respecto a la media y lo denotaremos por µr = E ((X − µ)r ). Los momentos con respecto a la media más usados son: µ1 = E (X − µ)1 = 0 µ2 = E (X − µ)2 , ası́ definiremos la varianza µ3 = E (X − µ)3 , se usa para calcular el coeficiente de asimetrı́a poblacional. µ4 = E (X − µ)4 , se usa para calcular la kurtosis poblacional. Notemos que los momentos con respecto a la media, µr , se pueden calcular a partir de los momentos con respecto al origen αr. Por ejemplo µ2 = E (X − µ)2 = E X 2 − 2µX + µ2 = E X 2 − 2µE (X) + µ2 = E X 2 − 2µ2 + µ2 = α2 − α12 = E X 2 − (E (X))2 Capı́tulo 2. Repaso de Probabilidad 19 De manera análoga podemos calcular µk = E (X − µ)k usando el binomio de Newton, la única condición que necesitamos es que los momentos con respecto al origen αj = E (X j ) para j ∈ {1, 2,... , k} existan, que de hecho es equivalente a decir que αk = E X k exista. 2.3. Varianza El segundo momento respecto a la media µ2 = E (X − µ)2 lo conoceremos como la varianza y lo denotado por Var(X) ó σ 2 y es una medida que refleja que tan dispersos esperamos que estén los valores que toma la v.a. con respecto de la media µ. Propiedades de la varianza La varianza siempre es mayor o igual a cero, puesto que estamos calculando la esperanza de la v.a. (X − µ)2 ≥ 0 La desviación tı́pica o estándar es la parte positiva de la raı́z cuadrada de la varianza, y la denotaremos por σ. Esta medida también representa que tanta dispersión hay en la v.a., pero σ está en las mismas unidades que la media µ de la v.a. La varianza de una variable aleatoria que no muestra dispersión será cero, es decir es constante. Si definimos el Error Cuadrático Medio como, ECMu (X) = E (X − u)2 , con u ∈ R. Es decir, ECMu (X) representa la dispersión de la v.a. al rededor de algún número real u. Entonces se puede probar que minE (X − u)2 = E (X − µ)2 = V ar (X). u∈R Si X es una v.a. con segundo momento y c es una constante real, entonces V ar (cX) = c2 V ar (X) Si X es una v.a. con segundo momento y b es una constante real, entonces V ar (X + b) = V ar (X) Sean X y Y dos v.a. y el primer momento de cada v.a. lo representaremos como sigue: Capı́tulo 2. Repaso de Probabilidad 20 E (X) = µX y E (Y ) = µY , entonces como: E (X ± Y ) = E (X) ± E (Y ) = µX ± µY. Entonces la varianza de la v.a. X ± Y es por definición: Var(X ± Y ) = E {(X ± Y ) − (µX ± µY )}2 definición = E {(X − µx ) ± (Y − µY )}2 reordenando = E (X − µx )2 + E (Y − µy )2 ± 2 · E ((X − µX ) (Y − µy )) = Var(X) + Var(Y ) ± 2 · Cov (X, Y ). A la expresión E ((X − µx ) (Y − µy )) la conocemos como la covarianza entre las v.a.’s X y Y , y la denotamos por el sı́mbolo Cov (X, Y ) o como σX Y Si Cov (X, Y ) > 0 significa que cuando la v.a. X crece (disminuye) también la v.a. Y crece (disminuye). Si Cov (X, Y ) < 0 significa que cuando la v.a. X crece (disminuye) la v.a. Y disminuye (crece). Si Cov (X, Y ) = 0 entonces Var(X ± Y ) = Var(X) + varY Algunas observaciones de la varianza son las siguiente: Si X y Y son v.a. independientes entonces la covarianza es cero pues Cov (X, Y ) = E ((X − µx ) (Y − µy )) por independencia = E (X − µx ) E (Y − µy ) = 0·0=0 Y por lo tanto Var(X ± Y ) = Var(X) + Var(Y ) Pero es muy importante notar que Cov (X, Y ) = 0 no implica necesariamente indepen- dientes entre las v.a.’s. Para poder afirmar que Cov (X, Y ) = 0 implica independencia se debe de añadir la hipótesis de Normalidad conjunta del vector (X, Y ). Capı́tulo 2. Repaso de Probabilidad 21 El siguiente ejercicio muestra la necesidad de pedir Normalidad Conjunta para poder afir- mar la independencia cuando Cov (X, Y ) = 0 Ejercicio 2.3.1. Considere X v.a. con función de densidad dada por: 1 1 2 fX (x) = √ e− 2 x 2π Defina además a la v.a. discreta W tal que P (W = 1) = P (W = −1) = 12. Suponga que X es independiente de W. Ahora defina la v.a. Y como: Y = WX Demuestre entonces que Y sigue la misma distribución de X ∼ N ormal(0, 1) Cov (X, Y ) = 0 X no es independiente de Y Algunas funciones de distribución discretas Nombre Parámetro P (X = x) Rango E (X) V ar (X) 1−x Bernoulli p ∈ (0, 1) px (1 − p) x ∈ {0, 1} p p(1 − p) n x p (1 − p)n−x Binomial n ∈ N, p ∈ (0, 1) x x ∈ {0, 1,... , n} np np(1 − p) x−1 k p (1 − p)x−k k k(1−p) Binomial Negativa p ∈ (0, 1) , k ∈ N k−1 x ∈ {k, k + 1,... , } p p2 e−λ λx Poisson λ ∈ (0, ∞) x! x ∈ {0, 1, 2,...} λ λ Algunas funciones de distribución continuas Nombre Parámetro fX (x) Rango E (X) V ar (X) 1 b+a (b−a)2 Uniforme a < b, a, b ∈ R b−a x ∈ (a, b) 2 12 −λx 1 1 Exponencial λ ∈ R+ λe x ∈ (0, ∞) λ λ2 + β α α−1 −βx α α Gamma α, β ∈ R Γ(α) x e x ∈ (0, ∞) β β2 x α−1 (1−x)β−1 α αβ Beta α ∈ R+ ,β ∈ R+ Beta(α,β) x ∈ (0, 1) β+α (α+β)2 (α+β+1) n o (x−µ)2 Normal µ ∈ R,σ 2 ∈ R+ √ 1 exp − 2σ2 x∈R µ σ 2 2πσ 2 Donde: Z ∞ Γ (α) Γ (β) Γ (x) = tx−1 e−t dt; ; Beta (α, β) = 0 Γ (α + β) Capı́tulo 2. Repaso de Probabilidad 22 Dentro de la teorı́a estadı́stica, surgen otras distribuciones las cuales enunciamos a continua- ción: Definición 2.3.1 (Densidad χ2 ). Decimos que X es una v.a. continua con distribución χ2 con n grados de libertad si su función de densidad está dada por: 1 n 1 fX (x) = n n x 2 −1 e− 2 x ; x > 0; n > 0; 2 Γ 2 2 y lo denotamos como X ∼ χ2(n). Se puede además probar que: E(X) = n Var(X) = 2n Observe que la distribución χ2(n) es un caso particular de la densidad Gamma con parámetros α = n2 y β = 12 Definición 2.3.2 (Densidad t-student). Decimos que X es una v.a. continua con distribución t-student con n grados de libertad si su función de densidad está dada por: (n+1) 2 − 2 Γ n+1 2 x fX (x) = √ 1+ ; x > 0; n>0 nπΓ n2 n y lo denotamos como X ∼ t(n). Se puede además probar que: E(X) = 0; n>1 n Var(X) = n−2 ; n>2 Definición 2.3.3 (Densidad F-snedecor). Decimos que X es una v.a. continua con distribución F-snedecor con n1 y n2 grados de libertad si su función de densidad está dada por: n q (n1 x)n1 n2 2 (n1 x+n2 )n1 +n2 fX (x) = x > 0; n1 > 0; n2 > 0 xBeta n21 , n22 y lo denotamos como X ∼ F(n1 ,n2 ). Se puede además probar que: n2 E(X) = n2 −2 ; n2 > 2 2n22 (n1 +n2 −2) Var(X) = n1 (n2 −2)2 (n2 −4) n2 > 4 Diremos que la v.a. X sigue cierta una distribución FX (x), de las siguientes formas Capı́tulo 2. Repaso de Probabilidad 23 X ∼ fX (x) X ∼ FX (x) X ∼ nombre de la v.a. y sus parámetros Ejercicio 2.3.2. Sea X una v.a. continua tal que tiene por función de densidad dada por fX (x) = a + bx si x ∈ [−1, 1] y 0 fuera de dicho intervalo. Se pide: Calcular a y b sabiendo que E(X) = 1 6 Calcular la varianza de X Calcular la distribución de la variable X 1 Encontrar la esperanza de X 2 y la V ar(|X| 2 ) Encuentre la esperanza y varianza para el modelo Binomial Negativo con función de masa de probabilidad dada por: x−1 k P (X = x) = p (1 − p)x−k ; x ∈ {k, k + 1, k + 2,...} k−1 Encuentre la esperanza y varianza para el modelo Gamma con función de densidad dada por: β α α1 −βx fX (x) := x e ; x ∈ (0, ∞) Γ(α) 2.3.1. Función Generadora de Momentos Supongamos que tenemos 2 variables aleatorias X y Y tales que se cumple que: E(X) = E(Y ) E X2 = E Y2 E X3 = E Y3 ... E Xk = E Yk Si ocurre lo anterior para un k muy grande pareciera mucha coincidencia y uno empezarı́a a sospechar que posiblemente X y Y tienen la misma distribución. ¿Pero cómo calculo todos los Capı́tulo 2. Repaso de Probabilidad 24 momentos de una distribución?, precisamente aquı́ es donde entra la necesidad de definir una función que nos ayude a generar los momentos de las distribuciones que estamos estudiando. Definición 2.3.4 (Función Generadora de Momentos F.G.M). Sea X una v.a. aleatoria, tal que E etX < ∞, definimos la función generadora de momentos para X como: Z ∞ tX etx fX (x) dx MX (t) = E e = −∞ Pero, ¿por qué le decimos función generadora de momento? Notemos lo siguiente, sabemos utilizando el polinomio de Taylor que: ∞ x x x2 x3 X xn e =1+ + + +...+ = 1! 2! 3! n=0 n! Por lo tanto : ∞ ! ∞ ∞ (tX)n (tX)n tn X X X tX MX (t) = E e =E = E = mn n=0 n! n=0 n! n=0 n! Donde mn = E(X n ) es el momento de orden n de la variable aleatoria X. Entonces: ∞ ∂ X tn−1 MX (t) = mn = m1 = E(X) ∂t t=0 n=1 (n − 1)! t=0 ∞ ∂2 X tn−2 = m2 = E X 2 MX (t) = mn ∂t2 t=0 n=2 (n − 2)! t=0... ∞ ∂k X tn−k = mk = E X k MX (t) = mn ∂tk t=0 n=k (n − k)! t=0 Luego entonces, la función MX (t) es tal que su k-ésima derivada evaluada en 0 genera el k-ésimos momento de de la variable aleatoria X. Por lo tanto si resulta que dos variables aleatorias es tal que MX (t) = MY (t) entonces se concluye que ambas variables tendrán todos los momentos iguales, lo que nos harı́a sospechar que siguen la misma distribución. Esto se ve reflejado en el siguiente teorema. Teorema 2.3.1. Sea X y Y dos variables aleatorias tales que MX (t) = MY (t) entonces, X y Y Capı́tulo 2. Repaso de Probabilidad 25 tienen la misma distribución lo que denotamos como: d X=Y Ejemplo 2.3.1. Supongamos que tenemos X ∼ N (0, 1). Entonces: Z ∞ 1 x2 1 2 MX (t) = etx √ e− 2 dx = e 2 t −∞ 2π Luego si derivamos y valuando en cero verificamos que en efecto genera los primeros momentos de la distribución normal. ∂ 1 2 MX (t) = e2t t = 0 = E(X) ∂t t=0 t=0 ∂2 1 2 1 2 = e 2 t + e 2 t t2 = 1 = E X2 MX (t) ∂t2 t=0 t=0 Algunas propiedades del F.G.M son la siguientes: Si X y Y son independientes entonces: MX+Y (t) = MX (t)MY (t) Si a ∈ R y X es variable aleatoria entonces: MaX (t) = MX (at) Si a, b ∈ R y X es variable aleatoria entonces: MaX+b (t) = etb MX (at) Ejercicio 2.3.3. Sea X ∼ N (µ, σ 2 ) muestre: 1 2 2 MX (t) = e 2 t σ +tµ Sea X ∼ Exp (λ) muestre: λ MX (t) = λ−t Observe entonces que por el ejercicio anterior y el teorema (2.3.1) sabemos que si encontramos Capı́tulo 2. Repaso de Probabilidad 26 Z una v.a. tal que Z ∞ 1 2 2 MZ (t) = etz fZ (z)dz = e 2 t σ +tµ −∞ Entonces podrı́amos concluir que Z sigue una distribución Normal de parámetros µ , σ 2. Ejercicio 2.3.4. Utilizando la función generadora de momentos pruebe que si U ∼ U (0, 1) 1 entonces Y = − λ log U sigue una distribución exponencial Sea X ∼ Gamma(α, β) con función de densidad dada por: β α α−1 −βx fX (x) := x e ; x ∈ (0, ∞) Γ(α) 1. Pruebe que la función generado de momentos de X está dada por: −α t MX (t) = 1 − t 0 es función de densidad del vector si: Z x1 Z x2 Z xn FX (x1 ,... , xn ) =... fX (t1 ,... , tn ) dt1... dtn −∞ −∞ −∞ De aquı́ queda claro usando el T.F.C que: ∂ fX (x1 ,... , xn ) = FX (x1 ,... , xn ) ∂x1 ∂x2... ∂xn Por otro lado si el vector contiene variables aleatorias discretas entonces, la función de densidad de probabilidad del vector se define como: fX (x1 ,... , xn ) = P (X1 = x1 ,... , Xn = xn ) De esto se prueba entonces que cuando el vector es discreto que: X FX (x1 ,... , xn ) = fX (xi1 ,... , xin ) {i1 :xi1 ≤x1 };...;{in :xin ≤xn } Con la definición de independencia y de función de densidad podemos probar que X y Y son independientes si y solo si: fX,Y (x, y) = fX (x) fY (y) Esto se generaliza para n variables fácilmente diciendo que X1 ,... , Xn son variables aleatorias independientes si y solo si: n Y fX (x1 ,... , xn ) = fX1 (x1 )... fXn (xn ) = fXi (xi ) i=1 Adamás se pueden encontrar la funciones de densidad marginales integrando o sumando respecto Capı́tulo 2. Repaso de Probabilidad 30 al resto de las variables como se muestra a continuación: Z ∞ Z ∞ fXi (xi ) =... fX (x1 ,... , xn ) dx1... dxi−1 dxi+1... dxn −∞ −∞ Ejercicio 2.4.1. Supongamos que las variables (X, Y ) pueden tomar los valores (0, 0); (1, 1); (−1, 1); (1, −1)y(−1, −1) cada uno con probabilidad 51. Encuentre la función de distribución y determine si estas variables son independientes Supongamos que las variables (X, Y ) pueden tomar los valores (1, 1); (2, 1); (1, 2); (3, 1) tal que: P (X = i, Y = j) = C (i + j) Donde C es una constante, determine el valor de C y obtenga la función de densidad de probabilidad marginal correspondiente a la primera variable. Suponga que P (X = i, Y = j) = Cαi β j i, j ∈ N; 0 < α, β < 1 Halle el valor de C para que P (X = i, Y = j) sea una función de densidad de probabilidad. Se lanzan dos tetraedros con caras numeradas del 1 al 4. Escriba el espacio muestral Ω de este experimento Sea X la v.a que indica el número obtenido en el primer tetraedro y Y la v.a. que indica el mı́nimo de las dos caras obtenidas, encuentre la función de densidad de probabilidad P (X = x, Y = y) con x ∈ {1, 2, 3, 4}, y ∈ {1, 2, 3, 4}. Finalmente encuentre la función de distribución FXY (x, y). 2.4.1. Probabilidades Condicionales Dentro del estudio de probabilidades surgió la necesidad de medir la probabildad de los eventos dado que ocurrio otro cierto evento, a esto se le llamsa una medida de probabilidad condicional y se define como sigue: Capı́tulo 2. Repaso de Probabilidad 31 Definición 2.4.5 (Probabilidad Condicional). Sea A y B dos evento tal que P (B) > 0, definimos la probabilidad condicional como: P (A ∩ B) P(A | B) = P (B) Ahora supongamos que tenemos dos variables aleatorias discretas X y Y , se desea obtener la función de densidad de probabilidad para la variable aleatoria X condicionada a que ocurrió el evento Y = y (Suponga que P (Y = y) > 0), resulta natural entonces definir a dicha función como: P (X = x ∩ Y = y) fX,Y (x, y) fX|Y (x|y) = = P (Y = y) fY (y) Finalmente este último resultado se extiende para variables aleatorias continuas de la misma forma Definición 2.4.6 (Densidad Condicional). Sean X y Y v.a. aleatorias, definimos la función de densidad condicional de X dado Y = y tal que fY (y) > 0 como: fX,Y (x, y) fX|Y (x|y) = fY (y) Observe que cuando X y Y son independientes se tiene que: fX,Y (x, y) fX (x) fY (y) fX|Y (x|y) = = = fX (x) fY (y) fY (y) Generalizando lo anterior se puede probar que la función de distribución condicional se puede obtener sumando o integrando a la respectiva función de densidad condicional, en el caso continuo Z x FX|Y (x|y) = P (X ≤ x|Y = y) = fX|Y (t|y) dt −∞ Mientras que en el caso discreto: X FX|Y (x|y) = P (X ≤ x|Y = y) = fX|Y (xi |y) {i:xi ≤x} Por otro lado el concepto de esperanza también puede ser extendido al caso condicional el cual se define de forma natural como: Definición 2.4.7 (Esperanza Condicional evaluada). Sea X y Y variables aleatorias tal que fY (y) > 0 entonces definimos la esperanza condicional de X dado Y = y como: Capı́tulo 2. Repaso de Probabilidad 32 Si X y Y son continuas: Z ∞ E(X|Y = y) = xfX|Y (x|y) dx −∞ Si X y Y son discretas: X E(X|Y = y) = xfX|Y (x|y) x∈Rango(X) Se podrá además probar que la esperanza condicional de una transformación de variables aleato- rias está dado por: Z ∞ E(h(X)|Y = y) = h(x)fX|Y (x|y) dx −∞ A partir de la varianza condicional podremos definir a la varianza condicional: Definición 2.4.8 (Varianza Condicional evaluada). Sea X y Y variables aleatorias tal que fY (y) > 0 entonces definimos la varianza condicional de X dado Y = y como: Var(X|Y = y) = E X 2 |Y = y − (E(X|Y = y))2 La interpretación que daremos a E(X|Y = y) es nuevamente la de un promedio ponderado y nos indica el valor que en promedio estará obteniendo la variable aleatoria X condicionada a que la v.a. Y en todas las repeticiones siempre tomó el valor de Y = y. Por otro lado Var(X|Y = y) se interpreta como una medida de la variabilidad que tiene la variable X condicionada a que la v.a. Y tomó el valor de Y = y. Observe además que E(X|Y = y) es una función de y, muchas veces escribimos entonces E(X|Y = y) = g(y), sin embargo aveces será necesario calcular la esperanza de X condicionada a Y sin evaluar a la variable aleatoria, en este caso también vamos a poder definir una esperanza condicional de la siguiente manera: Definición 2.4.9 (Esperanza Condicional). Sea X y Y variables aleatorias tal que existe E(X|Y = y) = g(y) ∀y en el soporte de Y , definimos a E(X | Y ) como a la variable aleatoria dada por: E(X | Y ) = g (Y ) Definición 2.4.10 (Varianza Condicional). Sea X y Y variables aleatorias tal que existe Var(X|Y = y) = g(y) Capı́tulo 2. Repaso de Probabilidad 33 ∀y en el soporte de Y , definimos a Var(X|Y ) como a la variable aleatoria dada por: Var(X|Y ) = g (Y ) Dado que E(X | Y ) es una v.a. resulta entonces interesante también poder calcularle sus momentos, en este caso se prueba que: E(X) = E(E(X | Y )) Var(X) = E(Var(X|Y )) + Var(E(X|Y )) Ejercicio 2.4.2. Considera la siguientes densidad conjunta: 1 −( 2yx + y4 ) f (x, y) = e x, y > 0 8y Encuentra la densidad marginal fY (y) y la densidad condicional fX|Y (x|y), finalmente encuentre E(Y ) y Var(Y ) ası́ como E(X | Y ) y Var(X|Y ) Considera la siguiente densidad conjunta: 2 −y 2 f (x, y) = 4xye−x x, y > 0 Encuentre las marginales fX (x), fY (y) ası́ como las condicionales fX|Y (x|y), fY |X (y|x), finalmente encuentre E(Y ) y Var(Y ) ası́ como E(X | Y ) y Var(X|Y ) Considera la densidad Normal Multivariada. (x − µ1 )2 (y − µ2 )2 1 1 x − µ1 y − µ2 fXY (x, y) = exp − − 2ρ + 2(1 − ρ2 ) σ12 σ22 p 2πσ1 σ2 1 − ρ2 σ1 σ2 Prueba que la densidad marginal fX (x) corresponde a la densidad Normal de parámetros µ = µ1 y σ 2 = σ12 , N µ1 , σ12 Finalmente encuentre la densidad condicional fY |X (x|y) y prueba que corresponde a una densidad N µ = µ2 + ρ σσ21 (x − µ1 ) , σ 2 = σ22 (1 − ρ2 ) Sea (X, Y ) un vector aleatorio con función de densidad dada por: y fXY (x, y) = 2e− x 0 ≤ x ≤ 1; y>0 Encuentre E(Y ) y Var(Y ) sin utilizar la densidad de Y. Capı́tulo 2. Repaso de Probabilidad 34 2.5. Teorema de Cambio de Variable Dentro del análisis de la muestra que haremos en nuestro estudio será necesario llevar a cabo transformaciones de variables aleatorias y por tanto debemos conocer herramientas que nos ayuden a encontrar las distribuciones de dichas transformaciones. Como ya vimos una forma de atacar el problema es utilizar la función generadora de momentos para deducir la distribución de la transformación, sin embargo a veces dicha técnica no funcionará. El caso mas sencillo es el siguiente, supongamos que tenemos una v.a. X y construimos Y otra v.a. tal que Y es una transformación monótona (creciente o decreciente) de X, es decir: Y = g(X) Suponiendo X continua sabemos que Y también será continua por lo tanto podemos preguntarnos por encontrar a FY (y) el cual nos dice el comportamiento distribucional de Y. FY (y) := P (Y ≤ y) = P (g(X) ≤ y) = P X ≤ g −1 (y) = FX g −1 (y) Luego entonces, si queremos a la función de densidad de Y bastarı́a con derivar respecto a y a la función de distribución y entonces obtener: ∂ ∂ ∂ −1 FX g −1 (y) = fX g −1 (y) fY (y) = FY (y) = g (y) ∂y ∂y ∂y ∂ −1 en la última igualdad tenemos el problema que no necesariamente ∂y g (y) es positivo, (pues depende de si g es creciente o decreciente) luego entonces para garantizar que fY (y) sea densidad debemos colocar valor absoluto ∂ −1 fY (y) = fX g −1 (y) g (y) ∂y Con la formula anterior es fácil por ejemplo , obtener la densidad de transformaciones lineales de variables aleatorias. X−µ Ejemplo 2.5.1. Sea X ∼ N (µ, σ 2 ), muestre que Z = σ ∼ N (0, 1). FZ (z) = FX (zσ + µ) Derivando: 1 1 2 1 1 2 fZ (z) = fX (zσ + µ) σ = √ e− 2σ2 (zσ+µ−µ) = √ e− 2 z 2πσ 2 2π Capı́tulo 2. Repaso de Probabilidad 35 Esté método también puede ser utilizado en funciones que son invertibles por partes, esto lo podemos ver en el siguiente ejemplo: Ejemplo 2.5.2. Sea Z ∼ N (0, 1), muestre que Y = Z 2 ∼ χ21. Observemos primero que Y es una variable aleatoria que solo puede tomar valores positivos √ √ √ FY (y) = P (Y ≤ y) = P Z 2 ≤ y = P (|Z| ≤ y) = P (− y ≤ Z ≤ y) √ √ √ √ = P (Z ≤ y) − P (Z < − y) = FZ ( y) − FZ (− y) Derivando obtenemos que la densidad de Y está dada por: ∂ √ √ √ 1 √ 1 fY (y) = (FZ ( y) − FZ (− y)) = fZ ( y) √ + fZ (− y) √ ∂y 2 y 2 y √ 1 1 1 1 1 1 1 = fZ ( y) √ = √ e− 2 y √ = 1 1 y 2 −1 e− 2 y y 2π y 22 Γ 2 Lo que demuestra que Y sigue una distribución χ2(1). El teorema de cambio puede generalizarse para transformaciones de Rn a Rn invertibles de la siguiente forma: Teorema 2.5.1 (Teorema de Cambio de Variable - Caso Absolutamente Continuo). Sea X = (X1 ,... , Xn )T un vector aleatorio con función de densidad dada por fX (x1 ,... , xn ). Sea g : Rn → Rn una transformación invertible. g (x1 ,... , xn ) = (y1 = g1 (x1 ,... , xn ) ,... , yn = gn (x1 ,... , xn )) Como g es invertible entonces sabemos existen w1 ,... , wn funciones de Rn a R tales que: x1 = w1 (y1 ,... , yn ) x2 = w2 (y1 ,... , yn )... xn = wn (y1 ,... , yn ) Definamos al vector aleatorio Y = (Y1 ,... , Yn )T obtenido de transformar a X por medio de g, es decir Y = g (X). Entonces la densidad conjunta del vector aleatorio Y está dado por: fY (y1 ,... , yn ) = fX (w1 (y1 ,... , yn ) ,... , w1 (y1 ,... , yn )) |det J| Capı́tulo 2. Repaso de Probabilidad 36 Donde J es la matriz jacobiana. ∂ (J)ij = wi ∂yj Consideremos por ejemplo una transformación lineal de R3 a R3 dada por: g(x1 , x2 , x3 ) = (3x1 , x1 − 4x2 , x3 )T Ahora supongamos que tenemos un vector aleatorio continuo en R3 con función de densidad fX (x1 , x2 , x3 ), definamos al vector aleatorio Y = (Y1 , Y2 , Y3 )T , tal que: Y = g (X) = (3X1 , X1 − 4X2 , X3 )T Se desea encontrar la función de densidad del vector Y. Esto lo podemos resolver utilizando el teorema de cambio de variable muy fácilmente, primero notemos que al ser g una transformación lineal, entonces existe una matriz que construye a dicha transformación lineal. Y = g (X) = AX = (3X1 , X1 − 4X2 , X3 )T Con A una matriz de la forma: 3 0 0 A = 1 −4 0 0 0 1 Observe que como A es de rango completo, entonces existe su inversa lo cual era de esperarse al ser g invertible, luego entonces: 1 3 0 0 Y1 T 1 1 1 X = A−1 Y = 12 1 1 − 4 0 Y2 = Y1 , Y1 − Y2 , Y3 3 12 4 0 0 1 Y3 En este caso entonces las funciones wi están dadas por: 1 x1 = w1 (y1 , y2 , y3 ) = y1 3 1 1 x2 = w2 (y1 , y2 , y3 ) = y1 − y2 12 4 x3 = w3 (y1 , y2 , y3 ) = y3 De donde queda claro que la matriz Jacobiana está dada precisamente por A−1 , luego entonces, Capı́tulo 2. Repaso de Probabilidad 37 por el teorema de cambio de variable la densidad del vector aleatorio Y está dado por: 1 1 1 1 1 1 1 fY (y1 ,... , yn ) = fX y1 , y1 − y2 , y3 |det J| = fX y1 , y1 − y2 , y3 3 12 4 3 12 4 12 Ejercicio 2.5.1. Sea Z = (Z1 ,... , Zn )T un vector aleatorio continuo tal que: n n ! n 1 1X 2 1 1 fZ (z1 ,... , zn ) = √ exp − z = √ exp − z t z 2π 2 i=1 i 2π 2 Sea Σ una matriz definida positiva y µ ∈ Rp un vector de números reales. Demuestre que el vector 1 aleatorio X = Σ 2 Z + µ tiene por densidad: n 1 − 12 1 T −1 fX (x1 ,... , xn ) = fX (x) = √ det Σ exp − x − µ Σ x−µ 2π 2 Observacion: Cuando un vector aleatorio X tiene la densidad anterior, decimos que X sigue una distribución multivariada y lo denotamos por: X ∼ Nn µ, Σ Hint: Recuerde que como Σ es definida positiva entonces puede ser expresada según la descom- posición espectral como: Σ = Γ∆ΓT Luego entonces defina: Σα = Γ∆α ΓT α∈R Donde: ∆α = diag (λα1 ,... , λαn ) Ahora utilizaremos el teorema de cambio de variable para obtener uno de los resultados mas utilizados en la teorı́a de la estadı́stica: Teorema 2.5.2. Sea Z ∼ N (0, 1) y X ∼ χ(n) , suponga Z y X independientes. Entonces: Z T = q ∼ t(n) (t − student) X n Capı́tulo 2. Repaso de Probabilidad 38 Demostración. Por la definición (2.3.2), tenemos que demostrar que: − (n+1) Γ n+1 2 t2 2 fT (t) = √ 1 + ; t > 0; n>0 nπΓ n2 n Como Z ∼ N (0, 1) y X ∼ χ(n) por independencia tendrı́amos que: n x 2 −1 1 2 fXZ (x, z) = fX (x) fZ (z) = n n √ exp − z + x z ∈ R; x > 0 22Γ 2 2π 2 Definamos la siguiente transformación del vector aleatorio (X, Z)T ! ! V X X V = √Z ⇒ = qV T X Z T n n Note que: ! z g (x, z) = x, p x = (v, t) n Por lo tanto las funciones inversas son: x = w1 (v, t) = v r v z = w2 (v, t) = t n Esta tranformación tiene por Jacobiano: ! ! ∂w1 ∂w1 ∂v ∂t 1 0 J= ∂w2 ∂w2