Resumen de Estadística PDF
Document Details
Tags
Summary
El documento proporciona un resumen de conceptos básicos de estadística. Incluye definiciones de conceptos como población, muestra, variables, estadística descriptiva e inferencial. Se mencionan tipos de variables, escalas y distribuciones, tanto unidimensionales como bidimensionales.
Full Transcript
Concepto de Estadística La estadística es el arte y la ciencia de reunir, analizar, presentar e interpretar datos. Proporciona instrumentos para la toma de decisiones cuando prevalecen condiciones de incertidumbre y para resolver problemas en caso de variabilidad Población: es el conjunto completo...
Concepto de Estadística La estadística es el arte y la ciencia de reunir, analizar, presentar e interpretar datos. Proporciona instrumentos para la toma de decisiones cuando prevalecen condiciones de incertidumbre y para resolver problemas en caso de variabilidad Población: es el conjunto completo de elementos o individuos que interesa en una investigación, cada elemento se designa como unidad estadística y su tamaño se representa por la letra N. Muestra: es una parte de la población que se selecciona para realizar una determinada investigación y su tamaño se indica con n M OOM Muestra Aleatoria: es aquella en la que todos los elementos de la población tienen una probabilidad conocida de ser seleccionados. Muestra Aleatoria Simple: cuando la probabilidad es igual para todas las unidades estadísticas Marco muestral: listado de los elementos a partir del cual se selecciona la..CC muestra en estadística. Variables: características de la unidad estadística relacionada con el tema sobre el cual estamos investigando que deben relevarse se denominan en estadística. DDDD Parámetro y Estadístico Toda medida resumen que se calcula para describir características poblacionales se llama parámetro, el cual es una cantidad fija que generalmente no se conoce y debe ser estimada. Un estadístico es una medida calculada con las observaciones muestrales. LLAA La Estadística Descriptiva: está formada por aquellos métodos gráficos y numéricos que se utilizan para resumir y procesar los datos, con el fin de describir apropiadamente sus principales características FFII La Inferencia Estadística: incluye los métodos que permiten hacer generalizaciones con respecto a la población con base en información proporcionada por una muestra aleatoria, con un grado de incertidumbre cuantificable. ❖ Tipos de variables -variable cuantitativa: Cuando se trata de un número Numérica discreta: los valores surgen de un conteo o de una enumeración Numérica continua: los valores se obtienen datos a través de un sistema de medición -Variable categórica: la variable no admite una respuesta numérica, sino que la unidad de análisis se asigna a una clase o categoría Escalas Nominal: cuando los elementos se asignan a categorías preestablecidas. Ordinal: cuando las respuestas están dispuestas en un cierto orden. Puede utilizarse en variables numéricas y categóricas. Este archivo fue descargado de https://filadd.com De Intervalo: agrega a la propiedad de orden, la de igualdad de diferencias dada por distancias o intervalos iguales. Solo puede utilizarse en variables numéricas. De razón: Son variables donde el cero indica nulidad o ausencia de los que se estudia. Solo ser utiliza en variables numéricas. Distribuciones Unidimensionales -Variables Categóricas: Para armar una tabla resumen de este tipo de variables, contamos la cantidad de casos que pertenecen a cada clase o categoría, lo que se denomina frecuencia absoluta y calculamos la proporción de casos en cada una de ellas, lo que se M OOM denomina frecuencia relativa, las que pueden expresarse en porcentajes. Con estas frecuencias, se puede construir una tabla de tres columnas, donde en la primera se anotarán las categorías y en las otras dos, la cantidad y el porcentaje de observaciones. Esta información puede representarse gráficamente. Los gráficos no agregan información pero se emplean para tener una representación visual de la totalidad de la misma. Pueden utilizarse el grafico de barras y el diagrama circular...CC -Variables numéricas Discretas: Para construir la tabla de distribución de frecuencias colocamos en la primera columna de manera enumerarada los k valores distintos de la variable, que se denotan con xi para DDDD i=1,2,...,k, donde x1 es el mínimo y xk es el máximo valor que asume. Cabe aclarar que cuando la variable es discreta pero asume muchos valores distintos puede también presentarse por una distribución por intervalos. En las siguientes columnas se establecen las frecuencias absolutas simples, relativas simples, absolutas acumuladas y relativas acumuladas. LLAA -Continuas: es necesario agrupar los datos en intervalos. Para construir una tabla de distribución de frecuencias por intervalos, debemos seguir los siguientes pasos: 1) decidir la cantidad de intervalos de clase apropiados; 2) obtener la amplitud de los mismos; 3) establecer una regla general para definir los límites del intervalo de cada clase. Los gráficos de las frecuencias FFII absolutas o relativas simples para distribuciones por intervalos son gráficos de superficie llamados histogramas Distribuciones Bidimensionales Dos variables categóricas: se construye una tabla de frecuencias conjunta denominada tabla de contingencia. En una tabla de contingencia una variable se representa en las filas y otra en las columnas. En cada celda de la tabla se representa la frecuencia (absoluta o relativa) asociada al par de categorías que se intersecan entre la fila y la columna. Las frecuencias marginales son aquellas que se encuentran en los costados del cuadro donde se expresan los totales de cada categoría y el total de ambas. Dos variables numéricas: Para visualizar su comportamiento conjunto es conveniente realizar un gráfico de dispersión. No es conveniente representar estos datos en una tabla de frecuencias debido a que se trata de variables continuas o discretas numerosas Este archivo fue descargado de https://filadd.com Los gráficos logarítmicos o a escala logarítmica son utilizados para representar series económicas, comerciales o en general de cualquier tipo. La diferencia entre una escala aritmética y una escala logarítmica es que en la escala aritmética una diferencia numérica se representa siempre por la misma distancia vertical, por ejemplo la diferencia entre 200 y 100 o entre 1300 y 1200 es la misma distancia. En cambio en la escala logarítmica la misma diferencia porcentual se representa siempre por la misma distancia Medidas de posición Son aquellas que permiten describir los datos de una serie en cuanto a su ubicación en el M OOM eje de las abscisas. Se clasifican como de tendencia central y no central. Las medidas de tendencia central se localizan en el centro de la distribución, mientras que las que no lo son se localizan en otras partes de la distribución. -Media Aritmética: se define como la suma de los valores de la variable dividida por el total de datos. -Mediana: es el valor central de los valores de una variable ordenada de acuerdo a su..CC magnitud, por lo tanto será el valor de la variable que supera a no más de la mitad de las observaciones de la variable y es superada por no más de la mitad de las observaciones de la variable. DDDD -Modo o Moda: es el valor de la variable que se presenta más frecuentemente. -Media Geométrica de un conjunto de ”n” valores positivos de una variable, es la raíz enésima del producto de los “n” valores. LLAA -Medidas de posición no central Cuartiles Q1, será el valor de la variable que supera a no más del 25% de las observaciones y es superado por no más del 75% de las observaciones de la variable. FFII Q2, el valor de la variable en que se encuentran el 50% de las observaciones Q3, El valor de la variable que supera el 75% de las observaciones Medidas de dispersión Es una medida de distancia entre los valores individuales de la variable y una medida de posición central o entre medidas de posición no central - Varianza: mide en el numerador de la fórmula, la distancia total mínima entre los valores de la variable y su media aritmética, considerada al cuadrado. Varianza poblacional calculo: 𝒏 ∑ 𝒙𝒊 − 𝒖𝟐 𝒐 𝝈𝟐 = 𝒖𝒙𝟐 − (𝒖𝒙)𝟐 𝒊=𝟎 N Este archivo fue descargado de https://filadd.com Varianza muestral calculo: ∑ 𝑋𝑖 2 − 𝑛𝑢2 n-1 Desviación estándar Es la raíz cuadrada positiva de la Varianza. DS(x)= √𝑉(𝑥) Coeficiente de variación M OOM Se utiliza fundamentalmente cuando se pretende comparar, en cuanto a su dispersión, distribuciones expresadas en diferentes unidades de medida, mostrando cuál de ellas presenta menor dispersión ó mayor concentración o bien, datos más homogéneos respecto de su media, lo que en definitiva confirma la representatividad del promedio calculado para esos datos...CC 𝐷𝑆(𝑋) CV(X)= 𝑀(𝑋) DDDD Recorrido y Recorrido Intercuartil No es una medida de dispersión útil para determinar la concentración del 50% central de los datos. R=Q3-Q1 Diagrama de caja y brazos LLAA Esta representación es confeccionada con la mediana y los cuartiles. Consiste en marcar sobre un eje real los valores de la variable, el que puede ser posicionado en forma horizontal o vertical Con los cuartiles se forma una caja cuyos lados son el cuartil 1 y 3 y la mediana se marca FFII en el interior de la caja, la que representa la distribución del 50 % central de los datos. A ambos lados de la caja quedan los brazos, los que determinan en definitiva si hay deformaciones horizontales. Para construir los brazos se utilizan límites internos y externos. Los limties son considerados como Outliers y externos Los Límites Internos, al interior del cual se consideran valores normales de la variable, son determinados a una distancia de 1.5 veces el recorrido intercuartil, respecto a los cuartiles primero y tercero respectivamente. Cuando existen valores de la variable que están fuera de las barreras internas significa que esos valores son alejados de los más homogéneos y se pueden considerar como atípicos. Los Límites Externos se calculan a una distancia de 3 veces el recorrido intercuartil respecto a los cuartiles primero y tercero. Cuando los valores están fuera de los límites externos son considerados extremadamente atípicos Este archivo fue descargado de https://filadd.com Momentos naturales Son la media aritmética de la potencia e-résima de la variable. µr (x) =M(𝑥 𝑟 ) Por lo tanto la varianza es 𝜎 2 = 𝑢1 − (𝑢2)2 Momentos centrados La media de la diferencia entre los valores de la variable y la media aritmética, elevada a la potencia e-résima. µ(x)= M(𝑥 − 𝑢)𝑟 Por lo tanto la varianza es 𝜎 2 = 𝑀(𝑥 − 𝑢)2 M OOM Medidas de forma -Asimetría Las distribuciones pueden ser: Asimétrica derecha Asimétrica izquierda Simétrica. Coeficiente de asimetría:..CC > 0 (Asimetría derecha o positiva) = 0 (Simétrica) < 0 (Asimetría izquierda o negativa) -Curtosis o puntiagudez: Leptocúrtica Mesocúrtica Platicúrtica Coeficientes de curtosis: DDDD >0 leptocúrtica, =0mesocúrtica, 𝒉) = 𝒆−𝒚𝒉 𝑷(𝑻 ≤ 𝒉) = 𝟏 − 𝒆−𝒚𝒉 𝑭(𝒕) = 𝟏 − 𝒆−𝒚𝒕 Función de densidad 𝒇(𝒕) = 𝜸𝒆−𝜸𝒕 Esperanza Varianza 𝟏 𝟏 𝑬(𝑻) = 𝑽(𝑻) = 𝜸𝟐 𝜸 Este archivo fue descargado de https://filadd.com Modelo Normal Esta distribución es la más utilizada en aplicaciones estadísticas porque numerosas variables continuas poseen un comportamiento que puede ser ajustado por este modelo; bajo determinadas circunstancias algunas variables discretas pueden ser aproximadas por esta distribución Las principales características de esta distribución pueden sintetizarse de la siguiente manera: a) Presenta un valor de mayor frecuencia, que se identifica con el valor modal que coincide con la media y la mediana, y, a partir de él, decae hacia ambos lados en igual intensidad, lo M OOM que le otorga la característica de ser simétrica. b) Esta simetría hace que a los valores ubicados a igual distancia del valor central (a la derecha o a la izquierda), le corresponda la misma probabilidad. c) Dos son los parámetros que la caracterizan: media y varianza Función de probabilidad..CC El cálculo de las probabilidades normales resulta muy dificultosa, pero este inconveniente se resuelve efectuando una transformación lineal sobre la variable X, que hemos denominado variable estandarizada Z DDDD 𝑿−𝒖 𝒁= 𝝈 E(X)=u 𝑉(𝑋) = 𝜎 2 LLAA E(Z)=0 V(Z)=1 Distribución de observaciones muestrales Si de la población descripta se selecciona una observación al azar, se genera una FFII observación muestral que es una variable aleatoria. Ésta puede asumir diferentes valores con sus respectivas probabilidades. La distribución de probabilidades de esa observación muestral tiene las mismas características que la variable aleatoria de la población de la cual proviene. La distribución de esas variables aleatorias individualmente consideradas será idéntica a la de la variable poblacional. Distribución conjunta de n observaciones muestrales Al seleccionar una cantidad n de observaciones con reemplazo (MAS), “tomamos una muestra de tamaño n”, al medir o clasificar esas observaciones se tienen los valores específicos que toman esas variables aleatorias. A partir de la variable binomial, que cuenta el número de éxitos en una muestra de tamaño n, trabajaremos con otra variable, que simbolizaremos P , que se obtiene dividiendo X por el tamaño de la muestra, y representa la "proporción" de éxitos obtenidos al tomar una muestra. Este archivo fue descargado de https://filadd.com Teorema Central de Límite A través del teorema se demuestra que, cualquiera sea la población, si el tamaño de la muestra es lo suficientemente grande, la suma de variables se distribuye aproximadamente normal con esperanza nµ y varianza nσ2. Distribución muestral de estadísticos Una vez obtenidos los datos, se calculan ciertas medidas llamadas estadísticos que resumen la información. Como las observaciones son realizaciones de variables aleatorias, los estadísticos serán funciones de esas variables aleatorias y por lo tanto, serán también variables aleatorias que tendrán su función de probabilidad, a la que llamaremos distribución muestral del estadístico, su esperanza M OOM y su varianza. Los estadísticos estiman parámetros poblacionales. Ello quiere decir que, aunque no coincidan exactamente con el parámetro, si la muestra fue correctamente seleccionada, deberían asumir valores bastante próximos a los mismos. Precisamente, esa proximidad dependerá de la distribución muestral del estadístico. Estadístico media muestral..CC Si X , X ,..., X 1 2 n representan observaciones de una muestra aleatoria extraída de cualquier población de media µ y varianza σ2 , entonces X es una variable aleatoria con ∑ 𝑥𝑖 media µ y varianza n σ2 , dónde: ¨𝑥 = DDDD 𝑛 Muestreo en poblaciones normales. Aplicación a la media muestral Sabemos que para buscar probabilidades de una variable normal debemos estandarizarla, restándole la media y dividiéndola por la desviación estándar. En el caso de la media, la variable ∗𝑋−𝑈 estandarizada resulta: 𝑍= 𝜎 LLAA √𝑛 Desigualdad de Tchebycheff. Aplicación a la media muestral. 𝜎2 Para X con E(X ) = µ y varianza σ2/n , resulta: 𝑃𝑟 = {|∗ 𝑋 − 𝑢| ≤ 𝑑} ≥ 1 − 𝑛.𝑑2 Estadístico proporción muestral FFII Si bien P ˆ asume valores comprendidos entre 0 y 1, por ser una transformación de una variable discreta, conserva su naturaleza y tiene la misma función de probabilidad que X Ley de los grandes números La ley establece que si se toma una muestra de tamaño n, lo suficientemente grande, la probabilidad de que el estimador difiera del valor del parámetro poblacional en menos de una cantidad d, arbitrariamente pequeña, tiende a uno a medida que la muestra aumenta En el caso que el parámetro desconocido sea la media poblacional µ, la ley dice que para un número d, determinado, si se toma una muestra n a partir de la cual se calcula la media muestral, la probabilidad de que Xn se desvíe de µ en menos de una distancia d estará muy próxima a 1. En el caso, de la proporción muestral en muestras grandes el estimador estará muy cerca al valor P poblacional. Reemplazando por el parámetro y estadístico correspondiente a la proporción en la desigualdad de Tchebycheff: Este archivo fue descargado de https://filadd.com