Estadística PDF
Document Details
Uploaded by RightfulSlideWhistle
Roger Francisco Reynosa Contreras
Tags
Summary
Este documento presenta un resumen de conceptos de estadística que incluyen categorías tales como estadística descriptiva e inferencial, tipos de variables, niveles de medición, y la recolección, organización y análisis de datos.
Full Transcript
ESTADÍSTICA ROGER FRANCISCO REYNOSA CONTRERAS ESTADÍSTICA La estadística es una rama de las matemáticas que te permite recopilar, organizar y analizar datos según la necesidad que tengas, por ejemplo: obtener un resultado, comparar información, tomar mejores decisiones, entre muchas co...
ESTADÍSTICA ROGER FRANCISCO REYNOSA CONTRERAS ESTADÍSTICA La estadística es una rama de las matemáticas que te permite recopilar, organizar y analizar datos según la necesidad que tengas, por ejemplo: obtener un resultado, comparar información, tomar mejores decisiones, entre muchas cosas más. ESTADÍSTICA DESCRIPTIVA El término estadística descriptiva se refiere al análisis, el resumen y la presentación de los resultados relacionados con un conjunto de datos derivados de una muestra o de toda la población. La estadística descriptiva comprende tres categorías principales: distribución de frecuencias, medidas de tendencia central y medidas de variabilidad. Por estadística descriptiva entendemos, por ejemplo, el cálculo de la media y la mediana, dos indicadores muy importantes y sobre todo diferentes. La mediana es un indicador que no tiene en cuenta los valores extremos, a veces poco frecuentes, a diferencia de la media, que está muy influida por estos valores extremos. CLASIFICACIÓN DE LA ESTADÍSTICA ESTADÍSTICA DESCRIPTIVA: ESTADISTICA INFERENCIAL: Se deriva de las observaciones hechas solo a una parte de un conjunto numeroso de elementos; implicando así que su análisis requiera de generalizaciones que van más allá de los datos, como consecuencia la característica más importante del crecimiento de la estadística ha sido un cambio en el énfasis de los métodos que sirven para generalizarlas. En otras palabras la estadística inferencial investiga y analiza una población partiendo de una muestra tomada. ESTADÍSTICA INFERENCIAL La estadística inferencial es una rama de la estadística que se enfoca en hacer predicciones o inferencias sobre una población a partir de una muestra de datos. A diferencia de la estadística descriptiva, que se centra en resumir y describir las características de un conjunto de datos, la estadística inferencial utiliza técnicas y métodos para hacer generalizaciones, estimaciones y pruebas de hipótesis sobre una población más grande. EJEMPLOS DE APLICACIONES DE LA ESTADÍSTICA Medicina: Determinar si un nuevo tratamiento es más efectivo que el tratamiento estándar. Economía: Predecir el crecimiento económico futuro basado en datos de muestras actuales. Marketing: Evaluar la efectividad de una campaña publicitaria mediante la comparación de las tasas de conversión antes y después de la campaña. Ingeniería: Evaluar la vida útil de un producto basado en pruebas muestrales. TIPOS DE VARIABLES Variables Cualitativas (o Variables Categoricas) Variables Cuantitativas (o Variables Numéricas) Variables Dependientes Variables Independientes Variables Aleatorias: – Aleatoria Discreta – Aleatoria Continua VARIABLES CUALITATIVAS (O VARIABLES CATEGORICAS) Estas variables describen cualidades o categorías y no tienen un valor numérico inherente. Se dividen en dos subtipos: Nominales: Las categorías no tienen un orden intrínseco. Ejemplos incluyen el color de los ojos (azul, verde, marrón) o el tipo de mascota (perro, gato, pez). Ordinales: Las categorías tienen un orden o jerarquía. Ejemplos incluyen las tallas de ropa (pequeña, mediana, grande) o las calificaciones (bueno, regular, malo). VARIABLES CUANTITATIVAS (O VARIABLES NUMÉRICAS) Estas variables representan cantidades numéricas y se pueden medir. Se dividen en dos subtipos: Discretas: Pueden tomar valores específicos y contables, generalmente enteros. Ejemplos incluyen el número de hijos en una familia o el número de coches en un estacionamiento. Continuas: Pueden tomar cualquier valor dentro de un rango, incluyendo fracciones y decimales. Ejemplos incluyen la altura de una persona o la temperatura. Mixta VARIABLES DEPENDIENTES E INDEPENDIENTES Dependientes: Son las variables que se intentan explicar o predecir en un estudio. Independientes: Son las variables que se manipulan o se consideran como la causa potencial de cambios en la variable dependiente. VARIABLES ALEATORIAS Aleatoria Discreta: Puede tomar un conjunto finito o contable de valores. Aleatoria Continua: Puede tomar un número infinito de valores dentro de un intervalo. EJEMPLOS DE VARIABLES EN DIFERENTES CONTEXTOS Cualitativa Nominal: Género (masculino, femenino), Estado civil (soltero, casado). Cualitativa Ordinal: Nivel educativo (primaria, secundaria, universidad), Escala de dolor (leve, moderado, severo). Cuantitativa Discreta: Número de libros leídos en un año, Número de llamadas recibidas en un día. Cuantitativa Continua: Peso de una persona,Velocidad del viento. NIVELES DE MEDICIÓN NIVEL NOMINAL Es el nivel más básico. Los datos se clasifican en categorías sin un orden específico. No se pueden realizar operaciones matemáticas entre estas categorías. Ejemplo: Género (masculino, femenino), colores (rojo, azul, verde). NIVEL ORDINAL Las categorías tienen un orden o jerarquía. No se conoce la distancia exacta entre las categorías. Ejemplo: Clasificación de la satisfacción (satisfecho, neutral, insatisfecho), posiciones en una carrera (primero, segundo, tercero). NIVEL DE INTERVALO Hay un orden entre las categorías, y las distancias entre los valores son iguales No hay un punto cero absoluto (el cero no indica ausencia de la característica). Ejemplo:Temperatura en grados Celsius o Fahrenheit (la diferencia entre 20°C y 30°C es la misma que entre 30°C y 40°C, pero 0°C no significa "no temperatura"). NIVEL DE RAZÓN Es el nivel más alto de medición. Tiene todas las propiedades del nivel de intervalo, pero además incluye un cero absoluto. Esto permite realizar multiplicaciones y divisiones. Ejemplo: Peso (0 kg indica ausencia de peso), ingresos (0 dólares indica ausencia de ingresos) RECOPIL ACIÓN DE DATOS LA RECOPILACIÓN DE DATOS ES UNA ETAPA FUNDAMENTAL EN LA ESTADÍSTICA DESCRIPTIVA, YA QUE SE ENFOCA EN RECOLECTAR, ORGANIZAR, RESUMIR Y PRESENTAR LA INFORMACIÓN PARA DESCRIBIR LAS CARACTERÍSTICAS DE UN CONJUNTO DE DATOS DEFINICIÓN DEL OBJETIVO DE ESTUDIO Clarificación del problema: Antes de recolectar datos, es esencial definir claramente el problema o la pregunta de investigación que se desea responder. Definición de variables: Identificar las variables de interés que se desean medir. SELECCIÓN DE LA POBLACIÓN Y MUESTRA Población: Es el conjunto total de individuos o elementos que se desea estudiar. Muestra: Es un subconjunto de la población, seleccionado para representar a la población en el estudio. Métodos de muestreo: – Muestreo aleatorio simple: Cada elemento de la población tiene la misma probabilidad de ser seleccionado. – Muestreo estratificado: La población se divide en grupos (estratos) y se toma una muestra de cada grupo. – Muestreo por conglomerados: La población se divide en grupos, y se selecciona al azar uno o más grupos completos para el estudio. – Muestreo sistemático: Se selecciona cada k-ésimo elemento de una lista ordenada. MÉTODOS DE RECOPILACIÓN DE DATOS Encuestas: Recolección de datos mediante cuestionarios o entrevistas. Pueden ser en persona, por teléfono, en línea o por correo. Observación Directa: Recolección de datos mediante la observación directa del comportamiento o características de los individuos en su entorno natural. Experimentos: Realización de pruebas controladas donde se manipulan ciertas variables para observar sus efectos sobre otras variables. Registros y Bases de Datos: Utilización de datos existentes almacenados en bases de datos, archivos o registros oficiales. DISEÑO DE INSTRUMENTOS DE MEDICIÓN Cuestionarios: Diseño de preguntas claras y concisas que eviten sesgos. Escalas de Medición: Definir las escalas adecuadas (nominal, ordinal, intervalo, razón) para medir las variables. RECOLECCIÓN Y ORGANIZACIÓN DE LOS DATOS Recolección: Recopilar los datos utilizando los métodos y herramientas previamente seleccionados. Organización: Clasificar y organizar los datos recopilados en tablas o gráficos para facilitar su análisis. VALIDACIÓN Y VERIFICACIÓN DE DATOS Validación:Verificar que los datos sean precisos y completos. Verificación: Revisar que los datos recolectados coincidan con la realidad y que no haya errores de registro o recopilación. ANÁLISIS DESCRIPTIVO DE LOS DATOS Medidas de Tendencia Central: Calcular la media, mediana y moda para resumir los datos. Medidas de Dispersión: Calcular la varianza, desviación estándar y rango para entender la variabilidad de los datos. Tablas y Gráficos: Utilizar tablas de frecuencia, gráficos de barras, histogramas y diagramas de dispersión para visualizar los datos. P R E S E N TA C I Ó N D E D AT O S D E U N A S O L A VA R I A B L E DISTRIBUCIÓN DE FRECUENCIAS La distribución de frecuencias es una forma de organizar y resumir un conjunto de datos, mostrando cómo se distribuyen las observaciones en diferentes categorías o intervalos. Es una herramienta fundamental en la estadística para entender la estructura de un conjunto de datos. FRECUENCIA ABSOLUTA (F) (MINUSCULA) Es el número de veces que ocurre un valor o intervalo en el conjunto de datos. Ejemplo: Si en una encuesta 5 personas dicen que tienen 2 mascotas, la frecuencia absoluta para el valor 2 es 5. FRECUENCIA RELATIVA (FR) Frecuencia Relativa (fr) Es la proporción o porcentaje de la frecuencia absoluta respecto al total de observaciones. Fórmula: 𝑓𝑟=𝑓/𝑁 , donde N es el total de observaciones. Ejemplo: Si 5 de 20 personas tienen 2 mascotas, la frecuencia relativa es 5/20=0.25 o 25%. FRECUENCIA ACUMULADA (F) Es la suma de las frecuencias absolutas de todos los valores o intervalos menores o iguales a un determinado valor. Ejemplo: Si ordenamos los datos de menor a mayor, la frecuencia acumulada para un valor es la suma de su frecuencia más la de todos los valores anteriores FRECUENCIA RELATIVA ACUMULADA (FR) Frecuencia Relativa Acumulada (Fr): Es la suma de las frecuencias relativas de todos los valores o intervalos menores o iguales a un determinado valor. Fórmula: 𝐹𝑟=𝐹/𝑁, donde 𝐹F es la frecuencia acumulada. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS Una tabla de distribución de frecuencias organiza las frecuencias absolutas, relativas, acumuladas y relativas acumuladas. GRÁFICA DE BARRAS Se compone de columnas o barras de diferentes alturas, estas pueden ser horizontales o verticales. Tiene un eje horizontal o eje x, donde se ubica una variable, por lo general, cualitativa. Tiene un eje vertical o eje y, donde se ponen los valores que determinan la altura de las barras. A estos números se les conoce como frecuencia. El ancho de las barras y el espacio entre cada una debe ser el mismo. Las barras también sirven para comparar valores. GRÁFICA DE PASTEL Estos gráficos sólo representan y comparan una variable. A cada cualidad de la variable le pertenece una porción del gráfico. Las cifras que se anotan sobre cada trozo se expresan en porcentajes, por eso son útiles cuando la información que tienes es en su mayoría numérica y son pocos datos. La unión de todos los sectores forman un círculo completo. Se usa para expresar proporcionalmente los distintos valores de la frecuencia de las variables. COMO SE REALIZA Empieza por organizar los datos en una tabla. Crea una segunda columna llamada frecuencia. En una tercera columna, escribe los grados Se divide la cantidad total de datos por 360 (grados) para saber cuantos grados representará cada dato. Se multiplica el resultado de la división por dato. Para el porcentaje se (100/x (Total de datos) y luego se multiplica el resultado por cada dato GRÁFICOS LINEALES El diagrama o gráfico lineal se compone de una serie de puntos que al unirlos te muestran una línea completa con los cambios de una variable a lo largo del tiempo. En este gráfico, los datos no se representan con barras o por trozos, si no con puntos ubicados en el cruce de un eje x, que representa la variable del tiempo, y un eje y, donde se ubica la variable continua que estás estudiando, como el tamaño de una mascota, por ejemplo. HISTOGRAMA DE DATOS Un histograma es un gráfico que usa barras para simbolizar cómo se distribuye un conjunto de datos. También sirve para ver rápidamente cómo se ha comportado una muestra basada en una variable numérica o cuantitativa. Por ejemplo, cómo varían las edades en un grupo de artistas de una banda sinfónica. POLÍGONOS LINEALES Un polígono de frecuencias es un gráfico usado en estadística para mostrar la frecuencia con la que cambia una variable o categoría. Para crear uno necesitas un histograma de datos. OJIVA Una ojiva es un gráfico que muestra la curva de una función de distribución acumulativa dibujada a mano o en software de computadora. Los puntos trazados son el límite de la clase superior y la frecuencia acumulativa correspondiente. La ojiva para la distribución normal se asemeja a un lado de un arco arabesco u ojival. El término también se puede usar para referirse a la función empírica de distribución acumulativa. Este es un tipo de gráfico de frecuencia y también se denomina polígono de frecuencia acumulada. Sirve para dar el número (o proporción) de observaciones más pequeño o igual a un valor particular. GRÁFICOS DE PUNTOS Los gráficos de puntos son útiles para mostrar datos cuantitativos de una forma organizada. Los gráficos de puntos usan varios puntos para trazar datos a lo largo de un eje ordinal. Un gráfico de puntos es similar a un gráfico de líneas, pero sin las líneas. Solamente se muestran los puntos de datos. En el ejemplo siguiente se muestran los ingresos de cada línea de producto. ANÁLISIS DESCRIPTIVO DE D AT O S D E U N A S O L A VA R I A B L E ANÁLISIS DESCRIPTIVO DE DATOS DE UNA SOLA VARIABLE El análisis descriptivo de una sola variable, también conocido como análisis univariante, se centra en describir y resumir las características de una variable específica dentro de un conjunto de datos. TIPOS DE VARIABLES Variables Categóricas: Toman valores que representan categorías o grupos, como "color", "género", "tipo de producto", etc. Variables Numéricas: Toman valores numéricos y pueden ser: – Discretas:Valores enteros (e.g., número de hijos). – Continuas: Pueden tomar cualquier valor dentro de un rango (e.g., peso, altura). MEDIDAS DE TENDENCIA CENTRAL Media: Es el promedio aritmético de los valores. Mediana: Es el valor central cuando los datos están ordenados. Moda: Es el valor que aparece con más frecuencia. MEDIDAS DE DISPERSIÓN Rango: Diferencia entre el valor máximo y el mínimo. Varianza: Promedio de las diferencias al cuadrado de cada valor respecto a la media. Desviación Estándar: Raíz cuadrada de la varianza; indica cuánta variación existe respecto a la media. Coeficiente de Variación: Relación entre la desviación estándar y la media, expresada como porcentaje. MEDIDAS DE FORMA Asimetría (Skewness): Mide la simetría de la distribución de los datos. – Asimetría positiva: La cola derecha es más larga. – Asimetría negativa: La cola izquierda es más larga. Curtosis: Mide la "agudeza" de la distribución de los datos. – Leptocúrtica: Distribución con colas largas y pico alto. – Mesocúrtica: Distribución normal, con una curva moderada. – Platicúrtica: Distribución con colas cortas y pico bajo. DISTRIBUCIÓN DE FRECUENCIAS Tablas de Frecuencia: Muestran el número de veces que aparece cada valor o categoría. Histograma: Gráfico que representa la distribución de frecuencias de una variable numérica. Gráfico de Barras: Utilizado para representar frecuencias de variables categóricas. Diagrama de Cajas y Bigotes (Boxplot): Muestra la mediana, los cuartiles y los valores atípicos. RESUMEN NUMÉRICO Cuartiles y Percentiles: Dividen los datos en partes iguales, útiles para entender la dispersión y la localización de los valores en el conjunto de datos. VISUALIZACIÓN Las gráficas y diagramas son esenciales para interpretar los resultados del análisis univariante. Permiten ver patrones, identificar valores atípicos y comprender mejor la distribución de la variable. EJEMPLO Supongamos que tenemos una variable que mide la altura de un grupo de personas: – Media: 170 cm. – Mediana: 168 cm. – Moda: 165 cm. – Desviación Estándar: 10 cm. – Asimetría: 0.5 (positiva, indicando que hay más personas con alturas por debajo de la media). – Curtosis: 3 (mesocúrtica, distribución normal). INTERPRETACIÓN DEL EJEMPLO En este ejemplo, la altura promedio es 170 cm, pero la mediana es ligeramente menor, lo que indica una distribución ligeramente sesgada a la derecha. La desviación estándar de 10 cm indica que la mayoría de las alturas están dentro de 10 cm alrededor de la media. Este análisis proporciona una visión general de cómo se distribuyen los datos, lo cual es fundamental antes de realizar análisis más avanzados o interpretar cualquier patrón en los datos. Si necesitas un análisis específico con tus datos, puedo ayudarte con un análisis detallado usando ejemplos reales. ¿Te gustaría proceder con algún conjunto de datos en particular?