Introducción al Proceso de Datos - Estadística
48 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

El coeficiente de correlación de Pearson puede tomar valores únicamente entre 0 y 1.

False (B)

La prueba estadística T de Student se utiliza para comparar la media de dos grupos.

True (A)

El análisis de varianza (Anova) se aplica para comparar medias de más de dos grupos.

True (A)

El coeficiente Phi se utiliza para variables nominales politómicas.

<p>False (B)</p> Signup and view all the answers

El coeficiente de determinación $R^2$ permite conocer la capacidad explicativa de la ecuación de regresión.

<p>True (A)</p> Signup and view all the answers

En una regresión lineal simple, la ecuación es $Y = a + bX$.

<p>True (A)</p> Signup and view all the answers

La regresión logística se usa para analizar variables dependientes en ordinales y nominales.

<p>True (A)</p> Signup and view all the answers

Mann-Whitney es una prueba paramétrica que compara dos medias.

<p>False (B)</p> Signup and view all the answers

Un diagrama de dispersión solo puede representar la relación entre variables cualitativas.

<p>False (B)</p> Signup and view all the answers

Si la nube de puntos en un diagrama de dispersión tiene pendiente positiva, la relación es inversa.

<p>False (B)</p> Signup and view all the answers

Las pruebas de dependencia analizan múltiples variables y establecen relaciones entre ellas.

<p>True (A)</p> Signup and view all the answers

La potencia de contraste se refiere a la capacidad de detectar diferencias significativas entre grupos.

<p>True (A)</p> Signup and view all the answers

El peso de la variable independiente en relación a la variable dependiente se representa como la ordenada en la ecuación de regresión.

<p>False (B)</p> Signup and view all the answers

La regresión lineal múltiple permite predecir una variable dependiente en función de varias variables independientes.

<p>True (A)</p> Signup and view all the answers

El error de predicción se representa como $Y - Y'$ en la regresión.

<p>True (A)</p> Signup and view all the answers

El valor de la pendiente $b$ es siempre comparable entre diferentes modelos de regresión.

<p>False (B)</p> Signup and view all the answers

La cuasivarianza se calcula dividiendo entre $N-1$ para obtener un mejor estimador de la varianza poblacional.

<p>True (A)</p> Signup and view all the answers

El coeficiente de variación se expresa en decimales y se utiliza para medir la variabilidad de una sola variable.

<p>False (B)</p> Signup and view all the answers

El recorrido intercuartil (IQR) se calcula como la diferencia entre el primer cuartil y el tercer cuartil.

<p>False (B)</p> Signup and view all the answers

Una distribución normal tiene asimetría cero y su kurtosis es igual a cero.

<p>False (B)</p> Signup and view all the answers

Los percentiles dividen una muestra en 100 partes, mientras que los cuartiles la dividen en 4 partes.

<p>True (A)</p> Signup and view all the answers

El coeficiente de correlación alcanza su valor máximo de 1 solo cuando las variables son inversamente proporcionales.

<p>False (B)</p> Signup and view all the answers

La prueba K-S se utiliza para verificar la normalidad de una distribución.

<p>True (A)</p> Signup and view all the answers

Una curva leptocúrtica tiene una curtosis mayor que cero, lo que indica una distribución más puntiaguda.

<p>True (A)</p> Signup and view all the answers

Los casos anómalos pueden influir en la media de un conjunto de datos.

<p>True (A)</p> Signup and view all the answers

Los outliers se definen como datos que caen dentro del percentil 25 y 75.

<p>False (B)</p> Signup and view all the answers

El bloxpot es un gráfico utilizado para identificar casos anómalos.

<p>True (A)</p> Signup and view all the answers

La mediana es un estadístico robusto frente a los casos anómalos.

<p>True (A)</p> Signup and view all the answers

La covarianza es una medida estandarizada de la relación entre dos variables cuantitativas.

<p>False (B)</p> Signup and view all the answers

Un puntaje de 291 puede considerarse un outlier si P75 es 250.

<p>True (A)</p> Signup and view all the answers

Los brazos cortos y la caja grande en un bloxpot indican una distribución platicúrtica.

<p>False (B)</p> Signup and view all the answers

Para una puntuación de 346, se considera un outlier si es mayor que 430.

<p>False (B)</p> Signup and view all the answers

El IQR se calcula restando el percentil 25 del percentil 75.

<p>True (A)</p> Signup and view all the answers

Un extreme se define como un dato que se encuentra a más de ±1.5 IQR.

<p>False (B)</p> Signup and view all the answers

Si la mediana está por debajo del centro, indica asimetría negativa.

<p>False (B)</p> Signup and view all the answers

La prueba de Lilliefors se utiliza para comprobar el supuesto de homogeneidad.

<p>False (B)</p> Signup and view all the answers

Una puntuación menor que 80 puede considerarse un extremo si el IQR es 80.

<p>True (A)</p> Signup and view all the answers

Transformar una variable es una solución cuando no sigue una distribución normal.

<p>True (A)</p> Signup and view all the answers

La correlación tiene un rango de entre -1 y 0.

<p>False (B)</p> Signup and view all the answers

Para muestras de menos de 30 sujetos, se aplica la corrección de Kolmogorov-Smirnov.

<p>False (B)</p> Signup and view all the answers

La falta de respuestas en una muestra puede ser comprobada utilizando el método T de Student.

<p>True (A)</p> Signup and view all the answers

Para equilibrar una muestra, se debe multiplicar las variables con menos representación por un valor inferior a 1.

<p>False (B)</p> Signup and view all the answers

La media de los puntos adyacentes es uno de los métodos propuestos para imputar datos faltantes.

<p>True (A)</p> Signup and view all the answers

Completar el trabajo de campo es la única solución a los problemas de datos faltantes.

<p>False (B)</p> Signup and view all the answers

El coeficiente de ponderación se calcula dividiendo el tamaño de la muestra teórica entre la muestra real.

<p>True (A)</p> Signup and view all the answers

Los datos que faltan no deben ser tratados usando la media de las subclases si los grupos son muy heterogéneos.

<p>True (A)</p> Signup and view all the answers

Para analizar si la falta de datos corresponde con alguna variable sociodemográfica, se debe comprobar la aleatoriedad de los datos.

<p>True (A)</p> Signup and view all the answers

El método de Interpolación lineal es considerado el mejor método de imputación de datos faltantes.

<p>False (B)</p> Signup and view all the answers

Flashcards

Desviación típica

La desviación típica (σ) es una medida de dispersión que indica la variabilidad de los datos alrededor de la media. Se calcula como la raíz cuadrada de la varianza.

Cuasivarianza

La cuasivarianza es una medida similar a la varianza, pero en lugar de dividir por el número total de datos (N), se divide por N-1. Esto la hace un mejor estimador de la varianza poblacional cuando se trabaja con muestras pequeñas.

Amplitud o Rango

La amplitud o rango es una medida de variabilidad que se calcula como la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.

Coeficiente de variación

El coeficiente de variación es una medida adimensional que sirve para comparar la dispersión de dos variables con diferentes escalas de medida. Se expresa en porcentaje y facilita la interpretación.

Signup and view all the flashcards

Recorrido Intercuartil (IQR)

El recorrido intercuartil (IQR) es una medida de variabilidad que representa la diferencia entre el tercer cuartil (percentil 75) y el primer cuartil (percentil 25).

Signup and view all the flashcards

Asimetría / Simetría

La asimetría o simetría de una distribución se refiere a la forma de la curva. Una distribución normal es simétrica, mientras que una distribución asimétrica tiene una cola más larga en un lado que en el otro.

Signup and view all the flashcards

Curtosis

La curtosis de una distribución indica cuán puntiaguda es la curva. Una distribución leptocúrtica es más puntiaguda, una mesocúrtica tiene una curtosis normal, y una platicúrtica es más plana.

Signup and view all the flashcards

Correlación de Pearson

El coeficiente de correlación de Pearson mide la relación lineal entre dos variables de razón. Se utiliza para determinar la fuerza y dirección de la relación. Su valor oscila entre -1 y 1, donde 0 indica que no hay relación.

Signup and view all the flashcards

Correlación de Spearman

El coeficiente de correlación de Spearman es una medida no paramétrica de la relación entre dos variables ordinales. Mide la monotonía de la relación, es decir, si las dos variables tienden a aumentar o disminuir juntas.

Signup and view all the flashcards

Prueba T de Student

La prueba T de Student es un contraste paramétrico que compara la media de dos grupos. Se utiliza para determinar si hay una diferencia significativa entre las medias de los dos grupos.

Signup and view all the flashcards

Análisis de Varianza (ANOVA)

El análisis de varianza (ANOVA) es un contraste paramétrico que compara la media de más de dos grupos. Se utiliza para determinar si hay una diferencia significativa entre las medias de los grupos.

Signup and view all the flashcards

Prueba Chi Cuadrado

La prueba Chi cuadrado es un contraste no paramétrico que compara los porcentajes de K grupos. Se utiliza para determinar si hay una diferencia significativa entre los porcentajes de los grupos.

Signup and view all the flashcards

Pruebas Multivariadas de Dependencia

Las pruebas multivariadas de dependencia son utilizadas para analizar varias variables y establecer una relación entre ellas, con el objetivo de explicar o predecir una variable dependiente a partir de variables independientes.

Signup and view all the flashcards

Regresión Lineal

La regresión lineal es una prueba multivariada de dependencia que se utiliza para analizar la relación lineal entre dos variables, una independiente y una dependiente.

Signup and view all the flashcards

Pruebas Multivariadas de Interdependencia

Las pruebas multivariadas de interdependencia se utilizan para analizar la relación entre varias variables con el objetivo de reducir la complejidad y simplificar las relaciones.

Signup and view all the flashcards

Datos "missing" o perdidos

Los datos "missing" son aquellos que faltan en una encuesta o estudio. Estos datos pueden sesgar los resultados y deben ser tratados con cuidado. Es importante determinar si la pérdida de datos es aleatoria o sesgada.

Signup and view all the flashcards

Comprobar la aleatoriedad de la pérdida de datos

Para determinar si la pérdida de datos es aleatoria, se puede analizar si los distintos segmentos de la población (por ejemplo, hombres y mujeres, diferentes edades) tienen un porcentaje similar de datos perdidos. Si la pérdida de datos es aleatoria, estos porcentajes deberían ser similares.

Signup and view all the flashcards

Relación entre la pérdida de datos y características demográficas

Si la pérdida de datos está relacionada con alguna característica sociodemográfica (como la edad o el género), esto podría indicar un patrón de sesgo. Esta información puede ayudar a comprender mejor por qué ciertos datos están faltando.

Signup and view all the flashcards

Comparar las respuestas de los participantes y no participantes

Se puede analizar si las personas que responden a una encuesta son similares en sus actitudes, percepciones y opiniones a las que no responden. Si hay diferencias significativas, esto podría indicar un sesgo en los datos.

Signup and view all the flashcards

Eliminar los casos incompletos

Una solución para tratar los datos "missing" consiste en simplemente excluir los casos incompletos. Sin embargo, esto puede reducir el tamaño de la muestra y afectar la representatividad de los resultados.

Signup and view all the flashcards

Sustituir los datos "missing" con un valor único

Otra solución consiste en dar a todos los datos "missing" el mismo valor, como la media o mediana de la variable. Este método puede ser sencillo, pero puede crear sesgos si la pérdida de datos no es aleatoria.

Signup and view all the flashcards

Imputación de datos "missing"

La imputación es un método que utiliza información de las variables relacionadas para estimar los datos faltantes. Este es un método más sofisticado y evita la pérdida de información.

Signup and view all the flashcards

Método "Hot Deck"

El método del "Hot Deck" consiste en asignar datos "missing" a un sujeto basándose en el perfil de otros sujetos con características similares. Este método se adapta a las características individuales de los sujetos.

Signup and view all the flashcards

Casos Anómalos

Los casos anómalos son datos que se encuentran fuera del rango central de los datos, es decir, por encima del percentil 75 o por debajo del percentil 25. Pueden introducir sesgos en la investigación.

Signup and view all the flashcards

Outliers

Los outliers son casos anómalos que se encuentran a una distancia de 1.5 a 3 veces el rango intercuartil (IQR) del límite superior o inferior de la caja.

Signup and view all the flashcards

Extremos

Los extremos son casos anómalos que se encuentran a una distancia de más de 3 veces el rango intercuartil (IQR) del límite superior o inferior de la caja.

Signup and view all the flashcards

Rango Intercuartil (IQR)

El rango intercuartil (IQR) es la diferencia entre el tercer cuartil (percentil 75) y el primer cuartil (percentil 25).

Signup and view all the flashcards

Boxplot

El boxplot es un gráfico que permite identificar los casos anómalos. Representa la mediana, el rango intercuartil (IQR) y los valores extremos.

Signup and view all the flashcards

Mediana

La mediana es la medida de la tendencia central que representa el valor medio de un conjunto de datos ordenado.

Signup and view all the flashcards

Simetría

La simetría es una característica de la distribución de los datos que indica si la distribución es simétrica o asimétrica.

Signup and view all the flashcards

IQR: ¿Qué mide?

El IQR (Recorrido Intercuartil) mide la dispersión de los datos entre el primer y tercer cuartil. Es la diferencia entre el percentil 75 y el percentil 25.

Signup and view all the flashcards

Extremo: ¿Cómo se identifica?

Para identificar un extremo, se calcula el límite inferior (P25 - 1.5*IQR). Si un dato es menor que este límite, es un extremo.

Signup and view all the flashcards

Outlier: ¿Cómo se identifica?

Para identificar un outlier, se calcula el límite superior (P75 + 1.5*IQR). Si un dato es mayor que este límite, es un outlier.

Signup and view all the flashcards

Prueba de Lilliefors: ¿Para qué sirve?

La prueba de Lilliefors (con corrección de K-S) se utiliza para determinar si una variable sigue una distribución normal.

Signup and view all the flashcards

Prueba de Shapiro Wilk: ¿Cuándo se utiliza?

La prueba de Shapiro Wilk se aplica para comprobar la normalidad de una variable cuando la muestra tiene menos de 30 sujetos.

Signup and view all the flashcards

Covarianza: ¿Qué mide?

La covarianza es una medida no estandarizada de la relación lineal entre dos variables cuantitativas. Sirve como paso previo para calcular la correlación.

Signup and view all the flashcards

Correlación: ¿Qué mide?

La correlación es una medida estandarizada de la relación lineal entre dos variables cuantitativas. Indica la fuerza y dirección de la relación.

Signup and view all the flashcards

Pruebas paramétricas vs. no paramétricas: ¿Cuál es la diferencia principal?

Las pruebas paramétricas asumen que los datos siguen una distribución normal. Las pruebas no paramétricas son más flexibles y se pueden aplicar sin el cumplimiento de la normalidad.

Signup and view all the flashcards

Coeficiente de correlación de Pearson (rxy)

Es una medida estadística que cuantifica la relación lineal entre dos variables cuantitativas. Su valor oscila entre -1 y 1, donde 0 indica que no hay relación, mientras que valores cercanos a 1 o -1 indican una relación lineal fuerte.

Signup and view all the flashcards

Diagrama de dispersión

Es un gráfico que representa la distribución conjunta de dos variables cuantitativas. Cada punto representa la puntuación de un sujeto en ambas variables. Permite visualizar la relación entre ellas: si los puntos se ajustan linealmente, indica una correlación.

Signup and view all the flashcards

Regresión lineal simple

Es un modelo que permite predecir el valor de la variable dependiente (Y) en función de una sola variable independiente (X). Su ecuación es Y = a + bX, donde a es la ordenada en el origen y b es la pendiente.

Signup and view all the flashcards

Regresión lineal múltiple

Es un modelo que permite predecir el valor de la variable dependiente (Y) en función de varias variables independientes (X1, X2 ...). Su ecuación es Y = a + b1X1 + b2X2 + ... + bnXn, donde a es la ordenada en el origen y b1, b2... son las pendientes.

Signup and view all the flashcards

Ordenada en el origen (a)

Representa el valor de la variable dependiente (Y) cuando la variable independiente (X) es igual a cero. Es decir, es el punto donde la línea de regresión corta el eje Y.

Signup and view all the flashcards

Pendiente (b)

Es la cantidad en que aumenta la variable dependiente (Y) cuando la variable independiente (X) aumenta una unidad. Es la pendiente de la línea de regresión.

Signup and view all the flashcards

Coeficiente de determinación (R2)

Indica la proporción de la varianza de la variable dependiente (Y) que es explicada por las variables independientes (X). Se expresa como un porcentaje y es un indicador del ajuste del modelo de regresión a los datos.

Signup and view all the flashcards

Study Notes

Introducción al Proceso de Datos

  • El proceso de datos incluye el análisis de datos, comenzando con el diseño y recolección de datos, seguido de la revisión, codificación y grabación de los mismos en un programa estadístico (como SPSS).
  • Después de la grabación, se realiza un análisis exploratorio de datos (EDA) antes de un análisis estadístico formal.
  • El análisis de datos culmina con la interpretación de los resultados y la elaboración de un informe.

Estadística

  • La estadística es una herramienta matemática para analizar datos.
  • Existen diferentes tipos de pruebas estadísticas:
    • Univariadas: analizan una sola variable.
    • Bivariadas: analizan la relación entre dos variables.
    • Multivariadas: analizan la relación entre más de dos variables.

Pruebas Univariadas

  • Medidas de tendencia central:
    • Media aritmética
    • Media recortada (descarta un porcentaje de los valores más altos y bajos)
    • Media geométrica (la raíz n-ésima del producto de los valores)
    • Mediana (el valor intermedio, el percentil 50)
    • Moda (el valor más frecuente)
  • Medidas de variabilidad/dispersión:
    • Varianza (la dispersión media de los datos respecto a la media)
    • Desviación típica (la raíz cuadrada de la varianza)
    • Cuasivarianza (un estimador más preciso para muestras pequeñas)
    • Rango (diferencia entre el valor máximo y mínimo)
    • Recorrido intercuartílico (IQR) (diferencia entre el tercer y primer cuartil)

Pruebas Bivariadas

  • Correlaciones: miden la relación entre dos variables. Un coeficiente de correlación alto indica una fuerte relación (positiva o negativa).
    • Correlación de Pearson (para variables de razón o intervalo)
    • Correlación de Spearman (para variables ordinales o datos que no siguen una distribución normal)

Pruebas Multivariadas

  • Dependencia: analizan la relación entre variables, identificando variables independientes y dependientes.
    • Regresión lineal (para predecir una variable a partir de otra)
    • Regresión logística (para predecir una variable categórica a partir de otra)
    • Análisis de varianza múltiple (ANOVA) (para comparar más de dos grupos)
    • Análisis discriminante (clasifica objetos en grupos)
    • Análisis de correspondencias (para relaciones entre variables categóricas)
  • Interdependencia: analizan la relación entre las variables sin definir una variable dependiente o independiente.
    • Análisis de conglomerados (agrupa objetos similares)
    • Análisis factorial (reduce el número de variables interrelacionadas)

Depuración de Datos

  • Errores: errores de grabación, valores fuera de rango o inconsistencias
  • Casos faltantes (missing): datos que faltan en la base de datos, estos casos se deben tratar con cautela dado que pueden afectar la representatividad de la muestra.
  • Razones de datos faltantes: temas delicados, confidencialidad, razones de contexto, falta de motivación o tiempo.
  • Tratamiento: eliminar casos faltantes, imputación (reemplazar los datos faltantes con estimaciones), ponderación

Soluciones/Métodos

  • Casos completos: usar solo los casos sin datos faltantes.
  • Ponderación: ajustar la representatividad de los grupos en la muestra.
  • Métodos de sustitución: utilizar los datos de casos similares para rellenar los valores faltantes.
  • Imputación: métodos para estimar los datos faltantes.

Normalidad

  • Normalidad: la distribución de los datos es una distribución normal.
  • Prueba de normalidad: pruebas estadísticas (como Shapiro-Wilk y Kolmogorov-Smirnov) que se aplican para verificar si los datos se distribuyen normalmente.
  • Alternativas: si los datos no cumplen con la normalidad, se pueden utilizar pruebas no paramétricas.

Diagrama de Dispersión

  • Representa graficamente la relación entre dos variables cuantitativas.
  • Permite visualizar la tendencia general entre las variables.
  • La dirección y densidad de los puntos describen la correlación y fuerza de la relación

Regresión Lineal

  • Modelo que describe la relación entre dos variables cuantitativas
  • Permite predecir el valor de una variable a partir del valor de la otra.
  • Es una técnica usada para encontrar la mejor recta que describe los puntos

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Este cuestionario explora el proceso de datos y fundamentos de estadística. Se abordan técnicas de análisis de datos, pruebas univariadas y medidas de tendencia central. Ideal para estudiantes que deseen entender cómo manejar y analizar datos estadísticos.

More Like This

Statistics in Computer Science
12 questions
Деректерді өңдеу
10 questions

Деректерді өңдеу

IndividualizedFuchsia9755 avatar
IndividualizedFuchsia9755
Use Quizgecko on...
Browser
Browser