Tema 2: Estadística Descriptiva PDF

Summary

This document provides an overview of bioestadistica and includes a description of topics, such as methods of organizing and summarizing information, variable types, and examples of statistical analysis. It seems to be a lecture or study guide from the University of Valladolid.

Full Transcript

Bioestadística Tema 2: Estadística Descriptiva Cristina Rueda. Dpto Estadística. Tema 2: Estadística descriptiva 1 Universidad de Valladolid. Estadística descriptiva : - trata de organizar y resumir la información - trata de obtener propiedades e inform...

Bioestadística Tema 2: Estadística Descriptiva Cristina Rueda. Dpto Estadística. Tema 2: Estadística descriptiva 1 Universidad de Valladolid. Estadística descriptiva : - trata de organizar y resumir la información - trata de obtener propiedades e información de un conjunto de observaciones mediante el empleo de métodos gráficos, tablas y métodos numéricos - es el instrumento para conocer el fenómeno colectivo que se escapa por su extensión, diversidad ó inconstancia Tema 2: Estadística descriptiva 2 Tipos de variables Cualitativas ó Categóricas Si sus valores no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos) – Nominales: Si sus valores no se pueden ordenar Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No) – Ordinales: Si sus valores se pueden ordenar Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) – Discretas: Si toma valores enteros Número de hijos, Número de cigarrillos, – Continuas: Si entre dos valores, son posibles infinitos valores intermedios. Altura, Presión intraocular, Dosis de medicamento administrado, edad Tema 2: Estadística descriptiva 3 Ejemplo 1: Análisis de factores de riesgo del infarto agudo de miocardio (IM) La base de datos conntiene los datos de 3504 pacientes y 6 variables. Los pacientes (tanto sanos como enfermos) hacen referencia a aquellos individuos del “Duke University Medical Center” que acudieron al centro con dolor de pecho. Se consideran enfermos aquellos individuos en los que en al menos una de las arterias coronarias principales se había producido un estrechamiento mayor del 75%. Cuando el grado de los síntomas de la enfermedad eran mayores, el paciente se consideró enfermo severo. Datos de un repositorio TIPO: presencia o no de la enfermedad (enfermo=1, sano=0). SEVE: enfermedad severa o no (enfermo severo= 1, no enfermo severo=0). SEXO: Sexo del paciente (0= hombre, 1= mujer). EDAD: Edad del paciente. EDADC: Edad del paciente categorizada: Gráficos>Dispersión/Puntos Tema 2: Estadística descriptiva 20 Ejemplo 1: Colesterol y Sexo Tema 2: Estadística descriptiva 21 Ejemplo 4 : Hemoglobina >Analizar>Estadísticos descriptivos>Explorar HEMO Gráfico de tallo y hojas Frecuencia Stem & Hoja 1,00 10. 5 5,00 11. 02289 7,00 12. 0005678 9,00 13. 023458888 9,00 14. 124568889 15,00 15. 000113344445668 10,00 16. 0003445688 5,00 17. 02269 Ancho del tallo: 10,00 Cada hoja: 1 caso(s) Tema 2: Estadística descriptiva 22 - Histograma Se dibuja una escala en eje X con los valores de la variable. El histograma se construye de forma que los rectángulos para cada clase tengan un área proporcional a la frecuencia relativa. Tema 2: Estadística descriptiva 23 Ejemplo 4: Hemoglobina Tema 2: Estadística descriptiva 24 Ejemplo 1: Colesterol y Duración Tema 2: Estadística descriptiva 25 – Polígono de frecuencias relativas Se unen con rectas los valores de las marcas de clase en el histograma. Tema 2: Estadística descriptiva 26 – Polígono de frecuencias acumuladas. Ejemplo 4: Hemoglobina Ejemplo 1: Colesterol y Duración Tema 2: Estadística descriptiva 27 Medidas numéricas: Estadísticos Posición – Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Cuantiles, percentiles, cuartiles, deciles,... Centralización – Indican valores con respecto a los que los datos parecen agruparse. Media, mediana y moda Dispersión – Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Desviación típica, coeficiente de variación, rango, varianza Forma – Asimetría – Apuntamiento o curtosis Tema 2: Estadística descriptiva 28 Estadísticos de posición Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada. Casos particulares son los percentiles, cuartiles, deciles, quintiles,... Percentil de orden k = cuantil de orden k/100 – La mediana es el percentil 50. – El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%. Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. – Q1= Percentil 25 = Cuantil 0,25. – Q2 = Percentil 50 = Cuantil 0,5 = mediana. – Q3 = Percentil 75 = Cuantil 0,75. Tema 2: Estadística descriptiva 29 Estadísticos de posición Definición : el percentil k (k=1,2,...,100) es el valor de la variable que deja el k% = (k*n/100) de las observaciones de la muestra por debajo. Se denota Pk Ejemplo : 3.55 es el P25 de una muestra de 100 observaciones: el 25% de los valores de la muestra son menores de 3.55 cálculo : - Primero se ordenan las observaciones: x(1), x(2),...., x(n) - Se calcula el k% de n : Nk = k*n/100 - Se distinguen dos casos: (i) Si Nk es entero : Pk = ( x(Nk) + x(Nk+1) ) /2 (ii) Si Nk no es entero : eNk = entero inmediatamente mayor a Nk Pk = x(e(Nk)) Tema 2: Estadística descriptiva 30 Ejemplo 1 : duración, colesterol Tema 2: Estadística descriptiva 31 - Diagrama en cajas Es una representación gráfica de la distribución de frecuencias de una variable numérica. CARACTERÍSTICAS :. sencillez. útil en la comparación de grupos. destaca características de la distribución : localización, dispersión y forma. señala posibles valores atípicos CONSTRUCCIÓN : Se construye a partir de Q1,Q2,Q3, Min y Max 1º- Se dibuja un rectángulo vertical u horizontal de anchura arbitraria cuyos extremos son Q1 y Q3 y se indica Q2, mediante una línea de posición. ( suele colocarse una escala al lado del diagrama) 2º- Se calculan unos límites admisibles superior e inferior: LI = Q1 - 1.5(Q3-Q1) LS = Q3 + 1.5(Q3-Q1) Diremos que un valor es atípico si es > LS ó < LI. Se determina la existencia de valores atípicos 3º- Se dibuja una línea que va desde cada extremo del rectángulo central hasta el mínimo valor no atípico y el máximo valor no atípico. Los valores atípicos se representan mediante un símbolo. Tema 2: Estadística descriptiva 32 Ejemplo 4:Niveles de Hb en 60 adultos normales 105 110 112 112 118 119 120 120 120 125 126 127 128 130 132132.5 133 134 135 138 138 138 138 141 142 144 145 146 148 148 148 148.5 149 150 150 150 151 151 153 153 154 154 154 154 155 156 156 157158 160 160 160 163 164 164 165 166 168 168 170 172 172 179 Min = 105 ; Max =179; Q1 = 132.5 ; Q3 = 157 ; Q2 = Mediana = 148.5 LI= Q1 - 1.5(Q3 - Q1) =95.75 LS= Q3 +1.5(Q3 - Q1) =193.75 Min Max Q1 Mediana Q3 105 132.5 148.5 157 179 Tema 2: Estadística descriptiva 33 -Diagramas en cajas. Ejemplos 1 y 4. Tema 2: Estadística descriptiva 34 Tema 2: Estadística descriptiva 35 Medidas de centralización Son medidas que buscan posiciones (valores) con respecto a los que los datos muestran tendencia n a agruparse. ∑ xi Media : X = i =1 n Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. – Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. n – Centro de gravedad de los datos. ∑ wi xi i =1 Xw = n – Media ponderada de {x1,...xn} con pesos w1,...wn ∑ wi i =1 Mediana Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. Propiedades de la mediana: - Interpretación clara - Poco sensible a valores extremos - Malas propiedades matemáticas Tema 2: Estadística descriptiva 36 Moda Es el/los valor/es donde la distribución de frecuencia alcanza un máximo. -puede no existir ó no ser única - con variables continuas tiene mas sentido hablar de intervalo modal Tema 2: Estadística descriptiva 37 3 formas de distribuciones unimodales: concepto de simetría Distribución simétrica: La media coincide con la mediana. Distribuciones asimétricas: La media tiende a desplazarse hacia los extremos Tema 2: Estadística descriptiva 38 Medidas de dispersión Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. Amplitud o Rango : La diferencia entre las observaciones extremas. – 2,1,4,3,8,4. El rango es 8-1=7 – Es muy sensible a los valores extremos. Rango intercuartílico :.= P75 - P25 – Es la distancia entre el primer y tercer cuartil – Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. – No es tan sensible a valores extremos. Tema 2: Estadística descriptiva 39 Varianza S2 : Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. 1 2 S = ∑ n −1 i ( xi − x ) 2 – Es sensible a valores extremos (alejados de la media). – Sus unidades son el cuadrado de las de la variable. Desviación típica : Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable. 2 S= S Tema 2: Estadística descriptiva 40 Coeficiente de variación Es la razón entre la desviación típica y la media. S – Mide la desviación típica en forma de CV = “qué tamaño tiene con respecto a la media” – También se la denomina variabilidad relativa. x – Es frecuente mostrarla en porcentajes Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa) Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. – Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura. No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente – Por ejemplo 0ºC ≠ 0ºF Tema 2: Estadística descriptiva 41 Desigualdad de Chebyshev (1821-1894) Centrados en la media y a una desviación típica de distancia tenemos más de la mitad de las observaciones A dos desviaciones típicas las tenemos a casi todas : [x ± 2 S ] contiene al menos al 75% de los valores muestrales [ x ± 3S ] contiene al menos al 89% de los valores muestrales Tema 2: Estadística descriptiva 42 Apuntamiento o curtosis (kurtosis) La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional. Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Los gráficos poseen la misma media y Leptocúrtica: curtosis > 0 desviación típica, pero diferente grado de apuntamiento o curtosis. 300 400 160 140 300 200 120 200 100 100 80 100 Frecuencia Frecuencia Frecuencia 60 0 0 40 27 37 45 53 61 69 77 85 93 3 27 37 47 57 67 77 87 97 108 45 48 51 54 57 60 63 66 69 72 75 78 81 84 Tema 32 2: 41 Estadística 49 57 65 descriptiva 73 81 89 99 16 32 42 52 62 72 43 82 92 102 138 Platicúrtica Mesocúrtica Leptocúrtica Ejemplo 1: >Analizar>Estadísticos Descriptivos>Explorar Tema 2: Estadística descriptiva 44 TRANSFORMACIONES Transformaciones Lineales : Y=aX+b Cambios de Localización y escala Transformaciones No lineales : Y=h(X); Se utilizan a menudo en estadística cuando la nueva variable tiene una distribución mas simétrica. Las transformaciones mas utilizadas son 2 ln X , X ,1 / X , X X2 : comprime la escala para valores pequeños y la expande para valores altos Las otras tres transformaciones comprimen la escala de los valores altos y expanden los bajos. Tema 2: Estadística descriptiva 45 Tema 2: Estadística descriptiva 46 Tema 2: Estadística descriptiva 47 Tema 2: Estadística descriptiva 48 Análisis Bivariante de variables cualitativas: Tablas de contingencia >Analizar>Estadísticos descriptivos>Tablas cruzadas Tema 2: Estadística descriptiva 49 Tablas de frecuencias relativas Tema 2: Estadística descriptiva 50 Medidas de asociación en tablas de contingencia n11 n12 n21 n22 Riesgo Relativo=R.R= [n11/n11+n12]/[n21/n21+n22] Odds Ratio= O.R= [n11/n21]/[n12/n22] 1- RR = 1 si y solo si OR = 1 y en este caso no existe asociación 2- RR >1 si y solo si OR > 1 y en este caso existe una asociación positiva RR= OR= RR= OR= Tema 2: Estadística descriptiva 51 Cuidado con el orden de filas y columnas: Ejemplo 2: Dos nuevas variables que se añaden al fichero: -Sexobis(0:H;1:M) -EFSEbis(AFI;NEG) Con Sexobis Con Sexobis Tema 2: Estadística descriptiva 52 Tablas con más de dos categorías : Ejemplo 2: Se crean nuevas variables para cada categoría (Enfermedad) son variables 0/1: … Tema 2: Estadística descriptiva 53 Análisis Bivariante de variables cuantitativas: Diagrama de dispersión. >Gráficos>Dispersión La representación gráfica más útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las dos variables. Ejemplo 3: Definir el tipo de relación: Lineal ó no lineal ? Creciente ó decreciente? Débil ó fuerte ? Además: Puntos extremos? Transformaciones? Tema 2: Estadística descriptiva 54 Dos diagramas con escalas diferentes Tema 2: Estadística descriptiva 55 Medidas de asociación para variables numéricas : El coeficiente de correlación Es una medida numérica de la fuerza y dirección de la relación lineal Las relaciones lineales son importantes porque son simples, fáciles de comprender y pueden encontrarse tras una previa trnasformación de las variables. - r siempre entre 1 y -1 - r > 0: relación creciente. r

Use Quizgecko on...
Browser
Browser