Summary

This document provides a summary of basic biostatistical concepts, including types of data (qualitative and quantitative), and different descriptive statistical measures like mean, median, and mode, useful for analyzing data in a variety of fields.

Full Transcript

en el programa : BIOESTADÍSTICA cuantitativa----- media, rango Cualitativa: frecuencias % ESTADÍSTICA DESCRIPTIVA TEMA 1 CONCEPTOS BÁSICOS: - Individuos o elementos: personas u objetos con...

en el programa : BIOESTADÍSTICA cuantitativa----- media, rango Cualitativa: frecuencias % ESTADÍSTICA DESCRIPTIVA TEMA 1 CONCEPTOS BÁSICOS: - Individuos o elementos: personas u objetos con información para analizar. - Población: conjunto de individuo o elementos con propiedades comunes, y de los cuales pretendemos obtener conclusiones. - Muestra: subconjunto representativo de una población (la parte de población que se estudia). - Característica o variable: propiedades, rasgos o cualidades de los elementos/individuos de la población. - Modalidades: Posibles situaciones o valores de una característica. Deben ser exhaustivas y mutuamente excluyentes (cada individuo pertenece o posee un y sólo una de las modalidades posibles) - Clases: conjunto de una o más modalidades, verificando que cada modalidad pertenece a una y sólo una de las clases. TIPOS DE DATOS - Cualitativas: modalidades o valores nominales - Nominales, si no es posible aplicar orden (grupos sanguíneos). - Ordinales, sía eu es posible establecer un orden entre ellas (grado de recuperación al aplicar un tratamiento). - Cuantitativas: modalidades que son cantidades numéricas con las que es posible hacer operaciones aritméticas (cuantificables y toman valores numéricos) - Discretas, no admiten una modalidad intermedia entre dos de sus modalidades. Se usan para contar valores numéricos enteros (nº de hermanos). - Continuas, admiten valor intermedio entre dos de sus modalidades (peso, altura, IMC) Una vez recogidos todos los datos (normalmente se dispone de esta información en bruto), los introduciremos en una base de datos para su posterior explotación. Objetivo: Obtener información de manera global y resumida sobre la distribución de una variable, permitiendo una percepción, comprensión y presentación más clara de los resultados de nuestra investigación. - Frecuencia absoluta: número de veces que se repite una modalidad (contar casos) (el total de la fa es el total de individuos n) - Frecuencia relativa (o proporción): tanto por uno de individuos contenidos en una modalidad respecto al total de la población o muestra. ( el total de la fr es 1) PRESENTACIÓN DE LOS DATOS: GRÁFICAS - Cualitativas: - Diagrama de barras - Diagrama de sectores - Cuantitativas: - Histograma - Diagrama de barras (sólo discretas) 1 TEMA 2 Mediana: valor que ocupa la posición central de todos los datos ordenados de menor a mayor. Es un valor de la variable tal que la mitad (el 50%) de los datos son menores o iguales a él. Es aplicable a variables cuantitativas. Se calcula: - Si el tamaño de la muestra n es impar la mediana será el valor que se encuentre en la posición n+1 __. 2 - Si el tamaño de muestra es un número par, la mediana sería la media aritmética entre las dos observaciones centrales (n/2 y la siguiente). Propiedades: - Medida de Tendencia central - Expresada en las mismas unidades que la variable - Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas o valores atípicos, ya que no está condicionada por los valores que toma la variable. - Su uso es recomendable en poblaciones asimétricas (datos sesgados) y en variables con muchos valores atípicos. - Conveniente utilizarla con muestras pequeñas. Media: suma de todos los valores de una variable dividida entre el nº de sumandos. Es aplicable a variables cuantitativas. Pretende representar o resumir los datos de la variable. Es la medida más popular y utilizada, aun teniendo su uso ciertas restricciones. Propiedades: - Expresada en las mismas u que la variable - Representa muy bien distribuciones simétricas - Es sensible a valores extremos de la variable, por lo que no se recomienda su uso en distribuciones asimétricas o con muchos valores atípicos. Moda: cualquier más relativo de la distribución de frecuencias o, dicho de otro modo, a aquella modalidad (categoría) o intervalo (clase) de mayor frecuencia absoluta. Propiedades: - Medida de Posición central - Uso aconsejable en poblaciones asimétricas - Aplicable a cualquier tipo de variable (si es cuantitativa continua, es necesario categorizarla y presentarla en intervalos) - Una distribución puede tener varias modas. Outliers: Valores muy altos o muy bajos en relación al resto de datos o valores de la variable. Afecta más a la media que a la mediana. Simetría Objetivo: permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (media aritmética), o si por el contrario, sufren algún tipo de desplazamiento o deformidad horizontal alrededor de la misma. - Sesgo o asimetría positiva: acumula un gran número de observaciones para valores bajos de la variable. - Sesgo o asimetría negativa: acumula un gran número de observaciones para valores altos de la variable. - La curva es simétrica cuando se distribuye aproximadamente la misma cantidad de valores a ambos lados de la media. 2 Si la gráfica es asimétrica positiva —> la media será mayor que la mediana Si la gráfica es asimétrica negativa —> la media será menor que la mediana Amplitud o rango: es la diferencia entre el valor máx y mín de los datos. Rango = xmax - xmin Propiedades: - Fácil de calcular y sus unidades son las mismas que las de la variable. - Se puede ver muy afectada por alguna observación extrema. - El rango aumenta con el número de observaciones, o bien se queda igual. - El rango puede ser usado como medida orientativa de la dispersión de una muestra, pero no tiene gran valor inferencial. Propiedades: - La varianza es siempre una cantidad positiva. Sus unidades son las del cuadrado de la variable. - La razón principal de usar la desviación típica en lugar de la varianza es que tiene la misma magnitud que los datos (las mismas unidades) - Ambas son sensibles a la variación de cada una de las observaciones. Observando su definición, la varianza se calcula en función de cada una de las observaciones. - No es recomendable el uso de ellas, cuando tampoco lo sea el de la Vedia como medida de tendencia central. - La desviación típica tiene la propiedad de que en el intervalo se encuentren, al menos, el 75% de las observaciones o datos. - Si la distribución de los datos no es muy simétrica, este mismo intervalo puede contener aproximadamente el 95% de las o datos. 3 Rango Intercuartílico: es la diferencia entre el tercer y el primer cuartil. RI = Q3 - Q1 Propiedades: - Se recomienda usar el rango intercuartílico (RI) como medida de dispersión cuando se use la mediana como medida de tendencia central. - Se representa, o bien mediante la diferencia de los cuártales o bien mediante el intervalo definido por dichos cuartiles. - En este intervalo se encuentra el 50% de los datos (centrales) de la variable. - Análogamente, el 50% de los datos (centrales) de la variable se encuentra en un margen de RI unidades. Coeficiente de variación: indica la variabilidad de una variable en relación a su medida. _ Cv = s/x Propiedades: - El Cv no tiene unidades, por lo que es invariable a cambios de escala o unidad de medida. - Es muy útil para comparar dispersiones de poblaciones con distintas unidades de medida. De este modo, si el Cv es mayor en una población, diremos que la variable presenta más dispersión en esa población. - Nos será util para comparar dispersiones: - De la misma variable medida en dos poblaciones o muestras distintas. - De distintas variables expresadas en distintas unidades de medida - Cuando la dispersión pueda depender de la media. Percentiles: Las medidas de posición nos describen la distribución de los datos de una variable. Llamaremos percentil k a aquel valor de la variable que deja por debajo de él al k% de los daros (por encima al (100-k)%). Los percentiles dividen la muestra ordenada en 100 partes iguales. ¿Cómo se calcula? - Primero debemos ordenar la muestra - Una vez ordenada, el percentil k (Pk), será el valor de la variable que ocupe aprox. La posición nk/100 en la muestra ordenada, y por tanto, dejando por debajo de él al k% de los datos. - Notar que los pasos son similares al cálculo de la mediana. De hecho, la mediana es el percentil 50. Del mismo modo los deciles (Di) son aquellos percentiles que dividen la muestra en 10 partes iguales, mientras que los cuartiles (Qi) la dividen en 4 partes iguales. El percentil (así como el decir y el cuartil) son valores de la variable, por lo que las unidades de estas medidas son las mismas que la de la variable. El RANGO INTERCUARTÍLICO es el rango comprendido entre el primer cuartil y el tercero. La caja del BOXPLOT representa este rango intercuartílico. Pueden existir outliers, los cuales so valores que son atípicos, muy distantes al resto de valores. Variabilidad y simetría de un conjunto de datos: - El boxplot mostrará sin conjunto de datos es simétrico o sesgado (la caja será asimétrica) - Si la parte más larga de cuadro está a la derecha o arriba de la mediana, los presentarán asimetría positiva. - Si la parte más larga está a la izquierda presentarán asimetría negativa. 4 - Si un lado del cuadro es más largo que el otro, no significa que ese lado contenga más datos: se basa en porcentajes sobre el tamaño de la muestra, no en el tamaño de la muestra en sí. - Cada sección del boxplot (desde el mínimo hasta el Q1, desde el Q1 hasta la mediana, desde la mediana hasta el Q3 y desde el Q3 para el máximos) contiene el 25% de los datos. - Que una de las secciones sea más larga que otra, indica un rango más amplio en los valores de los datos en esa sección (los datos están más dispersos). - Una sección más pequeña del boxplot indicará que los datos están más juntos. PROBABILIDAD TEMA 1A El fin de la estadística no es meramente descriptivo, sino que la representación, tabulación y síntesis de los datos es el punto de partida para el estudio de la población (a partir de la una muestra), y que denominamos inferencia estadística. - Unión AUB al menos uno de los sucesos ocurre - Intersección AyB los dos sucesos ocurren - Suceso compuesto: Aquel que se expresa como unión de otros sucesos. - Suceso seguro: La unión de todos los sucesos elementales - Suceso imposible: Aquel suceso que no se puede dar se denota por o. - Sucesos incompatibles: Aquellos que no se pueden dar simultáneamente - Suceso complementario: no A es complementario de A, si no se puede dar cuando se da A. Regla de Laplace: Si los sucesos elementales son equiprobables, es decir, todos los resultados posibles tienen la misma probabilidad, la probabilidad de un suceso A vendría dado por: P(A)= nº de casos favorables de A/ nº de casos posibles 5 Probabilidad condicionada: P(A/B)= P(AyB)/P(B) Estamos calculando la probabilidad del suceso A. La diferencia es que en este caso se nos da más información, y es que ha sucedido o sucede B. A y B son independientes si cualquiera de los dos puede ocurrir sin que el otro suceda previamente. P(A/B) = P(A) Si A, B y C son sucesos dependientes: P(A/B) = P(A/B) P(B) = P(B/A) P(A) Si los sucesos A, B y C son independientes: P(AyB) = P(A) P(B) TEMA 1B Test diagnóstico: Prueba médica que nos puede ayudar en el diagnóstico de una enfermedad - Nos puede ayudar a decidir si un paciente padece cierta enfermedad o no (pe, diabetes), en función de los resultados de la misma (pe, detección de glucosa en la orina) - Estas pruebas no son perfectas. Existe la posibilidad de que haya pacientes en los que el test de positivo siendo pacientes sanos (falsos positivos), o pacientes en los que el test de negativo y sean realmente enfermos (falsos negativos). Test positivo (T+) Test negativo (T-) Totales Enfermedad VP FN VP + FN Total enfermos No enfermedad FP VN FP + VN Total sanos Total VP + FP FN + VN TOTAL Total positivos Total negativos Propósitos de un test diagnóstico: - Descubrir una enfermedad. Se aplica el test en personas aparentemente sanas, sin sospecha clínica de la presencia de esa enfermedad (Screening o cribaré) - Confirmar una enfermedad. Se aplica el test en personas con sospechas clínicas fundadas de la presencia de esa enfermedad, para verificar esa sospecha. - Descartar una enfermedad. Se aplica el test en personas con dudas de la presencia de esa enfermedad, para descartar la misma. A un test o prueba diagnóstica hay que exigirle: - eficacia y valides: Es la capacidad de la prueba para medir lo que pretende medir. Normalmente se compara con otra prueba ya validada (Gold standard). Para estudiar valides, obtendremos la Sensibilidad y la Especificidad del test. - Seguridad o capacidad productiva: En la práctica clínica, el propósito del test es predecir o identificar la condición clínica (enfermo o sano) de un paciente, en base a los resultados del test. La seguridad es la capacidad de una prueba para predecir la ausencia o la presencia de enfermedad. Los valores productivos y las razones de probabilidad son medidas de su capacidad predictiva. Sensibilidad: Es la probabilidad de que dicho test de positivo (T+) sobre una persona que sabemos que padece la enfermedad (E). Descarta. s= P(T+/E) = VP/ (VP+FN) = VP/Total enfermos Especificidad: Es la probabilidad de que el test de negativo (T-) sobre una persona que no padece la enfermedad (no E). Confirma. e= P(T-/noE) = VN/(FP+VN) = VN/Total sanos 6 Elegimos una prueba de alta sensibilidad: - Si una prueba es muy sensible, produce muy pocos falsos negativos. - Las pruebas muy sensibles identificarán a todos los individuos enfermos, de tal manera que cuando se aplican a un individuo determinado y es negativa, se puede asumir con confianza que el individuo está sano. Por esto sería conveniente usarlas: - Cuando hagamos un screening o cribado para captar a todos los enfermos. (Detectar el máximo número de casos de la enfermedad en la población general) - Es muy útil ante enfermedades graves, en los que el no diagnosticar la enfermedad puede resultar fatal para los enfermos. - Cuando los falsos positivos no supongan un trauma psicológico, físico o económico para los individuos. - En resumen, una prueba muy sensible con un resultado negativo descarta una enfermedad cuando los resultados son negativos. Elegimos una prueba con alta especificidad cuando: - En las pruebas muy específicas hay pocos falsos positivos, pero pueden haber falsos negativos. - Las pruebas muy específicas intensificarán a todos los individuos sanos, de tal manera que cuando se aplica a un individuo determinado y resulta positiva, se puede asumir con confianza que el individuo está enfermo. Por tanto, sería conveniente usarlas: - Cuando diagnosticar a un paciente de un mal que realmente no padece (falso positivo) pueda acarrear graves consecuencias. - Cuando necesitemos pruebas de confirmación diagnóstica, cuando tratemos de reducir el riesgo de catalogar como enfermo a un sujeto sano (falso positivo). - En resumen, las pruebas de alta especificidad las usaremos cuando se trate de confirmar un diagnóstico cuando los resultados so positivos. Valor predictivo positivo: Probabilidad de que si el resultado del test es positivo, el paciente esté realmente enfermo. v+ = P(E/T+) = VP/(VP+FP) = VP/Total positivos A mayor nº de falsos positivos menor v+ Valor predictivo negativo: Probabilidad de que si el resultado del test es negativo, el paciente esté realmente sano. v- = P(noE/T-) = VN/(FN+VN) = VN/Total negativos A mayor nº de falsos negativos menor v- Test positivo (T+) Test negativo (T-) Totales Enfermedad VP FN VP + FN Total enfermos Sensibilidad No enfermedad FP VN FP + VN Total sanos Especificidad Total VP + FP FN + VN TOTAL Total positivos Total negativos V+ V- Prevalencia: probabilidad o frecuencia de una enfermedad. p= P(E) A la prevalencia también se le denomina probabilidad per-test. Puede interpretarse como la probabilidad esperada de tener el fenómeno en estudio (enfermedad) antes de realizar la prueba 7 diagnóstica. Esta prevalencia puede modificarse en función del ámbito o contexto en el que se aplica la prueba. En realidad, los valores productivos son estimaciones de prevalencia (probabilidad are-test), una vez conocemos el resultado de la prueba (positivo o negativo), por lo que también se les denominan probabilidades post-test. Relación entre prevalencia y valores predictivos Mientras que la sensibilidad y la especificidad son característica inherentes a un test, es decir, o varían sea cual sea el contexto o población en la que se aplique la prueba, los valores predictivos se ven afectados por la prevalencia (probabilidad pre-test) del fenómeno a estudiar. Curvas ROC Son una representación gráfica de la relación existente entre sensibilidad y 1 - especificidad (tasa de falsos positivos) para cada punto de corte posible. Interpretación de la curva ROC - Un parámetro para evaluar la bondad de una prueba diagnóstica que produce resultados continuos es el área bajo la curva (AUC). Este área puede interpretarse como la probabilidad de que ante un par de individuos, uno enfermo y el otro sano, la prueba los clasifique correctamente. - Una curva ROC tendría un área de 1. Una prueba totalmente inútil daría un área de 0,5. - Las curvas ROC también pueden utilizarse para elegir el punto en el que se considera que una prueba es positiva. Los punto en la parte superior izquierda de la curva tienen el mayor índice de volumen. TEMA 2 Variable aleatoria - Una variable aleatoria es una variable asociada a un experimento aleatorio que consiste en asignar un valor numérico a cada suceso aleatorio de un espacio muestra. - Veremos que toda variable aleatoria posee una distribución de probabilidad que describe su comportamiento. TIPOS - Una variable aleatoria es discreta si sólo puede tomar un número finito o numeradle de valores (número de hermanos, días hasta el alta hospitalaria, etc.). - Una variable aleatoria es continua si sólo puede tomar un número infinito de valores (edad, colesterol HDL, altura, etc.) 8 Parámetro:Cantidad numérica obtenida a partir de los valores o datos de una población. Pretende resumir la información de todos esos valores. Es un valor teórico, se puede estimar, pero (casi) nunca podremos obtenerlo. Estadístico: Cantidad numérica obtenida a partir de los valores o datos de una muestra. Pretende resumir la información de todos esos valores. Es un valor empírico (se puede calcular). Distribución de probabilidad variable discreta aleatoria Para una variable alegatoria discreta X, la asignación de cada posible valor xi (sucesos elementales de un espacio muestran) a la probabilidad de que suceda, es a lo que llamamos distribución de probabilidad de la variable X: pi = f(xi) = P(X = xi) f es la función de densidad o función de probabilidad para una variable aleatoria discreta Enfoque intuitivo: Distribución de probabilidad variable aleatoria continua Distribución empírica Curva de densidad variable aleatoria continua 9 Distribución empírica vs distribución de probabilidad En cada muestra podemos obtener una media y una varianza muestral. La media poblacional (parámetros) son (signo de micra y sigma cuadrado) respectivamente. Conforme vamos aumentando el tamaño de la muestra, las medias y variadas muestras se van aproximando a los parámetros micra y sigma cuadrado. La medida poblacional (micra) de la variable es un valor fijo que no cambia y normalmente desconocido, a diferencia de la media muestral que es conocida pero puede variar de una muestra a otra. Distribución de probabilidad variable aleatoria continua Para una variable aleatoria continua, a cada valor (rango de valores) de la variable le asignaremos su función de densidad f. Ese conjunto de posibles valores junto con su función de densidad, es a lo que llamamos distribución de probabilidad. RESUMEN - El objetivo final de esta teoría es construir modelos de probabilidad que fueran capaces de representar el comportamiento teórico de diferentes fenómenos aleatorios observados en el mundo real. - La pretensión de modelar lo observable constituye una necesidad básica para la ciencia empírica, dado que a través de estos modelos teóricos, se puede experimentar sobre aquello que la realidad no lo permite. - Es muy frecuente asumir que una muestra procede de una población que sigue una determinada distribución teórica de probabilidad. - La mayoría de las distribuciones de probabilidad vienen descritas o determinadas por uno o más parámetros (media, varianza, proporción,…). Conociendo estos parámetros, se puede definir y describir perfectamente una distribución. - Si usamos un método inferencial en el que asumimos que los datos de una muestra pertenecen a una población con una distribución teórica conocida, suele decirse que dicho método es paramédico. Es decir, se basa en los parámetros que definen esa distribución teórica. - En el caso de no presuponer nada acerca de la distribución de la población, se utilizan los métodos no paramédicos. - En la práctica hay unas cuantas distribuciones de probabilidad teóricas, como son, por ejemplo, la distribución Binomial o la de Poisson para variables discretas o la distribución Normal para variables continuas que son capaces de describir los fenómenos aleatorios más frecuentes. DISTRIBUCIÓN BINOMIAL Supongamos que: - Realizamos un experimento en el que solo podemos obtener dos resultados posibles (A y noA). - Pi es la probabilidad de que ocurra A. P(A) = pi - El experimento se repite n veces en las mismas condiciones - Sea X = {Número de veces que sucede A} - Los valores posibles que podrá tomar X por tanto serán 0,1,2, …, n Se dice que la variable aleatoria X sigue una distribución binomial con parámetros n y pi X- B(n.pi) DIRTRIBUCIÓN NORMAL La distribución de probabilidad más importante y más conocida es la distribución Normal. El nombre de distribución normal le viene dado debido a que durante un tiempo se pensó que todas las variables continuas de la naturaleza seguían esta distribución. Si una variable aleatoria X sigue una distribución normal, de parámetros pi y sigma cuadrado lo denotaremos como X-N(pi, sigma cuadrado). 10 Viene totalmente determinada por su media (pi) y su desviación típica (sigma). Conocidos estos clores, podemos calcular todas las probabilidad necesarias para describir la distribución. IMPORTANCIA DE LA DISTRIBUCIÓN NORMAL - Fundamental en la estadística inferencial. - Aunque una variable aleatoria no posea distribución normal, algunos estimadores (estadísticos) calculados sobre las muestras (media muestral) sí que siguen una distribución normal. Y lo más importante, esto es independiente de la distribución de la variable aleatoria. - Conocer la distribución de un estimador (por ejemplo, la media muestral), es clave para la estadística inferencial. Teorema central del límite - Dada una variable aleatoria, si tomamos muestras de tamaño n, y calculamos medias muestrales, entonces esas medias muestrales tienen distribución aproximadamente normal (con media y desviación típica) - Cuando el tamaño muestral se hace muy grande (n tiende a infinito), las estimaciones de la media poblacional a partir de la media muestral se hacen casi exactas. 11 Tipificación y propiedades La tipificación se usa para calcular la probabilidad de cualquier variable normal, sea cual sea su media y su desviación típica. Si tenemos una variable normal X, con media pi y desviación típica sigma (X- N(pi,sigmacuadrado)), podemos tipificarla de la siguiente manera: Otras distribuciones de probabilidad T de Student - Es una distribución simétrica con respecto al cero. - La gráfica muestra la distribución t de Student para 1, 2, 5, 10 e infinitos grados de libertad (realmente son distribuciones distintas). Denotaremos estar distribuciones como t1, t2, t5, t10 y t infinito. - En general tn será la distribución t de Student con n grados de libertad. - Cuando los grados de libertad aumentan, esta distribución se asemeja a la distribución normal siendo igual en el caso t infinito. Chi-cuadrado 12 MUESTREO Y ESTIMACIÓN El propósito de un estudio estadístico suele ser, como hemos venido indicando a lo largo del curso, extraer conclusiones acerca de una población. En este sentido, la tarea fundamental de la estadística inferencial será obtener conclusiones acerca de la población general a partir de una muestra extraída de la misma. En este primer tema de estadística inferencial veremos cómo obtener un estimador para un determinado parámetro de una población, bien mediante una estimación puntual, o bien mediante intervalos. Primero que nada: obtención de la muestra y u problemática. Ventajas de realizar un muestreo sobre una población: - Problemas logísticos (no es lo mismo analizar a 100 personas que a 100000) - Coste reducido (más barato) - Mayor rapidez - Más posibilidades Lo que ha de exigirse a las mediciones del estudio es que sean: precisas y válidas. El error aleatorio es el error debido al azar y afecta a la precisión del resultado. Posibles causas - El azar al obtener una muestra puede provocar una muestra no representativa de la población. - Un tamaño muestral insuficiente puede provocar una muestra no representativa, además de poca precisión. - Técnicas de muestreo no probabilístico - Variabilidad en la medición, bien debida al instrumento de medida o a la propia variabilidad biológica de los elementos del estudio. Soluciones - Preocuparse por el tamaño muestral del estudio que vamos a realizar definiendo la precisión y la seguridad del mismo. - Precisión de las mediciones. Consecuencias - El error estándar se reduce al aumentar el tamaño muestral y por tanto, las estimaciones (intervalos de confianza) son más precisas). - Este error no afecta a la validez. El error sistemático o sesgo se produce por un error en el diseño o análisis del estudio, y produce una estimación incorrecta o no válida. Tipos de Sesgos - Sesgo de selección. Se produce cuando la selección de la muestra es inadecuada y afecta al resultado. - Sesgo de información. Se produce cuando las mediciones de las variables del estudio se realizan de forma deficiente. - Factores de confusión. Se produce cuando van a producir una distorsión en la estimación del efecto, en el sentido de que el efecto observado en la población en estudio es una mezcla de los efectos debidos a una tercera -o más- variables. Soluciones - No se corrige con el tamaño muestras, y es difícil de controlar. - Usar muestreos probabilísticos y la aleatorización pueden reducir estos sesgos. - En algunos casos puede atenuarse a través de un correcto diseño del estudio, y en el caso de los factores de confusión, con un adecuado análisis estadístico. - Es fundamental determinar el objetivo del estudio. En particular, el foco del problema o población diana. - Se deben definir claramente los criterios de exclusión (criterios para la elección o no de unos determinados sujetos) 13 Consecuencias - Este error afecta a la validez del estudio (la inferencia que realicemos será incorrecta). Tipos de muestreo Intencional (NO probabilístico) - Se trata de seleccionar casos característicos (que convengan al investigador) de una población limitando la muestra sólo a estos casos. Puede ser poco válido. Por conveniencia (NO probabilístico) - Se seleccionan aquellos casos accesibles (proximidad de los sujetos para el investigador y que acepten ser incluidos). Puede ser poco válido. Muestreo aleatorio simple (probabilístico) - En un muestreo aleatorio simple, los elementos de la muestra se extraen al azar de la población, por tanto, se caracteriza porque cada elemento de la población tiene la misma probabilidad de ser elegido. - Se escogería aleatoriamente (mediante un software estadísticos, hoja de cálculo, etc.) un número determinado de sujetos de un listado de la población que compondría la muestra. Muestreo aleatorio estratificado (probabilístico) - Un muestreo aleatorio estratificadoes aquel en el que se divide la población de N individuos en k subpoblaciones o estratos heterógenos entre sí, atendiendo a criterios que puedan ser importantes en el estudio. El proceso sería el siguiente: - Tenemos tamaños de población N1, N2,…,Nk de cada estrato que sumarán N (el total de la población. - Se realizan muestreos aleatorios simplesde tamaño ni, con i=1,…, k en cada uno de estos estratos. - Estos tamaños de la muestra (ni) pueden escogerse de forma proporcional al tamaño del estrato. Muestreo por conglomerados (probabilístico) - Se usa cuando no es posible acceder a toda la población o el muestreo aleatorio es muy costoso. - El muestreo por conglomerados es un procedimiento de muestreo en el que: - En primer lugar se descompone la población en agrupaciones homogéneas entre sí (clústeres o conglomerados). - Los elementos dentro de un conglomerados son heterogéneos. - Posteriormente, se selecciona una muestra aleatoria simple de conglomerados. Problemas en la elección de una muestra y la extrapolación de resultados (inferencia): - Dificultad en la obtención de los datos puede llevarnos a un muestreo no probabilístico. - No tener claro el objetivo inicial: Una definición ambigua de la población de estudio puede llevarnos a muestras no representativas y resultados poco válidos. - Debemos conocer desde un principio las variables de interés, los posibles factores de precisión, y conocer las limitaciones de los instrumentos de medida. Nota importante: Un muestreo no probabilístico puede ser de mucha utilidad para comenzar a estudiar un fenómeno, ya que se realiza de manera sencilla, rápida y barata, y puede ayudarnos a establecer hipótesis sobre dicho fenómeno que podrían ser estudiadas posteriormente con diseños y muestreos más complejos, válidos y fiables. Parámetro - Cantidad numérica obtenida a partir de los valores o datos de una población. Pretende resumir la información de todos esos valores. Estadístico - Cantidad numérica obtenida a partir de los valores o datos de una muestra. Pretende resumir la información de todos esos valores. Estimador puntual - Es un estadístico que toma valores próximos a un parámetro que se quiere estimar, es decir, es construido con el fin de dar una idea acerca del valor que toma ese parámetro dentro de una población. 14 Notación RESUMEN - El valor de un parámetro es único y tiene un valor determinado en una población para una variable. En un trabajo de investigación nos interesa conocerlo porque queremos obtener conclusiones sobre una población, pero en la mayoría de los casos no es posible. El valor de un estadístico, por el contrario, si lo podemos conocer obteniendo una muestra de la población. - Un estimador se obtiene a partir de los valores de una muestra, es decir, si tomamos varias muestras, supongamos n muestras, tendremos un valor para nuestro estimador (posiblemente distinto) en cada una de las n nuestras. - Para tener una idea, no solo del valor aproximado del parámetro (estimador puntual), sino también de la precisión de la estimación, optaremos por el método de estimación por intervalos de confianza. Estimación por intervalos de confianza Definición - Este método consiste en encontrar un intervalo donde aseguremos, con una probabilidad prefijada que supondremos suficientemente alta, que en su interior se encontrará el parámetro que pretendemos estimar. Intervalo de confianza - Dado alfa, llamaremos intervalo de confianza con nivel de confianza del (1-alfa)% para un parámetro 𝜽 , a un intervalo I tal que la probabilidad de que el verdadero valor del parámetro esté contenido en dicho intervalo sea (1-alfa). 15 Objetivo: Estimar el valor de la media poblacional 𝜇 Problema - No podemos conocer exactamente ese valor ya que no podemos acceder a la totalidad de los datos, solo vamos a poder estimarlo. - La media muestral 𝑥 es un buen estimador, pero no nos ofrecería el valor exacto 𝜇. Cota de error e - Para una muestra, el error en la estimación vendrá dado por: |𝜇 − 𝑥| - Sea e un número tal que |𝜇 − 𝑥| < e para cualquier muestra, es decir, es la máxima diferencia entre el valor del parámetro (media) y cualquier estimación (media muestral). A e se le denomina cota de error, y es el máximo error que cometemos, debido al azar del muestreo, al estimar la media de la población a partir de nuestra media muestral. Intervalo de confianza para la media mu Intervalo de confianza al 95% (alfa = 0,05) sería como el anterior pero sustituyes alfa por 0,95. 16 Construcción intervalo de confianza para ala media poblacional Paso 1. Obtener un estimador puntual para la media poblacional 1.1. Tomamos una muestra de tamaño n 1.2. Calculamos su media muestral. Sabemos que un estimador puntual de la media poblamional (mu). Paso 2. Obtener la cota de error e 2.1. Escogemos nivel de confianza 1-alfa 2.2. La muestra tiene tamaño n 2.3. Obtenemos ES (S) y tn-1;alfa Paso 3. Construcción del intervalo de confianza (1-alfa)% para la media poblacional ¿Qué propiedades podemos destacar? ¿Qué factores influyen en la cota de error? - Cuanto más alto es el nivel de confianza 1- alfa (alfa disminuye), el valor de tn-1;alfa aumenta, entonces la cota de error aumenta (el IC es más amplio y por tanto hay una menor precisión en la estimación) - Si hay más dispersión, el error aumenta (el IC es más amplio y por tanto hay una menor precisión en la estimación). - A mayor tamaño de muestra, menor es la cota de error (si se reduce el IC y por tanto hay una mayor precisión en la estimación). RECORDAR: Interpretación del intervalo de confianza Supongamos que repetimos el estudio varias veces, obteniendo en todos ellos el intervalo de confianza al (1-alfa)% para la media, entonces aproximadamente el (1-alfa)% de esos intervalos contendrían a mu. BLOQUE 5: CONTRASTE DE HIPÓTESIS PARTE I Introducción A partir de una muestra de una población podemos realizar: - Estimación puntual de un parámetro - Estimación de un parámetro por intervalos de confianza. Además de estas estimaciones, en un trabajo de investigación necesitaremos dar respuesta a una hipótesis que hayamos planteado en base a nuestros conocimientos sobre un tema. Nuestro objetivo será comprender como plantear estas preguntas en un contraste de hipótesis para posteriormente, mediante el resultado de dicho contraste, dar respuesta a dichas preguntas de investigación. Contraste de hipótesis Un proceso de razonamiento que nos ayudará a la toma de decisión sobre una hipótesis que hayamos planteado sobre una población. ¿Cómo planteamos las hipótesis? - En primer lugar, establecemos nuestra hipótesis de investigación (en el enunciado). - En segundo lugar, tenemos que plantear la hipótesis en la base de parámetros poblacionales conocidos. (Media y proporción normalmente) Proceso de razonamiento Paso 1. Planteamiento del contraste Debemos identificar el contraste a realizar. Dependerá de: - Las variables relacionadas con la hipótesis o pregunta de investigación - Del tipo de esas variables. Una vez identificado el contraste, establecemos las hipótesis nula y alternativa: - Hipótesis Nula H0 (no lo sé): hipótesis que queremos contrastar. Indica que las diferencias o asociaciones encontradas en la muestra son debidas al azar. Mantiene que el efecto de interés 17 no existe. Se denomina “nula”porque no nos lleva a ninguna coclsión definitiva. Su “aceptación” nos llevará a un resultado no concluyente. - Hipótesis Alternativa H1: Hipótesis que será admitida cuando H0 sea rechazada (negación de la anterior). Todas las conclusiones de un contraste podrán basarse en la aceptación o no de esta hipótesis. Paso 2a. Suponemos que se cumple la hipótesis nula (H0 es cierta) A partir de esta suposición, obtendremos a partir de una muestra un estadístico texp (valor experimental o estadístico de contraste) de tal manera que la teoría estadística nos dice que es un valor de una determinada distribución de probabilidad teórica T que conocemos (si el valor que eliges se sale muy fuera de la distribución podría ser, poco probable o de otra distribución, por lo que H0 no es cierta y sí H1) Paso 2b. A partir de esta distribución, y un valor alfa se calcula un intervalo denominado intervalo de aceptación de la hipótesis nula(t1, t2) Este intervalo se construye fijando una cantidad alfa suficientemente pequeña denominada nivel de significación, de modo que la probabilidad de que el estadístico de contraste texp tome un valor fuera del mismo (en la región crítica), cuando la hipótesis nula es cierta, sea inferior o igual a alfa. Paso 3. Regla de decisión. Conclusión. Comprobamos el valor obtenido para texp: - si texp pertenece a (t1, t2), digamos que el valor que ofrece ese estadístico no es “extraño” suponiendo que se cumple H0 y por tanto no la rechazamos, o como veremos más adelante, no encontramos evidencia en contra de H0 ( el resultado no es concluyente) - Si texp no pertenece a (t1, t2), resulta que hemos obtenido un valor “extraño” de texp suponiendo que se cumple H0, y por tanto, llegamos a la conclusión de que esta hipótesis no se cumple, por lo que la rechazamos y aceptamos H1 (existe significación estadística). P-valor Es la probabilidad de obtener un resultado igual o mayor al observado, bajo la premisa de que la hipótesis nula fuera cierta (probabilidad de equivocarse si decidimos aceptar H1): - Concretamente este p-valor mide el riego (o probabilidad) real de equivocarnos si decidimos H1. 18 - Dicho de otro modo, este p-valor es en realidad la probabilidad de que la diferencia (o relación) observada se únicamente debida al azar. Regla de decisión en función del p-valor Dado un nivel de significación alfa: - Si p-valor > alfa —> No hay evidencia en contra de Ho. Resultado no concluyente. - Si p-valor Poco probable que las diferencias encontradas sean debidas al azar. Aceptamos H1. El resultado es estadísticamente significativo. Proceso de razonamiento. Resumen. Paso 1. Planteamiento del contraste Definimos la hipótesis nula (H0) y alternativa (H1). Estas hipótesis (y por tanto el planteamiento) son distintas según el contraste que queramos realizar. Paso 2. Desarrollo y cálculos. Definición de la región crítica (alfa) y el estadístico del contraste 1. Definiremos la región crítica mediante la elección de un nivel de significación alfa. 2. Calcularemos el estadístico (experimental o del contraste)texp a partir de una muestra. Paso 3. Regla de decisión y conclusión - Si p-valor > alfa —> No hay evidencia en contra de H= (las diferencias no son significativas o no se observa relación entre las variables). Resultado no concluyente. - Si p-valor >= alfa —> Poco probable que las diferencias encontradas sean debidas al azar. Aceptamos H1. El resultado es estadísticamente significativo. En cada contraste la aceptación de H1 implicará algo distinto (H1 será diferente en cada contraste). Contraste de un parámetro - El contraste de un parámetro consiste en responder a la pregunta de si ese parámetro es distinto (mayor/menor) a un valor fijo dado de antemano. - En este tipo de problemas, solo se analiza una variable (cuantitativa o cualitativa) - Estudiaremos dos tipos de contrastes: media (cuantitativa) y proporción-probabilidad- prevalencia (cualitativa). CONTRASTE DE UNA MEDIA Para plantear nuestro contraste, lo primero que debemos detercater es cuál es nuestra variable, su tipo, y con qué valor queremos contrastar. Paso 1. Planteamiento del contraste para una media Paso 2. Desarrollo y cálculos. Definición de la región crítica o límite de aceptación (alfa) y el estadístico del contraste. 1. Definiremos la región crítica mediante la elección de un nivel de significación alfa. 2. Calcularemos el estadístico (experimental o del contraste) texp a partir de una muestra. Paso 3. Regla de decisión y conclusión. 19 - Si p-valor > alfa —> No hay evidencia en contra de H0 (las diferencias no son significativas o no se observa relación entra las variables). Resultado no concluyentes. - Si p-valor Poco probable que las diferencias encontradas sean debidas al azar. Aceptamos H1 por lo que existen diferencias significativas (o hay relación entre variables). CONTRASTE DE UNA PROPORCIÓN Paso 1. Planteamiento del contraste para una proporción. Paso 2. Desarrollo y cálculos. Definición de región crítica o límite de aceptación (alfa) y el estadístico del contraste. Paso 3. Regla de decisión y conclusión. - Si p-valor > alfa —> No hay evidencia en contra de H0 (las diferencias no son significativas o no se observa relación entre las variables). Resultado no concluyente. - Si p-valor Poco probable que las diferencias encontradas sean debidas al azar. Aceptamos H1 por lo que existen diferencias significativas (o hay relación entre variables). ERRORES DEL TEST - Como ya se indicó en la estimación de un parámetro por intervalos de confianza, al trabajar con muestras, podemos cometer un error en las estimaciones de parámetros que obtengamos a partir de las mismas. - Por la misma razón (trabajar con valores muestrales), cuando planteamos y resolvemos un contraste de hipótesis, debemos ser conscientes que podemos cometer un error al decidir que nuestra hipótesis es cierta (o no lo es). - A estos errores se les denomina de tipo I y tipo II. La ventaja es que, como veremos a continuación, al menos la probabilidad de cometer un error tipo I (alfa) es un valor que podemos decidir y controlar nosotros de antemano. Error tipo I - Cometeremos un error de tipo I cuando aceptemos H1 (rechacemos H0), y esta hipótesis en realidad no sea cierta (H1 no es cierta). - La probabilidad de que esto ocurra se fija previamente, y es precisamente el nivel de significación alfa con el que hemos definido el intervalo de aceptación (análogamente la región crítica) alfa = P (Cometer Error Tipo I) = P (Aceptar H1|H1 no es cierta) 20 ERROR TIPO II - Este error se produce cuando no aceptamos H1, siendo en realidad cierta. - La probabilidad de cometer este error es beta (no conocido de antemano). - Se denomina Potencia del Test a la probabilidad de acertar aceptando H1, y su probabilidad es 1-beta. Beta = P(NO Aceptar H1|H1 es cierta) 1-beta = P (Aceptar H1|H1 es cierta) Influencia del nivel de significación (alfa) en la potencia (1-beta) El nivel de significación y la potencia varían en el mismo sentido (aum. Alfa —> aum. 1-beta; dism. Alfa —> dism. 1-beta) Influencia del tamaño de tamaño de la muestra en la potencia Si el tamaño de la muestra aumenta, aumenta 1-beta —> n aum. —> 1- beta aum. Por convención, se considera aceptable una potencia mayor o igual al 80%. Consideraciones - El error de tipo I es controlable y fijado de antemano (alfa). Por ellos las decisiones de rechazar H0 son siempre fiables. Es decir, cuando el resultado del contraste así nos lo indique, seremos tajantes a la hora de rechazar H0 y por tanto aceptar H1 (el resultado del test será estadísticamente significativo). - Por el contrario, el no aceptar H1, produce un resultado no concluyente. - El error tipo I ocurrirá el 100*alfa% de las veces. Riesgo = 100*alfa%. En estadística, un resultado se denomina estadísticamente significativo cuando no es probable que haya sido debido al azar. Así, diremos que un test es estadísticamente significativo si aceptamos la hipótesis alternativa (H1). En caso contrario, si no encontramos evidencia en contra de la hipótesis nula (H0), diremos que el resultado del test no estadísticamente significativo (nuestro resultado no es concluyente). PARTE II Contraste de dos medias para puestras independientes (DICOTÓMICA Y CUANTITATIVA) - Supongamos que tenemos dos variables,, una de ellas es cuantitativa y la otra es cualitativa. - Este problema es análogo a comparar la variable cuantitativa en dos grupos independientes, ya que observamos que una variable dicotómica divide la población total en dos poblaciones independientes. 21 - Nuestro objetivo será comprobar si las medias de la variable cuantitativa (mu1 en el primer grupo y mu2 en el segundo grupo) son diferentes dependiendo del grupo (definido por la variable cualitativa dicotómica) en que nos encontremos, y por tanto, si existe relación entre la variable cualitativa dicotómica y la cuantitativa. - En particular, si tomamos una muestra de tamaño n, dispondríamos de dos muestras independientes en cada grupo (de tamaño n1 y n2, con n=n1+n2) en cada una de las cuales se dispone de información relativa a la característica cuantitativa. Paso 1. Planteamiento del contraste. Paso2. Desarrollo y cálculos. Definición de la región crítica (alfa) y el estadístico del contraste. Paso 3. Conclusión. - Si p-valor > alfa —> No existen diferencias significativas entre las medias de la variable cuantitativa en ambos. No existe relación entre las variables (resultado no concluyente). - Si p-valor Existen diferencias significativas entre las medias y por tanto, existe relación entre las variables. La media y por tanto los valores de la variable son distintos en ambos grupos. Condiciones de aplicación El contraste de dos medias (test T) que hemos visto, se debe aplicar bajo el cumplimiento de determinados supuestos o comprobaciones. 1) Es necesario que la distribución de la variable cuantitativa en cada uno de los grupos o subpoblaciones sea normal. Si el tamaño de la muestra es grande, no es necesario asumir la distribución normal, a menos que la asimetría sea evidente. 2) Por otro lado, también es necesario comprobar si las varianzas de la variable cuantitativa en cada grupo o subpoblación son iguales (homogeneidad) o distintas (heterogeneidad). La razón para esto último. Es que el estadístico de contraste en cada caso (homogeneidad o heterogeneidad), es diferente. Cuestiones relacionadas con la normalidad Asimetría - Una marcada asimetría pueden indicar la causa para la falta de normalidad de una variable (recordad que la distribución normal es simétrica). Transformaciones - Se pueden realizar transformaciones (logaritmo, raíz, potencia) en las variables para corregir la asimetría. - Se pordría utilizar para conseguir la normalidad. Si no se cumple normalidad de la variable cuantitativa, se usan los llamados Test No Paramétricos. En caso del contraste de dos medias para muestras independientes, usaríamos el Test de Mann-Whitney. Normalidad (con software estadístico) Hay distintos tests para comprobar la normalidad de una variable: - Test de Agostino. - Test de Shapiro-Wilk (muestras inferiores a 50 sujetos) (en PSPP). - Prueba de Kolmogorov-Smirnov (muestras superiores a 50). Planteamiento H0: La muestra proviene de una distribución normal H1: La muestra no proviene de una distribución normal Conclusión - Si p-valor > alfa —> No podemos afirmar que la distribución de la variable no ser normal. Asumimos la normalidad de la variable. - Si p-valor Aceptamos H1, por tanto, podemos afirmar que la variable no sigue una distribución normal. Homocedasticidad (con software estadístico) La prueba más conocida para la verificación de supuesto de homocedastidad es la prueba de Levene. Planteamiento 22 Conclusión - Si p-valor > alfa —> LAs diferencias aparecidas no son signifactivas. No podemos afirmar que las varianzas sean distintas. Asumimos Igualdad de Varianzas. - Si p-valor Aceptamos H1. Existen diferencias significativas. Las varianzas poblacionales son distintas. Contextualización del problema Disponemos de una sola muestra de sujetos (no tenemos dos grupos), sino que las medicioes se realizan dos veces sobre los mismo sujetos (muestras apareadas). - Mediciones de una variable cuantitativa antes y después de un tratamiento sobre los mismo sujetos (cada individuo se compara consigo mismo) - Compara dos métodos ( cuya respuesta es una variable cuantitativa) o dos tratamienos diferentes aplicados sobre los mismos sujetos. PARTE III Contraste de dos proporciones Contextualización del problema - Tenemos dos variables cuantitativas dicotómicas y queremos estudiar su posible relación. - Paso 1. Al igual que en el caso de las medias, una de las dos variables creará los dos grupos (uno por cada modalidad o categoría). - Paso 2. En cada uno de los grupos, vamos a tener una proporción de una de las dos modalidades (supongamos modalidad A) de la otra variable cualitativa. Son las dos proporciones que vamos a comparar: - Tras realizar la comparación de las dos proporciones, intentaremos llegar a una conclusión: si las proporciones son distintas en cada uno de los grupos, existirá relación entre las dos variables. ¿Cómo planteamos el problema? - Muestra de tamaño n - Al igual que vimos en el contraste de dos medias, en cada grupo definido por una de las variables cualitativas, tendremos ahora un tamaño muestral. - El número de casos de la modalidad (A) sobre la que queremos calcular la porporción en el primer grupo son x1, mientras que los casos de esta misma modalidad (A) en el segundo grupo son x2. Por tanto, las proporciones de casos de esta modalidad (A) en cada uno de los grupos serán: Paso 1. Planteamiento. Definición del contraste El contraste (de dos proporciones) vendrá dado por el planteamiento siguiente: Paso 2. Desarrollo y cálculos. Definición de la región crítica (alfa) y el estadístico del contraste Decidimos el valor de alfa. Paso 3. Conclusión. - Si p-valor > alfa —> No encontramos diferencias significativas en ambas proporcione. Resultado no concluyente. - Si p-valor Aceptamos H1, es decir, las proporciones son significativamente distintas. Existe relación entre las dos variables. 23 Contextualización del problema Dispones de una sola muestra de sujetos (no tenemos dos grupos), sino que las mediciones se realizan dos veces sobre los mismo sujetos. - Mediciones de una variable cualitativa (proporción) antes y después de un tratamiento sobre los mismo sujetos (cada individuo se compara consigo mismo) - Comparar dos métodos (cuya respuesta es una variable cuantitativa) o dos tratamientos diferentes aplicados sobre los mismos sujetos. Para datos apareados —> Test de McNemar Paso 3. Conclusión - Si p-valor > alfa —> No encontramos diferencias signifactivas en ambas proporciones y por tanto, no se aprecian cambios significativos en la proporción. Resultado no concluyente. - Si p-valor Aceptamos H1, y por tanto, existen diferencias signifacativas en ambas proporciones y por tanto existe en cambio en la proporción considerada. Contextualización del problema Supongamos que queremos analizar la relación o asociación entre dos características cualitativas de la población. ¿Cómo procederíamos? - Supongamos que disponemos de una muestra de tamaño n y en cada observación se toman valores de las dos variables. Supongamos que éstas presentan r y k modalidades (o categorías) respectivamente. - Presentamos los datos de la muestra en una tabla de doble entrada denominda tabla de contingencia (Tablas cruzadas en PSPP) Paso 3. Conclusión. - Si p-valor > alfa —> las variables son independientes. - Si p-valor Aceptamos H1, y por tanto, existe asociación entre las variables. Análisis de resudios (software estadístico) El test anterior indica la asoiación entre variables, pero no el sentido de la relación, es decir, que modalidades están relacionadas con otras. El análisis de residuos estudiará el sentido de la dependencia. - Definiremos el residuo rijb como la diferencia entre la frecuencia observada y la frecuencia observada y la frecuencia esperada, es decir: rij=nij-eij - Una vez calculado comprobamos el signo del residuo tipificado. Si el valor es positivo y suficientemente grande(>1,96), entonces concluiremos que existe asociación entre las modalidades correspondientes a dicha casilla. FACTORES DE RIESGO Contextualización del problema - Queremos establecer la influencia o relación de una determinada característica (factor) presente (o no) en un individuo, con otra característica de ese individuo. - ¿Y si por ejemplo esta última característica es la presencia (o no) en el individuo de una enfermedad? - Tendríamos dos características cualitativas dicotómicas que indican, por un lado, la presencia (o no) de un factor en el individuo, y por otro, el padecimiento (o no) de una enfermedad por parte de dicho individuo. Tipos de estudios observacionales - Estudios transversales. Estudian a la vez la exposición a un factor de riesgo y la presencia de enfermedad en una población en un momento concreto. Esta medición no permite conocer la secuencia temporal de los acontecimientos y no es por tanto posible determinar si la exposición precedió a la enfermedad o viceversa. - Estudios prospectivos. Se toman una serie de individuos de una población. Algunos de ellos están expuestos al factor de riesgo y otros no, pero en ambos casos no se ha detectado aún la presencia de la enfermedad. Se requiere un periodo de seguimiento en el futuro para determinar la presencia o no de la enfermedad en cada uno de los dos grupos de individuos (expuestos y no expuestos) al final del estudio. Un ejemplo son los estudios de cohortes. 24 - Estudios retrospectivos. En este caso, tanto la exposición al factor de riesgo como la enfermedad ya han sucedido cuando el estudio se inició. Un ejemplo de estos estudios, son los estudios de casos-controles, en los que tras identificar a personas con una enfermedad (casos), se les compara con un grupo control (con características similares) que no tenga a enfermedad, y se mide la exposición de ambos grupos al factor en el pasado, comparando la frecuencia de exposición de ambos grupos al factor en el pasado, comparando la frecuencia de exposición a este factor entre los casos y los controles. Riesgo relativo - Denotemos por R+ cuando un individuo está expuesto a un factor de riesgo, y R- cuando no lo está. - Denotaremos por E cuando un individuo padece cierta enfermedad y noE cuando no la padece. - El riesgo relativo (RR) compara la frecuencia con que ocurre la enfermedad entre los que tienen un determinado factor de riesgo y los que no lo tienen. Por tanto, esta medida nos indica cuántas veces es más probable que un sujeto padezca una determinada enfermedad si está expuesto a un factor de riesgo, que cuando no está sometido a dicho factor. Odds Ratio - Se denomina odds al cociente entre la probabilidad de ocurrencia de un evento y la de que no ocurra. - El odds ratio (OR) es el cociente entre el odds en el grupo con el factor de riesgo (expuestos) y el odds en el grupo sin el factor (no expuestos). Por tanto: 25 Determinación de factores de riesgo Para conocer si un factor es un factor de riesgo para una enfermedad, se debe comprobar lo siguiente: - Si el RR o el OR son mayores a 1, entonces ese factor será un factor de riesgo para la enfermedad. - Por el contrario, si son menores a 1, ese factor será un factor de protección de la enfermedad. - Si el RR o el OR son iguales a 1, no podemos afirmar nada acerca de este factor. Estadísticamente significativo vs clínicamente relevante ¿Qué afecta al p-valor? Recordemos que el p-valor nos indica en cierto modo como son de compatibles los datos obtenidos en la muestra con la hipótesis nula. Pero el p-valor se ve influido por: - Tamaño de muestra (mayor tamaño muestral, menor p-valor) - Variabilidad (mayor variabiilidad, menor p-valor) - Tamaño del efecto. Se refiere a las diferencias y medidas de asociación observadas (mayor tamaño del efecto, menor p-valor). Medidas de la magnitud del efecto son: el RR, el OR, o las diferencias de medias o proporciones observadas (con sus respectivos intervalos de confianza). Clínicamente relevante La relevancia clínica de un resultado viene determinada únicamente por su importancia clínica. Esta depende de la magniitud de la diferencia encontrada, de las consecuencias de un tratamiento o exposición (coste, morbimortalidad), etc. Como hemos visto, algo que sea estadísticamente significativo no necesariamente tiene que ser clínicamente relevante (y viceversa). Resumen - Un efecto pequeño en un estudio con un gran tamaño de la muestra puede tener el mismo valor de p que un efecto grande en un estudio con un tamaño pequeño de muestra. - Un resultado con significación estadística no debe llevar automáticamente a una conclusión de relevancia clínica. - La verosimilitud biológica, el tamaño del efecto, la aplicabilidad y consecuencias de un tratamiento a la población de pacientes y el coste son algunnos de los factores que hay que considerar para determinar si un hallazgo estadísticamente significativo es también relevante desde un punto de vista clínico. - Es importante determinar tamaño de muestra antes del estudio para evitar esto. BLOQUE 6: REGRESIÓN Y ANOVA Análisis de regresión En este tema estudiaremos la relación de dos variables, en el caso en el que ambas sean cuantitativas. A este análisis lo denominaremos análisis de regresión. Una forma de visualizar si dos variables cuantitativas están relacionadas y de que manera es mediante lo que se denomina nube de puntos o gráfico de dispersión: 1) Se toma una muestra de n individuos, anotando los valores para cada una de las dos variables en cada uno de los individuos. 2) Representamos las parejas (xi, yi) obtenidas para cada individuo en unos ejes cartesianos para observar posteriormente si existe algún tipo de relación. Evidentemente, cada punto representa un individuo. 3) A partir de la nube de puntos, se puede intuir el tipo de relación, si es que esta existe, que hay entre las dos características en estudio. Tipos de regresión A Y le llamaremos variable dependiente o respuesta y a X variable independiente o explicativa. 26 Relación entre dos variables cuantitativas Objetivo: Analizar si entre dos variables cuantitativas existe una relación de tipo lineal Obsevaciones - Pretendemos conocer si entre las variables existe una relación de tipo lineal, por lo que siempre intentaremos aproximarlas mediante una recta. - Esta recta no tiene porque ser la mejor aproximación de la relación entre ambas. - Si esta recta no explicara suficientemente la relación entre ambas, puede que la relación no sea de tipo lineal, es decir, pudiera ser que existiera relación entre ambas variables pero esta no fuera de tipo lineal. Planteamiento del problema - Determinar si existe relación lineal entre las dos variables - Determinar el grado o magnitud de la relación, y el sentido de la misma - Predecir valores de la variable dependiente, a partir de los valores de la variable independiente. DETERMINACIÓN DE LA ASOCIACIÓN Paso 1. Planteamiento Paso 2. Desarrollo y cálculos. Definición de la región crítica y el estadístico del contraste. Paso 3. Regla de decisión. Conclusión. - Si p-valor > alfa —> No podemos decir que las variables estén relacionadas (resultado no concluyente). - Si p-valor Las variables están relacionadas. Predicción. Obtención de la recta de regresión. - Recordemos que queremos establecer una relación de tipo lineal entre dos variables cuantitativas. - Una vez comprobada esa relación (H1), necesitamos una ecuación que exprese dicha relación. Recordemos que viene dada por la siguiente ecuación de una recta: 27 - No lo vamos a conocer exactamente (son valores de parámetro poblacionales), pero si los vamos a poder estimar a partir de una muestra. Es decir, vamos a obtener una recta estimada (ycon pico) que nos exprese la relación entre las dos variables, a partir de estimaciones (a0, a1) de los coeficientes de la recta en la muestra: Obtención de la recta de regresión. Residuos En la estimación de los coeficientes de la recta estamos cometiendo un error de estimación. Por tanto, estamos cometiendo un error en cada estimación. Los residuos se definen como el error en la estimación a partir de una recta de regresión (y-ycon pico). Se obtienen para cada individuo i de la muestra: Magnitud de la asociación. Coeficiente de determinación. El coeficiente de determinación (𝝆𝟐 ) de la regresión de Y sobre X será el tanto por uno en que la variabilidad de Y es explicad por la variabilidad de X. Expresado en términos de porcentaje, por tanto, indicará el % de la variación de la variable dependiente Y que es explicado por la variación de la variable independiente X, es decir, nos indica el grado de dependencia de las dos variables. Sentido de la asociación. Coeficiente de correlación. El coeficiente de correlación de Pearson (𝝆) viene dado por: - Nos indicará el sentido de la dependencia entre las mismas. - La dependencia será mayor cuanto más se aproxime este valor a 1 o -1. ¿Cómo se determina el sentido de la dependencia? - Si 𝝆 < 0, las rectas de regresión son decrecientes, por tanto, existe dependencia inversa (correlación negativa). - Si 𝝆 = o, las rectas de regresión son perpendiculares, por tanto, las variables son independientes. (No correlación o correlación no lineal. 28 - Si 𝝆 > 0, las rectas de regresión son crecientes, por tanto, existe dependencia directa. (Correlación positiva). RELACIÓN ENTRE DOS VARIABLES: CUALITATIVA Y CUANTITATIVA Planteamiento del problema Hasta el momento hemos visto como comparar medias en dos grupos definidos por una variable cualitativa dicotómica ¿Pero qué ocurre si el número de grupos (modalidades de la variable cualitativa) es mayor a dos? El análisis de varianza (ANOVA) simple sirve para comparar una variable cuantitativa en varios grupos. Supuestos de aplicación Antes de aplicar un modelo ANOVA, debemos comprobar que: - La variable cualitativa divide la población en r poblaciones distintas, y por tanto, tenemos r muestras independientes de tamaño n1, n2,… nr - La variable cuantitativa sigue una distribución normal en cada uno de los grupos. - Homeocedasticidad: Varianzas poblacionales iguales. Paso 1. Planteamiento del contraste Paso 2. Desarrollo y cálculos. Definición de la región crítica y el estadístico del contraste Paso 3. Regla de decisión: Conclusión - Si p-valor > alfa —> No existen diferencias significativas entre las medias. No podemos afirmar que existan diferencias en la media de la variable (y por tanto en la variable) en cada uno de los grupos. - Si p-valor Existen diferencias significativas entre las medias. La media y por tanto los valores de la variable son distintos al menos en un grupo. ¿Cómo podemos determinar que media es mayor a las otras? - Notar que hemos detectado diferencias en las medias, pero es un resultado no demasiado concreto. - No nos basta con observar las medias muestrales. - Para ver que media es mayor a las otras (si lo es), debemos hacer contrastes dos a dos (Contrastes Post-hoc). Lo veremos a continuación. ¿Y si no se cumplen lo supuestos de aplicación? - Usamos un test no paramétrico: Kruskal-Wallis. Análisis d elos resultados del ANOVA: Comparaciones post hoc Para determinar, por ejemplo, si es mejor venir a clase que seguirlo por internet, o que estudiar por tu cuenta, tendríamos que comparar las medias entre ellas. Para ello se utilizan las comparaciones post hoc. Una de ellas, es la prueba de Schefe. 29

Use Quizgecko on...
Browser
Browser