Tema 29. Estadística Descriptiva: Tipos de Variable PDF

TEMA 29. ESTADÍSTICA DESCRIPTIVA: TIPOS DE VARIABLE 1. DIFERENCIA ENTRE ESTADÍSTICA DESCRIPTIVA E INFERENCIAL - - - - La estadística descriptiva (también llamada “deductiva”) es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de datos con el propósito de visualizar y facilitar su uso; habitualmente se vale de tablas, medidas numéricas o gráficas. La estadística descriptiva trabaja en el tiempo presente, estructurando datos y revelando cómo se comporta la muestra en un determinado momento. Estas técnicas son utilizadas habitualmente el inicio del análisis de los datos durante el proceso de investigación. La estadística descriptiva se apoya en las medidas de tendencia central y las de variabilidad. La primera utiliza la media, mediana y moda para obtener los resultados. Mientras que la segunda, usa la varianza, la desviación estándar, el rango y la frecuencia La estadística inferencial (o estadística inductiva) se basa en analizar los datos de una población o muestra, para poder realizar predicciones o conclusiones, que están relacionadas con el posible comportamiento de un fenómeno en particular. La estadística inferencial trabaja considerando el futuro, mediante sus inferencias y estimaciones. La estadística inferencial es una disciplina que se enfoca en las probabilidades. Es decir, en sacar conclusiones sobre una determinada muestra, teniendo en cuenta el análisis de sus datos. Para llegar a estas conclusiones, la estadística inferencial deberá: Interpretar datos. Plantear hipótesis. Comparar la información. Realizar pruebas en base a los argumentos planteados. Elaborar sus predicciones 2. TIPOS DE VARIABLES Definición: Una variable es una característica, cualidad o propiedad observada que puede adquirir diferentes valores y es susceptible de ser cuantificada o medida en una investigación. Para ser nominada como tal, debe tener la posibilidad de variar entre dos valores, como mínimo. Por ejemplo: en el estudio "Prevalencia de tuberculosis" la variable "género" puede variar entre los valores masculino y femenino, mientras que en el estudio "Prevalencia de tuberculosis en mujeres", "género" no es una variable, debido a que todos los sujetos de estudio son mujeres. Observables vs latentes: - OBSERVABLES: son aquellas que se pueden medir directa o indirectamente. Ej: peso, distancia, volumen, etc. - LATENTES: (no observables o constructo): son entidades aleatorias no observadas, que no presentan una unidad de medida específica y, por lo tanto, cualquier estimación está sujeta a un error asociado. Por ejemplo, la depresión es una variable latente pues no es posible medirla directamente, la asignación de cualquier valor tendría –ineludiblemente– un margen de error asociado y su unidad de medida podría variar entre estudios, porque no hay consenso en su parámetro de comparación. ¿Como se pueden medir las variables latentes? Se recurre a grupos de variables, o indicadores, que puedan ser obtenidos directamente y que, a su vez, estén asociados teóricamente a la variable latente de interés. Ej. preguntas de un cuestionario para depresión. Así puede modelarse la probabilidad de responder a un set de preguntas o indicadores observados dado cierto nivel en el rasgo latente. 1 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. - Variables cuantitativas o de escala: son datos en los cuales existe una unidad de básica de medida. Continuos: está representada por números reales (específicamente: números naturales, decimales o fracciones y cero) que le permite tomar infinitos valores entre dos valores próximos y hace posible su medición. Por ejemplo: "nivel de hemoglobina" Discretos: está representada por números enteros, es decir, no existe otro valor entre dos valores próximos, por lo que solo pueden contarse. Por ejemplo: "número de hijos". Según su función: dependiente o independiente - Variable dependiente: Se trata de la variable que se ve modificada, o influenciada, por una variable independiente. Es una variable inestable pues cambiara su condición dependiendo del efecto de las variables independientes y es la variable que el investigador pretende predecir. - Variable independiente: Son las variables que el investigador mide (u observar) y van a influir a la variable dependiente. En otras palabras, son características, condiciones, cualidades o hechos que tienen la potencialidad de alterar otras variables dependientes. Una característica importante es que la variable independiente no se ve afectada durante el periodo de experimentación u observación. En cambio, la dependiente es la variable inestable susceptible de ser modificada. 3. VARIABLES CUALITATIAS: MEDIDAS DE FRECUENCIA - Número o frecuencia: es el número de veces que se repite una determinada característica en una muestra o población Absoluta: número de veces que aparece cada uno de los valores. Se representa como n Relativa: número de veces que aparece cada valor dividido el tamaño muestral. Se expresa como fi Relativa porcentual: frecuencia relativa multiplicada por 100 Absoluta acumulada: suma de las frecuencias absolutas de los valores menores a los mayores Relativa acumulada: suma de las frecuencias relativas- relativa acumulada porcentual: relativa acumulada por 100 2 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 1 coin = 1 pdf sin publicidad Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. Según su tipo: cuantitativas o cualitativas - Variables cualitativas: No ordenados o nominal: Los resultados de la observación de la variable se agrupan en categorías excluyentes; sin que exista una ordenación u jerarquía entre ellos. Si se usan números estos serán identificadores o códigos de la categoría y son completamente arbitrarios. En el caso de la variable tuberculosis pulmonar, las categorías serían “positivo- negativo” Ordenados u ordinal: Esta forma de medición permite el ordenamiento de las categorías de una variable, es decir, graduación de la presencia de la variable en el sujeto observado. También, si se usan números, serán identificadores o códigos de la categoría y son completamente arbitrarios; pero podrían expresar mayor cantidad de la cualidad que se está observando, aunque no permiten ni establecen la distancia entre cada categoría, a pesar de que pueda percibirse lo contrario. Por ejemplo, en el caso de la variable tuberculosis pulmonar cuyas categorías son: "negativo, una cruz, dos cruces y tres cruces", no se puede determinar si dos cruces es el doble de la carga bacilar o número de bacilos que existen en la muestra de esputo. Número o frecuencia–distribución agrupada: Cuando la variable es cuantitativa y el tamaño de la muestra lo permite es posible agrupar las observaciones en clases (intervalos continuos y habitualmente de la misma amplitud). El mayor inconveniente de una distribución agrupada de frecuencias la pérdida de información en el sentido de que un lector no puede saber cuántos individuos presenta un valor dado dentro de un intervalo determinado - Proporción: Es el número de observaciones con una característica en particular entre la población de referencia. Cociente entre dos frecuencias absolutas en el que el numerador está incluido en el denominador. Se expresa en porcentaje. ej. Proporción de muertos: Muertos: 45 personas Total de personas: 450 personas Proporción de muertos: 45/450: 0,10 personas Razón: cuando el numerador y el denominador se refieren a cosas distintas; es decir, cuando ninguna de las cantidades contiene a la otra. Cociente entre dos frecuencias absolutas en el que el numerador no está incluido en el denominador. Con frecuencia, un índice, que es una medida de resumen utilizada para comparar dos o más fenómenos, se expresa como una razón: Peso: 90 kg Altura: 1,70 mts Índice de Masa corporal (razón): 31,1 kg/mts2 Presión parcial de 0xigeno: 95mmhg fracción inspiratoria de oxígeno: 0,45 % Pa02Fi02 (razón): 211 Tasa: es la magnitud de cambio de un parámetro por unidad de cambio del otro. Es la medida de frecuencia que da cuenta de la velocidad de cambio en la población Es un tipo especial de razón o de proporción que incluye una medida de tiempo en el denominador. Número de nacimientos en 1 año: 3440 población total en 1 año: 75600 tasa de nacimiento al año: 0,04 nacimientos por año. - - 4. VARIABLES CUANTITATIVAS - Tendencia central: indican respecto a qué valores se agrupan los datos. Ejemplo media, mediana y moda. Media: sumatorio de todos los valores dividido por el número de elementos.es intuitiva, fácil de calcular y ampliamente conocida por todos, muy influida por valores extremos, si la distribución no es normal no coincide con la mediana, es posible que su valor no se corresponda con ninguno de la muestra Media recortada al 5%: es la media aritmética calculada con todos los valores excepto el 5% de cada extremo. Es una medida menos sensible a los valores atípicos. Mediana: cuando los datos se encuentran ordenados, es el valor que divide a grupo de observaciones en 2 subgrupos iguales. Si el número de observaciones es “impar”; es el número que divide en 2 grupos iguales; si es par, se considera el promedio de los 2 números centrales. - es intuitiva- poco influida por valores extremos- si la distribución no es normal no coincide con la media Moda: es el valor de mayor frecuencia absoluta dentro de la muestra - Dispersión: indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Ejemplo rango, rango interquartil, desvío medio, varianza, desviación estándar, error estándar de la media. Rango: diferencia entre el máximo y el mínimo valor. La limitación es que no brinda información respecto a la distribución y está muy influido por los “outiliers”. Rango interquartil (RQ): habitualmente se refiere a la diferencia entre el tercer cuartil y el primer cuartil de una distribución. Tiene la ventaja de estar muy poco influido por los valores extremos y representar a la muestra aceptablemente cuando su distribución es NO normal. Desvío medio: es el promedio de las diferencias entre el valor absolutos de cada caso y el valor absoluto medio de la muestra. Varianza: es el promedio del cuadrado de las diferencias entre cada valor y la media poblacional; se eleva al cuadrado para que todos los valores sean positivos. A mayor varianza, mayor dispersión de los datos; contrariamente a menor varianza menor dispersión (ósea mayor, homogeneidad en los datos). Si bien habitualmente no se reporta, tiene gran relevancia en el cálculo de varios estadísticos. 3 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Con el Plan Turbo, además de eliminar los vídeos también recibes descargas sin publicidad mensuales Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. - Desviación estándar/ desviación típica: es la raíz cuadrada de la varianza y por ende tiene un comportamiento similar. Sus virtudes son: (a) mismas unidades que la variable original (b) si la distribución es normal, permite conocer cuanta observación hay dos puntos (+-1 DS 68,3%; +- 2DS 95,4%; +- 3SD 99,3%). Error estándar de la media: es el cociente entre la desviación estándar de la población y la raíz cuadrada del tamaño de la muestra. Mide la precisión con que se estima la media aritmética, es decir, es el valor que cuantifica cuánto se apartan los valores de la media de la población - Forma: asimetría y curtosis. Skew (asimetría): hace referencia a que tan simétrica es la curva. La dirección del skew (sesgo) hacer referencia a la cola de los datos y no a donde se localizan la mayor cantidad de datos (asimetría a la dcha + / a la izq Curtosis (apuntamiento): hace referencia qué tan aplanada o puntiaguda es la curva. Es decir, la curtosis indica qué tan próximos se encuentran los datos recogidos de una variable a su valor medio. ( g2= curtosis - Posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Ejemplo percentiles, cuartiles, deciles, etc. Cuartiles: son cada uno de los 3 valores que dividen a la muestra en 4 partes iguales y ordenadas Deciles: son cada uno de los 9 valores que dividen a la muestra en 10 partes iguales y ordenadas Percentiles: son cada uno de los 99 valores que dividen a la muestra en 100 partes iguales y ordenadas. - Medidas de asociación: covarianza, coeficiente lineal de Pearson, coeficiente de correlación de Spearmann y coeficiente Tau B de Kendall. 4 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Con el Plan Turbo, además de eliminar los vídeos también recibes descargas sin publicidad mensuales Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. TEMA 30. ESTADÍSTICA DESCRIPTIVA: MEDICIÓN Y ERRORES 1. MEDICIÓN La medición es un proceso básico de la ciencia que se basa en comparar una unidad de medida seleccionada con el objeto o fenómeno cuya magnitud física se desea medir, para averiguar cuántas veces la unidad está contenida en esa magnitud. - - Medición directa: es cuando se utiliza “el patrón” o un instrumento de medida para obtener el resultado. Ej.: una báscula o una distancia Medición indirecta: es cuando debemos realizar un cálculo matemático para conocer el resultado. Ej. para calcular la densidad de un objeto es necesario medir una masa con una báscula y su volumen sumergiéndolo en una probeta de agua, el cociente entre masa y volumen será la densidad. Nota: masa y volumen son mediciones directas pero la densidad es indirecta En todo estudio epidemiológico es prioritario medir y calcular, con la mayor precisión (reproducción) y exactitud (“cercanía a la verdad”) posible, todas las variables. Precisión (confiabilidad o reproducibilidad): es el grado en el cual una "variable" se aproxima al mismo valor, cuando se mide repetidamente. Una medida será tanto más precisa, cuanto menor sea el componente aleatorio. La manera de incrementar la precisión es: Aumentando el tamaño de la muestra Mejorando la precisión de las mediciones. Este error no afecta a la validez interna ni externa. Validez: es el grado en el cual una "variable" realmente representa, lo que se supone que representa (“que tan cerca está a la verdad”). La validez se asocia al error sistemático, ya que la estimación solo puede ser válida si representa el verdadero valor. Como es lógico, este tipo de error es más difícil de controlar y no se corrige aumentando el tamaño muestral. Todo estudio epidemiológico está sujeto a un cierto error; que se puede calificar como: - Errores NO aleatorios o sistemáticos: son aquellos que ocurren cuando las mediciones repetidas varían de manera predecible y, por lo tanto, se tiende a sobre o subestimar el valor verdadero en medidas repetidas - Errores aleatorios o no sistemáticos: son aquellos que ocurren cuando mediciones repetidas varían de manera impredecible, por azar. 2. ERROR ALEATORIO (NO SISTEMÁTICO) Si 10 personas miden simultáneamente cuanto demora una persona en correr 100 metros, ¿el resultado que obtenga cada una será exactamente igual? No, pues algunos iniciarán antes la medición, la finalizarán después y el instrumento de medida no es perfecto. Todas estas variaciones generaran errores, que son aleatorios. - - El error aleatorio afecta a la precisión de la medición y se asocia a las variaciones explicadas por el azar que está inherentemente involucrado en cada proceso de medición, por lo que no puede eliminarse. Esto significa que influye en los resultados incluso cuando se han controlado debidamente los sesgos. El error aleatorio produce observaciones desviadas del verdadero valor en cualquier sentido. Es impredecible, pero puede disminuirse al incrementar el tamaño muestral y al realizar un análisis estadístico eficiente. Ello implica que la estadística controla el error aleatorio indicando la probabilidad de que ocurra el azar. En función de esto, una adecuada estimación del tamaño muestral contrarrestará el efecto del azar en el estudio 5 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. MUY IMPORTANTE. Todo estudio de investigación, en mayor o menor medida, es susceptible de tener sesgos por lo que es un imperativo que ante de iniciarse sea diseñado y planeado muy cuidadosamente. En otras palabras, la etapa más crítica de un estudio corresponde a la del diseño ya que resulta casi imposible corregir a posteriori los sesgos introducidos durante esta etapa. 3. ERROR SISTEMÁTICO (SESGOS) La importancia de identificar (o controlar) los sesgos es que su presencia: - Afecta la validez del resultado, por ejemplo, generan estimaciones del efecto de determinados factores sobre otros incorrectos (exageran o infravaloran el efecto) - Generan asociaciones espurreas. Una asociación espurrea es un vínculo aparente entre dos eventos que se demuestra inválido cuando se examina la relación con mayor detalle. Esta relación asume que uno de los eventos causa el otro o que existe una correlación entre ellos porque los eventos se dan al mismo tiempo o uno seguido del otro, cuando la realidad es que ambos son independientes y su aparente relación se debe a la existencia de terceros factores no contemplados que los causan o está correlacionados con ambos. - Se corrigen refinando el diseño del estudio y con técnicas estadísticas específicas; pero no aumentando el tamaño muestral Dependiendo de la etapa del estudio en que se originan, los sesgos que interfieren con la validez interna de un estudio se han clasificado en tres grandes grupos: - Sesgos de selección: se refiere a los errores que se introducen durante la selección o definición de la muestra en estudio. Son errores sistemáticos que se introducen durante la selección, o el seguimiento de la población en estudio, y que propician una conclusión equivocada sobre la hipótesis en evaluación Algunas preguntas para evaluar este sesgo: o Los grupos que se van a comparar, ¿tienen un punto de partida y/o un seguimiento igual? La ausencia de este criterio es muy habitual en los estudios no randomizados. o Los criterios para ingresar al estudio, ¿están suficientemente bien definidos? Esto es fundamental en aquellos estudios cuyos criterios se basan en aspectos clínicos o subjetivos (ej: nivel de dolor, días con síntomas, etc.) o Los procedimientos diagnósticos, ¿son objetivos y reproducibles? Lo ideal es intentar utilizar pruebas diagnósticas (ej de laboratorio o de imágenes) que sean realizadas por personal externo al estudio y cuyo resultado sea objetivo y libre de interpretación por parte del investigador (se procura evitar que haya “enfermos” clasificados como sanos y viceversa) La mejor forma de reducir el sesgo de selección es mediante la randomización o aleatorización de los participantes; sin embargo, no siempre es posible El sesgo de supervivencia se produce cuando un investigador somete a las variables a un concurso de selección y selecciona a las que completan con éxito el procedimiento. Este método de selección preliminar elimina las variables fallidas debido a su falta de visibilidad. 6 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 1 coin = 1 pdf sin publicidad Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. Los factores que se asocian al error aleatorio son esencialmente: - El error de muestreo. Cuando obtenemos una muestra de una población lo hacemos con la idea de estimar un parámetro poblacional a través del estudio de un estimador de ese parámetro en la muestra. Sin embargo, debido al error de muestreo podemos obtener una muestra que no sea representativa de la población (si obtenemos varias muestras, todas serán ligeramente diferentes unas de otras). Esto pasará, sobre todo, cuando los tamaños de las muestras sean pequeños y cuando utilicemos técnicas de muestreo que no sean probabilísticas. - Variabilidad en la medición. Si nos tomamos la presión arterial o pesamos varias veces, por ejemplo, los resultados serán diferentes (aunque similares) debido, por una parte, a la propia variabilidad biológica y, por otra, a la imprecisión del aparato de medida que utilicemos - En los estudios de cohorte prospectivos: SI EL RECLUTAMIENTO FUE CONSECUTIVO, los sesgos de selección ocurren raramente ya que el reclutamiento y selección de la población en estudio se da antes de que ocurra el evento en estudio (se puede suponer que la selección de los participantes se realizó de manera independiente del evento). Sesgos de información (o ejecución): El sesgo de información se refiere a los errores que se introducen durante la medición de la exposición, de los eventos u otras covariables en la población en estudio, que se presentan de manera diferencial entre los grupos que se comparan, y que ocasionan una conclusión errónea respecto de la hipótesis que se investiga. El error, o la diferencia, en la medición entre grupos puede deberse a: Variaciones cuantitativas, por ejemplo, se miden más variables o más veces cada variable en un grupo respecto al otro Variaciones cualitativas, se mide la misma variable de distinto modo. Por ejemplo, en un grupo se mide la temperatura corporal de forma invasiva y en el otro de forma percutánea. - El sesgo de supervivencia se centra en los factores más exitosos, aunque no tengan datos relevantes. Puede alterar los resultados de tu investigación y conducir a opiniones innecesariamente positivas que no reflejan la realidad. En los estudios retrospectivos, los sesgos de selección pueden ocurrir cuando se conoce la condición de exposición y/o de enfermedad, y este conocimiento influye diferencialmente en la posibilidad de participar en el estudio. Los estudios de casos y controles son particularmente susceptibles a este tipo de sesgo ya que en la mayoría de sus aplicaciones se trata de estudios retrospectivos y el investigador es quien elige los casos y los controles; pudiendo conocer si el evento ha sucedido o no. Memoria es: parcial, sesgada y selectiva. Circunstancias poco habituales y altamente generadoras de estrés (ej. pérdida de un ser querido, una pandemia, una catástrofe, etc.) genera que nuestra capacidad para retener o memorizar se agudice, haciendo que tales experiencias queden grabadas en nuestra memoria de forma especial y son recordadas con todo detalle durante nuestra vida, aunque con diferente implicación o carga emocional. Contrariamente, circunstancias banales o poco relevantes tiende a reducir la capacidad de retener la información. Este sesgo es muy habitual en las ciencias de la salud, el profesional habitualmente recuerda pacientes que han sido especiales por alguna razón, pero no aquellos que, aun teniendo una enfermedad similar, son normales. Ejemplo, un médico que atiende cánceres avanzados de páncreas y recuerda el que sobrevivió y no todos los que fallecieron. Sesgos de confusión: se presentan durante el análisis e interpretación de los datos, ya que se puede llegar a inferencias erróneas o espurias Existe un factor de confusión que explica esta asociación espurrea. Ambas variables dependen de una tercera variable: el tipo de sociedad. Cuantos más moderna sea la sociedad generara un mayor cambio de temperatura y un mejor control de la piratería Un confusor (también llamada variable confusora) es un factor distinto al de la exposición, que se asocia de forma independiente, tanto con la variable exposición como con la variable desenlace. Este confusor, a su vez, puede alterar tanto la magnitud (riesgo relativo u odd ratio) como la direccionalidad de esta asociación, sesgándola y/o produciendo asociaciones espurreas o inexistentes. Todos los resultados derivados de estudios observacionales están potencialmente influenciados por este tipo de sesgo. El sesgo de confusión puede resultar en una sobre o subestimación de la asociación real. 7 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Con el Plan Turbo, además de eliminar los vídeos también recibes descargas sin publicidad mensuales Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. - Restricción. La restricción es una estrategia que consiste en restringir la población de estudio a una subpoblación de individuos con características específicas para lo cual se utilizan criterios de elegibilidad estricticos, bien descriptos, objetivos y reproducibles. Ventajas: sencillas de comprender y aplicar. Limitaciones: (a) solo permite controlar un número limitado de factores, que además deben ser conocidos previamente y (b) al incluirse una muestra tan específica, la validez externa del estudio (es decir a la extrapolación de los resultados) se reduce. - Pareamiento o emparejamiento. Consiste en seleccionar a los participantes buscando a propósito una distribución homogénea (1:1) de participantes según variables confusora ventajas específicas. Este método es el habitual en los estudios “casos y controles” Ventajas: controla factores de confusión eficientemente, bajo coste de realización Desventaja: (a) factores deben ser conocidos previamente (b) el número de factores a controlarse son escasos ESTRATEGIA DE CONTROL DE SESGOS DE CONFUSIÓN SEGÚN ANÁLISIS: - Análisis de regresión multivariable. El método de regresión multivariable consiste en incluir el confusor en un modelo multivariado para analizar como varía la asociación de interés en presencia de todos - Estratificación. La estratificación es un método que consiste en controlar el sesgo de confusión analizar la asociación de interés por “estratos” o categorías de la variable confusora y comparando la magnitud de asociación en cada estrato (categoría) para verifica si varía o no. Desventajas: no permite el análisis de variables confusora continuas 8 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Las descargas sin publicidad se realizan con las coins Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. ESTRATEGIA DE CONTROL DE SESGOS DE CONFUSIÓN SEGÚN DISEÑO: - Aleatorización o randomización. Es considerada la mejor estrategia para controlar sesgos en general, particularmente el sesgo de confusión. Este método consiste en seleccionar de manera aleatoria a los sujetos que será asignados a cada grupo de estudio, maximizando la probabilidad de alcanzar dos poblaciones comparables. Ventajas: gran experiencia en su utilización permite generar grupos similares en términos de variables que se conocen y que no se conocen Desventajas: (a) gran complejidad en su aplicación (b) siempre prospectivos (c) coste económico superior al resto de los estudios. - Puntajes de propensión. El uso de puntajes de propensión o propensity scores es un método que usa la probabilidad condicional del sujeto de recibir tratamiento para minimizar el sesgo de confusión. Este análisis se puede aplicar a través del emparejamiento, la estratificación, la ponderación de probabilidad inversa, la regresión o como una covariable. El objetivo de esta estrategia es formar poblaciones de estudio comparables de pacientes tratados y no tratados, estimando el efecto del tratamiento ajustado, y equilibrando las diferencias entre grupos de estudios con el objetivo de reducir el sesgo. 9 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. TEMA 31. ESTADÍSTICA DESCRIPTIVA: ANÁLISIS DE NORMALIDAD Importa conocer la distribución de datos porque: - La forma de reportar los datos depende de la distribución de los mismos Si es normal, habitualmente se reporta como media+- desvió estándar Si NO es normal, habitualmente se reporta como p50 (p25; p75). Recordad que el p50 también se denomina mediana - La selección del estadístico depende de la distribución. - Muchos de las variables biológicas se distribuyen de forma normal NOTA: si bien la mayoría de las variables biológicas EN LA POBLACIÓN tienen una distribución normal; en la muestra que estamos estudiando pueden tener una distribución NO Normal razón por la cual siempre es mandatorio estudiar la normalidad en todas las variables. Los valores en una muestra pueden distribuirse al azar o siguiendo algún patrón específico, cuando describe una forma de campana y cumple con ciertas reglas se denomina distribución normal, campana de Gauss o distribución gaussiana. MUY IMPORTANTE: Toda distribución normal es definida por 2 parámetros: - La media - El desvío estándar Características de la curva normal (“ESTÁNDAR NORMAL”): - Es unimodal - La media, mediana y moda son iguales y valen 0 - La curva es simétrica con una skew y curtosis de 0 - Las colas tienden a ser cero, sin embargo, nunca llegan a serlo - El desvió estándar es de 1, es posible conocer la proporción de población - El área es de 1 y se conoce la probabilidad de cada sector Regla EMPÍRICA: Teorema de Chebyshev - p (µ-σ < X < µ+σ) = 68% - p (µ-2σ < X < µ+2σ) = 95% - p (µ-3σ < X < µ+3σ) = 99.7% ¿Para qué sirve esta regla? En una variable cuantitativa, que tiene DISTRIBUCIÓN NORMAL, se sabe que la media de edad de una muestra es de 45 años con un desvió estándar de 5 años; se puede saber que: - el 68% de los integrantes de la muestra, tendrá una edad entre 40 y 50 años (media +- 1 desvío) - el 95% de los integrantes de la muestra, tendrá una edad entre 35 y 55 años (media +- 2 desvío) - el 99,7% de los integrantes de la muestra, tendrá una edad entre 30 y 60 años (media +- 3 desvío) 10 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Las descargas sin publicidad se realizan con las coins Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. 1. DISTRIBUCIÓN NORMAL 1. Métodos gráficos Histograma con curva de normalidad. Consiste en representar los datos mediante un histograma y superponer la curva de una distribución normal con la misma media y desviación estándar que muestran los datos. La forma y distribución de las barras; así como la curva de densidad (de lo que sería la distribución normal perfecta con una media y desviación estándar igual a la de nuestros datos) sobreimpresa, ayudan interpretar si los valores se distribuyen de forma normal o no. En una distribución normal, las barras se deben distribuir de forma simétrica respecto al valor medio y su perfil adaptarse a la curva normal. Gráfico de cuantiles teóricos (Gráficos Q-Q). Consiste en comparar los cuantiles de la distribución observada con los cuantiles teóricos de una distribución normal con la misma media y desviación estándar que los datos. Cuanto más se aproximen los datos a una normal, más alineados están los puntos entorno a la recta. 2. Evaluar media y mediana deben ser similares. 3. Skew y kurtosis (habitualmente se acepta valores entre 2 y -2) 4. Contrastes de normalidad: Prueba de Shapiro-Wilks. (muestras inferiores a 40 o 50 casos). Prueba de Kolmogorov-Smirnov (muestras superiores a 40 o 50). En todos los contrastes de normalidad, se considera: - Hipótesis nula; los datos proceden de una distribución normal - Hipótesis alternativa; los datos no proceden de una distribución normal 11 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Las descargas sin publicidad se realizan con las coins Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. 2. ¿CÓMO SABER SI LOS DATOS ESTÁN DISTRIBUIDOS DE FORMA NORMAL? Con base en los datos de muestra, la prueba de hipótesis calculará el valor de P en base al cual se podrá aceptar o rechazar la hipótesis nula. ¿Qué es el valor de P? -DEFINICIÓN La probabilidad de obtener, por azar, una diferencia tan grande o mayor de la observada, cumpliéndose que no haya diferencia real en la población de la que proceden las muestras. Así, por convenio suele establecerse que si este valor de probabilidad es menor del 5% (0,05) es lo suficientemente improbable que se deba al azar como para rechazar con una seguridad razonable la H0 y afirmar que la diferencia es real. Si es mayor del 5%, no tendremos la confianza necesaria como para poder negar que la diferencia observada sea obra del azar. NOTA: A pesar de que continuamente se alude al test Kolmogorov-Smirnov como un test válido para contrastar la normalidad, esto no es del todo cierto. El Kolmogorov-Smirnov asume que se conoce la media y varianza poblacional, lo que en la mayoría de los casos no es posible. Esto hace que el test sea muy conservador y poco potente. Para solventar este problema, se desarrolló una modificación del Kolmogorov-Smirnov conocida como test Lilliefors. El test Lilliefors asume que la media y varianza son desconocidas, estando especialmente desarrollado para contrastar la normalidad. LIMITACIONES: - Son pruebas poco potentes cuando el tamaño de la muestra es pequeño. Al basarse en la hipótesis nula de normalidad, podemos no alcanzar significación estadística por falta de potencia estadística, asumiendo erróneamente que los datos siguen una distribución normal (al no poder rechazar la hipótesis nula). - Son pruebas muy potentes cuando la muestra es muy grande; es decir, será suficiente una pequeña desviación de la normalidad para que la prueba nos dé una p significativa y rechacemos la hipótesis nula, cuando la mayor parte de las técnicas paramétricas tolerarían pequeñas desviaciones de la normalidad si la muestra es grande. Por estos motivos, es aconsejable completar siempre el análisis de normalidad con un método gráfico y no quedarnos solo con el método numérico de contraste de hipótesis. 12 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Plan Turbo - Eliminar los vídeos + 10 descargas sin publicidad por sólo 0,99€ / mes - Oferta limitada Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. ¿Qué es una prueba de hipótesis? -DEFINICIÓN Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar una afirmación acerca de una población dependiendo de la evidencia proporcionada por una muestra de datos. Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: La hipótesis nula La hipótesis alternativa. TEMA 32. ESTADÍSTICA DESCRIPTIVA: TABLA 2X2 1. TABLA 2X2 (TABLAS DE CONTINGENCIA) - - En estadística las tablas de contingencia (tablas dinámicas, tablas cruzadas, tablas de control o “crosstabs”) se emplean para registrar y analizar la asociación entre dos o más individuos, habitualmente de naturaleza cualitativa (nominales u ordinales). Debido a que se estudia una variable en función de otra, el investigador ha de distinguir entre la variable dependiente y la variable independiente. Las variables CUALITAVAS PUEDEN ser nominales u ordinales. Las tablas 2x2 son importantes pues: permiten conocer cómo se distribuyen 2 variables con 2 categorías cada una permiten conocer las proporciones entre cada grupo incidencia/prevalencia cálculo de asociaciones (prueba chi-cuadrado) cálculo de riesgos (absoluto, relativo, diferencia de riesgo, etc.) cálculo de pruebas diagnósticas (sensibilidad, especificidad, etc.) 2. PREVALENCIA E INCIDENCIA La prevalencia e incidencia son medidas de frecuencia de una enfermedad; es decir miden con qué frecuencia aparece una determinada enfermedad (o evento) en una determinada muestra (o población) → Prevalencia: son todos los casos en un tiempo y lugar determinado → Incidencia: son todos los casos NUEVOS en un tiempo y lugar determinado Prevalencia: - Definición: número de casos (tanto antiguos como nuevos) de una enfermedad (o evento) en una determinada población y periodo de tiempo. - Se utiliza para describir la frecuencia de enfermedades de lenta evolución o enfermedades crónicas. - Es una proporción, es decir el numerador es una fracción del denominador. Prevalencia: número casos/(población en riesgo) - Factores que afectan a la prevalencia: Incidencia Duración de la enfermedad (enfermedades crónicas mayor prevalencia) Sesgo de medición Factores de confusión incidencia * duración media de la enfermedad Azar (se trabaja con muestras) Factores que incrementan la prevalencia Mayor duración de la enfermedad Prolongación de la vida sin curación Aumento de la incidencia Inmigración de casos Emigración de sanos Inmigración de susceptibles Mejoría de las posibilidades diagnósticas Factores que disminuyen la prevalencia Menor duración de la enfermedad Alta letalidad de la enfermedad Disminución de la incidencia Inmigración de sanos Emigración de enfermos Aumento de la curación Dos tipos de prevalencia: a) De punto: número de personas con el padecimiento en un determinado momento (periodo de tiempo tiende a ser instantáneo) b) De periodo: número de personas con el padecimiento en un determinado periodo (ej: día, semana, mes, año) 13 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. Incidencia: - Definición: número de casos NUEVOS de una determinada enfermedad (o evento) en una determinada población y periodo de tiempo. - Se utiliza para describir la frecuencia de enfermedades de breve evolución o agudas. - Es una tasa, por ende, expresa el riesgo de padecer una determinada enfermedad (o evento) en un periodo de tiempo determinado - Hay dos tipos de incidencias: Incidencia acumulada: es la proporción de individuos INICIALMENTE SANOS que desarrollan la enfermedad (o evento) en un periodo determinado de tiempo. Es decir, el inicio y el final de periodo de observación es el mismo para todos los participantes (todos empiezan y terminan simultáneamente) Limitaciones: o Está influida por el tiempo de seguimiento. Ej. La incidencia de muerte en 100 años es de 1 pero en 1 minuto podría ser cercana a cero. o Riesgos competitivos. Ej. Estudiamos recidiva de cáncer, pero sufre una exacerbación del COPD o Hay pérdidas (ej. muertes o falta de seguimiento) Densidad de incidencia o tasa de incidencia: es el cociente entre la suma de casos y el tiempo de seguimiento (“person-time incidence rate”). Se asume que: o No todos los individuos ingresan al mismo momento o Periodo de observación no es igual para todos Limitaciones: o Asume que la incidencia es constante a todo lo largo del periodo de observación 14 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 1 coin = 1 pdf sin publicidad Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. ¿Y si el diagnóstico de la enfermedad lo hago mediante una prueba diagnóstica que es imperfecta? - Esta es la situación habitual, es casi la regla y determina que existan errores diagnósticos lo cual afecta a la estimación de la prevalencia/incidencia de las enfermedades. - Siempre debemos tener en cuenta con que herramientas se hace el diagnóstico, si se hace basado en la clínica, en la clínica/analítica, en la clínica/analítica/patología, etc. TEMA 35. MEDIDAS DE RIESGO Definición: el intervalo de confianza expresa la confianza en que, repitiendo el experimento, en un 95% de veces, el resultado estará incluido en ese intervalo. En otras palabras, el IC corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad, el valor real de una determinada variable. Es importante destacar que el IC se focaliza en el valor real de determinada variable, per por definición no implica (ni hace referencia) al valor poblacional. - La probabilidad específica se llama el nivel de confianza y los extremos del intervalo de confianza son los límites de confianza. La probabilidad está establecida comúnmente, pero no únicamente, en un 95% de confianza. - Los intervalos de confianza no se limitan sólo a mediciones únicas como las proporciones o los promedios; también se usan para: Establecer diferencias entre proporciones de la población Establecer diferencias entre los promedios de la población Establecer diferencias entre las tasas, las razones de riesgo, las razones de productos cruzados y otras. - El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad, el valor real de una determinada variable. 2. INTRODUCCIÓN AL CONCEPTO DE RIESGO Definición de riesgo: Se entiende por riesgo en salud la probabilidad de que una población determinada sufra cierta enfermedad o daño. La probabilidad es la característica de un evento, que hace que existan razones para creer que este se realizará. La probabilidad de que suceda un evento S de un total de n casos posibles igualmente probables es igual a la razón entre el número de ocurrencias h de dicho evento (casos favorables) y el número total de casos posibles n. P(s)= h/n Las probabilidades se corresponden con un cociente cuyo resultado se corresponde por un número que va de 0 a 1; si es de cero se dice que el evento es imposible y si es 1 que es una certeza. La enfermedades o eventos de interés suelen: - Expresarse mediante una variable dicotómica (sí/no; ocurre/no ocurre). Por ejemplo, recidiva del cáncer, ocurrencia de un infarto, muerte, curación, etc. P (cáncer): n cáncer/ n de la población P (infarto): n infartos/ n de la población - Si se trata de variables continuas, se pueden categorizar (niveles de colesterol y triglicéridos; o tensión arterial). Por ejemplo, hipercolesterolemia, hipertensión o hipotensión arterial. P (bajo colesterol): n bajo colesterol/ n de la población ¿Para qué utilizamos los riesgos? - Predicción: La presencia de un factor de riesgo (FR) significa un riesgo (probabilidad) aumentado de presentar en un futuro una enfermedad o evento, en comparación con sujetos no expuestos. El riesgo como medida de incidencia expresa la probabilidad que ocurra una enfermedad o evento de interés en una población, en un periodo especificado. - Causalidad: La asociación entre el aumento en las incidencias de un evento y la exposición a un factor es uno de los factores que se deben considerar al momento de evaluar la causalidad; pero no es el único. - Diagnóstico: El riesgo se utiliza en el proceso diagnóstico para la selección de las pruebas diagnósticas (las hay de alta sensibilidad, alta especificidad, etc.) 15 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 1 coin = 1 pdf sin publicidad Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. 1. INTERVALO DE CONFIANZA Prevención: Si un FR se asocia causalmente a un evento, su eliminación reducirá la probabilidad de que el evento se presente. Prevención primaria: se trata de controlar el factor en personas que aún no han padecido el evento (ej: no fumar reduce el riesgo de cáncer) Prevención secundaria: se trata de detectar y se tratar precozmente a los pacientes antes que aparezcan los síntomas (ej. programas de cribado de cáncer de mama) Prevención terciaria: se trata de prevenir complicaciones luego de haber padecido el evento (ej. AAS reduce el riesgo de re-infarto) Prevención cuaternaria: se trata de evitar los riesgos y la iatrogenia derivada del uso innecesario de intervenciones sanitarias) Es propio de los estudios clínicos que las relaciones causales propuestas entre las variables se traduzcan en términos de probabilidad. Por ende, se trata de establecer si la probabilidad de ocurrencia de un fenómeno observado se debe a los factores que se sospecha que intervienen en su génesis y no al azar. Para lograr este objetivo, se debe medir la frecuencia de uno o varios eventos de interés y realizar comparaciones entre los diferentes grupos que se estudian, o en el mismo grupo a través del tiempo. El clínico debe interpretar las diferentes medidas que se expresan en las publicaciones científicas para tomar decisiones basadas en la validez de estas en el tratamiento de sus pacientes. Sin embargo, la interpretación de los resultados puede resultar más complicada, ya que, si bien el procedimiento para evaluar la magnitud del efecto de un tratamiento está muy bien establecido, la manera de expresarlo no lo está tanto; lo que se genera en parte debido a la existencia de diversas formas (todas válidas y correctas), de expresar este efecto. Es conocido el hecho, que la percepción de los clínicos sobre la magnitud del efecto de un tratamiento depende de la forma en que éste se exprese. Así, dependiendo de la medida de efecto que decida utilizar el autor, el impacto de una intervención podrá aparecer de mayor o menor magnitud. La relación entre dos variables independientes y aleatorias puede evaluarse mediante: - Medidas de efecto, se basan en el cálculo de un cociente y permiten cuantificar discrepancias en la ocurrencia de enfermedad o evento de interés en grupos que difieren en la presencia o no de cierta característica. Riesgo absoluto (RA) o incidencia Riesgo relativo (RR) Odd ratio (estimador del RR) - Medidas de impacto, se basan en el cálculo de las diferencias entre el riesgo en distintos grupos (expuesto vs no expuesto). En general indican la contribución de un determinado factor en la producción de una determinada enfermedad o evento de interés entre los que están expuestos a él. Su uso se basa en la suposición de que tal factor es responsable de la aparición del evento de interés y en la presunción de que; de no existir, los riesgos en ambos grupos serían iguales. Por este motivo, se dice que las medidas de impacto indican el riesgo de enfermar que podría evitarse si se eliminara la exposición. Diferencia absoluta de riesgo (DAR) Reducción absoluta del riesgo (RAR) Diferencia relativa de riesgo (DRR) Reducción relativa de riesgo (RRR) Número necesario a tratar (NNT) Número necesario a dañar (NND) 16 a64b0469ff35958ef4ab887a898bd50bdfbbe91a-9989091 Plan Turbo - Eliminar los vídeos + 10 descargas sin publicidad por sólo 0,99€ / mes - Oferta limitada Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. - La relación entre dos variables independientes y aleatorias puede evaluarse mediante: Cuando se lee críticamente un artículo en que se comparan grupos, se ha de exigir que los resultados se reporten utilizando estas tres mediciones, o que al menos, los autores publiquen los datos con los cuales se puedan calcular; para los cuales se requiere generar una tabla de contingencia que simplifica los cálculos. 3. MEDIDAS DE RIESGO 3.1 Medidas de efecto - Riesgo absoluto (absolute risk o incidencia): es la proporción calculada entre el número de sujetos que presentan el evento de interés en un momento dado de tiempo (eventos nuevos) sobre el número de sujetos en riesgo en ese momento. Es decir, es la probabilidad de desarrollar un evento de interés en un determinado periodo de tiempo. RA con factor= VP/(VP+FP) → Re: riesgo en expuestos RA sin factor = FN/(FN+VN) → Rc: riesgo NO en expuestos - Riesgo relativo (risk ratio): representa la fuerza de la asociación entre la exposición y la enfermedad o evento de interés. Indica la probabilidad de que se desarrolle el evento de interés en los expuestos a un FR en relación al grupo de los no expuestos. Se calcula como el cociente entre el RA en personas expuestas al factor y RA entre personas no expuestas al factor. RR: [VP/(VP+FP)]/[FN/(FN+VN)] o RR: Rexpuesto/Rcontroles Características importantes: No tiene dimensiones Rango es desde 0 a infinito, siendo 1 el neutro RR >1 si la asociación es positiva, es decir si la presencia del factor se asocia a mayor ocurrencia del evento y RR

Tema 29. Estadística Descriptiva: Tipos de Variable PDF

Document Details

Tags

Related

Summary

Full Transcript