Análisis de Supervivencia Parte I PDF

Document Details

PlentifulElectricOrgan

Uploaded by PlentifulElectricOrgan

University of Puerto Rico, Medical Sciences Campus

2025

Erick Suárez, PhD

Tags

análisis de supervivencia estadística médica análisis de datos medicina

Summary

Este documento presenta una introducción al análisis de supervivencia, incluyendo conceptos como la función de supervivencia, la función de riesgo y problemas relacionados. Se ofrecen ejemplos de aplicación en casos de recuperación o mortalidad en pacientes con COVID-19. Incluye información sobre el tiempo de observación y el diseño de estudios de investigación. Contiene también información sobre la determinación del tiempo de estudio y conceptos como los datos censurados.

Full Transcript

Erick Suárez, PhD Adaptado por Marytere Meléndez, DPT Análisis de Supervivencia Parte I OBJETIVOS Definir e interpretar la probabilidad de supervivencia (survivor function) por el método de Kaplan-Meier. Definir e interpretar la función d...

Erick Suárez, PhD Adaptado por Marytere Meléndez, DPT Análisis de Supervivencia Parte I OBJETIVOS Definir e interpretar la probabilidad de supervivencia (survivor function) por el método de Kaplan-Meier. Definir e interpretar la función de riesgo (hazard function) por el método de Kaplan- Meier. Identificar la relación entre las funciones de supervivencia y de riesgos Estimar el tiempo mediano de supervivencia. 2 INTRODUCCIÓN Análisis de supervivencia (Survival Analysis) pretende evaluar el tiempo que tarda en ocurrir un evento de interés después de una fecha específica (time-to-event data). Para este tipo de análisis, la información básica necesaria es: a) Evento de interés (recuperación, muerte,…) b) Variable principal: Tiempo de estudio c) Posibles eventos en caso de no ocurrir el evento de interés. INTRODUCCIÓN Problema 1: Asumiendo un estudio donde se pretende evaluar el tiempo de recuperación de un paciente con COVID-19 después de ser hospitalizado, cuál sería la información básica de este estudio? Evento de interés Variable de estudio Posibles resultados al final del estudio Recuperación del Tiempo de recuperación 1)Recuperación paciente hospitalizado 2)Muerte por COVID-19 INTRODUCCIÓN Problema 2: Asumiendo un estudio donde se pretende evaluar la mortalidad hospitalaria en pacientes con COVID-19 después de ser hospitalizados, cuál sería la información básica de este estudio? Evento de interés Variable de estudio Posibles resultados al final del estudio: Muerte hospitalaria Tiempo hasta la 1)Recuperación en pacientes ocurrencia de la 2) Muerte admitidos por COVID- muerte 19 INTRODUCCIÓN Información para evaluar el tiempo de estudio Fecha inicial de participación en el estudio. Fechas: (1) cuando sucede el evento de interés (2) cuando se termina el estudio  Los datos de supervivencia, o datos de tiempo transcurrido hasta el evento, son mediciones del tiempo transcurrido entre el reclutamiento inicial en un estudio y la disposición final del sujeto de estudio. El tiempo de reclutamiento inicial transcurrido podría representarse por el tiempo de diagnóstico inicial o podría estar representado por el momento en el que se ingresa al estudio. Supervivencia, en este contexto, simplemente significa que un evento NO ha ocurrido, no necesariamente, que el resultado final de interés sea si hay “vida” o si ha ocurrido la “muerte”. Tiempo de Observación Si el evento ocurrió (por ejemplo, muerte), el tiempo de estudio lo determina la diferencia entre la fecha de ocurrencia del evento de interés y la fecha de inicio: T=Fecha del evento – Fecha inicial Si el evento no-ocurrió (por ejemplo, recuperación), el tiempo de estudio lo determina la diferencia entre la fecha de terminación del estudio y la fecha de inicio: T=Fecha de terminación de estudio – Fecha inicial Puede haber otras opciones; por ejemplo, si en un estudio longitudinal con diferentes seguimientos, asumiendo que en el último contacto el sujeto estaba vivo, el tiempo de seguimiento se puede aproximar por la mitad del tiempo entre la fecha del último contacto y la fecha de terminación del estudio. Diseño de investigación Un análisis de supervivencia conlleva un diseño longitudinal, donde existe un periodo de reclutamiento y una fecha máxima de observación: El tiempo de reclutamiento comprende un periodo fijo del tiempo, donde se lleva a cabo la medición inicial de los sujetos de estudio para el análisis de supervivencia. La fecha máxima de observación indica el último día, o el momento específico, para observar la ocurrencia de un evento. Diseño de investigación Christina Price et al. Tocilizumab Treatment for Cytokine Release Syndrome in Hospitalized COVID-19 Patients: Survival and Clinical Outcomes. Chest infection, 15 june 2020. Diseño de investigación Jiao Liu, et al. Clinical outcomes of COVID-19 in Wuhan, China: a large cohort study. Annals Intensice Care 10, Num. 99, 2020 Diseño de investigación Augusto Castelnuovo et al. Common cardiovascular risk factors and in-hospital mortality in 3,894 patients with COVID-19: survival analysis and machine learning-based findings from the multicentre Italian CORIST Study. Nutrition, Metabolism and Cardiovascular Diseases. 20 July 2020 Diseño de investigación T>t T=t Terminación del estudio es independiente de la ocurrencia del evento (Non-informative censoring). T indica el tiempo que tarda en ocurrir el evento: Determinación del tiempo de estudio en el caso de que el evento de interés sea muerte Análisis de supervivencia se justifica cuando existe la posibilidad de que el evento de interés no ocurra en un alto número de sujetos durante el periodo del estudio; es decir, un alto número de sujetos con información incompleta (censored). El tiempo de ocurrencia del evento de interés (T) no se puede determinar exactamente cuando el evento de interés no sucedió durante el tiempo de estudio. Si no ocurrió el evento durante el periodo de estudio, solo se puede determinar el tiempo (t) mínimo de supervivencia; es decir, el tiempo mínimo que el individuo permanece libre del evento de interés. Si el evento es muerte indicaría, el tiempo mínimo que permanece vivo o el tiempo a partir del cual ocurrirá la muerte. Por lo tanto, el problema de estudio de un análisis de supervivencia se formula con la expresión siguiente: Tt Tipo de “Censored” Right-censoring (más común) Fecha del evento ?? Personas a las cuales no les ocurre el evento durante el estudio… Left-censoring Fecha inicial ?? Personas que no tienen Fecha del Dx … Interval censoring Evento ocurre dentro de un intervalo Entre dos colonoscopias 14 Datos Censurados – tipos de “censoring” Datos censurados por la derecha – son datos para los cuales tampoco se conocen puntos finales exactos porque el sujeto abandonó el estudio, fue retirado del estudio o sobrevivió más allá de la terminación del estudio. Son tiempos de supervivencia que se extienden más allá de la cola derecha de la distribución de los tiempos de supervivencia. Datos censurados por la izquierda - Son datos cuyos puntos iniciales exactos no se conocen. Esto podría surgir, por ejemplo, si un sujeto con la condición ingresa al estudio, pero no se sabe exactamente cuándo se desarrolló la condición en el paciente. Se desconoce la diferencia en el tiempo entre el diagnóstico y el ingreso al estudio. Datos de Tiempo hasta el Evento y Datos Censurados Generalmente, para fines de análisis, se utiliza una variable dicotómica o indicadora para distinguir los tiempos de supervivencia de aquellos sujetos que experimentan el evento de interés y aquellos que no lo hacen debido a uno de los mecanismos de censura descritos anteriormente. Normalmente se conoce como “status variable”, donde un cero indica que no ocurrió un evento y por lo tanto, el tiempo de supervivencia está censurado y un 1 indica que ocurrió el evento de interés. EJEMPLO: TIEMPO DE ESTUDIO PERIODO DE RECLUTAMIENTO FECHA MÁXIMA DE OBSERVACIÓN Sujeto 1 Sujeto 2 Sujeto 3 Sujeto 4 Sujeto 5 Sujeto 6 Sujeto 7 Mes 0 1 2 3 4 5 6 7 8 9 10 11 12 (Fecha) Denota muerte Denota un censored 17 Ejemplo de una base de datos para un análisis de supervivencia ydx: año del dx mdx: mes del dx ddx: día del dx ylc: año del último contacto mlc: mes del último contacto dlc: día del último Las fechas están contacto correctas? vital: estado vital en la fecha del último Cuánto tiempo ha transcurrido entre la fecha del diagnóstico y contacto. la fecha de muerte o del cierre del estudio? Si el sujeto está vivo en la fecha del último contacto, una opción es contabilizar el tiempo de observación hasta la terminación del estudio. 18 Determinación de observación cuando el evento de interés sea muerte hospitalaria Si está vivo en la fecha del último contacto (last contact), el tiempo de observación se contabiliza desde la fecha de ingreso hasta la fecha de la alta hospitalaria. Si está muerto, el tiempo de observación se contabiliza desde la fecha de ingreso hasta la fecha de ocurrencia de la muerte (asumimos que la muerte ocurrió en el hospital). Vivo T=alta-to Hospitalización (to) Muerto T=muerte-to Tiempo de observación en un sujeto vivo en la fecha de último contacto (sujeto 1) Ejemplo para el sujeto 1 (Vivo) Dxdate: 2001/03/13 = 2001*365+(03-1)*30+13=730,438 (días) Terminación del estudio (corregir): 31 de diciembre de 2014 (2014/12/31 ) 2014*365+(12-1)*30+31=735,471 (días) Tiempo de observación: = 735,471-730,438= 5,033 días (167.8 meses) 20 Tiempo de observación en un sujeto muerto en la fecha de último contacto (sujeto 3) Ejemplo para el sujeto 3 (muerto) Fecha muerte (last contact): 2006/09/07 = 2006*365+ (09- 1)*30 +07= 732,437 Dxdate: 2003/04/15 = 2003*365+(04-1)*30+15= 731,200 Tiempo de observación en días = 1,237 días (41.2 meses) 21 Programación en Stata: Uso del comando mdy *Asumiendo que la fecha final de observación fue Diciembre 31, 2014 gen flc=. replace flc=mdy(mlc, dlc, ylc) if vital==0 replace flc=mdy(12, 31, 2014) if vital==1 format flc %td gen fdx=mdy(mdx, ddx, ydx) format fdx %td gen tmx=(flc-fdx)/30 list fdx flc vital tmx 22 Uso del comando stset: tiempo en días gen flc=mdy(mlc, dlc, ylc) format flc %td gen fdx=mdy(mdx, ddx, ydx) format fdx %td stset flc, failure(vital=0) origin(time fdx) exit(time mdy(12,31,2014)) list flc fdx vital _t 23 Uso del comando stset: tiempo en semanas gen flc=mdy(mlc, dlc, ylc) format flc %td gen fdx=mdy(mdx, ddx, ydx) format fdx %td stset flc, failure(vital=0) origin(time fdx) exit(time mdy(12,31,2014)) scale(7) list flc fdx vital _t 24 Uso del comando stset: tiempo en meses gen flc=mdy(mlc, dlc, ylc) format flc %td gen fdx=mdy(mdx, ddx, ydx) format fdx %td stset flc, failure(vital=0) origin(time fdx) exit(time mdy(12,31,2014)) scale(30) list flc fdx vital _t 25 Uso del comando stset: tiempo en años gen flc=mdy(mlc, dlc, ylc) format flc %td gen fdx=mdy(mdx, ddx, ydx) format fdx %td stset flc, failure(vital=0) origin(time fdx) exit(time mdy(12,31,2014)) scale(365) list flc fdx vital _t 26 Cuáles son las causas de información incompleta? Posibles Causas: Terminación del estudio Pérdida de seguimiento por retiro voluntario del estudio Muerte Desarrollo de una enfermedad o condición no asociada al evento de interés antes de la terminación del estudio Sesgos Las observaciones censored pueden atribuirse a un sesgo de selección, a menos que se garantice que las personas censored son representativas de la población de estudio. Por lo tanto, la ocurrencia de observaciones censored debe ser independiente de T. Variable aleatoria de estudio T es una variable aleatoria Cada sujeto tiene un valor T, cuyo valor se determina hasta que ocurra el evento o finalice el estudio. Debe existir una distribución de probabilidad f(t) función de densidad F(t) función de distribución acumulada. T siempre es positiva T puede ser discreta o continua 28 Ejemplo de una distribución de probabilidad 29 Ejemplo de una distribución de probabilidad: Distribución Gamma Distribución adecuada para describir el comportamiento de variables aleatorias continuas asimétricas positivas (mayor densidad de eventos a la izquierda de la media), principalmente donde el tiempo es parte del análisis. de la 30 Distribución de probabilidad acumulada (Cumulative Distribution Function, CDF) 𝐹 ( 𝑡 )= Pr ⁡[𝑇 ≤ 𝑡 ] Indica la probabilidad de ocurrencia del evento en el tiempo t, ó antes de t 1 − 𝐹 ( 𝑡 )=Pr ⁡[𝑇 >𝑡 ] Qué significa Indica la probabilidad de ocurrencia del evento después de t 31 PROBABILIDAD DE SUPERVIVENCIA En un estudio de supervivencia, la evaluación de T=t no se puede establecer para observaciones censored. Si no hubiera observaciones censored, entonces la variable T puede ser analizada por los métodos clásicos para evaluar una variable continua (regresión lineal, ANOVA, otros). En el caso de observaciones censored, solamente se puede asegurar que el evento ocurrirá después de un tiempo mayor de t (T>t). Por tal razón, uno de los objetivos principales en un análisis de supervivencia es determinar la probabilidad T>t: S(t) = Pr [T>t] =1- Pr [T≤t] 32 PROBABILIDAD DE SUPERVIVENCIA S(t) indica la función de supervivencia (survivor or survivorship function). Interpretación de 2 formas: (1) probabilidad de estar libre del evento de interés hasta t; (2) probabilidad de que el evento ocurra después del tiempo t. Si el evento fuera muerte: (1) probabilidad de estar vivo hasta t; (2) probabilidad de morir después de t. 33 Ejemplo de la interpretación de Supervivencia S(t) del COVID-19 La probabilidad de fallecer después de 60 meses es 50% La probabilidad de permanecer vivo hasta los 60 meses es 50% 34 Estimación de S(t) Si no hay censored (empirical estimates), la S(t) se estima a base de la proporción de sujetos con un tiempo igual o mayor de t: 35 Estimación de S(t) por Kaplan- Meier Si hay observaciones censored, no es un buen estimador de S(t). Es recomendable utilizar el método Kaplan- Meier, el cual considera el efecto de censoring. 36 MÉTODO DE KAPLAN-MEIER PARA ESTIMAR S(t) Kaplan-Meier (KM) es un proceso no-paramétrico que se puede usar para estimar S(t). No hay supuestos matemáticos. Probabilidad empírica de sobrevida después de t a base de los datos de la muestra considerando el censoring. En este método se identifica el tiempo t(j) donde ha ocurrido al menos un evento. Asumimos t(1)  t(2)  t(3) .....  t(j-1)  t(j)  …… donde t(1) es el momento donde ocurrió el evento con el menor tiempo. 37 S(T(j)) POR EL MÉTODO DE KAPLAN- MEIER S(t (j ) ) = Pr[ T > t (j) T  t (j) ]*S(t(j-1)) donde - Pr[ T > t (j) T  t (j) ] indica la probabilidad de vivir después de un tiempo t (j) en aquellas personas que llegaron vivas a t(j) - S(t(j-1)) función de supervivencia hasta el tiempo t (j-1) 38 EJEMPLO: TABULACIÓN DEL TIEMPO DE SUPERVIVENCIA Sujeto Mes de entrada Mes de muerte Muerte (M) Tiempo de o censored Censored (C ) supervivencia 1 0 6 M 6 2 1 12 C 11 3 2 3 C 1 4 1 6 C 5 5 0 4 M 4 6 4 6 M 2 7 0 11 M 11 EJEMPLO: ESTIMACIÓN DE S(t) por KM t(j) Sujetos a Muertes (fj) Prob. vivir después de tj S(tj) riesgo ( rj ) condicionado a estar vivo en tj Pr[ T > t (j) T  t (j) ] 0 7 0 1-(0/7)=1 1.0 1* - - - - 2 6 1 1-(1/6)=0.833 0.833 4 5 1 1-(1/5)=0.8 0.666 5* - - - - 6 3 1 1-(1/3)=0.667 0.44 11 2 1 1-(1/2)=.5 0.22 11* - - donde Pr[ T > t (j) T  t (j) ]=1-(fj/rj) rj indica los sujetos a riesgo en un instante antes de t(j) fj indica las defunciones en el tiempo t(j) *Observación censored Estimación de S(t) por KM Formula para estimar la varianza de S(t) rj indica los sujetos a riesgo en un instante antes de t(j) fj indica las defunciones en el tiempo t(j) REPRESENTACIÓN GRÁFICA DE S(T) La representación gráfica de la probabilidad de supervivencia por el método de Kaplan- Meier se realiza a través de la función escalonada (Step function) siguiente: 0 2. 4 6 11 (Meses) La probabilidad S(t ) se mantiene constante (j ) hasta que sucede otro evento de interés. 42 Estimación de S(t): uso de sts list (asumiendo el tiempo es en años) stset flc, failure(vital=0) origin(time fdx) exit(time mdy(12,31,2014)) scale(365) La probabilidad de morir después 3.4 años es 50%. La probabilidad de permanecer vivo hasta 3.4 años es 50%. 43 Programación Stata: sts graph 44 45 Sousa G. et al. Mortality and Survival of COVID-19. Epid Infect 2020; 148. 46 KM x Age 47 KM x Diabetes 48 KM x Cardiovascular disease 49 Estudio de la Supervivencia COVID- 19 según Región de Salud en PR Base de datos Códigos: edad (años) sexo 0-Fem, 1-Masc maxeduc: 1 =Bach. sis: Sistema Causa Primaria num: Códido de enfermedad (ICD10) deathdate: Fecha muerte dy: Año muerte dm Mes muerte dd: Día muerte Birthdate: Fecha nacimiento by: Año nacimiento bm Mes nacimiento bd: Día nacimiento Muni: Municipio residencia 50 Estudio de la Supervivencia COVID- 19 según Región de Salud en PR Do-file: 51 Estudio de la Supervivencia COVID- 19 según Región de Salud en PR Do-file: 52 Estudio de la Supervivencia COVID- 19 según Región de Salud en PR sts graph 53 Tiempo Mediano (Median survival time) El tiempo mínimo donde las probabilidades son menores o iguales al 50% se define como el tiempo mediano: S De forma similar se puede definir otros percentiles. 54 Estudio de la Supervivencia COVID- 19 según Región de Salud en PR 55 Tiempo Mediano (Median survival time) 56 57 sts graph, by(maxeduc) sts list, at(500 750 1000 1250 1300) by(maxeduc) 58 Tricia T. et al. Association between high serum total cortisol concentration and mortality from COVID-19. Lancet Diabetes Endo. 2020 Aug; 8(8). 59 FUNCIÓN DE RIESGO, h(t) Otra forma de evaluar el tiempo de ocurrencia de un evento es utilizar la función de riesgo (hazard function), la cual se define por: el riesgo instantáneo de ocurrir el evento de interés después de un tiempo t, dado que este evento no ocurrió durante por lo menos un tiempo t. El hazard se denota por h(t). También se identifica por: instantaneous failure rate, force of mortality or, the age-specific failure rate 60 Diferencia entre S(t) y h(t) S(t) indica la probabilidad de ocurrir el evento después de t: Evento ________ t ______________ h(t) indica la probabilidad de ocurrir el evento inmediatamente después de t: Evento _________t 61 62 Memoryless property 63 ESTIMACIÓN DE LA FUNCIÓN DE RIESGO POR KM Para estimar la función de riesgo por el método de Kaplan-Meier en un intervalo de tiempo (t (j), t(j+1)), se utiliza un proceso similar a la estimación de la densidad de la incidencia: f j Casos ĥ(t)   rj * τ j Tiempo - persona donde j indica el tamaño del intervalo (t(j), t(j+1)), es decir, j = t(j+1)-t(j) Según la unidad de tiempo que se utilice, el producto rj*j indica tiempo-persona (i.e., años-persona, Donde : semanas-persona, días-persona,...). rj indica los sujetos a riesgo en un instante antes de t(j) 64 fj indica las defunciones en el tiempo t(j) EJEMPLO: ESTIMACIÓN DE h(t) t(j) rj fj j = t(j+1)-t(j) h(t(j))= 0 7 0 2 0 1* - - - - 2 6 1 2 0.0833 4 5 1 2 0.100 5* - - - - 6 3 1 5 0.066 11* - - - - 11 1 1 5 0.16 *Observación censored 65 sts graph, hazard 66 sts graph, hazard ci ciopts(recast(rcap)) 67 Función de riesgo acumulado: Método de Nelson-Aelen S(t) se puede obtener de la forma siguiente: 68 EJEMPLO: ESTIMACIÓN DE por Nelson- Aelen t(j) rj fj fi/ri 0 7 0 0 0 1* - - - - 2 6 1 0.167 0.167 0.85 4 5 1 0.2 0.367 0.69 5* - - - - 6 3 1.333.7 0.5 11* - - - - 11 1 1 1.333 2.03 0.13 *Observación censored 69 sts graph, cumhaz ci ciopts(recast(rcap) 70 Wei-jei et. al. Comorbidity and its impact on 1590 patients with COVID-19 in China: A Natiowide Analysis. European Respiratory Journal, 2020 72 Referencias Cleves M. An Introduction to Survival Analysis using STATA. STATA Press, 2002. Collett D. Modelling Survival Data in Medical Research: Second Edition. Chapman and H Oxford University Press all. 2003. Hosmer D. and Lemeshow S. Applied Survival Analysis. John Wiley & Sons, Inc, 1999 Kleinbaum D. Survival Analysis: A self-learning text: Second Edition. Springer, 2005. Suárez E. Pérez C., Noguera G., Gorrín-Moreno C. Biostatistics in Public Health using Stata. CRC/Press, 2016 Therneau T. and Grambsch. Modeling Survival Data. Springer, 2000. 73