Bioinformática II 2024 - Módulo 1 - PDF

BIOINFORMATICA II 2024 Lic. Martina Liz Ceballos [email protected] MODULO 0 00 Programación en R MÓDULO 1 01 Bioestadística aplicada a datos en salud MÓDULO 2 02 Análisis e interpretación de datos I MÓDULO 3 03 Análisis e interpretación de datos II MODULO 4 04 Métodos de inferencia biológica MODULO 0 00 Programación en R MÓDULO 1 01 Bioestadística aplicada a datos en salud MÓDULO 2 02 Análisis e interpretación de datos I MÓDULO 3 03 Análisis e interpretación de datos II MODULO 4 04 Métodos de inferencia biológica MÓDULO 1 1 CONCEPTOS DE BIOESTADÍSTICA HERRAMIENTAS DE ANÁLISIS 2 MULTIPARAMÉTRICO 3 MEDIDAS DE CORRELACIÓN 1 CONCEPTOS DE BIOESTADÍSTICA CONCEPTOS DE BIOESTADÍSTICA POBLACIÓN: Conjunto de elementos con determinadas características de interés. Deﬁnidos por PARÁMETROS. MUESTRA: Porción representativa de una población. Deﬁnidos por ESTIMADORES. CONCEPTOS DE BIOESTADÍSTICA POBLACIÓN: Conjunto de elementos con determinadas características de interés. } Deﬁnidos por PARÁMETROS. MUESTRA: Porción representativa de una población. Deﬁnidos por ESTIMADORES. DATOS BIOESTADÍSTICA: Rama de la estadística encargada de la recolección, análisis e interpretación de datos biológicos o de salud. CONCEPTOS DE BIOESTADÍSTICA POBLACIÓN: Conjunto de elementos con determinadas características de interés. } Deﬁnidos por PARÁMETROS. MUESTRA: Porción representativa de una población. Deﬁnidos por ESTIMADORES. DATOS B. DESCRIPTIVA DESCRIBIR Y SINTETIZAR BIOESTADÍSTICA: Rama de la estadística encargada de B. INFERENCIAL la recolección, análisis e interpretación de datos ANALIZAR Y PROBAR HIPÓTESIS biológicos o de salud. CONCEPTOS DE BIOESTADÍSTICA Para llevar adelante un proyecto de investigación, se sigue el MÉTODO CIENTÍFICO. Este método deﬁne los procedimientos y técnicas necesarias para guiar la investigación, cumplir los objetivos y construir el conocimiento. PLANTEAR ANALIZAR OBSERVAR HIPÓTESIS RESULTADOS IDENTIFICAR SACAR EXPERIMENTAR PROBLEMAS ¿Cuántos grupos experimentales? CONCLUSIONES ¿Cuáles características se van a medir? ¿Cuántas mediciones se realizarán? ¿Cuándo? ¿Se planean intervenciones? CONCEPTOS DE BIOESTADÍSTICA CLASIFICACIÓN DEL DISEÑO METODOLÓGICO Según… …el número de mediciones. - Transversal: Evaluación del fenómeno una vez. - Longitudinal: Evaluación del fenómeno más de una vez. … el número de grupos de estudio. - Descriptivo: Incluyen solamente un grupo de participantes. - Analítico (Comparativo): Incluyen dos o más grupos de participantes. … la posibilidad de intervención. - Observacional: No hay intervención del investigador. No se modiﬁcan las variables. - Experimental: El investigador aplica una intervención. Se modiﬁcan las variables. … el momento donde se estudia. - Prospectivo: De la causa al efecto. - Retrospectivo: Del efecto a la causa. … la forma de recolección de datos. - Prolectivo: Se recolecta información al iniciar el estudio. - Retrolectivo: Se recolecta la información de fuentes secundarias (Ej.: historia clínica). CONCEPTOS DE BIOESTADÍSTICA Esclerosis Múltiple (MS) Enfermedad autoinmune que produce la destrucción progresiva de la mielina, afectando el sistema nervioso central (cerebro, médula espinal y nervios ópticos). Las células inmunes involucradas en la respuesta patológica incluyen la microglía, los monocitos y los linfocitos B. Etiología: multifactorial. Hábitos alimenticios y conductuales. Infecciones por virus. Predisposición genética (alelo HLA DRB1*15:01). Epidemiología: adultos jóvenes (18-35 años) con mayor prevalencia en mujeres que en hombres (3:1). Una de las principales causas de invalidez física en el adulto joven. Virus Epstein-Barr (EBV) La infección por este virus afecta 90% de la población mundial. Pertenece a la familia Herpesviridae, junto con el virus de la varicela zoster, el citomegalovirus, y virus herpes simplex-1 y -2. Agente causal de la mononucleosis infecciosa. Produce una infección latente en los linfocitos B. Varios estudios sugieren que la infección con EBV puede dar lugar al desarrollo de MS. CONCEPTOS DE BIOESTADÍSTICA Establecer una relación causal entre la infección con el virus de Epstein-Barr y el desarrollo de esclerosis múltiple. Tipo de estudio: Longitudinal, Analítico, Observacional, Prospectivo y Prolectivo. Objeto de estudio: Personal militar estadounidense en servicio activo entre 1993 y 2013. Muestra: Suero de aproximadamente 2500 individuos. CONCEPTOS DE BIOESTADÍSTICA Una vez deﬁnida nuestra MUESTRA (ej.: suero de pacientes del servicio militar), es hora de saber qué información vamos a tomar de estos elementos seleccionados. Esta decisión depende del objetivo y la hipótesis del estudio, excluyéndose aquellas características que son constantes de la población. VARIABLES: Son características que pueden variar de elemento a elemento (peso, edad, glucemia, niveles de cortisol, etc.). Ej.: de mujeres embarazadas se va a medir sus semanas de embarazo, no si están embarazadas. Se pueden clasiﬁcar en: Cualitativa: expresan una cualidad. ▪ Nominales: no expresan orden, sino que deﬁnen categorías. Ej.: género, color de ojos. ▪ Ordinales: expresan un orden o jerarquía, generalmente a modo de ranking. Ej.: escala de dolor (1- 10), nivel de satisfacción (insatisfecho-satisfecho). Cuantitativas: expresan una cantidad, métrica o número. ▪ Discretas: números enteros. Ej.: número de hijos. ▪ Continuas: inﬁnitos valores entre los enteros. Ej: altura. CONCEPTOS DE BIOESTADÍSTICA Se pueden clasiﬁcar en: CUALITATIVA NOMINAL Cualitativa: expresan una cualidad. ▪ Nominales: no expresan orden, sino que deﬁnen categorías. CUALITATIVA NOMINAL Ej.: género, color de ojos. ▪ Ordinales: expresan un orden o jerarquía, generalmente a modo de ranking. Ej.: escala de dolor (1- 10), nivel de CUALITATIVA ORDINAL satisfacción. CUANTITATIVA DISCRETA Cuantitativas: expresan una cantidad, métrica o número. CUALITATIVA NOMINAL ▪ Discretas: números enteros. Ej.: número de hijos. CUALITATIVA NOMINAL ▪ Continuas: inﬁnitos valores entre los enteros. Ej: altura. CUANTITATIVA CONTINUA CONCEPTOS DE BIOESTADÍSTICA POBLACIÓN: Conjunto de elementos con determinadas características de interés. } Deﬁnidos por PARÁMETROS. MUESTRA: Porción representativa de una población. Deﬁnidos por ESTIMADORES. DATOS B. DESCRIPTIVA DESCRIBIR Y SINTETIZAR BIOESTADÍSTICA: Rama de la estadística encargada de B. INFERENCIAL la recolección, análisis e interpretación de datos ANALIZAR Y PROBAR HIPÓTESIS biológicos o de salud. CONCEPTOS DE BIOESTADÍSTICA BIOESTADÍSITCA DESCRIPTIVA: Utiliza 2 tipos de procedimientos: medidas o índices estadísticos y representaciones gráﬁcas. ÍNDICES ESTADÍSTICOS: Media, Mediana, Moda, Cuartiles (medidas de tendencia central y posición). Rango, Varianza, Desvío Estándar, Coeﬁciente de Variación (medidas de dispersión). CONCEPTOS DE BIOESTADÍSTICA BIOESTADÍSITCA DESCRIPTIVA: Utiliza 2 tipos de Histograma: procedimientos: medidas o índices estadísticos y representaciones gráﬁcas. REPRESENTACIONES GRÁFICAS: Gráﬁco de sectores o “de torta”, Gráﬁcos de barra, Gráﬁcos de caja, histogramas, etc. Gráﬁco de cajas: Gráﬁco de sectores: Gráﬁco de barras: Los neuroﬁlamentos son componentes estructurales de los axones mielinizados. CONCEPTOS DE BIOESTADÍSTICA POBLACIÓN: Conjunto de elementos con determinadas características de interés. } Deﬁnidos por PARÁMETROS. MUESTRA: Porción representativa de una población. Deﬁnidos por ESTIMADORES. DATOS B. DESCRIPTIVA DESCRIBIR Y SINTETIZAR BIOESTADÍSTICA: Rama de la estadística encargada de B. INFERENCIAL la recolección, análisis e interpretación de datos ANALIZAR Y PROBAR HIPÓTESIS biológicos o de salud. CONCEPTOS DE BIOESTADÍSTICA BIOESTADÍSITCA INFERENCIAL: Utiliza el contraste o prueba de hipótesis. Algunos conceptos que incluyen son los de Probabilidad, Distribuciones de probabilidad, Prueba de hipótesis, Errores estadísticos, Valor p, etc. ¿Por qué? No puede empezarse una investigación conociendo el resultado, por eso se busca probar una hipótesis y generar nuevos conocimientos. En un experimento aleatorio, no se sabe a ciencia cierta el resultado, sino que existe un conjunto de resultados posibles (espacio muestral, Ω), donde cada uno recibe el nombre de evento. Con esto en mente, una PROBABILIDAD es un número real que se le asigna a cada evento tal que cumple con los siguientes axiomas: P(A) ≥ 0 P(Ω) = 1 Si PA ∩ PB = ∅; P (AUB) = P(A) + P(B) Los eventos que van a formar parte de nuestro espacio muestral van a depender de la hipótesis de nuestro estudio. CONCEPTOS DE BIOESTADÍSTICA BIOESTADÍSITCA INFERENCIAL Una hipótesis representa una conjetura de cómo funciona un sistema. Son supuestos probables, referentes al evento que se quiere evaluar. Ej.: Voy a aprobar Bioinformática II este semestre. Para que una conjetura clasiﬁque como hipótesis, debe existir la posibilidad de que la misma sea falsa. Si se tuviera certeza a priori del resultado, no sería una hipótesis (sino un hecho). La hipotesis nula (H0) es la aﬁrmación que se somete a prueba y se pretende refutar hacia una hipótesis alternativa (H1). H0: Voy a aprobar Bioinformática II este semestre. H1: No voy a aprobar Bioinformática II este semestre. CONCEPTOS DE BIOESTADÍSTICA BIOESTADÍSITCA INFERENCIAL Para que una conjetura clasiﬁque como hipótesis, debe existir la posibilidad de que la misma sea falsa. Si se tuviera certeza a priori del resultado, no sería una hipótesis (sino un hecho). La hipotesis nula (H0) es la aﬁrmación que se somete a prueba y se pretende refutar hacia una hipótesis alternativa (H1). Al poner a prueba una hipótesis, se tendrán 4 escenarios posibles: Es evidente que al rechazar o no una hipótesis, es probable que estemos en lo correcto o que cometamos un error. CONCEPTOS DE BIOESTADÍSTICA BIOESTADÍSITCA INFERENCIAL CONFIANZA: Al proponer una hipótesis se debe asegurar que la conﬁanza sea aprox. Del 95% y probar que ese 5% que resta esta equivocado. Ej: Conﬁanza = 1 - α = 95% Error Tipo I = α = 5% POTENCIA ESTADÍSTICA: Al rechazar o no una hipótesis (tomar una desición), es probable que estemos en lo correcto o no; y se debe ser consciente de la probabilidad de cometer un error. CONCEPTOS DE BIOESTADÍSTICA BIOESTADÍSITCA INFERENCIAL “LA ÚNICA CERTEZA QUE TIENEN LOS INVESTIGADORES ES QUE LA ESTADÍSTICA NO TRABAJA CON CERTEZAS” CONCEPTOS DE BIOESTADÍSTICA BIOESTADÍSITCA INFERENCIAL Solo se tiene completa certeza del resultado cuando se obtienen parámetros poblacionales, es decir, cuando se realiza un censo. Por el contrario, cuando se trabajan con estimadores, nunca se obtienen certezas absolutas del resultado, y por ende las hipótesis siempre se rechazarán o no, con un grado de incertidumbre. Por fortuna, existe un estadístico que nos orienta a la hora de tomar la decisión de rechazar o no una hipótesis: Valor P (p value) Representa la probabilidad de obtener un resultado al azar que sea igual o más extremo que el observado, asumiendo que la hipótesis nula es verdadera. En otras palabras, cuán compatible es obtener el resultado observado con la hipótesis nula. Si el valor p es mayor o igual a que la probabilidad de error tipo I (α) → p value ≥ α → NO SE RECHAZA H0 Si el valor p es menor a que la probabilidad de error tipo I (α) → p value < α → SE RECHAZA H0 CONCEPTOS DE BIOESTADÍSTICA Esclerosis Múltiple (MS) Se tienen dos grupos de pacientes, una cohorte de pacientes “sanos” (ctrl, n=45) y otra de pacientes con esclerosis múltiple (MS, n=38). Se toman muestras de sangre y se evalúan los niveles de anticuerpos (Ac) contra los residuos 370-389 de la proteína GlialCAM (expresados en el SNC). La hipótesis nula deﬁne que el nivel promedio de Ac contra GlialCAM (370-389) entre los pacientes ctrl y MS es el mismo. La hipótesis alternativa es que son diferentes. Los investigadores asumen una probabilidad de error tipo I del 5% (α = 0.05) al contrastar su hipótesis, es decir, que hay un 5% de probabilidades que concluyan que los niveles de Ac son diferentes cuando en realidad no lo son. Luego de medir los niveles de anticuerpos, se realizarán los análisis estadísticos correspondientes arrojando el siguiente valor de p = 0.01. Lo mismo fue testeado para los niveles de anticuerpos dirigida contra la proteína GlialCam completa (full length), dando un valor de p = 0.03. ¿Cuál es nuestra interpretación? CONCEPTOS DE BIOESTADÍSTICA Esclerosis Múltiple (MS) … La hipótesis nula deﬁne que el nivel promedio de Ac contra GlialCAM (370-389) entre los pacientes ctrl y MS es el mismo. La hipótesis alternativa es que son diferentes. Los investigadores asumen una probabilidad de error tipo I del 5% (α = 0.05) al contrastar su hipótesis, es decir, que hay un 5% de probabilidades que concluyan que los niveles de Ac son diferentes cuando en realidad no lo son. Luego de medir los niveles de anticuerpos, se realizarán los análisis estadísticos correspondientes arrojando el siguiente valor de p = 0.01. Lo mismo fue testeado para los niveles de anticuerpos dirigida contra la proteína GlialCam completa (full length), dando un valor de p = 0.03. ¿Cuál es nuestra interpretación? p value ≥ α → NO SE RECHAZA H0 p value < α → SE RECHAZA H0 0.01 < 0.05 y 0.03 < 0.05 → SE RECHAZA H0 CONCEPTOS DE BIOESTADÍSTICA BIOESTADÍSITCA INFERENCIAL Pruebas de hipótesis ¿Qué tipo de variable dependiente tenemos? Cuantitativa Muestras independientes (2 grupos experimentales) Cualitativa Variable con distribución normal (Prueba t Nominal (2 categorías) diferencia de medias, Prueba F de igualdad 1 grupo experimental (Prueba para una de varianzas). Proporción Poblacional). Variable con distribución distinta a la 2 grupos experimentales (Prueba de la normal (Prueba Mann Whitney – Wilcox). diferencia de Proporciones Poblacionales). Muestras dependientes (2 grupos experimentales) Ordinal (2 grupos experimentales) Variable con distribución normal (Prueba t Muestras independientes (Prueba Mann pareada). Whitney – Wilcox). Variable con distribución distinta a la Muestras dependientes (Prueba Wilcox). normal (Prueba Wilcox). CONCEPTOS DE BIOESTADÍSTICA BIOESTADÍSITCA INFERENCIAL Existen estrategias matemáticas y gráﬁcas para evaluar si un conjunto de datos sigue una distribución normal: Gráﬁcos de probabilidad normal (QQplots) Comparan los percentiles de los datos con los percentiles esperados de una distribución normal estándar. Si los puntos del gráﬁco se ajustan a la recta de 45°, indica que nuestros datos siguen una distribución normal. Por el contrario, cuando los puntos distan signiﬁcativamente de la recta, entonces existe una desviación de la normalidad. Prueba de Shapiro-Wilk Pone a prueba la hipótesis de normalidad, en donde Ho establece que existe una distribución normal, mientras que H1 deﬁne que los datos tienen una distribución distinta a la normal. Al ﬁnalizar el análisis se obtiene un valor de p que nos ayuda a aceptar o rechazar la hipótesis nula. CONCEPTOS DE BIOESTADÍSTICA Esclerosis Múltiple (MS) Variable Cualitativa Nominal Prueba diferencia de proporciones – muestras independientes ¿Cuál es nuestra interpretación? p value ≥ α → NO SE RECHAZA H0 p value < α → SE RECHAZA H0 0.0077 < 0.05 → SE RECHAZA H0 → Los datos tienen una distribución distinta a la normal CONCEPTOS DE BIOESTADÍSTICA Esclerosis Múltiple (MS) Variable Cualitativa Ordinal Prueba diferencia de rangos – muestras independientes ¿Cuál es nuestra interpretación? p value ≥ α → NO SE RECHAZA H0 p value < α → SE RECHAZA H0 0.0004 < 0.05 → SE RECHAZA H0 → Los datos tienen una distribución distinta a la normal CONCEPTOS DE BIOESTADÍSTICA Esclerosis Múltiple (MS) Variable Cuantitativa Prueba diferencia de medias – muestras independientes 0.0011 < 0.05 → SE RECHAZA H0 → Los datos tienen una distribución distinta a la normal CONCEPTOS DE BIOESTADÍSTICA Esclerosis Múltiple (MS) Variable Cuantitativa Prueba diferencia de medias – muestras independientes ¿Qué pasa con el resto de las variables cuantitativas? CONCEPTOS DE BIOESTADÍSTICA Esclerosis Múltiple (MS) Variable Cuantitativa Prueba diferencia de medias – muestras independientes ¿Qué pasa con el resto de las variables cuantitativas? 2 HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO El análisis multiparamétrico consiste en la evaluación de múltiples parámetros o variables en un estudio, que posibilita obtener una visión más completa y precisa de un fenómeno. Nos permite inferir relaciones y dependencias entre las variables, identiﬁcando patrones que expliquen las características del grupo de estudio. Utiliza distintas herramientas como métodos de reducción de dimensionalidad, técnicas de clustering, análisis de similitud, entre otros. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad Herramientas utilizadas para reducir la dimensionalidad de los datos, mientras se intenta retener la mayor cantidad de información relevante. ➔ Principal Component Analysis (PCA) ➔ t-SNE (t-Distributed Stochastic Neighbor Embedding) ➔ UMAP (Uniform Manifold Approximation and Projection) HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad Principal Component Analysis (PCA) Transforma un conjunto de variables correlacionadas en un nuevo conjunto de variables no correlacionadas llamados componentes principales (PCs). Estos PCs son combinaciones lineales de las variables originales y se ordenan de manera que el primer PC (PC1) explique la mayor varianza de los datos, el segundo PC (PC2) explique la siguiente mayor varianza y así sucesivamente. El número de PCs será igual al número de dimensiones en nuestros datos originales. A lo largo del análisis, se realizan combinaciones lineales de las variables, siendo el PC1 donde mayor dispersión o varianza encontramos. El análisis de PCA cuantiﬁca la cantidad de información contenida en los datos a través de la varianza. En la lógica del análisis, aquellas variables que más diﬁeren a lo largo de las observaciones son las que guardan mayor contenido de información. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad Principal Component Analysis (PCA) UTILIDAD ❑ Identiﬁcar patrones ocultos en nuestros datos (agrupamientos, comportamiento de la variable). ❑ Reducir la dimensionalidad y redundancia de la información. ❑ Identiﬁcar variables correlacionadas. ¿Cuál variable nos brinda más información? HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad Principal Component Analysis (PCA) La cantidad de PCs es equivalente al número de variables en nuestros datos originales. Cuando decidimos reducir dimensiones y seleccionar algunos PCs, estamos perdiendo información. Existen herramientas gráﬁcas y criterios matemáticos que nos permiten decidir qué cantidad de PCs debemos seleccionar para capturar la mayor cantidad de información. Criterio gráﬁco – Scree plots Proporción de varianza retenida por cada PC Elegir la cantidad de PCs tal que retengan el 60-70% de informació. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad Principal Component Analysis (PCA) La cantidad de PCs es equivalente al número de variables en nuestros datos originales. Cuando decidimos reducir dimensiones y seleccionar algunos PCs, estamos perdiendo información. Existen herramientas gráﬁcas y criterios matemáticos que nos permiten decidir qué cantidad de PCs debemos seleccionar para capturar la mayor cantidad de información. Eigenvalue – Criterio Kaiser 1961 Cantidad de variabilidad explicada por cada PC Incluir todos los PCs cuyo eigenvalue > 1 HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad Principal Component Analysis (PCA) En un PCA, las variables son representadas en función de sus correlaciones. Recordemos que cada PC va a estar formado por combinaciones lineales de las variables originales (Ej.: para formar el PC1 se mezclan 7,4 partes de la variable A y 2,3 de la variable B). En el gráﬁco, las variables se muestran como vectores, los cuales por deﬁnición matemática poseen dirección y magnitud. ★ A mayor magnitud del vector (cuánto más se aleja del origen), más importante es su contribución para explicar la variabilidad observada en un dado PC. ★ La dirección de los vectores nos ayuda a identiﬁcar correlaciones entre las variables. ▪ Mismo sentido (Positivamente correlacionadas). ▪ Sentido opuesto (Negativamente correlacionadas). ▪ Formando un ángulo recto (Sin correlación). HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad Principal Component Analysis (PCA) LIMITACIONES DEL PCA ❑Si los datos no están escalados o existen outliers, los resultados del análisis estarán sesgados. ❑ Al reducir el número de PCs se pierde información, en particular esto afecta la estructura global de nuestros datos (se altera la distancia entre cada punto en el espacio multidimensional). Los puntos en los datos originales están más alejados que en los datos transformados →Problemas en algoritmos de clusterización. ❑ Identiﬁca correlaciones lineales → Si las variables se correlacionan de un modo no lineal, no podemos identiﬁcarlas en este análisis. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad t-SNE (t-Distributed Stochastic Neighbor Embedding) Técnica de reducción de dimensionalidad no lineal, muy útil para visualizar relaciones complejas en datos multiparamétricos. Etapas del algoritmo: 1) Se calculan scores de similitud para detectar puntos vecinos. 2) Se mapean los puntos en un espacio de baja dimensión (2D o 3D), de modo que las similitudes calculadas en el punto anterior se conserven lo más posible. El algoritmo busca proyectar los datos en 2D, conservando las distancias de los puntos en el espacio multidimensional, mediante un proceso iterativo de optimización. El parámetro que más inﬂuye en los resultados es llamado Perplexity: número de puntos vecinos que se consideran cuando se calculan las distancias iniciales entre cada punto. Un valor de perplexity… …bajo conservará la estructura local de la información. …alto nos brinda un panorama general de la distribución de datos. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad UMAP (Uniform Manifold Approximation and Projection) Técnica de reducción de dimensionalidad no lineal, que al igual que el t-sne busca preservar la estructura local de los datos en el espacio de baja dimensión. Sin embargo, UMAP utiliza un enfoque ligeramente diferente que lo hace más rápido y escalable para conjuntos de datos grandes (mejor a nivel computacional). El algoritmo también trabaja en etapas, construcción de mapas de vecinos y optimización iterativa para conservar la orientación de datos en el espacio multidimensional. Ofrece mayor versatilidad porque se pueden modiﬁcar varios parámetros del algoritmo, como el número de vecinos y la preservación de la estructura local de los datos. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad Ventajas y desventajas (t-SNE y UMAP) ✓ A diferencia de PCA, tanto t-SNE como UMAP pueden capturar relaciones complejas entre los datos (algoritmos no lineales). ✓ Ambos pueden lidiar con datos de grandes dimensiones de modo optimizado y consumiendo menores recursos computacionales (UMAP>t-SNE). ✓ Están diseñados para preservar la estructura local de los datos, esto es, conservar la estructura/orientación de los puntos cercanos. ✓ La conservación de estructura global de los datos es limitada, por lo que no siempre se puede concluir que dos clústeres cercanos sean similares. En este caso, UMAP tiene una mejor performance. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad EJEMPLO MAMUT: LOCAL: Los puntos más cercanos que pertenecen a un mismo conjunto. GLOBAL: La ubicación de cada conjunto de puntos y su cercanía con otros conjuntos. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO A) Métodos de reducción de dimensionalidad APLICACIONES DE TÉCNICAS DE REDUCCIÓN DE DIMENSIONALIDAD sc - RNAseq: CITE-seq: CyTOF: moléculas de ARN de secuenciación que permite medir citometría de masas que cada célula de una simultáneamente la expresión de ARN permite cuantiﬁcar los muestra biológica. y proteínas en una sola célula. componentes celulares de una sola célula. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO B) Métodos de clusterización Técnica utilizada para dividir un conjunto de observaciones en grupos o clusters, de tal manera que los elementos dentro de cada grupo sean similares entre sí, mientras que los elementos entre distintos grupos son diferentes. Clustering Jerárquico K-means HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO B) Métodos de clusterización CLUSTERING JERÁRQUICO Este método construye una jerarquía de clústeres utilizando: Un enfoque de aglomeración (bottom-up): cada observación comienza como un clúster individual y se van fusionando sucesivamente los clústeres más cercanos hasta formar un único clúster. Un enfoque de división (top-down). se comienza con un clúster único y se va dividiendo en sub clusters más pequeños hasta que cada observación se encuentre en su propio clúster. Los clústeres se van formando en base a una matriz de similitud entre los pares de observaciones. La elección el método para calcular similitudes depende del tipo de datos y problema de estudio. Las medidas más comunes incluyen la distancia euclidiana y la distancia Manhattan, entre otras. La idea es que las observaciones que tiene mayor similitud entre sí, formarán parte del mismo clúster. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO B) Métodos de clusterización CLUSTERING JERÁRQUICO En el clustering jerárquico, los resultados se muestran con un dendrograma. La línea horizontal nos indica el número de clústeres formados, mientras que las líneas verticales nos muestran el orden en el que se van formando cada clúster. Con el dendrograma se puede determinar el número óptimo de clústeres, eligiendo un corte al nivel que más se adapte con nuestro problema. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO B) Métodos de clusterización CLUSTERING JERÁRQUICO MEDIDAS DE DISTANCIA Distancia Euclidiana Distancia de Manhattan Representa la distancia más corta entre dos puntos. Suma de las diferencias absolutas entre puntos en Útil para variables continuas o discretas. todas las dimensiones. Utilizada para establecer relaciones de similitud Adecuada para variables categóricas o continuas. basada en la magnitud de las observaciones. Útil cuando la métrica de distancia se basa en la cantidad de pasos o movimientos necesarios para ir de un punto a otro. Puede verse afectada por valores atípicos y por la No es sensible a valores atípicos o a diferencias en escala de las variables. la escala de la variable. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO B) Métodos de clusterización CLUSTERING JERÁRQUICO MEDIDAS DE DISTANCIA Distancia Euclidiana Distancia de Manhattan Representa la distancia más corta entre dos puntos. Suma de las diferencias absolutas entre puntos en Útil para variables continuas o discretas. todas las dimensiones. Utilizada para establecer relaciones de similitud Adecuada para variables categóricas o continuas. basada en la magnitud de las observaciones. Útil cuando la métrica de distancia se basa en la cantidad de pasos o movimientos necesarios para ir de un punto a otro. Puede verse afectada por valores atípicos y por la No es sensible a valores atípicos o a diferencias en escala de las variables. la escala de la variable. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO B) Métodos de clusterización K Means Su objetivo es dividir las observaciones en K grupos, donde K es un número predeﬁnido. Se eligen aleatoriamente K centroides (inicialización). Luego cada observación se asigna al grupo cuyo centroide (punto medio) es el más cercano en términos de distancia euclidiana (asignación). A continuación, se recalcula el centroide de cada grupo y se repite el proceso hasta que no haya cambios signiﬁcativos en las asignaciones (iteración). Es sensible a valores atípicos y a la escala de las variables, por lo que se recomienda un preprocesamiento de los datos, como la estandarización, para evitar sesgos en el clustering. HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO B) Métodos de clusterización K Means ¿Cómo elegir el mejor valor de K? 1. A modo supervisado, en base al conocimiento de los datos. De antemano sé que mis datos provienen de K grupos diferentes (Ej.: pacientes sanos, pacientes enfermos y pacientes recuperados; K=3). 2. Método de Elbow Algoritmo que permite seleccionar de un modo no supervisado el número óptimo de clústeres presentes en un conjunto de datos. Para esto, se calcula una variabilidad explicada (SSE) para cada valor de K, que expresa la suma de cuadrados de las distancias entre cada observación y el centroide de su clúster correspondiente. Luego dichos valores de SSE son graﬁcados en función del número de K. El valor de corte para K se puede identiﬁcar como el codo del gráﬁco, donde la disminución de SSE se vuelve menos pronunciada. Este punto indica un equilibrio entre el número de clústeres y la variabilidad explicada. 3. Silhouette Coefﬁcient HERRAMIENTAS DE ANÁLISIS MULTIPARAMÉTRICO B) Métodos de clusterización K Means ¿Cómo elegir el mejor valor de K? 1. A modo supervisado, en base al conocimiento de los datos. 2. Método de Elbow 3. Silhouette Coefﬁcient Métrica utilizada para evaluar que tan bien están agrupados los datos. Se calcula para cada observación en el conjunto de datos y tiene un valor que varía entre 1 y -1. ❖ SC cercano a 1: Buena calidad de clustering. Los datos están más cercanos a su propio cluster y más lejos de los clusters vecinos. ❖ SC cercano a -1: La observación está más cerca de los clusters vecinos y mal asignada a su propio cluster, lo cual es indeseable. ❖ SC= 0: La observación está cerca de la frontera entre dos clusters y puede haber ambigüedad en su asignación. 3 MEDIDAS DE CORRELACIÓN MEDIDAS DE CORRELACIÓN La correlación lineal es una medida estadística que indica la relación entre dos variables cuantitativas. La misma se expresa mediante el coeﬁciente de correlación (r) y varía entre -1 y 1. ➔ r cercano a 1: correlación positiva fuerte, a medida que una variable aumenta, la otra también tiende a aumentar. ➔ r cercano a -1: correlación negativa fuerte, lo que signiﬁca que a medida que una variable aumenta, la otra tiende a disminuir. ➔ r cercano a 0: correlación débil o inexistente, lo que signiﬁca que no hay una relación lineal clara entre las variables. Es importante tener en cuenta que la correlación lineal solo mide la relación lineal entre las variables y no implica causalidad. Es decir, aunque dos variables estén correlacionadas, no necesariamente una variable causa la otra. MEDIDAS DE CORRELACIÓN Existen dos pruebas estadísticas para estudiar la correlación lineal. En ambos casos la hipótesis nula deﬁne que el coeﬁciente de correlación es igual a cero, es decir que no existe correlación lineal entre las variables. Mientras que la hipótesis alternativa plantea que es coeﬁciente de correlación es distinto de cero. Coeﬁciente de correlación de Pearson Se aplica cuando las variables tienen distribución normal y varianzas homogéneas. Coeﬁciente de correlación de Spearman Se aplica cuando las variables tienen una distribución distinta a la normal y/o no existe homogeneidad en las varianzas. Al aplicar cualquiera de las dos pruebas vamos a obtener el coeﬁciente de correlación y un valor p, que nos permitirá rechazar o no las hipótesis que supone el análisis. MEDIDAS DE CORRELACIÓN Existen dos pruebas estadísticas para estudiar la correlación lineal. En ambos casos la hipótesis nula deﬁne que el coeﬁciente de correlación es igual a cero, es decir que no existe correlación lineal entre las variables. Mientras que la hipótesis alternativa plantea que es coeﬁciente de correlación es distinto de cero. Coeﬁciente de correlación de Pearson Se aplica cuando las variables tienen distribución normal y varianzas homogéneas. Coeﬁciente de correlación de Spearman Se aplica cuando las variables tienen una distribución distinta a la normal y/o no existe homogeneidad en las varianzas. Al aplicar cualquiera de las dos pruebas vamos a obtener el coeﬁciente de correlación y un valor p, que nos permitirá rechazar o no las hipótesis que supone el análisis. MEDIDAS DE CORRELACIÓN X < 0.05 → SE RECHAZA H0 → coeﬁciente de correlación es distinto de cero y existe correlación lineal. X < 0.05 → SE RECHAZA H0 → coeﬁciente de correlación es distinto de cero y existe correlación lineal (en este caso negativa). X > 0.05 → NO SE RECHAZA H0 → coeﬁciente de correlación es igual a cero y no existe correlación lineal. MEDIDAS DE CORRELACIÓN IL6 vs. Glucemia? ★ Correlación positiva ★ Menos Variabilidad porque G. está cerca del origen. Fin Módulo 1 ¿Y el práctico? PRÁCTICO - Módulo 1 Estadistica descriptiva PRÁCTICO - Módulo 1 Estadistica descriptiva PRÁCTICO - Módulo 1 Estadistica descriptiva PRÁCTICO - Módulo 1 Estadistica inferencial Prueba de Shapiro-Wilk Pone a prueba la hipótesis de normalidad, en donde Ho establece que existe una distribución normal, mientras que H1 deﬁne que los datos tienen una distribución distinta a la normal. Al ﬁnalizar el análisis se obtiene un valor de p que nos ayuda a aceptar o rechazar la hipótesis nula. ¿Cuál es nuestra interpretación? p value ≥ α → NO SE RECHAZA H0 p value < α → SE RECHAZA H0 0.4595 ≥ 0.05 → SE ACEPTA H0 → Los datos tienen una distribución normal PRÁCTICO - Módulo 1 Estadistica inferencial Prueba de Shapiro-Wilk Pone a prueba la hipótesis de normalidad, en donde Ho establece que existe una distribución normal, mientras que H1 deﬁne que los datos tienen una distribución distinta a la normal. Al ﬁnalizar el análisis se obtiene un valor de p que nos ayuda a aceptar o rechazar la hipótesis nula. ¿Cuál es nuestra interpretación? p value ≥ α → NO SE RECHAZA H0 p value < α → SE RECHAZA H0 0.2583 ≥ 0.05 → SE ACEPTA H0 → Los datos tienen una distribución normal PRÁCTICO - Módulo 1 Estadistica inferencial Cuantitativa Muestras independientes (2 grupos experimentales) Variable con distribución normal (Prueba t diferencia de medias, Prueba F de igualdad de varianzas). ¿Cuál es nuestra interpretación? p value ≥ α → NO SE RECHAZA H0 p value < α → SE RECHAZA H0 2.2e-16 < 0.05 → SE RECHAZA H0 → Las especies setosa y virginica no tienen el mismo largo de sépalo PRÁCTICO - Módulo 1 Análisis multiparamétrico PRÁCTICO - Módulo 1 Análisis multiparamétrico PRÁCTICO - Módulo 1 Análisis multiparamétrico En el gráﬁco, las variables se muestran como vectores, los cuales por deﬁnición matemática poseen dirección y magnitud. ★ A mayor magnitud del vector (cuánto más se aleja del origen), más importante es su contribución para explicar la variabilidad observada en un dado PC. ★ La dirección de los vectores nos ayuda a identiﬁcar correlaciones entre las variables. ▪ Mismo sentido (Positivamente correlacionadas). ▪ Sentido opuesto (Negativamente correlacionadas). ▪ Formando un ángulo recto (Sin correlación). PRÁCTICO - Módulo 1 Análisis multiparamétrico PRÁCTICO - Módulo 1 Análisis multiparamétrico PRÁCTICO - Módulo 1 Correlaciones ¿Cuál es nuestra interpretación? p value ≥ α → NO SE RECHAZA H0 p value < α → SE RECHAZA H0 0.01 < 0.05 → SE RECHAZA H0 → Los datos NO tienen una distribución normal 0.1 ≥ 0.05 → SE ACEPTA H0 → Los datos tienen una distribución normal PRÁCTICO - Módulo 1 Correlaciones ¿Cuál es nuestra interpretación? p value ≥ α → NO SE RECHAZA H0 p value < α → SE RECHAZA H0 2.2e-16 < 0.05 → SE RECHAZA H0 → Existe una correlación entre Petal Width y Petal Length PRÁCTICO - Módulo 1 Correlaciones PRÁCTICO - Módulo 1 UMAP + tSNE Perplexity: número de puntos vecinos que se consideran cuando se calculan las distancias iniciales entre cada punto. Un valor de perplexity… …bajo conservará la estructura local de la información. …alto nos brinda un panorama general de la distribución de datos. PRÁCTICO - Módulo 1 UMAP + tSNE Perplexity = 30 PRÁCTICO - Módulo 1 UMAP + tSNE Perplexity = 5 PRÁCTICO - Módulo 1 UMAP + tSNE Fin Módulo 1 ¿Preguntas?

Bioinformática II 2024 - Módulo 1 - PDF

Document Details

Tags

Related

Summary

Full Transcript