BIOINFO II - MÓDULO 4 - Introducción a las Ontologías Biológicas
Document Details
Uploaded by FirmerBouzouki
Universidad Católica de Córdoba
Tags
Summary
Este documento presenta una introducción a las ontologías biológicas, enfocándose en su utilidad en la bioinformática para el análisis de genes y rutas biológicas. Se discute la evolución histórica y el contexto actual de su uso, destacando la importancia del intercambio de datos y la necesidad de lenguajes de programación comprensibles para la máquina. También se explora el concepto de ontología como una forma de representar el conocimiento en la biología, incluyendo ejemplos como GO y herramientas como g:Profiler.
Full Transcript
# INTRODUCCIÓN A LAS ONTOLOGÍAS BIOLÓGICAS ## UN POCO DE HISTORIA... - **Década del 1960.** Hubo una evolución simultánea de los inventarios digitales de proteínas y taxonomía. - **Década del 1980.** Estos inventarios habían madurado y se institucionalizaron con una proliferación concomitante de d...
# INTRODUCCIÓN A LAS ONTOLOGÍAS BIOLÓGICAS ## UN POCO DE HISTORIA... - **Década del 1960.** Hubo una evolución simultánea de los inventarios digitales de proteínas y taxonomía. - **Década del 1980.** Estos inventarios habían madurado y se institucionalizaron con una proliferación concomitante de datos biológicos. Sin embargo, estos conjuntos de datos se mantenían en repositorios propietarios o "silos" cuidadosamente guardados con poca o ninguna comunicación entre ellos. - **Década de 1990.** Cambio en el énfasis de la acumulación de grandes volúmenes de datos a la reducción de la superposición entre bases de datos y el uso de los datos existentes en varias ubicaciones de repositorios. Este proceso de aumento de la comunicación entre bases de datos se conoce como interoperabilidad, cuyo objetivo es permitir el intercambio y la comparación de datos. ## Actualidad... A medida que aumenta el volumen acumulado de conocimientos biológicos, la generación de una explicación integral y coherente de la biología depende de la capacidad de los científicos para aprovechar y sintetizar grandes conjuntos de datos en **recursos digitales distribuidos.** El objetivo último de la informática de la biodiversidad es generar un “inventario global de [toda] la vida en la Tierra”, y se basa en la acumulación digital fluida de taxonomías distribuidas. Debido a que las bases de datos biológicas contemporáneas (en particular las “ómicas” y de organismos modelo) enfatizan los datos a escala molecular, no representan adecuadamente la fisiología (ciencia que estudia las funciones de los seres vivos) que describen. Por lo tanto, existe la necesidad de compilar las características celulares de esos organismos en **representaciones diferenciables** de esos organismos mismos. ## Para entender las diferencias semánticas y esquemáticas entre las bases de datos biológicas, la investigación "ómica" requiere un método para expresar los contextos de los que surgen los conceptos biológicos, a nivel de la base de datos. La predicción funcional depende de la identificación no sólo de homólogos de secuencias, sino también de componentes celulares similares que participan en un proceso biológico similar. Los detalles de los componentes celulares, moleculares y biológicos a menudo se encuentran en **fuentes de datos separadas**, una función del alcance limitado de la información biológica producida por cualquier laboratorio determinado. ## Las ONTOLOGÍAS -o el uso de un esquema taxonómico (de clasificación) y de representación del conocimiento singular- son una forma de **resolver estos problemas semánticos** entre bases de datos. ## ONTOLOGÍA: - En **filosofía**, la ontología se ha entendido tradicionalmente como la esencia del ser, o lo que algo realmente es. (Schuurman, 2006) - En **informática y ciencias de la información** una ontología se refiere a una **especificación de entidades dentro de un dominio**; cada entidad está definida con precisión y su relación con todas las demás entidades en el ámbito categórico o informático específico está determinada con precisión. Por lo tanto, las ontologías **enumeran formalmente las entidades o elementos de alguna disciplina, sus relaciones y sus definiciones**. Se las puede considerar simplemente como un sistema de clasificación, una leyenda de mapa o un diccionario de datos.(Gruber, 1993) - **Ontologías científicas o de sistemas:** están estructuradas de manera muy similar a una taxonomía biológica con conceptos generales que aparecen en la parte superior del árbol y se vuelven más específico a medida que se recorre hacia abajo. - **Ontología formal:** modelo legible por máquina de los objetos permitidos en un universo formal y sus asociaciones o relaciones entre ellos sobre las cuales se pueden realizar algunas tareas de razonamiento automatizado. En un entorno formal, una ontología constituye un **sustituto del conocimiento abstraído del mundo real** en una forma codificada que se puede traducir a un lenguaje de programación. Contienen **3 niveles de formalización**, relacionados a la construcción: 1. El primero es el **conceptual**, que luego se traduce en un modelo formal de los elementos de datos en la ontología (por ejemplo, proteínas) y las posibles **relaciones entre ellos**. 2. La etapa o nivel final es el **desarrollo de código** que puede ser ejecutado por computadoras. La semántica formal utilizada para instanciar una ontología, debe basarse en una lógica formal particular de algún álgebra lógica con **reglas predeterminadas para casos** como: “cuándo dos conceptos son iguales, cuándo uno es diferente de otro o en qué se diferencian". Además, estas reglas deben expresarse en alguna **sintaxis legible por máquina**. ## ONTOLOGÍA ### Proceso de formalización: de un concepto de un gen particular a su reificación codificada y representación ontológica. La entidad (mosca de la fruta) se representa cada vez más en formato de base de datos digital a medida que se **formaliza o se abstrae de su forma del mundo real.** La entidad pierde dimensionalidad, mientras que los investigadores ganan **la ventaja de la función computacional.** ## Las expresiones ontológicas formales se expresan como tripletes proposicionales que consisten en: - **Conceptos** (entidades del mundo real que pueblan el modelo) - **Sus propiedades** (o relaciones entre dichas entidades) - **Instancias** (ocurrencias particulares de un concepto; por ejemplo, un gen particular con su propio identificador único en una base de datos) en un modelo jerárquico. Un **triplete (concepto + propiedad + instancia)** constituye una **proposición**, o “declaración [definitiva] sobre (parte de) el mundo". ## DE ONTOLOGÍA A BIOONTOLOGÍAS El uso de ontologías para la **bioinformática** está siendo impulsado por la **proliferación de conjuntos de datos a escala del genoma** y la difusión de Internet y sus protocolos para compartir e intercambiar datos. Las **bioontologías** cumplen dos funciones centrales para el dominio biológico: 1. “aclaran las **discusiones científicas**” al proporcionar el vocabulario y los términos bajo los cuales y con los cuales se llevan a cabo dichas discusiones. 2. **permiten el descubrimiento de datos a través de recursos de** datos distribuidos. La bioontología preeminente es **(GO)**, un recurso de conocimiento de código abierto basado en la Web para la bioinformática y el segundo recurso de datos biológicos más citado después de UniProt. ## Anotación genética: se define como la “tarea de agregar capas de análisis e interpretación a secuencias crudas”. Esto incluye información sobre su **función**, **posición relativa a los límites codificantes/no codificantes**, **proceso participante**, etc.; y se constituyen un conjunto de metadatos o "datos sobre datos". Históricamente, se ha almacenado como texto libre o, en el mejor de los casos, descripciones semiestructuradas semánticamente particulares de los sistemas terminológicos o de clasificación únicos de muchas de las bases de datos. Hubo **2 desafíos:** 1. El **uso de nomenclaturas diferentes** impidió la asociación lineal de la semántica de la base de datos. 2. La **expresión de estas anotaciones en lenguaje natural** proporcionó poco contexto para la minería de datos porque no eran legibles por máquina. En cuanto a la **predicción funcional**, las funciones de las proteínas dependen inherentemente del contexto, en particular del contexto celular. Esto se agrava en el caso de las proteínas, en particular porque muchas secuencias suelen tener múltiples funciones. ## GO El **Consorcio GO** se formó como respuesta a la heterogeneidad semántica generalizada de los datos biomédicos y su falta de formalidad. De hecho, fue diseñado para hacer que las anotaciones basadas en texto libre fueran manejables. En 1998 los tres programas de bases de datos participantes (Drosophila melanogaster (mosca de la fruta), Mus musculus (ratón) y Saccharomyces cerevisiae (levadura de cerveza o de panadería) acordaron trabajar en conjunto para proporcionar a la **comunidad biológica un marco impulsado por el consenso para guiar la anotación de productos genéticos** de manera que su **estructura** (por ejemplo, cómo se describe la función molecular y qué parte de la descripción ocurre en qué orden sintáctico) y **semántica** (los términos y conceptos) sean consistentes. El resultado fue el **GO**: un "vocabulario estructurado, definido con precisión, común y controlado para describir las funciones de los genes y los productos genéticos en cualquier organismo”. PERO no es una taxonomía o índice de todas las proteínas y productos genéticos conocidos, sino que proporciona un **conjunto estandarizado de nombres para genes y proteínas y los términos para caracterizar (o "anotar") sus comportamientos.** ## La semántica del producto genético se organiza en tres categorías que capturan los "aspectos" primarios de los genes: 1. **proceso biológico**, que captura el proceso más amplio en el que el producto genético está activo. 2. **función molecular**, la función bioquímica a la que contribuye un producto genético en ese proceso. 3. **componente celular**, la ubicación en la célula donde se cumple o expresa esa función particular. Los conceptos o términos constituyen **nodos**, y los vectores denominados **bordes** representan **relaciones entre conceptos**. Los punteros son como los bordes en el sentido de que su semántica está dirigida y están etiquetados con la relación que asocia clases relacionadas, pueden ser: - **is-a**, que denota que los conceptos son **tipos de entidades**. - **part-of**, que puede significar la **participación o contribución** de un concepto en una secuencia o proceso. ## La mitocondria: es un orgánulo y forma parte del citoplasma. ## Los conceptos o términos constituyen nodos, y los vectores denominados bordes representan relaciones entre conceptos. Los punteros son como los bordes en el sentido de que su semántica está dirigida y están etiquetados con la relación que asocia clases relacionadas, pueden ser: - **is-a**, que denota que los conceptos son tipos de entidades. - **part-of**, que puede significar la participación o contribución de un concepto en una secuencia o proceso. ## A nivel de la base de datos, el GO se representa como un vocabulario estructurado; más específicamente, como anotaciones de productos genéticos expresados utilizando conceptos y su estructura tripartita (biológica, molecular y celular). El GO NO se considera una ontología según la informática en el pleno sentido del término porque no ha sido diseñado para ser implementado dentro de entornos de software que ejecutan inferencia semántica sobre la base de la semántica lógica. Además, no cumple las condiciones de formalidad. No obstante, tiene muchas de las características de una ontología formal: - legibilidad por máquina - notación formal - una estructura de conocimiento jerárquica - asociaciones relacionales entre conceptos En otras palabras, el GO puede considerarse una **implementación parcial** que utiliza muchos conceptos de la ontología formal. Sin embargo, parte de la razón por la que GO es solo una implementación parcial es que fue diseñado para funcionar dentro de infraestructuras existentes, sin requerir cambios en las arquitecturas existentes. ## El GO proporciona el vocabulario estándar para la integración semántica y las tareas automatizadas para la Bioinformática. Es más que un simple diccionario de datos sofisticado o vocabularios controlados que proporcionan una definición de los términos utilizados por una comunidad de práctica y pueden ser legibles por máquina y, por lo tanto, formales. ## ¿Por qué? Porque una nomenclatura no captura la representación jerárquica del conocimiento ni las relaciones correspondientes entre todos los conceptos en el espacio de datos y, por lo tanto, **no admite el razonamiento computacional**, mientras que GO si lo hace. ## El GO es global. Es un proxy de conocimiento central al cual se pueden alinear otras ontologías o representaciones de conocimiento. El mapeo de ontologías es el proceso de definir **asociaciones entre ontologías**, lo que implica la declaración formal de vínculos relacionales entre entidades, muy similar a lo que implica relacionar conceptos en una estructura ontológica jerárquica. Las ontologías pueden alinearse... ...De modo que los formalismos permanecen como entidades separadas pero están relacionadas ...fusionándose lo cual genera una ontología singular a partir de los productos cruzados de dos ontologías de entrada. El 'mapeo' es, por lo tanto, **unidireccional y siempre desde la base de datos constituyente al GO.** ## GO La ontología genética como una **ontología global para la bioinformática**. - Las ontologías bioinformáticas de menor escala casi invariablemente se **asignen al GO.** - Varias bases de datos grandes, como FlyBase, **contribuyen con anotaciones al GO** utilizando su semántica de modo que existe una **asignación directa entre genes/productos genéticos a nivel de base de datos y su participación en la ontología.** - Cuando la anotación es exclusiva de la base de datos, un programa de traducción puede **transformar la anotación en una representación manejable del GO.** - El GO proporciona un vocabulario estandarizado para la descripción de genes y productos genéticos no solo en bases de datos sino también en **infraestructuras bioinformáticas emergentes**, como WikiProteins. - La **consistencia de la semántica reduce la ambigüedad en la consulta de recursos bioinformáticos** y permite recuperar genes y productos genéticos sobre la base de la biología común en lugar de la coincidencia léxica (el grado de semejanza entre palabras). ## Uno de los principales objetivos que debe alcanzar la Bioinformática es la automatización de la anotación de las coincidencias cruzadas entre bases de datos. La generación electrónica de anotaciones es particularmente deseable, ya que la curación manual de bases de datos orientadas a genes consume mucho tiempo y no es trivial para los humanos. ## El GO facilita la anotación automática de productos genéticos a nivel de base de datos. GOA, por ejemplo, utiliza términos GO para generar anotaciones para la **UniProt Knowledgebase** (el consorcio de bases de datos de proteínas SwissProt, TrEMBL y PIR-PSD). Los datos existentes almacenados en UniProt se asocian electrónicamente con términos GO o se traducen a ellos sobre la base de un archivo de mapeo definido que se utiliza para facilitar la conversión de palabras clave en las bases de datos constituyentes a representaciones GO manejables. ## Una vez que la semántica es consistente entre las fuentes de datos, los biólogos que han identificado una nueva secuencia, por ejemplo, pueden navegar por GO a través de una interfaz conocida como navegador de ontología sobre la base de estos elementos de datos comunes y, de hecho, utilizar las anotaciones GO existentes no sólo para descubrir la similitud de secuencias, sino también para completar automáticamente su propia base de datos utilizando las anotaciones existentes para homólogos de otras fuentes de datos seleccionadas. Por lo tanto, la ontología funciona como un **"esquema de traducción".** ## El GO es dinámico. GO tiene como objetivo representar el estado actual del conocimiento en biología, por lo que se **revisa y amplía constantemente a medida que se acumula el conocimiento biológico.** Las revisiones de la ontología son administradas por un equipo de editores con amplios conocimientos biológicos y experiencia en representación computacional del conocimiento. La mayoría de las solicitudes provienen de científicos que realizan anotaciones de GO (que generalmente afectan solo a unos pocos términos cada una) y de expertos en el dominio de áreas particulares de la biología (que generalmente revisan una "rama" completa de la ontología que comprende muchos términos y relaciones). ## GO EN LA ACTUALIDAD Actualmente, GO incluye hallazgos experimentales de más de 170.000 artículos publicados, representadas por más de 930.000 anotaciones respaldadas experimentalmente. Estas proporcionan el conjunto de datos central para la inferencia adicional de anotaciones funcionales, incluidas más de 3,6 millones de anotaciones basado en la filogenia, para un **total de más de 7,4 millones de anotaciones para un conjunto diverso de organismos que abarcan el árbol de la vida (al menos 3200 especies).** ## Clasificación de Ontologías: 1. **Gene Ontology (GO)** - La Gene Ontology (GO) es una de las ontologías más ampliamente utilizadas en biología y está estructurada en tres grandes categorías: - **Procesos Biológicos:** Describe las funciones a nivel de procesos celulares, como la apoptosis o la señalización celular. - **Funciones Moleculares:** Abarca actividades específicas a nivel molecular, como actividad enzimática o de unión de proteínas. - **Componentes Celulares:** Define las ubicaciones subcelulares donde ocurren los procesos, como el núcleo o la mitocondria. - **Uso en Investigación:** GO es fundamental en estudios de análisis de expresión génica, en los cuales ayuda a agrupar genes de acuerdo con sus funciones, facilitando así el análisis de datos transcriptómicos y otros datos ómicos. La estandarización de términos permite comparar resultados entre experimentos y desarrollar análisis de enriquecimiento (como GSEA) para detectar patrones biológicos. 2. **Disease Ontology (DO)** - La Disease Ontology (DO) clasifica enfermedades mediante términos estandarizados que representan distintos tipos de patologías, agrupandolas según su origen, tejido afectado o mecanismos subyacentes. Se organiza jerárquicamente, desde condiciones generales hasta enfermedades específicas, y se vincula con bases de datos como OMIM (Online Mendelian Inheritance in Man) y SNOMED CT. - **Uso en Investigación:** Permite explorar correlaciones entre genes y enfermedades, facilitando la integración de datos genómicos con perfiles de enfermedades específicas. Es crucial en estudios de medicina de precisión, ya que permite correlacionar variantes genéticas con manifestaciones clínicas de manera estandarizada. 3. **Phenotype Ontology (PO)** - La Phenotype Ontology (PO) cubre términos que describen fenotipos en organismos. Un ejemplo importante es la Mammalian Phenotype Ontology, que clasifica fenómenos biológicos en mamíferos. Esta ontología facilita el análisis de fenotipos asociados a alteraciones genéticas y ambientales. - **Uso en Investigación:** Es especialmente útil en estudios de genética funcional y modelos animales, ya que permite asociar genes con efectos fenotípicos y explorar relaciones genotipo-fenotipo. En estudios de enfermedades genéticas, permite identificar alteraciones fenotípicas causadas por mutaciones y estudiar sus efectos a nivel molecular y celular. ## BASES DE DATOS DE ONTOLOGÍAS Y SU APLICACIÓN EN EL ANÁLISIS DE ENRIQUECIMIENTO DE RUTAS BIOLÓGICAS ## PRINCIPALES BASES DE DATOS DE ONTOLOGÍAS 1. **Gene Ontology (GO)** - Gene Ontology (GO) es una base de datos que clasifica y estructura conceptos biológicos en tres áreas principales: procesos biológicos, funciones moleculares y componentes celulares. Cada término en GO está estandarizado y organizado en una estructura jerárquica, lo cual facilita el análisis comparativo entre genes de diferentes especies y contextos biológicos. - **Características:** GO utiliza una estructura de red dirigida acíclica (DAG) donde cada término puede tener múltiples relaciones, permitiendo capturar la complejidad de las relaciones biológicas. - **Uso en Investigación:** La base de datos GO es clave en el análisis de enriquecimiento funcional y de expresión génica, especialmente en estudios transcriptómicos, para identificar términos de GO sobre-representados en un conjunto de genes. Esto ayuda a identificar patrones biológicos y a contextualizar resultados experimentales. 2. **Kyoto Encyclopedia of Genes and Genomes (KEGG)** - KEGG es una base de datos que conecta información genómica con rutas metabólicas, funciones moleculares, y enfermedades humanas. KEGG organiza genes y compuestos en rutas biológicas que modelan los procesos metabólicos y moleculares, y asocia estas rutas con enfermedades y fármacos. - **Características:** KEGG incluye varios subdominios, como KEGG PATHWAY para rutas metabólicas y de señalización, KEGG DISEASE para enfermedades, y KEGG DRUG para fármacos y compuestos. - **Uso en Investigación:** KEGG es especialmente útil en estudios de metabolómica y proteómica, así como en el análisis de enriquecimiento de rutas biológicas, ayudando a los investigadores a entender cómo los cambios en la expresión génica afectan las rutas celulares. Además, KEGG es esencial en el diseño de estudios de farmacogenómica y medicina personalizada, donde se exploran interacciones entre genes, fármacos y enfermedades. 3. **Reactome** - Reactome es una base de datos de rutas biológicas enfocada en interacciones moleculares detalladas y redes de reacciones. Sus datos son generados y revisados por expertos, y cubre procesos biológicos desde el nivel de la molécula hasta el sistema completo, incluyendo procesos celulares, señalización y rutas metabólicas. - **Características:** Reactome utiliza un sistema de relaciones anidadas y altamente detalladas, lo cual permite modelar procesos complejos a nivel molecular y celular. La base de datos es abierta y de acceso libre, permitiendo la descarga de datos y su integración en estudios de bioinformática. - **Uso en Investigación:** Reactome es ideal para análisis de redes moleculares y para explorar cómo las alteraciones en las rutas afectan los resultados biológicos, particularmente en estudios de enfermedades complejas. La base de datos se utiliza ampliamente para el análisis de enriquecimiento de rutas, facilitando la interpretación funcional de datos experimentales en transcriptómica y proteómica. ## MÉTODOS DE ENRIQUECIMIENTO DE RUTAS BIOLÓGICAS ### GSEA El análisis de enriquecimiento de conjuntos de genes (GSEA) se desarrolló para ayudar con el análisis e interpretación de las largas listas de genes producidas a partir de experimentos transcriptómicos de alto rendimiento. Al resumir los cambios de expresión génica de todo el genoma en conjuntos de genes (grupos de genes funcionalmente relacionados), un usuario puede obtener **información sobre cómo se ven afectados los procesos y las vías biológicas en las condiciones experimentales probadas.** GSEA ha demostrado su utilidad en **muchas aplicaciones**, incluidos los experimentos de expresión génica de RNA-seq, los estudios de asociaciones de todo el genoma, la proteómica y los estudios de metabolómica. ### Hipótesis subyacente de GSEA: (Un principio en el que se basa el enfoque de GSEA y otros métodos de análisis de enriquecimiento de conjuntos de genes, y **no es ni una hipótesis nula ni una alternativa específica en términos estadísticos**. Además, justifica la estrategia de análisis de enriquecimiento y está en la base de GSEA, mientras que las hipótesis nulas o alternativas son los modelos estadísticos específicos que prueban si ese enriquecimiento es significativo o no.) “Los genes involucrados en un proceso o vía biológica similar (agrupados en conjuntos de genes) están regulados de manera coordinada. Por lo tanto, si una perturbación experimental activa una vía, los genes en el conjunto de genes asociado se regularán positivamente de manera coordinada y **este patrón se puede identificar mediante pruebas estadísticas**. ” ### Puntuación de enriquecimiento: **refleja el grado en el que los genes en un conjunto de genes están sobrerrepresentados en cada extremo de una lista de genes clasificada.** Se ha dedicado una gran cantidad de esfuerzo al desarrollo y evaluación de modelos estadísticos que se utiliza en GSEA. ### Hipótesis Nula Autónoma de GSEA: “Establece que **ningún gen en un conjunto de genes dado se expresa de forma diferencial entre condiciones experimentales.**” Para evaluar esta hipótesis, GSEA utiliza un **método de permutación:** Mezcla o intercambia las etiquetas de fenotipo, que definen la condición experimental de muestras individuales, para generar muchas combinaciones aleatorias de las condiciones. Esto permite probar si **las diferencias observadas en la expresión génica del conjunto son significativas o si podrían haber ocurrido por casualidad.** Este método se enfoca solo en los genes dentro del conjunto bajo análisis, sin considerar el resto de genes, lo cual **aumenta su precisión y fuerza estadística.** Así, es más probable que el análisis rechace la hipótesis nula en caso de que haya enriquecimiento real en la expresión de los genes del conjunto. ### LIMITACIONES: - El **poder estadístico** de la prueba está determinado por el **número de muestras** en el experimento. Cuantas más muestras haya, mayor es la confianza en el resultado, pues permite detectar cambios con mayor precisión. - Si hay **muchos genes con expresión diferencial**, el análisis tenderá a detectar varios conjuntos de genes enriquecidos, ya que hay **muchas diferencias en expresión que podrían agruparse en conjuntos**. Sin embargo, si **pocos genes se expresan diferencialmente**, es probable que también haya **pocos conjuntos de genes significativamente enriquecidos**. La documentación de GSEA recomienda un **mínimo de siete muestras por condición experimental** para obtener resultados estadísticamente confiables. Esto asegura que el análisis tenga suficiente información para detectar patrones de enriquecimiento real. ### Hipótesis Nula Competitiva de GSEA: “Los genes en un conjunto de genes específico se expresan diferencialmente, como máximo, con la misma frecuencia que los genes que no están en ese conjunto. (AZAR)” Para probar esto, se **compara los genes dentro de un conjunto con los genes fuera del conjunto**, calificando conjuntos aleatorios de genes de igual tamaño a un conjunto de genes dado. Este enfoque es útil cuando el número de muestras es bajo, ya que no depende tanto del tamaño de muestra como la hipótesis nula autónoma. Sin embargo, **tiene menor poder estadístico que la hipótesis autónoma**, especialmente cuando se dispone de muchas muestras y los datos cumplen con los supuestos estadísticos del modelo. Este enfoque de **comparar genes dentro y fuera del conjunto probado** rompe la estructura de correlación o relación inherente entre los genes del conjunto. Pero, con esto, se corre el riesgo de perder la información sobre cómo los genes dentro del conjunto tienden a regularse en conjunto. Para mejorar esto, se han desarrollado métodos como **GSVA (Gene Set Variation Analysis)** que tienen en cuenta la variación específica de cada gen en su cálculo de puntuación de enriquecimiento. ### GSEA-InContext Método que intenta mejorar el análisis de enriquecimiento en el contexto de la hipótesis nula competitiva. Su objetivo es hacer el análisis más robusto, sobre todo cuando se busca entender patrones de enriquecimiento en experimentos individuales y comparar estos patrones con otros experimentos. Este método tiene dos objetivos principales: - Identificar conjuntos de genes **comúnmente enriquecidos en una amplia variedad de experimentos**, lo cual puede indicar vías o procesos biológicos que responden de manera similar en muchas condiciones. - Identificar conjuntos de genes que se enriquecen únicamente en un solo experimento en comparación con muchos otros. Esto ayuda a detectar patrones específicos que solo aparecen en determinadas condiciones experimentales y no en otras. ### ENRICHMENT SCORE PLOT Este análisis permite evaluar si un conjunto de genes está significativamente asociado con la condición experimental o fenotipo, sugiriendo que estos genes tienen una función coordinada en respuesta a dicha condición. - **Leading edge subset**: Este subconjunto incluye los genes del conjunto analizado que contribuyen **más a la puntuación de enriquecimiento (ES)**. Son los genes que están agrupados en el extremo de la lista y que tienen una alta correlación con el fenotipo. Son los genes más importantes porque son los que están más enriquecidos en la condición experimental y **pueden tener un papel clave en el proceso biológico estudiado**. - **Puntuación de Enriquecimiento (Enrichment Score, ES):** La puntuación de enriquecimiento (ES) se calcula como la máxima desviación de cero en el gráfico del "random walk". Esta puntuación está indicada con la flecha desde cero hasta el punto máximo de la curva roja e indica cuánto están sobrerrepresentados los genes del conjunto en la lista clasificada y en qué medida están agrupados hacia un extremo de la lista (por ejemplo, si están más al principio de la lista, significa que tienen una fuerte correlación con el fenotipo). - **Genes en el Ranking (Gene List Rank):** La lista de genes en orden, clasificados de acuerdo con su **correlación con el fenotipo de interés** (la condición experimental vs. control). Los genes que están más correlacionados con el fenotipo están hacia un extremo de la lista, mientras que los genes menos correlacionados están hacia el otro. - **Correlación con el Fenotipo:** Dentro del recuadro rosado, se muestra una curva que representa la **correlación de cada gen con el fenotipo**. Los valores más altos en la curva indican que los genes en esa región tienen una fuerte correlación positiva con el fenotipo, mientras que los valores bajos indican una correlación negativa. - **Random Walk:** La línea roja se representa un proceso llamado **"random walk"** que se basa en sumar o restar un valor en función de si un gen en la lista clasificada pertenece o no al conjunto analizado: - Si el gen pertenece al conjunto, se hace un incremento en la curva (es decir, la curva sube). - Si el gen no pertenece al conjunto, la curva disminuye. A medida que avanzamos a través de la lista de genes, el gráfico sube y baja dependiendo de si cada gen pertenece o no al conjunto. ## HERRAMIENTAS VISUALIZACIÓN E INTERPRETACIÓN DE DATOS g: Plataforma en línea para el análisis funcional y la anotación de genes, diseñada para ayudar en la interpretación de listas de genes derivadas de experimentos ómicos. Combina múltiples bases de datos para realizar análisis de enriquecimiento y encontrar asociaciones entre genes y funciones biológicas o rutas metabólicas. Aquí te explico más sobre sus características y aplicaciones. ### g:PROFILER Permite ingresar una lista de genes de interés y analiza su enriquecimiento en términos de ontología génica, rutas biológicas, enfermedades y más. Esto ayuda a identificar funciones y procesos biológicos destacados entre los genes estudiados. - **Integración de Múltiples Bases de Datos:** Integra datos de Gene Ontology (GO), KEGG, Reactome, y bases de datos de enfermedades y fenotipos, permitiendo un análisis completo desde una sola plataforma. También incluye bases de datos de proteínas y variantes. - **Proporciona gráficos y tablas que facilitan la interpretación de los resultados**, así como herramientas para generar diagramas de redes y visualizar cómo los genes se relacionan con términos específicos. Y resultados se pueden ajustar y descargar en diversos formatos para su uso en herramientas adicionales o para crear presentaciones y reportes. - **Admite datos de más de 400 especies, lo que lo hace adecuado para estudios comparativos y multi-especies.** - **Puede analizar datos -ómicos y estudios de asociación genética**, identificando funciones clave y rutas biológicas implicadas. - **Ayuda a descubrir asociaciones entre genes y fenotipos o enfermedades**, permitiendo un análisis profundo en contextos médicos y de genética clínica. ## El eje x representa los términos funcionales que se agrupan y codifican por colores según las fuentes de datos. ## El eje y muestra los valores P de enriquecimiento ajustados en una escala logarítmica negativa, es decir, la significancia estadística. ## Todo lo que no esté disponible se muestra en gris. ## Todo lo que seleccione aparece en la tabla de abajo, por eso es un gráfico interactivo! ## Los resultados se pueden descargar en diferentes formatos. ## Version: e111_eg58_p18_f463989d ## Date: 4/11/2024, 22:51:00 ## Organism: hsapiens ## Color coded evidence codes for Gene Ontology ## inferred from experiment (IDA, IPL, IMP, IGL, IEP) ## Direct assay (IDA), Mutant phenotype [IMP] ## Genetic interaction [G, Physical interaction IP ## inferred from High Throughput Experiment (HDA, HMP MOI, HEPE ## High Throughput Direct Assay (HDA), High Throughput Mutant Phenotype HMP ## High Throughput Genetic interaction [HGI, High Throughout Expression pistem HEP ## Traceable author (TAS), Non-traceable author (NAS), Intered by curator ## Expression pattern JEP Sequence or structural selarity (155) Genomic contextG ## Sequence Model [ISM, Sequence Alignment (ISA), Sequence Onhology 50 ## Biological aspect of ancestor BA), Rapid divergence [RD ## Reviewed computational analysis (RCA), Electronic annotation BEA ## No biological data (ND), Not annotated or not in background (NA ## Colors for p-value scale ## Term size: cantidad de genes asociados al término. ## Query size: cantidad de genes en la consulta original. ## Overlap size: cantidad de genes en común entre la consulta y el término. ## Domain size: el tamaño total del dominio o conjunto de genes en la base de datos. ## JERARQUÍAS DE GENE ONTOLOGY PARA: - Gene Ontology: Molecular Function - Gene Ontology: Biological Process - Gene Ontology: Cellular Component ## BIBLIOGRAFÍA: - Schuurman N, Leszczynski A. Ontologies for bioinformatics. Bioinform Biol Insights. 2008 Mar 12;2:187-200. doi: 10.4137/bbi.s451. PMID: 19812775; PMCID: PMC2735951. - The Gene Ontology Consortium, The Gene Ontology Resource: 20 years and still GOing strong, Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D330-D338, https://doi.org/10.1093/nar/gky1055 - Rani K Powers, Andrew Goodspeed, Harrison Pielke-Lombardo, Aik-Choon Tan, James C Costello, GSEA-InContext: identificación de patrones nuevos y comunes en experimentos de expresión, Bioinformatics, Volumen 34, Número 13, julio de 2018, Páginas i555-i564, https://doi.org/10.1093/bioinformatics/bty271