APUNTES TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS PDF
Document Details
Uploaded by Deleted User
Universidad Complutense de Madrid
2021
Jorge Fernández Méndez,Juan Manuel Vega Melero, Juan Manuel García Segura
Tags
Related
- Tecnologías de la Información en la Cadena de Suministro (PDF)
- Introductory Lecture on Functional Genomics PDF
- Introduction aux Technologies Omiques - PDF
- Bioinformática: Bases de Datos (PDF)
- Lecture 7: The World of Omics - Transcriptomics and Metabolomics PDF
- Apuntes Técnicas de Análisis y Tecnologías Ómicas PDF
Summary
These are notes from lectures on techniques of analysis and omics technologies. The course was taught during the 2020/21 academic year, at the Universidad Complutense de Madrid, a master's level course on Industrial and Environmental Biotechnology. The notes cover topics such as genomic technologies, omics technologies and associated analysis.
Full Transcript
APUNTES TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Master en Biotecnología Industrial y Ambiental Curso Académico 2020/21 Jorge Fernández Méndez Juan Manuel Vega...
APUNTES TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Master en Biotecnología Industrial y Ambiental Curso Académico 2020/21 Jorge Fernández Méndez Juan Manuel Vega Melero. Juan Manuel García Segura. Importante. El siguiente documento se corresponde con las anotaciones realizadas durante las clases teóricas. Si bien el texto y el contenido escrito son en su práctica totalidad propios, pueden existir recursos gráficos y referencias empleadas por los docentes de la asignatura. Estos apuntes son para uso interno dentro de la universidad complutense. Es responsabilidad individual utilizarlos del modo pertinente. TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez ÍNDICE DE CONTENIDOS 1. Introducción a las tecnologías ómicas..................................................................................... 5 1.1 Ingeniería Genética............................................................................................................... 5 1.2 Concepto de tecnología ómicas......................................................................................... 10 1.2.1 Genómica.......................................................................................................................... 11 2. Genómica estructural............................................................................................................... 12 2.1 Elaboración de mapas genéticos y marcadores moleculares.......................................... 12 2.2 Tipos de marcadores moleculares..................................................................................... 13 2.3 Técnicas de secuenciación NGS (Next Generation Sequence)........................................ 15 2.4 Metodologías de Alineamiento y aplicaciones.................................................................. 20 2.5 Análisis bioinformático. Anotación estructural y señalización....................................... 21 2.6 Mapas genéticos................................................................................................................. 22 2.7 Selección de genes candidatos e identificación de genes............................................... 27 2.8 Estudios globales de asociación (GWAS) (Genome Wide Association Studies)............ 28 2.9 Limitaciones en la identificación genómica...................................................................... 32 3. Genómica comparada............................................................................................................... 34 3.1 Introducción a la genómica comparada............................................................................ 34 3.2 Características básicas estructurales en genomas procariotas y eucariotas................ 34 3.3 Bases de datos genómicas y comparación de secuencias.............................................. 38 4. Genómica Funcional................................................................................................................. 42 4.1 Fundamentos de la genómica funcional............................................................................ 42 4.2 Técnicas para el análisis global de la expresión.............................................................. 42 4.4Análisis de la expresión génica. Hibridación in-situ a mRNA y genes reporteros.......... 52 4.5 Genómica funcional inversa. Modificaciones genéticas.................................................. 53 5. Epigenómica............................................................................................................................. 57 5.1 Definición de epigenética y epigenómica.......................................................................... 57 5.3 Cartografiado del epigenoma............................................................................................. 62 5.4 Bases de datos epigenómicos y navegadores de genomas............................................ 63 6. Genómica sintética................................................................................................................... 65 ii TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez 6.1 Introducción y concepto de genómica sintética............................................................... 65 6.2 Diseño y ensamblaje del genoma de Mycoplasma mycoides.......................................... 65 6.3 Síntesis de un cromosoma artificial para levaduras......................................................... 67 7. Edicción genómica con CRISPR-Cas9.................................................................................... 72 7.1 Ingeniería genómica............................................................................................................ 72 7.2 Sistema CRISPR/Cas........................................................................................................... 75 7.3 Aplicabilidad de CRIPSR y mejoras................................................................................... 79 Tecnologías ómicas y técnicas de análisis............................................................................. 80 8. Espectrometría de masas......................................................................................................... 81 8.1 Introducción a la espectrometría de masas...................................................................... 81 8.2 Espectrómetros de masas. Metodologías de ionización.................................................. 83 8.3 Parámetros de un espectro de masas y MS de proteínas................................................ 89 8.4 Tipos de analizadores en MS.............................................................................................. 93 8.5 Sistemas MS/MS de espectroscopía en tándem............................................................. 100 9. Técnicas de separación cromatográfica............................................................................... 101 9.1 Técnicas cromatográficas. Conceptos básicos y clasificación..................................... 101 9.2 Análisis cuantitativo.......................................................................................................... 106 9.3 Cromatografía de gases (GC)........................................................................................... 107 9.4 Cromatografía de líquidos (LC)........................................................................................ 114 9.5 Electroforesis capilar........................................................................................................ 119 9.6 Acoplamiento de técnicas cromatográficas / electroforéticas a MS.............................. 123 10. Electroforesis en geles de poliacrilamida (PAGE).............................................................. 138 10.1 Introducción a las técnicas de PAGE............................................................................. 138 10.2 Electroforesis bidimensional.......................................................................................... 143 11. Proteómica............................................................................................................................ 145 11.1 Introducción a la proteómica.......................................................................................... 145 11.2 Identificación de péptidos. (Huella peptídica y fragmentación)................................... 146 11.3 Proteómica dirigida......................................................................................................... 149 11.4 Microarrays de proteínas................................................................................................ 150 11.4 Búsqueda en bases de datos (MASCOTT)..................................................................... 151 11.5 Preparación de muestras y fraccionamiento celular.................................................... 152 10.6 Proteómica de expresión diferencial............................................................................. 155 11.7 Aplicaciones de la proteómica....................................................................................... 158 12. Resonancia magnética nuclear y de Spin electrónico....................................................... 162 12.1 Introducción a la resonancia magnética nuclear.......................................................... 162 12.2 Marco teórico y fenomenología de la resonancia magnética nuclear......................... 164 12.3 Procesamiento de la señal FID....................................................................................... 175 iii TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez 12.4 Otros fenómenos en RMN............................................................................................... 177 12.5 Resonancia Magnética bidimensional (2D-RMN).......................................................... 183 12.6 Aplicaciones de la RMN.................................................................................................. 186 13. Metabolómica........................................................................................................................ 188 13.1 Introducción a la metabolómica..................................................................................... 188 13.2 Análisis de la componente principal (PCA)................................................................... 190 13.3 Ejemplo práctico paso a paso de un PCA..................................................................... 193 14. Citómica: Citometría de flujo y microscopía co-focal........................................................ 202 14.1 Introducción a la citómica.............................................................................................. 202 14.2 Citometría de flujo........................................................................................................... 202 14.3 Microscopía confocal...................................................................................................... 211 iv TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez 1. Introducción a las tecnologías ómicas 1.1 Ingeniería Genética Definida como la rama de la genética que aborda la manipulación del material genético. Consiste en el conjunto de técnicas de manipulación del DNA para la creación de nuevas combinaciones génicas por recombinación in vitro (tecnología del DNA recombinante) y su transferencia a sistemas celulares capaces de expresarla. La ingeniería genética se sostiene sobre los conocimientos sobre mecanismos de recombinación y genética bacteriana, química y estructura de DNA y RNA, enzimología del DNA (ligasas, polimerasas y enzimas de restricción), mecanismos de replicación, transcripción inversa del RNA, así como el desciframiento del código genético y la química de proteínas. 1.1.A DNA Recombinante. Se corresponde con los fragmentos de DNA obtenidos por la unión de dos fragmentos pertenecientes a organismos distintos y su unión/inclusión en un vector de clonación (molécula de DNA capaz de replicarse). El empleo de enzimas de restricción permite el corte en secuencias concretas de DNA, las cuales son reconocidas, así mismo la unión entre fragmentos de DNA tiene lugar por complementariedad de bases y la acción de una ligasa. 1.1.B DNA Recombinante. Se corresponde con los fragmentos de DNA obtenidos por la unión de dos fragmentos pertenecientes a organismos distintos y su unión/inclusión en un vector de clonación (molécula de DNA capaz de replicarse). El empleo de enzimas de restricción permite el corte en secuencias concretas de DNA, las cuales son reconocidas, así mismo la unión entre fragmentos de DNA tiene lugar por la acción de una ligasa y/o complementariedad de bases. Dependiendo del tipo de enzima de restricción, los extremos del DNA cortado serán romos o cohesivos, permitiendo así la unión precisa entre los fragmentos. 5 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez 1.1.C Enzimología. Existen distintos tipos de enzimas involucradas en la construcción de material genético recombinantes. Existen múltiples tipos de enzimas involucradas. Las nucleasas permiten el corte de la cadena de DNA por ruptura de los enlaces fosfodiéster. Puede ser Exo- o Endo- nucleasas, así como cortar en hebras sencillas o dobles. Las fosfatasas alcalinas son enzimas capaces de hidrolizar los grupos fosfato. Las polimerasas permiten la síntesis de nuevos fragmentos de DNA, copiando la información contenida en una hebra por síntesis de la hebra complementaria. El fragmento Klenow es una modificación de la DNA-Pol I de E.Coli , consistente en una polimerasa truncada, capaz de polimerizar en dirección 5’-3’, pero carente de la actividad exonucleasa 5’-3’. Las recombinasas son enzimas capaces de eliminar o insertar fragmentos de DNA flanqueados por secuencias concretas. Reconocen secuencias específicas marcadas y pueden eliminarla y unir nuevamente la hebra de DNA. (e.g. El sistema loxP es un ejemplo de recombinasas, permitiendo la integración de genes, así como la eliminación o la inversión de fragmentos). 1.1.D Clonación y vectores de clonación. Consiste en el mantenimiento y replicación del DNA recombinante dentro de un sistema celular. La integración del sistema celular pasa por su introducción en una célula huésped (procariota o eucariota), así como su integración en el DNA cromosómico o en elementos extra-cromosómicos, generalmente plásmidos. La molécula de DNA transportadora del inserto de DNA de interés, se denomina como vector de clonación. El organismo capaz de replicar el vector de clonación y expresar el inserto de interés se denomina como organismo hospedador. Todo vector de clonación debe contar con una serie de partes esenciales, las cuales permiten la introducción del fragmento de DNA (sitios de restricción), la copia del vector en el organismo hospedador (origen de replicación), así como la identificación de los organismos transformados que han integrado y expresado el vector. Así mismo, deben permitir una recuperación sencilla del DNArc clonado. 6 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez La selección de células transformadas no solo basta con la inclusión de un marcador en el vector de clonación (generalmente resistencia a antibióticos). (La inclusión de un plásmido o vector de clonación carente del inserto confiere resistencia sin contener el fragmento de interés). Es por ello que se precisan sistemas que reporten la expresión del fragmento de interés. Tipos de Insertos y vectores de clonación. Los fragmentos de DNA a integrar pueden tener muy diferentes orígenes (fragmentación física de DNA, fragmentos de DNAc, fragmentos obtenidos por PCR etc.), así como diferentes tamaños. En función del tamaño del fragmento de DNA a clonar / expresar, se emplean diversos sistemas de clonación / expresión. Vectores de expresión. Así mismo, cuando el interés radica no en clonar el inserto de material genético, sino en su expresión en el organismo, se emplean vectores de expresión. Estos sistemas incluyen una serie de elementos que permiten la expresión de las proteínas codificadas por el gen de interés. Precediendo (extremo 5’) el fragmentos de interés debe existir un promotor, una región que permite la expresión de las proteínas codificadas. Los promotores. Dependiendo de la intensidad de expresión del promotor, existirá una mayor o menor expresión génica. Al final del gen/genes a expresar, debe existir una secuencia de terminación (codones de terminación). Esta secuencia permite terminar la traducción del gen y liberar la proteína al medio. A mayor “fuerza” del terminador, mayor expresión de la proteína. 7 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez Así mismo, existen otras secuencias capaces de regular la expresión mediante el control de la afinidad de los ribosomas y los factores de transcripción o las secuencias de terminación de la transcripción (permitiendo la liberación del complejo ribosoma-factores). La distancia entre la región promotora y el fragmento de DNA de interés también juega un papel clave en la correcta expresión del gen/genes de interés. 1.1.E Clonación en células animales. La introducción de material genético en células animales posee una mayor complejidad que en procariotas, requiriendo el empleo de técnicas específicas de clonación. La introducción de material genético ajeno se denomina transfección. La transfección puede ser mediada por: métodos físicos, métodos químicos, mediada por virus o incluso por DNA empaquetado en bacterias (bactoinfección). Así mismo, la integración del DNA puede ser transitorio (el inserto no se integra en el genoma del organismo, perdiéndose tras la división celular) o estable ( el inserto se integra en el genoma del organismo, replicándose tras la división celular). La transferencia mediante liposomas (introducción del material genético en vesículas lipídicas con carga opuesta a la de la membrana capaces de fusionarse con la misma), la 8 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez electroporación o el bombardeo con partículas recubiertas de DNA externo son técnicas habituales. Del mismo modo que con bacterias, para la selección de transformantes, deben emplearse sistemas de marcadores. Estos pueden ser la identificación por la eliminación de genes no dominantes que dejan de expresarse, la introducción de genes dominantes o la inclusión de marcadores de resistencia a antibióticos. 1.1.F Clonación en células vegetales Las células vegetales suponen una importante fuente de obtención de productos para uso humano. La diferenciación de tejidos en plantas presenta un mayor grado de plasticidad en los procesos de desarrollo que en los animales. (A partir de ciertos tejidos o células es posible la regeneración de la planta entera a partir del cultivo celular en las condiciones adecuadas). La ingeniería genética aplicada a organismos vegetales tiene un largo recorrido, existiendo multiplicidad de técnicas, destinadas a la modificación de los genomas vegetales. Las nuevas técnicas de edición permiten la modificación de regiones específicas del genoma. Técnicas de transformación. La transformación de células vegetales puede llevare a cabo por métodos físicos (bombardeo de partículas recubiertas de DNA) o biológicos (transformación con Agrobacterium). Algunas bacterias del género Agrobacterium. poseen un plásmido capaz de pasar a las células vegetales. De este modo la introducción de un plásmido (Ti o Inductor de tumoración) con el inserto de DNA objetivo en las bacterias, permitiendo la posterior introducción del DNA de interés 9 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez en las tumoraciones generadas por la infección bacteriana de las plantas. De modo equivalente al resto de células, se precisa de un sistema de identificación de transformantes (gen reportador). Habitualmente suele emplearse la GFP (Green Fluorescent Protein), permitiendo identificar por fluorescencia los organismos transformados. Debido la totipotencia de las células vegetales, resulta posible la modificación genética de un reducido número de células mediante biobalística, y posterior desarrollo del organismo vegetal completo mediante la inducción del crecimiento y diferenciación celular empleando medios de cultivo específicos. 1.1.G Aplicaciones de la Ingeniería genética. La ingeniería genética abre un vasto horizonte de posibilidades, desde el desarrollo de cultivos con una mayor resistencia o producción de determinadas vitaminas, hasta la producción de equipos de diagnóstico basados en la purificación de biomoléculas obtenidas por recombinación genética. La producción de hormonas humanas y fármacos han sido los principales campos de aplicación de la ingeniería genética en la actualidad. No obstante existen importantes aplicaciones industriales de la misma, especialmente en la manipulación de microorganismos para su empleo a modo de biofactorias (bioplásticos, biopolímeros, biocombustibles etc.) 1.2 Concepto de tecnología ómicas. Las tecnologías ómicas (genómica, proteómica, metabolómica, transcriptómica etc.), agrupan a un conjunto de técnicas del campo de la biología basadas en la obtención masiva de un elevado número de datos. E.j Las tecnologías de secuenciación masiva son uno de sus principales exponentes. Las tecnologías ómicas se encuentran estrechamente ligadas al dogma central de la biología molecular, siendo cada una de ellas conjuntos de herramientas que permiten el estudio y obtención de un elevadísimo número de datos sobre procesos biológicos. El 10 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez desarrollo paralelo de la bioinformática ha permitido el tratamiento e interpretación de los datos obtenidos ofreciendo una visión global de los procesos biológicos y su interrelación. Siendo la conexión entre ambas disciplinas sinérgica, precisando la una de la otra. 1.2.1 Genómica. La genómica es aquella disciplina de la genética que estudia el contenido, organización, función y evolución de la información genética contenida en un genoma completo. Su finalidad es el conocimiento detallado de las funciones biológicas codificadas en los genomas, así como su evolución. Concepto de genoma. Se considera genoma al conjunto de genes, secuencias reguladoras e información contenida en las regiones no codificantes perteneciente a un organismo dado. Debido a la complejidad de la disciplina, la genómica se encuentra dividida en tres ramas principales: genómica estructural, genómica funcional y genómica comparada. 11 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez 2. Genómica estructural La genómica estructural encuentra su origen en el desarrollo de técnicas para la obtención masiva de información necesaria parala secuenciación completa de genomas. Consiste en el estudio de la estructura del genoma, englobando su cartografía y determinando su secuencia. Este conocimiento se recoge en los denominadas mapas genéticos. La determinación de la estructura de un genoma requiere de múltiples elementos. La caracterización física del genoma completo, la localización de los genes en los cromosomas, la elaboración de mapas genéticos y físicos, y finalmente su secuenciación. La secuenciación completa de un genoma no implica su determinación estructural. Una vez obtenida la secuencia deben estudiarse los genes en la misma así como otras regiones de interés. En la actualidad el desarrollo de la bioinformática ha permitido la simplificación e estas tareas en gran medida. 2.1 Elaboración de mapas genéticos y marcadores moleculares. El primer paso para la elaboración de mapas genéticos consiste en la descripción de un elevado número de marcadores moleculares y estudiar su relación entre sí mediante la identificación de ligamientos entre ellos. Marcador molecular. Entidades genéticas que manifiestan polimorfismo (existen variantes) y puede heredarse de forma mendeliana. Consisten en aquellas secuencias de DNA que pueden determinarse mediante el cruzamiento entre individuos con caracteres conocidos y distintos. Se emplean como fragmentos de referencia para seguir la transmisión de una región cromosómica entre generaciones. Así mismo, un marcador molecular no es específicamente un gen, sino una secuencia de DNA. Puede ser tanto un gen, como un fragmento de este, como una secuencia no codificante. Estas regiones denominadas marcadores moleculares, funcionan como “señales” o balizas de indicación en el cromosoma, permitiendo la posterior ubicación relativa en el genoma de otras regiones. E.j La región cromosómica de color de ojos y la región de color de pelo consideradas como marcadores moleculares. El ligamiento entre marcadores moleculares implica una herencia conjunta de ambos marcadores. Este fenómeno sucede generalmente por proximidad de los fragmentos en el cromosoma, transmitiéndose conjuntamente. De este modo, la identificación de un marcador molecular ligado a uno o varios genes implicará la presencia de dichos genes en el organismo. Inicialmente el mapeo del genoma se realizaba mediante tinción diferencial (química) de los cromosomas, obteniendo un patrón bandeado que permitía ubicar distintas regiones en el mismo. Posteriormente al cruzamiento entre individuos con diferencia entre al menos dos caracteres permite el estudio de la distancia relativa (definida en función de la frecuencia 12 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez en los individuos recombinados en la F2), definiendo el mapa genético. Posteriormente el uso de marcadores moleculares permite identificar la distancia real entre dichos genes, obteniendo un mapa físico de los marcadores. Cabe destacar que pese a la relevancia de los mapas físicos y genéticos, el auge de las tecnologías de secuenciación masiva y tratamiento de datos han simplificado en gran medida su elaboración. Si bien en el pasado debía partirse de la identificación de marcadores y elaboración de un mapa, para posteriormente caracterizar un genoma, en la actualidad suele partirse de la secuenciación completa, para posteriormente caracterizar las distintas regiones. 2.2 Tipos de marcadores moleculares. Aunque existen múltiples marcadores moleculares, existen tres tipos principales de gran relevancia. 2.2.1 RFLP (Restriction Fragment Length Polymorphisms). Acrónimo de Polimorfismo de Longitud en los Fragmentos de Restricción. Este tipo de marcadores moleculares derivan de la variación en el tamaño de los fragmentos digeridos mediante enzimas de restricción. Consisten en el polimorfismo de una región del DNA reconocida por una enzima de restricción específica; el polimorfismo en una diana de restricción. 13 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez De este modo, tras la digestión del DNA con una enzima de restricción, se obtendrán fragmentos de una mayor o menor longitud, permitiendo identificar la variante del marcador presente. Permiten el análisis simultáneo de Proceso costoso y requiriendo un elevado número de loci (búsqueda del elevadas cantidades de DNA. Además marcador en múltiples ubicaciones). pueden requerir marcaje previo. Marcadoras codominantes y con Detectan una reducida parte del resultados precisos. polimorfismo total (aprox. 20%). 2.2.2 SSLP (Polimorfismos en la longitud de secuencias simples) o VNTR (repeticiones en tándem de número variable). Este tipo de marcadores consisten en series de secuencias repetidas en tándem cuya longitud puede variar debido a la variación del número de repeticiones. Son secuencias generalmente no codificantes, consiguientemente no están sujetos a presión selectiva y por tanto son hipervariables. Debido a su multialelismo; existen múltiples variantes para cada marcador, en función de su número de pares de bases y repeticiones se distinguen dos tipos. Minisatélistes. Consisten en unidades < 65 bp con repeticiones de 5-50 veces. Tienden a acumularse en las regiones teloméricas, además de presentar una mayor complejidad de análisis que el de los microsatélites. Siendo de menor utilidad para su empleo como marcadores. (La imagen representa las copias de la hebra codificante de DNA en la copia de cada cromosoma, en un organismo diploide.) 14 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez Microsatélites (SSR). Consisten en unidades de 2-5 bp con una repetición máxima de 45 veces. Los distintos alelos del marcador se distinguen por el número de repeticiones de una secuencia de nucleótidos concretas, siendo también altamente polimórficos (muy variables). Gracias al empleo de cebadores específicos (conocida la secuencia), pueden amplificarse mediante PCR los fragmentos donde se ubica el marcador, mediante el estudio del tamaño de los fragmentos amplificados puede identificarse el alelo correspondiente. Se encuentran ampliamente distribuidos por todo el genoma, en contraste con los minisatélites, dotándolos de una mayor utilidad a modo de marcadores. Alto grado de polimorfismo (elevado Requieren conocimiento previo de la número de variantes) secuencia para la amplificación por PCR. Marcadores altamente repetibles y Precisan de marcaje y empleo de con codominancia. técnicas de secuenciación. 2.2.2 SNP (Polimorfismo de un único nucleótido). Consisten en sustituciones de una única base por otra en una secuencia nucleotídica determinada. Los SNP son altamente frecuentes, encontrándose a razón de 1:500-1000 bp, encontrándose ampliamente distribuidos a lo largo de todo el genoma. Dada su naturaleza, existen cuatro posibles polimorfismos para cada SNP. A nivel fenotípico muchas de ellas son mutaciones silenciosas, debido a su presencia en regiones no codificantes o al reemplazo de una base por otra que codifican el mismo aminoácido. Distribuidos abundantemente en Caracterización y aislamiento todo el genoma. Poseen codominancia. costosos Estables y detectables mediante Bajo contenido de información para múltiples métodos. un único SNP. 2.3 Técnicas de secuenciación NGS (Next Generation Sequence). Las técnicas NGS reemplazan el método automático de Sanger. Este consiste en la amplificación del DNA a estudiar, su escisión en múltiples fragmentos (normalmente ordenados). Posteriormente se ceban con un primer específico, y se reparten en cuatro alícuotas idénticas. En cada alícuota se produce la extensión por polimerización de la hebra complementaria, en presencia de desoxiribonucleótidos carentes del grupo 3’ OH y marcados con fluoróforos. De este modo la extensión de cada fragmento termina al llegar a 15 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez dicha base. Finalmente, mediante electroforesis en capilar, se procede a la separación de los distintos fragmentos en base a su longitud, registrando a la salida del capilar mediante la excitación de los fluoróforos. Así puede registrarse con gran precisión la secuencia de bases en correspondencia con el tamaño de cada fragmento en orden. No obstante el método de Sanger es costoso y requiere largos tiempos de determinación. Actualmente se emplea para la secuenciación de fragmentos de reducida longitud o para confirmar los resultados de otras técnicas. Como evolución de este, surgen las técnicas de secuenciación de segunda generación. Su principal ventaja es la capacidad de procesar millones de lecturas en paralelo. Para ello, se basan en el empleo de bibliotecas de DNA, las cuales dependen de la plataforma empleada. (Cada empresa de secuenciación emplea una plataforma distinta). Las técnicas NGS se basan en la combinación única de protocolos específicos basadas en métodos de preparación del material genético, secuenciación y tratamiento de la información obtenida y el alineamiento y ensamblaje de los dato. Dependiendo de los pasos específicos seguidos por cada estrategia de NGS existirán una serie de puntos fuertes y débiles de cada técnica. No obstante, todas ellas se basan en una serie de principios básicos: Fragmentación y adaptación de la muestra de DNA, secuenciación de los fragmentos y lectura de la información y tratamiento de los datos. 2.3.1 Plataforma Illumina como ejemplo de NGS. Preparación de la muestra. Posteriormente el DNA inicial se fragmenta, añadiendo mediante PCR a cada fragmento formado dos extremos, denominados adaptadores. Preparación del molde. (Template) Se define como molde al material genético de partida que se desea caracterizar una vez procesado para comenzar la secuenciación. Inicialmente el DNA a secuenciar se extrae y purifica de la muestra objetivo. Después, se clona un elevado número de veces, escindiéndose en fragmentos aleatorios. Estos fragmentos aleatorios se marcan en los extremos con unas secuencias adaptadoras. Posteriormente mediante amplificación de ciclo reducido, se emplean primers específicos para las regiones adaptadoras, añadiendo a los extremos del DNA marcado dos regiones adicionales en cada extremo; un índice y una región de complementariedad. 16 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez Los fragmentos de DNA molde marcados con los adaptadores se introducen en una célula de flujo; un conjunto de canales microfluídicos con celdillas individuales (arrays), donde se encuentran inmovilizadas las parejas de oligo complementarios a las regiones marcadas inmovilizados. Por complementariedad el fragmento se asocia con uno de los oligos inmovilizado, posteriormente se polimeriza la hebra complementaria, permitiendo el lavado el fragmento inicial, obtenemos así el fragmento de DNA inmovilizado sobre la superficie de la célula de flujo. Se emplean técnicas de amplificación isoterma. Esta hebra complementaria es presenta un segundo oligo en su extremo libre, capaz de hibridarse con el segundo oligo inmovilizado y volver a polimerizarse. De este modo rápidamente la celdilla completa queda cubierta con un conjunto de clones de la hebra complementaria y directa del fragmento inicial de DNA (formación de clústeres). Tras este paso, se produce el lavado de las hebras complementarias y se bloquean los oligos libres. Tras obtener los clústeres de hebras, comienza la secuenciación. En el caso de la plataforma Illumina esta tiene lugar por síntesis. Se añade un primer específico para la secuenciación de la hebra 3’-5’ y una mezcla de nucleótidos marcados con fluorocromos, los cuales al polimerizar en presencia de radiación emiten una señal representativa de cada nucleótido. Durante este proceso, cada clúster de DNA emite un conjunto específico de señales correspondientes a la secuencia del fragmento polimerizado. Tras ello, se lava el fragmento sintetizado. Posteriormente, se indica que se ha realizado la primera lectura añadiendo un primer de indexado, complementario con el primer índice añadido en el extremo 3’, de este modo se polimeriza una pequeña región correspondiente con una secuencia “índice” de la primera lectura. Tras ello, se lava el producto polimerizado y se desprotegen los oligos inmovilizados en el array. Al desproteger los oligos y permitir nuevamente la polimerización, las hebras inmovilizadas hibridan nuevamente con los oligos. Por amplificación en puente el array vuelve a llenarse con un clúster de hebras directas y complementarias. 17 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez En esta ocasión se lavan las hebras directas son lavadas, los oligos libres se bloquean y se procede a repetir el proceso de lectura e indexado de las hebras en dirección complementaria. Finalmente, en cada array de la célula de flujo se habrá obtenido la secuencia de la hebra directa y complementaria del fragmento que lo ha formado. Generándose así un elevadísimo número de datos de la secuencia, correspondientes a cada fragmento introducido en el sistema. Mediante algoritmos de computación, inicialmente se emparejan las secuencias directa y complementaria de cada fragmento secuenciado. Posteriormente la secuencia final del DNA a caracterizar se obtiene por alineamiento de la totalidad de fragmentos, basándose en el posible solapamiento entre distintos fragmentos de DNA formados, la homología en comparación con referencias del genoma completo y bases de datos. El alineamiento de los fragmentos será tanto más complejo cuanto menor sea el tamaño de los mismos, mayor sea el número de estos y menor información disponible exista del genoma de dicho organismo u otros relacionados. Así mismo, el número de copias 18 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez iniciales del material de partida definirá también la posibilidad de que existan fragmentos que solapen en sus extremos, facilitando el alineamiento. Estas tecnologías permiten la secuenciación simultánea de múltiples genomas con una mayor rapidez que los métodos convencionales. No obstante también presentan un mayor ratio de errores. 2.3 Secuenciación por nanoporos. Técnicas de secuenciación de 3ª generación. Consiste en la generación de nanoporos en una membrana (1nm) entre dos compartimentos separados. A través de estos nanoporos se inserta un fluido conductor. El DNA es atraído hacia el nanoporo mediante, posteriormente se deshibridiza, entrando una única hebra a través del nanoporo hacia el interior. Debido a las diferencias fisicoquímicas en las bases nitrogenadas del DNA, el potencial establecido en la membrana varía, pudiendo correlacionarse con la secuencia de la hebra. Para la generación de nanoporos se emplean porinas, así mismo el DNA se deshibridiza por acción de una helicasa. Así mismo, suele emplearse una proteína específica capaz de atraer el DNA hacia la porina. Su principal ventaja es la obtención de secuencias de mayor longitud, facilitando el alineamiento posterior del genoma. Además, el tamaño de los equipos para este tipo de secuenciación es reducido en comparación con el de otras tecnologías. Se trata de una tecnología con un mayor grado de error que las anteriores, no obstante su portabilidad, rapidez y versatilidad la vuelven idónea, especialmente en aplicaciones en campo. 19 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez 2.4 Metodologías de Alineamiento y aplicaciones. 2.4.1 Metodologías de alineamiento. En cualquier técnica de secuenciación, será preciso alinear posteriormente la totalidad de fragmentos de DNA secuenciados para obtener la secuencia total del DNA. Para ello, existen dos aproximaciones principales: emplear un genoma de referencia y el alineamiento de novo. En este segundo caso, el alineamiento puede realizarse de dos modos: de forma secuencial, identificando fragmentos sucesivos clonados de un mismo genoma (metodología tiling path), o de modo aleatorio, identificando al azar clones de fragmentos de un genoma sin orden conocido (metodología shotgun). De modo general los nuevos métodos de secuenciación emplean la segunda aproximación, debido a la posibilidad de alineamiento que ofrecen las nuevas herramientas de bioinformática. 2.4.2 Aplicaciones y limitaciones Entre las múltiples aplicaciones de las nuevas tecnologías de secuenciación se encuentra la posibilidad de secuenciar de novo genomas de organismos antiguos, la resecuenciación (búsqueda de variantes empleando múltiples genomas o regiones de interés pertenecientes a distintos individuos de una misma especie). 20 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez En combinación con otras técnicas, permiten además el estudio y caracterización de marcas epigenéticas, estructura de la cromatina o la clasificación de especies o la realización de catálogos transcriptómicas basados en la expresión de RNAm. ej. Las tecnologías Chip-Seq permiten el estudio de las regiones de interacción del DNA a distintos tipos de proteínas, incluidas las histonas que conforman la cromatina. Se combina escisión del DNA genómico mediante sonicación con la inmunoprecipitación de las proteínas asociadas al DNA a estudiar. Este precipitado se aísla y posteriormente se separan las proteínas de su DNA asociado. La secuenciación de este DNA permite identificar las regiones de interacción con las proteínas precipitadas. Las principales limitaciones de las técnicas NGS se encuentran en su menor fidelidad comparada al método de Sanger, introduciendo errores dependientes de cada plataforma. Así mismo el ensamblado y cartografiado de las lecturas de novo es complejo quedando limitado por el hardware, software y algoritmos de alineamiento empleados en el tratamiento bioinformático. Por ello, la anotación y caracterización funcional de organismos no modelo sigue siendo un reto complejo de abordar. 2.5 Análisis bioinformático. Anotación estructural y señalización. Tras la secuenciación, el análisis bioinformático posterior, permite la anotación del genoma, este proceso consiste en la identificación y señalización de genes así como otras características biológicas. 2.5.1 Identificación de genes codificantes basados en la secuencia. Inicialmente puede analizarse la secuencia en búsqueda de marcos de lectura abiertos (ORF); un codón de iniciación, seguido de al menos 100 codones posteriores cerrado por un codón de finalización. No obstante existen múltiples retos para la identificación de genes mediante esta aproximación. La presencia abundante de intrones, así como el reducido tamaño de los exones vuelve complejo este estudio en eucariotas. Sin embargo, el sesgo de uso de codones específico de cada especie, el estudio de regiones reguladoras 5’ así como las señales de unión exón-intrón (con un reducido número de nt en ellas) son posibles estrategias empleadas para la localización de los genes específicamente en eucariotas. De modo general, existen ciertas regiones conservadas en la gran mayoría de organismos procariotas / eucariotas. En eucariotas, las regiones de poliadenilación suelen ser indicativas de la presencia de RNAm (colas protectoras del RNA). Del mismo modo, la presencia de las islas GC (regiones con alto contenido en GC altamente relacionadas con la codificación en mamíferos), sirve como otro objetivo de búsqueda de potenciales genes. 21 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez Otra posible estrategia es la búsqueda de homologías con bases de datos genéticos. Es posible buscar genes dentro de un genoma secuenciado mediante comparación de la similitud de ciertas secuencias con las de genes ya conocidos. La predicción bioinformática de genes codificantes de proteínas puede realizarse por tanto mediante varias aproximaciones. Métodos ab intio, buscando aquellas regiones susceptibles de ser un gen codificante de proteínas (GenScan, Glimmer, Genmark...) o RNA (tRNAScanSE, snoRNA) Comparación con mRNA analizados con anterioridad o expresados en el tejido (EST, blastn, sim4) Comparación con proteínas (blastx, genewise) Identificación de repeticiones (Repeatmasker, Reputer...) 2.6 Mapas genéticos. 2.6.1 Análisis genético y genómica El análisis genético consiste en la búsqueda e identificación de genes responsables de caracteres. Este puede desarrollarse por dos vías principales: análisis directo e inverso. El primero consiste en conocido un carácter, buscar los genes responsables del mismo. El segundo estudia los caracteres asociados a un gen determinado conocido. De modo general, la búsqueda de caracteres se estudia mediante el análisis de los individuos de una misma familia / especie donde algunos muestran caracteres específicos distintos. La genética directa va del fenotipo al genotipo, mientras que la inversa viaja del genotipo al fenotipo. En la actualidad, el estudio de la relación caracteres- genes se estudia a escala global del genoma. La mayoría de los caracteres no dependen de un único gen, sino que resulta de la expresión conjunta de múltiples genes y sus interacciones. A esta disciplina se la denomina genómica. La principal aplicación de la genómica en biotecnología consiste en la identificación de genes de interés mediante el estudio del genoma en su conjunto. Su división en las áreas de genómica estructural, funcional y comparada se basa en el modo que este estudio se aborda. 22 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez 2.6.2 Marcadores moleculares para la elaboración de mapas genéticos. Marcadores moleculares. El empleo de marcadores moleculares previamente identificados permite la elaboración de mapas genéticos saturados, así como estudios globales de asociación. Estos estudios constituyen herramientas esenciales en la identificación de genes. Antes del surgimiento de las nuevas tecnologías genéticas, los mapas genéticos se elaboraban en base a caracteres, ubicando los distintos caracteres (empleados como marcadores morfológicos) en los distintos cromosomas y a una distancia relativa definida por la frecuencia de recombinación de dos caracteres por cruzamiento, definida en Morgan. El descubrimiento de los marcadores moleculares permitió reemplazar a los caracteres como marcadores en los mapas genéticos. Estos marcadores se emplean como elementos de señalización en regiones concretas del DNA de cada individuo, donde se conoce que existen posibles variaciones entre los individuos. El estudio de estos marcadores se realiza mediante digestión enzimática (enzimas de restricción) del DNA o mediante amplificación por PCR de marcadores específicos. Los principales marcadores genéticos empleados actualmente son los RFLPs (costosos de identificar y analizar), los Microsatélites (mayor sencillez de detección) y más recientemente los SNPs (altamente abundantes y fácilmente detectables por secuenciación masiva de individuos). Inicialmente se trabajaba mediante restricción enzimática, posteriormente el desarrollo de la amplificación por PCR revolucionó la detección de marcadores, especialmente los microsatélites. En la actualidad, el avance en la secuenciación masiva y la implementación de los microarrays para genotipado ha incrementado enormemente la detección y caracterización masiva de microarrays. (Existen microarrays capaces de detectar 106 SNPs en un único individuo). Así mismo, existen múltiples métodos de secuenciación masiva los cuales permiten el estudio de un elevado número de SNPs en regiones específicas del DNA. Entre los más destacados se encuentran las tecnologías de Reduced-representation-library (RRL), Restriction-site-associates DNA sequencing (RAD-seq) o genotyping by sequence (GBS). 23 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez Ligamiento de marcadores moleculares. El cruzamiento entre dos individuos con unos marcadores moleculares determinados puede estudiarse en la herencia genética de la F2. Algunos marcadores, se heredarán de forma conjunta, debido generalmente a su proximidad física en el genoma del individuo. Generalmente, cuanto más próximos están dos marcadores en el cromosoma, mayor posibilidad de ligamiento se encontrará. Debido a eventos de recombinación, algunos individuos pueden no presentar los dos marcadores ligados; el marcador se ha modificado, debido al sobrecruzamiento de dicha región genética con la del cromosoma opuesto. Cuanto más próximos se encuentran los loci en un cromosoma, menos probable es que se produzca la recombinación de estos. Las conclusiones obtenidas de un estudio de marcadores de este tipo pueden reflejarse en forma de mapa genético. Existen fórmulas específicas para calcular las distancias genéticas en función del número de individuos que muestran un marcador concreto, basándose en la probabilidad de los fenómenos de recombinación genética durante el cruzamiento. Esta distancia entre genes suele medirse en centimorgan (cM), la cual representa un 1% de frecuencia de recombinación genética para los marcadores/genes separados dicha distancia, constituyendo la unidad funcional de medida en mapas genéticos. De modo aproximado, un Morgan (M) se corresponde con 1000 bp. Así mismo, algunos marcadores moleculares pueden encontrarse ligados también a genes o regiones del DNA responsables de caracteres específicos. Esta relación se descubre por la identificación inequívoca de ligamiento entre un carácter y un marcador. En muchas ocasiones suele suceder que el propio marcador forma parte de la secuencia del gen (habitual en SNPs) o se encuentra muy próximo al mismo. No obstante, existen múltiples excepciones y peculiaridades, que deben considerarse a efectos de elaborar este tipo de mapas. 24 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez 2.6.3 Mapas genéticos saturados e identificación de genes. Un mapa genético saturado, consiste en el estudio de un elevado número de marcadores moleculares, así como su localización en el genoma del individuo. Estos, permiten la identificación de genes de interés, debido a su asociación de determinados marcadores moleculares. La elaboración de un mapa genético saturado sigue una serie definida de pasos, los cuales permiten la posterior identificación de genes. 1. Identificación o generación de individuos mutantes para algún carácter. 2. Cruzamientos entre individuos mutantes y normales. 3. Identificación de la herencia genética de los individuos, construyendo el mapa genético saturado, incluyendo al carácter de interés. 4. Localización del punto del genoma donde se encuentra la mutación, por referencia a algún marcador presente con el que se pueda correlacionar. 5. Identificación del gen candidato al carácter estudiado en la región donde se presenta su marcador asociado. Un mapa genético saturado por consiguiente se construye mediante el estudio de un elevado número de individuos con caracteres diferentes, obteniendo una enorme cantidad de datos sobre estos en forma de matriz Individuos-marcadores. Existe software específico para el mapeo genético (Mapmaker, Joinmap, Linkem, Mapmanager o Combin). Tras la elaboración de dicho mapa genético, puede estudiarse la correlación entre marcadores concretos y caracteres específicos. Ejemplo. Elaboración de mapas genéticos e identificación de genes responsables de la tolerancia a suelos ácidos (contenido de Al) en cultivares de centeno. Inicialmente, se seleccionan múltiples cultivares de centeno, donde algunos muestran una buena tolerancia al Al, mientras otros son muy sensibles. Posteriormente, se cruza el cultivar más resistente con aquel más sensible. Tras el cruzamiento, se observa en la F1 una tolerancia similar a la del padre, por tanto el carácter de la resistencia será dominante. Tras el retrocruzamiento, en la F2, se observa una distribución entre los indivíduos tolerantes y aquellos sensibles. A efectos de agilizar el estudio, se seleccionan 5 de los indivíduos con mayor tolerancia y 5 de aquellos con mayor sensibilidad, se extraen y mezclan sus DNAs por separado, y se estudian sus marcadores por PCR. Posteriormente se estudia la segregación genética entre los individuos, aquellas bandas (marcadores) distintas entre el bloque de los tolerantes y el de los sensibles, serán potenciales marcadores asociados a la resistencia a la acidez del suelo. 25 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez Un estudio en mayor profundidad entorno a dicha región, permitirá la elaboración de un mapa genético local, con múltiples marcadores en el mismo, los cuales podrán estudiarse con posterioridad para encontrar aquel con una mayor ligación (buscando una correlación inequívoca) al carácter de interés. 2.6.4 Identificación de caracteres cuantitativos. En contraposición a las aproximaciones de genética clásica, la cual es cualitativa, la mayor parte de los caracteres son cuantitativos. Estos son caracteres continuos; cuyos estados son infinitos y no cuantizados. E.j. Un carácter cualitativo es el color rojo o azul de un tomate, en contra un carácter cuantitativo es el contenido concreto o el nivel de producción de un pigmento. Así mismo, la genética cuantitativa a nivel individual presenta un elevado grado de error, siendo por ello que esta se estudia a nivel poblacional. Del mismo modo, el mapeo de caracteres cuantitativos presenta un mayor grado de complejidad que el de los cualitativos. Un concepto clave en genética cuantitativa es la de Quantitative Trait Loci (QTL), un QTL representa la localización concreta de un gen que afecta a un carácter cuantitativo. Todo carácter cuantitativo está modulado por varios QTLs (gen/genes ubicados en dicho loci) además de su correspondiente variación ambiental. Cada QTL presenta una contribución concreta al carácter final. De este modo, un mismo carácter (e.j. Altura de una planta) puede venir regulada por 20 QTLs diferentes, donde múltiples genotipos con una distribución diferente generan un mismo resultado en la expresión del carácter. El desarrollo de los marcadores moleculares debido a sus características intrínsecas (número casi ilimitado, sin influencia ambiental, sencillez de estudio y objetividad) ha permitido desde la década de los 90 el estudio y elaboración de mapas de QTLs. El mapeo de QTLs se realiza generalmente no marcador por marcador, sino que se realiza un Mapeo por intervalos. Donde el estudio de la presencia de un QTL y su efecto se estima en función de los marcadores que flanquean un intervalo concreto entre dos marcadores. Este estudio se realiza analizando la probabilidad de la asociación entre cada intervalo entre los marcadores a estudiar y la expresión cuantitativa de una característica. Dicha probabilidad se mide con una función, denominada LOD score. 26 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez El procedimiento para la elaboración de mapas genéticos para la identificación de genes de interés es equivalente al análisis de caracteres cualitativos, donde en esta ocasión, la matriz de datos en vez de reunir el conjunto de marcadores y el valor cuantizado del carácter (0-1 o múltiples estados finitos), se representa una medida cuantitativa de la expresión de dicho carácter. Determinación del tipo de carácter. A efectos de distinguir si un carácter se expresa de forma cuantitativa o cualitativa, los experimentos de cruzamiento previos permiten elucidar su tipo de expresión. De modo general, los caracteres asociados a QTLs generan una distribución en el carácter en la descendencia, debido a la herencia diferenciada de múltiples genes en distintos QTLs. Por el contrario los caracteres cualitativos suelen heredarse de un modo más abrupto. REFERENCIA ÚTIL -> La base de datos GOLD (Genomes Online Database) recoge información de la práctica totalidad de genomas secuenciados. 2.7 Selección de genes candidatos e identificación de genes. El objetivo último de la elaboración de mapas genéticos es la identificación de genes; regiones candidatas de desempeñar una función biológica. Para la identificación de genes candidatos a presentar una función existen diferentes vías. Antiguamente se realizaba la secuenciación partiendo desde los marcadores cercanos a la ubicación del gen, técnica denominada “paseo cromosómico”. En la actualidad existen distintas metodologías para la identificación de potenciales genes, abordando desde las aproximaciones de genómica directa, como las de la genómica comparativa o funcional. En muchas ocasiones puede recurrirse a la búsqueda de genes basada en la secuenciación completa, no obstante la identificación basada en marcadores sigue siendo relevante, especialmente en aquellos organismos difíciles de secuenciar. La búsqueda de potenciales genes, se realiza mediante la aproximación de gen candidato, esto consiste en la elaboración de mapas genéticos y posterior identificación del gen. Existen tres posibilidades para el gen candidato. Gen candidato biológico, se trata de aquel potencial gen con una función biológica conocida, relacionada con el desarrollo de un carácter de interés. Se correspondería con una aproximación de genómica estructural. Gen candidato posicional, se trata de aquel potencial gen ubicado previamente en la región en la que se ha mapeado (y ubicado) el carácter de interés. Se correspondería con una aproximación de genómica funcional. Gen candidato comparativo, basada en la comparación de genes ya conocidos con potenciales secuencias o genes candidatos. 27 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez EJEMPLO de identificación por aproximación del gen candidato. Se realiza el estudio de la tolerancia a suelos ácidos por el centeno, se realiza una selección de potenciales genes candidatos basados en 3 posibilidades: Una librería de secuencias expresadas en raíz de centeno tratadas con Al, un conjunto de genes ya documentados correlacionados con la tolerancia al Al y un conjunto de genes relacionados con canales de exudación radicular de ácidos orgánicos (secuestrantes de Al). Tras comparar con los resultados de múltiples variedades tolerantes al Al, donde se manifestada una correlación clara con un marcador concreto (Alt1) y la tolerancia, se logra determinar que dicha región, sobre la que se ubica el marcador, corresponde con un gen que codifica para un canal de exudación de ácidos orgánicos. Se comprueba la correlación de expresión de dicho gen candidato identificado (qPCR a distintos tiempos desde la exposición del aluminio, comparando la expresión en t=0 con la expresión en), observando un incremento de su expresión con el tiempo tras la exposición prolongada al aluminio. Finalmente, debe comprobarse que dicho gen es responsable de la tolerancia al Al, para ello puede realizarse un knockout o recurrir a la realización de un transgénico, introduciendo el gen en una variedad sensible. 2.8 Estudios globales de asociación (GWAS) (Genome Wide Association Studies) De modo similar a la elaboración de mapas genéticos, los estudios globales de asociación permiten la identificación de genes a partir de fenotipos. Surgieron como una herramienta para el análisis genético de enfermedades, no obstante en la actualidad se emplean ampliamente para la identificación de genes. Algunas enfermedades (Hemofilia, fenilcetonuria etc…) se expresan como caracteres cualitativos, siendo posible su identificación mediante el análisis de genealogías y su correlación con un único gen. No obstante, otro elevado número de enfermedades se manifiestan como caracteres cuantitativos. La identificación de los múltiples genes implicados se realizaba por mutagénesis y experimentación, identificando normalmente gen a gen aquellas secuencias implicadas. A efectos de resolver esta aproximación, surgen los análisis de poblaciones en lugar de genealogías familiares. Los estudios de poblaciones se basan en la búsqueda de asociaciones entre una enfermedad (carácter) y algún marcador molecular. Para ello se toman elevadas muestras de individuos no emparentados dentro de una población, contrastando una muestra de indivíduos enfermos (portadores del carácter) con una muestra semejante de indivíduos sanos (no portadores del carácter). Debido al elevado número de las muestras y el carácter cuantitativo de la enfermedad la mayoría de los marcadores no mostrarán asociación, no obstante algunos podrían mostrar cierta correlación con el carácter de interés. 28 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez 2.8.1 Desequilibrio de ligamiento. Los GWAS son muy similares a los análisis de cruzamientos, dado que se basan en el estudio del mismo fenómeno, la herencia conjunta de aquellas secuencias próximas en el mismo loci genético. Los mapas genéticos se basan en la realización de cruzamientos y el posterior estudio de la descendencia. Los GWAS analizan los múltiples cruzamientos que ya han tenido lugar a lo largo de las generaciones de una especie. La existencia de este fenómeno en combinación con las nuevas tecnologías genómicas, ha permitido la explotación del principio para el descubrimiento genético. 2.8.2 Bases del desarrollo de los estudios genómicos de asociación. Los estudios genómicos de asociación han logrado establecerse como una metodología fiable debido principalmente al desarrollo de las tecnologías de análisis (NGS, sistemas de genotipado de SNPs, principalmente los microarrays) así como los nuevos métodos estadísticos de análisis. Esta combinación, ha permitido el estudio de la correlación entre uno o varios SNPs dados con un carácter. El proyecto HapMap recoge una enorme base datos sobre casi 15 millones de SNPs en el genoma humano en cuatro poblaciones diferentes. Así mismo, identifica y selecciona aquellos SNPs más “informativos” del genoma humano. Estos serán aquellos donde sus distintas variantes se encuentran más distribuidas en la totalidad de una población. Estos SNPs “representativos” serán aquellos que estadísticamente se encuentran con mayor variabilidad en una población. Estos SNPs representativos se denominan Tag SNPs. 29 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez ! Cabe destacar que los SNPs identificados son generalmente marcadores moleculares que no tienen porque correlacionarse con una función en el gen o una mutación responsable de un carácter. Funcionan sencillamente como marcadores potenciales que asociar a la transmisión / herencia de un determinado carácter de interés. 2.8.3 Bases estadísticas del desarrollo de los estudios genómicos de asociación. Así mismo, ya no solo el desarrollo de la tecnología de microarrays, sino otras metodologías (GBS, RAD-seq etc.) de genotipado han permitió la identificación de un elevado número de SNPs. Una vez obtenida una librería de SNPs pertenecientes a una especie, posteriormente el estudio de la presencia de las variantes de cada SNP en un elevado número de individuos, algunos con una determinada expresión del carácter y otros sin ella, permite la identificación de posibles asociaciones de la presencia de una variante con la manifestación del carácter. La mayor parte de los SNPs no presentarán una asociación significativa, no obstante alguno podría presentarla, siendo por tanto un marcador asociado a un gen responsable. El fundamento estadístico detrás de la asociación de un alelo a un SNP determinado, se define como fuerza de asociación. La Fuerza de la Asociación se calcula en función de las Diferencias Significativas entre las frecuencias alélicas de casos. positivos y controles , definida por el parámetro Odds Ratio (O.R) Cuando más alejado de 1 sea el valor de esta función, mayor será el grado de significación. Así mismo, a efectos de aportar significación al estudio, deben realizarse múltiples réplicas. Generalmente 3 o 5 réplicas del mismo experimento que garanticen la significancia del SNP identificado. En función del grado de significancia establecido, posibles SNPs con cierto grado de correlación podrían descartarse. Además, la asociación con un gen de interés suele venir indicada con la asociación simultánea de múltiples SNPs. IMPORTANTE. Cabe destacar que la distribución y frecuencia de los distintos alelos de los SNPs variarán en gran medida entre poblaciones, es por ello que en todo GWAS deberá tomarse tanto el control positivo como negativo del seno de una misma población. 30 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez EJEMPLO. Estudio de genes involucrados en el desarrollo de la diabetes. Se desarrollo un estudio con algo más de 1000 indivíduos diabéticos y 1000 indivíduos no diabéticos en tres estudios diferentes. Analizándose cerca de 300.000 SNPs en estos indivíduos, se obtuvieron un conjunto de SNPs altamente asociados a la enfermedad. La imagen representa aquellos SNPs de mayor significancia en su asociación con la enfermedad cromosoma a cromosoma. No obstante, pese a su elevada correlación, el valor de la O.R para muchos de estos SNP resulta muy próxima a 1, esto es debido principalmente al carácter cuantitativo de la enfermedad. Al existir múltiples genes involucrados en la enfermedad la asociación no será inequívoca para un único marcador. No obstante, debido al grado de restricción en la significancia de los datos, así como la variabilidad de alteraciones genéticas responsables de la enfermedad, distintas y encontradas en cada individuo, muchos potenciales genes involucrados en la enfermedad podrían quedar no representados. 31 TÉCNICAS DE ANÁLISIS Y TECNOLOGÍAS ÓMICAS Jorge Fernández Méndez Además, la aplicación de GWAS al estudio de enfermedades, ha permitido descubrir como un mismo gen implicado en una enfermedad puede estar simultáneamente implicado en el desarrollo de varias enfermedades. 2.8.4 Aplicabilidad de los GWAS. En lo relativo al genoma humano, la aplicación de GWAS se emplea principalmente para la identificación de genes candidato. Sin embargo, su aplicación a otras especies, especialmente en el ámbito de la biotecnología es múltiple. Además de su empleo para la identificación de genes candidato, en otros organismos pueden emplearse para la selección genómica de una especie. Por ejemplo, la selección de aquellos indivíduos que expresan un conjunto de marcadores correlacionados con una característica de interés. 2.8.6 Pros y contras de los estudios GWAS. Aplicabilidad. Gran cantidad de genes identificados con asociaciones altamente significativas Muchas de esas asociaciones presentan una alta replicabilidad Consisten una potente herramienta para la identificación de rutas de importancia en la manifestación de un carácter dado. Todos los loci identificados juntos abarcan una pequeña parte de esa variación (