Summary

This document discusses genetic improvement in animals, focusing on genomics and sequencing. Topics include various branches of genomics such as structural genomics, functional genomics, transcriptomics, proteomics, and epigenomics. The text also covers projects sequencing genomes across various species and methodologies like PCR and next generation sequencing (NGS).

Full Transcript

TEMA 1. INTRODUCCIÓN A LA GENÓMICA La mejora genética de los animales de interés veterinario comienza cuando se produce la domesticación, cuando el hombre se volvió agricultor y dejó de ser recolector y cazador. En esta fase de domesticación se produjo una modificación genética mediante el control d...

TEMA 1. INTRODUCCIÓN A LA GENÓMICA La mejora genética de los animales de interés veterinario comienza cuando se produce la domesticación, cuando el hombre se volvió agricultor y dejó de ser recolector y cazador. En esta fase de domesticación se produjo una modificación genética mediante el control de la reproducción, consiguiendo cambios en la anatomía, la fisiología y el comportamiento, lo que dio lugar a las especies domésticas que conocemos. Desde finales del siglo XVIII en Europa se producen unas mejoras notables en la agricultura y, además, los bovinos y los pequeños rumiantes se crían pensando en mejorar el engrasamiento, la masa muscular, la precocidad sexual…, por lo que apareció la especialización de las poblaciones, siendo unas lecheras, carniceras…, sentándose las bases para la aparición de las razas. En esta época, comienzan también los primeros libros genealógicos o libros de orígenes donde se realiza un seguimiento de la reproducción, surgiendo también los primeros programas de selección en razas locales. A la par de estas prácticas, los conocimientos científicos van avanzando, siendo importante el experimento de los guisantes de Mendel en 1865 y, más adelante, en 1906, se crea la genética clásica con los nuevos nombres y denominaciones que había introducido Mendel. En 1910 aparece de forma paralela la genética cuantitativa, donde nombran al gen como una entidad estadística para hacer una previsión de un mérito genético de un animal. Posteriormente, en 1950, surge la genética molecular. En 1985 se describe la reacción en cadena de la polimerasa (PCR), donde se pretende recrear en un tubo lo que pasa en el núcleo de la célula, copiando una de las hebras de ADN para generar muchas copias del mismo. Actualmente lo más relevante que está ocurriendo es un análisis masivo de los genomas y se tiene una visión muy restrictiva de la genética mendeliana, donde el estudio se realizaba gen a gen. La genética cuantitativa, trataban al gen como un objeto estadístico ya que un carácter (fenotipo) está bajo la influencia de varios genes, que pueden estar en cromosomas diferentes y tener una influencia mayor o menor del carácter que se estudia. La genética molecular se ha transformado en genómica puesto que esta pretende aprender cómo funciona el conjunto de los genes, puesto que la información del ADN está relacionada, y quiere ver cómo interacciona este conjunto. La genómica se ha beneficiado de muchos adelantos de la biología molecular, robótica, química y computación (generación de algoritmos). Genómica La genómica consiste en el estudio de la organización de genomas completos. Pretende un entendimiento exhaustivo de la estructura y la función de los genes. Además, analiza las interacciones entre genes (y sus productos) y pretende entender las relaciones entre los diferentes sistemas de una célula y su regulación. 1 Se puede dividir en: Genómica estructural. Es la que estudia el ADN cuando se encuentra dentro del núcleo. Genómica funcional. Es la que estudia cuando el ADN sale del núcleo. Además, el sufijo -ómica se aplica para las diferentes partes de la genómica: Transcriptómica. Parte de la genómica que se encarga del estudio de los ARNm (mensajeros). Proteómica. Estudia el conjunto de proteínas. Epigenómica. Estudia el conjunto de las modificaciones que actúan sobre la cromatina. Fenómica. Es el estudio de los fenotipos. Interactómica. Es el estudio de cómo interaccionan los diferentes elementos de la célula. Metabolómica. Proyectos genoma Desde los años 90 hasta el 2010 se llevaron a cabo proyectos que sentaron las bases de lo que ahora se está trabajando. Se realizaba la secuenciación completa, nucleótido a nucleótido, de un individuo de una especie y, con ello, se podían ver las diferencias entre los genomas. Se observa que hay una gran diferente en el tamaño del genoma, ya que las bacterias tienen un tamaño 10 veces menor que el hombre o la vaca (vertebrados superiores). Además, aunque se puede coincidir en algunos genes, el número de genes es mucho menor en las bacterias que en los vertebrados superiores. Debido al coste de secuenciar un genoma, las especies se eligieron en función de la utilidad como modelo animal: Pez globo. Tiene un genoma compacto que carece de intrones y permite estudiar la evolución de la introducción de los intrones. Pez cebra. Es útil para estudiar el desarrollo. Perro. Es un modelo animal importante para las patologías en seres humanos debido a que tiene muchas que se parecen, sobre todo las enfermedades oftalmológicas y los tumores cancerosos. Ratón. Es el modelo animal por excelencia y, aunque es poco cercano al humano, se ha estudiado alcoholismo, enfermedades degenerativas… En animales domésticos el progreso ha sido mucho más lento debido a la falta de financiación puesto que los caracteres de interés económico son muy complejos y no se encontraba información para poder ir avanzado. Además, en los animales de renta hay pocas enfermedades genéticas de carácter económico, puesto que los animales que las presentan, de forme general, se eliminan. Con todo esto, el gallo se secuenció y anotó en 2004, mientras que el bovino, el equino y el porcino en 2009. El perro se secuenció en 2005, mientas que el gato se ha secuenciado por partes y sigue habiendo secuencias de baja resolución. Secuenciación La secuenciación se inició con una técnica parecida a la PCR denominada método Sanger, donde a partir de un fragmento inicial de ADN, se coloca un cebador y se incorporan nucleótidos no marcados y marcados. Al inicio, para dicha marcación se utilizaban isotopos radiactivos. 2 Al final del proceso, tenemos todos los fragmentos con diferencias de un nucleótido, por lo que se ordena en función del isótopo o fluorocromo, pudiendo detectar la secuencia completa. Actualmente funciona para fragmentos cortos de 1000 o 2000 bases, aunque con este sistema se secuenció el genoma humano, desde fragmentos pequeños y posteriormente se juntaban. Ahora mismo se utilizan secuenciaciones más rápidas, baratas y sencillas, las next generation sequencing (NGS). Anotación Tras obtener la secuenciación del genoma, con más o menos precisión, posteriormente hay que anotarlo, es decir, poner en diferentes puntos del genoma dónde comienza un gen, una secuencia promotora o cualquier secuencia que nos interese. Como se sabe que los genes comienzan por un aminoácido denominado metionina que tiene una secuencia ATG, al buscarlo en diferentes puntos aparece la probabilidad de que sea el inicio del gen. Genómica funcional La genómica funcional es aquella que abarca los productos del ADN, transcritos, proteína, metabolitos, interacciones entre ellos… Transcriptómica La transcriptómica es el estudio de todos los transcritos. El transcriptoma es ARN codificante, pero también abarca el no codificante, es decir, ARN transcritos que se transcriben desde el núcleo pero que no va a dar lugar a una proteína pero son relevantes en la regulación de otros productos de ARN. Por tanto pretende generar todos los transcritos existentes en una muestra, identificar genes clave e identificar patrones, con el objetivo de generar firmas moleculares para un determinado fenotipo, ya que se puede saber que genes se expresan y cuales se inhiben. El análisis del transcriptoma se realiza con las mismas herramientas que se secuencia el ADN, pero en este caso, utilizando ARN. Proteómica Las proteínas son estructuras de aminoácidos que, al inicio, tienen una conformación sencilla. Los péptidos se pueden unir unos a otros generando conformaciones típicas que van a depender de los aminoácidos que se encuentren en las cadenas peptídicas. Se forman más de un millón de proteínas a partir de los 22000 genes que tenemos, por lo que cada secuencia de un gen puede tener variaciones, generando la pérdida o la formación de un intrón produciendo nuevas proteínas con funciones ligeramente diferentes. Para este proceso se utiliza la espectrofotometría de masas y las herramientas son escasas para tener buenos resultados. Epigenómica Las modificaciones epigenéticas afectan a las cromatina y, por tanto, a todas las proteínas y estructuras que envuelve al ADN. Además, se sabe que estas modificaciones se pueden transmitir a la generación siguiente. 3 Actualmente lo que se pretende es integrar todos los datos que se obtienen a partir del transcriptoma, proteoma (todas las secuencias de proteínas), interactoma, fenoma y localizoma (lugar donde se ubican los elementos que se van generando). Cabe destacar que, cuando vemos genomas de una misma especies o especies afines, dos especies pueden tener genes muy parecidos, tanto en número como en su función. Solo el 1% del ADN determina las diferencias entre algunas especies más cercanas, mientras que el 0,1% del ADN determina las diferencias entre individuos de una misma especie. Complejidad del genoma El control de la expresión génica se realiza por: Reguladores en regiones UTR (Untranslated Regions). Son partes del ADN que no se transcriben, por lo que no aparecen en el ARN y no se traducen a aminoácidos, pero son relevantes en las secuencias de los genes. Por ejemplo, en la cromatina aparecen modificaciones como metilaciones o acetilaciones; en las regiones de la secuencia del gen hay estructuras que se colocan como factores de transcripción o hay uniones de ADN con factores de transcripción que inhiben la expresión de los genes. ARN no codificante. Es el ARN que se transcribe pero no se traduce pero que su función es regular la expresión de otros genes como, por ejemplo, los microARN que no tienen más de 100 nucleótidos. Esta regulación la realizan de diferentes maneras: o Generando cortes haciendo que se inhiba la traducción del transcrito que llega al ribosoma. o También produce una deadenilación, donde se come la secuencia a través de una digestión eliminando el transcrito. o Formas epigenéticas. Intrones. Los intrones son eliminados cuando el transcrito sale del núcleo, por lo que se denomina ARN inmaduro a aquel que presenta intrones. Cabe destacar, que variaciones en la secuencia nucleotídica hace imposible leer los intrones, pero esto tiene la funcionalidad de que de un mismo gen sacamos diferentes transcritos (por ejemplo, de un mismo gen sale músculo estriado, músculo liso, fibroblastos…). 4 TEMA 2. CLASIFICACIÓN DE LOS COMPONENTES DEL ADN El genoma se puede dividir en: Genoma nuclear. Es el que se encuentra dentro del núcleo de todas las células y es muy grande (3000 millones de bases y 22000 genes). Genoma mitocondrial. Se encuentra dentro de las mitocondrias, es muy pequeño (17000 bases y 37 genes) y en él se codifican pocas proteínas que trabajan en el interior de las mitocondrias. Genoma mitocondrial La mitocondria imprescindible para la célula, ya que le aporta la energía necesaria para completar sus funciones en forma de ATP. Esta energía la obtiene mediante los elementos reducidos que salen del ciclo de Krebs que se obtienen de la oxidación de proteínas, ácidos grasos y glúcidos. Así, realiza un intercambio de electrones entre un lado y otro de la membrana interna mitocondrial, lo que genera ATP gracias a los complejos respiratorios. Los complejos respiratorios que se encuentran en la membrana y permiten el intercambio de electrones están formados por diferentes proteínas: Complejo I. Hay 7 proteínas codificadas por el ADN mitocondrial y 35 por el ADN nuclear. Complejo II Coenzima Q. El ADN mitocondrial no codifica ninguna proteína para este complejo y el ADN nuclear 4. Complejo III. El ADN mitocondrial codifica el citocromo B, mientras que el ADN nuclear codifica 10 proteínas. Complejo IV. El ADN mitocondrial codifica 3 proteínas y el ADN nuclear 10. Complejo V. El ADN mitocondrial codifica 2 proteínas y el ADN nuclear 12. Así, el ADN mitocondrial contiene 37 genes, donde 2 genes forman ARNr, 22 genes ARNt y 13 genes codifican polipéptidos que codifica para los complejos respiratorios que se asientan en la membrana interna mitocondrial (estos complejos se encargan de llevar a cabo la fosforilación oxidativa). Genoma nuclear El genoma nuclear se encuentra compuesto un elevado número de nucleótidos. Este ADN se presenta en forma de cromosomas (metafase de la mitosis cuando el ADN está condensado) de diferentes tamaños y van a ser diferentes según la especie, variando tanto en número de cromosomas como en la disposición de las secuencias de genes, ya 5 que, aunque los genes sean los mismos aparecerán en diferentes cromosomas según la especie. El ADN está formado por una doble hélice formada por nucleótidos complementarios que se enrosca alrededor de un octámero de proteínas (histonas), con un diámetro de 10 nm, formando los nucleosomas. Estos se van a tensar generando una estructura compacta denominada cromatina, que presenta un diámetro de 30 nm, y esta cromatina se une a un esqueleto de topoisomerasas formando una serie de bucles (600 nm de diámetro) que son los que generan la estructuras de los cromosomas. Asimismo, los cromosomas solo adquieren una conformación identificable en la metafase, por tanto, en la interfase aparecen entremezclados y no se pueden distinguir. Por tanto, los cromosomas están formados por cromatina y proteínas estructuradas de manera organizada. Esta cromatina se puede condensar más o menos en función de la fase de la mitosis en la que nos encontremos, es afín a los tintes y se clasifica en eucromatina, heterocromatina y centrómero. La capacidad de captar los tintes nos permite evidenciar las bandas citogenéticas, estas son secuencias dentro de los cromosomas que, por su composición nucleotídica, cogen los tintes de diferente forma generando un bandeo característico de cada cromosoma, lo que nos permite diferenciar unos de otros. Composición nucleotídica del genoma nuclear El ADN se compone de 4 nucleótidos, donde dos de ellos son purinas (adenina y guanina, la base nitrogenada tiene dos anillos) y los otros dos son pirimidinas (citosina y timina, solo tiene un anillo). Las uniones entre purinas y pirimidinas se genera por puentes de hidrógeno muy lábiles (dentro de una misma hebra se unen por enlaces covalentes), por lo que cuando se produce una mutación en una de las hebras habrá un problema para unirse a su nucleótido complementario. Partiendo de la base de que hay 4 nucleótidos, hay menos citosina-guanina que adenina-timina debido a que el nucleótido citosina tiene tendencia a desaminarse, es decir, pierde su radical amino transformándose en un radical oxígeno, lo que produce la transformación de citosina en uracilo (nucleótido que solo está en el ARN), por lo que los sistemas de reparación lo eliminan. Por otro lado, también las citosinas se pueden encontrar metiladas (radical metilo en el carbono 5) y se desamina transformándose en una timina, por lo que los sistemas de reparación, como no lo entienden como un cuerpo extraño, lo mantienen. Esto hace que se incremente el contenido de adenina- timina, frente al de guanina-citosina. 6 Los cromosomas Debido a que el genoma es una estructura organizada las características funcionales no se distribuyen de forma aleatoria. Los cromosomas son segmentos de ADN con un contenido especifico de nucleótidos y genes y son unidades funcionales de replicación y condensación. Si teñimos los cromosomas podemos diferenciar: Bandas oscuras. Se tiñen con tintes que se unen preferentemente a regiones ricas en AT, por lo que pueden ser comparativamente ricas en AT. Son insensibles a las DNAsas y la condensación es temprana pero la replicación tardía. Es una región pobre en genes y estos son grandes porque los exones están separados por intrones muy largos. Bandas claras. Se tiñen poco con Giemsa o con Quinacrina. Pueden ser comparativamente ricas de GC y son sensibles a las DNAsas (permite la apertura de la hebra). Se condensan tardíamente durante el ciclo celular, pero la replicación es precoz. Es una zona rica en genes y estos son comparativamente pequeños porque los exones están próximos. Secuencias del genoma nuclear El genoma nuclear comprende dos tipos de secuencias: ADN extragénico, y genes y secuencias relacionadas con genes, como los intrones, que no tienen secuencias codificantes. Así, aproximadamente el 53% del ADN es extragénico, que también se llama ADN de repeticiones (la mayoría de este ADN está constituido por secuencias que se repiten, no tiene que ver con genes ni con su influencia). Sin embargo, del 47% del genoma correspondiente a genes y secuencias relacionadas con genes, un 8% se corresponde con secuencias que se han secuenciado incorrectamente, por lo que no se conoce su composición exacta. Además, tan solo el 1,5% del genoma está constituido por exones (parte codificante de los genes), mientras que cerca de un 25% está compuesto por intrones. Asimismo, esta parte del genoma se denomina ADN único, ya que está formado mayoritariamente por secuencias únicas, tanto genes como secuencias relacionadas con ellos. Por tanto, todo el genoma se replica, pero solo una parte se transcribe. Genes y secuencias relacionadas con genes Los genes son los segmentos del genoma que se transcriben pero puede dar lugar a ARN codificante o a ARN no codificante (se transcriben pero no se traducen). Un gen, presenta una serie de intrones y exones, y una región no traducida (UTR) en 5’ y otra en 3’ (aparecen promotores y elementos reguladores). Estas son regiones que se encuentran en inmediata proximidad al principio y al final del gen, por lo que son cercanos a regiones codificantes, aunque son regiones no codificantes. Las regiones 5’ y 3’ UTR reciben este nombre debido a que el ADN está formado por dos hebras que se colocan en sentido contrario. Por tanto, el extremo 5’ se denomina así porque el primer 7 nucleótido de ese extremo tiene en su carbono 5’ un fosfato libre que determina uno de los extremos de la hebra. Posteriormente, este nucleótido tiene en el carbono 3’ un grupo hidroxilo que se une al fosfato del carbono 5’ del siguiente nucleótido, formando la hebra de ADN. Finalmente, en el extremo 3’, el último nucleótido presenta el grupo hidroxilo del carbono 3’ libre, lo que determina el otro extremo de la hebra (su carbono 5’ está implicado en un enlace fosfodiéster con el carbono 3’ del nucleótido anterior). Así, el extremo 3’ de una hebra se enfrenta al extremo 5’ de la otra hebra; de forma que, en función de en qué hebra esté colocado, éste tiene los extremos 3’ y 5’ en un lado u otro. Los genes pueden ser grandes o pequeños y, en función de esto, estarán en bandas oscuras o claras respectivamente. La distancia intergénica (número de nucleótidos entre dos genes) es muy variable, pero dos genes nunca se van a solapar en la misma secuencia; además, el tamaño de los intrones también será muy variable, pero lo normal es que se encuentren entre 100 y 2000 nucleótidos. ARN no codificante Los ARN no codificantes no generan ninguna proteína y el más común es el microARN y son los encargados de regular la actividad génica tanto en el citoplasma como en el núcleo. El microARN puede cortar el ARNm haciendo que no se produzca la proteína correcta, también puede impedir que el ARNm se una al ribosoma evitando la traducción o puede activar una exonucleasa que elimina nucleótidos desde los extremos de ARN codificante. Además también puede producir metilación en el ADN e histonas modificadas. Clasificación de los genes en familias Los genes se clasifican en cuatro grandes familias, cada una con características diferentes: Familias de genes clásicas. Codifican genes redundantes en ARNr, ARNt, ARNsn, otros ARN e histonas. Familias de genes que comparten dominios o aminoácidos concretos. Genes HOX y genes PAX. Superfamilias de genes. Inmunoglobulinas, TCR y HLA. Familias de genes en grupo. Globinas, hormona del crecimiento y albúmina. Familia de genes clásicas Esta familia está compuesta por genes pequeños necesarios para actividades básicas de la célula. Son genes redundantes, ya que se encuentran con mucha frecuencia a lo largo del genoma, que dan lugar a tres productos génicos principales: ARNr, ARNt e histonas. ARN ribosómicos Engloban las secuencias que codifican las diferentes subunidades de los ribosomas y se forman varios dominios que componen las dos subunidades del ribosoma (siempre tienen la misma estructura pero están compuestos por dominios diferentes). 8 Para poder generar tantos ribosomas diferentes, el genoma tiene secuencias codificantes repetidas que son las que permiten formar los distintos dominios del ribosoma, se denominan unidades de transcripción. Estas secuencias o unidades de transcripción tienen 13000 bases de longitud y se repiten en grupo en distintas regiones de los cromosomas. En esta unidad de transcripción aparecen las secuencias de los dominios 18S, 5,8S y 28S, que se transcriben en el mismo gen para dar lugar a tres ARN distintos. Así, una unidad de transcripción da lugar a tres ARNr (un único transcrito de un gen da lugar a tres estructuras diferentes). Las unidades de transcripción componen entre el 1 y el 3% del genoma. ARN de transferencia Los genes que codifican el ARNt aparecen de forma muy repetida y con secuencias muy parecidas a lo largo del genoma. Son genes muy pequeños que generan estructuras primarias de ARN que se autohibridan formando una estructura parecida a un trébol, dando lugar al ARNt. Por tanto, existen diversos tipos de ARNt, cada uno transporta un aminoácidos diferente al ribosoma y, esto se debe a que cada ARNt reconoce un codón (secuencia de tres nucleótidos) diferente de ARNm, ya que éste se aparea con un anticodón específico de ARNt, determinando que aminoácido se debe unir a la cadena de formación. Histonas Son moléculas muy importantes debido a que el ADN se empaqueta en el núcleo gracias a octámeros de histonas y durante la replicación se deben formar octámeros nuevos. Para ello, los genes que codifican estas proteínas se encuentran muy repetidos a lo largo del genoma, por ejemplo, la histona de tipo 2, en los seres humanos, se encuentra codificada en los cromosomas 1, 4, 5, 7 y 11. Además, estas secuencias son muy parecidas, por lo que se generan mucha cantidad del mismo producto. Familias de genes que comparten dominios, aminoácidos concretos… Esta familia de genes reúne genes que comparten algún parecido en sus secuencias, pudiendo compartir dominios o aminoácidos concretos. Si se comparan secuencias de las regiones codificantes de dos genes (se colocan enfrentadas las secuencias), en ocasiones aparecen hileras de nucleótidos idénticos, pero también pueden compartir secuencias aminoacídicas (la secuencia nucleotídica puede ser diferente pero dar lugar a los mismos aminoácidos), por lo que los genes podrían compartir alguna función al dar lugar a proteínas parecidas. También existen genes que, aunque no compartan secuencias nucleotídicas ni aminoacídicas, generan proteínas con dominios parecidos. La formación de los dominios depende de la naturaleza de los aminoácidos ya que es lo que va a determinar las interacciones entre ellos para que se puedan formar los diferentes dominios. Por tanto, existen genes diferentes, con funciones diferentes, que pueden dar lugar a dominios comunes como como el factor de crecimiento epidérmico que tiene un dominio común a la uroquinasa y al factor 9 de coagulación. 9 Así, a este grupo pertenecen distintas familias: Genes HOX. Son genes homeóticos (genes básicos) que intervienen en el control del desarrollo del eje anteroposterior. Los factores de transcripción expresados por el conjunto de genes HOX se encargan de la regulación de la morfogénesis y diferenciación celular durante el desarrollo embrionario temprano. Genes PAX. Son genes homeóticos y controlan y regulan genes clave para el desarrollo embrionario. Codifican factores de transcripción importantes en la especificación de los tejidos durante el desarrollo embrionario. Cuando esta familia de genes o la anterior fallan o sufren mutaciones, el embrión no prospera. Familia DEAD. Son genes que codifican para proteínas que presentan repetido el motivo Asp-Glu-Ala-Asp (aspartato-glutamato-alanina-aspartato). Así, estos genes homeóticos codifican helicasas implicadas en procesos celulares básicos. Las helicasas son las que permiten que el ADN se empaquete o no. Familia WD. Son genes que codifican proteínas que tienen repetido el motivo Trp-Asp (triptófano-aspartato). Así, estos genes homeóticos codifican productos implicados en funciones reguladoras básicas (regulación de la división celular, la transcripción, la señalización transmembrana, la modificación de ARNm…). Superfamilias de genes Son genes que no comparten ni secuencias nucleotídicas, ni secuencias aminoacídicas ni dominios pero son parecidos entre las estructuras de las proteínas que codifican ya que van a tener función inmunitaria (inmunoglobulinas, receptores de membrana y antígenos leucocitarios humanos o HLA). A nivel nucleotídico no va a haber similitudes, pero se van a formar estructuras de aspecto parecido que se van a colocar en las membranas celulares y van a defender de riesgos externos. Familias de genes en grupo Estas familias están formadas por genes que se pueden transcribir en momentos determinados, por lo que van a responder a diferentes necesidades del organismo en diferentes momentos, como por ejemplo los genes que codifican las globinas, las hormonas del crecimiento o la albúmina, ya que las necesidades de estos componentes es variable con la edad. Las globinas son las encargadas del transporte del oxígeno y las necesidades de oxígeno son diferentes en un embrión que en el individuo adulto, por lo que el organismo va a expresar diferentes genes para conseguir diferentes globinas, produciéndose el primer cambio durante la gestación y el segundo cambio antes del nacimiento. Esto es una adaptación dada por la evolución ya que se sabe que, en un principio, existía una secuencia encargada que se duplicó, dando lugar a α-globinas y β- globinas. Posteriormente, las β-globinas se volvieron a duplicar generando las estructuras fetales y adultas. Actualmente se conoce que el conjunto de genes que dan lugar a la α-globinas se encuentra en el cromosoma 16, mientras que el clúster de las β-globinas aparece en el cromosoma 11. En cada 10 cromosoma, cada clúster de genes está controlado por una región de control de loci (LCR), que se localiza en 5’ y contiene los elementos de potenciación e inhibición de la expresión de estos genes (el control de cada clúster de genes es común). También presentan, en cada cromosoma, numerosas secuencias HS, que son secuencias que se pueden unir las DNAsas para abrir la hélice en la transcripción, lo que indica que son genes muy activos. Por tanto, cuando el organismo es un embrión, la LCR activa al gen que codifica para la globina ε. Posteriormente, cuando el organismo es un feto, LCR activa al gen que codifica para γG. Finalmente, en el estado adulto, LCR activa a los genes que codifican para las globinas δ y β. Pseudogenes Los pseudogenes son segmentos codificantes pero incompletos, por lo que se transcriben y, si se traducen, pueden dar lugar a una proteína incompleta que no cumple ninguna función. Hay dos tipos de pseudogenes en función de si tienen transcritos maduros o no: Pseudogenes procesados. Son transcritos listos para generar una traducción (ha sufrido splicing y los exones están unidos listos para traducirse). Tras la transcripción del ADN se genera un transcrito primario que madura, posteriormente se retrotranscribe al genoma y se incorpora de nuevo a él de forma aleatoria, por lo que pueden insertarse cerca de un promotor (se expresan frecuentemente) o se pueden insertar lejos de un promotor (nunca se expresan). Pseudogenes no procesados. Estos genes se pueden transcribir, pero no se traducen o, si lo hacen, es de forma incompleta. Estos genes pertenecen a duplicaciones que se han generado en las familias de genes en grupo, que posteriormente degeneran y pierden elementos que les permite ser funcionales. ADN extragénico El ADN extragénico está formado por secuencias nucleotídicas que se intercalan entre genes pero, funcionalmente, no tienen nada que ver con ellos. Así, el 21% del genoma está compuesto por LINEs, un 13% por SINEs, un 8% por elementos de tipo retroviral (procedentes de antiguas infecciones de retrovirus que incorporan su genoma), un 3% por transposones fósiles y un 5% por repeticiones en tándem. Así, todo el ADN extragénico que no son repeticiones en tándem compone las repeticiones dispersas. Repeticiones en tándem Las repeticiones en tándem son secuencias nucleotídicas que se repiten en tándem, es decir, un bloque de secuencias se repite sucesivamente un número variable de veces. Así, estas secuencias se repiten cabeza con cola, es decir, el final de una secuencia (cola) se encuentra próxima al inicio de la repetición de dicha secuencia (cabeza). Además, existen tres tipos de repeticiones en tándem: ADN satélite, ADN minisatélite y ADN microsatélite. 11 ADN satélite Cuando el ADN se centrifuga, la molécula presenta dos picos, uno de menor tamaño, que se corresponde al ADN satélite, y uno de mayor tamaño, que es el resto del genoma. Por tanto, el ADN satélite se comporta de forma distinta durante la centrifugación, ya que presenta un elevado porcentaje de adenina-timina y un bajo porcentaje de guanina-citosina. Aunque los bloques tienen secuencias entre 5 y 171 nucleótidos, las estructuras de repetición en tándem llegan a tener una longitud de varios miles de nucleótidos, por lo que podemos encontrar diferentes tipos de ADN satélite y se distinguen por la longitud de sus secuencias repetidas: ADN alfoide. Se repiten secuencias de 171 pares de bases. ADN beta. Se repiten secuencias de 68 pares de bases. ADN satélite 1. Se repiten secuencias de entre 25 y 48 pares de bases. ADN satélite 2 y 3. Se repiten secuencias de 5 pares de bases. Todos estos tipos de ADN no contienen genes codificantes y no suele ser activa. Además, aparecen en el centrómero del cromosoma de forma muy condensada, aunque se reparte de forma distinta en los diferentes cromosomas. Por ejemplo, en el cromosoma 9, la constricción primaria (constricción del cromosoma en la que se encuentra el centrómero) está formada por ADN alfoide, bajo el que se encuentra el ADN beta y, muy cerca del brazo del cromosoma, el ADN satélite 2 y 3. A su vez, en el cromosoma 21, el centrómero está compuesto por ADN alfoide, sobre el que se encuentra ADN satélite 2 y 3 y, por encima, el ADN beta. Además, un fragmento de ADN beta se encuentra separado por otro fragmento de ADN beta. Por tanto, el ADN satélite permite identificar a los cromosomas, ya que cada uno tiene un patrón distinto de ADN satélite. El ADN alfoide suele ser el ADN satélite que forma el centrómero, por lo que constituye el soporte físico para el cromosoma durante las migraciones que se producen en el huso acromático durante el ciclo celular. Así, las estructuras del huso acromático se unen al ADN alfoide y tiran de él para desplazar al cromosoma. ADN minisatélite El ADN minisatélite está compuesto por secuencias de ADN que se repiten en tándem pero se encuentran al final de los brazos del cromosoma y en los telómeros, por lo que lo podemos clasificar en dos tipos: familia hipervariable y familia telomérica. Familia hipervariable. Estas secuencias se encuentran al final de los brazos de los cromosomas, cerca de los telómeros, y fue identificada en el gen de la mioglobina, en hileras de 33 nucleótidos, donde se repite la secuencia GGGCAGGAXG (X es cualquier nucleótido). Esta estructura de una misma secuencia repetida numerosas veces forma un hotspot de recombinación, que es una zona del genoma en la que se produce frecuentemente la recombinación génica, por lo que son estructuras muy polimórficas. Al producirse sobrecruzamientos, se pueden generar nuevos alelos con cada vez más secuencias repetidas por lo que se utilizó como el primer marcador genético que permitió identificar personas, ya que cada individuo tiene unas variaciones únicas. Familia telomérica. Sus secuencias nucleotídicas se encuentran únicamente en los extremos de los telómeros, por lo que su función es mantener el telómero en buenas 12 condiciones. Esta familia es capaz de reparar los telómeros gracias a la telomerasa, que es una retrotranscriptasa que añade una secuencia telomérica mediante la retrotranscripción del fragmento de ARN que posee. Así, como en cada replicación se pierde un bloque de secuencia telomérica (GGGGTTGGGGTT…), esta enzima es capaz de revertir el efecto. ADN microsatélite El ADN microsatélite está formado por secuencias de ADN repetidas en tándem, estas secuencias constan de 1 a 4 nucleótidos. Se encuentra a lo largo de todos los cromosomas, excepto en los centrómeros y en los telómeros. Puede tener distintos tipos de motivos que se repiten: Microsatélites mononucleótidos. Es una secuencia de un único nucleótido repetido numerosas veces (poliadenina son los más frecuentes, pero también pueden ser policitosina, politimina o poliguanina). Su frecuencia es de una repetición cada 5000 o 10000 nucleótidos y son el 0,3% del genoma. Microsatélites dinucleótidos. Son los más comunes y son secuencias en las que se repiten dos nucleótidos. Estas repeticiones suelen ser CA o TC, siendo raras las repeticiones GC, ya que la citosina tiene tendencia a transformarse en timina. Estas secuencias se repiten cada 25000 a 100000 nucleótidos, componiendo entre el 0,2 y el 0,5% del genoma. Microsatélites trinucleótidos. Son repeticiones de tres nucleótidos (suelen ser TTA y AGC) que se encuentran cada 300000 a 500000 nucleótidos y no son muy frecuentes. Microsatélites tetranucleótidos. Son muy frecuentes en perros y son repeticiones de cuatro nucleótidos, aunque no forman un gran porcentaje del genoma. Cabe destacar que los microsatélites se utilizan en controles de filiación, utilizándose mucho para diferenciar posibles hijos de posibles padres al observar un microsatélite en particular de un locus concreto. Repeticiones dispersas o elementos transponibles Las repeticiones dispersas son secuencias de ADN que se repiten en distintos partes del genoma, pero no se repiten en tándem. Además, son capaces de incorporarse en distintos lugares del genoma mediante un intermediario de ADN (transposones) o mediante un intermediario de ARN. Transposición mediante un intermediario de ADN o transposones En la transposición mediante un intermediario de ADN, la secuencia que se introduce en el ADN es una molécula de ADN, se denominan transposones, son relativamente raros y constituyen el 3% del genoma. Se introducen en el genoma gracias a la acción de la enzima transposasa que provoca una recombinación entre dos regiones homólogas de ADN, que se pueden unir por complementariedad tras la pérdida de un segmento. Para ello, ambas zonas complementarias se aproximan, formando un bucle o loop con la secuencia que las separa, a este loop se le denomina complejo de transposasa activo. La enzima es la encargada de romper el loop de ADN en sus dos 13 extremos para extraer el transposón e insertarlo en otra región aleatoria del genoma, gracias a que la transposasa corta dos extremos de otra secuencia de ADN que tenga regiones complementarias y repetidas. La mayoría de los transposones se consideran fósiles y no se conocen eventos recientes. Además, solo se han mantenido evolutivamente los transposones que no han tenido consecuencias letales, ya que los letales no se han podido transmitir a la descendencia. Transposición mediante un intermediario ARN En este tipo de transposición, la secuencia que se introduce es una molécula de ARN y suele ocurrir en las infecciones de virus y retrovirus, cuyos genomas permanecen de forma no infectiva. Estas repeticiones dispersas pueden ser de dos tipos: elemento transponible incapaz de codificar retrotranscriptasas o elemento transponible capaz de codificar retrotranscriptasas. Elemento transponible incapaz de codificar retrotranscriptasa La secuencia de ARN no codifica información para sintetizar una retrotranscriptasa, por lo que utilizan una ajena para sintetizar la cadena de ADN complementaria e insertarse en cualquier punto del genoma. Forman la familia no viral y son los retropesudogenes, que degeneran en SINEs (elementos nucleotídicos pequeños y dispersos), por lo que son secuencias pequeñas del propio genoma que se transcriben para generar un ARN que se retrotranscribe para insertarse de nuevo en el genoma. Componen un 13% del genoma y aparecen tanto en regiones que tienen que ver con genes como regiones que no. Los SINEs tienen estructuras diversas y son idénticos en grandes familias (los primates tienen un tipo, roedores otro…). Por ejemplo, el dímero ALU, típico de primates, es un retropseudogen procesado que ha sufrido modificaciones, como la inserción de 32 nucleótidos y la variación de 160 pares de bases, generando una secuencia de unos 400 nucleótidos. Otro ejemplo, en bóvidos, existe un SINE muy común que consiste en un fragmento de un gen para ARNt, que se puede asociar con otras estructuras para formas SINEs con distinta longitud que se insertan en el genoma. Además, los SINEs constituyen hotspot de recombinación, por lo que, cuando se produce el sobrecruzamiento, se puede producir la duplicación o deleción de una secuencia del cromosoma, provocando alteraciones en los genes. Elemento transponible capaz de codificar retrotranscriptasa La secuencia de ARN codifica la información para sintetizar una retrotranscriptasa que se utiliza para generar una cadena de ADN complementaria e insertarse en cualquier punto del genoma. 14 Los elementos transponibles de este tipo forman parte de la familia viral (retrovirus endógenos y elementos de retrovirus), ya que constituyen antiguas infecciones de virus, cuyo genoma codifica para todos los mecanismos que requieren para la infección. Por tanto, en su mecanismo de infección, el ARN del virus utiliza su retrotranscriptasa para generar una cadena de ADNc, que se transpone en el genoma de la célula infectada para transcribirse con mucha frecuencia para generar muchos virus. Posteriormente, estos elementos degeneran y pierden su capacidad infecciosa, por lo que vamos a tener numerosas repeticiones en tándem largas en los extremos (LTRs) y muchos elementos de retrovirus, como las secuencias que codifican para la retrotranscriptasa. Estos elementos transponibles son los retrovirus endógenos, constituyen un 8% del genoma humano, pero no en los animales. estos elementos también forman los elementos retrovirus-like, como HERV/RTV o THE-1. Sin embargo, hay elementos de la familia viral que carecen de LTRs y muchos elementos de retrovirus, ya que han evolucionado a algo más, se denominan retrotransposones o LINEs (elementos nucleotídicos dispersos largos), que contienen varias miles de bases de longitud y constituyen un 21% del genoma, como LINE-1. Por lo que un LINE no tiene repeticiones en tándem, pero presenta la secuencia de codificación para la retrotranscriptasa. Cabe destacar que la incorporación de un LINE es aleatoria, por lo que se pueden encontrar en cualquier zona del genoma, pero como son estructuras grandes, es más difícil que permanezcan en el genoma del individuo, porque es fácil que interrumpan la expresión de un gen. Por ello, la mayoría de LINEs se encuentran fuera de estructuras codificantes. Se incorporan al genoma al cortar la retrotranscriptasa el ADN y generando una doble hebra, haciéndose hueco e incorporándose la copia dentro del genoma. Por ejemplo, el gen del factor VIII de la coagulación puede presentar un LINE en el exón 14, lo que anula la expresión de los exones posteriores, generando un factor VIII incompleto y afuncional que provoca hemofilia A. Por tanto, los SINEs pueden aparecer en cualquier lado, mientras que los LINEs están fuera de los espacios extragénicos. 15 TEMA 3. POLIMORFISMO Y MARCADORES MOLECULARES Introducción El polimorfismo es una variación de una secuencia genómica que afecta a un porcentaje elevado de una población y permite identificar y definir marcadores moleculares, facilitando reconocer mutaciones y genes concretos. La variación del 1% del ADN determina las diferencias entre organismos de diferentes especies, sin embargo, la variación del del 0,1% del ADN determina las diferencias entre individuos de la misma especie. Causas de variación Las variaciones del ADN puede deberse a: Modificaciones químicas. Variación estructural. Grandes rearreglos cromosómicos. Variantes de número de copias. Son variaciones puntuales de pocos nucleótidos. Mutaciones puntuales. Como transiciones y transversiones. Mutaciones en secuencia repetidas en tándem. Modificaciones químicas Pueden ser de dos tipos: Espontáneas. Generan cambios repentinos en los nucleótidos y no se pueden evitar. Pueden ser: o Depurinaciones. Son bastante frecuentes y consiste en que las bases púricas, que cuentan con dos anillos (adenina y guanina), pierden la estructura de doble anillo, por lo que el nucleótidos pierde funcionalidad. o Desaminaciones. Afecta sobre todo a las citosinas, ya que tienden a perder el grupo amino y a captar un grupo oxígeno. Cuanto esto ocurre, la citosina se transforma en uracilo. Si la citosina está metilada se transforma en timina por el mismo proceso. o Radicales libres. Son productos de la respiración aerobia de todos los animales, pueden ser superóxidos o peróxidos de hidrógeno, y pueden cambiar la estructura de los nucleótidos al colocarse sobre las bases nitrogenadas, produciendo problemas de emparejamientos. o Transiciones tautoméricas. Los tautómeros son isómeros, es decir, son los mismos elementos pero presentan radicales distintos, por lo que se van a producir emparejamientos incorrectos y van a generar una mutación debido a que durante la replicación, el nucleótido modificado se unirá de nuevo 16 incorrectamente, pero el nucleótido mal asociado de la otra hebra se une a su nucleótido complementario. Por ejemplo, la citosina se transforma en una forma imino rara de la citosina, lo que hace que el emparejamiento sea con la adenina en vez de con la guanina. Inducidas. Están generadas por agentes externos, pueden ser: o Radiaciones. La luz visible puede generar dímeros de pirimidinas al unirse dos pirimidinas consecutivas mediante enlaces covalentes, rompiendo así la estructura del ADN. Con este tipo de modificaciones pueden aparecer mutaciones letales. o Análogos de bases. Muchos productos químicos generan emparejamientos incorrectos porque la maquinaria de replicación los reconoce como nucleótidos, ya que tienen estructuras parecidas. Así, el 5-bromouracilo, se une a una adenina, y el 2-aminopurina, se une a una guanina. o Agentes alquilantes. Añaden moléculas carbonadas a los nucleótidos por lo que aparecen cambios en los nucleótidos. Por ejemplo, el etilmetanosulfato añade un grupo etilo a la guanina, lo que va a hacer que esta se una a una timina. Estos productos se utilizan mucho en laboratorio para inducir mutaciones. El genoma tiene un sistema de reparación capaz de corregir muchos de estos daños. Cuando reconoce un fallo la enzima glucosilasa de ADN elimina la base dañada y, posteriormente, la endonucleasa AP realiza un corte para que la exonucleasa de escisión elimine un tramo de ADN. Por último, la polimerasa sintetiza nuevo ADN y la ligasa sella la mella. Variación estructural Las variaciones estructurales son muy importantes en animales de renta y consisten en grandes rearreglos cromosómicos, cuyas secuencias sufren grandes modificaciones. Pueden ser: Inversiones. Es la inversión de una secuencia cromosómica. Fusiones. Es la mezcla de dos secuencias cromosómicas. Deleciones. Es la eliminación de una secuencia cromosómica. Inserciones. Es la adición de una secuencia cromosómica. Translocaciones. Son las más frecuentes y consiste en el intercambio, recíproco o no, de fragmentos de un cromosoma a otro. Por ejemplo, existe una traslocación que afecta a los cromosomas 9 e Y en bovinos produciéndose que el cromosoma 9 pase a ser más pequeño que el Y. Otro ejemplo es la translocación robertsoniana, donde se produce una translocación entre el cromosoma 1 y el 29 en bóvidos, produciéndose la fusión el cromosoma 29 con el centrómero del cromosoma 1, formando un único cromosoma. Al cruzarse un animal de fenotipo normal con un animal de genotipo normal, da lugar a individuos con genotipos y fenotipo normales y a individuos equilibrados (tienen traslocación pero su fenotipo es normal, tiene un cromosoma 1, un cromosoma 29 y un cromosoma translocado). Pero, también se puede formar embriones que mueren por tener una trisomía del cromosoma 1 o 29, o una monosomía del cromosoma 1 o del 29. 17 Variantes del número de copias Son mutaciones que afectan a fragmentos genómicos grandes de un mismo cromosoma pero no se perciben en el cariotipo, por lo que aunque son modificaciones parecidas a las variaciones estructurales, estas solo se pueden apreciar secuenciando el genoma. Además, en estas modificaciones son más numerosos que los rearreglos cromosómicos, ya que la mayoría de estos últimos son letales. Por tanto, se pueden producir inversiones de un cromosoma, lo que puede hacer que un promotor se coloque delante de un gen que antes estaba detrás de él o que un gen se aproxime a un promotor distinto al suyo. También pueden producirse duplicaciones y deleciones, que acercan promotores a genes distintos a los orígenes o alejan genes de su promotor, haciendo que su actividad depende de otros promotores. Todas estas modificaciones hace que varíe considerablemente la actividad de los genes, haciendo que varíe el número de copias o transcritos que genera cada gen. En el caso de la especie canina, se han identificado numerosas variantes del número de copias y existen numerosas patologías asociadas a esto. Por ejemplo, una deleción de 40 kb (40000 nucleótidos) en el cromosoma 29 provoca degeneración ocular en el Alaskan Malamute. Asimismo, la aparición de barbas de pelo duro en los perros se produce por una inserción de 167 pares de bases en un gen. En los cerdos, el gen KIT codifica un receptor de factor de crecimiento de mastocitos y de células germinales e interviene en la producción de células hematopoyéticas, células madre, melanocitos, células intersticiales del intestino y células neuronales. Por tanto, influye en la capa de los animales, produciendo una migración de los melanocitos generando capas blancas. Además, el alelo I procede de la duplicación completa del gen KIT, producida porque flanqueando al gen hay dos LINEs que se recombinan, lo que genera una superexpresión del receptor que codifica, anulando la migración de los melanocitos, lo que impiden que estos animales adquieran pigmentación. Mutaciones puntuales Las mutaciones puntuales son la sustitución de un nucleótido por otro. Estas sustituciones pueden ser: Transiciones. Es el cambio de una base púrica por otra púrica o de una base pirimidínica por otra base pirimidínica. Transversiones. Es el cambio de una base púrica por una base pirimidínica, o viceversa. Son menos frecuentes ya que producen más alteraciones. Por tanto, cuando las mutaciones puntuales solo afectan a una mutación codificante de un gen, pueden generar diversos efectos sobre la función del gen: Efectos transcripcionales. Las mutaciones varían la expresión de los genes. Por ejemplo, el intrón 3 del gen que codifica para el factor de crecimiento insulínico de tipo 2 (rico en GC), se produce la transición de una guanina por una adenina, produciendo un 18 incremento en la expresión del gen, alterando su capacidad de regulación, potenciando su expresión y haciendo que los individuos que lo presentan tengan más masa muscular. Efectos postranscripcionales. La actividad transcripcional del gen no está alterada, pero la mutación induce cambios en el ARN formado. Estas mutaciones son comunes en las zonas de unión entre intrones y exones provocando que las enzimas no reconozcan las dianas de corte, aumentando o disminuyendo el tamaño de los intrones y exones. Si no se reconoce el inicio de un exón, se considerará como un intrón; por el contrario, si no se reconoce el final del exón, el intrón posterior se considera como una continuación. Un ejemplo es la narcolepsia en los perros Labrador, esta enfermedad se debe a una mutación puntual en la secuencia de reconocimiento del inicio del exón 6 del gen de la hipocretina, por lo que se elimina el exón y el receptor de membrana que codifica este gen está incompleto, generándose la narcolepsia. Efectos de traducción. Pueden ser de varios tipos. o Silenciosas. Aunque exista una mutación no afecta ningún cambio en la proteína que codifica el gen debido a que numerosos codones codifican para aminoácidos iguales. El 72% de las mutaciones que afectan al tercer nucleótido de un codón y el 5% que afectan al primer nucleótido son silenciosas; sin embargo, ninguna mutación que afecte al segundo nucleótido es silenciosa. o Sin sentido. La mutación provoca el cambio de un codón codificante en un codón stop, terminando la traducción de la proteína y generando una molécula incompleta. o Con cambio de sentido. Se produce una transformación de unos codones en otros, produciendo una sustitución del aminoácido, pudiendo afectar a la conformación tridimensional si el aminoácido mutado no tiene la misma naturaleza que el salvaje. o Con cambio de marco de lectura. Es la inserción o deleción de un nucleótido, lo que provoca que varíen los codones leídos a partir de ese punto, y generan grandes cambio en la proteína sintetizada. Mutaciones en secuencias repetidas en tándem Las mutaciones en secuencias repetidas en tándem afectan al ADN minisatélite y al ADN microsatélite, ya que el ADN satélite se encuentra en los centrómeros y no influye en genes codificantes. En la replicación de estas secuencias pueden ocurrir: Deslizamientos hacia atrás o hacia delante por una inserción. Como este ADN tiene secuencias de pocos nucleótidos que se repiten, la ADN polimerasa comienza a añadir nucleótidos complementarios antes de que comiencen las repeticiones o, por el contrario, sigue añadiendo nucleótidos después del fin de las repeticiones. Esto provoca el aumento del tamaño en los microsatélites y los minisatélites. 19 Deslizamientos hacia delante por una deleción. Acurre cuando la ADN polimerasa deja de añadir nucleótidos antes de que estas secuencias finalicen o, por el contrario, sigue añadiendo nucleótidos distintos aunque las secuencias repetidas hayan comenzado. Esto provoca la eliminación de repeticiones en tándem, disminuyendo el tamaño de los minisatélites y microsatélites. Inserción de secuencias repetidas dispersas Las secuencias repetidas dispersas pueden ser SINEs (pseudogenes procesados) o LINEs (elementos retrotransponibles), que se insertan aleatoriamente en cualquier parte del genoma pudiendo alterar la expresión de un gen. Un ejemplo es la narcolepsia en la raza Dóberman que se produce por la inserción de un SINE en un intrón del gen de al hipocretina, modificando la diana de reconocimiento del inicio del exón 4, haciendo que éste sea reconocido como un intrón y se elimine, formando un receptor incompleto. Mecanismos que afectan a la frecuencia de los alelos La frecuencia de los alelos varía mucho a lo largo del tiempo porque los alelos de una población no son permanentes, por tanto coexisten varios alelos en una población. La modificación en la frecuencia de los alelos se debe a: Selección natural. Tiene poca influencia en animales de renta y de compañía. Selección artificial. Influye mucho en animales de renta y de compañía. Deriva genética. Es la pérdida aleatoria de alelos debida a la reproducción aleatoria de individuos, por lo que si un alelo tiene mucho éxito reproductivo, desplaza a los demás alelos, perdiéndose diversidad genética. Mutación. El polimorfismo aparece cuando, en una misma población, existen dos o más formas para un mismo segmento cromosómico. Por tanto, el polimorfismo está compuesto por las diversas mutaciones que se producen y permanecen en los distintos genomas de una población, generando alelos distintos que se consideran cuando su frecuencia alélica es mayor del 5% (se considera que por encima de este porcentaje la variación se mantiene más de una generación y no desaparece tras el primer cruzamiento). Marcadores moleculares Los marcadores moleculares son secuencias de ADN que sirven de referencia para trazar un segmento cromosómico de una generación a otra, es decir, son fragmentos de ADN que permiten detectar polimorfismos. Por tanto, los marcadores moleculares son loci conocidos en un individuo y que se pueden localizar en su descendencia, observando cómo (a través de las generaciones) ese segmento ha permanecido idéntico o se ha modificado a causa de sobrecruzamientos. Asimismo, para ser considerados como tales, los marcadores moleculares deben presentar polimorfismo (deben tener al menos dos alelos, presentando el minoritario una frecuencia alélica mayor del 5% en una población). Por ello, un segmento nucleotídico puede ser un 20 marcador molecular en una población y no serlo en otra, si esta última no tiene varios alelos para dicho gen. Polimorfismo de longitud originados por fragmentos de restricción (RFLP) Los primeros marcadores moleculares que se definieron fueron los RFLP al identificarse en el laboratorio endonucleasas de restricción, que son enzimas bacterianas que reconocen secuencias diana concretas, cortando en dicha secuencia, ya sea a la misma o distinta altura. Posteriormente, estas enzimas se emplearon para cortar el ADN en fragmentos largos, que se hibridaban con sondas marcadas con isótopos radiactivos y complementarias a minisatélites. De esta forma, los fragmentos con minisatélites hibridan con las sondas correspondientes, generando patrones distintos en función del individuo sobre geles de agarosa. Por tanto, cada individuo tiene distinta cantidad de minisatélites, que hibridan con diferente cantidad y tipo de sondas, lo que hace que unos fragmentos se hibriden y queden marcados y otros no, generando sobre geles de agarosa patrones determinados (huellas genéticas), que son específicos de cada individuo y que evidencian la existencia de polimorfismos. Reacción en cadena de la polimerasa (PCR) La PCR sustituyó a la técnica de los RFLP y consiste en una replicación in vitro de un fragmento de ADN, que se repite numerosas veces generando una gran cantidad de copias de dicho fragmento de ADN. Así, la doble hebra de ADN se desnaturaliza mediante la ruptura de los puentes de hidrógeno, separando ambas hebras. Posteriormente, las hebras hibridan con los cebadores, que son secuencias complementarias a las secuencias de ADN que flanquean el fragmento que se desea amplificar (se debe conocer previamente el fragmento para poder hacer su amplificación). Finalmente, en numerosos ciclos de extensión, la ADN polimerasa replica dicho fragmento, duplicando el número de copias en cada ciclo hasta originar millones de copias del fragmento. De esta forma, esta técnica permitió tener un mayor conocimiento del genoma e identificar fragmentos más pequeños de los que se identificaban con los RFLP. Microsatélites Los microsatélites constituyen uno de los dos marcadores moleculares que se utilizan actualmente para detectar polimorfismos ya que constituyen un hotspot de recombinación y la secuencia de los microsatélites es característica de cada especie, de forma que las repeticiones de una misma secuencia pueden aparecer en diferentes loci del genoma, tanto del mismo cromosoma como de cromosomas distintos, presentando en cada repetición un número de copias determinado. Por tanto, los loci donde aparecen estas repeticiones sirven como marcadores moleculares, siempre que exista polimorfismo para dichos loci. Así, cada repetición identifica un locus distinto, que lo único que comparte con el resto de loci es la secuencia que se repite, de forma que cada locus sirve como un marcador distinto, aunque presenten el mismo microsatélite. 21 Así, cada locus puede presentar distintos alelos, en función del número de veces que se repita el dinucleótido del microsatélite. Además, cada bloque de repeticiones está flanqueado por una secuencia de ADN con una composición determinada y que es idéntica en los distintos alelos de un mismo locus. De esta forma, se pueden diseñar los cebadores que flanquean al ADN microsatélite e iniciar una PCR. Tras la PCR, se originan numerosas copias del ADN microsatélite del locus, que es de distinto tamaño en función del alelo que se trate. Posteriormente, los distintos fragmentos obtenidos se someten a electroforesis donde los fragmentos del alelo con un menor número de repeticiones migran más que los fragmentos del alelo con un mayor número de repeticiones. De esta forma, se forman distintas bandas en el gel, cada una de las cuales se corresponde con el microsatélite de alelos distintos. Por tanto, las bandas más cercadas al polo positivo se corresponden con el alelo con un menor número de repeticiones y las bandas más cercadas al polo negativo se corresponden con el alelo con un mayor número de repeticiones. Asimismo, se puede descubrir el tamaño de cada repetición gracias a un estándar interno, que esta compuesto por fragmentos de ADN de tamaño conocido, por lo que la migración de un fragmento se compara con la migración de un estándar interno, pudiendo calcular su tamaño aproximado. Además, actualmente se utilizan secuenciadores automáticos de tipo capilar, que generan picos de colores y tamaño diferentes (cada color corresponde con una muestra distinta y un color con el estándar interno). Así, los picos del mismo tamaño y forma identifican un mismo alelo y los picos del mismo color pertenecen a la misma muestra, lo que permite descubrir qué alelos presenta un individuo. De esta forma, se puede secuenciar y comparar simultáneamente numerosas muestras distintas, identificando distintos polimorfismos, que se pueden buscar y comparar en toda la población, detectando la frecuencia de aparición de los alelos en ella. Polimorfismos de un solo nucleótido (SNP) Los polimorfismos de un solo nucleótido es un marcador molecular constituido por las mutaciones puntuales que generan al menos dos alelos distintos, teniendo todos más de un 5% de frecuencia alélica. Además, están formados por mutaciones puntuales que pueden ocurrir en cualquier punto del genoma y pueden tener o no consecuencias en la expresión de un gen (existen más polimorfismos en regiones extragénicas que en regiones codificantes). Existen numerosas técnicas para identificar los SNP, destacando: Formato del Método de Nombre Principio de reacción experimento detección Ensayo TaqMan o nucleasa- Hibridación con sondas Disolución alelo-específicas homogénea Fluorescencia 5’ Arrays de alta densidad Hibridación con sondas Fase sólida con (GeneChip) alelo-específicas microarrays Fluorescencia 22 Hibridación alelo-específica Hibridación con sondas Disolución dinámica (DASH) alelo-específicas semihomogénea Fluorescencia Amplificación en esfera Fase sólida con una giratoria (Sniper) Ligado de nucleótidos placa de microtitre Fluorescencia Corte con enzimas de Fase sólida Ensayo invasor restricción homogénea Fluorescencia Extensión oligonucleotídica Extensión de un solo Fase sólida con Espectrometría del cebador (MassEXTEND) nucleótido micropartículas masiva Análisis bit genético (SNPit Extensión de un solo Fase sólida con una Colorimetríaindirecta oSNPstream) nucleótido placa de microtitre Extensión del cebador Extensión de un solo (Snapshot) nucleótido Gel de electroforesis Fluorescencia Extensión de un solo Disolución Polarización Incorporación de tinte nucleótido homogénea fluorescente Extensión de un solo Disolución Pirosecuenciación Quimioluminis-cencia nucleótido semihomogénea Extensión del cebador ymicroarrays Extensión de un solo Disolución (SNPcode o nucleótido semihomogénea Fluorescencia GeneFlex) Las plataformas donde se automatizan estos sistemas de detección (tecnologías de genotipado) son TaqMan (detecta 1-10 SNPs simultáneamente), primer extensión (detecta 1-25 SNPs simultáneamente), MALDI-TOP (detecta 5-40 SNPs simultáneamente), microarray o chips de SNP (detecta 50-800000 SNPs simultáneamente) e ion Torrent (detecta 50-5000 SNPs simultáneamente). Ensayo TaqMan El ensayo TaqMan es una técnica de hibridación alelo-específica. Para ello, la doble hebra de ADN se desnaturaliza y se une con una sonda alelo-específica (cada sonda tiene la cadena complementaria al alelo que se busca, que difiere en un solo nucleótido del resto de alelos, por lo que todas las sondas de los distintos alelos son iguales y solo difieren en el nucleótido que confiere polimorfismo). Así, cada alelo se une a una sonda específica, que contiene la base complementaria al SNP determinado. La sonda tiene un fluorocromo en 3’ (aporta el color) y un fluorocromo 5’ (anula el color del primer fluorocromo por proximidad). Así, cuando ambos fluorocromos están próximos, se anulan y la sonda no emite ningún color. Además, se colocan cebadores que flanquean la secuencia donde se encuentran el SNP y la sonda. Así, como en una PCR, la polimerasa comienza a replicar el ADN hasta llegar al fluorocromo. En este momento, como la polimerasa tiene actividad exonucleasa (elimina los obstáculos que se asientan sobre la hebra que se replica), esta enzima rompe la sonda, separando ambos fluorocromos y permitiendo que el fluorocromo 3’ emita luz. De esta forma, cuando se observa emisión de luz, se sabe que la sonda ha hibridado con el alelo específico y se detecta el SNP determinado (si la sonda contiene una timina, se sabe que dicho alelo contiene en su SNP adenina). Sin embargo, si no se emite luz, se sabe que la sonda no ha 23 hibridado con ningún alelo y se puede descartar un SNP (si la sonda contiene timina, se sabe que el alelo no contiene en su SNP adenina). Primer Extension La técnica Primer Extension o extensión del cebador consiste en colocar un cebador inmediatamente adyacente al polimorfismo (la localización de los polimorfismos se conoce), ya que es complementario a la secuencia previa al SNP, independientemente del nucleótido que contenga. Posteriormente, se interroga el nucleótido del SNP al hacer una PCR, que incluye nucleótidos marcados de un color distinto, lo que permite diferenciar un nucleótido del otro. De esta forma, una PCR normal emplea desoxirribonucleótidos (propios de la estructura del ADN), mientras que la PCR de esta técnica emplea didesoxirribonucleótidos, que son nucleótidos que han perdido su oxígeno en los grupos hidroxilo en posición 2’ y 3’. Así, cuando la polimerasa incorpora uno de estos nucleótidos marcados, no puede añadir más nucleótidos y se finaliza la replicación, ya que no dispone de un extremo 3’ libre para generar el enlace fosfodiéster. Así, en esta técnica, se hace una PCR que incorpora un solo nucleótido, ya que la polimerasa reconoce al cebador y comienza la replicación justo en el nucleótido del SNP, que hibrida con su didesoxinucleótido complementario, que impide que se siga llegando a cabo la replicación. De esta forma, al unirse al didesoxinucleótido, se emite una luz de un color determinado, lo que permite descubrir qué nucleótido ha añadido la polimerasa y cuál es el nucleótido del SNP. Mediante esta técnica, se obtienen picos de distinto color a lo largo de todo un genoma, lo que identifica qué nucleótido se encuentra en cada posición, identificando los distintos SNPs que presenta el individuo. Así, un individuo puede presentar dos picos de distinto color cercanos, lo que significa que es un heterocigoto y tiene distintos SNPs en la misma posición en distintos cromosomas. Sin embargo, los homocigotos presentan un pico de mayor tamaño y de un único color, ya que presentan el mismo SNP en ambos cromosomas y en el mismo locus. Arrays o BeadChip Los chips de SNPs son soportes pequeños que presentan diferentes sondas, que son los cebadores que interrogan los SNPs. Así, el ADN del individuo que se quiere genotipar se hibrida con los oligos o cebadores (sondas), que interroga al nucleótido del polimorfismo, emitiendo una luz determinada que permite identificar el nucleótido que hay en el SNP. La forma más sencilla es colocar sobre una estructura plana los oligos enganchados y sobresaliendo. En ellos se ponen los fluorocromos para A y G y posteriormente hibrida con el ADN del individuo. Así, en estos chips se pueden colocar hasta 800000 SNPs distintos en distintas localizaciones del genoma, de forma que cada poro se corresponde con un locus distinto, lo que permite analizar simultáneamente los SNPs en 800000 locis de un individuo. 24 Además, para detectar el polimorfismo de una población, se comparan la coloración detectada en distintos chips de distintos individuos. Así, se distinguen entre homocigotos dominantes, heterocigotos u homocigotos recesivos y se cuantifica cuantos existen en la población. Propiedades de los marcadores moleculares Para considerarse marcadores moleculares estos deben cumplir dos requisitos: Presentar herencia mendeliana. Deben pertenecer a un locus que se hereden según las leyes de Mendel (no puede haber sobrecruzamientos) y se tiene que poder detectar en cada individuo el cromosoma parental del que proviene. Presentar polimorfismo. En un segmento cromosómico, debe haber al menos dos formas alélicas y la forma alélica menos frecuente debe aparecer, al menos, en el 5% de la población. Por tanto, un marcador es más útil cuanto más polimorfismo presente, pero como los polimorfismos de una población no se mantienen constantes se debe medir mediante: Heterocigosis del marcador. Es la probabilidad de que dos individuos tomados al azar de una población de referencia no compartan el mismo genotipo. Por tanto, cuanto más elevado sea la heterocigosis, menor es la probabilidad de que dos individuos compartan el mismo genoma y mayor información aporta el marcador. La heterocigosis es 1 menos la suma de todos los homocigotos. Contenido en información polimórfica (PIC). Es la capacidad de un marcador para poder diferenciar los alelos que son segregados por sus progenitores. Por lo que, cada marcador debe permitir discriminar si proviene de la madre o del padre. Tendremos un heterocigoto no informativo cuando en el hijo no se sabe cuál de los dos cromosomas es de la madre y cuál de los dos cromosomas es del padre, por tanto, aunque el descendiente aumente la heterocigosis, no aporta información. Por el contrario, en un heterocigoto informativo se puede trazar en qué cromosomas parentales provienen los cromosomas del hijo. El PIC se expresa como la diferencia de 1 menos la suma de los homocigotos menos la suma de los heterocigotos no informativos. Así, en el PIC, se puede trazar el origen del polimorfismo, mientras que en la heterocigosis solo compara la variabilidad de genomas en la población. Por tanto, PIC es una medida más baja, pero más real que la heterocigosis para medir la capacidad de información del polimorfismo de un marcador. Aplicaciones de los marcadores moleculares Los marcadores moleculares tienen muchas aplicaciones prácticas en distintas disciplinas, como seguridad alimentaria (detectar y diferenciar los organismos presentes en un alimento) o trazabilidad (detectar si el ternero que nace es el mismo individuo que termina en la carnicería). Asimismo, se emplea en los controles de filiación, permitiendo detectar si un animal es el verdadero padre de sus hijos. 25 TEMA 4. IDENTIFICACIÓN DE GENES DE INTERÉS VETERINARIO Mapas genómicos Existen diferentes tipos de mapas genómicos: mapas genéticos, mapas físicos o cromosómicos (hibridación in situ e hibridación comparativa – Zoo-FISH) y mapas físicos de alta resolución (células somáticas híbridas, genotecas y secuenciación). Mapas genéticos Son los primeros que se establecieron y consisten en establecer el orden relativo de los genes basándose en la cosegregación de los loci en familias de referencia. Por tanto, establecen distancias genéticas de tal forma que la distancia entre dos marcadores es proporcional a la tasa de recombinación existente entre esos dos loci. Los gametos, durante la profase, presentan cromosomas homólogos con una cromátida y se encuentran muy cerca generándose sobrecruzamientos. Posteriormente, en la anafase, se separan con los segmentos cromosómicos intercambiados. Este fenómeno fue detectado por Bateson y Punnett (1900) tras analizar de nuevo los experimentos de Mendel ya que en ocasiones aparecían cruces con guisantes que no presentaban la segregación esperada. Años después (1960), Morgan intuyó que dos loci que intercambiaban segmentos durante la meiosis generaban una segregación diferente de la esperada y lo denominó recombinación. Cuando ocurre la recombinación, lo que se detecta entre dos loci es el ligamiento, ya que dos loci próximos en un cromosoma tienden a permanecer juntos y a transmitirse juntos. Por tanto, si tenemos unas frecuencias equivalentes (loci muy separados), la probabilidad de que A se transmita en un mismo gameto con B es la misma que con b, por lo que en el 50% de los casos hay una disposición parental y en el otro 50% de los casos una posición recombinante. Cuando los loci se encuentran muy juntos en un mismo segmento cromosómico, la frecuencia de los recombinantes será diferente a la de los parentales. Por tanto, lo que determinaron los investigadores es que la probabilidad de recombinación entre dos loci sirve como medida de distancia, ya que cuanta más pequeña sea la probabilidad, más cerca estarán los loci. Además, el orden lineal de los loci presupone que cada marcador es un locus que ocupa una posición bien definida en el cromosoma y los alelos de ese marcador, en un heterocigoto, ocupan su posición correspondiente en los cromosomas homólogos. La unidad del mapa genético es el cM (centiMorgan) y es la distancia entre dos loci para los que un producto meiótico de cada 100 es recombinante. 1 cM es equivalente a 1 millón de nucleótidos. Análisis clásico de ligamiento Para este proceso es necesario el genotipado de todos los marcadores polimórficos de todos los individuos de las tres generaciones y se analizan los resultados de la tercera generación para detectar si algún microsatélite está ligado al gen desconocido que rige el carácter de interés. Por tanto, si en la tercera generación aparece algún individuo en el que un determinado locus de un 26 marcador se relaciona con un fenotipo distinto al de las generaciones anteriores, se puede afirmar que dicho marcador está ligado al gen de interés. Por ejemplo, partimos de un abuelo sano y una abuela enferma que tienen una hija enferma (meiosis informativa, A1 está cerca del gen de la patología). Al cruzarla con un individuo sano aparecen hijos sanos y enfermos, donde uno de los enfermos tiene su genotipo lejos al de la patología, pero es el resultado de un sobrecruzamiento de A2 con A1. El resto de los individuos enfermos provienen de gametos no recombinantes. Se realiza una función de máxima verosimilitud, en función de los individuos que tienen gametos parentales y recombinantes, para estimar la distancia entre el marcador y el gen responsable de la patología. Donde se maximiza la función es la distancia entre los dos loci. Por tanto, en el análisis clásico de ligamiento es necesario tener familias con un número de individuos en la tercera generación muy alto y tenemos que conocer los recombinantes de esta generación, por lo que se necesita un tamaño muy grande. Además, también es necesario tener una alta densidad marcadores con microsatélites en cada cromosoma (1 microsatélite cada 10 cM). Análisis del desequilibrio de ligamiento Debido a la dificultad del análisis de ligamiento partimos de una población donde, en la generación actual, hay individuos que presentan un mismo fenotipo (enfermedad) pero no sabemos si son familia o no, pero al estar todos igual de enfermo tienen que haber heredado de un ancestro común ese gen. Con este cálculo se observa la historia genética de la población, el tamaño efectivo de la generación 0 y el número de generaciones que se han producido. Por tanto, los mapas genéticos nos dan un orden y se detectan loci muy cercanos donde no se ha producido sobrecruzamientos y aparecen juntos en la descendencia. Mapas físicos o cromosómicos (citogenéticos) Estos mapas permiten identificar en qué cromosoma y en qué banda citogenética se encuentra una secuencia de interés; sin embargo, tienen poca resolución, por lo que no permiten identificar la secuencia exacta. Hibridación in situ Se selecciona una región grande donde se encuentra el marcador conocido, que se emplea como una sonda marcada con un fluorocromo y es complementaria al gen que estamos buscando. Después, la sonda se hibrida con los cromosomas en metafase (previamente se han separado las dobles hebras de ADN), por lo que se une únicamente a su secuencia complementaria. 27 Por tanto, si el marcador es telomérico, hibrida en todos los telómeros cromosómicos. A su vez, en las duplicaciones, la sonda hibrida en varios puntos del cromosoma; mientras que, en las deleciones, la sonda no se hibrida con ningún cromosoma. Finalmente, el lugar del cromosoma donde hibrida la sonda indica donde se localiza el marcador de interés y, por tanto, el gen desconocido que subyace al carácter. La resolución de la hibridación in situ es que es la distancia mínima, expresada en pares de bases, que debe separar dos secuencias a lo largo de una fibra de ADN para que éstas puedan ser discriminaras y ordenadas. Hibridación comparativa – Zoo-FISH Un zoo-FISH es una hibridación in situ con fluorescencia donde se elige la región aledaña a la región complementaria de la zona, buscando dicha región en otras especies mejor definidas, intentando descubrir qué genes presenta esa región. Esto se debe a que el orden de las secuencias y los genes contenidos se conservan a lo largo de las especies, ya que el cromosoma de una especie puede repartirse en fragmentos muy grandes en diversos cromosomas de otras especies, pudiendo tener ambas especies genes parecidos. Mapas físicos de alta resolución Células somáticas hibridas Los mapas de células somáticas hibridas se obtienen cuando se juntan en un mismo cultivo dos especies celulares distintas (normalmente se junta una célula del mamífero de interés con una célula de roedor, ya que estos animales tienen líneas celulares muy estables). Así, se generan una línea híbrida de células con dos núcleos, denominadas heterocarion, que son muy inestables. Al cabo de un tiempo de cultivo, como una célula con dos núcleos es muy inestable estos se fusionan, por lo que aparece una célula con un núcleo muy inestable porque tiene todos los cromosomas de una especie y todos los cromosomas de la otra. Finalmente, esta célula pierde algunos cromosomas al azar para ser una célula somática estable, que contiene el set completo de cromosomas del roedor y algunos cromosomas del otro mamífero. Si se repite este proceso, se obtienen de forma aleatoria células somáticas que retienen distintos cromosomas y distintos fragmentos de cromosomas. Así, tras varias repeticiones se obtiene todo el genoma de interés en distintas líneas de células somáticas híbridas, generando un panel de células somáticas híbridas que permite localizar de una manera más precisa el gen de interés. Así, cada línea celular presenta una combinación distinta de fragmentos cromosómicos, que son grandes, aunque escasos en cada una de estas células. Posteriormente, se llevan a cabo numerosas PCRs, descubriendo qué fragmentos cromosómicos contiene cada línea celular y finalmente, se estudian las líneas celulares que contengan el fragmento en el que se encuentra el gen de interés. 28 Debido a que no se puede determinar qué fragmentos mantiene cada línea celular, antes del proceso de hibridación se irradia la línea celular del animal de interés para romper los cromosomas, siendo así más fáciles de cartografiar. En los paneles de radiación, la medida de distancia es el centiRaid (cR), que mide la distancia entre dos loci que corresponde a una frecuencia de rotura por irradiación (en rads) del 1% entre esos dos loci y equivale a 100000 bases. Genotecas Las genotecas consisten en la integración de regiones cromosómicas de tamaño variable en diferentes sistemas para generar colecciones de clones representativos de parte o la totalidad de un genoma. Estas colecciones se utilizan para cartografiar los genes responsables de fenotipos diversos y eran el elemento fundamental de los proyectos genoma. Para generar estas genotecas, se fragmentan vectores con enzimas de restricción y se introduce un fragmento del genoma que queremos estudiar (previamente cortado con la misma enzima de restricción), por lo que se genera un vector recombinante que se introduce en una célula bacteriana y estas se cultivan obteniendo clones del vector. En función del fragmento de interés se utilizan unos vectores u otros: Plásmido. Tienen fragmentos pequeños, de 0,1 a 15000 bases, por lo que podemos no coger el gen completo con ellos. Cósmido. Los fragmentos van de 10000 a 60000 bases. BAC. Los fragmentos son mucho mayores entre 10000 y 250000 bases. YAC. Los fragmentos tienen entre 50000 y 2000000 bases. Por último, cuando se tienen los distintos clones, en función del vector que contenga la bacteria, estos se caracterizan y se descubren los genes que tiene cada clon, por lo que un mismo gen puede aparecer en más de un clon porque existen fragmentos solapante. Mediante la técnica de contig, se descubre el orden exacto de la secuencia cromosómica al comparar los fragmentos solapantes, de forma que uno es la continuación del otro, lo que permite descubrir el orden de la secuencia nucleotídica. Resumen mapas genómicos Mapa genético. Se ubican los loci porque están ligados o muy próximos, se hace con recombinantes y mediante la función de máxima verosimilitud. Se mide en cM. Mapa citogenético. Tenemos un gen dentro de los marcadores que ubicamos en una localización subcromosómica, son los híbridos somáticos o zoo- FISH. Mapa físico. Se aumenta la resolución con los paneles híbridos de radiación y, más aún, con los 29 contigs de YAC de BAC y clonado posicional donde se ubica exactamente donde está el gen que queremos estudiar. Secuencia. Identificación de genes de interés veterinaria Asociación de loci con caracteres Un carácter se define como un atributo que es heredable y posee una función. Los caracteres están controlados por loci y estos se pueden cartografiar mediante la información anotada de los genomas. Cuando tenemos un gen desconocido y lo queremos identificar la estrategia a seguir depende de la información que tengamos. Podemos no disponer de la secuencia anotada, pero disponemos de marcadores, establecemos los mapas genómicos y detectamos la asociación entre uno o más marcadores y un carácter concreto. Hipertrofia muscular bovina La hipertrofia muscular bovina afecta a muchas razas bovinas y es un carácter que incrementa de forma exagerada la masa muscular en el tren posterior de los individuos a los que afecta. Macroscópicamente genera una hipertrofia muscular generalizada (aumenta más un 20%), una reducción de los órganos como el estómago (hasta un 40%) y la mejora del índice de transformación (disminución de un 9%). Microscópicamente, se observa una hiperplasia muscular (aumento del número de fibras), una reducción del contenido en grasa y una reducción del tejido conectivo. Cabe destacar que las carnes de las razas con hipertrofia muscular están más valoradas aunque sean muy magras. De esta forma, en 1996 se buscó su causa estudiándose el genoma bovino, que apenas estaba anotado, pero se conocían numerosos marcadores neutros (microsatélites). Posteriormente, en 1980, Botstein sugiere saturar el genoma con los marcadores disponibles y más informativos, los microsatélites, y así construir los mapas genéticos basados en familias de referencia, es decir, es realizó un análisis clásico de ligamiento. Varios microsatélites se mostraron ligados con el locus causante de la hipertrofia muscular bovina, siendo el más próximo el llamado TGLS44 y la distancia entre ambos es de 3,1 cM. Con esto se consiguió situar la secuencia de interés en la región más cercana al telómero del cromosoma 2, por lo que se hizo un zoo-FISH en busca de genes ortólogos conocidos en el ser humano y en el ratón. Así se encontró al gen Col3AI, pero no era el gen afectado por dicha mutación. Además, por esta técnica se identificó que el marcador TGLA44 y el gen Col3AI están ligados. Por tanto, lo que se consiguió con esto es situar el locus que controla el carácter de hipertrofia muscular en el cromosoma 2 del genoma bovino en una localización subcromosómica definida. No se conoce todavía el locus responsable pero se ha conseguido restringir la región en dónde buscar al gen responsable, por lo que a partir de aquí se puede desarrollar una estrategia de clonado posicional. Para ello, se constituyó una genoteca con YAC (cromosoma artificial de levadura), que integra fragmentos muy grandes de nucleótidos, obteniéndose un mapa en cR, pero no permitió detectar la mutación. Posteriormente, se eligieron individuos con un mismo carácter y se hizo 30 un análisis de desequilibrio de ligamiento y, aunque se obtuvo el mapa de nucleótidos, no se logró descubrir la localización de la mutación responsable. Con el tiempo se obtuvo que el crecimiento muscular en el ratón estaba regido por la superfamilia de los genes TGF-β, que son factores de crecimiento. Cuando eliminaron el gen CDF8 de un ratón, este comenzó a desarrollar hipertrofia muscular, por lo que este gen se consideró como un candidato posicional de la hipertrofia muscular bovina, ya que hacía que en los ratones apareciera el mismo fenotipo. Se buscó el gen CDF8 en la genoteca de YAC y se encontró en el contig realizado, por lo que se secuenció el gen y se descubrió que presentaba numerosos polimorfismo en sus intrones y exones, de forma que algunas mutaciones estaban relacionadas con este crecimiento descontrolado. Este gen codifica para la miostatina. Esta proteína mantiene un crecimiento medido del músculo, que cesa el crecimiento en un momento dado pero, cuando está mutada, se produce un crecimiento mayor y desbocado del músculo. Efecto Hampshire o rendimiento Napole (RN). Clonado posicional El rendimiento Napole es un parámetro que mide el rendimiento chacinero de la carne de cerdo y afecta a la raza Hampshire, ya que estos animales tienen un rendimiento Napole peor de los esperado porque su carne tiene un pH bajo, baja retención de agua, bajo rendimiento chacinero e incremento de glucógeno en músculo. Al intentar descubrir la causa, se sospechó que alguna enzima del metabolismo del glucógeno estaba mutada, por lo que se estudiaron cuatro enzimas de la ruta metabólica del glucógeno. De esta forma, si antes de determinada enzima la ruta se desarrolla con normalidad, el problema se encuentra en etapas posteriores, mientras que, si antes de determinada enzima la ruta se altera, el problema se encuentra en etapas anteriores. Sin embargo, ninguna de las cuatro enzimas se veía alterada. Posteriormente, mediante clonado posicional se realizó un mapa genético basándonos en los recombinantes y utilizando marcadores neutros, como los microsatélites. Con esto se observó que el gen se encontraba ligado al microsatélite SW 936 y se localizó por FISH en el brazo largo del cromosoma 15, en la banda 25. Después se realizó un mapa comparativo con la especie humana para identificar marcadores ortólogos y se descubrió que había genes en regiones conservadas que pertenecían a esa región, pero ninguno de estos genes presentaba una mutación compatible con la afección. Se realizó un panel de híbridos de radiación para ordenar los loci y se utilizó una genoteca de BAC para generar un contig de la región. Los datos obtenidos, se juntaron con los de otro equipo de investigación para detectar el desequilibrio de ligamiento y se observó que la función se maximizaba donde aparecía una nuevo microsatélite y, en esa zona, no había ningún gen de ninguna especie. Por tanto, el rendimiento Napole esta codificado por PRKAG3 que codifica la subunidad reguladora de AMPK o protein quinasa AMP dependiente. Esta AMPK, de forma general se encuentra inactiva en el 31 medio pero, cuando aparece AMP en el medio este se une a la estructura reguladora y a la región auto-inhibidora y se activa. La AMPK en un animal normal es una enzima encargada de mantener una tasa alta de ATP y este es fundamental para la contracción muscular. Al consumirse el ATP durante la contracción, aumenta el AMP, lo que produce un bloqueo de síntesis de ácidos grasos y esteroides, activándose la oxidación de ácidos grasos y, por tanto, la glucogenólisis. La mutación en la subunidad reguladora PRKAG3 lo que realiza es una inhibición de la activación de la enzima por AMP, por lo que se imposibilita la glucogenólisis, activándose el transporte de glucosa y síntesis de glucógeno y produciéndose la acumulación del glucógeno en el músculo. Estrategia del gen candidato El análisis de la hiperuricosuria canina se realizó mediante la estrategia del gen candidato, en la que se eligen genes independientemente de su posición, simplemente porque conocemos el mismo carácter en otra especie, por lo que buscamos la secuencia del mismo gen en la especie de estudio La hiperuricosuria aparece en la especie humana y en muchos perros (dálmatas). Esta enfermedad se caracteriza por elevadas concentraciones de urea en sangre y en orina, lo que se debe a una incorrecta transformación del ácido úrico en alantoína. En la especie humana se conoce que esta enfermedad se produce por mutaciones en varios genes transportadores del urato como SLC2A9 o SLC22A12. En la especie canina, se ha producido una mutación con cambio de sentido (C188F) en un dominio conservado transmembrana (TM5) en el gen SLC2S9. Todos los dálmatas excretan ácido úrico porque, en la selección de sus manchas características, se han seleccionado también otros genes cercanos al locus responsable de las manchas (barrido selectivo). Por tanto, en un fragmento cromosómico de una longitud determinada, se encuentra la mutación que produce las manchas negras, por lo que se seleccionan los animales con manchas negras y pequeñas. Sin embargo, muy cerca a dicho locus, se encuentra el locus de la urea oxidasa u otro gen implicado que impide la transformación del ácido úrico. Estudio de la alfa S1 caseína caprina El estudio de la alfa S1 caseína de la cabra se estudió mediante clonado funcional, donde se parte de una secuencia aminoacídica de una proteína bien conocida, por lo que a partir de la secuencia de aminoácidos, se genera la secuencia de nucleótidos que la codifica y se busca dicha secuencia en el genoma, encontrando al gen responsable. Esta técnica no se utiliza actualmente. Esta caseína es importante porque determina el rendimiento quesero y, en el caso de la cabra, se encontraron 7 isoformas de la S1 caseína, por lo que existían 7 alelos distintos que codificaban para 7 proteínas diferentes. Por tanto, los alelos A, B y C generan isoformas de la caseína completamente funcionales; los alelos D, E y F generan isoformas que presentan algo deficitaria su función y, los alelos nulos, no generan ningún tipo de caseína en la leche. Se realizó un estudio de clonado funcional y se encontró el gen responsable de la caseína, y cuenta con 19 exones, de los cuales 16 son codificantes. De esta forma, se descubrió que el alelo F, que generaba poca caseína, presentaba una deleción de 37 aminoácidos producida por una mutación en la diana de reconocimiento de eliminación 32 del intrón contiguo al exón 9. Esto hacía que se eliminaran los exones 9, 10 y 11 junto con el intrón, formándose una decena de transcritos diferentes con su función algo alterada. A su vez, el alelo G se producía por una sustitución de guanina por adenina que afecta a la eliminación del intrón 4, haciendo que se eliminen trece aminoácidos de más. Además, estos aminoácidos se encuentran en la región 5’ no traducida, por lo que se altera el promotor, el gen se transcribe menos y se genera menos caseína. El alelo E se forma por la inserción de un LINE pequeño en el exón 19, que se encuentra al final del gen. Así, se elimina la parte final del gen, pero la proteína es casi normal. Finalmente, existen dos alelos nulos: uno se forma por una mutación de un nucleótido que hace que aparezca un codón STOP al principio de la secuencia y que no se forme la proteína. El otro alelo nulo se forma por la inserción de un LINE de 10000 bases en el intrón 8. Falta de pigmentación en el perro El estudio del fenotipo de la falta de pigmentación en el perro (se asocia con la sordera) se realizó mediante una estrategia de asociación con GWAS (Gonme Wide Analysis), que consiste en el análisis de todo el genoma mediante chips de SNPs, detectando la asociación genética entre SNPs y el gen responsable del carácter de interés. Así, en este estudio, se utilizaron chips de SNPs de 170000 marcadores, eligiendo como marcadores SNPs que están bien distribuidos por todo el genoma, lo que permite detectar dicha asociación. También se parte de la premisa de que todos los individuos afectados, independientemente de si están emparentados o no, provienen de un ancestro común que desarrolló la mutación. Además, se supone que la mutación es recesiva (suele ocurrir en la mayoría de los casos), por lo que todos los individuos con el fenotipo mutado tienen halotipos iguales en los que el gen de dicho carácter está mutado. Por tanto, la falta de pigmentación aparece en homocigotos recesivos para el gen sw/sw, las manchas repartidas por el cuerpo aparecen en el heterocigoto S/sw, las manchas blancas que envuelven todo el cuello aparecen en el homocitogo sP/sP, las manchas en el cuello que no cubren la nuca aparecen en homocigotos si/si, y la coloración sólida aparece en los homocigotos. El primer paso del estudio fue genotipar 10 boxers blancos y 9 sólidos. Para ello, las distintas secuencias del genotipo se colocaron en chips de SNPs y se observó cómo se comportaban las frecuencias de los alelos de cada SNP. De esta forma, las frecuencias alteradas generaban picos en las gráficas de asociación y se detectaron alteraciones en el cromosoma 20, por lo que se aisló la región con SNPs de dicho cromosoma, densificando la región y determinando una región megabase asociada a sw. Esta región se correspondía con una banda oscura (zona con pocos genes pero largos) y solo presentaba el gen MITF (microphtalmia-associated transcription). Además, como ya se había secuenciado el genoma canino cuando se hizo el estudio, no se buscó ningún gen desconocido en dicha región, ya que se sabía que en dicha región solo existía un gen. Posteriormente, se estudió el gen MITF en otras razas donde también segrega el color blanco del pelo. Así, si las razas se habían establecido después de que el ancestro común sufriera esta mutación, todos los perros de pelo blanco de todas las razas deberían presentar dicha mutación, es decir, se espera que las distintas razas compartan un bloque de un ancestro común que contiene la mutación causal. 33 Mediante un análisis de desequilibrio de ligamiento y mediante una genoteca de BAC se identificó la mutación causal tanto en haplotipos sólidos como en haplotipos blancos, se identificaron 124 polimorfismos a lo largo de una región de 120000 bases. Todos estos polimorfismos aparecían en regiones no codificantes, por lo que el alelo sw estaba codificado por una mutación en la secuencia reguladora del gen MITF, constituyendo una mutación en la regulación de la expresión del gen. Se fijaron tres polimorfismos situados en regiones muy conservadas entre especies, que era el promotor M del gen MITF. Así, los individuos blancos presentaban una inserción de SINE de 3000 bases en el extremo 3’ del promotor M, un polimorfismo de longitud de 100 bases en el extremo 3’ del promotor M, y un cambio nucleotídico en una posición no conservada cerca al SINE. Por tanto, el p

Use Quizgecko on...
Browser
Browser