Summary

Ce document traite des principes de base de la génétique, décrivant les acides nucléiques, les gènes, le génome et l'évolution de la vie sur Terre. Il explore notamment les travaux de Mendel et d'autres chercheurs pionniers dans le domaine de la génétique.

Full Transcript

Chapitre I. Acides nucléiques, gènes et génomes 1. Les bases biologiques de l’hérédité et la nature chimique des gènes : Hérédité : transmission des caractères à la descendance génétique : étude du phénomène d’hérédité A partir d’observations réalisées sur la plante du petit pois (Pisum sativ...

Chapitre I. Acides nucléiques, gènes et génomes 1. Les bases biologiques de l’hérédité et la nature chimique des gènes : Hérédité : transmission des caractères à la descendance génétique : étude du phénomène d’hérédité A partir d’observations réalisées sur la plante du petit pois (Pisum sativum), Mendel déduit que les caractères visibles (couleur des fleurs, formes des graines,...) sont déterminés par des entités transmissibles appelées "facteurs". Il établit ensuite ce qui deviendra les lois fondamentales de l’hérédité : - Chaque facteur est présent en deux exemplaires (issus de chaque parent) et détermine un caractère qui est dominant (A) ou récessif (a). - Lors de la reproduction, chaque parent transmet à son descendant un seul des deux facteurs (ex. A/a -> A ou a), avec une égale probabilité pour chacun des deux (loi de disjonction). - Les différents facteurs (A, B,..) sont transmis à la descendance indépendamment les uns des autres (loi de transmission/ségrégation indépendante). Il est donc possible de prévoir les différents types de gamètes et leurs proportions chez les parents, ainsi que les phénotypes possibles de leur descendance. Nature chimique des gènes (ou des "facteurs" de Mendel) ? - Etude par Friedrich Miescher des constituants chimiques des noyaux de leucocytes : il y trouve des protéines et une nouvelle substance riche en phosphate et en azote, dépourvue de soufre (contrairement aux protéines), qu'on peut précipiter (par extraction alcaline et acidification), et qu’il appelle "nucléine". - Grâce aux progrès de la biochimie du début du 20ème siècle, on parvient à déterminer la composition chimique des protéines et de la "nucléine" (polymères d’acides aminés (20) polymère de nucléotides (4)) - Plus tard, deux types d’acides nucléiques sont mis en évidence : l’ADN (initialement considéré comme étant propre aux animaux) et l’ARN (initialement considéré comme étant propre aux végétaux et à la levure) Les acides nucléiques : Polymères de nucléotides Liens entre nucléotides et polatité des acides nucléique : lien phosphodiesther, polarité 5’-3’ (sens de lecture 5’ -> 3’) Le phénomène de transformation des bactéries R -> S (Griffith, 1928) Les bactéries S fabriquent une capsule de polysaccharides. Les bactéries R portent une mutation dans un des gènes (capS) nécessaires à la biosynthèse de cette capsule. L’injection de bactéries S provoque la pneumonie. Dans un échantillon de tissu, on retrouve de nombreuses bactéries S. L’injection de bactéries R ne provoque pas la pneumonie. Dans un échantillon de tissu, on retrouve des bactéries R, mais celles-ci finissent par être éliminées par le système immunitaire. L’injection de bactéries S tuées par la chaleur ne provoque pas la pneumonie. L’injection d’un mélange de bactéries R vivantes et de bactéries S tuées par la chaleur provoque la pneumonie. Dans un échantillon de tissu, on retrouve des bactéries R, mais aussi des bactéries S. ➔ Conclusion. Des bactéries R, mises en présence de bactéries S tuées par la chaleur, ont été transformées en S. Ce caractère S est transmissible, c’est donc bien une transformation génétique. - Alloway (1932) : lyse de bactéries S et filtration (pour éliminer les débris cellulaires), puis observation importante : bactéries R + lysat de S -> transformation de R en S Donc, une substance soluble de S a génétiquement transformé R en S - Avery & coll. (1944) : reprise des exp. de Griffith et d'Alloway avec comme objectif d'identifier la nature chimique de la "molécule transformante" des bactéries S. Contre toute attente, ils découvrent qu'il s'agit de l’ADN et non des protéines (Avery, MacLeod, McCarty, 1944) La suite des expériences d’Avery & coll. : 1) R + ADN purifié de S -> transformation génétique de R en S Oui mais cet ADN n’est-il pas contaminé par des protéines ? 2) R + ADN (purifié de S) traité par une ADNase -> pas de transformation génétique de R en S Oui mais cet ADN, en agissant comme une sorte de support, est peut-être indispensable pour que les protéines (qui contaminent la préparation d’ADN) assurent correctement leur rôle de gènes... 3) R + ADN (purifié de S) traité par une protéase -> transformation génétique de R en S -> il n’y a donc plus de doute possible, les gènes sont constitués d’ADN... Structure en double hélice de l'ADN (Watson & Crick, 1953) Découverte importante car elle fournit une première explication convaincante aux trois grands problèmes posés par le concept "ADN = support chimique de l'hérédité" : nature, transmission (copie) et évolution de l'information génétique ? - nature de l'information, séquence des bases - transmission de l'information par réplication semi-conservative - évolution de l'information par des changements de la séquence des bases 2. La transmission et le décodage de l’information génétique transmission de l'information génétique, d'une génération à l'autre comment l'ADN se duplique-t-il ? décodage de cette information ou comment une séquence de bases azotées peut- elle déterminer les propriétés biologiques d'un être vivant comment la séquence des bases azotées de l'ADN détermine- t-elle les propriétés biochimiques des espèces ? - La réplication principes de base Enzyme : complexe ADN polymérase Substrat reconnu par l’enzyme : ADN monocaténaire + amorce complémentaire (ARN pur réplication, ADN pour PCR) Précurseurs : dATP, dCTP, dGTP, dTTP (dNTP) = désoxyribonucléosides triphosphates Sens : 5' vers 3' (extension de l’extrémité 3’ de l’amorce) - La transcription : principes de base Enzyme : complexe ARN polymérase Substrat reconnu par l’enzyme : ADN bicaténaire Matrice (ou modèle) : ADN monocaténaire (brin non-codant, ou non-sens) Précurseurs : ATP, CTP, GTP, UTP (NTP) == ribonucléosides triphosphates Sens : 5' vers 3' (sans amorce) La portion d'un gène qui est transcrite = l'unité de transcription de ce gène Règles de complémentarité entre les bases : ADN : 𝐴 = 𝑇 𝑇=𝐴 𝐶≡𝐺 𝐺≡𝐶 ARN : 𝐴 = 𝑈 𝑈=𝐴 𝐶≡𝐺 𝐺≡𝐶 - Traduction : organisation des ARNm et code génétique ARNm chez les procaryotes : ARNm chez les eucaryotes Région codante = séquence de codons = " open reading frame, ORF ", qui débute par le codon START AUG et se termine juste avant un codon STOP (UAA, UAG, ou UGA) - Le code génétique - dégénéré : un codon détermine un acide aminé, mais la plupart des acide aminés sont déterminés par plusieurs codons possibles - quasi universel : le même code génétique est utilisé par l’immense majorité des êtres vivants (issus d’un ancêtre commun), mais dans certains cas quelques déviations sont apparues au cours de l’évolution. - déterminé par les aminoacyl-ARNt synthétases. Ces enzymes, au nombre de 20 (une par acide aminé), lient de manière covalente un acide aminé à un ou plusieurs ARN de transfert (ARNt) présentant un anticodon (ex. 5’-CCA-3’ pour le tryptophane = Trp = W -> appariement au codon 5’- UGG-3’). Certains génomes ne sont pas constitutés d’ADN bicaténaire Le génome de tous les organismes cellulaires et de nombreux virus (surtout ceux dont le génome est de grande taille) est constitué d’ADN bicaténaire : Chez les virus dont le génome est de petite taille, celui-ci est parfois constitué d'ADN monocaténaire, ou même d'ARN, mono- ou bicaténaire : La réplication de ces génomes implique des polymérases particulières, en particulier chez les virus à ARN. Il existe même (chez les rétrovirus) une polymérase qui synthétise de l’ADN sur base d’un ARN matrice (transcriptase inverse). Exemple : * La transcriptase = ARN polymérase ARN double-brin dépendante (utilise le brin – comme modèle pour la polymérisation de brins +) * La réplicase = ARN polymérase ARN mono-brin (+) dépendante Le véritable point commun entre tous les systèmes génétiques réplicatifs : les bases azotées et leur principe d’appariement intimement lié au phénomène du vivant et à sa capacité de reproduction 3. L’origine de la vie Comment les tout premiers systèmes génétiques sont-ils apparus sur Terre ? Quelles sont les étapes du processus évolutif prébiologique qui ont conduit à l'apparition de ce système ? - Mise en contexte plus anciennes traces géochimiques et fossiles indiquent que les bactéries existaient déjà vers - 3.5.109 années, voire avant. Il est admis que ces formes de vie ont émergé suite à un long processus d’évolution prébiologique qui s’est produit dans des environnements riches en molécules organiques (notion de soupe prébiotique - cf.exp. de Stanley Miller, météorites). L’étude des étapes de cette évolution prébiologique repose sur la conception de modèles théoriques, qu’on tente de conforter par des expériences en laboratoire et qui s’inspirent des propriétés moléculaires des systèmes vivants actuels - Un scénario de l’apparition de la vie sur terre Dans la "soupe prébiotique" : assemblage aléatoire, dans certaines conditions, de polymères ou macromolécules, dont certains sont de catalyseurs (enzymes), mais ces formes rares sont instables et ne peuvent donc se maintenir. - Evénement clé : apparition de catalyseurs auto-réplicatifs capables de favoriser la synthèse de copies d’eux-mêmes -> maintien plus probable -> évolution de type darwinien : par variation- sélection, la fonction d'auto-réplication de ces catalyseurs devient immanquablement de plus en plus performante. Question : nature chimique de ces catalyseurs auto-réplicatifs primordiaux ? Hypothèse : ces catalyseurs = ARNs -> hypothèse du monde des ARNs (" RNA world ") Pq des ARNs ? car ces macromolécules sont connues pour pouvoir à la fois servir de support d'information génétique et réaliser la catalyse de réactions chimiques (ribozyme, ARN enzyme) Les ribozymes adoptent des structures secondaires et tertiaires complexes et sont généralement associés à des protéines accessoires (-> complexes ribonucléoprotéiques) - scénario évolutif basé sur l’ARN : 9 étapes clés 1ère étape : assemblage aléatoire à partir de nucléotides de courts ARNs qui sont reliés (ligation) pour former des séquences plus longues -> apparition rare parmi ces ARNs de ribozymes. L’appariement d’ARNs sur de courtes séquences permet la juxtaposition d’extrémités 5’ et 3’ qui favorise les réactions de ligation. Celles-ci peuvent avoir été initialement favorisées par la liaison de ces petits ARNs à la surface de certains minéraux ou argiles (ions métalliques comme catalyseur). Par assemblage d’un brin complémentaire servant ensuite à son tour de matrice, le ribozyme peut être dupliqué 2ème étape : apparition d’un ribozyme qui présente une activité ARN ligase : sa duplication sera alors nettement plus efficace 3ème étape : un ribozyme à activité ARN ligase se répliquera de manière encore plus efficace s’il acquiert par variation-sélection une activité ARN polymérase : 4ème étape: le ribozyme à activité ARN polymérase s’entoure d’ARNs supplémentaires, qu’il va répliquer, et qui favorisent son activité ARN polymérase. Se développe ainsi un système coopératif auto-réplicatif comprenant de plus en plus de ribozymes, lesquels continuent d'évoluer selon les lois de variation et de sélection naturelle vers des capacités reproductives de plus en plus performantes 5ème étape : le système coopératif d’ARNs pourra se maintenir plus facilement s'il est confiné -> apparition à un certain stade, grâce à un nouveau ribozyme, de lipides et de membranes qui doivent pouvoir établir des échanges avec le milieu extérieur. 6ème étape : évolution progressive vers un système d'ARNs coopératifs devenant capable de synthétiser un nouveau type de macromolécule, les protéines (1) : 1ère sous-étape : apparition de cofacteurs et du code génétique Par multiplication des ribozymes de type aminoacyl-ARNt-synthétase, apparition d’un nombre croissant de cofacteurs. En devenant de plus en plus spécifiques, ces ribozymes mettent progressivement en place le code génétique : une aminoacyl-ARNt-synthétase associe un acide aminé à un (ou plusieurs) petits ARNs se liant chacun à un triplet particulier de nucléotides (codon) via leur anticodon. 2ème sous-étape : apparition d’un ribozyme à activité peptidyl-transférase qui relie les acides aminés par des liens peptidiques. Le site actif des ribozymes tend maintenant à être constitué de courts peptides. 3ème sous-étape : apparition d’un nouveau type d’ARN, l’ancêtre des ARNm actuels, qui positionne plusieurs cofacteurs ARN-aa dans un ordre précis -> synthèse par la peptidyl-transférase des premiers polypeptides. Initialement, les petits peptides ainsi synthétisés auraient amélioré les propriétés catalytiques des ribozymes (coenzymes), puis remplacé le site actif de ceux-ci. 7ème étape : évolution vers le stade de protocellule Le système coopératif d'ARNs maintenant capable d'assembler des peptides de plus en plus longs continue d'évoluer dans le sens d'une reproduction plus efficace. Ceci va amener les protéines, des catalyseurs plus performants que les ribozymes, à prendre progressivement le pas sur les ribozymes pour la catalyse des réactions, y compris la réplication des ARNs et la synthèse des aminoacyl-ARNt. Le rôle des ARNs tend alors à se réduire de plus en plus au stockage (ARNm) et au décodage (ARNt, ARNr,..) de l’information nécessaire à l’assemblage des protéines. Ainsi, le nombre d’ARNm augmente considérablement, ils stockent l'information pour la synthèse de protéines de plus en plus diversifiées -> stade protocellule. 8ème étape : apparition de l’ADN bicaténaire = nouvelle forme de stockage de l'information génétique. L’ADN bicaténaire est mieux adapté que l’ARN pour remplir ce rôle, surtout quand l’information génétique se complexifie, car (i) l’absence de groupement –OH sur le carbone 2’ le rend chimiquement plus stable (ii) il est formé de 2 brins complémentaires, l’information n’est donc pas perdue si un des brins est endommagé. En accord avec l'hypothèse que l'ADN serait apparu après l’ARN au cours de l’évolution, dans les cellules actuelles, les précurseurs de l’ADN (dNDP et dNTP) sont synthétisés à partir des précurseurs de l’ARN (NDP et NTP) par des enzymes spécialisées, les ribonucléotide réductases : NDP → dNDP NTP → dNTP 9ème étape : apparition de LUCA (Last Universal Common Ancestor) = le dernier ancêtre commun universel. - Exemples de recherches en soutien de ce scénario hypothétique De nombreuses molécules actuelles contiennent une “partie ARN”. Une synthèse de nucléotides est possible à partir de quelques composés chimiques simples. Se produit dans des conditions compatibles avec les conditions géochimiques primitives - Synthèse spontanée de chaines d’ARN à partir de nucléosides monophosphates Des études assez récentes montrent que dans certaines conditions, une solution de NMP soumis à des cycles d’hydratation – déshydratation forment des chaines d’ARN - Comment isoler en laboratoire un ribozyme artificiel ? 1. Synthèse chimique de molécules d'ADN monobrin de séquences aléatoires et copie in vitro du brin complémentaire -> ADN double-brin 2. Copie par une ARN polymérase des ADNs aléatoires en ARNs 3. Incubation des ARNs en présence d'ATPγS (un oxygène est remplacé par un soufre) : un ARN kinase (rare, peu actif) fixe un groupement 𝐻𝑃𝑂2𝑆 (autophosphorylation, typique des kinases) 4. Purification sur colonne des ARNs porteur d'un S (-> sélection) 5. Les ARNs purifiés sont copiés par la transcriptase inverse en ADNs complémentaires (cDNA) dans des conditions favorisant des erreurs de copie -> nombreux variants (de l’ARN kinase), qui sont amplifiés par PCR 6. Copie des ADNs obtenus en ARNs (comme à l'étape 2) 7. Incubation en présence d'ATPγS (dans des conditions moins favorables, ex. temps plus court de réaction, plus faible conc. d'ATPγS,..) -> répétition des étapes 4, 5, 6, 7... jusqu'à obtention d'un ARN kinase génétiquement optimisé - La théorie des gènes égoïstes (selfish gene) Deux manières de considérer un être vivant comme E. coli : l'information au service de la fonction (vision classique) ou la fonction au service de l'information. Ne peut-on pas considérer une bactérie avant tout comme une molécule d’ADN, descendante des tout premiers acides nucléiques auto-réplicatifs, qui au cours de l’évolution a mis en place autour d’elle une biochimie ultra complexe dont la seule finalité serait de réaliser des copies d’elle-même, en exploitant l’environnement qui l’entoure ? Cette vision ne peut-elle pas s’appliquer aux autres formes de vie plus complexes qui sont par la suite apparues au cours de l’évolution, comme les eucaryotes unicellulaires et ensuite les pluricellulaires ? - La vie existe-t-elle ailleurs que sur terre? Nombreuses exoplanète dans la galaxie. Notion de planète ”habitable” : à une distance telle de son soleil que sa température permet à l’eau d’exister à l’état liquide. On estime que pour environ 20-25 % des étoiles de notre galaxie, une planète de la taille proche de celle de la terre existerait dans la zone habitable. Or, selon les estimations actuelles, notre galaxie comporterait 200 milliards d’étoiles. Cela implique qu’il existerait des dizaines de milliards de planètes potentiellement ”habitables” rien que dans notre galaxie. On peut donc penser que notre galaxie foisonne de vie -> exo- ou astrobiologie. 4. Notions de génomique Génomique = la discipline qui étudie les génomes A réellement débuté avec le séquençage du génome d'organismes Deux sous-disciplines : * Génomique comparative : application d’analyses bioinformatiques pour étudier l'évolution des génomes, utile aussi pour l'annotation des génomes (recensement des gènes et d’autres éléments génétiques fonctionnels d’un génome) * Génomique fonctionnelle : application d’approches expérimentales globales pour tenter de déterminer la fonction des gènes "orphelins" (orphans) - La taille du génome : Génomes bactériens : taille proportionnelle au nombre d’ORFs (n’est pas le cas des eucayotes) et haute densité génique minigénomes pour les bactéries vivant dans environnements confinés génomes de grande taille : grandes capacités d’adaptation à des environnements différents Génomes eucaryotes : grande variation de la taille des génomes au sein de chaque groupe biologique (sans rapport donc avec des degrés différents de complexité biologique) -> séquences répétées dont les transposons taille minimale des génomes tend à augmenter avec le degré de complexité biologique - Le séquençage des génomes Avant d’entamer le séquençage du génome de H. sapiens, il convient de : - réaliser des cartes génétiques et des cartes physiques de qualité du génome humain. - augmenter le rendement des méthodes de séquençage de l’ADN - débuter par le séquençage de "petits" génomes, ceux d’organismes modèles comme E. coli, la levure, le nématode Caenorhabditis elegans, la drosophile Drosophila melanogaster,... -> données précieuses pour l’analyse ultérieure de la séquence du génome humain Deux stratégies possibles pour séquencer un génome a) Stratégie " shotgun sequencing " l’ADN de l’espèce est découpé en petits fragments (« shotgun clones »), chaque fragment est séquencé à partir d’une extrémité. Chaque séquence obtenues est comparée à toutes les autres ainsi qu’a leur complément inverse déduit (matrice de comparaison). On recherche des séquences chevauchantes et construction de proche en proche de la séquence complète à partir de l’ensemble des séquences chevauchantes. La qualité ou fiabilité de la séquence du génome est déterminée par le taux de recouvrement moyen du séquençage (“coverage fold” ou “sequencing depth”) Approche " shotgun sequencing " appliqué pour le séquençage des petits génomes et/ou de génomes contenant relativement peu de séquences répétées (bactéries, virus,...) mais initialement peu efficace pour les génomes de grande taille, généralement riches en séquences répétées. Approche shotgun classique : problématique en raison de la courte longueur des séquences générées (max. 1 kpb) > impossible d’assembler une séquence complète en raison des séquences répétées. Derniers progrès technologiques : obtention par des méthodes NGS (Next generation Sequencing) adaptées de séquences de grande longueur capables de couvrir les séquences répétées de petite taille -> permet l’assemblage de génomes complets malgré la présence de ces séquences répétées. b) Stratégie "clone by clone " Appliquée pour la plupart des programmes initiaux de séquençage génomique y compris pour celui du génome humain. Principe général : face à l’ampleur du travail, celui-ci est subdivisé (en chromosomes, et en parties de chromosome). On commence par baliser le génome -> cartographie génétique : on réalise ensuite la cartographie physique du génome. Cela consiste à cloner dans un vecteur (plasmide BAC) des fragments d’ADN génomiques de grande taille, et ensuite de les positionner le long des chromosomes. En utilisant comme repères les marqueurs génétiques. L’objectif final est d’obtenir une série de fragments recouvrant la longueur complète de chaque chromosome. Stratégie adaptée aux génomes contenant de nombreuses séquences répétées. Chaque fragment (« clone config ») défini par cartographie physique est ensuite séquencé selon une approche « shotgun » jusqu’à obtention d’un taux de recouvrement satisfaisant. Comment identifier les BACs chevauchants et mesurer la longueur de leur partie commune ? Chaque BAC recombinant est extrait de la bactérie ("miniprep") et digéré par une enzyme de restriction. Les fragments sont analysés par une électrophorèse en gel d'agarose. Chaque BAC donne une "fingerprint" (sorte de code barre). La comparaison de ces "fingerprints" permet de repérer les fragments chevauchants (bandes en commun) et la longueur de la zone commune (= somme des longueurs de bandes communes) -> carte physique. ESTs : “expressed sequence tags” -> clonage et séquençage systématiques des ADNc copiés (par transcription inverse) à partir d’ARNm extraits de différents tissus : revient à séquencer toutes les ORFs (1,5% de l’ADN humain) L’amélioration des méthodes de séquençage de l’ADN : La méthode de F. Sanger (méthode des didésoxynucléotides) Technique basée sur la polymérisation d’ADN (par ADN polymérase) à partir d’une amorce en présence des 4 désoxyribonucléosides triphosphates standards (dNTP) et des didésoxyribonucléoside triphosphates (ddNTP) en faible proportion -> si un ddNMP est incorporé dans l’ADN, la polymérisation est interrompue (car le C en 3’ ne peut former de lien phosphodiester avec un nucléotide supplémentaire). Les fragments d’ADN polymérisés (par extension de l’amorce) ont la même extrémité 5’ (celle de l’amorce) mais des extrémités 3’ différentes. Ces fragments sont marqués. Le marquage radioactif utilisé initialement (4 réactions, 1 seul ddNTP par réaction) a été remplacé ensuite par un marquage fluorescent (1 seule réaction contenant les 4 ddNTP). Shotgun cloning -> chaque fragment d’ADN est inséré dans un plasmide (grâce à une ADN ligase) et les plasmides recombinants ainsi générés sont introduits dans E. coli dont les clones sont sectionnés sur un milieu contenant un antibiotique. Chaque clone est amplifié in vivo, on en extrait l’ADN plasmidique, et celui-ci est dénaturé. Puis une amorce s’hybride juste en amont du fragment à séquencer (site de clonage). La polymérisation de l’ADN débute à l’extrémité 3’ de cette amorce, qui est ainsi prolongée. Progrès déterminant -> développement de quatre ddNTP marqués chacun par une molécule fluorescente différente (longueur d’onde d’excitation max. différente). Ces 4 ddNTP sont ajoutés en faible proportion par rapport aux 4 dNTP. Une faible proportion des polymérisations est interrompue, à chaque nucléotide, suite à l’incorporation d’un ddNMP, qui est fluorescent. Les fragments d’ADN fluorescents sont séparés selon leur taille par électrophorèse. Le bas du gel est traversé par un rayon laser qui excite les fluorochromes (-> lumière émise enregistrée par un détecteur). Remplacement du gel classique (coulé entre 2 plaques de verre) par des capillaires. Pour le séquençage du génome humain : mise en place de “centres de séquençage” (USA, EU, Japon.) -> robotisation de la procédure de préparation des ADNs à séquencer (miniprep) et multiplication en série des machines de séquençage - Le contenu génétique du génome humain Proportion (en %) des différents éléments génétiques de notre génome : - Les séquences de type transposon des génomes eucaryotes Rappel sur les transposons : séquences d'ADN particulières, présentes dans tous les génomes, qui peuvent se déplacer d'un endroit à un autre d'un génome. On peut les considérer comme des séquences autonomes et infectieuses, qui se propagent au sein des génomes. - deux grands modes de transposition : transposition réplicative : copy and paste transposition conservative : cut and paste La transposition conservative couplée à la réplication peut conduire à la duplication du transposon grande diversité de transposons du point de vue : - des mécanismes moléculaires - du mécanisme de transposition - de la sélectivité des sites de transposition - de la taille : de qqes centaines de pb à qqes dizaines de milliers de pb - du contenu en gènes - les plus simples : les éléments IS (insertion sequence) bactériens = tr. conservatifs : chez les bactéries, certains transposons sont aussi capables de se propager d'une cellule à une autre, soit par conjugaison (transposons conjugatifs ou mobilisables), soit à la manière des virus (emballage dans une capside de protéines) La découverte des transposons chez les eucaryotes (maïs) - Les catégories de transposons chez les eucaryotes Deux catégories : - DNA transposons : t. conservatifs proches des IS bactériens (ex. Ac/Ds du maïs) - rétrotransposons = t. réplicatifs, qui se transposent via un intermédiaire ARN Etapes de la rétrotransposition : 1. Transcription du rétrotransposon (grâce à un promoteur en 5’) 2. Le transcrit primaire peut soit subir une maturation en différents ARNm, qui sont traduits dans le cytosol en protéines - dont la transcriptase inverse (codée par le gène pol) 3. soit être pris en charge dans le noyau par la transcriptase inverse, qui le copie en ADN complémentaire (ADNc) 4. L’ADNc s’insère dans le génome grâce à une intégrase (enzyme de type endonucléase, également codée par pol) - Les principaux types de rétrotransposon dans le cas du génome humain 3 types : 1) LINEs : Long Interspersed Nuclear Elements (~ 20% ADN humain): 2) SINEs : Short Interspersed Nuclear Elements (~ 13% ADN humain): TSD : target site duplication; ORF : open reading frame -> protéine EN : endonucléase RT : reverse transcriptase An : séquence polyA UTR : untranslated region Les LINEs (rétrot. autonomes) et SINEs (rétrot. non-autonomes) sont présents dans le génomes de tous les pluricellulaires, il sont variés. Il existe plusieurs types de LINEs chez H. sapiens. La toute grosse majorité des LINEs est dégénérée, en raison de mutations, ces LINEs sont donc inertes. Il reste cependant une petite centaine de LINE-1 fonctionnels, capables de se rétrotransposer. Il existe une soixantaine de maladies génétiques provoquées par l’insertion d’un LINE-1 au sein d’un gène(mais il existe des mécanisme de protection qui empêche le retrotransposition). Les SINEs détournent (hijjacking) la machinerie de rétrotransposition des LINEs pour se rétrotransposer. Ils sont issus de divers petits ARNs cellulaires qui ont été retrotranscrits (par « accident ») et insérés dans le génome. Transposition réplicative de LINE-1 : modèle Un LINE -1 génomique est d’abord transcrit, l’ARN et son polyA terminal ainsi produit migre dans le cytosol où il s’associe aux protéines des ORFs 1 et 2 (p1, p2) avant de rentrer à nouveau dans le noyau 1. L’activité endonucléase de p2 clive un brin de l'ADN génomique (juste après une séquence polyT (liaison avec 2 ponts H donc plus faible)) -> brin 3’ flottant avec polyT terminal. 2. L’ARN polyA de LINE -1 s'hybride via sa queue polyA au polyT flottant et fournit une matrice pour la synthèse (par la transcription inverse, RT, aussi dans p2) d'un ADN complémentaire du L1(3). 4. L'endonucléase catalyse une 2ème coupure, sur l’autre brin, légèrement décalée de la première. 5. & 6. Extension de l’extrémité 3’ du L1 en utilisant comme matrice la séquence monobrin (en bleu) produite par le 2de coupure 7. Le monobrin d’ARN (rouge) est remplacé par de l’ADN Une courte séquence (le polyT et la séquence qui suit, en bleu) est maintenant dupliquée (répétition directe), les deux copies (= TSD) encadrent le L1. 3) ERVs : endogenous retrovirus (~ 8-9 % ADN humain): LTR : long terminal repeat; TSD : target site duplication; gag, pro, pol, env : ORFs -> protéine; IN : integrase; RT : reverse transcriptase Les ERVs sont des reliques de génomes de diverses espèces de rétrovirus qui ont infecté des cellules de la lignée germinale (gamètes ou cellules germinales) chez nos ancêtres primates. Ces séquences rétrovirales sont dégénénérées (mutations) et donc inertes. Une des particularités des ERVs est la présence de séquences terminales directement répétées (3’ et 5’ LTRs, long terminal repeats). Origine des rétrovirus ? virus issus de certains rétrotranposons à séquences LTRs, du même type que ceux qu’on trouve actuellement dans le génome d’autres eucaryotes mais dépourvus de certains gènes présents chez les rétrovirus. L’acquisition de ces gènes a très probablement permis à ces rétrotransposons de se propager en dehors des cellules pour en infecter d’autres (-> propagation plus efficace). - La plupart des espèces "se défendent" contre la propagation des transposons Hypothèse : développement par l'hôte de mécanismes permettant d'éteindre l'expression de ces ERVs (idem pour les autres rétrotransposons), lesquels tendent alors à dégénérer, par accumulation de mutations. plusieurs familles de gènes ont connu une forte expansion chez les primates : codent pour des protéines qui se lient aux SINE, LINE, ERV... et recrutent des facteurs qui répriment l'expression de ces rétrotransposons (via mécanismes épigénétiques). Mais certains éléments LINE-1 ont acquis secondairement des mutations empêchant une liaison efficace de ces facteurs. - Ex. : le transposon Tc1/mariner du nématode Caenorhabditis elegans, mobile uniquement dans les cellules somatiques, pas dans les cell. germinales, sauf chez certains mutants (lignée "mutator") : pq ? A propos de l’ARN interférent : - Le système enzymatique de l’ARN interférent (Dicer/Risc) existe dans la majorité des espèces eucaryotes (inhibition de DNA transposons, rétrotransposons, de virus,...) - Chez les espèces eucaryotes supérieures, l'activité des enzymes Dicer/Risc a secondairement été "détournée" pour développer de nouveaux mécanismes de régulation négative agissant sur des ARNm et basés sur la synthèse de microARNs (miRNAs) - Application de ces découvertes en recherche : un moyen expérimental simple pour empêcher la synthèse d’une protéine particulière dans une cellule est d’y injecter (ou d’y exprimer) un petit ARN double-brin (ARN interférent) dont un des brins est complémentaire de l’ARNm de cette protéine. - La révolution des méthodes de "Next Generation Sequencing" (NGS) Différences entre la méthode "classique" de séquençage de F. Sanger et les technologies "NGS" : - Méthode de F.Sanger : l’ADN est purifié et fragmenté, touts les fragmnts d’ADN à séquencer sont d’abords clonés dans un plasmide qui est répliqué dans E. coli (amplification in vivo) puis purifie. Réactions de séquençage par groupe de 16, 96, 384 fragments. - NGS (avec les nouveau modèle la PCR n’est plus necéssaire): l’ADN est purifié et fragmenté, tous les fragments sont en général amplifié in vitro par PCR en parallèle. Tous les fragments sont séquencés en parallèle en quelques heures. Technologie développé par Illumina : ADN purifié -> fragmenté -> addition d’adaptateurs -> dénaturation -> fixation des adaptateur a un support (colonne de fragment d’ADN sur une plaque) -> amplification locale par une technique de PCR particulière -> formation de cluster (ADN monobrin) Réaction de séquençage au niveau de chaque cluster (ADN monobrin) : hybridation d'une amorce sur la partie adaptateur. Extension de l’amorce (par une ADN polymérase) en présence des quatre dNTPs associés à un fluorochrome différent (spectre d'émission différent, donc quatre couleurs d'émission). (1) ajout des quatre dNTPs fluorescents, insertion par l’ADN polymérase d’un seul nucléotide (car le fluorochrome est greffé sur le carbone 3’ du dNTP, ce qui empêche l’incorporation d’un autre dNTP), lavage pour éliminer les dNTPs non incorporés (2) excitation du fluorochrome incorporé et enregistrement de la lumière fluorescente émise par le cluster (3) traitement chimique pour enlever le fluorochrome greffé en 3’ ( -> 3’-OH ), ce qui permet l’incorporation d’un autre nucléotide à la suite -> répétition de ce cycle. Enregistrement des images à chaque cycle d'incorporation d'un nucléotide et "lecture" de la séquence (des couleurs successives) de chacun des fragments d'ADN / cluster. Limitations de cette technologie : petite taille des séquences obtenues (max. 300 nt) et le gros du travail reste à faire au niveau du traitement bioinformatique des données récoltées. Nombreux nouveaux développements pour augmenter la longueur des séquences (read). Applications des méthodes NGS : Étude du polymorphisme génétique (séquençage et comparaison avec la séquence déjà établie du génome), par ex. de H. sapiens - biopsies cancéreuse vs. non-cancéreuse d’un individu -> mutations associées au cancer ? et autres projets de plus en plus ambitieux (centaines de milliers de génomes séquencés), rendus possibles grâce à l’augmentation des performances de différentes méthodes NGS et la réduction de leur coût. Métagénomique : extraction de l’ADN extrait d’un échantillon de sol, d’eau de mer, de la flore intestinale (microbiome)... et séquençage global -> image de la diversité et de la proportion relative des microorganismes Séquençage du génome d’espèces éteintes (mammouth, homme de Néanderthal,..) Chapitre II : mutations et systèmes enzymatiques de réparation et de recombinaison de l’ADN 1. Les mutations Définitions Mutation = changement de séquence nucléotidique qui survient au sein d’un génome La mutation peut par ex. altérer un gène, produisant ainsi un nouvel allèle De nombreuses variations alléliques n’ont pas d’effet significatif sur la fonction des gènes, mais d’autres peuvent - plus ou moins - altérer leur fonction en provoquant une perte de fonction (partielle -> complète) ou – plus rarement - un gain de fonction. Transmissibilité Chez un unicellulaire : Une mutation qui survient chez un unicellulaire est transmissible (sauf si elle entrave la viabilité ou la reproduction). Chez un pluricellulaire : * Mutations somatiques : apparaissent dans les cellules somatiques, nontransmissibles, peuvent causer des pathologies non-héréditaires * Mutations germinales : apparaissent dans les cellules germinales (ou les gamètes), potentiellement transmissibles (-> impact sur l’évolution de l’espèce) et parfois associées à des pathologies héréditaires Une mutation est souvent présente dans une partie seulement des cellules somatiques et/ou germinales de l’individu (-> individu mosaïque) Types de mutations et conséquences Types de mutations a) Substitutions ponctuelles (ou "SNPs" : Single Nucleotide Polymorphisms – "snip") b) Insertion ou délétion de ≥ 1 nt (ou "INDELs") c) Réarrangements chromosomiques (structural variations, "SVs") = inversion, délétion, duplication ou translocation de régions chromosomiques +/- longues. Conséquences Considérons le cas de mutations dans l'ORF d'un gène : SNPs : - m. silencieuse : aa inchangé (ex. codon AGG > Arg -> codon CGG > Arg) - m. faux-sens ("missense") : aa remplacé par un autre (ex. AGG > AGC > Ser) - m. non-sens : aa remplacé par "stop" (si codon remplacé par UAG = mutation amber, par UAA = m. ochre, par UGA = m. umber ou opal) INDELs : - provoque le plus souvent un décalage du cadre de lecture (frameshift) : (1) Les mutations peuvent aussi altérer les séquences régulatrices, le promoteur, les sites d'épissage d'un gène. - Les mutations isolées au laboratoire Les généticiens qui ont entrepris l’étude des organismes modèles ont commencé par isoler une variété, une souche, une lignée d’apparence normale et l’ont définie comme le type sauvage (wildtype). Les différents gènes de ce type sauvage définissent ainsi les allèles sauvages de référence (un par gène), à partir desquels des allèles mutants sont isolés au laboratoire. - Notions de réversion et de suppression (intragénique, extragénique, non-sens) - Réversion : allèle muté - mutation 2aire -> allèle sauvage - Suppression intragénique : une mutation secondaire dans le même gène compense l'effet de la première - Suppression extragénique : une mutation secondaire dans un autre gène compense l'effet de la première - Suppression non-sens : mutation primaire de type non-sens est partiellement compensée par une mutation secondaire dans un gène d'ARNt. - Les mutations dans la nature – cas de Homo sapiens Il existe au sein de chaque espèce un polymorphisme génétique naturel : chaque gène est représenté par une diversité d’allèles. Chaque allèle est représenté à une certaine fréquence au sein de la population et la fréquence des allèles d’un gène peut varier d’une zone géographique à l’autre. Cas de Homo sapiens : recensement initial par le 1000 genomes Project d’environ 88,4 millions de variations génétiques ~ 95% = SNPs, ~ 4% = INDELs, ~ 0,05% = réarrangements chromosomiques La plupart de ces variations sont rares : ~ 76% f < 0,5%, ~ 14% 0,5 < f < 5% ~ 10% f > 5% - caractère aléatoire des mutations -> cad : sans rapport avec l’effet de la mutation sur l’organisme L'expérience historique de Lederberg et Tatum (1952) : -> Conclusion : Les mutations surviennent de manière aléatoire, sans rapport avec une éventuelle utilité pour l’organisme Les mutations surviennent de manière aléatoire mais... Les "mutations adaptatives" de J. Cairns ou la proposition par John Cairns d'une évolution "lamarckienne" chez E. coli L'expérience : mesure des fréquences de réversion lac – en lac + Observation : f1 >> f2 Conclusion de J. Cairns : les mutations "utiles " surviennent plus fréquemment !! La vraie explication : la fréquence globale des mutations spontanées (et aléatoires) dans le génome tend à augmenter dans les conditions de stress cellulaire (ex. carence nutritionnelle, comme le mutant lac - sur le milieu lactose ) -> avantage pour l’organisme ? Le taux naturel de mutations varie d’une région chromosomique à l’autre ARN - Causes immédiates des mutations a) SNPs (Single Nucleotide Polymorphisms) : Causes principales : tautomérisation des bases, altérations chimiques des bases (désamination C -> U, méthyl-C -> T), l’oxydation radicaux de l'02 (ex. G -> 8-oxo-G, qui s’apparie préférentiellement à la base A) -> changement des propriétés d’appariement Ces différentes anomalies dans l’ADN ne sont pas des mutations. Ces anomalies peuvent par contre causer l'apparition de mutations de substitution si l'ADN est répliqué avant l'intervention des systèmes de réparation de l’ADN, qui éliminent ces anomalies. b) INDELs (insertion ou délétion de ≥ 1 nt) Souvent au niveau de séquences répétées en tandem, par "glissement" des brins d'ADN (néosynthétisé ou matrice) durant la réplication : en réparant l’ADN on perd des bases. Le (ou les) nucléotide(s) "en dehors" de la double hélice sont en principe éliminés par certains mécanismes de réparation de l'ADN, sauf si l’ADN est à nouveau répliqué c) Les réarrangements chromosomiques (SVs) Les mutations correspondent à des insertions, délétions, inversions, duplications en tandem, ou translocations : le plus souvent issues d'évènements de recombinaison au niveau de séquences répétées (ex. transposons, LINEs, SINEs) - Taux de mutation - Les mutations surviennent à de très faibles taux : ex. application de la technologie NGS pour mesurer le taux naturel de mutation chez E. coli Propagation pendant 3000 générations d’une centaine de clones bactériens (issus de la même colonie). Extraction de l’ADN de 100 colonies finales, séquençage NGS, et comparaison des 100 séquences génomiques complètes -> nouvelle mesure du taux de mutation : ~ 10-3 mutation/génome/génération, ou ~ 2.2 x 10-10 mutation/nucléotide/génération. - Taux de mutation chez l’être humain : Ex. projet 1000 genomes : séquençage du génome de deux parents et de leur enfant -> chaque enfant présente ~ 60 nouvelles mutations (pas présentes dans le génome des parents), cad un taux de mutation chez les parents de ~ 10-8 mutation/nucléotide/géné. - Taux de mutation : influence de l’âge et impact sur la longévité 2. Les systèmes de réparation de l’ADN Quatre grands mécanismes de réparation de l’ADN sont connus. Impact sur le taux de mutation Le faible taux de mutations spontanées s'explique par l'action des systèmes enzymatiques de réparation de l'ADN Une déficience dans l'un de ces systèmes conduit à un taux de mutations spontanées anormalement élevé. Ex. chez E. coli, ce taux est 100-200 x plus élevé si le mismatch-repair est déficient. - Chez l’être humain, le symptôme associé à un dysfonctionnement au niveau de la réparation de l’ADN est typiquement un risque accru de développer des cancers (qui sont, en effet, causés par des mutations) - Comment déterminer si une substance chimique est potentiellement cancérigène ? On teste si elle augmente le taux naturel de mutation ex. test de Ames : le taux naturel de réversion/suppression de bactéries His- > His+ est de 10-18; en présence d'une substance mutagène (et donc potentiellement cancérigène), il est plus élevé. Des bactéries mutantes du genre Salmonella auxotrophes pour l’histidine sont incubées ou non pendant un certain temps en présence de la substance chimique à tester. Les cellules sont ensuite étalées sur un milieu gélosé (boite de Pétri) dépourvu d’histidine. Après 48h, on compte le nombre de colonies His+ apparues (suite à une réversion ou une suppression). - Réparation directe ("direct repair") Anomalie particulière dans l’ADN : repérée par une enzyme spécialisée capable de détecter et de réparer directement le dommage. - Réparation par excision ("nucleotide excision repair") Où ? Au niveau de bases désaminées, des bases ayant subi des lésions oxydatives ou d’autres modifications comme des méthylations non réparables par les alkyltransférases, et au niveau des dimères de pyrimidines (T-T ou T-C) induits par les U.V. Comment ? Repose sur l’intervention de protéines spécialisées dans la reconnaissance soit de bases chimiquement altérées soit de distorsions dans l’ADN. Ex. réparation des cytosines désaminées (-> uracile) : L'uracile glycosylase hydrolyse le lien glycosidique pour libérer l'uracile, ce qui crée un site AP (site apurinique ou, dans le cas présent, apyrimidinique) (un site AP apparaît parfois spontanément aussi). L'endonucléase AP se lie au niveau du site AP et hydrolyse le lien phosphodiester en 5', créant ainsi des extrémités 3'-OH et 5’- phosphate. Une exonucléase 5' -> 3' se lie à l'endroit du lien hydrolysé et hydrolyse les liens phosphodiesters suivants, créant ainsi une brèche dans l'ADN, qui est ensuite comblée par l'ADN polymérase. Une ADN ligase forme le dernier lien phosphodiester. Ex. réparation de l’ADN présentant une distorsion (ex. causée par un photodimère TT ou TC) → dernières étapes par ADN pol et ADN ligase Un complexe UvrA-UvrB parcourt l’ADN et UvrA détecte les distorsions dans l’ADN (dimère de T, base modifiée,..). UvrA se dissocie du complexe, UvrB désapparie l’ADN (activité hélicase) et recrute UvrC (endonucléase) qui coupe les liens phosphodiesters en amont et en aval de l’anomalie. UvrD (hélicase) déplace UvrC de l’ADN et désapparie le court monobrin contenant l’anomalie. UvrD et UvrB se dissocient de l’ADN, reste alors une brèche qui est comblée par l’ADN polymérase et finalement l’ADN ligase. ‘′ Uvr ′′ = ′′ UV resistance ′′. Chez H. sapiens, 25 protéines de type Uvr, appelées XP, interviennent dans la réparation de l’ADN. Des mutations dans les gènes XP rendent les personnes atteintes ultra- sensibles au rayonnement solaire -> cancer de la peau (maldie des ′′ enfants de la lune ′′) - Réparation des mésappariements ("mismatch repair") Des méthylases ajoutent (sur une base azotée) un groupement – CH3 au niveau de séquences spécifiques d’ADN. Cette méthylation n’altère pas les propriétés d’appariement de la base. Après réplication, l’ADN reste transitoirement hémiméthylé Apparition d’un mésappariement (erreur de réplication) le système de réparation des mésappariements est capable de distinguer la fibre néosynthétisée (non-méthylés) de la fibre parentale (méthylés). MutS (dimère) parcourt l’ADN et s’immobilise au niveau du mésappariement L’endonucléase MutH se lie à l’ADN hémiméthylé, mais est inactive, MutL se lie à MutS MutL interagit avec MutH (formation d’une boucle d’ADN) qui est alors activée : coupure du brin non méthylé (hydrolyse du lien phosphodiester) Une exonucléase 5' -> 3' enlève une série de nucléotides y compris celui du mésappariement Une ADN polymérase comble la brèche à partir de l’extrémité 3’OH Une ADN ligase "ferme" l’ADN (formation du dernier lien phosphodiester) - Réparation par recombinaison ("recombination repair") Les radiations ionisantes (rayons X, gamma), certains agents chimiques et la réplication de l’ADN provoquent des coupures double-brins dans l’ADN. Deux mécanismes interviennent dans la réparation de ces coupures. i. Réparation par jonction d’extrémités non-homologues (NHEJ) S’accompagne souvent de la perte de nucléotides. ii. Réparation par recombinaison homologue (“homologous end joining”) Sans perte de nucléotides, possible que si une molécule homologue d’ADN est disponible. 3. La recombinaison homologue Recombinaison = formation de nouvelles associations de molécules d'ADN (implique coupure – ligature de l'ADN par des enzymes) grande variété (ex. transposition) dont la recombinaison homologue (= r. générale, r. par "crossingover") deux fonctions essentielles de la recombinaison homologue : préservation de l’intégrité du génome (par réparation des coupures accidentelles de l’ADN) & évolution du génome (brassage des allèles, duplication de gènes). la recombinaison homologue existe chez tous les organismes cellulaires et est très probablement apparue au tout début de l'évolution des premières bactéries la recombinaison homologue se produit entre deux molécules homologues d’ADN et peut éventuellement mener à un échange réciproque (-> brassage génétique) : cette recombinaison implique des événements de coupure – ligature de l'ADN, et fait apparaitre des zones hétéroduplexes. Mise en évidence chez les bactéries : Ex. le phénomène de transformation des bactéries R en bactérie S L'explication : un fragment d’ADN du gène C (intervenant dans la formation de la capsule) issu de la souche S s’est introduit dans la bactérie R, où il a recombiné avec l’allèle mutant qui a ainsi été converti en l’allèle sauvage (fonctionnel). - Mécanisme de la recombinaison homologue Le modèle initial de Robin Holliday (1964) De manière plus détaillée : dans les deux cas, une zone hétéroduplexe d’ADN apparait -> peut être à l’origine d’un phénomène de “conversion génique” - Le mécanisme de recombinaison tel qu'il est connu actuellement la première étape du modèle de Holliday n'a pu être vérifiée (l'enzyme réalisanZt une coupure identique sur les deux brins d'ADN homologue n'existe pas..). - machinerie, vue d’ensemble pour E. coli : - coupure double-brin dans l’ADN (endnucléase) = aucune - génération des fibres monocaténaires 3’ (hélicase et 5’ exonucléase) = RecBCD - invasion par l’ADN monocaténaire de l’ADN bouble-brin homologue (recombinase) = RecA - glissement des jonctions de Holliday (« branch migration ») = RuvAB - résolution des jonctions d’Holliday (résolvage) = RuvC Fonctionnement de la recombinase RecA Activités de RecA in vitro : RecA se lie à de l’ADN mono-brin, sur lequel il forme un polymère hélicoïdal si on ajoute une molécule d’ADN doublebrin homologue, l’ADN mono-brin associé à RecA s’apparie au brin complémentaire, le mono-brin “écarté” forme la boucle D. Aucune formation de boucle D si l'ADN double-brin ajouté n'est pas homologue ! Ou si RecA n’est pas lié à l’ADN simple brin. Association de protéines RecA à l’ADN monobrin -> polymérisation en une structure hélicoïdale étendue ; au sein de ce polymère, il subsiste de nombreux sites libres d’interaction avec l’ADN. Grâce à ces sites d’interaction, le complexe hélicoïdal RecA-ADN monobrin se lie à l’ADN double-brin -> structure intermédiaire à trois brins d’ADN - Quand une zone homologue est trouvée, échange de brins d’ADN, suivie de la dissociation de RecA (-> boucle en D) Glissement de la jonction de Holliday Illustré en utilisant la forme en X de la jonction de H Un tétramère de protéines RuvA (en vert) se lie à la jonction de Holliday (4 molécules d'ADN) et recrutent deux hexamères de protéines RuvB (en gris) = ATPases. L’ADN au cœur des complexes RuvB migre (effet de traction ”moves out”), ce qui nécessite l’hydrolyse d’ATP (-> glissement de la jonction de H). Résolution par la résolvase de la jonction de Holliday Après la migration, la protéine RuvC (un dimère à activité endonucléase, appelé résolvase) se lie à RuvA, dans une orientation ou l’autre, et clive l’ADN. Les ligatures finales sont formées par l’ADN ligase. RuvC clive préférentiellement les séquences (A/T)TT(G/C), entre les 2 T. - Réparation de l'ADN lors de coupures double-brin Le principe : pour que les extrémités de l'ADN sectionné puissent se réassocier, sans perte de nucléotides, une de ces extrémités 3’ est prolongée en utilisant comme matrice une molécule homologue d'ADN. Une fois cette extension réalisée, l'extrémité 3’ peut se réassocier à l'autre extrémité de l’ADN sectionné, par simple complémentarité. Le mécanisme: les premières étapes (dépolymérisation, invasion d'un brin 3’, polymérisation en 3’) sont similaires à celles de la rec. homologue. Mais l'ADN invasif prolongé par polymérisation se réassocie à son brin complémentaire d'origine plutôt que de former une jonction de Holliday, et la boucle " D " se réapparie à son brin complémentaire d'origine également. Aucune jonction de Holliday n’est donc formée. Hypothèse: le mécanisme de r.h. permettant de brasser les allèles serait apparu au cours de l’évolution à partir de ce mécanisme, plus simple, de réparation des coupures double – brin - Applications de la recombinaison homologue : "gene knock-out" Le mécanisme de recombinaison homologue est fréquemment exploité lors des recherches en génétique, en particulier pour inactiver un gène de manière ciblée ("knockout"). Le gène cible (ou une partie de celui-ci, par ex. un exon ou plusieurs exons successifs) est remplacé par un gène qui confère un phénotype aisément repérable, en général une résistance à un antibiotique. On introduit dans les cellules le gène conférant la résistance à l’antibiotique délimité par des séquences d’ADN identiques aux séquences bordant le gène X+. Par une double rec. homol., une à chaque extrémité, ce gène prend la place du gène X+ Limitation majeure des techniques de KO par rec. homologue : efficace chez certaines espèces comme la levure, mais chez beaucoup d’autres (par ex. cellules ES de souris), la fréquence des intégrations au niveau du gène visé est faible -> problème des "off-targets " cad des intégrations illégitimes (ailleurs dans le génome). Solution ? Utilisation de " ciseaux moléculaires " -> technologie d’édition du génome Suite à une coupure double-brin précise au sein du gène visé, une mutation “frameshift” peut survenir par réparation NHEJ -> KO par framshift. Alternativement, un fragment d’ADN simultanément injecté dans la cellule peut recombiner à l’endroit de la coupure (la coupure double- brin favorise la crecombinaison homologue a cet endroit) -> KO par insertion. Plusieurs technologies de "ciseaux" moléculaires ont été développées, la plus en vogue : "CRISPR/Cas9" (clustered regularly interspaced short palindromic repeats / protéine Cas9) Chap III. La transmission méiotique des gènes et les principes de cartographie génétique 1. Généralités sur la reproduction des eucaryotes événement clé dans l'évolution des eucaryotes : établissement de relations endosymbiotiques entre la cellule eucaryote ancestrale et des bactéries (-> mitochondries, chloroplastes) la complexification progressive de la cellule eucaryote ancestrale s’accompagne du développement d’un nouveau mode de division cellulaire (reproduction asexuée): la mitose (division du noyau) suivie de cytocinèse autre événement clé dans l’évolution des eucaryotes : apparition de la reproduction sexuée (-> brassage génétique) coïncidant avec l’apparition d’un autre mode de division cellulaire: la méiose Considérons une cellule végétale. Celle-ci présente 3 génomes : nucléaire (chromosomes linéaires), mitochondrial (chr. circulaire) et chloroplastique (chr. circulaire). A chaque génome est associé un système génétique complet : enzymes de réplication, de transcription, de traduction (ribosomes, ARNt,..), de recombinaison homologue & de réparation. Ces trois systèmes sont distincts. Le génome des mitochondries et celui des chloroplastes proviennent des endosymbiontes d’origine. Ils sont par contre nettement plus petits car il y a eu au cours de l’évolution un transfert progressif et massif de gènes depuis les endosymbiontes vers le noyau. - Mitose chaque chromosome dupliqué en deux chromatides sœurs associés grâce aux cohésines (dégradés lors de la séparation des chr.) chaque chromatide sœur associé à un kinétochore (= complexe de protéines lié au centromère) Apparition de la reproduction sexuée, marquée par une alternance entre un état cellulaire haploïde (n) et un état cellulaire diploïde (2n) - Méisose chaque chromosome dupliqué en deux chromatides sœurs (2n) accolement sur toute leur longueur des chromosomes homologues dupliqués et ≥ 1 "crossing-over" (rec. homologue) entre chromatides nonsoeurs séparation des deux chr. homologues toujours associés au niveau de chiasma (= point de crossing- over = jonctions de Holliday) résolution par la résolvase des jonctions de Holliday -> séparation de chromosomes (n) Pq les chr. homologues s’accollent-ils ? Car en début de prophase I, il y a induction de synthèse de l'endonucléase Spo11 qui provoque de nombreux événements de coupures double-brin ("programmed doublestrand breaks”). Le processus de r. homologue est alors activé au niveau de chaque coupure, et une faible proportion de ces événements de r.h. conduit à un "crossing-over"(10%). Double utilité des rec. homologues programmées en prophase 1 : - ségrégation correcte des chromosomes homologues à la 1ère division méiotique (grâce à leur association physique) - brassage des allèles parentaux (en cas de c/o) -> diversité génétique au sein des gamètes 2. La transmission méiotique des gènes : monohybridisme monohybridisme = on analyse la transmission d’un seul gène - La loi de disjonction (ou ségrégation égale) de Mendel Parmi les gamètes produits par un individu hétérozygote pour un gène donné, les deux allèles sont également représentés = principe de ségrégation égale (2:2) des deux exemplaires/allèles d’un gène. L'explication par la méiose de la loi de ségrégation égale : Monohybridisme chez un pluricellulaire, par ex. la drosophile Monohybridisme dans le cas de l'espèce humaine (arbres généalogiques) - Ecarts au principe de ségrégation égale : 3 exemples a. Le phénomène de conversion génique b. L’hérédité cytoplasmique L’anomalie phénotypique est due à une mutation dans un gène mitochondrial -> dysfonctionnement de la mitochondrie qui provoque un phénotype c. Un cas de "fausse hérédité" : les prions Le prion est un type de protéine susceptible de donner une forme pathogène par une mauvaise conformation ou repliement -> perte de fonction - L’hérédité liée au sexe Transmissin des gènes localisé sur les chromosomes sexuels La détermination du sexe : Le gène TDF est situé sur le chr. Y, (dans la région SRY) en dehors des régions pseudoautosomales (régions homologues au chr. X et où se produisent des c/o avec le chr. X). Le gène TDF est un gène du développement: la protéine TDF (un facteur de transcription) détermine la formation dans l’embryon de testicules. La testostérone produite par celles-ci induit la formation des caractères anatomiques masculins. L’absence de protéine TDF induit (par défaut) la formation d’ovaires. 3. La transmission méiotique des gènes : polyhybridisme polyhybridisme = on analyse la transmission de plusieurs gènes - La loi de transmission (ou ségrégation) indépendante de Mendel Les allèles de différents gènes (pour autant qu’ils ne soient pas liés) ségrégent indépendamment durant la formation des gamètes. si les parents sont chacun double hétérozygtes : 4 types de gamètes (25% chacun) mais une méiose chez A/a et B/b n’aboutira pas nécessairement aux 4 gamètes - Polyhybridisme chez la levure (analyse d’événements individuels de méiose) Si on examine un grand nombre de méioses individuelles, on constate que p(DP) ≡ p(DNP) et que p(T) varie selon la paire de gènes considérée, donc : En conséquence, dans l'ensemble des cellules n générées par méiose, les proportions de chaque génotype (AB, ab, Ab, aB) sont identiques (~ 25%) DP = ditype parental, présence de seulement les allèles parentales DNP ditype on-parental, présence de seulement les allènees non-parentales T = tétratype, présence des allèles parente et non-parentales) - L'explication par la méiose de la loi de ségrégation indépendante : Pourquoi p(DP) = p(DNP) ? Et pourquoi p(T) varie selon la paire de gènes ? Cette loi s’explique par le fait que les chr. non-homologues ségrégent de manière indépendante lors de la 1ère division de la méiose. Si par ex. aucun c/o ne survient dans les deux intervalles centromère-gène, la méiose aboutit à un DP ou un DNP, selon des probabilités égales (1⁄2) un tétratype survient quand un c/o se produit dans un intervalle centromère-gène, quelque soit le mode de ségrégation des deux chr. non-homologues. Plus un gène est éloigné du centromère, plus la probabilité est élevée qu’un c/o se produise dans l’intervalle centromère-gène. si 1 c/o survient dans chaque intervalle centromère-gène -> proportions de 1⁄4 DP, 1⁄4 DNP et 1⁄2 T si les deux gènes sont très proches des centromères -> p(T) = ~ 0 et p(DP) = p(DNP) = ~ 0,5 si un des deux gènes est très proche du centromère -> p(T) sera fonction de la distance entre le gène et le centromère de l’autre chromosome 4. Liaison génétique et cartographie génétique - La loi de ségrégation indépendante n’est parfois pas vérifiée Les combinaisons parentales d’allèles (AB, ab) sont majoritaires par rapport aux combinaisons recombinantes (Ab, aB) Par rapport à la loi de Mendel, il y a un “déséquilibre de liaison” (“linkage disequilibrium”) : au cours de la méiose, A et B tendent a rester liés, de même que a et b. - L'explication par la méiose du phénomène de liaison génétique ? y et w sont très proches donc les chances d’avoir un croosing-over pile entre les deux est très faible. - Principe de la cartographie génétique (Sturtevant & Morgan, 1911) Fréquence des c/o entre deux gènes liés = 2 x fréquence des recombinants Or, la fréquence des c/o entre les deux gènes dépend de la distance séparant ces deux gènes. On peut donc estimer cette distance (d) à partir de la valeur PR mesurée : -> définition d’une unité de distance génétique : centiMorgan (cM) d (cM) = valeur PR mesurée = 𝑓 𝑐/𝑜 x 50 ➔ 1 cM est équivalent à 1 % PR Notion de fonction cartographique (selon Morgan) Pour estimer la distance entre deux gènes génétiquement liés, on réalise un test-cross pour mesurer le pourcentage de recombinants (PR). - Prise en compte des phénomènes influençant la mesure distances génétiques Si on applique la fonction cartographique telle que définie par Morgan, la mesure de " d " sera le plus souvent imprécise car on ne tient pas compte de deux phénomènes : a. Les crossing-overs multiples Si la distance entre deux gènes est suffisamment grande, deux crossing-over peuvent se produire entre ces gènes, ce qui peut aboutir à quatre gamètes parentaux, comme quand il n'y a aucun crossing-over : En conséquence, le PR mesuré ne fournira qu'une sous-estimation de la fréquence réelle des crossing-over et donc de la distance. Cette sous-estimation sera d'autant plus importante que la distance entre les gènes est grande. b. L’interférence Il a été constaté que l'occurrence d'un c/o réduit la probabilité qu'un second se produise à proximité. Une étude a montré que cette interférence est due à l'activité d'une protéine kinase, Tel1 (ou ATM) -> correction de la fonction cartographique : - L’établissement de cartes génétiques et notion de taux de recombinaison Pour chaque nouvelle mutation isolée, on teste si elle est génétiquement liée aux autres préalablement isolées. Dès qu’une liaison génétique est identifiée, on détermine la distance génétique -> établissement progressif d’une carte génétique. - Variations du taux de recombinaison (donc, de la fréquence des crossing-over) et relations avec le méc. de recombinaison homologue Le taux de recombinaison global (nbre de cM / Mpb) diffère selon les espèces. - Le taux de recombinaison varie d’une région à l’autre d’un même chromosome Ex. Séquençage du génome de la levure -> comparaison entre la carte génétique de chaque chromosome et la position réelle des gènes établie par séquençage et l’analyse bioinformatique : mise en évidence sur la carte génétique de zones de contraction (d sous-estimées -> c/o moins fréquents, par ex. près des centromères) et d’expansion (d surestimées -> c/o plus fréquents); en d’autres termes, le taux de recombinaison varie le long du chromosome. Par la suite, le taux de recombinaison a été mesuré avec une très haute résolution. Il est alors apparu que les chromosomes présentent sur toute leur longueur des "hot spots" de c/o séparés par des régions où le taux de recombinaison est quasi nul. - Le taux de recombinaison varie d’un chromosome à l’autre, il tend à être plus élevée pour les petits chromosomes. Pq ? Pour réduire le risque de méioses sans crossing-over (plus élevé pour les petits chromosomes) Rem : le taux de recombinaison est TRES élevé dans les régions PAR des chr. sexuels Y et X - Autres sources de variation Le taux dr recombinaison peut différer entre le mâle et la femelle d’une même espèce Le taux de recombinaison est influencé par : 1) la séquence locale (probabilité plus élevée de crossing-over au niveau de certaines séquences, par ex. les "hot spots" de recombinaison = sites de liaison préférentielle des protéines initiant la recombinaison homologue, par ex. celles qui recrutent les nucléases de type Spo11) -> permet d’expliquer la variation de la fr. des crossing-over le long d'un chromosome la variation de la fréquence des crossing-over d'un chromosome à l'autre 2) les facteurs directement impliqués dans la recombinaison homologue (variations d'origine génétique, niveaux d'expression éventuellement différents, accessibilité à l'ADN,..) -> permet d’expliquer la variation de la fréquence des crossing-over selon le sexe Ces sources de variation ne remettent pas en cause les principes de cartographie génétique qui sont toujours exploités actuellement ➔ Résumé La cartographie génétique consiste à positionner le long de ses chromosomes les gènes d’une espèce donnée (du moins ceux pour lesquels un mutant présentant un phénotype visible a été isolé) La distance entre deux gènes (exprimée en centiMorgan, cM) est déterminée en mesurant la fréquence des crossing-over se produisant entre ces gènes. Pour évaluer cette fréquence, on réalise le plus souvent un “test-cross” pour mesurer le pourcentage de gamètes recombinants produits par un double hétérozygote, autrement dit le pourcentage de phénotypes recombinants dans la descendance. La relation entre ce pourcentage de recombinants (PR) et la fréquence des c/o (et donc la distance génétique) est exprimée par la fonction cartographique. Si la distance entre deux gènes est suffisamment grande pour que plus d’un c/o puisse survenir, la fonction cartographique doit tenir compte (i) des événement de c/o multiples (ii) du phénomène d’interférence, pour une mesure précise des distances génétiques. Si la distance entre deux gènes est petite au point qu’aucun ou un seul crossing-over (jamais plus) survient par méiose, la distance génétique (cM) est directement proportionnelle au PR (c’est dans ces conditions que la mesure des distances génétiques sera la plus précise) En sommant l’ensemble des petites distances séparant les gènes positionnés sur une carte génétique, on obtient la longueur du génome en cM. Connaissant la taille du génome en pb, on peut en déduire le taux de recombinaison de l’espèce qui est le nombre de cM par unité de longueur d’ADN (en kpb ou Mpb). Le taux de recombinaison varie d’une espèce à l’autre. Le taux de recombinaison varie le long des chromosomes. Quand il est mesuré localement, on constate l’existence de hot-spots de recombinaison qui correspondent à des sites préférentiels de liaison de l’enzyme Spo11 Pour une même espèce, le taux de recombinaison varie d’un chromosome à l’autre, il tend à être plus élevé pour les petits chromosomes. Le taux de recombinaison est influencé par le niveau d’expression et l’efficacité de fonctionnement des protéines participant à la recombinaison homologue. - Les marqueurs génétiques moléculaires (ou anonymes) La cartographie génétique jusqu'en 1980 : les gènes sont cartographiés en utilisant comme repères (marqueurs) d'autres gènes préalablement cartographiés -> efficace pour des espèces comme la drosophile, la levure, certaines plantes,... mais plus difficilement applicable aux petits rongeurs de laboratoire (souris, rats,..) et non applicable à l’homme. D. Botstein et al. (1980) : " n’importe quelle séquence polymorphe d’ADN peut potentiellement servir de marqueur génétique " (= marqueur moléculaire) -> le gène déficient chez un mutant peut donc être cartographié en utilisant comme repères ces marqueurs moléculaires. - > condition : disposer d’une technique permettant de distinguer les allèles de ces marqueurs (génotypage) Exemples de marqueurs génétiques moléculaires : RFLP : restriction fragment length polymorphism (2 allèles / RFLP) SSLP : simple sequence length polymorphism -> séquence répétée en tandem 2 types : -> microsatéllite (répétitions en tandem d’une séquence 2 à 4 pb) -> minisatéllite (répétitions en tandem d’une séquence de 5 à 25 pb) (n allèles / SSLP, qui diffèrent au niveau du nombre de répétitions) Les “ tests ADN “/empreintes génétiques sont basés sur l’analyse simultanée d’une dizaine de SSLPs Comment établir une carte génétique ? ex. carte de SSLPs chez la souris a) Définition de deux lignées consanguines suffisamment polymorphes Méthode du inbreeding : croisement d’un couple suivi de croisements successifs d’un mâle et d’une femelle de chaque descendance (intercross Fn x Fn). Au bout de n croisements, les individus sont homozygotes pour quasi tous les loci génétiques = la lignée consanguine. b) Recherche de SSLPs qui sont polymorphes entre les lignées A et B : On applique des techniques particulières pour isoler à partir d’ADN de souris des fragments contenant un type particulier de SSLP. Après séquençage des séquences bordantes, on définit pour chacun d’eux un couple d’amorces PCR. On teste ensuite si chaque SSLP est polymorphe (allèles différents) au sein des lignées A et B Certains marqueurs SSLP (dont on ignore initialement la localisation au sein du génome) présentent un polymorphisme entre les lignées A et B , d’autres pas. On recherche et sélectionne un maximum de marqueurs qui sont polymorphes : M1, M2, M3,... Mx. c) Cartographie des marqueurs Principe : si 2 SSLPs sont proches l’un de l’autre sur un chromosome, ils auront tendance à coségréger lors de la méiose. On va le déterminer par un test-cross (ici, un back-cross) : - Croisement entre deux individus A et B -> F1 hétérozygotes pour tous les marqueurs - Test cross (backcross) et génotypage de la descendance F2 Après analyse de tous les marqueurs dans un max. d’individus F2 : - inventaire de tous les marqueurs liés et estimation des distances génétiques à partir des PR - répartition des marqueurs sur n groupes de liaison (n = nombre de chromosomes) - carte idéale : haute densité et répartition homogène des marqueurs - Utilité d’une carte génétique ➔ permet la cartographie rapide d'un gène d’intérêt Une fois le gène cartographié, il devient maintenant possible de l’identifier : nature du gène ? séquence du gène ? protéine codée par ce gène ? -> on applique la méthode de clonage de gènes par positionnement Comment procéder ? a) Approche suivie avant le séquençage du génome : Une fois cartographié, un gène peut être plus facilement identifié (cloné), en s'aidant de la "carte physique" du génome : Etablir la carte physique d’un génome, c’est cloner un ensemble de fragments d’ADN recouvrant la longueur complète de chaque chromosome. La position de ces fragments les uns par rapport aux autres et par rapport aux marqueurs de la carte génétique est connue. La cartographie physique est souvent une étape préalable au séquençage d’un génome. Séquençage de ces fragments d’ADN pour identifier les différents gènes présents dans la zone cartographiée. Application d’autres techniques pour déterminer lequel des gènes ainsi identifiés dans cette zone correspond au gène visé. Une fois le gène identifié, on peut déduire la séquence d’aa de la protéine -> rôle ? b) Approche suivie après le séquençage et l’annotation du génome : Analyse bioinformatique Chapitre IV. Les principes de dissection génétique La génétique fournit une approche expérimentale puissante pour ′′disséquer‟ les fonctions biologiques, cad identifier les gènes et les protéines impliquées dans ces fonctions. On utilise pour cela des organismes modèles qui ont la particularité de se prêter aisément à l’analyse génétique : - Exemple de dissection génétique chez la levure : étude du contrôle de l'expression du gène PHO5 Objectif de la dissection génétique : identifier les gènes/protéines impliquées dans la régulation du gène PHO5 Procédure suivie : 1 - Isolement de mutants (phénotype : expression du gène PHO5 est dérégulée) 2 - Classement des mutants (-> combien de gènes interviennent dans la régulation de PHO5 ?) 3 - Relations entre les gènes ainsi répertoriés 4 - Clonage des gènes -> séquence, protéine,... 1. Mutagenèse et isolement de mutants Pse- et Psec Traitement chimique mutagène de cellules sauvages haploïdes des deux signes (a et 𝛼) (deux cultures et deux mutagenèses séparées) Agent mutagène = EMS = éthyl-méthane sulfonate = agent alkylant Obtention d'un grand nombre de colonies (mutants qui ont survécu au traitement mutagène) Réplique par tampon de velours sur milieux pauvre ou riche en Pi (avec substrat chromogénique de Pho5) Obtention d'un grand nombre de clones de phénotype "phosphatase moins" (Pse-) et"phosphatase constitutive » (PseC) 2. Classement des mutants phénotype récessif ou dominant ? -> croisement de chaque mutant avec la souche sauvage de signe sexuel contraire et analyse du 2n hétérozygote Principe : mutation récessive = mutation de perte de fonction (complémentée par l’allèle sauvage) mutation dominante = mutation de gain de fonction (non complémentée par l’allèle sauvage) Résultat : 3 types de mutants sont obtenus : mutants Pse- récessifs mutants Psec récessifs mutants Psec dominants Les mutants Pse- sont-ils tous mutés dans le même gène? Ou dans plusieurs gènes, mais alors combien? -> test de complémentation entre les différents mutants récessifs Pse Principe : Un facteur positif active l’expression de PHO5 quand le milieu est pauvre en Pi. Si sa fonction est perdue (mutant pho2, pho4, pho81), PHO5 n’est plus exprimé sur ce milieu, et ce défaut peut-être complémenté par l’apport du gène sauvage codant pour ce facteur positif (phénotype mutant est récessif) Un facteur négatif empêche l’expression de PHO5 quand le milieu est riche en Pi. Si sa fonction est perdue (mutant pho80, pho85), l’expression de PHO5 est constitutive, et ce défaut peut-être complémenté par l’apport du gène sauvage codant pour ce facteur négatif (phénotype récessif) quid des mutants Psec dominants ? Il est probable que ces mutations de gain de fonction altèrent l’un ou l’autre gène PHO identifiés grâce aux mutations récessives. Pour tester cette hypothèse, on réalise un test de liaison génétique entre chaque mutant dominant constitutif et un représentant de chaque classe de mutants pho récessifs (croisement, isolement d'un 2n, analyse de tétrades) : si la mutation PseC est située dans un de ces gènes PHO, une forte liaison génétique apparaitra. Un facteur positif active l’expression de PHO5 quand le milieu est pauvre en Pi. Ce facteur est inhibé quand le milieu est riche en Pi. Si une mutation rend ce facteur insensible à cette inhibition, l’expression de PHO5 est constitutive. Et ce défaut n’est pas complémenté par l’apport du gène sauvage codant pour ce facteur positif (phénotype dominant). Conclusion : intervention de deux facteurs négatifs (Pho80, Pho85) et de trois facteurs positifs (Pho2, Pho4, Pho81), et deux des facteurs positifs (Pho4 et Pho81) sont inhibés quand le milieu est riche en Pi -> cascade de régulation ? 3. Etablissement des relations d'épistaticité (qui l’emporte sur qui) entre les gènes PHO Comment ? analyse du phénotype de doubles mutants Pse- PseC : quel phénotype l'emporte ? Résultat de l’analyse des tests d'épistaticité : phénotype des doubles mutants -> modèle de régulation du gène PHO5 4. Clonage des gènes PHO : clonage par complémentation - séquençage des deux extrémités du fragment d’ADN génomique inséré dans le plasmide - comparaison des séquences obtenues (qqes centaines de pb) avec la séquence génomique complète de la levure Les protéines Pho impliquées dans la régulation transcriptionnelle de PHO5 étant identifiées, la suite de l’étude visera à comprendre leur mode d’action moléculaire (par des analyses biochimiques, de biologie cellulaire,..) -> Conclusions de l'analyse : Pho2 et Pho4 = activateurs de transcription se liant à des séquences spécifiques en amont du gène PHO5 Pho85 = kinase de type CDK (cyclin-dependent kinase) activée par la sous-unité Pho80 (protéine de type cycline) Le complexe Pho85-Pho80 phosphoryle Pho4 : la protéine Pho4 est alors inactive (car séquestrée dans le cytoplasme) Pho81 : se lie au complexe Pho80-Pho85. Dans les conditions de carence en Pi, il inhibe Pho85 (qui ne peut plus se lier à Pho4). Pho4 n'est alors plus phosphorylé, il migre dans le noyau où il active la transcription (conjointement avec Pho2) de PHO5. Si le Pi est abondant, Pho81 reste lié au complexe, mais sans inhiber Pho85. Pho4 est alors inhibé. Inhibition de Pho81 par le Pi ? Une molécule hautement phosphorylée (inositol-1,5-pyrophosphate) se lie à Pho81 (sur domaine SPX) et change sa conformation -> inhibition de la capacité de Pho81 à inhiber Pho85, qui est alors actif Avant les travaux de génomique fonctionnelle : forward genetics On isole des mutants présentant un phénotype particulier, et on tente d'identifier le gène qui est déficient dans ce mutant Suite aux travaux de génomique fonctionnelle : reverse genetics On recherche parmi tous les mutants possibles de levure ceux qui présentent le phénotype recherché (perte de fonction). Quand un mutant est ainsi trouvé, on sait immédiatement de quel gène il s'agit. avantage : rapidité limitation : on n’aalyse que des mutaations de « perte complète de fonction » qui sont viables - Exemple de dissection génétique chez le poisson Zebrafish : biologie moléculaire de l'embryogenèse d'un vertébré 1. Isolement des mutants (crible en 2 générations) traitement de mâles (d’une lignée consanguine, AB) à l'éthylnitrosourée (ENU) après 3 semaines (spermatogonies mutagénisées devenues spermatozoïdes), croisement avec une femelle non mutagénisée -> descendances F1. Chaque individu F1 est donc hétérozygote pour en moyenne une mutation. Les poissons F1 qui présentent une anomalie sont porteurs d’une mutation dominante ; on les écarte car le travail va se concentrer par la suite sur les mutations récessives (perte de fonction). Pour chaque mutation, isolement de poissons homozygotes par un "crible en 2 générations" : croisement de chaque poisson F1 (~ 3000) avec le sauvage (-> ~ 3000 descendances F2) isolement de couples F2 -> intercross -> descendance F3 : 1 couple sur 4 en moyenne donnera 25% d'homozygotes pour la mutation m Résultat du crible : 1163 mutants isolés parmi les descendances F3 très grande variété de phénotypes (défauts à tous les stades du développement) 2. Classement des mutants Pour chaque phénotype, on dispose de plusieurs mutants. Sont-ils touchés dans le même gène ou des gènes différents ? Dans le second cas, combien de gènes interviennent ? -> tests de complémentation (ex. si les mutations m1 et m2 provoquent le même phénotype, si complémentation -> m1 et m2 affectent des gènes différents, si y a pas complémentaion -> m1 et m2 affectent le même gène) 3. Clonage des gènes : par positionnement la mutation est tout d’abord cartographiée par rapport à des marqueurs moléculaires (SSLPs) -> la cartographie se base sur l’emploi d’une 2de lignée consanguine qui est polymorphe vs. lignée AB) les fragments d'ADN de la zone chromosomique correspondante sont disponibles grâce à la cartographie physique préalable du génome. Recherche (par des analyses bioinformatiques et expérimentales) du gène d'intérêt parmi ceux dans cette zone chromosomique) Les protéines impliquées dans le développement embryonnaire du Zebrafish étant identifiées, la suite de l’étude visera à comprendre leur mode d’action moléculaire (par des analyses biochimiques, de biologie cellulaire,..) 4. Génétique classique et génétique inverse (reverse) appliquées au Zebrafish Génétique classique -> mutagenèse par : Génétique inverse -> différentes approches : - morpholinos = molécules synthétiques stables (injectées dans oeuf fécondé) capable d’inhiber la synthèse d’une protéine particulière - ciseaux moléculaires (knock-out par frameshift) Chapitre V. Identification des gènes associés aux pathologies génétiques chez l’espèce humaine - Vue d’ensemble Une des principales activités de recherche en génétique a comme objectif d’identifier les gènes humains associés aux maladies génétiques. Deux types de maladie doivent être considérés : 1. Les maladies à transmission mendélienne : causées par une mutation dans un seul gène (monohybridisme) rares. gènes identifiés dès les années 80s grâce aux marqueurs moléculaires de type RFLP et ensuite SSLP (majorité des gènes) 2. Les maladies multifactorielles : dont le risque de développement est influencé par plusieurs gènes (ou des allèles particuliers de ceux-ci) et le plus souvent par des facteurs environnementaux, communes. gènes identifiés surtout à partir des années 2000, suite au séquençage du génome humain et grâce à l’exploitation des SNPs et des biopuces à ADN, recherches toujours en cours par application des méthodes de séquençage NGS. - Identification des gènes responsables des maladies à transmission mendélienne Le principe On exploite des cas de transmission familiale de la maladie. Pour identifier et caractériser le gène responsable de la maladie, on applique la méthode de clonage par positionnement. Etapes : 1. Etablir une carte génétique de marqueurs moléculaires (ex. SSLPs). 2. Positionner le gène vis-à-vis des marqueurs (cartographie). 3. Analyser dans la zone chromosomique ainsi délimitée quels gènes sont présents, déterminer lequel est associé à la pathologie et identifier la mutation responsable de la maladie. Chaque marqueur (M) est représenté dans la population humaine par un nombre limité d’allèles, qu’on peut distinguer par un test expérimental (génotypage) Les membres de la famille sont génotypés pour des marqueurs distribués dans tout le génome pour en trouver un qui est lié au gène. Ex. le marqueur (M) représenté par les allèles i, j et k semble lié au gène car un de ses allèles (k) est systématiquement transmis avec l’allèle mutant a (cas idéal). Ce serait I.2 qui a transmis l’allèle mutant à sa descendance : On peut calculer la probabilité d’observer cette co -transmission alors que le gène A et M ne sont pas liés (ségrégation indépendante). Etablissement de cartes génétique de SSLPs chez l’être humain Identification de très nombreux microsatéllites (SSLPs) dans le génome humain. Initialement, on ne sait pas où ils se situent dans le gènome. Un travail de cartographie doit être mené pour les positionner les uns par rapport aux autres le long des chromosomes. Comment? En examinant leur transmission au sein des membres d’un grand nombre de familles. En parallèle, construction de cartes physiques du génome humain On applique des techniques particulières pour isoler à partir d’ADN humain des fragments contenant un type particulier de SSLP (microsatellite). Après séquençage des séquences bordantes, on définit pour chacun d’eux un couple d’amorces PCR pour ensuite identifier au sein des familles (et de la population humaine) les différentes allèles de chaque SSLP Cartographie des SSLPs : principe On doit ensuite déterminer l’origine parentale des allèles transmis Transmission des allèles des grands-parents et des parents Analyse : - Pour chaque marqueur, la transmission des 2 allèles est équiprobable (loi de disjonction) - Les marqueurs M01 et M02 ne sont pas liés (loi de ségrégation indépendante) - les allèles correspondants ont été transmis de manière indépendante aux individus 3 à 14 - Les marqueurs M01 et M78 sont étroitement liés : les allèles sont transmis par paires, déjà présentes chez les grands-parents : - Cartographie des gènes et notion de lod score les généticiens qui étudient une pathologie génétique donnée examinent plusieurs descendances touchées par la même maladie (au moins 20 événements de méiose sont nécessaires pour établir fiablement une liaison) Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si ΣZ ≈ 0, il n’y a pas de liaison. Si ΣZ ≽ 3, il y a une forte probabilité (p > 0,95) de liaison. Dans ce cas, on se concentre sur cette région pour localiser plus précisément le gène vis-à- vis des différents marqueurs disponibles dans cette zone chromosomique. Ensuite, on recherche le gène d’intérêt dans la zone cartographiée (carte physique, séquence,... cad clonage par positionnement). - La thérapie génique appliquée aux maladies à transmission mendélienne Ex, dans le cas de déficit immunitaire combiné sévère (DICS). Mutation dans gène ADA (adénosine déaminase) -> absence de lymphocytes B, T, NK. Si injection de l’enzyme ADA -> restauration, mais partielle. Premier protocole de thérapie génique : des cellules progénitrices de lymphocytes extraites de la moëlle du patient sont infectées par un rétrovirus modifié contenant le gène ADA. L’ADN viral (formé à partir de son ARN rétrotranscrit) s’insère dans le génome des cellules, qui sont ensuite réinjectées au patient (approche ex vivo) -> rétablissement temporaire de la formation des cellules T et des autres lymphocytes (après de nombreuses opération la patient a subi un rétablissement complet). Limitations de cette approche : Application du protocole à d’autres formes de DICS -> vers années 2000, cas de leucémies chez des enfants traités. Pq? L’intégration peu spécifique de l’ADN viral dans le génome peut dérégler l’expression de certains gènes -> développement de cellules cancéreuses nouveaux protocoles de thérapie génique basés sur le développement de nouveaux vecteurs viraux, par ex. les virus AAV (adeno associated virus), des parvovirus non-pathogènes dont le génome est formé d’ADN simple brin : Leur génome contient 2 gènes, rev et cap, bordés de séquences terminales inversées (ITRs, Internal Terminal Repeats), les seules nécessaires à l’encapsidation. Ces 2 gènes peuvent donc être remplacés par un gène d’intérêt, par ex. celui qui est déficient chez un patient. Après leur injection, les virions infectent des cellules où l’ADN simple-brin est converti en double-brin, qui forme ensuite des concatémères circulaires. Ces derniers ne s’intègrent pas dans le génome et le gène présent entre les deux ITRs s’exprime. Gène thérapeutique -> ARNm -> protéine (déficiente chez le patient) -> petit ARN qui inhibe la synthèse de la protéine mutante (toxique) -> protéine et ARN d’édition de génome. Limitations : taille du gène, cibler les cellules d’un tissu particulier, et limiter la réponse immunitaire. Etudes en cours : visent à modifier les protéines de la capside pour réduire leur caractère antigénique et cibler le virus vers certaines cellules. annonce de la première application à l’être humain d’un protocole de thérapie génique basé sur un AAV et la technologie CRISPR/Cas9 : suppression de la mutation dans le gène CEP290 provoquant une cécité due à la dégénérescence des cellules photoréceptrices de la rétine Mutation A->G dans intron -> apparition d’un site aberrant d’épissage (splice donor site) qui provoque l’insertion d’un exon X entre les exons 26 et 27. Un virus AAV est injecté au niveau de la rétine -> expression dans les cellules de CRISPR/Cas9 + 2 ARNs guide : provoque 2 coupures double- brin de part et d’autre de la mutation -> délétion via réparation NHEJ. Cette modification génétique est non transmissible mais le patient retrouve partiellement la vue. - Identification des gènes associés aux maladies multifactorielles Le principe Selon le modèle ”CD-CV ” = ”Common-disease – common-variant”, le risque de développer une maladie commune serait influencé par des variations génétiques (polymorphismes) communes (présentes à une fréquence relativement élevée au sein de la population humaine). Ex. supposons n gènes -> des allèles particuliers de chacun d’eux, relativement communs, ont pour effet d’augmenter le risque de développer une maladie particulière. C’est en définitive la combinaison de ces allèles - mais aussi, le plus souvent, de facteurs environnementaux - qui vont déterminer ce risque chez chaque personne. Objectif ? Identifier les gènes associés à chaque maladie multifactorielle ainsi que leurs « allèles à risque » Quel type de variations génétiques ? -> étude en priorité des SNP (les plus fréquentes) dont la f ≥ 1%. Intérêt ? -> mieux comprendre les causes biochimiques de la maladie -> développement de traitements -> mise au point de tests génétiques -> estimer le risque génétique de développer la pathologie (-> implications bioéthiques) Approche ? En menant des ”Genome-wide association studies ” - ”GWAS” Analyse systématique des SNPs dans l’ADN d’un grand nombre de patients atteints par la pathologie et d’un groupe contrôle de personnes saines -> recherche de SNP statistiquement plus fréquents chez les personnes malades vs. personnes saines –> Pour mener des études GWAS, il faut donc commencer par inventorier les SNPs ( f ≥ 1% ) de la population humaine (10 millions). a. Inventaire des SNPs Rappel : SNP = Single Nucleotide Polymorphism Une fois le génome d’une espèce séquencé, on isole l’ADN d’individus de la même espèce pour en séquencer un maximum de fragments (aléatoire). Les séquences ainsi obtenues sont comparées à la séquence génomique complète de référence et les SNPs sont ainsi identifiés et répertoriés le long de chaque chromosome (cartographie au nucléotide près). b. Inventaire des haplotypes humains (projet international HAPMAP) Dix millions de SNPs à analyser chez chaque individu ? -> tâche énorme (quand les méthodes NGS n’étaient pas encore disponibles). Astuce? Analyser plutôt les haplotypes de ces personnes ( = nouveau type de marqueur moléculaire). Il existe un nombre limité de versions (haplotypes) de chacune de ces régions chromosomiques, qui diffèrent selon les SNPs (f ≥ 1%) présents. Pour chaque haplotype, on peut définir au moins un SNP marqueur ou indicateur ("tag SNP", tSNP). Ces tSNPs sont très utiles, il suffit de génotyper ces tSNPs pour déterminer l'haplotype. Comment établir l’inventaire des haplotypes de l’espère humaine, et en même temps des hot spots de recombinaison ? Les chercheurs du projet HAPMAP ont génotypé des individus et leurs deux parents Principe de la méthode : supposons 6 SNPS (f ≥ 1S%) consécutifs sur une région chromosomique En théorie, 26 combinaisons d’allèles sont possibles, mais en réalité, il y en a nettement moins : combien et lesquels ? en examinant les 90 descendances (180 méioses), le projet HAPMAP a pu identifier (i) l’ensemble des hot spots de crossing-over (ii) estimer la fréquence de chacun d’eux (hauteur du pic) (iii) les combinaisons d’allèles de SNPs (f ≥ 1%) des régions chromosomiques situées entre deux hot spots, cad l’ensemble des haplotypes de la population examinée (iv) la fréquence de chaque haplotype dans la population examinée (v) pour chaque haplotype, un ” tag SNP ” qui va servir de marqueur dans les études GWAS. - La technique des biopuces d’ADN La technique des biopuces d'ADN ("microarrays", ou microdamiers) permet de génotyper rapidement une personne pour un très grand nombre de SNPs répartis dans tout le génome Les deux allèles d’un SNP peuvent être représentés par quatre oligonucléotides sur la biopuce Quatre oligonucléotides supplémentaires, comprenant une substitution au niveau du SNP (mismatch), de contrôles : Aucun de ces 4 oligonucléotides n'est parfaitement complémentaire aux allèles A et B, ils ne devraient donc pas s'y hybrider Principe de l’expérience de génotypage L'ADN d'un individu est purifié, découpé en petits fragments, marqués (par une molécule fluorescente), dénaturé et enfin hybridé à la biopuce seulement en cas de perfect-match. On détecte ensuite, au niveau de chaque case de la biopuce, la présence de molécules fluorescentes Pour la projet HapMap, un jeu de biopuces a été conçu de manière à pouvoir analyser un total de 3,2.106 SNPs chez les 270 individus (90 familles). Ensuite, les tSNPs ont été répertoriés. Cela a conduit à la confection d’une biopuce ne comportant plus que les tSNPs (environ 420.000, nettement moins !) - Etudes GWAS Principe ? Si une variation génétique particulière augmente le risque de développer une maladie, on peut s’attendre à retrouver cette variation à une fréquence plus élevée parmi les individus atteints de cette maladie (par rapport à ceux qui ne la développent pas), étant entendu que tous les individus malades ne possèdent pas nécessairement cette variation. Or, cette variation génétique sera fatalement située dans un haplotype particulier. On va donc rechercher des haplotypes particuliers qui apparaissent plus fréquemment chez les personnes atteintes de cette maladie (vs. un groupe contrôle), dans le but de localiser cette variation. Supposons qu’un haplotype de ce type ait été identifié : l’examen comparatif approfondi de la séquence de l’haplotype chez les personnes malades et les individus sains peut révéler que le risque de développer la maladie est en fait dû à : a) un tSNP (SNP propre de cet haplotype) b) une autre variation génétique associée à cet haplotype (ex. délétion ou insertion de nucléotides, ou un SNP dont la f est < 1%) – rem : plusieurs haplotypes (plus fréquents dans le groupe des malades) peuvent disposer de la même variation. Bilan des études GWAS ? -> ”GWAS catalog” : -> nombreux nouveaux gènes et ” allèles à risque ” identifiés -> nombreux cas de gènes identifiés dans des études GWAS qui sont aussi la cause de maladies à transmission mendélienne -> découverte de nouveaux mécanismes moléculaires, depuis à l’étude, dont le dysfonctionnement provoque des pathologies Deux enseignement importants et assez inattendus) suite aux études DWAS : 1) L’ampleur de l’effet (”effect size”) des haplotypes est généralement assez limitée Calcul de l’ampleur de l’effet d’un haplotype : poucentage d’individus portant l’allèle a risque et malades fois le pourcentage d’individus sain portant l’allèle à risque. La plupart des haplotypes identifiés par ces études, pris individuellement, n’ont qu’un effet limité sur le risque de développer la maladie. Valeur PRS (polygenic risk score) Equivaut à la somme des valeurs ”effect size” de différents allèles à risque détectés chez une personne pour une maladie multifactorielle donnée. 2) L’étude des SNPs fréquents (≥ 1%) ne rend pas compte de toute l’héritabilité des maladies multifactorielles (-> notion de ”missing heritability”) Pour une maladie donnée, beaucoup de patients présentent un profil génétique qui n’apparait pas significativement

Use Quizgecko on...
Browser
Browser