1er Chap II. Génome Drosophile 2024/2025 PDF

Summary

This document provides an introduction to the genome of Drosophila melanogaster, highlighting its importance as a model organism in understanding various biological processes. Key concepts in genome sequencing, like fragmentation and overlapping sequencing, are outlined.

Full Transcript

Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II. GENOME DE LA DROSOPHILE II.1. Introduction - La drosophile (Drosophila melanogaster) est un organisme qui a une importance...

Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II. GENOME DE LA DROSOPHILE II.1. Introduction - La drosophile (Drosophila melanogaster) est un organisme qui a une importance historique, puisqu’un grand nombre d’études génétiques avaient été réalisées auparavant. - En effet, on avait caractérisé environ 2.500 gènes chez la drosophile avant d’entamer son projet de séquençage. - La drosophile constitue un système modèle pour l’étude de nombreux processus cellulaires et du développement communs aux eucaryotes, dont l’homme :  Les êtres humains et les drosophiles sont similaires.  61 % des gènes de maladies connues ont une correspondance reconnaissable avec le code génétique des drosophiles.  50 % des protéines de cette mouche de vinaigre ont des analogues chez les mammifères.  La Drosophila melanogaster est utilisée comme modèle génétique pour diverses maladies humaines, dont la maladie de Parkinson. - Le rôle de cet organisme model était principalement de :  Tester les nouvelles méthodes de séquençage  Analyser les données séquencées.  II.2. Quelques notions sur le séquençage - Le principe de base dans tout séquençage d’un génome, consiste à : Fragmenter de façon aléatoire du génome. Obtenir des morceaux d’ADN de quelques milliers de paires de bases (faciles à manipuler). Reconstruire La séquence complète du génome à partir de ces séquences unitaires (ou lectures). Rechercher les éventuels chevauchements (= overlapping) entre les séquences. Remarque importante : (Si les séquences sont chevauchantes) C’est que les fragments d’ADN dont elles dérivent ont une partie de leur longueur en commun ; la cassure étant aléatoire, les molécules d’ADN de l’échantillon ne sont pas toutes cassées aux mêmes endroits). - De façon schématique, deux stratégies de séquençage sont actuellement utilisées :  La stratégie du séquençage aléatoire global, « whole genome shotgun ».  La stratégie « clone par clone », ou « shotgun hiérarchique », qui suppose la construction préalable ou concomitante d’une carte physique. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Principe de la stratégie « whole genome shotgun » Diagramme montrant les étapes d’un « séquençage du génome entier par Shotgun basé sur des clones » Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II.2.1.Séquençage par la méthode de terminaison de chaîne (méthode de « Sanger ») - C’est la technique de séquençage de base utilisée dans tous les projets de séquençage modernes (également connue sous le nom de « méthode didéoxy »). - Développée par Fred Sanger dans les années 1970, elle implique :  La réplication de l'ADN d'une matrice monocaténaire à l'aide d'une amorce et d'un désoxynucléotide ordinaire (dNTP), qui est un monomère, ou une unité unique, de l'ADN.  L'amorce et le dNTP sont mélangés à une petite proportion de didésoxynucléotides marqués par fluorescence (DDNTP).  Les DDNTP sont des monomères qui ne possèdent pas de groupe hydroxyle (—OH) au site auquel un autre nucléotide se fixe habituellement pour former une chaîne. Un didésoxynucléotide a une structure similaire à celle d'un désoxynucléotide, mais il ne possède pas le groupe hydroxyle 3' (indiqué par l'encadré). Lorsqu'un didésoxynucléotide est incorporé dans un brin d'ADN, la synthèse de l'ADN s'arrête. La méthode de terminaison de la chaîne didésoxy de Frederick Sanger est illustrée dans cette figure ; à l'aide de didésoxynucléotides, le fragment d'ADN peut être terminé à différents points. L'ADN est séparé ainsi en fonction de sa taille, et ces bandes, en fonction de la taille des fragments, peuvent être lues. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II.2.2. Comment résoudre le problème des chevauchements ? - Pour obtenir suffisamment de séquences chevauchantes et pour réduire au maximum les erreurs de séquençage, ceci conduit à un nombre très important de séquences à réaliser :  Il faut atteindre un certain niveau de redondance, c’est-à-dire produire une quantité de séquences aléatoires (= random sequences) représentant plusieurs fois la longueur de la séquence d’intérêt... dans un nombre de projets de séquençage.  On détermine ainsi la séquence de 10 fois plus d’ADN que n’en comporte le génome étudié.  On parle d’une profondeur de 10X (Dans ce cas de figure, chaque base de la séquence cible a été lue 10 fois en moyenne), mais certaines l’ont été davantage, d’autres moins et d’autres encore pas du tout.  Même à 10X, des « trous » (gaps) peuvent donc subsister, laissant la séquence finale très légèrement incomplète. *Définition de la profondeur  Dans un projet de séquençage, le rapport entre la longueur de l’ensemble des séquences lues mises bout à bout et la longueur du génome cible est nommé profondeur.  Par exemple, si l’on séquence 25 millions de bases (Mb) pour un génome de 5 Mb, on a une profondeur de 5 équivalents génome, ce que l’on note 5X.  Plus la profondeur est importante, plus nombreuses seront les lectures chevauchantes que l’on pourra assembler, et plus grande sera la fraction du génome couverte.  Ceci permet d’obtenir une séquence finale la plus complète possible, avec un minimum de “trous” (gaps) (= régions non séquencées). *Quelques remarques  Toutefois, si l’augmentation de la profondeur du séquençage permet de diminuer ces lacunes de séquence, il arrive un seuil où il est plus économique de boucher les quelques trous restants de façon ciblée.  Par ailleurs, il peut y avoir des biais de représentations (= bias) qui font que certaines régions sont moins couvertes, voire pas du tout.  Il est possible de donner une représentation mathématique de ces trous dans la séquence finale, cela demeure toutefois idéalisé : Profondeur en pratique souvent > profondeur suffisante en théorie (Cas de grands génomes....HOMME) II.2.3. Notion de « contigs »  Ces parties de la séquence cible qui ne sont pas couvertes par les lectures effectuées au hasard constituent une seconde difficulté.  Du fait de ces trous, le résultat de l’assemblage des lectures chevauchantes ne donne pas une séquence continue, mais plusieurs blocs de séquence continue, ou « contigs ».  Ce qui peut être difficile dans un premier temps de les orienter et les ordonner les uns par rapport aux autres, et d’assigner à un emplacement dans le génome.  Séquencer davantage améliore la situation, mais un travail ciblé peut être nécessaire pour combler certains trous. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II.3. Stratégie de séquençage du génome de Drosophila melanogaster  Le séquençage du génome de la drosophile en entier (Whole Genome Sequencing, WGS) par la stratégie « SHOTGUN » consistait à :  Cloner plusieurs fragments de milliers de pb dans des vecteurs, puis à séquencer chacun d’eux de telle façon que chaque base était couverte plusieurs fois.  La longue étape d’assemblage par recouvrement et chevauchement afin de finaliser le travail de séquençage du génome complet. La précision de la séquence obtenue était de 99,99% dans les régions non répétées. II.3.1. Etape de la stratégie « SHOTGUN » utilisée  Cette stratégie de séquençage du génome entier utilise une séquence étendue basée sur des clones (= clone-based sequence) et une carte physique (= physical map) de chromosome artificiel bactérien de haute qualité (= high-quality bacterial artificial chromosome--BAC). Diagramme montrant les étapes d’un « séquençage Shotgun: clones, chevauchements, contigs et gaps... » Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires *Conception algorithmique de Celera Assembler pour le génome de la drosophile Filtrer les fragments de données de séquençage pour étudier la Screener correspondance. Comparaison des fragments de séquences afin d'identifier les zones de Overlapper chevauchement entre eux (répétés, unique). Assembler les fragments de séquences en des unitigs puis contigs. Unitigger Les fragments sont assemblés en des séquences plus longues, structurées et Scaffolder orientées appelées échafaudages. Résultat final = Euchromatine assemblée et non répétée, ordonnée et orientée. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II.4. Résultats du Séquençage du génome de Drosophila melanogaster Euchromatine Versus Hétérochromatine  Le génome de Drosophila a une taille de 180 Mb :  Euchromatine (2/3 des gènes) représentée par 98% des gènes codants pour les protéines.  Hétérochromatine (1/3 des gènes) composée de répétitions de séquences simples (satellites).  Le génome de Drosophila est constitué de 4 paires de chromosomes : 3 paires autosomiques et la paire de chromosome X/Y de taille moyenne.  L’euchromatine au niveau du génome de la drosophile fait 120 Mb, quand à l’hétérochromatine, elle représente 30% du génome de la mouche et fait 59 Mb chez la femelle et 100 Mb chez le mâle.  Le chromosome Y est entièrement hétérochromatine, et on remarque aussi l’augmentation des éléments transposables vers les centromères.  Chez la drosophile, l’hétérochromatine est constituée de courtes répétitions de séquences simples s’étalant sur plusieurs Mégabases et parfois interrompues par des éléments transposables ou des tandems de gènes rRNA.  La complexité de l'étude génomique d’hétérochromatine par les méthodes standards est due à l'instabilité et l’inutilité de l'ADN satellite, d’où l’établissement par hybridation in situ (FISH) de cartes génétiques pour cartographier la distribution des différents ADNs satellites chez la drosophile.  La possibilité de clonage d'ADN non satellite de la partie hétérochromatique de ce génome dans des vecteurs plasmidiques. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Distribution des gènes codants au niveau de l’euchromatine (en gris) et des éléments transposables au niveau de l’hétérochromatine (en noir) du génome de la D. melanogaster. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires * Les ressources d’ADNc et EST  L’éstimation du nombre globale des gènes codants pour des protéines du génome a été faite à l’aide de l’ADNc et EST (Expressed Sequence Tags ou marqueurs de séquences exprimés = « étiquettes »).  Les ESTs ou "Expressed Sequence Tag“ sont des étiquettes de grande taille (~500pb), correspondant à des séquences partielles d'ARNm rétrotranscrites en ADN complémentaire puis clonées et séquencées.  L’analyse informatique des EST consistait à sélectionné un ensemble des EST non redondants, ensuite procéder à l’alignement des EST sur la 1ère séquence génomique (c’est-à-dire la comparaison des EST entre eux et avec les model génétique déjà prédits).  Ce type d’analyse médié par les EST a pour objectifs :  Identifier de manière fiable les clones d’ADNc complets.  Définir la structure exon-intron.  Détecter l’épissage alternatif.  Présenter une ressource essentielle pour la protéomique et les analyses fonctionnelles. Schéma simplifié des étapes de création de bibliothèques d’EST Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  Ainsi, à partir d'un certain nombre de stades de développement et de tissus de Drosophila melanogaster, plus de 260 000 EST ont été séquencées. * Annotation structurelle  L’annotation structurelle des génomes dépendra des données expérimentales et de la similarité des séquences.  Les principales étapes de l’annotation structurelle étaient :  Intégration des analyses informatiques et les données d’ADNc pour l’amélioration de la qualité des résultats.  Stockage des données dans la « Flybase » pour chaque modèle de gène.  Visualisation et évaluation des résultats par un éditeur d’annotation.  Stockage des annotations et des analyses de calcul requis.  Amélioration de l’annotation par le biais de l’ADNc et les séquences EST. * Validation de l’annotation à l’aide de la génomique comparative  La génomique comparative est l'étude comparative de la structure et fonction des génomes de différentes espèces, elle permet :  D'identifier et de comprendre les effets de la sélection sur l'organisation et l'évolution des génomes.  La validation de l’annotation des structures génique à l’aide de la génomique comparative en utilisant des séquences complètes de l’ADNc. Tableau montrant une comparaison du génome de la drosophile avec les génomes des espèces procaryotes et eucaryotes Remarque: Plus de 50 % des protéines de la drosophile présentent de fortes similarités avec des protéines de l’homme. * Nombre de gènes  Le séquençage a permis d’identifier 13.601 gènes (un peu moins que chez le ver nématode C. elegans), soit en moyenne 1 gène pour 10 kb.  Ces gènes coderaient pour au moins 14.113 transcrits (en raison de l’épissage alternatif).  La taille d’un transcrit moyen était de 3.058 pb.  Il a pu être identifié 56.673 exons (~ 4 par gène) occupant 24 Mb, et au moins 41.000 introns (ayant une taille de 40 pb à 70 kb) occupant 20 Mb.  Les régions de forte densité génique corrélaient avec les séquences riches en GC. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires * Eléments transposables  Représentation précise des séquences répétitives.  Identification de 1500 éléments transposable repartie en 90 familles.  L’élément transposable se trouve dans les régions intragéniques.  Les rétro-transposons sont les éléments répétés les plus fréquents dans le génome de drosophile. * Chevauchement des structures  Environ 15% des gènes annotés (2054) impliquent le chevauchement des ARN messagers (ARNm) sur des brins opposés.  Le grand nombre de chevauchements identifiés soulève la possibilité que les interactions anti-sens puissent constituer un mécanisme courant de régulation de l’expression des gènes chez la drosophile. Exemple 01. Overlapping genes (gènes chevauchants): Dans certains cas, l'UTR 3' du gène en amont s'étend au-delà du début de traduction putatif du gène aval Exemple 02. Nested genes (gènes imbriqués) : Environ 7,6% des gènes sont inclus dans les introns d'autres gènes la majorité des protéines sont transcrites à partir du brin opposé du gène environnant 3. Interleaved genes (gènes entrelacés) :  Les gènes entrelacés sont transcrits sur des brins opposés à partir de la même région génomique.  Leurs exons ne se chevauchent pas mais correspondent à un intron du gène sur le brin complémentaire.  Des éléments transposables ont été trouvés insérés dans les introns de 431 gènes. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires * Epissage Alternatif  Des transcrits dicistroniques ont été rapportés chez la drosophile.  Les gènes ont été identifiés comme dicistroniques s'ils contenaient des régions codantes non chevauchantes dans un seul ARNm traité. Gènes dicistronique: CG31188 est un exemple de gène dicistronique. Un seul ADNc pleine longueur contient deux cadres de lecture ouverts (ORF), ORF1 et ORF2, séparés par des codons d'arrêt dans le cadre.  L'épissage alternatif peut produire deux ou plusieurs produits protéiques distincts sans chevauchement à partir d'une seule espèce de pré-ARNm. Gènes trans-épissés : modificateur de mdg4 [mod(mdg4):CG7836] est actuellement le seul exemple d'un gène trans-épissé chez la drosophile. * Pseudogènes  Le nombre de pseudogènes signalés chez Drosophila est 17 pseudogènes.  Douze pseudogènes précédemment identifiés et cinq nouveaux pseudogènes (quatre histones et une lectine).  Sur ces 17 pseudogènes, 15 proviennent d'une recombinaison et contiennent des introns intacts. * Edition d’ARN  L'édition est une modification post-transcriptionnelle des ARN changeant la séquence codante existant au niveau de l'ADN.  Elle peut se dérouler pendant la transcription ou de manière post-transcriptionnelle, elle génère une diversité de nucléotides au-delà de celle directement codée par le génome.  Identification de 30 gènes compatible avec l’ARN édités chez la Drosophile.  L’adénosine désaminase (ADAR) est une enzyme qui intervient dans le métabolisme des purines et des acides nucléiques.  L’ADAR cible les régions à double brin des ARN pour désaminer l’adénosine (A) en iosine (I), cette conversion dans l’ARNm altère l’information génétique et donc la structure des protéines. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires *ARN non codants  Les ARNnc sont des transcrits produits par les loci du complexe du bithorax.  Les microARN : sont des ARN non codant de 21 à 22 nucléotides, chez la drosophile 23 de ses miARN sont annotés. Leur fonctions sont inconnues, mais plusieurs miRNA de drosophile sont parfaitement complémentaires de plusieurs classes de motifs de séquence médiant une régulation post-transcriptionnelle négative.  Autre ARN non codant chez les eucaryotes :  ARNsno (petits ARN nucléolaires).  ARNsn (petits ARN nucléaires) qui fonctionnent comme des ribonucléoprotéines.  ARNt de transfert (population complexe). * Annotation fonctionnelle  L’annotation des gènes joue un rôle important dans :  Caractériser des milliers de gènes dont la fonction est inconnue.  La réplication de l'ADN et le contrôle de l'activité des gènes  La détection et la caractérisation des transcrits non codants  La description des modèles d'expression des gènes et la détection des séquences d'ADN en cis * Modèles d’expression génétique  Deux méthodes à grande échelle ont été utilisées avec succès pour déterminer les modèles d'expression génique:  L'hybridation in situ de l'ARN.  Les puces à ADN (Microarrays). * Conclusion  La drosophile est utilisée comme modèle génétique pour diverses maladies humaines, dont la maladie de Parkinson.  Le rôle de cet organisme model était principalement de tester les nouvelles méthodes de séquençage et de pouvoir ainsi analyser les données séquencées.  L'objectif du processus d'annotation est d'attribuer autant d'informations que possible à la séquence brute de génomes complets en mettant l'accent sur l'emplacement et la structure des gènes. Structure, Maintien et Expression des Génomes Mme. SAADI A.

Use Quizgecko on...
Browser
Browser