Summary

This document is an outline of the Human Genome Project (HGP). It discusses early findings and recent discoveries related to human genetics. The document also provides details about the objectives and process of the project, including the development of sequencing technologies and ethical considerations.

Full Transcript

Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II. GENOME HUMAIN II.1. Projet du génome humain (HGP) *Quelques premières découvertes  Mendel 1865: Les lois fondamentales de l...

Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II. GENOME HUMAIN II.1. Projet du génome humain (HGP) *Quelques premières découvertes  Mendel 1865: Les lois fondamentales de l’hérédité.  Avery, Mcleod & McCarthy 1944: L’ADN et non la protéine était le matériel héréditaire dans la plupart des organismes vivants.  Watson & Crick 1953: Découverte de la double nature hélicoïdale de l’ADN. *Quelques dernières découvertes  Après l’année 1970 : L’isolement et la manipulation de l’ADN étaient possibles.  Au cours des années 1980 : Localisation de gènes impliqués dans la santé humaine, la croissance et le développement/ Description de leurs séquences.  En 1990 : Lancement du projet de génome humain (HGP). I.1.1 Qu’est-ce que le projet du génome humain ?  « Human Genome Organisation » (HUGO) a été créée en 1988 en Suisse.  En 1990, un projet lancé conjointement par « USA, Department of Energy and the National Institutes of health », celui-ci a coûté 3 milliards de dollars.  Les travaux ont été réalisés dans 20 centres de séquençage en Chine, en France, en Allemagne, au Japon, au Royaume-Uni et aux États-Unis. I.1.2. Objectifs et buts Le HGP avait deux principaux objectifs :  Élaborer une carte détaillée de l’emplacement des gènes dans le génome humain, en plus du génome de plusieurs autres organismes bien étudiés (Bactéries, levures, drosophile,...).  Déterminer la séquence des informations codées sous forme de « bases » chimiques (A,T,G,C) contenues dans l’ADN (~ 20 000 gènes humains). I.1.3. Projet de cartographie du génome humain (1993 ~ 2003) * Quel était le plan du projet ?  Achever tous les buts et objectifs du projet en 2005.  Commencer la majorité des travaux de séquençage d’ADN humain au cours de 1993~1998 et 1988~2003.  Développement de technologies de séquençage (pour étudier les variations du génome humain) ; la technologie de la génomique fonctionelle, et enfin étudier les aspects éthiques de cette recherche. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  Enfin, le projet a été achevé en 2003, deux ans plus tôt que prévu, ce qui coïncide avec le 50ème anniversaire de la découverte de la structure de l’ADN en 1953 (Watson et Crick).  Le premier génome de référence est la composition de plusieurs génomes provenant de personnes différentes.  Il provient de 10 à 20 échantillons primaires prélevés sur plusieurs donneurs anonymes appartenant à différents groupes raciaux et ethniques. * Le code génétique humain  À la fin de cette période, les réalisations étaient :  Le nombre total de gènes est estimé à environ 20000.  Seulement 25% du code génétique contient des informations pour produire des protéines.  Ainsi, 50% à 70% de la séquence représentent un ADN non codant (une grande partie est constituée d’une séquence répétée).  Le nombre total de bases chimiques s’est élevé à environ 3 millions, et le nombre de « lettres » dans les gènes est très variable (3000 par gène en moyenne). Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires * Avantages de la recherche du projet sur le génome humain  Amélioration de la médecine (diagnostic des maladies).  Recherche microbienne : nouvelles sources d’énergie, combustible et assainissement de l’environnement.  Analyse d’ADN : identification de suspects potentiels sur une scène de crime.  Agriculture : des produits plus nutritifs.  Meilleure compréhension de l’évolution et des migrations humaines basées sur le patrimoine génétique féminin.  Évaluation des risques : réduire la probabilité de mutations héréditaires. * Quelques questions à considérer  Protection de la vie privée : qui devrait avoir accès à vos renseignements génétiques?  Stigmatisation psychologique : comment le fait de connaître sa prédisposition à la maladie affecte-t-il un individu?  Tests génétiques : le dépistage devrait-il être effectué lorsqu’aucun traitement n’est disponible? I.1.4. Human Pangenome Project  Les scientifiques avaient cartographié environ 92 % du génome en 2003, mais il faudrait près de 20 ans pour retrouver les 8 % restants.  Cette matière noire (= « Dark matter ») manquante de notre génome pourrait très bien fournir de nouveaux indices sur la façon dont les humains ont évolué ou sur notre sensibilité à diverses maladies.  Une grande partie de l’information génétique recueillie et analysée depuis la fin du projet provient des populations blanches et européennes _ une disparité qui entrave notre capacité à comprendre véritablement l’impact de la génétique sur la santé de chacun.  Mais les scientifiques travaillaient à combler ce fossé grâce à des initiatives comme le Human Pangenome Project, qui séquencera et rendra disponibles les génomes complets de plus de 300 personnes destinées à représenter l’étendue de la diversité humaine dans le monde entier. * Définition of a pangenome Le pangénome représente l’ensemble des gènes d’une espèce, constitué d’un noyau de génome - contenant les séquences partagées entre tous les individus de l’espèce et du génome « non nécessaire » Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Tableau résumant le résultat du séquençage du génome humain Résultat Détail 90% du génome humain a été séquencé avec un total de 3,164 milliards Taille du génome de bases (~ 3,2 x 10-9). Nombre de gènes Environ 20 000 gènes ont été estimés. 25 % de la séquence est codante (dont 2 % codant pour des protéines), ADN codant/non le reste du génome est non codant = séquences répétées). codant L'ordre des lettres dans les gènes est constant (mais on retrouve plus de Variabilité trois types de protéines par gène chez l’homme). Séquences répétées Les séquences répétées dans l'ADN non codant humain sont plus fréquentes que dans d'autres espèces. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II. GENOME DE LA DROSOPHILE II.1. Introduction - La drosophile (Drosophila melanogaster) est un organisme qui a une importance historique, puisqu’un grand nombre d’études génétiques avaient été réalisées auparavant. - En effet, on avait caractérisé environ 2.500 gènes chez la drosophile avant d’entamer son projet de séquençage. - La drosophile constitue un système modèle pour l’étude de nombreux processus cellulaires et du développement communs aux eucaryotes, dont l’homme :  Les êtres humains et les drosophiles sont similaires.  61 % des gènes de maladies connues ont une correspondance reconnaissable avec le code génétique des drosophiles.  50 % des protéines de cette mouche de vinaigre ont des analogues chez les mammifères.  La Drosophila melanogaster est utilisée comme modèle génétique pour diverses maladies humaines, dont la maladie de Parkinson. - Le rôle de cet organisme model était principalement de :  Tester les nouvelles méthodes de séquençage  Analyser les données séquencées.  II.2. Quelques notions sur le séquençage - Le principe de base dans tout séquençage d’un génome, consiste à : Fragmenter de façon aléatoire du génome. Obtenir des morceaux d’ADN de quelques milliers de paires de bases (faciles à manipuler). Reconstruire La séquence complète du génome à partir de ces séquences unitaires (ou lectures). Rechercher les éventuels chevauchements (= overlapping) entre les séquences. Remarque importante : (Si les séquences sont chevauchantes) C’est que les fragments d’ADN dont elles dérivent ont une partie de leur longueur en commun ; la cassure étant aléatoire, les molécules d’ADN de l’échantillon ne sont pas toutes cassées aux mêmes endroits). - De façon schématique, deux stratégies de séquençage sont actuellement utilisées :  La stratégie du séquençage aléatoire global, « whole genome shotgun ».  La stratégie « clone par clone », ou « shotgun hiérarchique », qui suppose la construction préalable ou concomitante d’une carte physique. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Principe de la stratégie « whole genome shotgun » Diagramme montrant les étapes d’un « séquençage du génome entier par Shotgun basé sur des clones » Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II.2.1.Séquençage par la méthode de terminaison de chaîne (méthode de « Sanger ») - C’est la technique de séquençage de base utilisée dans tous les projets de séquençage modernes (également connue sous le nom de « méthode didéoxy »). - Développée par Fred Sanger dans les années 1970, elle implique :  La réplication de l'ADN d'une matrice monocaténaire à l'aide d'une amorce et d'un désoxynucléotide ordinaire (dNTP), qui est un monomère, ou une unité unique, de l'ADN.  L'amorce et le dNTP sont mélangés à une petite proportion de didésoxynucléotides marqués par fluorescence (DDNTP).  Les DDNTP sont des monomères qui ne possèdent pas de groupe hydroxyle (—OH) au site auquel un autre nucléotide se fixe habituellement pour former une chaîne. Un didésoxynucléotide a une structure similaire à celle d'un désoxynucléotide, mais il ne possède pas le groupe hydroxyle 3' (indiqué par l'encadré). Lorsqu'un didésoxynucléotide est incorporé dans un brin d'ADN, la synthèse de l'ADN s'arrête. La méthode de terminaison de la chaîne didésoxy de Frederick Sanger est illustrée dans cette figure ; à l'aide de didésoxynucléotides, le fragment d'ADN peut être terminé à différents points. L'ADN est séparé ainsi en fonction de sa taille, et ces bandes, en fonction de la taille des fragments, peuvent être lues. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II.2.2. Comment résoudre le problème des chevauchements ? - Pour obtenir suffisamment de séquences chevauchantes et pour réduire au maximum les erreurs de séquençage, ceci conduit à un nombre très important de séquences à réaliser :  Il faut atteindre un certain niveau de redondance, c’est-à-dire produire une quantité de séquences aléatoires (= random sequences) représentant plusieurs fois la longueur de la séquence d’intérêt... dans un nombre de projets de séquençage.  On détermine ainsi la séquence de 10 fois plus d’ADN que n’en comporte le génome étudié.  On parle d’une profondeur de 10X (Dans ce cas de figure, chaque base de la séquence cible a été lue 10 fois en moyenne), mais certaines l’ont été davantage, d’autres moins et d’autres encore pas du tout.  Même à 10X, des « trous » (gaps) peuvent donc subsister, laissant la séquence finale très légèrement incomplète. *Définition de la profondeur  Dans un projet de séquençage, le rapport entre la longueur de l’ensemble des séquences lues mises bout à bout et la longueur du génome cible est nommé profondeur.  Par exemple, si l’on séquence 25 millions de bases (Mb) pour un génome de 5 Mb, on a une profondeur de 5 équivalents génome, ce que l’on note 5X.  Plus la profondeur est importante, plus nombreuses seront les lectures chevauchantes que l’on pourra assembler, et plus grande sera la fraction du génome couverte.  Ceci permet d’obtenir une séquence finale la plus complète possible, avec un minimum de “trous” (gaps) (= régions non séquencées). *Quelques remarques  Toutefois, si l’augmentation de la profondeur du séquençage permet de diminuer ces lacunes de séquence, il arrive un seuil où il est plus économique de boucher les quelques trous restants de façon ciblée.  Par ailleurs, il peut y avoir des biais de représentations (= bias) qui font que certaines régions sont moins couvertes, voire pas du tout.  Il est possible de donner une représentation mathématique de ces trous dans la séquence finale, cela demeure toutefois idéalisé : Profondeur en pratique souvent > profondeur suffisante en théorie (Cas de grands génomes....HOMME) II.2.3. Notion de « contigs »  Ces parties de la séquence cible qui ne sont pas couvertes par les lectures effectuées au hasard constituent une seconde difficulté.  Du fait de ces trous, le résultat de l’assemblage des lectures chevauchantes ne donne pas une séquence continue, mais plusieurs blocs de séquence continue, ou « contigs ».  Ce qui peut être difficile dans un premier temps de les orienter et les ordonner les uns par rapport aux autres, et d’assigner à un emplacement dans le génome.  Séquencer davantage améliore la situation, mais un travail ciblé peut être nécessaire pour combler certains trous. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II.3. Stratégie de séquençage du génome de Drosophila melanogaster  Le séquençage du génome de la drosophile en entier (Whole Genome Sequencing, WGS) par la stratégie « SHOTGUN » consistait à :  Cloner plusieurs fragments de milliers de pb dans des vecteurs, puis à séquencer chacun d’eux de telle façon que chaque base était couverte plusieurs fois.  La longue étape d’assemblage par recouvrement et chevauchement afin de finaliser le travail de séquençage du génome complet. La précision de la séquence obtenue était de 99,99% dans les régions non répétées. II.3.1. Etape de la stratégie « SHOTGUN » utilisée  Cette stratégie de séquençage du génome entier utilise une séquence étendue basée sur des clones (= clone-based sequence) et une carte physique (= physical map) de chromosome artificiel bactérien de haute qualité (= high-quality bacterial artificial chromosome--BAC). Diagramme montrant les étapes d’un « séquençage Shotgun: clones, chevauchements, contigs et gaps... » Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires *Conception algorithmique de Celera Assembler pour le génome de la drosophile Filtrer les fragments de données de séquençage pour étudier la Screener correspondance. Comparaison des fragments de séquences afin d'identifier les zones de Overlapper chevauchement entre eux (répétés, unique). Assembler les fragments de séquences en des unitigs puis contigs. Unitigger Les fragments sont assemblés en des séquences plus longues, structurées et Scaffolder orientées appelées échafaudages. Résultat final = Euchromatine assemblée et non répétée, ordonnée et orientée. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires II.4. Résultats du Séquençage du génome de Drosophila melanogaster Euchromatine Versus Hétérochromatine  Le génome de Drosophila a une taille de 180 Mb :  Euchromatine (2/3 des gènes) représentée par 98% des gènes codants pour les protéines.  Hétérochromatine (1/3 des gènes) composée de répétitions de séquences simples (satellites).  Le génome de Drosophila est constitué de 4 paires de chromosomes : 3 paires autosomiques et la paire de chromosome X/Y de taille moyenne.  L’euchromatine au niveau du génome de la drosophile fait 120 Mb, quand à l’hétérochromatine, elle représente 30% du génome de la mouche et fait 59 Mb chez la femelle et 100 Mb chez le mâle.  Le chromosome Y est entièrement hétérochromatine, et on remarque aussi l’augmentation des éléments transposables vers les centromères.  Chez la drosophile, l’hétérochromatine est constituée de courtes répétitions de séquences simples s’étalant sur plusieurs Mégabases et parfois interrompues par des éléments transposables ou des tandems de gènes rRNA.  La complexité de l'étude génomique d’hétérochromatine par les méthodes standards est due à l'instabilité et l’inutilité de l'ADN satellite, d’où l’établissement par hybridation in situ (FISH) de cartes génétiques pour cartographier la distribution des différents ADNs satellites chez la drosophile.  La possibilité de clonage d'ADN non satellite de la partie hétérochromatique de ce génome dans des vecteurs plasmidiques. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Distribution des gènes codants au niveau de l’euchromatine (en gris) et des éléments transposables au niveau de l’hétérochromatine (en noir) du génome de la D. melanogaster. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires * Les ressources d’ADNc et EST  L’éstimation du nombre globale des gènes codants pour des protéines du génome a été faite à l’aide de l’ADNc et EST (Expressed Sequence Tags ou marqueurs de séquences exprimés = « étiquettes »).  Les ESTs ou "Expressed Sequence Tag“ sont des étiquettes de grande taille (~500pb), correspondant à des séquences partielles d'ARNm rétrotranscrites en ADN complémentaire puis clonées et séquencées.  L’analyse informatique des EST consistait à sélectionné un ensemble des EST non redondants, ensuite procéder à l’alignement des EST sur la 1ère séquence génomique (c’est-à-dire la comparaison des EST entre eux et avec les model génétique déjà prédits).  Ce type d’analyse médié par les EST a pour objectifs :  Identifier de manière fiable les clones d’ADNc complets.  Définir la structure exon-intron.  Détecter l’épissage alternatif.  Présenter une ressource essentielle pour la protéomique et les analyses fonctionnelles. Schéma simplifié des étapes de création de bibliothèques d’EST Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  Ainsi, à partir d'un certain nombre de stades de développement et de tissus de Drosophila melanogaster, plus de 260 000 EST ont été séquencées. * Annotation structurelle  L’annotation structurelle des génomes dépendra des données expérimentales et de la similarité des séquences.  Les principales étapes de l’annotation structurelle étaient :  Intégration des analyses informatiques et les données d’ADNc pour l’amélioration de la qualité des résultats.  Stockage des données dans la « Flybase » pour chaque modèle de gène.  Visualisation et évaluation des résultats par un éditeur d’annotation.  Stockage des annotations et des analyses de calcul requis.  Amélioration de l’annotation par le biais de l’ADNc et les séquences EST. * Validation de l’annotation à l’aide de la génomique comparative  La génomique comparative est l'étude comparative de la structure et fonction des génomes de différentes espèces, elle permet :  D'identifier et de comprendre les effets de la sélection sur l'organisation et l'évolution des génomes.  La validation de l’annotation des structures génique à l’aide de la génomique comparative en utilisant des séquences complètes de l’ADNc. Tableau montrant une comparaison du génome de la drosophile avec les génomes des espèces procaryotes et eucaryotes Remarque: Plus de 50 % des protéines de la drosophile présentent de fortes similarités avec des protéines de l’homme. * Nombre de gènes  Le séquençage a permis d’identifier 13.601 gènes (un peu moins que chez le ver nématode C. elegans), soit en moyenne 1 gène pour 10 kb.  Ces gènes coderaient pour au moins 14.113 transcrits (en raison de l’épissage alternatif).  La taille d’un transcrit moyen était de 3.058 pb.  Il a pu être identifié 56.673 exons (~ 4 par gène) occupant 24 Mb, et au moins 41.000 introns (ayant une taille de 40 pb à 70 kb) occupant 20 Mb.  Les régions de forte densité génique corrélaient avec les séquences riches en GC. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires * Eléments transposables  Représentation précise des séquences répétitives.  Identification de 1500 éléments transposable repartie en 90 familles.  L’élément transposable se trouve dans les régions intragéniques.  Les rétro-transposons sont les éléments répétés les plus fréquents dans le génome de drosophile. * Chevauchement des structures  Environ 15% des gènes annotés (2054) impliquent le chevauchement des ARN messagers (ARNm) sur des brins opposés.  Le grand nombre de chevauchements identifiés soulève la possibilité que les interactions anti-sens puissent constituer un mécanisme courant de régulation de l’expression des gènes chez la drosophile. Exemple 01. Overlapping genes (gènes chevauchants): Dans certains cas, l'UTR 3' du gène en amont s'étend au-delà du début de traduction putatif du gène aval Exemple 02. Nested genes (gènes imbriqués) : Environ 7,6% des gènes sont inclus dans les introns d'autres gènes la majorité des protéines sont transcrites à partir du brin opposé du gène environnant 3. Interleaved genes (gènes entrelacés) :  Les gènes entrelacés sont transcrits sur des brins opposés à partir de la même région génomique.  Leurs exons ne se chevauchent pas mais correspondent à un intron du gène sur le brin complémentaire.  Des éléments transposables ont été trouvés insérés dans les introns de 431 gènes. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires * Epissage Alternatif  Des transcrits dicistroniques ont été rapportés chez la drosophile.  Les gènes ont été identifiés comme dicistroniques s'ils contenaient des régions codantes non chevauchantes dans un seul ARNm traité. Gènes dicistronique: CG31188 est un exemple de gène dicistronique. Un seul ADNc pleine longueur contient deux cadres de lecture ouverts (ORF), ORF1 et ORF2, séparés par des codons d'arrêt dans le cadre.  L'épissage alternatif peut produire deux ou plusieurs produits protéiques distincts sans chevauchement à partir d'une seule espèce de pré-ARNm. Gènes trans-épissés : modificateur de mdg4 [mod(mdg4):CG7836] est actuellement le seul exemple d'un gène trans-épissé chez la drosophile. * Pseudogènes  Le nombre de pseudogènes signalés chez Drosophila est 17 pseudogènes.  Douze pseudogènes précédemment identifiés et cinq nouveaux pseudogènes (quatre histones et une lectine).  Sur ces 17 pseudogènes, 15 proviennent d'une recombinaison et contiennent des introns intacts. * Edition d’ARN  L'édition est une modification post-transcriptionnelle des ARN changeant la séquence codante existant au niveau de l'ADN.  Elle peut se dérouler pendant la transcription ou de manière post-transcriptionnelle, elle génère une diversité de nucléotides au-delà de celle directement codée par le génome.  Identification de 30 gènes compatible avec l’ARN édités chez la Drosophile.  L’adénosine désaminase (ADAR) est une enzyme qui intervient dans le métabolisme des purines et des acides nucléiques.  L’ADAR cible les régions à double brin des ARN pour désaminer l’adénosine (A) en iosine (I), cette conversion dans l’ARNm altère l’information génétique et donc la structure des protéines. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires *ARN non codants  Les ARNnc sont des transcrits produits par les loci du complexe du bithorax.  Les microARN : sont des ARN non codant de 21 à 22 nucléotides, chez la drosophile 23 de ses miARN sont annotés. Leur fonctions sont inconnues, mais plusieurs miRNA de drosophile sont parfaitement complémentaires de plusieurs classes de motifs de séquence médiant une régulation post-transcriptionnelle négative.  Autre ARN non codant chez les eucaryotes :  ARNsno (petits ARN nucléolaires).  ARNsn (petits ARN nucléaires) qui fonctionnent comme des ribonucléoprotéines.  ARNt de transfert (population complexe). * Annotation fonctionnelle  L’annotation des gènes joue un rôle important dans :  Caractériser des milliers de gènes dont la fonction est inconnue.  La réplication de l'ADN et le contrôle de l'activité des gènes  La détection et la caractérisation des transcrits non codants  La description des modèles d'expression des gènes et la détection des séquences d'ADN en cis * Modèles d’expression génétique  Deux méthodes à grande échelle ont été utilisées avec succès pour déterminer les modèles d'expression génique:  L'hybridation in situ de l'ARN.  Les puces à ADN (Microarrays). * Conclusion  La drosophile est utilisée comme modèle génétique pour diverses maladies humaines, dont la maladie de Parkinson.  Le rôle de cet organisme model était principalement de tester les nouvelles méthodes de séquençage et de pouvoir ainsi analyser les données séquencées.  L'objectif du processus d'annotation est d'attribuer autant d'informations que possible à la séquence brute de génomes complets en mettant l'accent sur l'emplacement et la structure des gènes. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires III. GENOME DE LA LEVURE « Saccharomyces cerevisiae » III.1. Introduction  Le premier génome eucaryote qui a été séquencé c’est le génome de la levure Saccharomyces cerevisiae en 1996.  Ceci est dû grâce à une collaboration internationale d’environ 600 chercheurs de : l’Europe, Nord de l’Amérique et du japon.  Des équipes ont été réparti facilement du fait que son génome est constitué d’un grand nombre de chromosome (16) et sont de petites tailles.  Avec l’existence de deux banques d’ADN complémentaires (ADNc bien organisées et pratiquement sans gaps) dans des vecteurs cosmidiques, ce qui a facilité le séquençage. Structure de « cosmide » avec un seul "cos " Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires *Mode d’emploi d’un cosmide pour la constitution d’une banque  Les fragments d’ADN génomiques font 35 à 45 kpb.  Les vecteurs cosmidiques sont coupés dans le polylinker par une enzyme de restriction, puis religués aux fragments d’ADN étranger.  L’ADN recombiné et celui du phage lamba sont assemblés in vitro pour que l’ADN compris entre deux sites cos entre dans une tête.  On obtient des bactériophages recombinés, ces phages infectent des cellules d’E.coli sélection des clones AmpR. Mode d’emploi d’un cosmide pour la constitution d’une banque Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires « Schéma montrant le protocol de séquençage du génome de la levure » *Pourquoi on considère S. cerevisiae comme organisme eucaryote modèle ?  Grâce à ses avantages intrinsèques, on anticipe qu’une partie au moins des systèmes cellulaires fonctionne de façon similaire chez la levure et chez l’homme et par extension chez tous les eucaryotes. * Avantages 1. C’est un organisme unicellulaire qui peut croitre dans des milieux définis, ce qui permet de contrôler entièrement son environnement chimique et physique. 2. S.cerevisiae a un cycle de vie bien adapté à l’analyse génétique classique ce qui a permis la construction de carte génétique sur ses 16 chromosomes. 3. Des techniques puissantes telles que « double hybride » facilitant la mutagénèse (élimination d’un allèle ou son remplacement par un allèle muté), en utilisant n’importe lequel de ses gènes avec une précision absolue. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Système « double hybride » chez la levure III.2. Résultats du séquençage *Au niveau de la séquence  Séquence de 12068 Kb répartie sur 16 chromosomes.  Délimitent 5885 gènes qui codent pour des protéines.  140 gènes codent pour les ARNr (organisé en tandem sur le chr.12).  275 gènes codent pour les ARNt (dispersés dans les chromosomes).  40 gènes codent pour les ARNsn (dispersés dans les chromosomes). Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Tableau. Distribution des gènes et d’autres éléments séquencés chez la S.cerevisiae. Remarque : Le génome de S.cerevisiae montre une grande quantité de redondance apparente, c’est l’un des problèmes majeurs qu’il fallait régler afin d’élucider les fonctions biologiques de tous ses gènes. * Au niveau génomique  Avant le séquençage du génome de S.cerevisiae on ne connaissait que 1000 gènes codants des protéines ou des ARNs.  Après le séquençage, ce génome a montré qu’il y avait 5885 gènes présentant des ORFs et coderaient pour des protéines.  Les ORFs présentent 70% de la séquence totale du génome.  Le génome de la levure est plus compact que celui d’autres génomes eucaryotes plus complexe :  Homme 1 gène/30kb.  Ver nématode 1 gène/ 6kb.  Levure 1 gène/ 2kb.  La compaction du génome de S. cerevisiae est due au fait que :  Les gènes contiennent peu d’introns (231 introns identifiés), sachant que la plupart de ces gènes seraient des copies d’ADNc , qui auraient étaient produites par la « réverse transcriptase » codée par les rétro-transposants et les éléments Ty). Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Rétro-transposants éléments Ty chez la levure  Les introns sont courts (0.1~0.5 kb).  Les régions intergéniques sont courtes.  Les séquences répétées ne sont pas aussi variées et abondantes que dans d’autres génomes. * Au niveau chromosomique  Les chromosomes de la levure sont constitués de larges domaines alternes d’ADN.  Ces domaines sont généralement en corrélation avec la variation de la densité génique le long des chromosomes, ainsi on retrouve :  Des domaines riches en GC : Coïncident avec les régions de forte recombinaison au niveau du milieu de chaque bras du chromosome  Des domaines pauvres en GC : Coïncident avec les régions centromèrique et télomèrique de faible recombinaison. Cas du chromosome III Il a été démontré que la composition de bases est corrélée à la variation de la fréquence de recombinaison le long des bras de ce chromosome. La redondance génétique est également une règle aux extrémités des chromosomes de la levure.  Le génome de la levure contient 52 éléments Ty complets ainsi que 264 éléments LTRs, et autres débris qui sont les empreintes des événements de transposition précédentes.  Ces évènements de transposition ne se font pas au hasard chez la levure, les transposons s’inséreraient en effet préférentiellement dans des régions chromosomiques dites hot spots de transposition. * Au niveau protéomique  Le protéome décrit l'ensemble de protéines d'une cellule vivante capables d’être synthétiser à partir son génome.  L’analyse par ordinateur du protéome de la levure a permis de classer ~50% des protéines sur la base de la similarité de leur séquences en acides aminés avec d’autres protéines de fonctions connues, ceci en utilisant de simples critères d’homologie.  Afin d’apporter une indication sur leur rôle biologique, plusieurs expériences ont été réalisées pour déterminer la fonction de ces protéines. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  Ce qui a permis de classer ~50% des protéines sur la base de la similarité de leur séquences en acides aminés avec d’autres protéines de fonctions connues, ceci en utilisant de simples critères d’homologie (Voir tableau suivant) : % de protéome Rôle 11 % Métabolisme 7% La transcription 6% La traduction 3% La réplication, réparation, recombinaison de son ADN 3% Production et emmagasinage d’énergie Les protéines codées par le génome de la levure et leurs rôles : Nombre de Rôle protéines 430 Ciblage Trafic intracellulaire des protéines 250 Structural 200 Facteurs de transcription 250 Transporteurs primaires et secondaires Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  La compréhension du protéome de la levure nous a permis de comprendre la complexité du protéome humain.  La majorité des protéines de la levure ont des homologues chez l’homme.  ~50% des protéines connues pour leurs déficits dans les maladies héréditaires chez l’homme ont une similarité de séquence en AA avec des protéines de la levure.  Comme exemple, les premières vue disent que le chromosome de la levure ne possède pas le H1, mais en réalité les chromosomes de la levure contiennent le répertoire complet des histones eucaryotes y compris H1 dont le gène a été trouvé sur le chromosome 16. Conclusion : Les protéines humaines pourraient être classées sur la base de leur équivalence structurale ou fonctionnelle aux membres du protéome de la levure * Génome de la levure et évolution  L'existence de deux ou plusieurs gènes codant pour des protéines avec des séquences identiques ou très similaires (redondance) fournit la matière première pour l’évolution de nouvelles fonctions, ce qui a permis ainsi d’élucider le rôle biologique de chaque gène dans le génome de S. cerevisiae.  L’analyse de la séquence complète du génome de la levure suggère qu'il peut avoir subi des événements de chevauchement et duplication à un moment donnés dans son évolution.  La preuve de ces duplications est au niveau des régions péricentriques et la partie centrale du bras de chaque chromosome ou au voisinage des extrémités (= régions subcentromériques).  Toutefois, le génome a continué d’évoluer.  Depuis ces duplications, des insertions, des délétions et des transpositions ont eu lieu, ce qui pourrait être la cause de la plasticité du génome de la levure. EXEMPLE : L’analyse des CHR (Clusters Homology Region) par le séquençage du génome de la levure a permis de bien comprendre son évolution :  CHR occupe une séquence de 7,5KB sur le chromosome 5 et 10.  CHR occupe une séquence de 15KB sur le chromosome 16 et 3. Comparaison des génomes de S. cerevisiae et de K. waltii : Cette comparaison a révélé de très nombreuses régions chromosomiques de K. waltii ressemblant fortement à des régions du génome de S. cerevisiae (Hypothèse: Duplication complète du génome suivie d’importants remaniements chromosomiques) * Génome de la levure et productivité  Deux stratégies d’assemblage des données du génome ont été utilisées pour séquencer le génome de la levure : Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Approche « usine » : Séquençage automatisé au maximum a été réalisé dans de grands centres de séquençage par des spécialistes dont certains ne connaissaient pas les aspects particuliers de la levure (préparation de séquences). Approche « en réseau » : Séquençage était réalisé dans de petits laboratoires par des chercheurs qui connaissent bien le génome de la levure et surtout sa biologie moléculaire (Interprétation des données et livraison au public après une stricte vérification).  Le système « en réseau » était plus réussit, en effet il a permis de générer 55% des séquences totales du génome de la levure car :  Ils ont utilisé des technologies modernes de l’informatique et de l’internet.  Plusieurs petits laboratoires étaient efficaces malgré l’absence d’automatisation et le nombre réduit d’effectifs.  Grande volonté de ces petites équipes a participé dans ce projet ce qui a générer une compétition avantageuse au sein de la communauté scientifique. III.3. Quelques perspectives  Le but de l’analyse fonctionnelle des nouveaux gènes mis en évidence lors du séquençage de la levure était de comprendre : « Comment une simple cellule eucaryote fonctionne ? »  Le séquençage du génome d’autres levures ayant une importance dans l’industrie ou la médecine va servir notamment pour accélérer le développement de souches ayant une meilleure productivité ou pour la recherche de substances antifongiques.  Le séquençage d’autres génomes va être encouragé (génomes de parasites eucaryotes). Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires IV. GENOME Bactérien « Escherichia coli (K12) » IV.1. Introduction * Rappel: arbre phylogénique  La classification des organismes vivants est basée sur les séquences des ARNr : 1. Procaryotes : divisés en eubactéries et archaebactéries 2. Eucaryotes.  L’idée qui a rassuré les scientifiques est le fait que : 1. Les créatures vivantes soient issues d'un gène ancêtre commun qui a subi plusieurs duplications-modifications. 2. Ces modifications surviennent à une vitesse assez faible pour que les gènes apparentés puissent être facilement reconnaissables uniquement sur la base de leur séquence.  De manière remarquable, la grande majorité des produits de gènes des archaebactéries ressemble plus à leurs homologues chez les eubactéries, plutôt que chez les eucaryotes.  Cependant, une minorité significative de protéines des archaebactéries, particulièrement celles en relation avec la transcription et la traduction d’autres gènes, ressemble plus à leurs homologues eucaryotes * Rappel: Escherichia coli  Escherichia coli, également appelée colibacille et abrégée en E. coli, est une bactérie intestinale (Gram négatif), découverte en 1885 par « Theodor Escherich » dans des selles des chèvres.  E. coli est une composante importante de la biosphère. Elle colonise les plus bas intestins des animaux, et comme un anaérobie facultatif, elle survit lorsqu'elle est libérée dans l'environnement naturel, ce qui permet une large diffusion à de nouveaux hôtes.  La souche E. coli K-12 est une souche affaiblie qui ne colonise normalement pas l'intestin Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires humain. Il a également été démontré qu'elle survit mal dans l'environnement, qu'elle est utilisée commercialement sans danger et qu'elle n'a pas d'effets indésirables connus sur les micro-organismes ou les plantes.  Parmis les dérivés d’E.coli k12, la souche MG1655 qui a été choisie pour représenter la séquence, car elle a été maintenue comme une souche de laboratoire avec un minimum de manipulations génétiques. * Rappel: Pourquoi E. coli a été choisie comme un modèle?  Division cellulaire rapide (toutes les 20 minutes à 37 °C dans un milieu riche).  Elle est très facile à transformer en lui ajoutant des morceaux d’ADN à cloner.  Elle a un génome accessible.  Elle permet aussi d’exprimer des protéines en grandes quantités. IV.2. Stratégies de séquençage d’E.coli * La stratégie de « shotgun »  La stratégie de shotgun a été prouvée d’être la plus efficace pour la collection des données, par l’utilisation d’un vecteur M13 Janus.  Il s’agit d’un séquençage initial aléatoire de 4 à 5 fois de redondance.  Les premiers 1,92 Mb ont été séquencés à partir des séquences chevauchées de 15 à 20 Kb insérés dans des clones LAMBDA via des sondes radioactives.  Le phage M13 : C’est un phage filamenteux à ADN simple brin (10 ORF), qui infecte E.coli, en synthétisant un brin complémentaire de l’ADN phagique (forme réplicative ou RF en ADN db).  En clonage, le vecteur M13 a subit des modifications, à savoir; l’introduction des plylinkers, suppression des sites de restrictions identiques et l’insertion du gène lacZ’ pour l’étape du « screening ». Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Etape 1 Etape 2 Etape 3 Les étapes de construction d’un vecteur M13 Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Etape 4 Etape 5 Criblage « screening» par le système Lac Z’ Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Séquençage par « shotgun »  La partie la plus grande du génome (22551 pb à 2497976 pb) a été séquencée par la méthode de « shotgun » via des vecteurs M13.  Les régions entre positions 0 et 22,551 n'ont pas était à ce système, donc à la place trois clones de lambda ont été sélectionnés (« gaps »). * La stratégie de séquençage par terminateur de colorant  Par la suite, ils sont passés à « Fluorescent Dye Terminator Sequencing » afin :  Eviter les compressions élèctrophorétiques.  Une plus grande vitesse et à moindre coût.  En raison de son contenu 50,8 % de GC, survenu dans pratiquement tous les gènes d’E.coli. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Résultat d’un séquençage par terminateur de colorant du génome d’E. coli IV.3. Vue d'ensemble de la séquence  L'origine et la terminaison de la réplication a permis de diviser le génome en deux moitiés opposées (ou « Replicore ») :  Replicore 1  le brin leader (sens de l’horloge)  Replicore 2  le brin complémentaire (sens opposé) La structure globale du génome d’E.coli Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  Le génome de la bactérie E. coli, se compose de 4.639.221pb d’ADN circulaire.  87,8% du génome code pour des protéines.  0,8% du génome code pour des ARN stable.  0,7% se compose de répétions non codantes.  11% du génome pour la régulation d’autres fonctions.  Le brin leader des deux replichores a une plus grande abondance de G ( 26,22 %) que son complémentaire partenaire C ( 24,58%).  Les sept opérons des ARNr et 53/86 gènes d’ARNt sont exprimés dans le direction de la réplication.  Presque 55% des gènes codant des protéines sont aussi alignés dans la direction de la réplication. * Buts de l’annotation du génome d’E.coli  Identifier les gènes, les opérons, les sites de régulations, les éléments génétiques mobiles, et les séquences répétitives dans le génome d’Escherichia coli.  Attribuer ou suggérer des fonctions à des gènes identifiés.  Relier la séquence d’E. coli à d'autres organismes, en particulier à ceux qui ont des séquences génomiques complètes disponibles. IV.4. Annotation * Résultats de l’annotation du génome d’E.coli  La distance moyenne entre les gènes d’E. coli est de 118 pb : A. 70 régions intergéniques (> 600pb) Présence des ORFs : Régions intergéniques avec présence des ORFs Détail de la région 15 régions contenant des ORFs non annotées / 11 régions contenant des séquences caractéristiques / 44 grandes régions qui sont les 3 classes : * Région de régulation des gènes putatifs. * Grandes séquences répétitives. * séquences inconnues. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires B. 53 régions intergéniques Absence des ORFs : Régions intergéniques sans ORFs Détail de la région 29 régions contiennent des séquences à * 21 sont des sites de liaison des protéines de fonctions régulatrices, dont 21 sites régulation représentent des sites de liaison des protéines de régulation 13 régions entre les ORF transcrits * 11 ont au moins un promoteur prédit pour chaque ORF. * 02 régions ont un seul promoteur prédit. 16 régions entre ORF transcrits, au / moins un promoteur prédit en aval de l’ORF C. 7 régions intergéniques n’ont pas une fonction précise de régulation ni de codage Régions intergéniques portant des Séquences régulatrices indépendantes 5 régions contiennent des séquences qui peuvent coder des protéines d'au moins 50 acides aminés. Deux régions contiennent des fonctions supplémentaires, encore inconnues, telles que les sites de liaison des protéines supplémentaires de régulations. IV.5. Gènes nouvellement proposés  Les études ont permis de découvrir de nouveaux gènes existant dans le génome d’E coli, à savoir :  Les nouveaux gènes des ARNt.  Les opérons de dégradation des composants aromatique.  Les opérons exprimant les flagelles.  Les Opérons promoteurs et protéines de liaison.  Les séquences répétées et les SI.  Des séquences d'insertion : Le chromosome d’E.coli K-12 contient un certain nombre d’éléments transposables qui sont impliqués dans la génération d'un grand nombre spontané de mutations, non seulement par insertion inactivation, mais aussi par des délétions, des duplications et des inversions. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  Des séquences répétées : Un certain nombre de séquences répétées ont été caractérisées dans le génome d’E. coli, la plus grande séquences répétées dans E. coli K-12 sont les cinq éléments Rhs qui font de 5.7 à 9.6 kb. Ils n'ont pas de fonction connue, bien que des échanges de souches suggèrent qu'ils peuvent être des éléments mobiles. *Les ORF et les gènes de fonctions IV.6. Conclusion  Bien que la détermination de la séquence complète d’E.coli ait pris presque six ans, d’autres recherches seront nécessaires pour déterminer les fonctions précises pour tous les gènes.  Une autre piste intéressante pour l’exploration se situera dans la comparaison du génome entier avec d’autres génomes microbiens pour mieux comprendre les relations évolutionnaires, et pouvoir identifier aussi les gènes pathogéniques liés à la bactérie d’E. Coli. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires IV. GENOME d’Arabidopsis thaliana V.1. Introduction  Avec le séquençage des trois premiers génomes eucaryotes (levure, nématode et drosophile), les chercheurs ont eu accès au catalogue des gènes présents dans trois grands groupes du vivant.  Les gènes de deux autres grands groupes étaient jusqu’à présent absents de ce catalogue : les végétaux et les deutérostomiens. Le séquençage du génome d’Arabidopsis et la première version de la séquence du génome humain ont comblé cette lacune.  Le génome d’Arabidopsis thaliana est le premier génome de plante à être analysé, ce dernier constitue un modèle important pour les plantes à fleurs.  En particulier, un catalogue de tous les gènes qui assurent le cycle de vie d’une plante a été proposé.  L’analyse de cette séquence donne accès à une quantité considérable d’informations, qui a permis d’établir les bases du fonctionnement des plantes, mais aussi d’enrichir la compréhension des processus conservés chez l’ensemble des eucaryotes. V.2. Quelques rappels historiques  En 1983, la première expérience de transformation de plante ayant un phénotype nouveau, apporté par l’ADN-T (ADN de transfert) d’une agrobactérie, a été réalisée chez le tabac (Nicotiana tabacum).  Aujourd’hui, les trois espèces cultivées dont la production mondiale dépasse les 500 millions de tonnes par an sont le blé, le maïs et le riz.  Dans le domaine horticole, le plus gros chiffre d’affaire de la profession est réalisé par les roses. V.3. Pourquoi « Arabidopsis thaliana » ?  Alors comment se fait-il que la première plante dont le génome ait été entièrement séquencé soit une obscure mauvaise herbe, Arabidopsis thaliana (arabette des dames) ?  Il y a quelques dizaines d’années, elle n’était connue encore que par un petit nombre de botanistes et de généticiens.  La réponse est contenue dans une citation de « Stuyvesant » qui disait que : « le bon choix d’un organisme dépend de la nature du problème posé ».  Il y a quelques années, un certain nombre de chercheurs en génétique végétale ont entrevu le fantastique intérêt d’avoir la séquence complète d’un génome de plante.  En effet, le séquençage d’un génome d’environ 100 Mb était une tâche faisable. Cependant personne ne pouvait imaginer, au sein de la communauté des végétalistes, le séquençage d’un génome ayant une taille de plusieurs milliers de mégabases comme celui du blé ou du maïs. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  Il était donc nécessaire de choisir une plante dont le génome soit de petite taille.  De ce point de vue, Arabidopsis thaliana présente différents avantages tels que :  Une taille réduite.  Un temps de génération très court.  Un nombre de graines très important.  Une facilité de transformation.  La taille de son génome, la plus faible qui soit actuellement connue chez les plantes à fleurs.  Ce sont ces considérations qui, ajoutées à l’existence d’une génétique solide, ont conduit la communauté scientifique végétale à choisir Arabidopsis comme plante modèle, et, à ce titre, être le premier génome de plante entièrement séquencé. V.4. Une stratégie de séquençage déjà démodée ?  La première initiative de séquençage fut européenne, elle a débuté en 1994 sous l’impulsion d’un chercheur britannique « Mike Bevan ».  Elle fut suivie en 1996 par la création de l’Arabidopsis Genome Initiative (AGI).  L’AGI, comprenant des représentants des six instituts ou consortiums internationaux impliqués dans le séquençage, a pris en charge l’organisation et l’intégralité du séquençage de cette plante. Ce projet s’est achevé en décembre 2000.  Le génome d’Arabidopsis a été séquencé selon une stratégie «BAC à BAC » qui repose sur l’existence de cartes génétiques, physiques, et de données de cartographies supplémentaires (séquences d’extrémités de BAC – bacterial artificial chromosome –, construction de nouvelles cartes physiques fondée sur des données de profils d’enzyme de restriction de ces mêmes clones de BAC).  Depuis 1996, les stratégies de séquençage des génomes de grande taille ont largement évolué, et la tendance actuelle semble aller vers une stratégie de séquençage aléatoire global du génome.  Cette stratégie a déjà été utilisée par certaines entreprises privées américaines : Celera pour le séquençage de la drosophile et de l’homme, Syngenta pour celui du riz. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  D’autres projets utilisant cette stratégie sont en cours, comme par exemple le séquençage du génome de la souris par Celera.  Par ailleurs, le projet public de séquençage du génome de la souris par le Consortium International est lui réalisé grâce à une stratégie modifiée, combinant à la fois l’approche de séquençage aléatoire global du génome avec une approche de séquençage « BAC à BAC». * Stratégie de séquençage aléatoire global  Si l’efficacité de la stratégie de séquençage aléatoire global du génome est loin d’être prouvée dans le séquençage du génome humain.  Elle semble l’être pour le séquençage de génomes à faible complexité comme la drosophile. Ainsi, la question de son utilisation a été posée dans le cas du séquençage d’Arabidopsis: au cours de la première réunion de l’AGI, un groupe américain avait proposé de séquencer environ un équivalent génomique de façon totalement aléatoire, en complément de la stratégie de séquençage « BAC à BAC ».  Cette approche aurait eu l’avantage d’obtenir rapidement un inventaire partiel des gènes d’Arabidopsis. Cette proposition a été refusée principalement en raison de la difficulté liée à l’intégration des données engendrées par les deux approches. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires * Avantages et inconvénients de cette stratégie Avantages Inconvénients Coût. Essentiellement liés à la qualité de la Rapidité. séquence obtenue.  Au moment de sa publication, la séquence du génome de la drosophile comportait 1 434 lacunes de séquence, à comparer aux 148 lacunes du génome de C. elegans et aux quelques lacunes (moins de 20) du génome d’Arabidopsis.  Il est donc évident que ce qui est appelé la séquence d’un génome recouvre des réalités très différentes, intimement liées à la stratégie utilisée, et peut-être serait-il souhaitable pour plus de clarté de définir des « catégories » indiquant la qualité de finition des différents génomes.  Par exemple, les 170000 lacunes de séquence existant dans l’assemblage de la séquence du génome humain (version Celera). * Résultats du séquençage  L’analyse du génome d’Arabidopsis par le AGI (Arabidopsis Genome Initiative) a permis de confirmer la présence de 5 chromosomes :  L’analyse des 115 409 949 nucléotides séquencés du génome d’Arabidopsis a permis de confirmer un certain nombre de résultats déjà connus :  Faible nombre de séquences répétées.  Localisation des organisateurs nucléolaires à proximité des centromères sur les chromosomes 2 et 4, celle des gènes codant pour les ARNr 5S au niveau des centromères des chromosomes 3, 4 et 5.  Accéder à une image globale de la structure de chaque chromosome, celle-ci est remarquablement conservée, avec de grandes régions euchromatiques, riches en gènes (1 gène tous les 4,5 kb) s’étendant des répétitions télomériques (de séquence 5’-CCCTAAA-3’) jusqu’aux régions péri-centromériques/centromériques, pauvres en gènes. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  Par ailleurs, Arabidopsis est le premier organisme dont le séquençage des centromères a été réalisé et l’analyse de ces régions a mis en évidence la présence d’environ 200 gènes.  Bien que beaucoup d’entre eux ne soient pas fonctionnels, une cinquantaine de ces gènes est exprimée, et 40 correspondent à des gènes uniques dans le génome.  Curieusement, des séquences répétées télomériques se retrouvent à proximité des centromères : elles pourraient être dues à des réarrangements, tels que des inversions des bras chromosomiques.  De plus, une insertion récente couvrant 620 kb d’ADN mitochondrial a été trouvée dans le centromère du chromosome 2, montrant un transfert récent d’ADN de cet organite vers le génome nucléaire.  La plus grande surprise de l’analyse du génome d’Arabidopsis vient de la grande quantité de duplications qui a été mise en évidence. Ainsi, 24 régions d’une taille supérieure à 100 kb se retrouvent dupliquées : elles recouvrent 65,6 Mb, soit 58 % du génome.  L’origine de ces duplications à grande échelle est encore matière à débat et deux hypothèses évolutives ont été émises :  L’une fait intervenir une forme tétraploïde ancestrale.  L’autre propose plusieurs événements de duplication intervenus successivement.  La redondance du génome se manifeste aussi par la présence de familles de gènes qui est évidemment due :  D’une part, aux duplications du génome.  D’autre part, à la présence de gènes d’une même famille répétés en tandem (de 2 à 23 membres).  Ainsi, 1 528 familles de gènes répétés en tandem ont été répertoriées.  De ce point de vue, la simplicité supposée du génome d’Arabidopsis, qui avait été l’un des arguments de choix pour son inscription au club fermé des organismes modèles, était donc une illusion, et la caractérisation de ses gènes devra être menée en gardant à l’esprit la possibilité de redondance fonctionnelle. V.6. Un grand nombre de gènes, mais une complexité comparable à d’autres eucaryotes  A la fin de l’année 1991, moins de 200 gènes de plantes avaient été identifiés. Aujourd’hui, avec le séquençage du génome d’Arabidopsis.  Le nombre total de gènes identifiés chez cette espèce est de 25 498, et leurs caractéristiques sont résumées dans ce tableau : Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  Certaines caractéristiques de ces génomes sont présentées aussi sur cette figure :  Par ailleurs, les épissages alternatifs semblent peu fréquents chez Arabidopsis (moins de 5 % des gènes, la diversité protéomique obtenue par ce biais est donc vraisemblablement faible.  Des résultats préliminaires obtenus à partir des 10 domaines les plus représentés pour chacun des cinq génomes d’eucaryotes déjà séquencés semblent montrer que la complexité des protéines d’Arabidopsis serait inférieure à celle des génomes animaux. V.7. Le protéome : un eucaryote parmi les eucaryotes...  La comparaison des gènes présents chez Arabidopsis et chez les autres génomes déjà séquencés permet de mettre en évidence les processus biologiques conservés au cours de l’évolution, ainsi que les divergences spécifiques au règne végétal.  L’expression des gènes chez Arabidopsis implique plus de 3000 protéines, indiquant une complexité comparable à celle des autres génomes eucaryotes complètement séquencés. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires  Arabidopsis possède cependant comme l’homme (et contrairement à la drosophile ou à C. elegans) un génome méthylé, ce qui ajoute un niveau supplémentaire au contrôle des gènes, la méthylation intervenant potentiellement par exemple dans des processus comme le silencing.  Le système de transcription d’Arabidopsis est typique de celui des eucaryotes. Ainsi, le génome code pour trois systèmes de transcription, comprenant les polymérases d’ARN de type I, II et III.  De façon plus surprenante, contrairement à tous les eucaryotes analysés à ce jour, Arabidopsis possède deux gènes codant pour les deux plus grandes sous-unités d’une « quatrième classe » de polymérase d’ARN, dont il reste à déterminer le rôle.  Le nombre de gènes impliqués dans le contrôle de la transcription est de l’ordre de 1 700, ce qui est 2X et demi plus important que chez le nématode ou la drosophile, mais demeure proportionnel au nombre de gènes présents.  Cette classe de gènes est la moins conservée : seulement 23 % des protéines impliquées présentent une homologie avec les autres eucaryotes (16 familles de gènes de ce type sont spécifiques des végétaux et certaines familles de facteurs de transcription connues chez les autres eucaryotes sont absentes chez Arabidopsis.  Globalement, les gènes de réparation de l’ADN et de recombinaison (RAR) sont similaires à ceux identifiés chez d’autres espèces, bien que plusieurs gènes RAR soient uniquement présents chez Arabidopsis, tandis que d’autres identifiés chez les métazoaires sont absents.  En ce qui concerne l’organisation cellulaire, Arabidopsis partage avec les autres eucaryotes les gènes codant pour les principaux composants du cytosquelette, ainsi que la plupart des gènes impliqués dans l’activité intracellulaire (trafic de vésicules, cycle cellulaire). V.8.... et l’homme  D’un point de vue évolutif, l’homme est très éloigné d’Arabidopsis, tout comme il l’est de la levure. Cependant, dans certains cas, l’analyse d’homologues de gènes humains chez la levure a apporté des informations importantes pour la détermination de la fonction de ces gènes chez l’homme.  Sur 289 gènes impliqués dans des maladies génétiques chez l’homme, 139 sont homologues d’un gène d’Arabidopsis, et 17 d’entre eux présentent une homologie plus élevée avec Arabidopsis qu’avec la drosophile ou le nématode.  C’est par exemple le cas du gène ATM impliqué dans l’ataxie-télangiectasie, et des gènes BRCA1 et BRCA2 qui interviennent tous les trois dans la réparation de l’ADN chez l’homme.  Dans le cas de maladies multifactorielles, des homologies entre l’homme et la plante ont été observées : un des gènes impliqués dans la maladie de Crohn a par exemple été récemment identifié. Il s’agit de NOD2 qui fait partie du système immunitaire inné, et il est étonnant Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires de remarquer qu’un gène homologue, impliqué dans la résistance aux pathogènes bactériens, existe chez les plantes, d’autant plus étonnant qu’à ce jour moins de 10 gènes impliqués dans des maladies multifactorielles chez l’homme ont été identifiés.  L’homme dépend des plantes (directement ou indirectement) pour sa respiration, son énergie, sa nourriture, ses acides aminés essentiels, ses vitamines, ainsi que pour un grand nombre de composés utilisés en pharmacologie (de l’aspirine au taxol).  Suivie d’un retour à l’état diploïde. De plus, la complexité de ces génomes est considérable, particulièrement en raison d’une présence importante de transposons. Pour ces deux espèces, le séquençage complet de leur génome ne semble pas être d’actualité. V.9. Conclusion  La détermination de la fonction de l’ensemble des gènes chez Arabidopsis a eu non seulement un impact en ce qui concerne l’agronomie et l’environnement, mais aussi sur la connaissance des autres génomes eucaryotes. Structure, Maintien et Expression des Génomes Mme. SAADI A. Module : SMEG Master 1 GFA Session : 2024/2025 1er Chapitre : Partie 01. Structure des génomes nucléaires Structure, Maintien et Expression des Génomes Mme. SAADI A.

Use Quizgecko on...
Browser
Browser