Génétique PDF
Document Details
Uploaded by Deleted User
Tags
Summary
Ce document présente une introduction à la génétique et à la biochimie des acides nucléiques, en particulier de l'ADN et de l'ARN. Il explore la structure et la fonction de ces molécules, ainsi que leurs rôles dans le stockage et la transmission de l'information génétique.
Full Transcript
L’objectif de ce document est d’exposer les connaissances générales sur la biochimie des acides nucléiques, support moléculaire de l'hérédité, et sur le génome humain. Le terme « génome » désigne l'ensemble de l'information héréditaire d'un organisme, présente en totalité dans chaque cellule. Le sup...
L’objectif de ce document est d’exposer les connaissances générales sur la biochimie des acides nucléiques, support moléculaire de l'hérédité, et sur le génome humain. Le terme « génome » désigne l'ensemble de l'information héréditaire d'un organisme, présente en totalité dans chaque cellule. Le support matériel de l'information génétique des êtres vivants et de l’homme est l'ADN ou plus rarement l’ARN. Biochimie de l’ADN : Les acides nucléiques constituent le matériel génétique des cellules. Ils portent les instructions qui permettent aux cellules de fonctionner et de se diviser. Dans toutes les cellules humaines, le matériel génétique est constitué d'ADN double brin. L'ADN et l'ARN sont des acides nucléiques très proches. L'ARN est fonctionnellement plus polyvalent que l'ADN : il est capable de s'auto-répliquer et les séquences d'ARN individuelles peuvent également être traduites en protéine ou réguler l'expression génique. L'ADN étant chimiquement beaucoup plus stable que l'ARN, il est mieux adapté au stockage de l'information génétique dans les cellules. Dans les cellules humaines, le génome est réparti entre le noyau et les mitochondries. La majeure partie de l'ADN se trouve dans le noyau, sous la forme de très longues molécules linéaires d'ADN complexées avec une variété de protéines différentes et certains types d'ARN pour former des chromosomes hautement organisés. Dans les mitochondries, il existe un seul type d’une petite molécule d'ADN circulaire largement dépourvue de protéines. Chaque brin d'acide nucléique est un polymère, une longue chaîne contenant une séquence de nombreuses copies répétées d'une unité : le nucléotide. Chaque nucléotide est constitué d'une molécule de sucre (pentose), à laquelle sont attachés une base azotée et un groupement phosphate. Dans l'ADN, le sucre est le désoxyribose, qui possède cinq atomes de carbone numérotés de 1’ à 5’. Il est très proche du ribose, la molécule de sucre qu'on trouve dans l'ARN, à la seule différence qu'un groupement hydroxyle (-OH) sur le carbone 2’ du ribose est remplacé par un atome d'hydrogène dans le désoxyribose. 1 Les nucléotides individuels sont reliés à leurs voisins par un groupement phosphate (pont phosphodiester) chargé négativement qui relie les pentoses des nucléotides voisins. Par conséquent, les acides nucléiques sont des polyanions et possèdent un squelette sucre-phosphate avec des bases liées aux sucres. Le squelette sucre-phosphate de chaque brin d'acide nucléique est asymétrique et les extrémités de chaque brin sont asymétriques, ce qui donne une direction à chaque brin d’acide nucléique. Les bases azotées sont de quatre types différents. La séquence des différentes bases identifie l'acide nucléique et sa fonction. Deux des bases sont constituées d’un monocycle aromatique (une pyrimidine) et deux ont une structure à deux cycles aromatiques (une purine). Dans l'ADN, les deux purines sont l'adénine (A) et la guanine (G) et les deux pyrimidines sont la cytosine (C) et la thymine (T). Les bases de l'ARN sont très similaires ; la seule différence est que la thymine est remplacée par une base très proche, l'uracile (U). L'ADN génomique nucléaire existe sous forme de double brin (ou double hélice), dans lequel les deux très longs brins d'ADN sont enroulés. Dans la double hélice qui en résulte, chaque base d'un brin d'ADN est liée de manière non covalente (par des liaisons faibles de type liaison hydrogène) à une base opposée sur le brin d'ADN complémentaire, formant ainsi une paire de bases. Toutefois, les deux brins d'ADN ne s'associent correctement que si, en face de chaque A sur un brin, se trouve un T sur l'autre brin, et en face de chaque G, un C. La molécule bicaténaire d'ADN ainsi formée apparaît comme une double hélice et correspond à une molécule d'un diamètre de 2 nm présentant un grand et un petit sillon. 2 Seuls deux types d’appariements sont normalement tolérés dans l'ADN double brin : A-T et G-C. Les appariements G-C qui sont maintenus par trois liaisons hydrogènes, sont des liaisons plus fortes que les appariements de bases A-T qui sont maintenus par deux liaisons hydrogènes. La formation d'un acide nucléique double brin par deux acides nucléiques simple brin est soumise à une restriction supplémentaire. Outre un degré suffisant d'appariement des bases, les deux brins simples doivent être antiparallèles, c'est-à-dire que la direction 5’>3’ d'un brin est opposée à la direction 5’> 3‘ du brin complémentaire. Comme la séquence de bases d'un acide nucléique régit ses propriétés biologiques, il est d'usage de définir un acide nucléique par sa séquence de bases qui est toujours écrite dans le sens 5’>3’. Pour un ADN double brin, la séquence d'un seul des deux brins est nécessaire (la séquence du brin complémentaire peut être immédiatement déduite par les règles d'appariement des bases). Deux brins d'acide nucléique qui peuvent former une double hélice avec une correspondance parfaite des bases (selon les règles d'appariement des bases indiquées ci-dessus, appelés appariement Watson-Crick) sont dits avoir des séquences complémentaires. L'appariement des bases peut également se produire dans l'ARN ; les règles d'appariement des bases y sont plus souples. De nombreux ARN monocaténaires possèdent des séquences qui permettent l'appariement intramoléculaire des bases : l'ARN se replie sur lui-même pour former des structures locales à double brin La taille du génome humain est estimée à environ 3,1 Gb (3,1 × 109 paires de bases ; Gb = giga-base) d'ADN. La valeur « C » représente la taille d'un génome qui peut être exprimée en millions de paires de bases (Mb) ou en picogramme ; un picogramme correspond à 978 Mb. La valeur « C » est très variable en fonction des espèces : de quelques milliers pour la majorité des virus, de quelques millions pour les bactéries et de quelques milliards pour les mammifères. Cependant, la taille des génomes ne corrèle pas avec la complexité des organismes ; c'est le paradoxe de la valeur « C ». Réplication de l’ADN : En tant que dépositaire de l'information génétique, l'ADN doit être transmis de manière stable de la cellule mère aux cellules filles et des individus à leur descendance. Par une néo-synthèse d’acides nucléiques, la réplication de l'ADN permet d'obtenir, à partir d'une molécule d'ADN, deux molécules identiques à la molécule initiale. L'ADN dupliqué sera par la suite réparti entre les deux cellules filles lors de la division cellulaire pour maintenir l'information génétique identique entre les cellules filles. La réplication de l'ADN utilise une double hélice pour produire deux doubles hélices, chacune contenant un brin de la double hélice parentale et un brin nouvellement synthétisé (réplication semi-conservative de l'ADN). Comme la synthèse de l'ADN ne se fait que dans le sens 5’>3’ à partir d’une extrémité 3-OH libre, un nouveau brin (le brin principal) peut être synthétisé en continu ; l'autre brin (le brin secondaire) doit être synthétisé par + morceaux, appelés fragments d'Okazaki. 3 Pour préparer la synthèse d'un nouvel ADN avant la division cellulaire, chaque double hélice d'ADN doit être déroulée à l'aide d'une hélicase. Au cours du processus d’ouverture de la double hélice, les deux brins d'ADN individuels deviennent disponibles comme modèles pour la fabrication de brins d'ADN complémentaires qui sont synthétisés dans le sens 5’>3’. En utilisant un brin d'ADN préexistant comme modèle, un nouveau brin d'ADN est ainsi synthétisé dans le sens 5’>3’ à l'aide d'une ADN polymérase qui incorpore des dNTP successifs. Chaque double hélice d'ADN fils achevée contient un des deux brins d'ADN parentaux plus un brin d'ADN néosynthétisé et est structurellement identique au double brin d'ADN parental d'origine. Les cellules de mammifères possèdent de très nombreux types d'ADN polymérases dépendantes de l'ADN qui remplissent diverses fonctions, notamment l'initiation de la réplication de l'ADN, la synthèse du brin principal et du brin secondaire, ainsi que des fonctions dans la réparation de l'ADN. Le génome humain : La cellule humaine diploïde somatique contient de l'ADN, d'une part au niveau du noyau (génome nucléaire) mais également au niveau des mitochondries (génome mitochondrial). Ces deux génomes sont très différents et le tableau 1 résume leurs principales caractéristiques. 4 Le génome nucléaire est présent en deux copies par cellule diploïde ; il est caractérisé par des molécules linéaires appelées chromosomes ; il existe 46 chromosomes par cellule diploïde. Le caryotype permet de visualiser les 46 molécules d'ADN nucléaire condensés en mitose : c'est-à-dire les 46 chromosomes : 22 autonomes et une paire de gonosomes, XX chez la femme et XY chez l'homme. Ainsi, le génome humain nucléaire est composé de 23 paires de molécules en double hélice d’ADN organisées en fibres chromatiniennes qui se condensent en 23 paires de chromosomes à la mitose et possèdent une architecture spécifique de chaque paire chromosomique. L’ADN mitochondrial est, quant à lui, circulaire bicaténaire. Environ 2 à 10 copies de génome mitochondrial sont dénombrées par mitochondrie et 100 à 1000 mitochondries sont présentes par cellule selon les types cellulaires. Le génome nucléaire est beaucoup plus grand que le génome mitochondrial : le génome nucléaire dans une version haploïde compte environ 3,1 milliards de pb (3,1 Gb) alors que le génome mitochondrial inclut 16569 pb. Le génome mitochondrial est compact et dépourvu d’introns ; il compte au total 37 gènes. Parmi ceux-ci, 24 sont les gènes non codants des deux ARNr et 22 ARNt mitochondriaux (non coding RNA, ncRNA), nécessaires à la traduction mitochondriale. Les autres gènes codent 13 sous-unités polypeptidiques de la chaîne phosphorylo-oxydative mitochondriale. Les autres sous-unités de la chaîne respiratoire, comme toutes les autres protéines mitochondriales, sont codées par des gènes nucléaires et synthétisées sur des ribosomes cytoplasmiques avant d'être importées dans les mitochondries. En raison de la nécessité de produire seulement 13 protéines différentes, le code génétique utilisé par l’ADN mitochondrial a pu diverger du code génétique « universel » utilisé pour l’ADN nucléaire. Il utilise par exemple quatre codons STOP. Aucun des gènes mitochondriaux n'est interrompu par des introns et le génome mitochondrial est très compact : près de 95 % du génome (16,6 kb sauf 1 kb) fabrique des produits géniques fonctionnels. La transcription des deux brins d'ADN se produit à l'aide d'un promoteur chacun, pour générer de grands transcrits multigéniques qui sont ensuite clivés pour générer des ARNm et des ARNnc individuels 5 Le génome circulaire de 16569 pb a une composition de bases de 44% en GC. Au sein du génome mitochondrial : - 24 gènes d'ARN produisent les ARN ribosomiques 12S et 16S ainsi que 22 ARN de transfert (les gènes des ARNt sont représentés par de fines barres rouges avec une lettre indiquant l'acide aminé correspondant ; il existe deux gènes de tRNALeu, L1 et L2, et deux gènes de tRNASer, S1 et S2). - 13 gènes codant des protéines produisent des composants du système de phosphorylation oxydative : sept sous-unités de la NADH déshydrogénase (ND1–ND6 et ND4L), deux sous-unités de l’ATP synthase (ATP6 et ATP8), trois sous-unités de la cytochrome c oxydase (CO1–CO3) et la cytochrome b (CYB). - 2 promoteurs, représentés par des boîtes vertes étiquetées PH (en deux segments) et PL, transcrivent respectivement les brins H et L dans des directions opposées, générant de grands transcrits multigéniques à partir de chaque brin, qui sont ensuite clivés. - OH et OL (boîtes violettes) désignent les origines de réplication (les flèches en pointillés indiquent la direction de la synthèse de l'ADN). Composition de la chromatine : La chromatine consiste en l'association d’ADN, de protéines (en particulier d’histones, protéines riches en acides aminés basiques) et d’ARN. La molécule d’ADN et ses protéines de support sont le siège de modifications biochimiques. Dans les noyaux des cellules, l'organisation en chromatine est essentielle pour assurer l'intégrité de l'ADN génomique. Cette organisation joue un rôle de compaction physique et donc de protection de l'ADN. Elle est également déterminante dans l'établissement et le maintien des états d'expression des gènes à travers les divisions cellulaires ainsi que la détermination de l'identité cellulaire via ces patrons d'expression des gènes. Dès 1975, des images de microscopie électronique permettaient de visualiser le nucléofilament de chromatine d'un diamètre de 11 nm, également appelé « collier de perles » qui montre l'organisation intime de la chromatine. Les histones sont des protéines très riches en acides aminés basiques étroitement associées à l'ADN dont elles permettent la compaction. Le complexe ADN-histones constitue les nucléosomes, l'unité fondamentale de la chromatine, qui comprend une région centrale et une région internucléosomique caractérisée par la présence de l'histone H1 (Figure 12). La région centrale du nucléosome est composée de 146 pb d’ADN enroulées autour d'un noyau de huit protéines histones (octamère), composées de deux de chacune des quatre classes d'histones différentes : H2A, H2B, H3 et H4. Les protéines histones sont chargées positivement (avec plusieurs résidus lysine et arginine) et ont des queues N-terminales saillantes. Les extrémités N-terminales (et C-terminales dans une moindre mesure) des histones sont sujettes à des modifications post-traductionnelles. Chaque queue d'histone N-terminale présente un schéma de modifications post-traductionnelles variables à des positions d'acides aminés spécifiques qui peuvent être méthylés, acétylés, phosphorylés ou soumis à d'autres types de modifications. Certains types d'acides aminés sont des cibles privilégiées pour la modification des queues N-terminales des histones : l'acétylation ne concerne que les résidus lysine, la phosphorylation concerne principalement les sérines et les résidus lysine et arginine peuvent tous deux être méthylés. Certains types de modifications des histones sont associés à une chromatine ouverte et à l'activation de la transcription ou à une 6 chromatine condensée et à la répression de la transcription. Par exemple, la triméthylation de la lysine en position 4 sur l'histone H3 (H3K4me3) est associée à une chromatine ouverte au niveau des promoteurs des gènes activement transcriptionnellement et des enhancers actifs. La triméthylation de la lysine en position 9 sur l'histone H3 (H3K9me3) est principalement associée à la répression de la transcription, étant largement présente dans l'hétérochromatine constitutive et dans les gènes inactifs de l'euchromatine De nombreuses enzymes différentes sont responsables des modifications post-traductionnelles des histones et de leur « lecture » et appartiennent aux trois classes suivantes : -les "writers" ajoutent des groupements chimiques pour modifier l'ADN ou les histones de manière covalente ; dans ce dernier cas, différentes enzymes agissent en fonction du groupement chimique ajouté, ainsi que de la nature et de la position de l'acide aminé dans la queue d'histone, -les "erasers" suppriment les groupements chimiques, -les "readers" se lient à des groupements chimiques spécifiques sur l'ADN ou les histones pour reconnaître des marques épigénétiques définies et conduire à des effets fonctionnels. Les protéines qui se lient à la chromatine ont souvent plusieurs domaines qui reconnaissent les modifications des histones. Les protéines dotées d'un bromodomaine reconnaissent les lysines acétylées des histones nucléosomales, celles dotées d'un chromodomaine reconnaissent les lysines méthylées et différentes variétés de chaque domaine peuvent reconnaître des résidus de lysine spécifiques. Les lecteurs peuvent recruter des facteurs supplémentaires pour induire différents changements chromatiniens tels qu’une condensation chromatinienne ou des changements dans l'espacement et la structure des nucléosomes (remodelage de la chromatine). En ajustant la position des nucléosomes par rapport au brin d'ADN, les promoteurs et d'autres séquences d'ADN régulatrices peuvent devenir libres de nucléosomes, ce qui permet aux facteurs de transcription d'y accéder. Outre la modification des histones, les protéines histones centrales peuvent être remplacées par des variants mineurs, notamment des classes d'histones 2A et 3 (les variants ne diffèrent généralement de l'histone canonique que par quelques acides aminés). Les variants mineurs d'histones sont synthétisés tout au long de l'interphase et sont souvent insérés dans la chromatine déjà formée par une réaction d'échange d'histones catalysée par un complexe de remodelage de la chromatine. Une fois insérées, elles recrutent des protéines de liaison spécifiques pour modifier l'état de la chromatine en vue de fonctions spécifiques. Un exemple bien étudié est celui de CENP-A, un variant de l'histone H3 spécifique du centromère qui est responsable de l'assemblage des kinétochores au niveau des centromères. Les histones modifiées et les variants d'histones agissent généralement de concert avec la méthylation et la déméthylation de l'ADN pour réguler l'expression des gènes via des changements des états de la 7 chromatine. Dans les cellules de mammifères, la méthylation de l'ADN consiste à ajouter un groupe méthyle à certains résidus de cytosine, formant ainsi la 5-méthylcytosine (5-mC). Les cytosines méthylées se trouvent dans le contexte de dinucléotides CG (également notés CpG où p représente le phosphate). La base 5-meC (qui s'apparie normalement avec la guanine) est reconnue par des protéines spécifiques de liaison. Dans une cellule somatique, environ 70 à 80 % des CpG comportent une cytosine méthylée, mais le patron de méthylation est variable selon les régions génomiques. La 5-méthylcytosine peut subir une désamination spontanée pour donner une thymidine qui n’est pas efficacement reconnue par les systèmes de réparation de l’ADN. Comme dans d'autres génomes de vertébrés, le dinucléotide CG est donc nettement sous-représenté dans l’ADN humain (41% de notre génome est constitué de paires de bases G-C, ce qui donne des fréquences individuelles de 20,5 % pour G et C ; la fréquence attendue du dinucléotide CG est donc de 20,5 % × 20,5 % = 4,2 %, mais la fréquence observée du CG est nettement inférieure à ~1%). Il existe environ 30 000 îlots d'ADN dans lesquels la fréquence des CG correspond à la valeur attendue, mais où la cytosine n’est pas méthylée. Ces îlots CpG ont souvent une longueur de 3’ et facilite le transport vers le cytoplasme et la fixation des ribosomes. Modifications post-transcriptionnelles : Poly-adénylation À l'extrémité 3’, une poly(A)-polymérase spécialisée ajoute séquentiellement des résidus d'adénylate (AMP) pour donner une queue poly(A) d'une longueur d'environ 150-200 nucléotides. Le poly(A) contribue au transport de l'ARNm vers le cytoplasme, facilite la liaison avec les ribosomes et joue également un rôle important dans la stabilisation des ARNm (augmentation de leur demi-vie). La transcription de la majorité des gènes humains génère une population variable de transcrits, du fait de sites d'épissage et de polyadénylation alternatifs qui augmentent considérablement la diversité du protéome et les possibilités de régulation de ces transcrits. Ainsi, un changement de 26 site de polyadénylation, en modifiant la nature et la longueur des transcrits et de leur région 3'UTR, peut modifier la séquence des protéines produites, mais aussi la stabilité cellulaire des transcrits. La maturation des ARN est associée au processus transcriptionnel, comme le choix du site de polyadénylation qui est directement lié à la terminaison et qui nécessite un contrôle précis pour éviter les conflits avec d'autres polymérases engagées sur les gènes voisins. Une autre conséquence possible d'un défaut de polyadénylation/terminaison est l'expression de transcrits chimériques, non canoniques, résultant de la transcription de deux gènes positionnés en tandem. Ce phénomène est très répandu dans les cellules cancéreuses mais les mécanismes impliqués sont encore mal compris. Modifications post-transcriptionnelles : RNA editing Pour certains transcrits d'ARN, des nucléotides subissent une désamination ou une transamination. Lorsque cela se produit dans les séquences codantes des ARNm, la séquence d'acides aminés de la protéine diffère de celle prédite par la séquence de l'ADN génomique. Par exemple, certaines adénines dans certains transcrits d'ARN sont naturellement désaminées pour donner la base inosine (I), qui se comporte comme la guanine (par appariement de base avec la cytosine). Dans les séquences codantes, l'édition A>I est le plus souvent dirigée vers les codons CAG, qui spécifient la glutamine (Q). Les codons CIG qui en résultent se comportent comme des CGG et codent pour l'arginine (R) et ce type d'édition de l'ARN est donc également appelé édition Q/R. L'édition Q/R est assez fréquemment rencontrée au cours des modifications post-transcriptionnelles des ARNm qui produisent des récepteurs de neurotransmetteurs ou des canaux ioniques. D'autres types d'édition d'ARN sont connus, notamment l'édition C>U (qui intervient pour l'ARNm de l'apolipoprotéine B, par exemple) et l'édition U>C (ARNm du gène suppresseur WT1). L'étendue de l'édition de l'ARN n’est pas encore complètement décrite. Éléments régulateurs à distance des séquences transcrites Des éléments de régulation de l’expression des gènes peuvent se situer à plusieurs dizaines, voire plusieurs centaines, de kilobases en amont ou en aval des séquences exprimées. Ces éléments sont les séquences dites activatrices (enhancer) ou inhibitrices (silencer) de l’expression des gènes. Il existe également des séquences insulatrices (insulator) qui encadrent un gène ou un groupe de gènes et bornent une région génomique pour en quelque sorte l’isoler d’autres éléments régulateurs du génome et permettre la régulation fine, spatiale et temporelle des gènes contenus dans ce segment Enhancer : régions de l'ADN sur lesquelles se fixent des facteurs de transcription pour activer la transcription de gène(s). Ils agissent en cis (sur la même molécule d’ADN, les rapprochements des régions régulatrices et des promoteurs étant permis par repliement du brin d’ADN). Silencer : régions de l’ADN sur lesquelles se fixent des facteurs de transcription pour inhiber la transcription de gène(s). Les enhancers et les silencers agissent en cis et peuvent être situés jusqu'à 1 million de paires de bases (1 Mb) en amont ou en aval des gènes régulés. Insulators : régions de l’ADN sur lesquelles se fixent des facteurs empêchant un enhancer (ou un silencer) d'activer (ou d'inhiber) la transcription d'un autre gène voisin. Ces éléments de régulation correspondent volontiers à des séquences conservées au cours de l’évolution en raison de leur importance fonctionnelle et sont appelés éléments non codants conservés (conserved non- coding elements ou CNE). Les éléments régulateurs agissant en cis (sur la même molécule d’ADN) influencent souvent l’expression spatio-temporelle des gènes impliqués dans le développement embryonnaire. Des séquences régulatrices différentes peuvent moduler les états transcriptionnels d’un même gène selon les tissus ou les stades du développement 27 Expression des gène codants : traduction Les protéines sont les effecteurs terminaux fonctionnels de l'expression des gènes codants et remplissent une grande diversité de rôles qui régissent le fonctionnement des cellules (composants structurels, enzymes, protéines d’échafaudage, canaux ioniques, molécules de signalisation, facteurs de transcription). Les protéines sont toutes constituées d'un ou de plusieurs polypeptides (polymères d'acides aminés codés par un ADN codant). Dans de nombreux cas, une protéine contient également des composants glucidiques ou lipidiques. Les gènes codants synthétisent un ou plusieurs polypeptides. Un polypeptide nouvellement synthétisé doit subir de multiples étapes de maturation, impliquant généralement des modifications chimiques post-traductionnelles et des événements de clivage et s'associe ensuite souvent à d'autres polypeptides pour former une protéine fonctionnelle (Figure 48) Les molécules d'ARN messager (ARNm) matures sont exportées vers le cytoplasme. Les ARNm s’y lient aux ribosomes, de très grands complexes composés de quatre types d'ARN ribosomique (ARNr) et de nombreuses protéines différentes. Bien qu'un ARNm ne soit formé que d'exons, il comporte à ses extrémités 5’ et 3’ des séquences non codantes. Après s'être liés à l'ARNm, les ribosomes ont pour tâche de parcourir la séquence d'ARNm afin de trouver et d'interpréter une séquence codante centrale qui sera traduite pour former un polypeptide (Figures 28 48-49). Les séquences non codantes situées aux extrémités sont connues sous le nom de régions non traduites (5’ et 3’UTR) et contiennent des séquences importantes pour la régulation de l'expression des gènes. Un polypeptide est un polymère constitué d'une séquence linéaire d'acides aminés. Les acides aminés ont la formule générale NH2-CH(R)-COOH, où R est une chaîne latérale variable qui définit l'identité chimique de l'acide aminé et est reliée au carbone central (alpha) de la séquence NH-CH-CO. Il existe 20 acides aminés courants. Les polypeptides sont constitués par une réaction entre le groupe carboxyle (COOH) d'un acide aminé et le groupe amino (NH2) d'un autre acide aminé, formant une liaison peptidique. Il convient de noter qu'au pH physiologique, les groupes amino- et carboxyle- libres sont chargés : NH3+ et COO- respectivement. Pour produire un polypeptide, la séquence codante d'un ARNm est traduite par groupes de trois nucléotides à la fois, appelés codons. Il existe 64 codons possibles (quatre bases possibles à chacune des trois positions nucléotidiques, soit 4 × 4 × 4 permutations). Parmi eux, 61 sont utilisés pour spécifier un acide aminé ; trois autres signalent la fin de la synthèse des protéines (codon-stop : UAA, UAG et UGA). Le code génétique universel, c'est-à-dire l'ensemble des règles qui dictent l'interprétation des codons, comporte donc une certaine redondance. Par exemple, l'acide aminé sérine peut être spécifié par l'un des six codons (UCA, UCC, UCG, UCU, AGU et AGG) et, en moyenne, un acide aminé est spécifié par l'un des trois codons. Par conséquent, les substitutions de nucléotides au sein de l'ADN codant n'entraînent toujours pas de changement d'acide aminé. Quelques différences de code génétique existent entre le génome nucléaire et le génome mitochondrial ; c'est à dire que la mitochondrie possède son propre système de traduction et n'utilise pas exactement le même code génétique que celui employé pour coder les protéines codées par le génome nucléaire. 29 La traduction commence lorsque les ribosomes se lient à l'extrémité 5’ d'un ARNm et se déplacent ensuite le long de l'ARN pour trouver un site d’initiation de la traduction, le codon d'initiation - un codon (trinuclétide) AUG intégré dans la séquence consensus de Kozak, plus large et moins strictement définie (GCCRCCAUGG). Le codon d'initiation est le début d'un cadre de lecture ouvert de codons qui spécifient les acides aminés successifs de la chaîne polypeptudique. Une famille d'ARN non codants : les ARN de transfert (ARNt), est responsable du transport des acides aminés corrects à insérer dans la position requise de la chaîne polypeptidique en élongation. Les différents types d'ARNt portent chacun un acide aminé spécifique ; ils peuvent reconnaître et se lier à un codon spécifique pour y amener l’acide aminé, en fonction du type d'anticodon qu'ils portent. Au fur et à mesure que chaque nouvel acide aminé est apporté par l’ARNt, il est lié à l'acide aminé précédent de manière à former une chaîne polypeptidique. Le premier acide aminé possède un groupe NH2 (amine) libre et marque l'extrémité N-terminale du polypeptide. Le ribosome catalyse la formation d'une liaison peptidique entre chaque nouvel acide aminé et le dernier acide aminé incorporé, formant ainsi une chaîne polypeptidique. La chaîne polypeptidique se termine lorsque le ribosome rencontre un codon-stop qui signifie que le ribosome doit se désengager de l'ARNm, libérant ainsi le polypeptide ; pour la traduction sur les ribosomes cytoplasmiques, il existe trois codon-stop possibles : UAA, UAG ou UGA. Le dernier acide aminé qui a été incorporé dans la chaîne polypeptidique possède un COOH (groupe carboxyle) libre et marque l'extrémité C-terminale du polypeptide. Lorsque que le ribosome arrive au codon-stop, il se détache de l'ARNm et se dissocie en ses deux sous-unités, libérant ainsi 30 le polypeptide achevé. Le polypeptide peut subir des modifications post- traductionnelles pouvant impliquer un clivage à l'extrémité N-terminale, de sorte que la méthionine peut ne pas être l'acide aminé N-terminal dans le polypeptide mature. Le passage du polypeptide nouvellement synthétisé et libéré par le ribosome à la protéine mature se fait en plusieurs étapes. Le polypeptide subit généralement un clivage et des modifications chimiques post-traductionnels. Les polypeptides doivent également se replier correctement et se lient souvent à d'autres polypeptides pour former une protéine à plusieurs sous-unités. Enfin, ils doivent être transportés au niveau de leur(s) site(s) de localisation intracellulaire ou extracellulaire. Les modifications chimiques post-traductionnelles peuvent par exemple impliquer une liaison entre deux résidus cystéines au sein du même polypeptide ou sur des polypeptides différents pour former des liaisons covalentes appelées ponts disulfures. D’autres modifications chimiques post-traductionnelles peuvent impliquer la simple addition covalente de groupes chimiques sur des résidus précis des chaînes polypeptidiques. Ces modifications post-traductionnelles peuvent être critiques dans la structure et/ou la fonction d'une protéine. Dans d'autres cas, des enzymes spécialisées ajoutent ou clivent de groupes chimiques pour agir comme des interrupteurs moléculaires qui convertissent une protéine d'un état fonctionnel à un autre. Ainsi, des kinases spécifiques peuvent ajouter un groupe phosphate qui peut ensuite être clivé par une phosphatase spécifique. Le passage de l'état phosphorylé à l'état déphosphorylé peut entraîner un changement de conformation majeur qui affecte le fonctionnement de la protéine et peut conditionner le passage d’un état actif à inactif. De même, les méthyltransférases et les acétyltransférases ajoutent des groupes méthyle ou acétyle qui peuvent être éliminés par les déméthylases et les désacétylases correspondantes. Ces modifications chimiques post-traductionnelles sont particulièrement importantes pour modifier les protéines histones et sont associées à des changements des états de condensation de la chromatine et de l'expression des gènes. Les protéines peuvent être modifiées par liaison covalente de glucides ou de lipides complexes au squelette polypeptidique. Ainsi, par exemple, les protéines sécrétées présentent fréquemment des oligosaccharides liés à des chaînes latérales d'acides aminés spécifiques. Différents types de lipides sont également souvent ajoutés aux protéines membranaires. La séquence d'acides aminés d’un polypeptide est appelée la structure primaire. Certaines régions des polypeptides adoptent des types de structure secondaire importants pour le repliement global des protéines. Tant qu'elle n'est pas correctement repliée, une protéine est instable ; différentes molécules chaperonnes contribuent au processus de repliement (les protéines partiellement repliées ou mal repliées peuvent être toxiques pour les cellules). Quatre niveaux différents de structure sont reconnus : - structure primaire : séquence linéaire d'acides aminés dans les polypeptides constitutifs, - structure secondaire : les motifs formés au sein de régions locales de la structure primaire, - structure tertiaire : structure tridimensionnelle globale d'un polypeptide, - structure quaternaire : structure agrégée d'une protéine multimérique (composée de plusieurs sous-unités polypeptidiques pouvant être de différents types). Lorsqu'elles sont placées dans un environnement aqueux, les protéines sont stabilisées par le fait que les acides aminés à chaînes latérales hydrophobes sont situés à l'intérieur de la protéine, tandis que les acides aminés hydrophiles ont tendance à être situés vers la surface. Pour de nombreuses protéines, notamment les protéines globulaires, le schéma de repliement est également stabilisé par des liaisons covalentes entre cystéines dont les chaînes latérales interagissent pour former des ponts disulfures. Le polypeptide initial subit normalement un clivage N-terminal qui peut impliquer la seule méthionine N-terminale. Pour les protéines sécrétées par les cellules, le polypeptide précurseur porte une séquence N-terminale (peptide signal) qui est nécessaire pour aider la protéine à traverser la membrane plasmique. Par la suite, le peptide signal est clivé au niveau de la membrane, libérant la protéine mature (le peptide signal, souvent d'une longueur de 10 à 30 acides aminés, inclut plusieurs acides aminés hydrophobes). D'autres séquences peptidiques internes courtes peuvent servir de signal d'adressage pour le transport des protéines vers les compartiments cellulaires (noyau, mitochondries, membrane plasmique) et sont conservées dans la protéine mature. Les protéines sont souvent constituées de plusieurs sous-unités polypeptidiques liées de façon covalente par des ponts disulfures ou de façon non covalente par des interactions non polaires ou des liaisons hydrogène. Gènes non codants : Une grande variété de protéines différentes détermine le fonctionnement de nos cellules. Cependant, il est surprenant de constater que l'ADN codant - les séquences d'ADN qui codent les polypeptides de nos protéines 31 - ne représente qu'environ 1,2 % de la séquence de l’ADN humain. Cependant, une fraction significative de l'ADN non codant est importante sur le plan fonctionnel, incluant de nombreuses classes différentes de séquences d'ADN qui contrôlent et régulent le fonctionnement de nos gènes (comme les promoteurs et les enhancers/silencers / insulateurs) mais également des séquences d'ADN dont le produit fonctionnel est l'ARN. Ainsi, plusieurs milliers de gènes ne produisent pas de polypeptides, mais différentes classes d'ARN non codants fonctionnels (Figure 53). Certains de ces gènes ARN, tels que les gènes codant pour les ARN ribosomiques et les ARN de transfert (nécessaires à la traduction) sont connus depuis des décennies, mais l'une des grandes surprises de ces dernières années a été le nombre et la diversité des ARN non codants moins classiques. Peu après l’avènement du séquençage du génome humain, il est apparu qu’il existait un grand nombre de transcrits non codants, provenant de régions non codantes ou chevauchantes de régions codantes. Il était donc nécessaire d’explorer l’intégralité du génome pour établir un répertoire de l’ensemble des éléments fonctionnels du génome. Ceci a constitué la base du projet ENCODE (Encyclopedia of DNA elements) réalisé par un très large consortium international de laboratoires. Il a ainsi été montré que la vaste majorité du génome pouvait être transcrite : le consortium ENCODE concluait que 80% du génome est effectivement transcrit en ARN. Seuls 5% des transcrits sont issus d’exons, le reste provient des introns et des régions intergéniques (Figure 55). Nombre de petits ARN transcrits à partir de séquences introniques ont une complémentarité pour des gènes codant des protéines et peuvent réguler (généralement de façon négative) l’expression des gènes dans les introns desquels ils sont inclus. 32 Les données du projet GENCODE release 44 (décembre 2022) ont proposé un total de 27488 gènes non codants et 19396 gènes codants au sein du génome humain (Tableau 4). La grande majorité des gènes non codants régule l'expression des gènes selon différentes modalités ou contribue directement à l'expression des gènes codants. Dans l'hypothèse du "monde de l'ARN", l'ARN est considéré comme le matériel génétique d'origine et capable d’activités fonctionnelles et de fonctions catalytiques ; l'ARN simple brin a une structure très souple et peut prendre des formes complexes par liaisons hydrogènes intramoléculaires. La structure secondaire de l'ARN simple brin dépend de l'appariement des bases entre les séquences complémentaires sur le même brin d'ARN. Les séquences intermédiaires qui ne s'engagent pas dans l'appariement des bases forment des boucles, produisant des structures de type tige-boucle. Des structures de niveau supérieur peuvent se former lorsque, par exemple, une séquence dans la tige d'une boucle s'apparie avec une autre séquence et des structures complexes peuvent se développer. Il convient de noter que l'appariement des bases dans l'ARN comprend des paires de bases G-U ainsi que des paires de bases A-U et G-C plus stables. Les progrès récents dans la description des ARN non codants et de leurs mécanismes d’action ont révélé différentes catégories d’ARN non codants qui peuvent notamment être classés suivant la taille du transcrit avec des petits ARN non codants (200 nt). Petits ARN non codants : Les ARN de transfert (transfer RNA ou tRNA) pour lesquels il existe près de 500 gènes, sont chargés d’acheminer les acides aminés au niveau des ribosomes lors de la synthèse des protéines (Figures 49 et 52) ; Les ARN de transfert ont une structure classique en trèfle résultant d'une liaison hydrogène intramoléculaire. Ils servent d'ARN adaptateur car leur rôle est de s'apparier aux ARNm et de traduire la séquence codante portés par les ARNm. L'appariement des bases est limité à une séquence de trois nucléotides dans l'ARNt, appelée anticodon, qui est complémentaire de celle d'un codon de l’ARNm. Selon l'identité de leurs anticodons, différents ARNt transportent différents acides aminés liés de manière covalente à leur extrémité 3’. Grâce à l'appariement des bases entre le codon et l'anticodon, les acides aminés individuels peuvent être ordonnés et liés séquentiellement selon la séquence des codons dans un ARNm pour former une chaîne polypeptidique ; Les petits ARN nucléaires (small nuclear RNA ou snRNA) entrent dans la composition de complexes ribonucléoprotéiques appelés small nuclear ribonucleoproteins (snRNP) qui sont impliqués dans l’épissage des ARN pré messagers ; Les petits ARN nucléolaires (small nucleolar RNA ou snoRNA) dont il existe environ 400 représentants figurent avec les tRNA et les rRNA parmi les premiers ARN non codants identifiés. Ils ont pour rôle principal la modification post-transcriptionnelle des ARN ribosomiques (ARNr) au niveau du nucléole. En association avec des protéines, ils forment les small nucleolar ribonucleoprotein (snoRNP) qui vont modifier de façon spécifique certains nucléotides des ARNr, soit par 2’-O-méthylation, soit par pseudo-uridylation. Les gènes des snoRNAs sont principalement situés dans les introns ; Les PIWI-interacting RNAs (piARN) sont des petits ARN qui répriment l’expression des transposons (éléments mobiles de l'ADN) au sein des lignées germinales pour y assurer l’intégrité du génome. Les piARN sont principalement exprimés sous forme d'ARN simple brins à partir de clusters mono- ou bi-directionnels. Les microARN (miARN) qui ont généralement une longueur de 20 à 22 nucléotides, jouent un rôle important dans la régulation post-transcriptionnelle des gènes codant pour des protéines en s’appariant avec des séquences dont ils sont partiellement complémentaires, plus fréquemment dans la région 3’UTR des ARNm. Les miRNAs provoquent une dégradation de l’ARNm par clivage ou plus fréquemment répriment la traduction en protéine et régulent donc de façon négative l’expression des gènes. Les micro ARN sont transcrits en tant qu'unités individuelles (pri-miARN) ou avec des gènes hôtes. Après avoir été processés par le complexe Drosha, les miARN précurseurs (pré-miARN) sont exportés du noyau par l'exportine 5 (Figure 56). Une prise en charge par le complexe DICER et la protéine 2 de liaison à l'ARN génère des miARN matures, qui sont chargés dans le complexe RISC pour conduire leurs effets fonctionnels. Un miARN se lie à tout transcrit dont la séquence complémentaire est suffisamment longue pour former un hétéroduplex stable. L'appariement correct des bases est important pour la séquence "d'amorçage" couvrait les huit premiers nucléotides de l'extrémité 5’ du miARN ; certains défauts d'appariement sont tolérés lorsque la partie restante du miARN s'apparie. Étant donné que les miARN sont courts et que certains déséquilibres de base sont tolérés, un seul miARN peut réguler de nombreux gènes différents. Il existe plusieurs centaines de gènes de miARN, dont l'expression est souvent tissu-spécifique. Nombre d'entre eux jouent un rôle important dans le développement, mais les miARN se sont révélés être des régulateurs importants dans toute une série de fonctions cellulaires et tissulaires. Au moins 50 % des gènes codants seraient régulés par 33 des miARN, et différents ARNm ont souvent des séquences cibles de plusieurs miARN. Les miARN sont impliqués dans des réseaux de régulation complexes et ils sont eux-mêmes soumis à des régulations négatives pouvant faire intervenir des ARN de pseudogènes capables de « titrer » les miRNAs par un effet d’éponge. C’est le cas par exemple du pseudogène non codant PTENP1 qui est transcrit en un ARN non codant présentant de nombreux sites de liaison aux miARN dans sa région 3’UTR. PTENP1 pourrait réguler l'expression du gène suppresseur de tumeur PTEN en séquestrant les miARN qui régulent normalement l'ARNm de PTEN. Grands ARN non codants : Les grands ARN non codants (long non-coding RNA ou lncRNA) sont une classe de molécules d’ARN de plus de 200 nucléotides qui n’ont pas de cadre ouvert de lecture (open reading frame, ORF). Ils se répartissent en deux grandes catégories. Les ARN antisens sont transcrits en utilisant le brin sens d'un gène comme modèle et ne sont pas soumis au clivage et à l'épissage. Par conséquent, ils peuvent être très longs, de plusieurs milliers de nucléotides. Ils agissent en se liant à l'ARN sens complémentaire produit à partir du gène, ce qui a pour effet de réduire l'expression du gène. Une deuxième catégorie de longs ARN non codants est formée à partir de transcrits primaires qui sont généralement maturés comme les ARNm. Ils partagent donc pour la majorité, des caractéristiques avec les ARNm comme d’être épissés, cappés, polyadénylés et transcrits par l’ARN polymérase II (RNApol II). Cependant, d’autres éléments les différencient des ARNm ; par exemple, les lncRNAs ont souvent des niveaux d’expression moindre et une faible conservation évolutive de leurs séquences. Il existe de nombreuses bases de données de lncRNAs. GENCODE release 44 donne un total de 19922 gènes à lncRNAs humains (Tableau 4). Bien que de nombreux ARN longs non codants n'aient pas été bien étudiés, une grande partie d'entre eux sont retenus dans le noyau et sont associés à la chromatine. Nombre de ces gènes jouerait un rôle dans l'architecture des chromosomes et la régulation des gènes. Il est complexe d’établir un catalogue complet compte-tenu des critères de détermination, des protocoles de séquençage et des échantillons utilisés. Des bases de données intégratives de différentes sources ont été créées : NONCODE et LNCpedia intègrent de 50000 à 96000 gènes à lncRNAs. Les gènes de lncRNA peuvent être définis par leur position relative aux gènes codants qui sont situés à leur proximité (Figures 57) : -Les gènes lncRNA intergéniques (lincRNA) sont localisés dans une région non annotée du génome, -Les gènes lncRNA antisens sont transcrits dans la direction opposée d’un gène codant et dont la séquence chevauche en partie ou totalement le gène codant lui étant associé, -Les lncRNA introniques sont contenus dans l’intron d’un gène codant, -Les lncRNA divergents sont transcrits de façon divergente au promoteur d’un gène codant. 34 Différencier un lncRNA présentant une fonction biologique du « bruit de fond » transcriptionnel est un enjeu qui requiert des caractérisations omiques et fonctionnelles poussées, liées à des contextes biologiques physiologiques ou pathologiques. Ces approches permettront de préciser (i) les profils d’expression et les réseaux de co-expression des lncRNAs humains et (ii) les interactions entre lncRNAs et ADN, RNA et protéines. Ces descriptions illustrent la complexité des loci à lncRNAs et les multiples mécanismes d’action décrits des lncRNAs. Ainsi, les longs ARN non codants agissent à travers divers mécanismes, par des effets en cis, voire en trans, pour réguler l’expression des gènes codants (Figure 58) : -Ils dirigent des modificateurs de la chromatine vers des gènes cibles spécifiques, -Ils déplacent des régulateurs de l’expression (activateurs ou répresseurs) de leurs séquences cibles, -Ils entrent en compétition avec des ARNm pour la fixation de microARN. -Ils modulent des événements d’épissage et interfèrent avec la traduction, L’exemple du lncRNA XIST illustré l’implication d’un lncRNA dans un mécanisme régulateur majeur : l’inactivation du chromosome X qui permet d’équilibrer le dosage d’expression des gènes liés à l’X. Par un effet en cis, le lncRNA XIST décore le chromosome X inactif pour initier un silencing de la majorité des gènes du chromosome X inactif. Gènes : nomenclature et bases de données Une grande variété de bases de données et de programmes informatiques fournit actuellement une mine d'informations sur le génome humain, les gènes et leurs produits. Les caractéristiques (gènes, exons, transcrits, marques chromatiniennes, séquences répétées, variations connues…) d'un chromosome humain ou d'une région chromosomique sélectionnée peuvent être visualisés sur des navigateurs (genome browser ; voir par exemple UCSC genome browser), permettant de zoomer de l’échelle chromosomique jusqu’à l'échelle nucléotidique, avec des fonctions d’incrémentation de nombreux niveaux d’informations et de caractéristiques sur les séquences visualisées. Le portail HGNC organisé par le HUGO Gene Nomenclature Committee présente un référentiel en ligne actualisé de la nomenclature des gènes, des groupes de gènes et des ressources associées, y compris des liens vers des informations génomiques, protéomiques et phénotypiques. Les symboles des gènes humains sont attribués par le comité de nomenclature des gènes HUGO (HGNC). Le format des symboles de gènes pour d'autres espèces est souvent différent. Les gènes mitochondriaux sont précédés du préfixe « MT- ». Les pseudogènes ont généralement un symbole identique à celui du gène fonctionnel apparenté, mais suivi d'un P ou d'un P suivi d'un nombre. Le portail HGNC à l'adresse www.genenames.org comporte des liens vers de nombreuses bases de données et navigateurs. Il est possible de l'interroger en utilisant le symbole d'un gène, s'il est connu, ou le texte descriptif d'un produit génique ou d'une maladie associée. Environ 43000 symboles sont approuvés avec ~19000 concernant des 35 gènes codant des protéines, le reste comprenant des pseudogènes et des ARN non codants. La section Human Genome Resources du National Center for Biotechnology Information (NCBI) des États-Unis fournit également un grand nombre de liens et d’annotations. Pour faciliter la recherche d'une séquence complète, les bases de données RefSeq ont été créées au NCBI afin de fournir un ensemble complet non redondant de séquences de référence pour différentes espèces. La base de données RefSeq standard contient des séquences de référence non redondantes pour les ARNm (numéros d'identification préfixés par NM_), les ARN non codants (numéros d'identification préfixés par NR_) et les protéines déduites d'un ARNm (numéros d'identification préfixés par NP_). La base de données distincte RefSeqGene contient les séquences de référence des gènes. Variabilité du génome humain L’analyse du génome depuis quarante ans a montré l’existence de variations de l’ADN de divers types. Ainsi, lorsque l’on compare le génome d’un individu au génome dit « de référence », un grand nombre de différences est observé. Ces différences sont appelées des variants. La plupart des variants sont sans effet évident sur le phénotype de l’individu. Certains variants sont responsables de maladies génétiques (ils ont un effet délétère) et sont classés comme « pathogènes » ou « probablement pathogènes » selon les critères d’interprétation de la classification proposée par l’ACMG (American College of Medical Genetics and Genomics). Les variants peuvent être localisés dans tous types de séquence de notre génome : dans les gènes (exons, introns) ou dans des régions intergéniques. L’effet fonctionnel que peut avoir le variant peut être considéré en prenant en compte le type de variant et sa localisation. Les modifications de séquence d'ADN sont décrites comme des « variants ». Le terme « polymorphisme » est généralement utilisé pour un variant commun, avec une fréquence >1%. L'utilisation du terme « polymorphisme » est peu recommandée à cause de la nature arbitraire du seuil de 1% et à cause de l'ambiguïté de l'utilisation du terme. Dans les disciplines médicales, par exemple, le « polymorphisme » est souvent utilisé pour désigner toute varitiƟon de séquence qui ne provoque pas de maladie (variant non délétère), alors que la « mutation » (terme également ambigu) est utilisée pour décrire un variant de séquence provoquant une maladie (effet délétère). Ainsi, il est préférable de privilégier l’usage du terme neutre de « variant ». Les variations génétiques causées par des modifications de la séquence d'ADN peuvent être classées en différentes catégories en fonction des mécanismes sous-jacents et de l'échelle génomique. Deux grandes catégories peuvent être distinguées : -Les variations équilibrées n'affectent pas le contenu en ADN : le nombre de nucléotides reste inchangé. Très souvent, par exemple, un seul nucléotide est remplacé par un nucléotide différent : ces substitutions nucléotidiques sont caractérisées par l’absence de perte ou de gain de contenu en ADN ; Les translocations et les inversions équilibrées rentrent également dans cette catégorie de variations sans perte ni gain d'ADN, -Les variations déséquilibrées sont caractérisées par une perte ou un gain net de séquence d'ADN qui peut concerner par exemple un chromosome entier ou correspondre à des délétions ou des insertions d'un seul nucléotide. Natures des variants nucléotidiques La grande majorité des variants de l'ADN est issue d’erreurs de réplication et de réparation de l'ADN. Ils affectent généralement un nucléotide ou un très faible nombre de nucléotides. L’avènement des programmes d’étude des variations du génome humain a montré que d'autres modifications de structure de l'ADN de plus grande taille (>50 pb) sont également importantes, bien que plus rares. Substitution nucléotidique (single nucleotide variant, SNV) La comparaison de la séquence de différents génomes indique qu’en moyenne un nucléotide tous les 500 nucléotides est variant. Cela signifie que notre génome qui compte 3 milliards de paires de bases, comporte environ 6 millions de variants de type substitutions nucléotidiques appelées SNV (single nucleotide variant). Ainsi, les données issues de projets de séquençage du génome des populations indiquent que les SNV sont le type de variation le plus courant. Dans la plupart des cas, le SNV peut prendre deux formes différentes au sein d’une population, c’est-à-dire que le nucléotide de référence peut être remplacé par un autre, toujours le même : par exemple un C remplacé par un T à une position génomique donnée. Le SNV est alors dit bi-allélique car il y a deux allèles possibles sur la position génomique considérée. Plus rarement, le nucléotide de référence peut être remplacé par un choix de deux nucléotides (A remplacé par C ou T, par exemple) ou trois nucléotides, au sein d’une population donnée. Le SNV est 36 alors tri- ou tétra-allélique, respectivement. Pour chacun des SNV la fréquence des différents allèles est décrite dans une population considérée. Pour un SNV biallélique, l’informativité (définie comme le pourcentage d’hétérozygotes) maximale de 50% est obtenue si les deux allèles ont la même fréquence de 50% dans la population considérée. Dans de nombreux cas, l’allèle minoritaire s’observe à une faible fréquence dans la population et peut être décrit comme un variant rare, voire un variant privé (résultant d'une variation très récente). Ainsi, un variant est caractérisé par sa MAF (Minor allele frequency), fréquence à laquelle le deuxième allèle le plus courant est observé dans une population donnée. Le sigle SNP (pour single nucleotide polymorphism ; prononcer "snip") est généralement utilisé pour un SNV commun, avec une MAF≥1% dans la population considérée. Le terme de SNV est neutre, en ce sens qu’il ne comporte pas de connotation quant à la pathogénicité du variant. Les SNV sont situés à travers tout le génome. Certains sont localisés dans des gènes, d’autres en dehors. Certains SNV, classés comme probablement pathogènes ou pathogènes, sont responsables de maladies génétiques. En raison de leur grand nombre et de leur présence tout le long du génome, les SNV constituent des marqueurs très utiles pour effectuer une cartographie à l’échelle du génome. Les polymorphismes de longueur de fragment de restriction (Restriction Fragment Length Polymorphism, RFLP) sont des SNV particuliers qui abolissent ou créent des sites de restriction. Ce sont les premières variations de l’ADN à avoir été mises en évidence dès 1980. Les substitutions sont le type de variations de l’ADN le plus courant avec deux grandes catégories de substitutions : une transition correspond à la substitution (remplacement) d’une base pyrimidique (C ou T) ou purique (A ou G) par une autre base de même nature ; une transversion correspond au remplacement d’une base purique par une base pyrimidique ou inversement. Les transitions sont en moyenne deux fois plus fréquentes que les transversions, alors que l’inverse serait attendu si le changement de bases s’effectuait au hasard. En effet, chaque base peut théoriquement subir deux transversions et seulement une transition. L’excès de transitions est probablement dû en partie à la combinaison de propriétés des ADN polymérases (incorporations erronées plus fréquentes d’une base de même nature lors de la réplication) et de celles des systèmes de correction (une incorporation erronée de type transversion entraîne une déformation de la double hélice beaucoup plus importante et plus efficacement reconnue par les systèmes de correction qu’une transition) ainsi que la mise en jeu de mécanismes moléculaires particuliers comme la méthylation des cytosines positionnées en amont des guanines (5’-CpG-3’). En effet, parmi les transitions, celles concernant le dinucléotide CpG vers TpG ou CpA sont largement surreprésentées dans presque toutes les maladies génétiques. Elles rendent compte en moyenne d’un tiers des substitutions de bases. Le dinucléotide CpG est donc un véritable point chaud de variants de séquence. Les dinucléotides CpG sont la cible fréquente d’une modification enzymatique physiologique de l’ADN : la méthylation qui affecte le carbone 5 de la cytosine au sein du dinucléotide CpG. Par ailleurs, au sein de l’ADN, la cytosine non méthylée est susceptible d’être désaminée en uracile : la présence d’un uracile, constituant anormal de l’ADN, est corrigée efficacement par un mécanisme d’excision (uracile-ADN glycosylase). Si la désamination concerne la cytosine méthylée, cette dernière est transformée en thymine, une erreur moins efficacement détectée. Ainsi, une séquence nucléotidique incluant un dinucléotide CpG peut subir, après désamination oxydative de la 5-méthylcytosine, une transition C>T lorsque le brin codant est concerné par la modification ou bien, une transition G>A lorsque le brin transcrit est concerné par la modification (Figures 16 et 17). En effet, même si la modification se produit sur le brin transcrit, c’est le changement sur le brin codant qui est considéré. Petits variants structuraux ( 50 pb) : Petites insertions ou délétions : Certains variants sont caractérisés par la présence ou l'absence d'un seul ou d’un petit nombre de nucléotides à une position génomique spécifique. Il s'agit de variantes appelés petites insertions/délétions ou indel. Bien que les indels puissent être considérées comme des variants du nombre de copies, la convention consiste à réserver le terme « indel » à la description de délétions ou d'insertions d'un nucléotide jusqu'à 50 nucléotides. Le terme "variation du nombre de copies" (copy number variation, CNV) est principalement utilisé pour les modifications du nombre de copies de séquences qui entraînent des délétions ou des insertions plus grandes. La fréquence des indels dans le génome humain représente environ un dixième de la fréquence des variants nucléotidiques. Les indels courts sont beaucoup plus fréquents que les longues : 90 % des indels concernent des séquences de 1 à 10 nucléotides. Les indels peuvent survenir au niveau de courtes répétitions en tandem, très probablement par un mécanisme de dérapage (slippage) de l’ADN polymérase lors de la réplication de l’ADN. Dans le cas de délétions ou d’insertions d’un ou plusieurs codons (c’est-à-dire d’un nombre de nucléotides multiple de trois) dans une séquence codante, le variant conduit à la synthèse d’une protéine dont le nombre d’acides aminés est modifié, la fonctionnalité de la protéine pouvant être ou non affectée en fonction du nombre d’acides aminés concernés. Lorsqu’elles concernent un nombre de nucléotides non multiple de trois dans une séquence codante, 37 elles conduisent à un décalage du cadre de lecture (frameshiŌ) qui aboutit à l’apparition d’un codon-stop prématuré. Théoriquement, un décalage du cadre de lecture devrait aboutir à la synthèse d’une protéine anormale (la plupart du temps tronquée et non fonctionnelle). En réalité, la plupart de ces variants ne sont pas traduits car le mécanisme de nonsense mediated decay (NMD) conduit à la dégradation précoce de l’ARN messager. Ainsi, les régions microsatellites (voir plus haut) sont particulièrement sujettes à des variations de l'ADN. L'instabilité des séquences d'ADN répétées en tandem se traduit par des variants d'ADN qui diffèrent par le nombre de répétitions en tandem (variable number tandem repeat, VNTR et short tandem repeat, STR). Les microsatellites sont répartis dans l'euchromatine humaine (environ une fois tous les 30 kb) et souvent informatifs (multi-alléliques), ce qui explique qu'ils aient été largement uƟlisés pour la cartographie génétique. Grands variants structuraux (> 50 pb) : Jusqu'à une date récente, l'étude des variations génétiques humaines était largement axée sur les variations à petite échelle, telles que les SNV et les microsatellites. Nous savons aujourd'hui que les variations dues à des changements à échelle modérée dans la séquence de l'ADN sont courantes. Ces variantes de structure (structural variants, SV) peuvent être de deux types : équilibrés et déséquilibrés. Dans le cas d'une variation de structure (SV) déséquilibrée, les variants diffèrent en termes de quantité de séquences d'ADN. Les SV déséquilibrés comprennent notamment les variations du nombre de copies (CNV, copy number variation) dans lesquelles les variants diffèrent dans le nombre de copies d'un segment d'ADN de 50 pb à plusieurs Mb. Dans certains CNV, la séquence d'ADN dont le nombre de copies varie peut inclure un ou plusieurs gènes. Historiquement, l’analyse du génome humain par la technique d’analyse chromosomique sur puces à ADN (comparative genomic hybridization array, CGH-array) a permis de mettre en évidence l’existence de ces déléƟons et duplicaƟons de segments d’ADN dont la taille peut aƩeindre quelques millions de paires de bases, regroupées sous le nom de CNV. Ces variants sont trouvés à travers l’ensemble du génome. Entre 5 et 10% du génome sont concernés. Ces observations ont initialement été une surprise pour un génome diploïde car il était considéré jusque-là que son intégrité en termes de nombre de copies devait être scrupuleusement respectée. Ainsi, selon qu’il s’agit de délétions ou de duplications, et en fonction de leur présence à l’état hétérozygote ou homozygote pour le CNV, un individu peut être porteur de 0, 1, 2, 3 ou 4 copies des segments génomiques concernés. Les CNV sont répertoriés dans des banques de données, notamment la Database of Genomic Variants (dgv.tcag.ca/dgv/app/home) et Decipher (decipher.sanger.ac.uk). Dans le cas d'un variant de structure (SV) équilibré, les variants ont le même contenu en ADN (absence de gain ou de perte de matériel génomique), mais diffèrent dans les positions des séquences dans le génome. Il peut s'agir d'inversions et de translocations qui n'impliquent pas de changement dans le contenu de l'ADN, ou de variations plus complexes (Figure 59) 38 Une étude parue en 2020 a analysé les variations de structure à partir de 14891 génomes de diverses populations mondiales (54% non-européennes) issus de la base de données gnomAD. Les auteurs y décrivent un paysage riche et complexe de plus de 430000 SVs. Différentes classes de SVs sont décrites, qui peuvent correspondre à des structures canoniques (délétions, duplications, inversions) ou plus complexes. Le projet du génome humain a fourni une séquence de référence artificielle pour le génome humain, un patchwork de séquences génomiques partielles provenant de plusieurs donneurs individuels anonymes qui ont été combinées en une seule séquence. Toutefois, pour obtenir une connaissance détaillée de la variation génétique humaine, il est nécessaire d'analyser des séquences de génomes entiers provenant de plusieurs individus. Plus le nombre d'échantillons individuels analysés et la fraction du génome séquencée sont importants, plus les informations sur la variabilité génomique sont grandes. L'analyse d'un très grand nombre de séquences génomiques est importante car la majorité des variants génétiques est peu partagée. L’avènement du NGS a ouvert l'ère de la génomique des populations humaines. Des informations détaillées sur la variabilité du génome humain sont devenues disponibles et des projets à grande échelle ont été lancés. En 2015, une publication issue du projet 1000 genomes décrit un catalogue de plus de 88 millions de variants dont 84,7 millions de SNV, 3,6 millions de courtes indels et 60 000 SVs, à partir des analyses des génomes de 2 504 individus issus de 26 populations (1000 Genomes Project Consortium, Auton et al. Nature 2015;526:68-74 ; PMID: 26432245). La majorité des variantes est rare : 64 millions de variants autosomiques ont une MAF