Méthodes de séquençage en génétique - Ronéosaure 2024/2025 PDF
Document Details
Uploaded by Deleted User
Université de Lille
2024
Dr T. SMOL
Tags
Related
Summary
Ce document présente les méthodes de séquençage en génétique pour l'année 2024/2025. Il explique les concepts clés des séquençages Sanger et Haut Débit, ainsi que les prélèvements étudiés et l'interprétation des résultats. Le document couvre les principes des méthodes et fournit des exemples.
Full Transcript
Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL Génétique Méthodes de séquençage Semaine n°11 - 18 / 11 / 2024 Heure de cours : 11h-12h Profess...
Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL Génétique Méthodes de séquençage Semaine n°11 - 18 / 11 / 2024 Heure de cours : 11h-12h Professeur : Dr T. SMOL Correcteur : Julie Wojciechowski Binôme : Fontana Adam/ Flodrops Steven Plan du cours I. Éléments clés à retenir de ce cours V. Le séquençage Haut Débit II. Généralités sur les prélèvements étudiés par A. Principe simplifié séquençage B. Collaboration entre bio-informatique et A. Origine des prélèvements étudiés par génétique séquençage C. Intérêt clinique 1. ADN VI. Interprétation 2. ARN A. Filtration II. Le séquençage Sanger B. Données additionnelles A. Principe de cette méthode de séquençage II. Au final, que faire ? B. Le séquençage de Sanger, pour qui ? A. Choix de la technique V. Comment définir qu’un événement est une variation B. Analyse positive ou négative ? C. Encadrements législatifs A. Le génome de référence B. Variations du génome : bénignes ou pathogènes ? 1/11 Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL I. Éléments clés à retenir sur le séquençage 1) Le séquençage ADN concerne tous les tissus à l’inverse du séquençage ARN qui correspond à un séquençage différencié selon les tissus. 2) Le séquençage Sanger est une approche ciblée, qui nécessite une hypothèse diagnostique ; utilisation dans les études de ségrégations familiales. Pas de séquençage Sanger sans hypothèse formulée (notion la plus importante à retenir selon ⚠️ le prof ). 3) Le séquençage Haut Débit, se fait à partir d’ADN fragmenté, sélectionné ou non (si on ne sélectionne rien : c’est du génome, si on ne sélectionne que les régions codantes, c’est de l’exome). 4) Le Séquençage Haut Débit correspond à une individualisation bioinformatique des séquences, et peut donner des précisions sur la détection de mosaïques. 5) La finalité du séquençage est d’identifier des variations possibles par comparaison au génome de référence. 6) Au niveau des différences entre les individus, elles sont assez nombreuses en séquençage (en comparaison au CGH-array, il est possible de détecter 10 à 15 variations) puisque l’on compte environ 5x109 variations ponctuelles, et 10x 103 variations de structure par individus. 7) Au vue de ces nombreuses différences observables, il va être indispensable de mettre en place des filtres pour réduire notre liste, en réfléchissant à des stratégies +/- corrélées avec la pathologie à étudier, pour obtenir une ou deux variations d'hypothèse de travail (sur les 5 millions au départ). 8) Tout cela va s’inscrire dans un contexte national qu’on appelle le plan France Médecine Génomique, qui est le déploiement du génome presque en première intention (routine diagnostique) en France, à horizon 2025 (et depuis 2019). II. Généralités sur les prélèvements étudiés par séquençage A. Origine des prélèvements étudiés L’origine des prélèvements que l’on va étudier par séquençage est importante car on peut assez vite se retrouver en difficultés si on est pas sur la bonne approche/ sur le bon tissu. Quand on parle d’origine, on va partir d’ADN (acide désoxyribonucléique) ou d’ARN (acide ribonucléique). 2/11 Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL 1. L’ADN : C’est un concept complet, il comporte des régions promotrices, des exons, des introns : la séquence brute complète. Extrêmement simple d’étudier l’ADN car sa quantité est quasiment la même dans tous nos tissus, qu’ils soient frais ou congelés. On peut donc récupérer de l’ADN de manière simple par le biais d’une prise de sang, en extrayant par exemple les leucocytes ou même en réalisant des frottis jugaux (récupérer des cellules au niveau de la muqueuse de la joue, grâce à un coton tige) ou depuis des cellules en culture (fibroblaste, placentaire). De plus, la conservation de l’ADN est longue et possible à 4°C (donc on peut analyser de l’ADN extrêmement ancien, c’est le cas dans le milieu de la paléogénétique). 2. L’ARN : Il peut être séquencé après rétrotranscription en ADN. Finalité de la transcription de la machinerie cellulaire. Théoriquement, on a plus que nos séquences exoniques. La quantité est tissu-dépendant. Les différentes formes d’ARN (appelés les transcrits) sont différentes d’un tissu à un autre. Quand on étudie de l’ARN, il se dégrade très rapidement : matériel peu stable, qui nécessite donc une extraction rapide et un traitement rapide. On peut étudier de l’ARN à partir de sang, à partir de peau. Conservation à -80°C : donc contrainte beaucoup plus importante. Ici, on a l’expression d’ARN (=l’expression de transcrits), avec deux exemples de deux gènes neuronaux différents, impliqués dans les connexions synaptiques. Le premier gène, MECP2, est exprimé de manière similaire quel que soit le tissu. Si on étudie des fibroblastes, ou du tissu nerveux, ou du sang, on aura une expression identique de ce gène. Tandis que si on étudie le gène SCN1A, on voit qu’il n’est exprimé qu’au niveau du tissu cérébral. Donc si on étudie des fibroblastes, ou la peau de ce patient, le résultat sera nul (négatif, car pas d’ARN SCN1A) donc la seule façon d’étudier ce gène est d’utiliser du tissu neuronal. 3/11 Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL III. Le Séquençage Sanger A. Principe de cette méthode de séquençage Méthode de séquençage historique, développée par Frederick Sanger (qui a reçu un prix Nobel) et qui est encore utilisée actuellement. C’est une approche ciblée qui nécessite de s’orienter sur une région précise du génome, car il va falloir utiliser des sondes (=séquences de nucléotides spécifiques d’une région d’ADN donnée). Cette sonde se placera uniquement sur cette région : ne sera analysée que la région où la sonde s’est hybridée : région d’environ 500 à 1000 pb (alors que le génome comporte 3 milliards pb) : c’est donc la preuve qu'il s’agit une approche ciblée, nécessitant une excellente hypothèse de base. Si on rapporte cela à un exon, il comprend environ 150 pb, et autour de chaque exon, on retrouve des introns de 1000 pb en moyenne. Donc si on fait un séquençage sanger, on séquence un seul exon d’un seul gène. Le principe du séquençage de Sanger repose sur la PCR : amplification par réaction de chaînes. On part d’une amorce, qui va s’hybrider sur une région cible, une région donnée. À chaque cycle de PCR, on a une élongation qui ajoute des nucléotides (A, T, G, C). Il y a des désoxynucléotides (nucléotides non marqués : en gris sur la diapo) et des didésoxynucléotides (=nucléotides marqués par un fluorochrome spécifique (en couleurs sur la diapo) (une fluorescence pour le A, le T, le C, le G)). Ces nucléotides marqués sont interrupteurs : lorsqu’ils se fixent sur la séquence, plus aucun nucléotide ne peut se fixer derrière. (Ce qui est visible sur cette diapo, à chaque fois qu’un nucléotide interrupteur se fixe, la séquence s’arrête). Le séquençage de Sanger fonctionne par interruption de chaînes où on génère des milliers de séquences de longueurs différentes, et on connaît seulement la qualité ou le type du dernier nucléotide incorporé. Un automate va séparer les séquences selon leurs tailles et par exemple, on saura dire quelle est la nature du dernier nucléotide de la chaîne de taille 10, etc…. On va donc reconstruire comme cela la séquence complète. On obtient alors des profils de fluorescence, avec des pics de fluorescence qui correspondent au dernier nucléotide marqué. 4/11 Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL Dans l’exemple A : on a un nucléotide T chez le père et la mère. Mais chez le propositus (descendance), mélange entre un nucléotide T (rouge) et nucléotide C (bleu). On suspecte que le patient soit hétérozygote pour la mutation. Dans l’exemple B : un pic de fluorescence G chez la mère et chez le père, et chez le propositus un mélange entre la fluorescence verte (A) et noire (G) : hétérozygotie. B. Séquençage de Sanger, pour qui ? Approche extrêmement simple, on regarde et identifie des pics de fluorescence pour une région donnée, donc il faut impérativement une hypothèse. Cela peut servir à confirmer une variation mise en évidence par séquençage haut débit : on connaît la variation, et on la confirme par séquençage de Sanger. Pour l’étude de ségrégation familiale : pour mettre en évidence comment la mutation est transmise dans la famille, en ciblant seulement la région d’intérêt. Pour le diagnostic prénatal : à partir du moment où on a une mutation familiale connue, on peut venir la rechercher sur le tissus anténatal (liquide amniotique ou biopsie de trophoblastes) Pour les cliniciens ayant de très bonnes hypothèses en tête, venir chercher une mutation connue, qui est pathogène, dans un gène, à conditions que la mutation soit toujours la même (ex : mucoviscidose : mutation ΔF508) IV. Comment définir qu’un événement est une variation ? On parle jusque là de variations, de différences dans le génome. Mais qu’est-ce-qui nous fait dire qu’un morceau de séquence est une variation ? Il faut définir pour cela une référence. A. Le génome de référence 5/11 Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL La référence a été produite à la suite d’un long travail de 15 ans (de 1990 à 2003), connu sous le nom de Human Genome Project. Ce Human Genome Project avait pour but principal de définir la référence chez Homo Sapiens du génome. Ils se sont focalisés, pour la création de ce génome, sur l’ADN d’un individu, et cela a été corrigé ensuite par une vingtaine d’individus pour établir la référence (remarque : on est 8 milliards, et on compare nos génomes à un génome de référence établi sur le génome d’un individu corrigé par une vingtaine d’autre). Le génome de référence est un projet américain et anglais. Il est très imparfait, car établi avec des biais de populations importantes (population européenne et afro-américaine majoritairement ) et donc représente plutôt la partie occidentale du monde, et reflète très peu la diversité des populations. Mais c’est celui qui est utilisé partout actuellement. Il y a des travaux en cours pour essayer d’établir des génomes de référence par rapport aux populations d’entrée pour essayer d’avoir un génome qui colle plus à la réalité des populations, et d’identifier moins d’événement pathogènes par rapport au génome de référence alors que ces événements ne seraient que des variations communes dans une sous-population donnée. Ex : dans le génome de référence, on ne prend pas en compte les populations d’origine d’Asie centrale et d’Asie de Sud, alors que ce sont les deux populations principales dans le monde aujourd’hui. B. Variations du génome : bénignes ou pathogènes Ce génome de référence est un set de comparaison, et quand on parle de variations, ou de mutations (bien que ce terme n’est plus très utilisé) on parle d'une différence par rapport au génome de référence, que ce soit : Une variation ponctuelle : SNV1 (variation d’un seul nucléotide) ou d’une petite série de nucléotides : INDEL (insertion-délétions) Une variation de structure (=variation du nombre de copies CNV) : délétions, duplications ; variations de structure simples (translocations, inversions). Dans notre génome, on est tous composés d’un assemblage et de différences de mutations ponctuelles et de mutations de grandes tailles (on parle d’environ 5 millions de variations sur les 3 milliards pb du génome). On compte donc environ 5 millions de variations ponctuelles (SNV), environ 100 000 INDEL, et à peu près 10 000 variations de structure. 1 SNV=single nucleotide variation 6/11 Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL L’objectif, une fois que l’on recense ces variations (à travers le séquençage), est de les classer pour les interpréter pour faire la différence entre ce qui est de la variabilité interindividuelle, de ce qui est des variations en lien avec les pathologies (qui sont assez rares dans la population, sinon l’espèce humaine serait éteinte !). On a tous à peu près entre 5 et 10 variations qui peuvent être associées à des pathologies récessives ( 1 allèle altéré/ 1 allèle sain donc non porteurs de la maladie) et quelques variations dominantes, qu’elles soient accidentelles (= de novo) ou transmises par un parent. Tout cela sera mis en évidence notamment par le séquençage Haut Débit. V. Le séquençage Haut-Débit A. Principes simplifié Le séquençage Haut-Débit correspond à toutes les technologies de séquençage qui ne sont pas du Sanger. Celui-ci est simplifiable par une approche caractéristique. Soit il s’agit d’une approche par régions d’intérêts soit d’une approche sur le génome complet. Approche par séquençage complet du génome Après extraction de l’ADN de l’individu, il est fragmenté en morceaux. Cela peut aller de 500 pdb (=paire de bases) à des morceaux beaucoup plus grands. Suite à la fragmentation, vient l’étape d’amplification clonale puis de séquençage. Pendant longtemps le séquençage complet du génome a causé des problèmes, notamment au niveau du stockage et du prix. Aujourd’hui les technologies permettent de séquencer un génome pour seulement 200 euros. Cela facilite son utilisation dans une approche diagnostic. Approche par sélection de régions d’intérêt Dans cette approche nous identifions des régions cibles qui nous intéressent. Il peut s’agir de toutes les régions codantes, on parlera d’exome. L’exome d’un individu se résume à 50 millions de pdb. Mais il est également possible de ne cibler que des régions de gènes d'intérêt. Prenons l’exemple du panel de gènes de surdité -> sélection unique des régions de gènes impliquées dans la surdité. Les étapes de fragmentation, d’amplification clonale et de séquençage sont aussi valables pour cette approche. B. Collaboration entre bio-informatique et génétique 7/11 Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL Après cela, commence la collaboration entre bio-informatique et génétique. Elle débute avec un gros travail d’alignement : De nombreux fragments d’adn de taille différentes ont été générés et vont être alignés avec le génome de référence via des algorithmes. L’étape suivante, l’appel des différences, consiste à identifier individuellement, toutes les différences par rapport à la référence. Enfin, l’étape d’annotation vient ajouter des informations sur chacune des différences afin de les interpréter. On y retrouve la localisation dans le gène, la conséquence de la variation (faux-sens, synonyme …), la différence par rapport à la référence. Ce sont ces données qu’on filtrera pour obtenir l’analyse finale. Les indices qualités les plus importants sont la profondeur (X) et la couverture (%). Profondeur (X) : C'est le nombre de fois qu'une position spécifique dans l'ADN a été "lue" ou séquencée. Par exemple, si une position a été lue 30 fois, sa profondeur est X = 30. Plus le nombre est élevé, plus on est sûr de l'exactitude des données à cet endroit. Couverture (%) : C'est le pourcentage d'une région génomique étudiée qui a été séquencée au moins X fois. Par exemple, si 95 % de la région d'intérêt a été lue au moins 20 fois (X = 20), alors la couverture est 95 %. A quoi cela ressemble ? Exemple : Ici, chaque trait 8/11 Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL correspond à un fragment d’adn séquencé. La profondeur est de 181X (voir image), donc 181 fragments d’ADN qui chevauchent la variation d’intérêt. La séquence de référence contient un T qui est remplacé par un C environ une fois sur 2 chez le patient. On parle de transition T-versé pour 43% (voir image) des séquences. Il s’agit donc d’une variation hétérozygote. Quel est l’intérêt d’individualiser les séquences ? L’intérêt d’individualiser les séquences est primordial quant à la quantification du variant. En effet, cela permet d’identifier, à partir d’un grand nombre de lectures X, des variations qui sont faiblement représentées. L’individualisation est un gain de précision considérable. Cela a notamment un intérêt pour distinguer les variations en mosaïque des mutations de novo qui auront des capacités de transmission à la descendance différentes. Le risque de transmission pour les variations de novo est peu élevé. C. Intérêt clinique Si il y a pas si longtemps, le séquençage haut-débit était exceptionnel et peu proposé en première intention, aujourd’hui il est un examen de routine. Si le patient rentre dans certaines pré-indications, il peut bénéficier d’un séquençage haut-débit pangénomique en première intention. VI. L’interprétation A. Filtration Malgré tous ces progrès il y a un problème de stratégie de séquençage. Nous sommes tous porteurs de 5 millions de variations par rapport à la référence. Parmi celles-ci, de nombreuses sont éliminables car elles sont fréquentes dans les sous-populations. Nous avons des banques de données qui sont stratifiées selon la population d’origine du témoin. Malgré cela, il reste encore environ 10 000 variations rares dites familiales. Ces variations sont privées à un cercle de familles restreint. Pour les trier, nous pouvons séquencer en parallèle des membres de la famille comme les parents. Cela peut se compliquer si les parents ne sont pas disponibles ou si on se rend compte que le père n’est pas le réel père. Au final, il est possible de réduire la liste des variations d’intérêt à un nombre très limité. C’est là qu’il faut regarder si ces quelques variations seraient capables d’expliquer le phénotype du patient, si la variation est causale. Il s’agit d’une collaboration multidisciplinaire où des informaticiens, des cliniciens, des ingénieurs et autres sont indispensables. 9/11 Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL Au final les variations peuvent être classées en 5 catégories : seules les classes 4 et 5 sont à fort taux de pathogénicité. Les variations de la classe 3 manquent d’informations et des tests fonctionnels (modèles protéiques, cellulaires, animaux …) sont effectués pour savoir si la variation est pathogène ou non. B. Données additionnelles Le séquençage est de plus en plus large et de moins en moins ciblé et peut amener à la découverte incidente (=fortuite) des données additionnelles. Cela peut s’agir de prédispositions aux cancers, de maladies neurodégénératives, de cardiopathies ou encore de pathologies conduisant à des morts subites. Il est important d’interroger le patient en amont, pour savoir s’il souhaite être informé de données additionnelles potentielles ou bien s’il souhaite n’être mis au courant de rien. Il s’agit d’un sujet délicat qui est l’objet de nombreuses querelles. Il se doit d’être abordé avec précaution. VII. Au final, que faire ? A. Choix de la technique Le séquençage haut-débit est une offre exponentielle, chaque année il y a des changements de recommandations. Aujourd’hui, ce qui prime pour la stratégie, c’est : “Quelle est la complexité génétique de la pathologie ?” Pathologie associée à un très grand nombre de gènes cibles ou à un nombre très restreints (avec toujours les mêmes mutations) ? Par exemple, les gènes de la prédisposition aux cancers digestifs ne sont que 10, la rentabilité est très bonne si on ne fait qu’une dizaine de gènes. Pour la surdité nous avons 250 gènes, la réalisation d’un panel ciblé est possible. Pour la déficience intellectuelle, cela devient plus compliqué car le nombre de gènes augmentent de 1 à 2 chaque semaine. Pour contrer cela on a tendance à faire un séquençage pangénomique directement et à tout stocker au cas où la variation du patient ne serait pas encore découverte. Exemple à ne pas forcément retenir car cela change constamment : Avant, lorsque l’on avait une malformation cérébrale on faisait une CGH array, puis si c’était négatif, un panel de gènes puis enfin un exone en ultime recours. Maintenant, pour les patients 10/11 Ronéosaure 2024/2025 Génétique - Méthodes de séquençage Professeur SMOL atteints de malformation cérébrale, sauf dans des cas très spécifiques, on fait une RCP et on part sur un génome directement. Cet exemple pour les malformations cérébrales, on peut le retrouver pour une soixantaine d’autres pré-indications. B. Analyse positive ou négative Au final, si le résultat de l’analyse est positif : -> il faut vérifier la corrélation avec le phénotype du patient -> établir le conseil génétique -> vérifier que la mutation est aussi présente sur un deuxième prélèvement -> extension de la ségrégation familiale si nécessaire Si le résultat est non conclusif : on ne parle pas de négativité car on ne peut dire d’un génome qu’il est négatif comme si chacune des 5 millions de variations avaient été vérifiées une à une. On parle donc de résultat non conclusif dans lequel il faut vérifier certains points : - En cas de Sanger -> Ne s’agit-il pas d’une erreur de la cible ? - En cas de panel ou exome -> Variation de structure complexe ? -> Variation dans un intron ? (Existence de variation intronique pathogène !) -> Variation non codante, ayant un impact sur la régulation/epissage ? -> Variation dans un gène non connu en pathologie à ce jour (applicable aussi pour la méthode pangénomique) C. Encadrements législatifs La prescription de séquençage Haut-Débit se fait toujours à des fins médicales ou de recherche scientifique. L’information du patient est primordiale et son consentement est nécessaire. Il est aussi important d’avoir une attestation de consultation pour prouver que la consultation a bien été faite. Point sur la génétique dite “récréative” faite en ligne ⇒ Elle est ininterprétable et les données ne sont pas réutilisables. Il y a une absence totale de corrélation, et de nombreux faux positifs sont présents dans ces tests. 11/11