Outils pour les analyses -omiques PDF
Document Details
Uploaded by HumourousGlockenspiel
S. Labialle
Tags
Summary
This document discusses various genomic analysis tools and techniques, including Heatmap data visualization and Genome-Wide Association Studies (GWAS). It highlights the importance of complete sequencing for accurate genomic analysis and emphasizes the information loss with short fragments. The document also touches upon the analysis of micro-organisms, including the example of the microbiome and metagenomics.
Full Transcript
UE810 S. LABIALLE Outils pour les analyses -omiques Une des problématiques à l’heure actuel c’est que lorsque l’appareil génère des banques de séquençages il faut réassocier to...
UE810 S. LABIALLE Outils pour les analyses -omiques Une des problématiques à l’heure actuel c’est que lorsque l’appareil génère des banques de séquençages il faut réassocier tous les fragments en regardant les fragments en commun pour déterminer la séquence complète. Les génomes de mammifères sont constitués de bcp de répétition, et donc ce séquençage par quelques centaines de pb n’est pas assez précis pour ces espèces. Le séquençage sur plusieurs milliers de pb est donc de meilleure efficacité dans ce cas. Quand on génère des petits fragments, et qu’on essaye de les réassocier, on va perdre de l’information. Si on utilise des techniques type minION on peut regarder des séquences beaucoup plus longues, c’est donc beaucoup plus facile de mapper le génome. La méthode Heatmap data est une des méthodes les plus anciennes pour représenter le niveau d’expression des gènes (on change la couleur en fonction du niveau d’expression). On peut s’intéresser à différents types de leucémies, il y a eu des séquençages dans différents types de leucémie et chaque colonne correspond à un type de leucémie et chaque ligne correspond à un gène, on va regarder le niveau d’expression de chacun des gènes. Il est possible de représenter ces données par des histogrammes mais, cette représentation Heatmap est beaucoup plus visuelle. On a une valeur moyenne qui est 0, le 0 peut être ce qu’il se passe dans le tissu sain, ou la moyenne de tout ce qui se passe dans les échantillons regardés. On peut faire des Heatmap pour beaucoup de cas. Les Heatmap peuvent aussi être utilisés pour faire des analyses à l’échelle d’une seule cellule, et il est aussi possible de comparer l’expression des gènes à différents stades de différenciation. L’ontologie de gène est l’attribution à chaque gène des connaissances de différents ordres : la fonction (biologie, physiologie, …) l’expression, etc. Quand on fait du séquençage massif de génome les GWAS (Genome Wide Association Study) est très utilisé, c’est une analyse de donnée au niveau du génome. On prend 2 catégories de personnes : des personnes saines et des personnes qui font du diabètes, tous les génomes sont séquencés et on va regarder quels sont les polymorphismes les plus présents chez l’une ou l’autre des catégories de personne, cela permet de voir toutes les implications des gènes dans certaines maladies. Il y a beaucoup de composantes génétiques qui aboutissent à ces maladies. Un article de 2015: A global reference for human genetic variation. Il a permis d’analyser plusieurs génomes de différentes localisation, il y a environ une base toutes les 1000 pb qui sont différentes (petites insertion ou petites délétion, ou encore polymorphisme d’un seul nt). Il existe aussi des variants structurels qui sont plus importants, mais ces différences les plus présentes sont des petites mutations. Quand on compare les localisations géographiques, plus de 90% des variants sont communs à une localisation géographique. Les génomes de ces 2500 personnes ne sont pas très différents, et cela montre que l’ancêtre commun n’est pas très vieux et provient d’une population relativement restreinte. La proportion de variant spécifique à une population est la plus grande en Afrique, et cela est en rapport avec le fait que la population originelle est restée au même endroit depuis le début de l’évolution de l’espèce (ça fait plus de temps qu’ils sont au même endroit ils ont eu le temps d’évoluer). Le microchimérisme est connu depuis longtemps, et lors de la vie intra-utérine il y a des cellules de la mères qui passe chez l’enfant, tout le monde maintien des cellules qui ne sont pas du soi mais de la mère. On peut obtenir des phénotypes très particulier : partie des cheveux frisé et l’autre partie non, on a un clone cellulaire qui s’est développé à un endroit particulier (tache de naissance, une des cellules n’a pas les mêmes propriétés phénotypiques que les autres cellules). UE810 S. LABIALLE La métagénomique : on considère un fragment de la biosphère, on test des échantillons, par exemple des échantillons d’eau, on en a extrait les données génomique, et l’ARN 16S a été séquencé. On connait plutôt bien l’ARN16S en fonction des classes génomiques, on peut savoir la proportion des différents organismes dans un milieu. Exemple du microbiote : beaucoup de microO sont hébergé dans l’intestin, ces microO participent énormément à la digestion, mais ils sont aussi très en dialogue avec le SI. Beaucoup de maladie avec des inflammations proviennent de problème de microbiote. On pourrait faire des greffes de microbiotes pour rééquilibrer les microbiotes inflammatoires. La plupart des microO du microbiote ne sont pas très bien connus, car on n’avait pas la bonne manière de les étudier. En faisant de la métagénomique on s’est rendu compte qu’il y a beaucoup d’organismes qui n’était pas présent dans les études de microbiologies (boites de pétri), car ces microO ne peuvent pas pousser correctement sur boite de pétri, il leur faut des conditions très particulières. Incresead gut microbiome richness in CRC : représentation en boite à moustache (box plot), on a un échantillon de microbiote et on analyse le nombre de gène différents séquencés, et on le fait dans différents échantillons : maladie comme le cancer et personnes saines. Tous les individus sont représenté par un chiffre (ici 53 individus qui sont prélevé). Et chacun de ces 53 individues ont été séquencé pour leur microbiote. Et en séquençant on regarde s’il y en a peu ou bcp. Le nombre d’échantillon est classé par l’individu qui a le moins d’expression jusqu’à la personne qui a le plus d’expression de gène (quelle est la diversité d’espèces, mais sans classer cette diversité). Quand on a plusieurs valeurs dans une expérience on réplique l’expérience pour être sûr que ce soit significatif, le mode de représentation classique c’est des histogrammes, mais comme ça on perd bcp d’info, avec des box plot on donne plus d’information : si on a bcp d’individu qui ont des valeurs très hautes et peu d’individu qui ont moins que la moyenne les box plot représentent cela. On va découper la population en groupe de taille équivalente (généralement en quartile donc 4 groupes différents), ces groupes sont en fonction de leur niveau d’expression, ceux qui n’ont pas bcp d’expression sont ensemble etc. on prend la médiane (moyenne de la valeur la plus haute avec la valeur la plus basse), et on répartie autour les échantillons. Avec le violin plot on a une représentation encore plus précise, on n’a pas des bloque et des barres mais en mode des plot qui sont plus ou moins larges pour représenter la probabilité. Une fois qu’on a généré toutes ces données on peut faire des calculs qu’il faut valider. La validation est des qPCR ou rt qPCR. La variabilité et sa compréhension dû à des problèmes techniques ou biologiques. Cela peut avoir un sens important, le niveau d’expression du gène au cours du développement on est dans des phases de transition au niveau de l’expression des gènes. La variabilité peut être liée au tissu. La majorité des différentes régions du génome est transcrite, on pensait que le génome était dicotomique avec des région qui sont transcrites et des régions non transcrites. Ce n’est pas vraiment le cas, même si des régions sont plus transcrite que d’autre, toute les régions le sont même faiblement (régions intergéniques). Pourquoi les polymérases transcrivent ces régions ? dans quel but, etc. Les premières études à ce sujet sont des globals run-on dont le principe est de prendre des cellules, et à un temps t0 on met de l’uridine modifié, et ensuite extraction des ARN, les U modifiés peuvent être biotinylés, et du coup on récupère que les ARN qui viennent d’être transcrit, on connait le taux de synthèse des ARN et pas la quantité globale -> aspect dynamique, on regarde où sont les pol en cours UE810 S. LABIALLE de transcription, on peut le faire à l’échelle du génome entier ajoute 0,5kb aux annotations (genre on prend une séquence codante annotée, et on ajoute 0,5kb aux extrémité) et ils regardent du coup à nouveau les pol : il y a réduction de la présence de pol en dehors des sites annotés, en proportions les pol sur les régions ne changent pas, la pol peut ne pas s’arrêter à la fin du gène, ou commence avant. Y’a beaucoup de reads autour du +1 et du terminateur mais pas beaucoup dans le corps du gène, ça veut dire que sur l’ensemble des gènes y’a beaucoup de Pol au +1 et au terminateur mais peu dans le corps du gène. GB= gene body, c’est la région qu’on s’attend à être transcrite. La représentation des corps de gène mis à l’échelle montre ce qu’il se passe à l’échelle du génome entier, on a la sommation de toutes les choses qui se passent au niveau des gènes. On remarque qu’il y a de la transcription aussi aux abords du gènes. On a un peu plus d’information, on montre le nombre relatif de run, sur l’ensemble des gènes -> bcp de pol au niveau du +1, beaucoup au niveau du terminateur, mais pas beaucoup au niveau du corps du gène. On a un pic de polymérase au niveau des extrémités des exons qui sont bcp utilisés. Au niveau du +1 il y a des nucléosomes qu’on doit faire sauter, et sur un gène donné on peut recruter bcp de pol au niveau du +1, mais toutes les pol ne peuvent pas retirer le nucléosome, soit les pol vont revenir en arrière jusqu’à réussir à passer soit elles se décrochent, ce sont des pauses de pol. On génère des petits fragments d’ADN qui ne correspondent pas au transcrit entier. On détecte différentes catégories d’ARNnc autour du promoteur et du terminateur, mais aussi ailleurs, ils sont nombreux et très différents. Maintenant se pose la question de leur rôle dans le système biologique, permet de dire que des polymérases sont présentes sur un promoteur pour commencer à transcrire. Les petits ARN peuvent aussi être reconnu par des miARN ce qui permet le recrutement d’une HMT, et ferme le promoteur.