BIOINFORMATIQUE 3 PDF

BIOINFORMATIQUE 3 I) Les voies de l’information génétique DNA makes RNA makes protein Adn = support hérédité, il sert à transmettre l'information génétique d'une génération à une autre. Hérédité, via la réplication Information fonctionnelle ○ ADN –[transcription]→ ARN ○ ARN –[traduction]→ protéine Les protéines et certains ARN sont les effecteurs moléculaires des fonctions biologiques Ex : Génération de cellule → réplication de l'adn = 2 chromosomes puis transmission au cellule fille, chaque cellule fille hérite de l'information génétique de la cellule mère Puis au niveau des organismes diploïdes font des gamètes haploïdes = distribution aléatoire des chromosomes. Au moment de la fécondation, le zygote hérité d'un jeu de chromosome complet maternelle et d'un jeu de chromosome complet paternel = recombinaison. ADN = support de l'information. L'expression des gènes se fait en deux étapes pour les gènes qui codent pour les protéines. On fait d'abord de arn sur le modèle de ADN ( transcription ) puis synthétisation protéine sur le modèle de arn ( traduction). Mais il y a des gènes qui ne codent pas que pour les protéines Les chromosomes constituent le support physique de l'hérédité En 1915, dans un livre intitulé Mécanismes de l'hérédité Mendélienne, Thomas Hunt Morgan formule la théorie chromosomique de l'hérédité. Ses observations ○ Les 4 groupes de liaisons génétiques de la drosophile correspondent aux 4 chromosomes. ○ Les chromosomes sont porteurs des caractères transmis de façon héréditaire. ○ Sur chaque chromosome, les gènes sont ordonnés de façon linéaire. Il en déduit que les chromosomes sont le support physique des caractères héréditaires. Caryotype humain Chez l'humain, les noyaux des cellules somatiques comportent 23 paires de chromosomes. Les cellules somatiques sont diploïdes: chaque cellule comporte 2 copies de chaque chromosome (1 maternelle et 1 paternelle). caryotype : étalement de chromosome humains → écrasé des cellules sur une lame microscopique = photo de gauche On les ranges : photo à droite On peut utiliser la microscopie pour détecter des malformation chromosomique chez les patients qui peuvent provoquer des handicapé ( Ex : translocation chromosomique ) Aujourd'hui on fait le séquençage complet d'un gène d'un individu. Les chromosomes sont essentiellement composés d’ADN ME Chaque chromosome contient une chaîne extrêmement longue d’acide désoxyribonucléique (ADN). Super enroulement → enroulement d'un enroulement d'un enroulement de l’ adn. L'adn est enroulé certain endroit autour d'une protéine = histone mais il est souvent accessible. Les régions accessibles dépendent de la régulation épigénétique. L’ADN est composé d’une double hélice, qui porte 4 types de bases azotées. A Adénine C Cytosine G Guanine T Thymine L’information génétique réside dans la succession de ces bases azotées. Ces bases azotées sont appariées de façon spécifique dans la structure en double hélice. Structure de l'ADN - la double hélice interprétation des conséquences de cette structure → en quoi elles nous aident à comprendre la biologie. En 1953, Watson et Crick proposent un modèle pour la structure B de l'ADN, inspiré par la structure cristallographique caractérisée par Rosalind Franklin. L'ADN est une double hélice, dont chacun des deux "montants" est formé d'une chaîne de désoxyribose (un sucre) unis par des groupes phosphate. Chaque "barreau" est formé par une paire de nucléotides liés par des ponts hydrogènes. ○ guanine ←→ Cytosine (3 ponts hydrogène). ○ Adénine ←→ Thymine (2 ponts hydrogène). Dès 1953, Watson et Crick discutent de l’impact de leur modèle pour comprendre les mécanismes de réplication de l’information génétique. Le code génétique - Concepts de base 10) adn 1er fonction : support de l'information génétique 2e fonction : support fonction de l'information pour synthétiser Les molécules qui vont être les effecteurs de la cellules ( ARN et protéines) certains adn ont des fonctions de régulation ou ne Codent pas (ARN de transfert et ribosomique). Bref rappel de concepts-clés vus lors des cours de biologie moléculaire Le code génétique a été élucidé en 1961. Traduction: les protéines sont synthétisées sur modèle de l'ARN. Contrairement à la transcription, il n'y a pas de correspondance de un à un entre nucléotides et acides aminés. En effet, l'ARN ne comporte que 4 nucléotides distincts (adénine, uracile, guanine et cytosine), tandis que les protéines sont formées de 20 acides aminés distincts. Codons: chaque acide aminé est spécifié par une succession de 3 nucléotides Dégénérescence (redondance) du code: Il y a 64 triplets de nucléotides possibles mais 20 acides aminés. Plusieurs codons spécifient le même acide aminé. On découvre dans les animaux de long ADN non codant. ARNm → code du vivant avec le fait que adn sert de modèle à constituer une seule chaîne ( unique ) d'acide ribonucléique et que cette acide va servir de modèle pour constituer un polymère d'acide aminé. Le “dogme central” Le dogme centrale ne peut pas basculer “Le dogme central stipule que, une fois que l’ « information » est passée dans la protéine elle ne peut pas en ressortir. Plus précisément, le transfert d’information serait possible d’acide nucléique à acide nucléique, ou d’acide nucléique à protéine, mais le transfert de protéine à protéine, ou de protéine à acide nucléique est impossible. Information signifie ici la détermination précise de la séquence, soit des bases dans l’acide nucléique, soit des résidus aminoacides dans la protéine.” Le « dogme central » a été formulé en 1958 par Francis Crick. Je recommande également de lire cette discussion ultérieure (Crick, 1970). On le résume souvent de la façon suivante “DNA makes RNA makes protein” “L’ADN fait l’ARN fait la protéine” Cette phrase est très subtile (syntaxiquement et sémantiquement), mais souvent mal comprise. Le dogme ne se réduit pas à cette formule concise. Il énonce les transferts d’information qui sont possibles (schéma du haut) ou impossibles (schéma du bas) entre les séquences d’acides nucléiques et celles des protéines. Le “dogme” a souvent été critiqué par des gens qui n’avaient pas lu sa formulation exacte, en évoquant par exemple ○ La transcription réverse (“RNA makes DNA”) ○ Les modifications des prions (“protein changes protein”) La formulation de Crick est pourtant sans ambiguïté, et elle a conservé toute sa validité. Il ne s’agit pas d’un dogme mais d’une théorie scientifique rationnelle et logique. L’impossibilité de transfert de protéine à acide nucléique résulte directement de la dégénérescence du code. Le dogme central a-t-il été réfuté ? On a à plusieurs reprise affirmé que le dogme central avait été réfuté : découverte de la transcription réverse. découverte du prion. En 1970 Crick publie une clarification, pour rappeler ce que dit le dogme central, et explique pourquoi la réverse transcription ne le réfute pas. schéma 1956 Il distingue 3 classes de transfert d’information. Transferts pour lesquels on dispose d’indications directes ou indirectes (flèches pleines) : DNA → DNA, DNA → RNA, RNA → Protein, RNA → RNA. Possibles mais sans aucune indication d’existence (pointillés) : RNA → DNA, DNA → Protein. Très invraisemblables : Protein → Protein, Protein → DNA, protein → RNA. II) Structure d’un gène Le cas simple : l’ADN fait l’ARN fait la protéine Le modèle de base (et un peu trop simpliste) de l’expression des gènes repose sur une relation simple ○ Transcription : synthèse d’une molécule d’ARN sur modèle, à partir d’une région de l’ADN ○ Traduction : synthèse d’un polypeptide à partir de l’ARN messager (mRNA) Transcripts alternatifs Le navigateur de génomes yeastgenomes.org permet de visualiser des régions génomiques et leurs annotations (indication de tous les éléments qu’on y détecte). = navigateur spécialisé dans la levure : base de donnée de référence de la levure du boulanger ( modèle pour les généticiens, biologiste moléculaire ou biologiste cellulaires pour utiliser la division cellulaire ) Le gène HOM3 code pour l’enzyme aspartate kinase, qui catalyse la première étape de la biosynthèse de l’homosérine. La ligne noire (partiellement marquée par la boîte ocre) indique l’étendue du transcrit. La flèche indique le sens de la transcription. Pour ce gène, il existe deux transcrits alternatifs, qui diffèrent par le site d’initiation de la transcription (Transcription Start Site, TSS) et par le site de terminaison (Transcription Termination Site, TTS) Partie ocre : Partie qui est traduite, indique la région codante, qui s’étend du codon start au codon stop. Disposition des gènes dans une région génomique de levure En dézoomant, on peut observer la disposition des gènes dans la région génomique avoisinante. Orientation : sur l’un ou l’autre brin, sans logique apparente. Notation des brins Watson : brin dont la séquence est dans la bande de donnée + = D (direct) Crick : reverse complémentaire - = R (reverse) Gène transcrit sur le brin reverse complémentaire Disposition des gènes sur un chromosome de levure On voit ici la disposition des gènes codants sur l’ensemble du cinquième chromosome (chrV) de levure. Longueur totale du chromosome : 576 874 bases. Nombre de gènes codants: 289 Densité moyenne : 1 gène / 2kb Il y a des motifs qui montre que arn est + ou - stables Les gènes non-codants Éviter l’erreur fréquente qui consiste à ne prendre en considération que les gènes codants. Les ARN ne font pas que servir de modèle à la synthèse des protéines. Il existe des gènes qui sont transcrits mais pas traduits. tRNA : ARN de transfert rRNA : ANR ribosomique ○ Le ribosome est un assemblage complexe d’ARN et de protéines lncRNA : long non-coding RNA (lncRNA) microRNA : petits ARN impliqués dans la régulation de l’expression des gènes Un gène toute les 2 kiloBase Le navigateur de génomes permet de sélectionner différentes pistes d’annotation (annotation tracks). Le chromosome V de la levure inclut 28 gènes non-codants (haut de la figure). Ces gènes sont transcrits, et produisent des ARN non codants avec différentes fonctions: ARN de transfert (tRNA), 20 gènes sur le chromosome V snRNA: small nuclear RNA régulation d’autres gènes Pas si simple : l’ADN fait l’ARN primaire fait l’ARN mature fait la protéine D’après Uniprot, la myoglobine compte 154 acides aminés (Uniprot MYG_HUMAN). En principe il suffirait donc d’un ARN de 154 codons = 154 x 3 = 459 nucléotides pour fournir l’information nécessaire à la traduction. Cependant, le UCSC genome browser indique que le gène occupe ~17kb (piste UCSC RefSeq) ○ Comment expliquer la différence ? ○ Comment lire et interpréter les informations du navigateur de génome ? ARN de la transcription ( chez plante ou animaux ) n'est pas près à fonctionner ( que se soit de transfert ou ribosomique ou à traduire ) = ARN primaire. On a besoin d'étapes de maturation = Epissage arn Cytoplasmique ≠ arn nucléaire. = exons sont ceux qui restent dans le noyaux et les introns sont ceux qui étaient dans le noyaux et qui partent dans le cytoplasme. Tous l'ARN n'est pas codant ( Ex : queue poly A ou UTR qui prennent pas mal de place ) Schéma adapté en incluant la maturation de l’ARN Transcription : synthèse d’une molécule d’ARN sur modèle, à partir d’une région de l’ADN. ○ Sites alternatifs d’initiation et de terminaison → transcrits multiples pour un gène Clivage et polyadénylation : dans la région 3’, l’ARN primaire est clivé (coupé), et une queue poly-A y est ajoutée (stabilisation de l’ARN). Cette queue polyA stabilise l’ARN. Épissage : élimination de certains segments de l’ARN (“introns”) et raboutage des autres segments (“exons”). ○ Sites alternatifs d’épissage → transcrits multiples pour un gène Traduction : synthèse d’un polypeptide à partir de la partie codante de l’ARN messager (mRNA). Note: les régions non traduites (untranslated regions, UTR) aux extrémités 5’ et 3’ de l’ARNm jouent un rôle dans la stabilité de l’ARN et dans la régulation de la traduction. Cette figure montre la représentation “dense” du gène MB, codant pour la myoglobine (vue complète diapo suivante). Nous avons recoloré le schéma pour indiquer les différents types de régions géniques. Remarques Ce gène est transcrit sur le brin réverse (de droite à gauche) Le dernier exon (le plus à gauche) inclut la fin de la région codante suivie du 3’ UTR Le 5’ UTR s’étend sur plusieurs exons (les 5 exons les plus à droite + la moitié du 6ème) L’ARN messager est beaucoup plus petit que le transcrit primaire La partie codante de cet ARNm couvre moins de la moitié de sa longueur Fin = introns qui vont être exciser + Épais = partie codantes des exons ( et non un exon codant ?) - Epais = partie non codantes les exons On peut avoir le mode compacté ou non à partir de ce site Pas si simple : transcrits alternatifs La vue complète indique que le gène de la myoglobine (MB) a au moins 9 transcrits alternatifs. TSS alternatifs (sites d’initiation de la transcription, transcription start sites) Exons facultatifs (présents dans certains échantillons, absents dans d’autres) Codons start alternatifs Le transcrit du haut est majoritaire Il existe des cas d’epissage alternatif où un exons est présent ou pas dans certains tissus = 2 variants de la protéines = isoformes qui auront une structure différente.. Il est possible que cet exons présent ou pas n'est aucune conséquence sur la protéines ou alors que la protéine soit inactive mais sans conséquence sur la cellule. François LeCop ? : “l'évolution c'est comme le bricolage” ( mutation → sélection). Rien n'indique que l'évolution aura une conséquence optimiser ou améliorer. Gould : critique sur la classification des êtres vivants Transcription et traduction simultanées chez les bactéries Chez les eucaryotes, la transcription et la traduction se font séparément: dans le noyau pour la traduction, et dans le cytoplasme pour la traduction. Chez les prokaryotes, la transcription et la traduction se passent au même endroit, et simultanément. Figure: photo en microscopie électronique d’un morceau de génome bactérien (DNA) avec ○ plusieurs sites de transcription active (RNA), ○ sur chaque ARN, plusieurs sites de traduction active (ribosomes) photo en ME Ligne horizontale : ADN L'adn à une région transcrite La transcription démarre avec un petit transcrit pour Arriver à un plus gros transcrit Les petites boucles sur adn sont des ribosomes qui font des protéines en cours de production. Génomes bactériens – Opéron Sur arn plusieurs signaux ( Ex : SD où le ribosomes va s'attacher ) Un ARN peut produire 4 protéines différentes Chez les procaryotes, une unité de transcription peut couvrir un ou plusieurs gènes. Opéron: transcrit incluant plusieurs gènes Exemple: l’opéron histidine d’Escherichia coli Si la bactérie manque de histidine la transcription démarre avec une régulation pour pouvoir synthétiser assez d'histidine. Quand il y a assez de histidine → régulation demande d'arrêter. Entre deux opérons→ besoin de place site de régulation transcriptionnelle, démarrage à la transcription et UTR. Figure du haut: structure d’un opéron d'Escherichia coli extraite de la base de connaissances EcoCyc (ecocyc.org). Figure du bas: localisation (mapping) des fragments de lecture d’ARN (RNA-seq transcriptomique) dans la région génomique correspondante. La hauteur des profils est proportionnelle au nombre de fragments de lecture localisés à chaque position. La couleur et l’orientation verticale indiquent le brin de lecture direct (vert, haut) ou reverse (violet, bas). On note un continuum de lectures sur toute la longueur de l’opéron (avec des disparités quantitatives). Noter aussi le gène b3207 (yrbL), transcrit séparément. petit fragment d'ADN séquence qui sont ensuite positionnés dans le génome = gène en entier. Disponibilité des génomes Séquençage massivement parallèle De 1977 à 2007, la méthode de Sanger était la seule façon de séquencer l’ADN (partie gauche de la figure) Durant les annéeds 1990-2000, cette méthode a été utilisée pour les premiers projets de séquençage génomique, qui ont suscité des améliorations techniques (robotisation, informatisation) En 2007, plusieurs compagnies proposent une stratégie radicalement différente: le séquençage massivement parallèle. Cette approche produit des millions de petits fragments de séquences (typiquement 36 à 300bp), qu’il faut ensuite analyser, avec différentes approches possibles ○ Localisation sur un génome de référence s’il existe ○ Assemblage de novo s’il n’y a pas de génome de référence Du gène au génome 2007 : technologies de séquençage massivement parallèle (“Next Generation Sequencing”, NGS) ○ De 2001 à 2007: les coûts diminuent en suivant la loi de Moore (décroissance exponentielle) ○ 2008; diminution brutale des coûts du séquençage ○ Depuis 2011: réduction plus modérée des coûts Disponibilité des séquences d’ADN Les séquences de macromolécules qui font l’objet de publications scientifiques sont systématiquement déposées dans des entrepôts de données internationaux, et rendues accessibles au public ○ Une exception: les séquences génomiques associées à des échantillons humains (voir cours sur la médecine génomique) Le nombre de séquences disponibles depuis 1980 montre une croissance exponentielle (linéaire sur un axe logarithmique). ○ Taux d’augmentation: de 1990 à 2020, x 1.48/an Avant 2002, il s’agissait de séquences individuelles de gènes ou de fragments génomiques (courbe bleue, Genbank). A partir de 2002, le séquençage de génomes complets prend le pas (courbe rouge). Disponibilité des génomes Quelques espèces de bactéries pour lesquelles on a des génomes de milliers de souches Ensuite les virus : on a aujourd'hui +10 millions de génomes pour la même espèce de virus ( Ex : Covid ) Avant les années 1990, le séquençage de l’ADN représentait un travail important. Un doctorant pouvait passer une partie significative de sa thèse à séquencer quelques kilobases afin de caractériser un seul gène. Les « projets génomes » ont stimulé le développement de méthodes de séquençage automatique, qui ont suscité des progrès technologiques impressionnants. Nous disposons aujourd’hui (septembre 2024) de plusieurs centaines de milliers de génomes complètement séquencés, en accès libre. Remarques Le degré de finition de ces génomes varie d’un groupe à l’autre Un grand nombre de génomes additionnels ont été séquencés par des compagnies, et ne sont pas accessibles au public. Composition et organisation des génomes De la génomique à la génomique fonctionnelle Le séquençage ne constitue qu'une toute première étape pour l'analyse des génomes. Au terme d'un projet de séquençage, on obtient un "texte" formé des 4 lettres A, C, G, T (une par nucléotide), et il reste un énorme travail de décryptage pour pouvoir interpréter ce texte. L'exemple ci-dessous montre un fragment de 1000 nucléotides du génome humain. Le génome complet comporte 3 milliards de nucléotides, 3 millions de fois plus grand. Les premières questions qui se posent au terme du séquençage = 1. Où sont localisés les gènes ? 2. Quelle est la fonction de ces gènes ? Annotation des génomes : où sont les gènes ? Méthodes mises à contribution pour localiser les gènes dans un génome Où sont les gènes→ chez levure = simples A partir de la séquence « brute » d’un génome, comment prédire la position des gènes ? Présence de phases ouvertes de lecture (longues régions sans codon stop) indiquent des régions vraisemblablement codantes. Les fréquences de codons sont caractéristiques des régions codantes. Fréquences des oligonucléotides. ○ Par exemple, les fréquences d'hexa nucléotides diffèrent entre régions codantes et non-codantes. Présence de signaux ○ Chez les procaryotes: juste avant une région codante, on trouve parfois un motif appelé « boîte de Shine-Delgarno » (AGGAGGU), qui favorise la liaison du ribosome à l’ARN ○ Chez les eucaryotes, on peut détecter des signaux d’épissage qui indiquent les débuts et fins des exons Recherche de similarité avec des gènes connus. ○ Comparaison d’une séquence génomique avec tout ce qui a été préalablement séquencé → détection de correspondances avec séquences déjà connues. Génomique comparative : comparaison entre génomes entiers Transcriptome : localisation (“mapping”) de toutes les régions génomiques transcrites dans différents tissus Cadres ouverts de lecture (open reading frame) Une séquence nucléique (ADN ou ARN) peut être parcourue en avançant de triplet en triplet de nucléotide, selon trois cadres de lecture, ou phases de lecture, selon qu’on parte du premier, du deuxième ou du troisième nucléotide de la séquence. Pour les séquences d’ADN, il y a donc 6 cadres de lecture (3 sur chaque brin). Un cadre de lecture ouvert (open reading frame, ORF) est un segment de séquence nucléique qui n’est pas interrompu par un codon stop (TAG, TGA ou TAA) dans une phase de lecture donnée, et est donc “ouvert” à la traduction (Sieber et al. 2018). Quand on dispose d’un génome ou d’un fragment de génome, les séquences codantes (coding sequences, CDS) peuvent être identifiées en cherchant le cadre ouvert de lecture le plus long à partir d’un codon start potentiel (ATG) et du prochain codon stop. Difficultés Tous les codons ATG ne sont pas des codons start, il existe des méthionines internes aux protéines. On prend donc généralement en compte le plus long cadre de lecture (depuis le codon start le plus éloigné en amont du codon stop) Chez les eucaryotes, les introns n’ont pas forcément une longueur multiple de 3, une protéine peut donc combiner des cadres ouverts de lecture situés sur différentes phases de la séquence génomique. Il existe des codons start alternatifs (exemple, chez Escherichia coli, ATG=85%, GTG=7,6%, TTG=1.2%, …) Structuration des génomes La structure des génomes dépend fortement du groupe taxonomique Bactéries (Escherichia coli) ○ génomes compacts ○ majorité codante ○ Organisation en opérons Levures (Saccharomyces cerevisiae) ○ Régulation séparée pour chaque gène ○ Exons / introns occasionnels ou fréquents selon espèce Métazoaires – animaux pluricellulaires (ex: humain) ○ Majorité non codante ○ Éléments répétitifs ○ Structure complexe des gènes (exons / exons, éléments de régulation) Plantes (ex: maïs) ○ Même type de complexité que chez les métazoaires Assignation de fonction par similarité de séquences Alignements globaux (Needleman-Wunsch) versus locaux (Smith-Waterman) En cherchant dans des bases de donnees, nous avons trouver des bases homologues entre humains et levures Alignement global ○ ensemble des séquences. On peut insérer un gap ( lacune ) pour aligner comme il faut Les séquences→ on doit faire une hypothèse (évènement :Insertion ou Délétion ? ) ○ +Approprié, par exemple, pour les protéines homologues qui sont conservées sur toute leur longueur. ○ L’alignement final inclut obligatoirement les deux séquences complètes. Alignement local ○ deux séquence→ trouve moi le segment qui s'alignent le mieux sans faire attention à gauche ou à droite ○ Approprié, par exemple, pour les protéines qui partagent un domaine commun, restreint à un segment de chaque séquence. L’alignement final est restreint aux segments conservés. Indel : gap qui manifeste une insertion passée ou une délétion passée Alignement d’une paire de séquences protéiques Protéines metL et thrA d’E.coli Algorithme : Needleman-Wunsch. Barres verticales « | » ○ Identité: les deux résidus alignés sont identiques. Doubles points « : » ○ Substitution « conservative » ○ Les deux résidus alignés sont différents mais similaires (la paire de résidus a un score positif dans la matrice de substitution utilisée (ici, BLOSUM62). Voir plus loin pour comprendre ces matrices. Points «. » ○ Substitution non-conservative ○ Cette paire de résidus (distincts) a un score négatif dans la matrice de substitution. Espace: « » ○ Gap: les résidus d’une des deux séquences ne correspondent à aucun résidu sur l’autre. ○ Le gap peut provenir soit d’une délétion, soit d’une insertion, on parle donc d’indel, pour désigner l’événement évolutif d’où provient ce gap. Matrice de substitutions Une matrice de substitution associe un score à chaque paire de résidus qu'on peut trouver dans un alignement. ○ Chaque ligne et chaque colonne représente l'un des résidus (4 nucléotides, 20 acide aminés). ○ La diagonale correspond aux identités. ○ Le triangle inférieur correspond à des substitutions. ○ Le triangle supérieur est symétrique au triangle inférieur, il n'est pas nécessaire d'indiquer les nombres. Les scores négatifs sont considérés comme des pénalités associées à certaines substitutions qu’on n’observe que rarement dans les alignements. Les algorithmes d'alignements tenteront donc d'éviter ces substitutions. Les scores positifs correspondent à des substitutions qu’on observe plus souvent que prévu, dans les alignements d’un grand nombre de séquences. Ceci suggère que ces substitutions particulières sont moins dommageable que d'autres, et on les qualifie donc de « substitutions conservatives » ou encore de « mutations ponctuelles acceptées » (PAM). Exemple de résultat de BLAST Requête peptidique vs DB de peptides alignement locale sur deux séquences protéique BLAST → logiciel information le + utiliser en biologie Exemple de résultat de recherche par similarité de séquences. Requête (query): metA Protéine identifiée dans la base de données: (subject): thrA. Le premier critère d’évaluation d’un résultat de BLAST: La e-valeur (expect) indique le nombre de faux-positifs attendus au hasard, si l’on plaçait le seuil au niveau du score observé (344 bits dans ce cas-ci). toujours positif Plus la e-valeur est faible, plus le résultat est statistiquement significatif. Dans le cas présent, il est très significatif (Expect = 2e-95) Si la e-valeur est >= 1, le résultat n’est pas significatif (on s’attendrait à trouver un alignement « aussi bon » avec des séquences aléatoires. Traduction d’une séquence nucléique sur les 6 phases de lecture Si l’on dispose d’une séquence nucléique, on peut facilement déduire la séquence de la protéine qui pourrait être produite par sa traduction, sur chacun des 6 brins. Si cette séquence n’est pas codante, on s’attend à trouver des codons stop (noté *) assez fréquemment (3 codons sur 64). Les similarités entre une séquence traduite à partir d’ADN et des protéines connues constituent des indices pour la localisation de régions codantes, et pour la fonction potentielle des nouvelles séquences. Modalités de BLAST Le logiciel BLAST présente 5 modalités différentes en fonction du type des séquences (peptidique ou nucléotidique) de requête et de la base de données. Pour les comparaisons entre séquences nucléotidiques et peptidiques, la séquence nucléotidique est traduite dans les 6 phases de lecture (3 par brin), et on lance ensuite une recherche de similarité “protéine versus protéine”. Un élément structurant des génomes: la régulation Régulation génétique Pour pouvoir comprendre la structure des gènes et l’organisation des génomes, il est nécessaire de connaître quelques éléments concernant la régulation génétique. Nous résumons ci-après les notions de base indispensables, sachant que ces concepts seront développés dans vos cours de génétique et de biologie moléculaire. Activation de la transcription Quelques protéines sont des facteur transcriptionnelle ( Ex : PAX6) qui reconnaissent des sites spécifiques sur adn généralement en amont des sites d'invitation à la transcription Répression transcriptionnelle les facteurs peuvent avoir un effet Inhibiteur = RÉPRESSION TRANSCRIPTIONNELLE : Au milieu et empêche la polymérase d'atterire sur le site d'initiation ou soit entrer en compétition avec l’activateur transcriptionnelle et l'activateur ne peut plus aller sur ADN soit Inhiber l'activateur en s'accrochant à l'activateur comme ça il ne peut plus s'accrocher au site d'initiation ou juste perturber son interaction avec l'arn polymérase Dis-moi dans quels tissus tu t’exprimes, je te dirai qui tu es Le projet GTEX (Adult Genotype Expression) Collecte d’échantillons de 54 tissus chez 1000 individus Extraction de l’ARN Séquençage et quantification dans chaque tissu (RNA-seq) Exemples ci-contre: profils tissulaires d’expression pour quelques gènes illustratifs L’hémoglobine s’exprime uniquement dans le sang La myoglobine s’exprime dans les muscles squelettiques Les gènes HoxA1 et HoxB9, impliqués dans la différenciation entre segments lors du développement, sont exprimés dans des tissus différents. Profil transcriptomique de la myoglobine La base de données GTEx (gtexportal.org) contient les profils transcriptomiques (quantification de tous les ARN produits par un génome) à partir d’échantillons prélevés dans 54 tissus chez ~1000 individus. UCSC Genome Browser (genome.ucsc.edu) permet d’afficher les données de GTEx au regard des annotations génomiques. Figure du haut: la myoglobine est fortement exprimée dans les muscles squelettiques et cardiaques. Ceci est parfaitement cohérent avec la fonction de l’hémoglobine. Figure du bas: dans ces tissus, la localisation génomique des fragments de lectures (short reads) correspond aux exons. Intérêt des analyses transcriptomiques pour l’annotation des génomes : pour des gènes de fonction inconnue, les profils transcriptomiques peuvent apporter des indices concernant La localisation des exons Une fonction potentielle pour les gènes concernés Coupable par association Des génomes aux transcriptomes Chez tous les êtres vivants l’expression des gènes fait l’objet d’un contrôle moléculaire à différents niveaux: transcription, maturation de l’ARN, traduction, post-traduction. Une indication importante concernant la fonction des gènes est de savoir dans quelles conditions ils sont exprimés. Microbes: substrats disponibles, conditions environnementales, … Multicellulaires: spécificité tissulaire, stades du développement, réponse aux conditions internes et externe de l’organisme La transcriptomique consiste à mesurer simultanément l’expression de tous les gènes d’un échantillon prélevé sur un organisme dans des conditions particulières. 1997: premières approches de transcriptomiques par biopuces 2007: transcriptomique par séquençage massivement parallèle (RNA-seq) La première biopuce transcriptomique (de Risi et al., 1997). Chacun des 6000 points lumineux correspond à un transcrit (ARN) de la levure du boulanger, Saccharomyces cerevisiae. L’intensité lumineuse est proportionnelle au niveau d’expression La couleur indique le sens de la régulation Rouge: gènes sur-exprimés par rapport à l’échantillon témoin Vert: gènes sous-exprimés Jaune: gènes fortement exprimés dans les deux échantillons. Des protéomes aux interactomes Une protéine n’agit généralement pas seule: les protéines interagissent De façon stable, en formant des complexes multimériques (plusieurs polypeptides) De façon transitoire, en établissant des liaisons temporaires qui modifient leur niveau d’activité Au début des années 2000, plusieurs méthodes sont mises au point pour déterminer l’interactome, c’est-à-dire l’ensemble des interactions entre protéines d’un système biologique (organisme, tissu, échantillon). Le principe de culpabilité par association Le principe de culpabilité par association (guilt by association) en annotation fonctionnelle : si l’on ignore la fonction d’un gène ou d’une protéine, mais qu’on constate qu’elle est fréquemment associée à des gènes ou protéines de fonction connue, on suppose qu’ils peuvent participer à une même fonction. Les critères d’association peuvent être multiples ○ Interactions physiques entre protéines détectées dans les interactomes ○ Corrélation de présence / absence d’homologues dans les génomes / protéomes de différents organismes (profils phylogénétiques) ○ Corrélation entre profils transcriptomiques ○ Procaryotes: inclusion dans le même opéron ○ … La dénomination est ironique, car ce principe est bien entendu invalide en matière juridique : on ne peut pas condamner quelqu’un pour la seule raison qu’il a fréquenté des personnes qui ont commis un délit. La Gene Ontology – Définir et structurer les termes d’annotation des gènes et de leurs produits Gene Ontology (GO) En 2000, Ashburner et collègues proposent à tous les projets de génomique d’adopter une “ontologie” pour annoter les fonctions des gènes (et des protéines qu’elles produisent). Ils illustrent le concept avec trois organismes modèles. Saccharomyces cerevisiae (levure du boulanger) Drosophila melanogaster (mouche à vinaigre) Mus musculus (souris) La Gene Ontology initiale définit 3 niveaux d’annotation a. Processus biologique (figure de gauche) b. Fonction moléculaire (milieu) c. Composante cellulaire (droite) Principes de l’ontologie Vocabulaire contrôlé : on définit une liste des termes standards, pour éviter les ambiguités liées à des formulations différentes des mêmes concepts (ex: cytoplasme = cytosol) Vocabulaire structuré : les relations hiérarchiques (flèches) sont établies entre ces termes. Les relations ascendantes ou descendantes peuvent être multiples (chaque noeud du graphe peut avoir plusieurs “parents” et plusieurs “enfants”). Chaque gène est annoté en l’attachant à un ou plusieurs termes de l’ontologie (exemples colorés en bleu, rose ou rouge sur le graphe) Exemple: diagramme GO du processus “biosynthèse de la L-histidine” La voie métabolique de biosynthèse de l’histidine est rattachée à plusieurs processus parents : Métabolisme de la L-histidine Biosynthèse des acides aminés lévogyres Biosynthèse des acides aminés aromatiques Biosynthèse des acides aminés protéogéniques (impliqués dans la composition des protéines) Ces classes ontologiques ont à leur tour des classes parentes, avec certains entrecroisements. Cette structuration paraît complexe au premier abord, mais permet d’annoter chaque gène / protéine à un niveau plus ou moins détaillé de l’arborescence des termes de l’ontologie. Information complémentaire L’épissage Haut: ADN Milieu: pré-ARN = transcrit primaire ○ Principale composante de la fraction nucléaire de l’ARN (extraite du noyau cellulaire) Bas: résultat de l’épissage: les exons sont ○ Principale composante de la fraction cytoplasmique de l’ARN (extraite du cytoplasme) Exons: parties de l’ADN qui se retrouvent dans l’ARN mature Introns: parties de l’ADN qui sont excisées entre ARN primaire et ARN mature Attention: les exons ne correspondent pas aux parties codantes des gènes ○ Il existe des ARN non-codants (ex: ARN de transfert, ribosomiques, … ○ Le concept d’ARN messager ne concerne donc que les gènes codant pour des protéines ○ Même pour les gènes codants, l’ARN messager inclut des parties non traduites à ses extrémités 3’ et 5’ (UTR: untranslated regions Structuration des gènes bactériens - La découverte de l’opéron Depuis les années 40, Jacques Monod entreprend de comprendre les mécanismes de régulation métabolique chez la bactérie Escherichia coli 1960: François Jacob and Jacques Monod proposent deux modèles alternatifs pour lka régulation de l’opéron Lac ○ au niveau de la transcription ○ au niveau de l’ARN Le modèle de base sous-jacent à ces deux modèles est le contrôle négatif (répression) de l’expression des gènes. Dans les deux cas, ils soulignent l’importance des boucles de rétroaction

BIOINFORMATIQUE 3 PDF

Document Details

Tags

Related

Summary

Full Transcript