Chapitre 7. Réseaux et systèmes biologiques PDF

Summary

Ce document présente un chapitre sur les réseaux et systèmes biologiques. Il détaille la théorie des graphes en mathématiques et discute de différents types de réseaux biologiques, y compris les réseaux métaboliques, les réseaux de régulation, les réseaux d'interactions protéine-protéine (PPI) et les réseaux gènes-maladies.

Full Transcript

Introduction à la bioinformatique UE AMU SSV3U15, L2 Sciences du vivant Chapitre 7. Réseaux et systèmes biologiques Jacques van Helden & Andreas Zanzoni (Aix-Marseille Université)...

Introduction à la bioinformatique UE AMU SSV3U15, L2 Sciences du vivant Chapitre 7. Réseaux et systèmes biologiques Jacques van Helden & Andreas Zanzoni (Aix-Marseille Université) SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 1 Chapitre # - TITRE Table des matières 1. Théorie des graphes en mathématiques 2. Réseaux métaboliques 3. Réseaux de régulation 4. Réseaux d’interactions protéines - protéines (PPI: protein-protein interactions) 5. Réseaux gènes - maladies 6. Propriétés topologiques des réseaux biologiques 7. Conclusions 2 Théorie des graphes en mathématiques SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 3 Chapitre # - TITRE Graphes mathématiques et réseaux biologiques En mathématique, le terme graphe désigne une représentation formelle d’un ensemble d’entités et de relations entre elles. Les entités sont dénommées noeuds du graphe. Les relations sont dénommées arêtes si elles sont non-orientées, et arcs si elles sont orientée Les mathématiciens ont développé une théorie des graphes, qui traite de leurs propriétés en tant qu’objets mathématiques, et permet d’effectuer des opérations : nœud (node) Calcul de propriétés topologiques, Recherche de chemins arête (edge) Extraction de sous-graphes … Depuis quelques décennies, on a utilisé des graphes mathématiques pour représenter des réseaux d’interactions entre entités biologiques et plus particulièrement biomoléculaires : Réseaux métaboliques (substrats → réactions → produits) Réseaux de régulation (facteurs transcriptionnels → gènes) nœud (node) Interactions protéine – protéine Co-expression de gènes à partir de données arc (arc) transcriptomiques 4 Réseaux métaboliques SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 5 Chapitre # - TITRE Réseau métabolique : Boehringer-Mannheim wallchart Cette figure donne la vue d’ensemble du poster métabolique (Metabolic Wall Chart), conçu par le biochimiste Gehrard Michal., et distribué depuis les années 1990 par la firme pharmaceutique Boehringer-Mannheim. Elle figurait dans le salon ou la cuisine de tous les étudiant de médecine, qui étaient censés mémoriser la plupart de ces voies métaboliques pour passer l’examen de biochimie. Nous allons partir du détail d’une voie particulière et montrer comment on arrive à constituer un réseau métabolique de ce type. 6 Biosynthèse de la méthionine chez la levure Saccharomyces cerevisiae et la bactérie Escherichia coli Biosynthèse de la L-Méthionine à partir de la L-Homosérine Escherichia coli ▪ Bactérie Escherichia coli L-Homoserine ▪ 4 étapes ▪ Les nombres associés aux réactions indiquent le type de SuccinylSCoA catalyse enzymatique 2.3.1.46 ▪ Transsulfuration : le soufre de la L-Méthionine est HSCoA transféré à partir de la L-Cystéine Alpha-succinyl-L-Homoserine L-Cysteine 4.2.99.9 Succinate Cystathionine H2O 4.4.1.8 NH4+ Pyruvate Homocysteine 5-MethylTHF 2.1.1.14 THF L-Methionine 7 Biosynthèse de la méthionine chez la bactérie Escherichia coli et la levure Saccharomyces cerevisiae Biosynthèse de la L-méthionine Biosynthèse de la L-méthionine Deux voies alternatives pour la biosynthèse de la L-méthionine à chez Escherichia coli chez Saccharomyces cerevisiae partir de a L-Homosérine. L-Homoserine L-Homoserine ▪ Métabolisme de la bactérie Escherichia coli ▪ 4 étapes SuccinylSCoA AcetlyCoA ▪ Les nombres associés aux réactions indiquent le type de 2.3.1.46 2.3.1.31 catalyse enzymatique HSCoA CoA ▪ Le soufre est initialement incorporé dans la L-Cystéine, et ensuite transféré de la L-Cystéine vers la Alpha-succinyl-L-Homoserine L-Méthionine (trans-sulfuration C → M) L-Cysteine ▪ Métabolisme de la levure du boulanger Saccharomyces 4.2.99.9 O-acetyl-homoserine cerevisiae ▪ 3 étapes Succinate ▪ Le soufre est initialement incorporé à partir de sulfide Cystathionine dans la L-Méthionine, et ensuite transféré de la L-Méthionine vers la L-Cystéine H2O Sulfide (transsulfuration M → C). 4.4.1.8 4.2.99.10 Dans les deux voies métaboliques, le soufre est donc incorporé NH4+ directement dans un seul des deux acides aminés, et transféré ensuite à l’autre par transsulfuration, mais l’incorporation se fait Pyruvate soit dans la L-Méthionine, soit dans la L-Cystéine selon Homocysteine Homocysteine l’organisme. 5-MethylTHF 5-MethylTHF 2.1.1.14 2.1.1.14 THF THF L-Methionine L-Methionine 8 Synthèse sous forme de graphe de la biosynthèse de la méthionine chez deux organismes Description en termes de graphe / réseau Escherichia coli Saccharomyces cerevisiae ▪ Le graphe ci-joint représente une synthèse des deux voies L-Homoserine alternatives de biosynthèse de la L-Méthionine (chaque SuccinylSCoA AcetlyCoA organisme utilise un sous-ensemble des réactions). ▪ Jaune : enzymes présentes chez E. coli 2.3.1.46 2.3.1.31 ▪ Bleu : enzymes présentes chez S. cerevisiae HSCoA CoA ▪ Vert : enzymes présentes chez E.coli et S. cerevisiae Alpha-succinyl-L-Homoserine ▪ Noeuds = entités, de 2 types pour ce réseau L-Cysteine ▪ Réactions ▪ Métabolites (“compounds” en anglais) 4.2.99.9 O-acetyl-homoserine ▪ Arcs (représentés par des flèches) = relations Succinate ▪ Des substrats aux réactions (flèches entrantes des réactions) Cystathionine ▪ Des réactions aux substrats (flèches sortantes) H2O Sulfide ▪ Remarque ce réseau est biparti 4.4.1.8 4.2.99.10 ▪ Deux types de noeuds (réactions et métabolites) ▪ Les arcs vont toujours d’un noeud d’un type à un noeud NH4+ de l’autre type Pyruvate ▪ molécule → réaction ▪ réaction → molécule Homocysteine 5-MethylTHF 2.1.1.14 THF L-Methionine 9 Réseau métabolique du métabolisme de la cystéine et de la méthionine (KEGG) La base de données KEGG répertorie CYSTEINE AND METHIONINE METABOLISM les réactions métaboliques connues chez tous les organismes. Elle regroupe plusieurs voies en un réseau métabolique Exemple: métabolisme de la cystéine + métabolisme de la méthionine en un seul réseau. “Métabolisme” inclut ici les voies de biosynthèse et de dégradation. Le réseau montre les alternatives chez tous les organismes où ces voies sont connues. Ces réseaux sont représentés sous forme de cartes métaboliques. , où l’on peut choisir de marquer les enzymes et voies connues chez un organisme donné. Vert: enzymes présentes chez Escherichia coli. Rose: voie métabolique de la L-Aspartate à la L-Méthionine chez Escherichia coli. https://www.kegg.jp/pathway/eco00270 10 Réseau métabolique global (toutes les réactions de KEGG) Composé en agrégeant toutes les réactions connues. métabolites (“compounds” en anglais) 12.588 réactions métaboliques 21.247 compounds (métabolites, petites molécules) https://www.kegg.jp/pathway/map01100 11 Réseau métabolique global d’Escherichia coli (base de données KEGG) Réseau métabolique global (toutes les réactions de KEGG). Les réactions pour lesquels on trouve des enzymes dans le génome d’Escherichia coli sont colorées. https://www.kegg.jp/kegg-bin/show_pathway?eco01100 12 Réseau métabolique global d’Homo sapiens(base de données KEGG) Réseau métabolique global (toutes les réactions de KEGG). Les réactions pour lesquels on trouve des enzymes dans le génome d’Homo sapiens sont colorées. https://www.kegg.jp/kegg-bin/show_pathway?eco01100 13 EcoCyc metabolic chart La base de données EcoCyc contient des informations détaillées sur les compounds, réactions, voies métaboliques et la régulation de la bactérie Escherichia coli. https://biocyc.org/overviewsWeb/celOv.shtml?ORGID=ECOLI&orgid=ECOLI# 14 Conclusion intermédiaire : réseaux métaboliques Tout au long du 20è siècle, les biochimistes ont accumulé des connaissances concernant les réactions métaboliques , voies métaboliques Les données accumulées dans des bases de données (KEGG, EcoCyc) peuvent être représentées sous formes de réseaux composés–réactions. La vaste majorité de ces réactions sont catalysées par des enzymes. La génomique permet d’identifier dans un génome tous les gènes codant pour des enzymes, et de prédire les capacités métaboliques d’un organisme. Cependant, les enzymes ne sont pas toutes actives à tout moment : leur activité dépend fortement des conditions cellulaires, et de la présence de métabolites. Une étude du réseau métabolique d’un organisme doit tenir compte de tous ces aspects. 15 Réseaux de régulation SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 16 Chapitre # - TITRE Adaptation métabolique - Le shift diauxique Durant sa thèse de doctorat, Jacques Monod étudie le phénomène de « diauxie »: quand on fait pousser des bactéries sur un mélange de deux sources de carbones (par exemple deux sucres), on observe généralement une croissance en deux phases. La première phase correspond à la la consommation, jusqu’à épuisement, d’une des deux sources (la plus favorable énergétiquement). La seconde phase correspond à la consommation de la seconde source. Le délai entre les deux phases indique une adaptation enzymatique de la cellule au changement de source de carbone. Durant le reste de sa carrière, Jacques Monod découvrira les éléments-clés de cette adaptation métabolique : 1. Les perméases (Cohen & Monod, 1957) 2. La régulation transcriptionnelle et le modèle de l’opéron (Jacob & Monod, 1960) 3. La régulation allostérique (Monod, Wyman & Changeux, 1965) Monod, J., Wyman, J. & Changeux, J.-P. On the nature of allosteric transitions: A plausible model. Journal of Molecular Biology 12, 88–118 (1965). doi.org/10.1016/S0022-2836(65)80285-6 Cohen, G. N. & Monod, J. BACTERIAL PERMEASES. Bacteriol Rev 21, 169–194 (1957). doi.org/10.1128/br.21.3.169-194.1957 Jacob, F., Perrin, D., Sánchez, C. & Monod, J. L’opéron : groupe de gènes à expression coordonnée par un opérateur [C. R. Acad. Sci. Paris 250 (1960) 1727–1729]. Republication: Comptes Rendus. Biologies 328, 514–520 (2005). doi.org/10.1016/j.crvi.2005.04.005 17 Jacques Monod Nobel lecture. http://www.nobelprize.org/nobel_prizes/medicine/laureates/1965/monod-lecture.html Régulation de la biosynthèse de la méthionine chez Escherichia coli Les voies métaboliques sont régulées à Aspartate L-Aspartate différents niveaux : biosynthesis ATP aspartate kinase II/ metL Transcription (répresseur MetJ) 2.7.2.4 homoserine dehydrogenase II ADP Activité enzymatique L-aspartyl-4-P (régulation allostérique) NADPH Aspartate semialdehyde 1.2.1.11 asd Transport des métabolites NADP+; Pi deshydrogenase Lysine L-aspartic semialdehyde Le réseau ci-contre, formé par les biosynthesis métabolites, enzymes, gènes et facteur NADPH 1.1.1.3 NADP+ transcriptionnel, contient plusieurs Threonine L-Homoserine boucles de rétroaction négative, qui biosynthesis SuccinylSCoA Homoserine Methionine 2.3.1.46 metA metJ O-succinyltransferase repressor assurent un rétrocontrôle. HSCoA concentrations de méthionine et de SAM faibles Alpha-succinyl-L-Homoserine Cysteine L-Cysteine → inactivation du répresseur MetJ biosynthesis 4.2.99.9 Cystathionine-gamma-synthase metB Succinate → biosynthèse des enzymes Cystathionine → augmentation de la concentration de méthionine et de SAM H2O Cystathionine-beta-lyase metC 4.4.1.8 Pyruvate; NH4+ → activation du répresseur Homocysteine Cobalamin-independent- → répression de la synthèse des 5-MethylTHF homocysteine transmethylase metE 2.1.1.14 metR enzymes THF 2.1.1.13 Cobalamin-dependent- metR metH homocysteine transmethylase → diminution des flux métaboliques L-Methionine → concentrations mét + SAM faibles ATP; H2O S-adenosylmethionine 2.5.1.6 metK … Pi + PPi synthetase L’ensemble assure l’homéostasie : S-Adenosyl-L-Methionine maintien d’une concentration constante (SAM) de L-Methionine 18 Réseau de régulation transcriptionnelle d’Escherichia coli La base de données RegulonDB qui documente les régulations transcriptionnelle de l’organisme modèle le mieux connu concernant la régulation transcriptionnelle : Escherichia coli. En s’appuyant sur cette base de connaissance, Martinez-Antonio et ses collègues construisent un réseau de régulation. Les arcs indiquent les régulations entre un facteur transcriptionnel et le gène codant pour un autre facteur transcriptionnel. Vert: activation Rouge: répression Bleu: activation ou répression selon contexte Observations L’énorme majorité des facteurs transcriptionnels s’auto-régulent (rétroaction directe, le plus souvent négative) Quelques boucles de rétroaction impliquent 2 ou plusieurs facteurs transcriptionnels (rétroaction indirecte) Groupements de facteurs transcriptionnels impliqués dans des fonctions particulières : utilisation de sources de carbone, biosynthèse des acides aminés, … Les boucles de rétroaction sont les éléments essentiels de la régulation des systèmes biologiques. Martínez-Antonio, A., Janga, S. C. & Thieffry, D. Functional organisation of Escherichia coli 19 transcriptional regulatory network. Journal of Molecular Biology 381, 238–247 (2008). Motifs récurrents dans le réseau de régulation d’Escherichia coli L’équipe de Uri Alon mène une analyse statistique des “motifs récurrents” impliquant au moins trois facteurs transcriptionnels dans le réseau de régulation d’Escherichia coli (sur base de RegulonDB). Ils décrivent trois types de motifs récurrents : Feedforward loops : X régule Z directement, mais également indirectement via Y Single input module (SIM) : un facteur X s’auto-régule et régule une série d’autres facteurs (Z1, Z2, …, Zn) Dense overlapping regulons : entrecroisements de régulation entre une série de facteurs, et les facteurs qu’ils régulent Sur base des propriétés de ce genre de circuits dans les réseaux électronique, il propose que ces motifs récurrents exercent des fonctions similaires dans les réseaux de régulation biologique. Note : cette analyse de Uri Alon ne tient pas compte de la fréquence très élevée de boucles de rétroaction directes, présentée dans la diapo précédente. Shen-Orr, S. S., Milo, R., Mangan, S. & Alon, U. Network motifs in the transcriptional regulation network of Escherichia coli. Nat Genet 31, 64–68 (2002). doi.org/10.1038/ng881 20 Alon, U. Network motifs: theory and experimental approaches. Nat Rev Genet 8, 450–461 (2007). doi.org/10.1038/nrg2102 L’avènement de la transcriptomique : les biopuces de Stanford 1997, deRisi et collèguent développent les premières biopuces transcriptomiques, qui permettent de quantifier la concentration de tous les gènes de levure dans deux conditions données, et de les comparer. ○ Canal vert : échantillon de référence ○ Canal vert : échantillon de test Chaque gène correspond à un transcrit L’intensité indique la concentration moyenne de ce transcrit dans les deux échantillons comparés. La couleur indique le sens de la régulation ○ Rouge: sur-exprimé dans le test par rapport à la référence ○ Vert: sous-exprimé dans le test par rapport à la référence ○ Jaune : non affecté par l’expérience (expression de niveau égal dans les deux conditions) Reference Test Régulation DeRisi, J. L., Iyer, V. R. & Brown, P. O. Exploring the metabolic and genetic control of gene expression 21 on a genomic scale. Science 278, 680–686 (1997). doi.org/10.1126/science.278.5338.680 Le transcriptome du shift diauxique Dans le même article fondateur de la transcriptomique, DeRisi et collègues (1997) mènent une expérience qu’ils appellent “diauxic shift”, par référence à l’expérience de Monod. Il s’agit cependant de conditions assez différentes. Il s’agit d’un profil temporel du transcriptome, avec 7 points de mesure sur un total de 19h. Au départ, les cellules sont cultivées dans un milieu riche en glucose. Au fil du temps, les cellules consomment du glucose → lorsque le glucose devient limitant ○ la glycolyse s'arrête ○ la gluconéogenèse est activée pour produire du glucose Ce métabolisme produit également des déchets excrétés par les cellules → le milieu de culture devient pollué → activation des voies de réponse au stress Au total, ~1500 gènes montrent des variations d’expression d’un facteur >2 (sur-expression ou sous-expression par rapport au niveau initial). Cette expérience démontre donc la puissance de l’approche transcriptomique pour mesurer le niveau de transcription à l’ échelle d’un génome (transcriptome). DeRisi, J. L., Iyer, V. R. & Brown, P. O. Exploring the metabolic and genetic control of gene expression 22 on a genomic scale. Science 278, 680–686 (1997). doi.org/10.1126/science.278.5338.680 Cycle cellulaire de la levure Une autre expérience réalisée par le même laboratoire, qui illustre bien la puissance de l’analyse transcriptomique : la détection des gènes de levure montrant des fluctuations périodiques au cours du cycle cellulaire. Profils transcriptomiques temporels Chaque ligne correspond à un gène Le cycle de cellules en culture est synchronisé par 4 méthodes différentes (Alpha, cdc15, cdc28 et elutriation). Au sein de chaque expérience, les colonnes correspondent à des points temporels successifs L’échelle de couleur indique le niveau d’expression: faible (vert) à élevé (rouge) Les rectangles latéraux indiquent à quelle phase du cycle (M, G1, S, G2) les gènes ont leur expression maximale Spellman, P. T. et al. Comprehensive Identification of Cell Cycle–regulated Genes of the Yeast Saccharomyces cerevisiae by Microarray Hybridization. MBoC 9, 3273–3297 (1998). 23 doi.org/10.1091/mbc.9.12.3273 Regroupement des gynes en fonction de leurs profils d’expression Les cartes de couleurs (gauche) peuvent être combinés avec un algorithme de clustering hiérarchique pour regrouper les gènes qui ont des profils transcriptomiques similaires (droite). Ceci permet d’identifier des groupes de gènes co-régulés par des facteurs transcriptionnels spécifiques (MCM, CLB2, SIC1, CLN2, …). Spellman, P. T. et al. Comprehensive Identification of Cell Cycle–regulated Genes of the Yeast Saccharomyces cerevisiae by Microarray Hybridization. MBoC 9, 3273–3297 (1998). 24 doi.org/10.1091/mbc.9.12.3273 Réponse de la levure à différentes conditions de stress L’équipe de Stanford réalise ensuite une analyse systématique de la réponse transcriptionnelle de la levure à différents types de stress Stress thermique Déplétion d’azote Carence en acides aminés … Ceci permet d’émettre des hypothèses concernant la fonction de gènes inconnus, et de tester ensuite ces hypothèses expérimentalement. Gasch, A. P. et al. Genomic Expression Programs in the Response of Yeast Cells to Environmental 25 Changes. MBoC 11, 4241–4257 (2000). doi.org/10.1091/mbc.11.12.4241 Première application médicale (1999) : signatures moléculaires de types de cancers Golub et al. (1999) utilisent des biopuces transcriptomiques pour quantifier l’expression de 3000 gènes humains dans deux types de leucémie qui affectent des types différents de cellules (lymphoblastes ou myoblastes): ALL: acute lymphoblastic leukemia AML: acute myoblastic leukemya Ils sélectionnent les 100 gènes les montrant les plus fortes différences d’expression entre les deux groupes (rouge versus bleu). 50 gènes sur-exprimés chez les patients ALL 50 gènes sur-exprimés chez les patients AML Ils proposent d’utiliser ces gènes comme signature moléculaire afin de diagnostiquer les types de leucémies de futurs patients, sur base de leurs profils transcriptomiques. Golub et al. (1999). Science 286: 531-537 26 Réseaux de co-expression (a) Clustering des gènes (b) Matrice de co-expression (on voit les groupes de gènes co-exprimés comme des rectangles colorés) (c) Clusters sur les composantes principales (non expliqué dans ce cours-ci) (d) Profils d’expression des groupes de gènes identifiés par cette méthode. Observer la cohérence, mais aussi les différences. Zhang, B. & Horvath, S. A General Framework for Weighted Gene Co-Expression Network Analysis. Statistical Applications in Genetics and Molecular Biology 4, (2005). 27 https://doi.org/10.2202/1544-6115.1128 Conclusion intermédiaire : réseaux de régulation La régulation est omniprésente dans les processus biologiques. Elle intervient notamment dans ○ le développement embryonnaire ○ l’adaptation métabolique des cellules et des organismes, qui leur permet de maintenir un environnement interne homogène en dépit des fluctuations temporelles. ○ la réponse cellulaire à des conditions de stress ○ la réponse immunitaire ○ … Depuis le début du 20è siècle, différentes méthodes ont permis de caractériser les réseaux de régulation à large échelle ○ Transcriptome (biopuces puis séquençage massivement parallèle : RNA-seq) ○ Sites de liaison des facteurs transcriptionnels (ChIP sur chip, ChIP-seq) 28 Réseaux d’interactions protéines - protéines (PPI: protein-protein interactions) SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 29 Chapitre # - TITRE Détection d’interactions protéines-protéines Deux méthodes développées au début des années 2000 Interactions binaires :la méthode des doubles hybrides (Ito et al., 2001) permet spécifiquement de détecter des interactions entre 2 protéines. Interactions de 1 à n : approche “sonde - proie” par spectrométrie de masse (Gavin et al., 2002). Une protéine est utilisée comme sonde pour “attraper” les protéines qui interagissent avec elle. Cette méthode permet de détecter des interactions multiples à partir d’une même sonde, et donc de révéler les composantes des complexes protéiques. L’automatisation des procédures permet de tester des centaines voire des milliers d’interactions, on parle dès lors d’interactome. Cependant, le nombre potentiel d’interactions dépasse de loin la capacité de détection. Par exemple, il existe potentiellement 36.000.000 d’interactions binaires possibles entre les 6.000 protéines de la levure, et 400.000.000 entre les 20.000 protéines humaines. Les interactomes sont donc partiels. Ito, T. et al. A comprehensive two-hybrid analysis to explore the yeast protein interactome. Proc. Natl. Acad. Sci. U.S.A. 98, 4569–4574 (2001). Gavin, A.-C. et al. Functional organization of the yeast proteome by systematic analysis of 30 protein complexes. Nature 415, 141–147 (2002). Interactions protéines-protéines – Réseau binaire, complexes et littérature Différentes méthodes permettent de générer des données massives concernant les interactions protéines - protéines Méthodes expérimentales La méthode des doubles hybrides détecte des interactions binaires entre deux protéines. Elle permet, indirectement, de retrouver des interactions multiples (complexes protéiques) en combinant les interactions binaires entre les différentes protéines qui appartiennent à un même complexe. Une autre approche consiste à “pêcher” l’ensemble des protéines liées à une protéine “hameçon”, et à les identifier par spectrométrie de masse (ceci suppose qu’on dispose de l’ensemble des séquences protéiques pour l’organisme considéré). Fouille de la littérature scientifique Des travaux ont également été menés pour identifier les informations pertinentes concernant les interactions protéines - protéines par “fouille de texte” dans la littérature scientifique, en identifiant automatiquement les noms de protéines et des phrases qui indiquent une interaction. Yu, H. et al. High-Quality Binary Protein Interaction Map of the Yeast Interactome Network. 31 Science 322, 104–110 (2008). https://10.1126/science.1158684 Réseaux d’interactions protéines-protéines On peut représenter l’interactome sous forme d’un graphe d’interactions protéine - protéine. Les résultats donnent de gigantesques réseaux d’interactions, comprenant des centaines de noeuds (protéines) reliées par des milliers d’arêtes (interactions). La fiabilité de ces données est cependant relative. Le taux de recouvrement entre les études indépendantes est relativement faible Chaque méthode retourne un certain nombre de faux-positifs (interactions détectées mais non-existantes) Un nombre d’interactions existantes échappent à la détection (faux-négatifs). Pour des raisons techniques et de moyens, ces études ne testent qu’un sous-ensemble des interactions possibles → couverture partielle. Ces études apportent néanmoins des informations exploitables Détection de groupes de protéines interconnectées → modules du réseau Hypothèses concernant les fonctions possibles de protéines inconnues → principe d’annotation par association (métaphore “coupable par association”) Jeong, H., Mason, S. P., Barabási, A.-L. & Oltvai, Z. N. Lethality and centrality in protein 32 networks. Nature 411, 41–42 (2001). doi.org/10.1038/35075138 Conclusion intermédiaire : réseaux d’interactions protéine-protéine La régulation est omniprésente dans les processus biologiques. Elle intervient notamment dans ○ le développement embryonnaire ○ l’adaptation métabolique des cellules et des organismes, qui leur permet de maintenir un environnement interne homogène en dépit des fluctuations temporelles. ○ la réponse cellulaire à des conditions de stress ○ la réponse immunitaire ○ … Depuis le début du 20è siècle, différentes méthodes ont permis de caractériser les réseaux de régulation à large échelle ○ Transcriptome (biopuces puis séquençage massivement parallèle : RNA-seq) ○ Sites de liaison des facteurs transcriptionnels (ChIP sur chip, ChIP-seq) 33 Réseaux gènes - maladies SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 34 Chapitre # - TITRE Réseaux gènes - maladies Centre: Réseau maladies – gènes (“diseasome”) : chaque flèche indique qu’un gène est associé à une maladie (par exemple via des GWAS) Ce graphe est biparti : 2 types de noeuds (gène ou maladie) et les relations lient toujours un type à l’autre. Gauche : réseau de co-morbidité Graphe maladie - maladie Dérivé du diseasome en liant 2 maladies si elles ont au moins un gène commun dans le diseasome. L’épaisseur des arêtes indique le nombre de gènes en commun Droite: réseau de gènes impliqués dans les mêmes maladies. Deux gènes sont liés s’ils sont associés à une ou plusieurs mêmes maladies. L’épaisseur des arêtes indique le nombre de maladie auxquelles ils sont co-associés. Goh KI, Cusick ME, Valle D, Childs B, Vidal M, Barabási AL. The human disease network. Proc Natl Acad Sci U S A. 2007;104(21):8685-8690. https://doi.org/10.1073/pnas.0701361104 35 Propriétés topologiques des réseaux biologiques SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 36 Chapitre # - TITRE Graphes mathématiques et réseaux biologiques En mathématique, le terme graphe désigne une représentation Graphe non orienté formelle d’un ensemble d’entités et de relations entre elles. ▪ Les entités sont dénommées noeuds du graphe. ▪ Les relations sont dénommées arêtes si elles sont non-orientées, et arcs si elles sont orientée Les mathématiciens ont développé une théorie des graphes, qui traite de leurs propriétés en tant qu’objets mathématiques, et permet d’effectuer des opérations : nœud (node) ▪ Calcul de propriétés topologiques, ▪ Recherche de chemins arête (edge) ▪ Extraction de sous-graphes ▪ … Depuis quelques décennies, on a utilisé des graphes Graphe orienté mathématiques pour représenter des réseaux d’interactions entre entités biologiques et plus particulièrement biomoléculaires : ▪ Réseaux métaboliques (substrats → réactions → produits) ▪ Réseaux de régulation (facteurs transcriptionnels → gènes) ▪ Interactions protéine – protéine ▪ Co-expression de gènes à partir de données nœud (node) transcriptomiques arc (arc) 37 Propriétés topologiques Les propriétés topologiques d’un graphe décrivent sa structure et Exemple de réseau Degré de chaque noeud son organisation : Degré : le degré (degree) k d'un nœud est le nombre d'arêtes qui lui sont adjacentes (connectées). Il correspond donc au nombre de connexions ou nombre de premiers voisins. Chemin : Un chemin (path) dans un graphe est une suite de nœuds connectés par des arêtes, qui permet de passer d'un nœud de départ à un nœud d'arrivée en suivant les connexions existantes. Dans un chemin, chaque nœud ne peut être parcouru qu'une seule fois. Un des chemins possibles de m à f Chemin le plus court de m à f Le plus court chemin : Le plus court chemin (shortest path) entre deux noeuds d’un graphe est le chemin reliant ces deux nœuds en passant par le moins d’arêtes possibles. La distance entre deux nœuds est le nombre d’arêtes comprises dans le plus court chemin. d=5 d=3 38 Propriétés topologiques Centralité (centrality) : la centralité mesure l'importance d’un nœud au Exemple de réseau Centralité de distance sein d'un réseau. Il existe plusieurs types de centralité, dont : Centralité de distance (distance centrality) : distance moyenne Le centre = entre chaque noeud et tous les autres noeuds. Il s’agit d’une noeud le mesure globale de la centralité (dépend de l’ensemble du réseau). plus proche des autres Centralité de degré (degree centrality) : la centralité de degré CD d'un nœud v est égale à son degré. Il s’agit d’une centralité locale (ne dépend que du voisinage immédiat de chaque noeud). Centralité élevée Centralité d'intermédiarité (betweenness centrality) : “fréquence de passage” ; fréquence à laquelle un nœud v se trouve sur le plus court chemin entre deux autres noeuds (indices s et t). Il s’agit d’une mesure globale (dépend de l’ensemble du réseau) Centralité de degré Centralité d'intermédiarité Le centre = v noeud dont on veut calculer la centralité noeud le Centralité plus s, t indices qui énumèrent toutes les paires de noeuds distincts de v élevée connecté σst nombre total de plus courts chemins entre les nœuds s et t σst(v) nombre de ces chemins qui passent par le noeud v Note : dans certains cas il peut y avoir plusieurs chemins de même taille Le centre = noeud entre deux noeuds s et t, dont certains passent par v et d’autres pas Noeuds à le plus traversé centralité élevée Le centre d’un réseau dépend du choix de la mesure de centralité (exemple ci-contre). 39 Propriétés topologiques Coefficient de regroupement (clustering coefficient) : pour un nœud i, le coefficient de regroupement Ci indique la proportion des paires de voisins qui sont également connectées entre elles : Ci = 1 Ci = 0.3 Ci = 0 On appelle clique, ou sous-graphe complet, un sous-graphe dont les Ei = nombre de connexions entre les voisin de i noeuds sont tous directement interconnectés. ki = degré de i (i.e., nombre de voisins de i) Quand Ci = 1, le nœud i et tous ses voisins forment une clique. ki(ki-1)/2 = nombre d’interactions a priori possibles entre ki noeuds Note : l’inverse n’est pas vrai – une clique peut comporter des noeuds de coefficient de clustering inférieur à 1 (exemple ci-dessous). Cette mesure permet d'évaluer la densité locale (i.e., le voisinage Coefficients de clustering et quelques cliques du nœud i) des connexions dans un réseau et d'identifier des ki = 1 → 0 liens possibles groupes de nœuds interconnectés. → Ci = 0 Il est possible d'estimer la densité globale d'un réseau grâce à la moyenne des coefficients de regroupement de tous les nœuds ki = 2 → 1 lien possible (average clustering coefficient) : Ei = 0 → Ci = 0/1 ki = 4 → 6 liens possibles Ei = 3 → Ci = 3/6 = 0.5 ki = 4 → 6 liens possibles Ei = 2 → Ci = 2/6=0.33 ki = 3 → 3 liens possibles Ei = 3 → Ci = 3/3 = 1 40 Annotation par association ( métaphore "coupable par association") L'étude des propriétés topologiques de l'interactome nous permet d'aborder de nombreuses questions biologiques et de formuler des hypothèses concernant les fonctions possibles de protéines. Par exemple, si une protéine de fonction inconnue est observée dans un réseau avec des protéines bien caractérisées (ayant des rôles spécifiques dans le métabolisme, la signalisation, etc.), il est probable qu'elle partage une fonction similaire ou liée. Ce principe peut être utilisé pour identifier des nouvelles protéines potentiellement impliquées dans une maladie : si une protéine d’intérêt interagit avec plusieurs protéines connues pour leur implication dans une maladie spécifique (ex., le cancer du côlon ou maladie de Parkinson), cette protéine pourrait également jouer un rôle dans cette pathologie. Exemple: Dans le réseau montré ici à droite on pourrait inférer la fonctions des protéines 1-5 grâce aux interactions avec des protéines de 7 6 3 Protéines de fonction inconnue fonction connue, en considérant par exemple un seuil de 2 interactions 2 1 4 5 pour assigner une fonction. Cette approche fournirait présente bien Protéines de fonction connue A entendu un certain risque d’erreur, comme toute inférence. Protéines de fonction connue B Dans le cas de la protéine 4, ceci nous amènerait à lui associer une Protéines de fonction connue C double fonction (elle interagit avec 2 protéines de fonction B, et 2 protéines de fonction C). 41 Sous-graphes Un sous-graphe est une partie d’un graphe plus vaste, composée d’un sous-ensemble de nœuds et d’arêtes de ce graphe. Il conserve la structure et les connexions présentes dans le graphe d’origine, mais se limite aux éléments sélectionnés. Dans les réseaux biologiques, les sous-graphes sont généralement nommés sous-réseaux. Les critères pour identifier ou extraire des sous-graphes dans un réseau peuvent inclure : ▪ sélection de nœuds selon des propriétés topologiques spécifiques, tels que le coefficient de regroupement ; ▪ module ou communauté (ensemble de noeuds fortement interconnectés) ; ▪ ensemble de noeuds qui partagent des propriétés biologiques (facteurs transcriptionnels, enzymes, enzymes, protéines participant à un processus biologique particulier, …), et les interactions entre ces noeuds. Par exemple, on pourrait extraire un sous-réseau de l'interactome humain en sélectionnant ▪ comme noeuds, les protéines impliquées dans une pathologie donnée ; ▪ comme arêtes, toutes les interactions entre ce sous-ensemble de protéines. 42 Voisinage d’un noeud Le voisinage d’un noeud d’intérêt est l’ensemble des noeuds qui y sont connectés, en précisant une distance minimale Voisinage de premier ordre : ensemble des premiers voisins, c’est-à-dire les noeuds immédiatement connectés au noeud d’intérêt. Voisinage de deuxième ordre : ensemble des noeuds connectés directement au noeud d’intérêt, ou connectés à ses premiers voisins. Le voisinage d’ordre 2 inclut le voisinage de premier ordre. Voisinage d’ordre n : ensemble des noeuds connectés au noeud d’intérêt via un chemin de maximum n arêtes. Le voisinage d’ordre n inclut tous les voisinages d’ordre inférieur à n. Noeud d’intérêt Voisinage de premier ordre Voisinage de deuxième ordre 43 Hub Random L’organisation à large échelle des réseaux métaboliques Une équipe de chercheurs issus du domaine de la physique statistique analyse la topologie du réseau métabolique, en appliquant des outils précédemment utilisé pour analyser d’autres types de réseaux (internet, trajets des avions, réseaux d’acteurs ayant joué dans les mêmes films,...). Ils mesurent des paramètres de topologie des réseaux, et Deux modèles théoriques alternatifs constatent que le réseau métabolique Distribution de degrés Loi de Poisson Loi de puissance des métabolites 1. Suit une loi de puissance : un grand nombre de métabolites sont faiblement connectés, et quelques uns sont très fortement connectés (les “hubs”). 2. Petit-monde : le nombre moyen de réactions pour convertir un métabolite à un autre est de 3. Ceci est surprenant étant donné la taille du réseau (5000 réactions, 5000 métabolites), mais résulte des hubs, qui font des transitions rapides d’un métabolite à un autre. 3. Invariance d’échelle : les propriétés telles que la taille moyenne des chemins sont robustes aux changements d’ Tolérance à l’erreur Petit monde échelle → si on isole un sous-réseau aléatoire, il aura les Vulnérabilité aux attaques mêmes propriétés que le réseau entier. Par analogie avec les réseaux technologiques (internet), ils infèrent des propriétés de robustesse aux “erreurs” aléatoires (les mutations) mais de vulnérabilité aux attaques ciblées (la perte des hubs désolidarise des grands pans du réseau. Jeong, H., Tombor, B., Albert, R., Oltvai, Z. N. & Barabási, A.-L. The large-scale organization 44 of metabolic networks. Nature 407, 651–654 (2000). https://doi.org/10.1038/35036627 Topologie des réseaux d’interactions protéine-protéine La même équipe analyse avec les mêmes méthodes la topologie du réseau formé par l’interactome. Sur cette figure, les noeuds représentent des protéines et les arêtes des interactions. Ils constatent que le réseau d’interactome comporte quelques noeuds fortement connectés, qu’ils appellent des hubs, par analogie à internet. Ils tirent de ces observations des conclusions générales, par analogie avec leurs analyses préalables des réseaux internet : un réseau informatique présentant des “hubs” de ce type est robuste aux défaillances aléatoires de l’un ou l’autre ordinateur, mais sont particulièrement fragiles à la suppression d’un hub. De fait, ils trouvent que les protéines les plus fortement connectées sont généralement essentielles : les mutations des gènes correspondant aux “hubs” sont généralement létales. Jeong, H., Mason, S. P., Barabási, A.-L. & Oltvai, Z. N. Lethality and centrality in protein 45 networks. Nature 411, 41–42 (2001). doi.org/10.1038/35075138 Biologie des réseaux Sur base de ces résultats, Barabasi et Oltvai proclament que les réseaux moléculaires et cellulaires sont gouvernés par des lois universelles. En 2009, la revue Science consacre un dossier complet à la “science des réseaux”, en mettant en valeur l’universalité des propriétés des réseaux biologiques, sociaux, économiques, techniques, … The web of life Socio-ecological networks Ostrom, E. (2009). A general framework for analyzing sustainability of social-ecological systems. Science 325, 419-22. Barabási, A.-L. & Oltvai, Z. N. Network biology: understanding the cell’s functional organization. Nat Rev Genet 5, 101–113 (2004). doi.org/10.1038/nrg1272 Barabási, A.-L. Scale-Free Networks: A Decade and Beyond. Science 325, 412–413 (2009). 46 From Jeong (2000) Critiques des propriétés “universelles” des réseaux biologiques Name Total Metabolic function (from 71) D-Glucose->R04094->H2O->R02682->Ethanol Critiques statistiques Degree D-Glucose->R00300->NADH->R00754->Ethanol Des ré-analyses statistiques des mêmes données H2O 2213 Hydrolysis, hydration D-Glucose->R00534->H2O->R02359->Ethanol (interactome et réseaux métaboliques) ont démontré que H+ 1269 Proton pumps D-Glucose->R02558->H2O->R02682->Ethanol la loi de puissance ne s’ajuste pas sur les données réelles. Oxygen 860 Electron acceptor NADP+ 724 Coenzyme: Electron acceptor D-Glucose->R00304->H2O->R02359->Ethanol Les articles initiaux avaient “noyé le poisson” en NADPH 721 Coenzyme: Electron donor in D-Glucose->R02558->H2O->R02359->Ethanol regroupant ces données par classes. anabolism D-Glucose->R05142->H2O->R02682->Ethanol La propriété “petit monde” des réseaux métaboliques NAD+ 663 Coenzyme: Electron acceptor in catabolism D-Glucose->R00534->H2O->R02682->Ethanol repose sur un artéfact : les “hubs” sont en fait des NADH 655 Coenzyme: Electron donor D-Glucose->R01444->H2O->R02682->Ethanol molécules telles que l’eau, le proton, l’oxygène etc, qui ne ATP 466 Coenzyme: Energy donor D-Glucose->R04006->H2O->R02359->Ethanol constituent pas des métabolites intermédiaires entre deux CO2 427 Last product of oxidation, precursor réactions. Les chemins “courts” passaient par des of photosynthesis raccourcis en transformant par exemple le glucose en H2O, puis l’H2O en éthanol. Ceci n’a aucune pertinence biochimique. M. P. H. Stumpf and P. J. Ingram (2005). Probability models for degree distributions of protein interaction networks. Europhys. Lett.71:152-158. Lima-Mendez, G. & van Helden, J. The powerful law of the power law and other myths in network biology. Mol. BioSyst. 5, 1482 (2009). 47 Conclusions SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 48 Chapitre # - TITRE La biologie des réseaux L’avènement de plusieurs technologies à haut débit et la collecte d’informations dans de grandes bases de données permettent d’extraire des informations utiles en se basant sur les interactions moléculaires de différents types (transcriptome, interactome, conservation des gènes, appartenance aux mêmes opérons, …). Ces informations peuvent être représentées sous forme de réseaux, ce qui permet de leur appliquer un arsenal de méthodes informatiques et statistiques. Cependant, certaines propriétés soi-disant “universelles” imputées à ces réseaux biologiques (loi de puissance, “petit monde”) reposent essentiellement sur des artéfacts, et sur l’application de méthodes générales, qui se sont avérées inadéquates pour tenir compte des propriétés des réseaux biologiques. Pour pouvoir extraire des informations pertinentes de ces réseaux, il est essentiel de combiner une bonne connaissance des méthodes mathématiques et informatiques d’analyse des graphes avec une bonne compréhension des données biologiques représentées. Ceci permet par exemple d’identifier des modules fortement connectés, et de mieux comprendre le fonctionnement des réseaux d’interactions moléculaires. 49 L’intégration des données diverses Les réseaux moléculaires ne peuvent Aspartate L-Aspartate biosynthesis se comprendre que si l’on intègre les ATP aspartate kinase II/ 2.7.2.4 metL différents types de données. Par ADP homoserine dehydrogenase II exemple, pour comprendre le L-aspartyl-4-P métabolisme d’un acide aminé, il NADPH 1.2.1.11 Aspartate semialdehyde asd NADP+; Pi deshydrogenase faut intégrer les données Lysine L-aspartic semialdehyde métaboliques (molécules, réactions, biosynthesis NADPH 1.1.1.3 catalyses enzymatiques) la NADP+ Threonine L-Homoserine régulation (transcriptionnelle, biosynthesis SuccinylSCoA Homoserine Methionine allostérique), le transport, et les 2.3.1.46 metA metJ HSCoA O-succinyltransferase repressor autres voies métaboliques qui y sont connectées. Alpha-succinyl-L-Homoserine Cysteine L-Cysteine biosynthesis 4.2.99.9 Cystathionine-gamma-synthase metB Succinate Cystathionine H2O Cystathionine-beta-lyase metC 4.4.1.8 Pyruvate; NH4+ Homocysteine Cobalamin-independent- metE 5-MethylTHF 2.1.1.14 homocysteine transmethylase metR metR THF 2.1.1.13 Cobalamin-dependent- metH homocysteine transmethylase L-Methionine ATP; H2O S-adenosylmethionine 2.5.1.6 metK Pi + PPi synthetase S-Adenosyl-L-Methionine (SAM) 50 La segmentation de la drosophile Un autre exemple est la régulation du développement Adapted from Carroll, 2006 embryonnaire, qui a été étudié depuis des décennies chez la drosophile. La formation des segments repose sur un réseau de régulation transcriptionnelle remarquablement complexe. bcd nos Au départ, deux ARN sont déposés aux extrémités antérieure (bicoid) et postérieure (nanos) de l’embryon. Ces ARN codent Kruppel Giant pour des facteurs transcriptionnels qui activent ou inhibent d’autres facteurs transcriptionnels (Kruppel, Giant), lesquels activent ou inhibent à leur tour d’autres facteurs (Hairy, even-skipped) etc. Source: Carroll, 2005. Source: Thieffry and Sanchez (2003). http://flyex.ams.sunysb.edu/. On arrive ainsi progressivement à délimiter des bandes Hairy eve d’expression qui détermineront la formation des segments de la larve, puis de la mouche adulte. Source: Carroll, 2005. Source: Thieffry and Sanchez (2003). http://flyex.ams.sunysb.edu/. Source: Lawrence (1993). The making of a fly Carroll, 2005. From DNA to diversity (2nd edition). Blackwell Publishing. 51 Source: Lawrence (1993). The making of a fly La segmentation de la drosophile On a caractérisé de façon très détaillé le réseau d’interaction entre facteurs transcriptionnels responsable de la formation progressive des segments antéro-postérieurs de la drosophile. Des travaux de modélisation mathématique ont permis de montrer la façon dont ce réseau, extrêmement intriqué, peut expliquer les phénotypes des différents mutants, et par là de comprendre les mécanismes sous-jacents à la formation de l’embryon normal. Source: Carroll, 2005. From DNA to diversity (2nd edition). Blackwell Publishing. Carroll, 2005. From DNA to diversity (2nd edition). Blackwell Publishing. 52 Réseaux de régulation du développement embryonnaire Exemple: le gène even-skipped est exprimé dans 7 bandes antéro-postérieures délimitées de façon extrêmement précise. Chacune de ces bandes est contrôlée par une combinaison d’autres facteurs transcriptionnels (Krüppel, Bicoid, Giant, Hunchback, …) qui interagissent en se liant dans des régions non-codantes en amont du gène even-skipped, et dans ses introns. Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts, and Peter 53 Walter. Molecular Biology of the Cell (2002). Quelques remarques et points de réflexion Les réseaux sont devenus omniprésents en biologie, pour représenter et analyser les données massives de différents types Ces données nous apportent un éclairage sur les composantes des systèmes biologiques ○ Génomes ○ Transcriptomes ○ Protéomes ○ Interactomes ○ Réseaux de régulation ○ Réseaux métaboliques Les données massives et l’énumération des composantes ne suffisent cependant pas à les rendre informatives. On commence à faire de la science à partir des données quant on arrive à en extraire l’information pertinente pour comprendre les mécanismes du vivant : développement des organismes, adaptation à l’environnement, évolution, … René Magritte’s picture “La clairvoyance” (The foresight), used by Alain Ghysen as front picture for a special issue on Developmental Biology in Belgium. 54

Use Quizgecko on...
Browser
Browser