Introduction à la bioinformatique (SSV3U15) 2024 PDF
Document Details
Uploaded by CohesiveCalifornium
Aix-Marseille Université
2024
SSV3U15
Jacques van Helden
Tags
Summary
This document is a course presentation for 'Introduction à la bioinformatique'. It covers topics including biology and massive data, historical milestones, course organization, and relevant course content. It seems to have been designed for an undergraduate bioinformatics course at Aix-Marseille Université.
Full Transcript
Introduction à la bioinformatique (SSV3U15) Chapitre 1. Présentation du cours Jacques van Helden (Aix-Marseille Université) ORCID 0000-0002-8799-8584 SSV3U15 – Introduction à la bioinformatique (Jacques van Helden)...
Introduction à la bioinformatique (SSV3U15) Chapitre 1. Présentation du cours Jacques van Helden (Aix-Marseille Université) ORCID 0000-0002-8799-8584 SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 1 Chapitre 1 - Présentation du cours Equipe pédagogique de l’UE (2024-2025) Jacques van Helden Bénédicte Wirth Emese Meglecz Aitor Gonzalez Andreas Zanzoni Responsable UE Responsable site Aix Responsable site Saint-Charles Responsable site Luminy Yvan Perez Alexandre Lutz Juliette Patricio Gael Chambonnier Loréna Quatreville Contenu de ce chapitre 1. Biologie et données massives 2. Quelques jalons historiques : données, modèles et découvertes en biologie 3. Organisation du cours 4. Réponses aux questions du sondage 3 La biologie, une science des données Un changement d’échelle Biologie et numérique ▪ Au tournant du 20è au 21è siècle, la biologie s’est ▪ Pour donner du sens à ces données, il faut combiner orientée vers une science qui s’appuie sur des les concepts biologiques aux outils informatiques, données de plus en plus massives. mathématiques, statistiques, et mobiliser des moyens ▪ Types de données importants de calcul et de stockage des données. ▪ De séquençage ▪ Exemples de domaines d’application ▪ Protéomiques (quantification des protéines) ▪ Génomique ▪ Métabolomiques (quantification des petites ▪ Biologie évolutive molécules) ▪ Médecine personnalisée ▪ Structure tridimensionnelle des protéines ▪ Biodiversité et environnement ▪ Images ▪ Approches intégrative ‘One Health” ▪ Phénotypiques (agriculture) ▪ … en gros, tous les domaines de recherche et ▪ De santé (médecine) applications de la biologie ▪ … SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 4 Chapitre 1 - Présentation du cours Quelques jalons historiques : données, modèles et découvertes en biologie SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 5 Chapitre 1 - Présentation du cours Quelques jalons historiques: données, modèles et découvertes en biologie Les diapo suivantes présentent quelques jalons historiques de la biologie, en montrant son évolution vers une science qui s’appuie largement sur les données. Nous faisons ici un rapide tour d’horizon, et nous reviendrons sur les exemples de façon plus approfondie lors des prochaines séances. Ne vous inquiétez donc pas si les détails ne sont pas présentés, il ne s’agit que d’un “teaser” des épisodes suivants, où les explications seront fournies. SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 6 Chapitre 1 - Présentation du cours Des petits pois aux gènes — quelques jalons temporaires 1866 : premières lois de l’hérédité (Mendel) L’importance des nombres en biologie n’est pas nouvelle 1901 : redécouverte des lois de Mendel En 1866, Gregor Mendel publie un volumineux article dans lequel il décrit en détail les résultats de ses expériences de croisements entre différentes variétés de pois. Au fil des générations, il dénombre les individus présentant diverses combinaisons de caractères. En analysant ces données, il identifie des régularités numériques et en dérive trois lois permettant de prédire les fréquences des caractères qualitatifs au fil des générations: 1. Loi d’uniformité des caractères à la première génération. 2. Loi de ségrégation des caractères (illustration). 3. Loi d’indépendance des caractères. Cette publication, aujourd'hui considérée comme pionnière, passe totalement inaperçue à son époque. Les lois de Mendel seront redécouvertes en 1901, indépendamment, par trois groupes de chercheurs. Il s'agit sans doute de la première découverte en biologie reposant sur la modélisation mathématique de données expérimentales quantitatives. Mendel, G. (1866). Experiments in plant hybridisation.(Reprinted 1965, English translation and footnotes by W. Bateson, Cambridge, MA. 7 Des petits pois aux gènes — quelques jalons temporaires Image cristallographique l’ADN, par diffraction de rayons X 1866 : premières lois de l’hérédité (Mendel) (R.E. Franklin and R. Gosling, 1953) 1901 : redécouverte des lois de Mendel 1910-1915: les chromosomes sont le support de l’hérédité (Morgan) 1944: l’ADN est le support de l’hérédité (Avery) 1953 : structure de l’ADN, la double hélice (Watson & Crick; Franklin & Gosling) Modèle de la structure de l’ADN (Watson and Crick, 1953b) Franklin,R.E. and Gosling,R.G. (1953) Molecular configuration in sodium thymonucleate. doi.org/10.1038/171740a0 WATSON,J.D. and CRICK,F.H. (1953a) The structure of DNA. Cold Spring Harb Symp Quant Biol, 18, 123–131.doi.org/10.1101/sqb.1953.018.01.020 Watson,J. and Crick,F. (1953b) Molecular structure of nucleic acids; a structure for deoxyribose nucleic acid. Nature, 171, 737–738. doi.org/10.1038/171737a0 WATSON,J.D. and CRICK,F.H. (1953c) Genetical implications of the structure of deoxyribonucleic acid. Nature, 171, 964–967. doi.org/10.1038/171964b0 8 Des petits pois aux gènes — quelques jalons temporaires 1866 : premières lois de l’hérédité (Mendel) Structure de la myoglobine de cachalot (Kendrew, 1958) 1901 : redécouverte des lois de Mendel 1910-1915: les chromosomes sont le support de l’hérédité (Morgan) 1944: l’ADN est le support de l’hérédité (Avery) 1953 : structure de l’ADN, la double hélice (Watson & Crick; Franklin) 1952-1957 : premières structures de protéines (Kendrew, Perutz) ○ Les figures montrent les photos de modèles tridimensionnels qui illustraient les publications originales. ○ Pendant les cours et TP, nous présenterons les Structure de l’hémoglobine (Perutz, 1960) approches bioinformatiques d’analyse et de visualisation des structures de protéines. 1. Kendrew, J. C. et al. A Three-Dimensional Model of the Myoglobin Molecule Obtained by X-Ray Analysis. Nature 181, 662–666 (1958). 2. Perutz, M. F. et al. Structure of haemoglobin: a three-dimensional Fourier synthesis at 5.5-A. resolution, obtained by X-ray analysis. Nature 185, 416–422 (1960). https://www.nobelprize.org/prizes/chemistry/1962/summary/ 9 Des petits pois aux gènes — quelques jalons temporaires 1866 : premières lois de l’hérédité (Mendel) 1901 : redécouverte des lois de Mendel 1910-1915: les chromosomes sont le support de l’hérédité (Morgan) 1944: l’ADN est le support de l’hérédité (Avery) 1953 : structure de l’ADN, la double hélice (Watson & Crick; Franklin) 1952-1957 : premières structures de protéines The Nobel Prize in Physiology or Medicine 1968 was (Kendrew, Perutz) awarded jointly to Robert W. 1961: découverte du code génétique (Nirenberg, Holley, Har Gobind Khorana Matthaei) and Marshall W. Nirenberg "for their interpretation of the genetic code and its function in protein synthesis" Exemples de lecture du tableau CAU → Arginine CCU → Proline ATG → méthionine (également codon start le plus fréquent) UAA, UAG ou UGA -> codons stop https://www.nobelprize.org/prizes/medicine/1968/summary/ 10 Des petits pois aux gènes — quelques jalons temporaires 1866 : premières lois de l’hérédité (Mendel) 1901 : redécouverte des lois de Mendel 1910-1915: les chromosomes sont le support de l’hérédité (Morgan) 1944: l’ADN est le support de l’hérédité (Avery) 1953 : structure de l’ADN, la double hélice (Watson & Crick; Franklin) 1952-1957 : premières structures de protéines (Kendrew, Perutz) 1961: découverte du code génétique (Nirenberg, Matthaei) 1977: méthode de séquençage de l’ADN (Sanger) Note: Frederick Sanger a obtenu 2 prix Nobel ○ 1958 pour son travail sur la structure de l’insuline ○ 1977, Gilbert & Sanger pour “leur contribution à la détermination de la séquence des bases des acides nucléiques” Frederick Sanger Sanger, F., Nicklen, S. & Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A 74, 5463–5467 (1977). https://www.nobelprize.org/prizes/chemistry/1980/summary/ https://www.nobelprize.org/prizes/chemistry/1958/summary/ 11 Du siècle du gène au siècle du génome (entre autres) Dans son ouvrage « Le siècle du gène », l’historienne des sciences Evelyn Fox-Keller retrace l’histoire de la découverte des gènes, de leur fonction, des mécanismes moléculaires. Elle termine le livre en soulignant que le 21ème siècle sera le siècle du génome. Effectivement, depuis la fin des années 1990 une série de projets de séquençage ont été initiés, qui ont suscité un changement drastique de l’ensemble des approches en biologie. 12 Du gène au génome 1990-2000 : premiers projets de séquençage du Taille du Nombre génome d’organismes modèles: bactéries, levure du Nom d'espèce Nom commun Année génome de gènes Mb boulanger, drosophile, nématode, arabette, et … “le” Bactérie génome humain Mycoplasma genitalium Mycoplasma 1995 0,6 481 Haemophilus influenzae Bacille de Pfeiffer 1995 1,8 1 717 Escherichia coli Entérobactérie 1997 4,6 4 289 Levures Saccharomyces cerevisiae Levure du boulanger 1996 12 6 286 Animaux Caenorhabditis elegans Ver nématode 1998 97 19 000 Drosophila melanogaster Mouche à vinaigre 2000 165 16 000 Danio rerio Poisson zèbre 1 527 18 957 Xenopus laevis Xénope (amphibien) 1 511 18 023 Gallus gallus Poule 2 961 16 736 Ornithorhynchus anatinus Ornithorynque 1 918 17 951 Mus musculus Souris 2002 3 421 23 493 Pan troglodytes Chimpanzé 2 929 20 829 Homo sapiens Humain 2001 3 200 21 528 Plantes Arabidopsis thaliana Arabette 2001 120 27 000 Oryza sativa Riz 390 37 544 Zea mais Maïs 2 500 50 000 Triticum aestivum Blé 16 000 Lilium Lys 120 000 Psilotum nudum 250 000 13 Du gène au génome 1990-2000 : premiers projets de séquençage du génome d’organismes modèles: bactéries, levure du boulanger, drosophile, nématode, arabette, et … “le” génome humain 2001 : première publication d’un génome humain ○ Version “brouillon”: 2001 (bonne couverture mais trous de séquençage) ○ Version parachevée: 2004 14 La loi de Moore Observation empirique : à coût constant les capacités des ordinateurs double tous les deux ans. Graphique: nombre de transistors (ordonnée) en fonction du temps (abscisse) de 1970 à 2020. ○ L’échelle verticale est logarithmique, la progression est donc exponentielle : à intervalles de temps constant (X), les valeurs sont multipliées par un facteur constant. ○ Le nombre de transistors passe de ~2.000 en 1970 à ~40.000.000.000 en 2000 → la capacité des ordinateurs est 20 millions de fois plus élevée. https://en.wikipedia.org/wiki/Moore%27s_law 15 Du gène au génome 1990-2000 : premiers projets de séquençage du génome d’organismes modèles: bactéries, levure du boulanger, drosophile, nématode, arabette, et … “le” génome humain 2001 : première publication d’un génome humain 2007 : technologies de séquençage massivement parallèle (“Next Generation Sequencing”, NGS) ○ De 2001 à 2007: les coûts diminuent en suivant la loi de Moore (décroissance exponentielle) ○ 2008; diminution brutale des coûts du séquençage ○ Depuis 2011: réduction plus modérée des coûts Wetterstrand KA. DNA Sequencing Costs: Data from the NHGRI Genome Sequencing Program (GSP) Available at: www.genome.gov/sequencingcostsdata. Accessed 2024-09-04. https://www.genome.gov/about-genomics/fact-sheets/DNA-Sequencing-Costs-Data 16 Disponibilité des séquences d’ADN Les séquences de macromolécules qui font l’objet de Séquençage publications scientifiques sont systématiquement génomique déposées dans des entrepôts de données complet internationaux, et rendues accessibles au public Genbank ○ Une exception: les séquences génomiques associées à des échantillons humains (voir cours sur la médecine génomique) Le nombre de séquences disponibles depuis 1980 montre une croissance exponentielle (linéaire sur un axe logarithmique). ○ Taux d’augmentation: de 1990 à 2020, x 1.48/an Avant 2002, il s’agissait de séquences individuelles de gènes ou de fragments génomiques (courbe bleue, Genbank). A partir de 2002, le séquençage de génomes complets prend le pas (courbe rouge). https://www.ncbi.nlm.nih.gov/genbank/statistics/ 17 “Le” génome humain 1990-2000 : premiers projets de séquençage du génome d’organismes modèles: bactéries, levure du boulanger, drosophile, nématode, arabette, et … “le” génome humain 2001 : première publication d’un génome humain 2007 : technologies de séquençage massivement parallèle (“Next Generation Sequencing”, NGS) 2001: premier génome humain de référence, version “brouillon” 2004: version “propre” du premier génome humain de référence Coût de séquençage d’un génome humain ○ Le premier génome humain (2001): ~3 milliards US $ ○ 2006 (avant le NGS): 16 millions US $ ○ 2016 (après le NGS) : 1.500 US $ https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost 18 Du génome aux 1.000 génomes 1990-2000 : premiers projets de séquençage du génome d’organismes modèles: bactéries, levure du boulanger, drosophile, nématode, arabette, et … “le” génome humain 2001 : première publication d’un génome humain 2007 : technologies de séquençage massivement parallèle (“Next Generation Sequencing”, NGS) 2001: premier génome humain, version “brouillon” 2004: premier génome humain, version “propre” 2008: projet 1.000 génomes (humains) ○ But: caractériser la diversité génotypique dans les populations humaines 1. The 1000 Genomes Project Consortium et al. A global reference for human genetic variation. Nature 526, 68–74 (2015). doi.org/10.1038/nature15393 19 Du génome aux millions de génomes 1990-2000 : premiers projets de séquençage du génome d’organismes modèles: bactéries, levure du boulanger, drosophile, nématode, arabette, et … “le” génome humain 2001 : première publication d’un génome humain 2007 : technologies de séquençage massivement parallèle (“Next Generation Sequencing”, NGS) 2001: premier génome humain, version “brouillon” 2004: premier génome humain, version “propre” 2008: projet 1.000 génomes (humains) ○ But: caractériser la diversité génotypique 2018: projet EU 1.000.000 génomes (1+MG) ○ But: découvrir les mutations associées aux maladies rares et au cancer ○ Note: la France était “partenaire observateur” en 2018, et est devenu partenaire en novembre 2022 Initiatives similaires dans d’autres régions du monde. https://digital-strategy.ec.europa.eu/en/policies/1-million-genomes 20 De la génomique à la génomique fonctionnelle Le séquençage ne constitue qu'une toute première étape pour l'analyse des génomes. Au terme d'un projet de séquençage, on obtient un "texte" formé des 4 lettres A, C, G, T (une par nucléotide), et il reste un énorme travail de décryptage pour pouvoir interpréter ce texte. L'exemple ci-dessous montre un fragment de 1000 nucléotides du génome humain.....CGATGCTCAAACATTTCAATTTTTTAGGTCAAAAATGCCTTAGGTTTAGCACAGCAATGTAGGTGCCAAACTC ATCGCAGTGAATTGCAGGCGGGAGCAACAAGGACGCCTGCCTCCTTTCTGCCTGCTTTTTGCAATAGTCCGATTTGA GAAGGGGACCCACGAGAGACACAAAATGCACGCCCCCACGCCACATCCTTTTTACCCCGCAATGGGTTAAGACTGTC AACAGGCAGGCCACCTCGCAGCGTCCGCGGAGTTGCAGGCCCGCCCCCGCCAGGGTGTGGCGCTGTCCCCCTGGCGC TGGGCGGGGGAGGAGGGGCGCGCGGCGGCCGAGGAGGGGCGCGCGGCGGCCGGGCGGGGCGAGCGGAGGCGAGTGGA GGACGCGTAGACGCGCCGCGGTCCCCGCCTGCCGCTGCTCCGCCGCAGTCGCCGCTCCAGTCTATCCGGCACTAGGA ACAGCCCCGAGCGGCGAGACGGTCCCCGCCATGTCTGCGGCCATGAGGGAGAGGTTCGACCGGTTCCTGCACGAGAA GAACTGCATGACTGACCTTCTGGCCAAGCTCGAGGCCAAAACCGGCGTGAACAGGAGCTTCATCGCTCTTGGTGGGT GGCCGGGGGTCGCCGCCGCTGGTAGGGCCACGGGAGCCGCCGCTGCCCCAGCTGCTGGGGAAGGAAGCAGGGAGAGG ACTCGGGAAAGGTGGAGTCGGAGACAGACGGGACAAGCAGCATATTCAGGGATCAGGCTGGCCTCCCGGAAAGCGTG GGCATCGGAGGACCCCGCGGGGGCTGCCCAGGCTGAGGGTCGCGGGGCTGGAGGGCAGCTGCGGCGCCGGGCGCTGG CAGCTGGAAGGGCCAGCGCTGACGTATGTCTGCCCCGCGGCCCGGCGCCCTATTCCTGCTGTCCTGCGCGGTGGGCG CGGACGGCGGGGCCCCTGCGGGCGGGCGCGTTGACGGAGGTACCCGGTCCTACCCGACCCTCCGTGGAGCTCCGCCC GGAG.... Le génome complet comporte 3 milliards de nucléotides, 3 millions de fois plus grand. Les premières questions qui se posent au terme du séquençage = 1. Où sont localisés les gènes ? 2. Quelle est la fonction de ces gènes ? 21 Des génomes aux transcriptomes Chez tous les êtres vivants l’expression des gènes fait l’objet La première biopuce transcriptomique (de Risi et al., 1997). Chacun des d’un contrôle moléculaire à différents niveaux: transcription, 6000 points lumineux correspond à un transcrit (ARN) de la levure du boulanger, Saccharomyces cerevisiae. maturation de l’ARN, traduction, post-traduction. ▪ L’intensité lumineuse est proportionnelle au niveau Une indication importante concernant la fonction des gènes d’expression est de savoir dans quelles conditions ils sont exprimés. ▪ La couleur indique le sens de la régulation ▪ Microbes: substrats disponibles, conditions ▪ Rouge: gènes sur-exprimés par rapport à l’échantillon témoin ▪ Vert: gènes sous-exprimés environnementales, … Jaune: gènes ▪ DeRisi et al.fortement exprimés dans les deux échantillons. (1997), 10.1126/science.278.5338.680 ▪ Multicellulaires: spécificité tissulaire, stades du développement, réponse aux conditions internes et externe de l’organisme La transcriptomique consiste à mesurer simultanément l’expression de tous les gènes d’un échantillon prélevé sur un organisme dans des conditions particulières. ▪ 1997: premières approches de transcriptomiques par biopuces ▪ 2007: transcriptomique par séquençage massivement parallèle (RNA-seq) DeRisi, J. L., Iyer, V. R. & Brown, P. O. (1997). Exploring the metabolic and genetic control of gene expression on a genomic scale. Science 278, 680-6. doi.org/10.1126/science.278.5338.680 22 Dis-moi dans quels tissus tu t’exprimes, je te dirai qui tu es Le projet GTEX (Adult Genotype Expression) Sang Collecte d’échantillons de 54 tissus chez 1000 individus Extraction de l’ARN Séquençage et quantification dans chaque tissu Gène HBA (chaîne alpha de l’hémoglobine) (RNA-seq) Muscle squelettique Exemples ci-contre: profils tissulaires d’expression pour quelques gènes illustratifs Gène MYH1 (myoglobine) Vessie Muqueuse de l’oesophage Ovaire Rate Peau Intestin HOX1A (gène de spécification segmentaire) Colon Intestin Rein grêle https://www.gtexportal.org/home/ 23 HOXB9 (gène de spécification segmentaire) Des génomes aux protéomes Les effecteurs de la plupart des fonctions biologiques sont les protéines. Les quantités de transcrits (ARN) ne sont qu’une indication approximative du niveau d’activité d’un gène dans une cellule, pour différentes raisons Régulation post-transcriptionnelle Régulation post-traductionnelle Dès le milieu des années 1990, les biochimistes mettent au point des méthodes basées sur la spectrométrie de masse pour quantifier chaque protéine dans un échantillon, qui donnent naissance à la protéomique (caractérisation à large Patterson et al. (2003). doi.org/10.1038/ng1106 échelle des protéines présentes dans un échantillon). Patterson, S. D. & Aebersold, R. H. Proteomics: the first decade and beyond. Nat Genet 33, 311–323 (2003). doi.org/10.1038/ng1106 24 Des protéomes aux interactomes Une protéine n’agit généralement pas seule: les protéines interagissent De façon stable, en formant des complexes multimériques (plusieurs polypeptides) De façon transitoire, en établissant des liaisons temporaires qui modifient leur niveau d’activité Au début des années 2000, plusieurs méthodes sont mises au point pour déterminer l’interactome, c’est-à-dire l’ensemble des interactions entre protéines d’un système biologique (organisme, tissu, échantillon). 1. Gavin, A.-C. et al. Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature 415, 141–147 (2002). doi.org/10.1038/415141a 25 Le labyrinthe métabolique Depuis plus d’un siècle, les biochimistes ont décrit les réactions chimiques qui permettent aux cellules de métaboliser les petites molécule, de consommer différents substrats et de produire des molécules nécessaires à leur survie. La plupart des réactions cellulaires sont catalysées par des protéines spécialisées, les enzymes. Plusieurs bases de données répertorient l’ensemble des réactions et enzymes connues. La carte métabolique (à droite) fournit une représentation simplifiée de l’intrication du réseau formé par l’ensemble des réactions de la base de données de voies métaboliques KEGG. https://www.genome.jp/kegg-bin/show_pathway?map01100 https://www.genome.jp/pathway/map00020+M00009 26 Des génomes aux métagénomes La métagénomique consiste à séquencer des échantillons provenant de divers milieux (océans, flore intestinale, …) pour échantillonner les espèces vivantes dans leur milieu naturel. « Génomique classique », on isole une espèce microbienne, on la met en culture, et on séquence ensuite son génome (si la culture fonctionne). « Métagénomique », on séquence directement tout l’ADN extrait de l’écosystème. On peut ensuite identifier les espèces présentes, caractériser leur abondance, découvrir de nouvelles protéines, Exemples ○ Métagénomique océanique : l’expédition TARA a échantillonné de la biodiversité dans les eaux océaniques de 2010 à 2012. ○ Microbiote intestinal : séquençage de tout l’ADN d’un échantillon fécal, et caractérisation de la flore bactérienne et virale, établissement des liens avec la santé et l’alimentation. ○ Diversité microbienne dans les fromages AOP. ○ … http://oceans.taraexpeditions.org/ https://www.inrae.fr/actualites/fromages-laits-aop-analyse-grande-ampleur-revele-leur-d iversite-microbienne 27 Biologie et santé Des grands projets nationaux et internationaux visent à collecter des données médicales à des fins de recherche (découverte des facteurs influençant la santé), de prévention et de soin. Ces projets combinent différents types de données Génomes des patients Génomes microbiens Métabolites (petites molécules) Imagerie médicale Données de soin Données d’environnement, … Quelques exemples The Cancer Genome Atlas (2005-2018): détection de mutations associées à différents types de cancers Études d’associations à l'échelle génomique ○ Une des premières études remarquables : régions génomiques associées à 7 maladies (TWTCCC 2007): 2000 patients pour chaque maladie + 3000 contrôles (figure à droite) ○ Septembre 2024 : >47.000 publications “genome-wide association studies” The Wellcome Trust Case Control Consortium et al. Genome-wide association study of doi.org/10.1038/nature05911 14,000 cases of seven common diseases and 3,000 shared controls. Nature 447, 661–678 (2007). doi.org/10.1038/nature05911 28 Une vision holistique des systèmes biologiques Les cellules vivantes sont des systèmes complexes ADN dont le fonctionnement repose sur l’action Transcription coordonnée de milliers de molécules. Depuis le début du 20è siècle, des technologies à haut ARN Régulation débit ont été développées pour mesurer la quantité et Traduction l’activité de ces molécules de façon systématique : Polypeptides génome, transcriptome, protéome, interactome, Reploiement métabolome, … Protéines (structure 3D) Ces approches holistiques font désormais partie Interactions intrinsèque de la façon dont les biologistes analysent Complexes protéiques les systèmes vivants. Elles ouvrent également le champ à de nombreuses applications, dans les domaines de la médecine, des biotechnologies, de l’agriculture, de l’environnement. Transport Catalyse Interactions Métabolites Signalisation 29 Les défis de la biologie à l’ère des données massives La biologie contemporaine couvre les mêmes Défis numériques problématiques et questions que celle du 20è siècle, mais ▪ Stockage des données en croissance exponentielle elle les aborde de façon holistique, en s’appuyant sur des ▪ Puissance de calcul technologies productrices de données massives. ▪ Efficacité algorithmique ▪ Intelligence artificielle Défis scientifiques ▪ Modélisation des objets biologique ▪ Extraction de l’information pertinente dans un océan de donnés (rôle crucial des statistiques) ▪ Représentation des connaissances (bases de données, visualisation) Défis sociétaux ▪ Choix politiques concernant les applications, pour qu’elles soient au bénéfice de l’humain et de l’environnement ▪ Impact environnemental des moyens numériques ▪ Protection des données à caractère personnel SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 30 Chapitre 1 - Présentation du cours La bioinformatique, qu’est-ce que c’est ? Les définitions varient fortement selon les sources, souvent Quelques remarques concernant ces définitions. influencées par le point de vue de la personne qui définit La première focalise sur les données, la seconde sur les (son domaine de recherche, d’intérêt). méthodes et outils. Quelques définitions assez consensuelles La première est trop restrictive: la bioinformatique ne se ▪ In general terms, the application of computers and limite pas à l’application de méthodes de calcul à des computational techniques to biological data. [...] données. Elle inclut notamment Bioinformatics can be seen as a synonym for ▪ La modélisation statistique des données Computational Biology. (J. M. Hancock, in Concise ▪ La modélisation mathématique des systèmes Encyclopaedia of Bioinformatics) biologiques ▪ An interdisciplinary field of science that develops ▪ Le développement d’outils logiciels pour répondre methods and software tools for understanding aux questions biologiques. biological data, especially when the data sets are ▪ Le développement de bases de données large and complex. Bioinformatics uses biology, ▪ L’annotation (“curation”) des données par des experts, chemistry, physics, computer science, computer pour produire des bases de connaissances. programming, information engineering, mathematics La seconde définition établit une distinction entre and statistics to analyze and interpret biological data. “bioinformatics” and “computational biology”, mais cette The subsequent process of analyzing and interpreting séparation est arbitraire et non-consensuelle. data is referred to as computational biology. (en.wikipedia.org) Concise encyclopaedia of bioinformatics and computational biology. (Wiley Blackwell, 2014). ISBN: 978-0-470 31 Organisation du cours SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 32 Chapitre 1 - Présentation du cours Plan du cours CM (7 x 2h) TP (8x2h) ▪ Panorama des principales approches ▪ Sur ordinateur bioinformatiques et de leurs applications à différents ▪ Utilisation des outils bioinformatiques conviviaux pour domaines de la biologie analyser des données de différents types (séquences ▪ Accent sur l'apport des des données massives pour la macromoléculaires , génomes, structures, réseaux compréhension des mécanismes du vivant. biologiques). ▪ Exemples d’application à différents domaines de la ▪ Aucun compétence prérequise en informatique biologie, en particulier évolution, santé, biodiversité. Séances de TP Chapitres des CM 1. Séquence, structure, fonction 1. Introduction 2. Du gène à la protéine 2. Séquence → structure → fonction des protéines 3. Du gène au génome et au protéome 3. Des gènes aux génomes 4. Alignements par paires et alignements multiples 4. Retracer l’évolution à partir des séquences 5. Inférence phylogénétique 5. Génomique personnelle 6. Variants génétiques 6. Exploration de la biodiversité 7. Systèmes et réseaux biologiques 8. Récapitulation, questions / réponses 7. Réseaux et systèmes biologiques 8. L'information au coeur du vivant SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 33 Chapitre 1 - Présentation du cours Acquis d’apprentissages / objectifs d’UE (d’après les définitions des compétences de la licence SV) 1.1 Connaître les concepts de la biologie au niveau 1.6 Acquérir et mobiliser les connaissances de base des moléculaire (Structure, fonction des biomolécules, Flux disciplines connexes aux sciences du vivant pour d'information génétique) analyser des résultats biologiques (Probabilités et 1.2 Connaître les concepts de la biologie au niveau cellulaire statistiques) (Organisation et fonctionnement des génomes, 1.7 Connaître et mobiliser les méthodologies et génomique) technologies de la biologie (Outils et méthodes 1.4 Intégrer les différents niveaux d'organisation du vivant bioinformatiques, Organismes et systèmes modèles, (Diversité et unicité du vivant, Organisation et Principales techniques à haut débit: génomique, fonctionnement de réseaux biologiques, Grands transcriptomique, protéomique) principes de l’analyse génomique et in silico des 1.8 Identifier les enjeux éthiques, environnementaux et séquences, Spécificité et complexité des systèmes sociétaux liés à l'application de la biologie (Enjeux biologiques) éthiques et sociétaux de la biologie pour la recherche et 1.5 Situer les connaissances actuelles en biologie dans le la santé, Environnement et écologie) contexte de l'évolution des questions, concepts et 2.6 Choisir et utiliser des outils d’analyse et de traitement théories (Grands jalons de l'histoire de la biologie) des données dans différents domaines de la biologie (Analyse statistique, Probabilités, outils bioinformatiques) SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 34 Chapitre 1 - Présentation du cours Modalités de contrôle des connaissances Critères d’évaluation Première session ▪ Acquisition des concepts de bioinformatique ▪ QCM hors séance (20%) ▪ Compréhension du rôle des données massives et de la ▪ A réaliser en cours de semestre, en dehors des bioinformatique dans différents domaines de la séances de CM et TP biologie (santé humaine, biodiversité) ▪ Questionnaires communiqués au fil de l’eau durant ▪ Compréhension des outils bioinformatiques utilisés le cours pendant les TP et interprétation des résultats ▪ But: auto-évaluation et entraînement au QCM final ▪ Note d’assiduité: points attribués en fonction du La présence aux TP est obligatoire taux de réponse plutôt que de leur correction ▪ Examen terminal (80%) ▪ Une marge de 20% d’absence est tolérée ▪ Sur table en QCM ▪ Au-delà de ce seuil, absence injustifiée (ABI) pour l’UE ▪ Inclura des questions de cours et des questions de dans son ensemble → passage en deuxième session TP Seconde session ▪ Examen sur table en QCM ▪ Pondération: pour chaque étudiant, la note finale sera la note maximale entre deux formules ▪ 20%CC + 80% examen de seconde session ▪ 100% examen de seconde session 35 Des questions ? SSV3U15 – Introduction à la bioinformatique (Jacques van Helden) 36 Chapitre 1 - Présentation du cours Foire aux questions (réponses de l’enseignant aux questions posées lors du sondage de fin de séance) Modalités de contrôle des connaissances Supports de cours Les QCM sont durs ? Les diapo seront-elles mises en ligne ? ○ Nous veillerons à ce qu’ils aient un niveau de difficulté adéquat ○ Oui, dans la mesure du possible avant le cours, et sinon juste après pour les étudiants. Le but est d’évaluer votre acquisition des connaissances et compétences associées aux cours, et pas de Autres questions vous mettre en difficulté. Peut-on s’entraîner chez nous ? Le QCM comportera-t-il des points négatifs ? ○ Oui, et nous vous y encourageons. Tous les outils logiciels utilisés ○ En cours d’évaluation par l’équipe pédagogique aux TP sont accessibles en ligne gratuitement Cette séance d’introduction fait-elle partie de la matière d’examen ? Pour les statistiques, est-ce que nous allons avoir des cours de math ? ○ Oui, ainsi que toutes les séances de CM et de TP ○ Il n’y a pas de cours de statistique en L2 ou L3 SV AMU, mais les TP Faut-il retenir les dates ? intégrés du second semestre incluront une prise en main des outils ○ Non, mais vous devez avoir une idée approximative (décennie) des statistiques pour analyser vos données expérimentale grands jalons de l’histoire de la biologie et des méthodes On est d’accord que c’est pas le même cours que l’année dernière ? bioinformatiques ○ Effectivement. Certaines notions et certains outils se retrouveront dans cette UE, mais la perspective a été révisée en profondeur. Doit-on apprendre tout ce qui a été dit ou juste ce qui figure sur les Les annales de l’année dernière sont ils utiles pour cette année avec la diapo ? réforme ○ Le contenu du cours est ce qui a été dit. Les diapo ne sont qu’un ○ Non, les supports de cours seront modifiés en profondeur support graphique (et pour l’enseignant, un guide pour le déroulé Pourquoi vous filmez ? du cours) ○ Parce que cette UE est ouverte en enseignement à distance Les TP seront-ils notés et inclus dans la note finale ? (téléenseignement) ○ Les TP ne seront pas notés, mais il sera nécessaire de les suivre Le cours portera-t-il plus sur le fonctionnement des bio informatiques ou pour deux raisons: ils sont obligatoires (>20% d’absence → c'est uniquement sur son histoire ? seconde session d’office) + réponse suivante ○ La séance d’introduction donnait une perspective historique, mais les Y a-t-il des applications des TP dans les QCM ? séances suivantes seront consacrées aux approches bioinformatiques pour l’analyse des données biologiques. ○ Oui. Le QCM comportera plus ou moins 50% de questions sur les CM, et 50% sur les méthodes et résultats des TP 37