Bases de Données Biologiques PDF
Document Details
Uploaded by Deleted User
UMBB
2022
KHEMILI –TALBI Souad, SADAOUI-SMADHI Nesrine
Tags
Summary
Ce chapitre traite des bases de données biologiques, leur structure, et différents types, comprenant les bases de données de séquences d'ADN, d'ARN et de protéines. Il présente des exemples concrets comme GenBank, EMBL, et UniProt, et explique comment rechercher des informations biologiques, ainsi que leurs organisations.
Full Transcript
UMBB, 2022/2023 Chapitre 1: Bases de Données Biologiques Pr. KHEMILI –TALBI Souad [email protected] Dr. SADAOUI-SMADHI Nesrine [email protected] 1 UMBB, 2021/2022 Chapitre 1: Base...
UMBB, 2022/2023 Chapitre 1: Bases de Données Biologiques Pr. KHEMILI –TALBI Souad [email protected] Dr. SADAOUI-SMADHI Nesrine [email protected] 1 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. 1.1. Introduction Très grand nombre d’informations biologiques sont à disposition => nécessité de les classer et d’offrir des possibilités de les consulter. ❑ Les Bases de Données Biologique (acronyme BD, ou DB en anglais pour DataBases) répondent à cet objectif. En effet, elles sont des systèmes ou sources pour l’archivage, le stockage et l’exploitation des grandes quantités d'informations liées à des données biologiques (AND, ADNc, ARN, protéines). ❑ Une Base de Données est structurée sous forme d’un ensemble de tables, chacune des tables est constituée de champs (Colonnes) et d’enregistrements (Lignes) ; les tables en questions forment des fichiers. 2 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. 1.2. Types de Bases de données Biologiques ◇ Bases de donn es qui contiennent des informations biologiques brutes: S quences ADN, de g nomes, de prot ines. Structures d’acides nucl iques et de prot ines. Motifs d’expression de prot ines. ⇒ Ces bases de données sont également appelées banques de données généralistes, ou banques d’archives ou encore base de données primaires. ⇒ Exemples: Genbank, EMBL, Uniprot, PDB…etc 3 é é é é é é é UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. ◇ Bases de donn es d riv es: informations collect es et analys es/pr dites Classification de motifs de séquence ou de structure Mutations et variants dans les s quences ADN et prot iques R seaux d’interactions, de transcription,... ⇒ ces bases de données sont également appelées Bases de données spécifiques ou bases de données secondaires. ⇒ Exemples: Prosite, PRINTS, CATCH, SCOP…etc 4 é é é é é é é é é UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. ◇ Bases de données bibliographiques: Qui répertorient toute la littérature scientifiques, publications, articles de revues et livres. ⇒ Exemple: MEDLINE (de l'anglais Medical Literature Analysis and Retrieval System Online) (moteur de recherche: Pubmed). 5 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Ainsi, à la différence d’une Banque de données qui véhicule des informations biologiques hétérogènes ou généralistes (virus, bactéries, champignons, végétaux, animaux), une base de données contient des informations homogènes plus spécifiques (base spécifique à E. coli, à Bacillus, etc.). 6 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. 1.3. Quelques Bases de données des séquences nucléiques GenBank : Base de données de séquences nucléotidiques la plus connue. Elle contient une collection de toutes les s quences d’ADN disponibles publiquement. S quences annot es. Elle est disponible au départ du « National Institute of Health (NIH) » http://www.ncbi.nlm.nih.gov/Genbank 7 é é é UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Page d’accueil de Genbank http://www.ncbi.nlm.nih.gov/Genbank 8 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Genbank, exemple d’une requête sur http://www.ncbi.nlm.nih.gov: «Arabidopsis thaliana » Taper ici le mot clé (l’objet de votre recherche ` 9 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Genbank, exemple d’une requête sur http://www.ncbi.nlm.nih.gov: «Arabidopsis thaliana » Résultats trouvés dans la base de données 1 avec les mots clés « Arabidopsis thaliana » 2 Nombre de 4 3 publications dans PubMed Nombre de séquences géniques Une 5 séquence génomique de cet Nombre de organisme est séquences disponible protéiques 10 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. EMBL (European Molecular Biology Laboratory): Base de données de séquences nucléiques. L'équivalent européen de GenBank, situé à l'Institut Européen de Bioinformatique (The European Bioinformatics Institute, EMBL-EBI). www.ebi.ac.uk 11 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. DDBJ (DNA Data Bank of Japan): Base de données exploitée par l'Institut national de génétique (NIG) au Japon. C’est une base de données de séquences nucléiques pour l'Asie. www.ddbj.nig.ac.jp 12 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Les trois opérateurs de bases de données NCBI, EMBL-EBI et DDBJ, composent the International Nucleotide Sequence Database Collaboration (INSDC) et synchronisent leurs bases de données toutes les 24 h. http://www.insdc.org/ 13 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. 1.4. Quelques Bases de données protéiques UniprotKB (base de données Universelle de Protéines, The Universal Protein Resource) combine les données protéiques des bases de données Swiss-prot, TrEMBL et PIR. ◇ UniProtKB/Swiss-Prot: Base de données de séquences protéiques présentant un niveau d’annotation élevé́ (description de la fonction, les modifications post- traductionnelles, les variants, les domaines structuraux,...), avec un minimum de redondances et une intégration avec d’autres bases de données. ◇ UniprotKB/TrEMBL: Suppl ment Swiss-Prot qui contient toutes les traductions des s quences nucl iques de l’EMBL qui ne sont pas encore int gr es Swiss-Prot; la prot ine n’a pas encore t isol e exp rimentalement. ◇ PIR (Protein Information Resource): Base de donnée protéique qui assiste les chercheurs dans l’identification et l’interprétation 14 de leurs séquences protéiques. é é é é é à é à é é é é UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. UniprotKB, exemple d’une requête sur http://www.uniprot.org: «SARS-CoV » 1 818 résultats 2 3 Dont 10 de l’être humain 15 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. UniprotKB, exemple d’une requête sur http://www.uniprot.org: «SARS-CoV » 1 SARS-Cov ET Nom taxonomique de l’humain comme mots clés Focalisons nous sur cette entrée ayant comme code 10 résultats d’accession à Uniprot: 2 Q9BYF1 3 16 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. UniprotKB, exemple d’une requête sur http://www.uniprot.org: «SARS-CoV » 1 Focalisons nous sur cette entrée ayant comme code d’accession à Uniprot: Q9BYF1 2 Nom de l’enzyme, Le nom de son gène, de l’organisme, et le statue de la séquence 3 Description de la fonction 4 de cette enzyme Plus de descriptions et d’annotations sur cette enzyme dans ces différentes sections 17 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Page d’accueil de la base de données PIR https://proteininformationresource.org/ 18 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Bases de données associées à Swiss-Prot: ◇ ENZYME DB: informations à propos d’enzymes, dont le nom, son activité catalytique, ses cofacteurs,… https://enzyme.expasy.org/ 19 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. ◇ PROSITE (motifs d’acides aminés communs à un ensemble de protéines; ce type de motifs apparaît dans une famille de protéines présentant un ancêtre commun): C’est une importante base de données biologiques secondaires. La classification des protéines dans Prosite est déterminée en utilisant des motifs conservés, c'est-à-dire des régions à séquence courte (10-20 acides aminés) conservées dans des protéines apparentées et elles ont généralement un rôle clé dans la fonction de la protéine. La recherche de tels motifs de séquence dans des protéines inconnues peut fournir un premier indice d'une affiliation à une famille ou une fonction de protéines. http://prosite.expasy.org 20 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. ExPASy (Expert Protein Analysis System): est un serveur de l'Institut Suisse de Bioinformatique (SIB) qui donne accès à des bases de données scientifiques et à des outils (ou logiciels) permettant l'analyse des différents domaines des sciences de la vie, notamment la protéomique, la génomique, la phylogénie, la biologie des systèmes, la génétique des populations, la transcriptomique. www.expasy.org 21 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Les différents domaines de la sciences de la vie 22 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Outils d’analyse de la Protéomique 23 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Outils d’analyse de la Génomique 24 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Outils d’analyse de la Structure des protéines 25 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Pfam (The Protein families database): Cette base de données classe les familles de protéines en fonction des profils. Un profil est un modèle qui évalue la probabilité d'apparition d'un acide aminé donné, d'une insertion ou d'une suppression à chaque position d'une séquence protéique. Pfam est basée sur des alignements de séquence. Ces alignements vérifiés manuellement de haute qualité servent de points de départ pour la construction automatique de modèles Markov cachés (HMM). http://pfam.xfam.org 26 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Protein Data Bank (PDB): Base de données de structures 3D des macromolécules biologiques déterminées expérimentalement. Les macromolécules sont principalement des protéines, mais comprennent également des structures d'ADN et d'ARN et des complexes protéine – acide nucléique. www.rcsb.org 27 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Protein DataBank: plus ou moins 162269 structures, dont 150423 structures protéiques (Avril 2020). https://www.rcsb.org/pdb/statistics/holdings.do 28 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Méthodes principales pour obtenir la structure 3D d’une macromolécule biologique: ✴ Résonance Magnétique Nucléaire (RMN): Place un échantillon dans un champ magnétique B0, ce qui provoque un alignement des spins des atomes de spin non nul selon la direction (axe z par exemple) de B0 (sens identique ou opposé). Exemples d’atomes de spin non nul: 1H, 13C, 15N,... Donne une impulsion d’un 2ème champ magnétique B1 perpendiculaire à B0. Lorsque B1 est éteint, le système revient à son état d’équilibre en effectuant un mouvement de précession autour de l’axe z. Précession influencée par l’environnement des spins. Couplage entre spins donne une information à propos de leur distance. 29 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Méthodes principales pour obtenir la structure 3D d’une macromolécule biologique: ✴ Cristallographie aux rayons X: Nécessaire de cristalliser une protéine, puis étude de la diffraction des rayons X par le cristal. En déduit la position relative des atomes qui constituent la macromolécule. Qualité d’une structure est évaluée par la résolution (plus elle est basse, meilleures est la résolution; typiquement: bonne résolution si elle est inférieure ou égale à 2,5 Å). Le facteur R indique dans quelle mesure les données récoltées correspondent au modèle de structure proposé (recherche d’un facteur R le plus bas possible). 30 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. SCOP (Structural Classification Of Proteins): Base de données de classification hiérarchique de domaines structuraux de protéines (Classe, Repliement, Superfamille, et Famille). http://scop.mrc-lmb.cam.ac.uk/scop 31 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. CATCH: Base de données de classification hiérarchique de domaines structuraux de protéines (Classe (C), Architecture (A), Topologie (T) et Superfamille(H), et Famille). http://www.cathdb.info 32 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Gene Ontology: Base de données reprenant les fonctions moléculaires, les processus biologiques, les produits des gènes. (http://www.geneontology.org) 33 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Allergome : Base de données des allergènes. http://www.allergome.org 34 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. 1.5. Autres Bases de données (liste non exhaustive) PubMed (Medline): Base de données regroupant la littérature scientifique relative aux sciences biologiques et biomédicales. https://www.ncbi.nlm.nih.gov/pubmed/ 35 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. FoodDB (http://foodb.ca/): Base de données qui répertorie des informations à propos d'aliments, de leurs éléments constitutifs, d'un point de vue chimique et biologique. 36 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. USDA Food Composition Databases (https://ndb.nal.usda.gov/ndb/) 37 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. International Network of Food Data Systems (INFOODS) (http://www.fao.org/infoods/infoods/fr/) 38 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. USDA PLANTS (https://plants.usda.gov/java/) 39 UMBB, 2021/2022 Chapitre 1: Bases de données Biologiques Pr. Khemili-Talbi S. & Dr. Sadaoui-Smadhi N. Il existe un grand nombre d’autres bases de données (impossibilité d’être exhaustif). Liens vers des répertoires d’outils et de bases de données: http://www.expasy.org http://www.ebi.ac.uk et http://www.ebi.ac.uk/services http://www.ncbi.nlm.nih.org 40