Cours Big Data PDF
Document Details
Uploaded by Deleted User
Dr. Wiem Chebil
Tags
Summary
Ce document présente une collection de diapositives sur le Big Data et le framework Hadoop. Il couvre des sujets tels que l'évolution des données, les cinq V's du Big Data, la technologie Hadoop, les types de données (structurées, semi-structurées et non structurées), et les capacités de stockage.
Full Transcript
Cours Big Data Responsable du cours: Dr. Wiem Chebil 2 Plan: Evolution des données Définition du Big Data Les 5 V’s du Big data Ecosystème Hadoop Hadoop HDFS Hadoop MapReduce HadoopYarn Installation d...
Cours Big Data Responsable du cours: Dr. Wiem Chebil 2 Plan: Evolution des données Définition du Big Data Les 5 V’s du Big data Ecosystème Hadoop Hadoop HDFS Hadoop MapReduce HadoopYarn Installation du Hadoop 3 Evolution de la technologie 4 Evolution des données 5 Evolution des données 6 Big Data? 7 Les 5 V’s du Big Data 8 Différents types de données 9 Les capacités de stockage 10 Préfixes multiplicatifs Avant de parler de BigData, connaissez-vous les préfixes ? signe préfixe facteur exemple représentatif k kilo 103 une page de texte M méga 106 vitesse de transfert par seconde G giga 109 DVD, clé USB T téra 1012 disque dur P péta 1015 E exa 1018 FaceBook, Amazon Z zetta 1021 internet tout entier depuis 2010 Les capacités de stockage 12 Distribution données et traitements Le traitement d’aussi grandes quantités de données impose des méthodes particulières. Un SGBD classique, même haut de gamme, est dans l’incapacité de traiter autant d’informations. Solution: Répartir les données sur plusieurs machines (jusqu’à plusieurs millions d’ordinateurs) dans des Data Centers ▪ système de fichiers spécial permettant de ne voir qu’un seul espace pouvant contenir des fichiers gigantesques et/ou très nombreux (HDFS), ▪ bases de données spécifiques (HBase, Cassandra, ElasticSearch). ▪ Traitements du type « map-reduce » : ▪ algorithmes faciles à écrire, exécutions faciles à paralléliser. Machines connectées Toutes ces machines sont connectées entre elles afin de partager l’espace de stockage et la puissance de calcul. Le Cloud est un exemple d’espace de stockage distribué : des fichiers sont stockés sur différentes machines, généralement en double pour prévenir une panne. L’exécution des programmes est également distribuée : ils sont exécutés sur une ou plusieurs machines du réseau. Tout ce module vise à enseigner la programmation d’applications sur un cluster, à l’aide des outils Hadoop. Solution? 15 16 17 18 19 Ecosystème Hadoop 20 Les principaux composants de Hadoop 21 HDFS: Hadoop Distributed File System Hadoop Distributed File System 23 Présentation HDFS est un système de fichiers distribué. C’est à dire : les fichiers et dossiers sont organisés en arbre (comme Unix) ces fichiers sont stockés sur un grand nombre de machines de manière à rendre invisible la position exacte d’un fichier. les fichiers sont copiés en plusieurs exemplaires pour la fiabilité et permettre des accès simultanés multiples HDFS permet de voir tous les dossiers et fichiers de ces milliers de machines comme un seul arbre, contenant des Po de données, comme s’ils étaient sur le disque dur local. Le concept de HDFS 25 Le concept de HDFS 26 Le concept de HDFS 27 Le concept de HDFS 28 Le concept de HDFS 29 Le concept de HDFS 30 Comment fonctionne HDFS ? Comme avec de nombreux systèmes, chaque fichier HDFS est découpé en blocs de taille fixe. Un bloc HDFS = 256Mo. Selon la taille d’un fichier, il lui faudra un certain nombre de blocs. Sur HDFS, le dernier bloc d’un fichier fait la taille restante. Les blocs d’un même fichier ne sont pas forcément tous sur la même machine. Ils sont copiés chacun sur différentes machines afin d’y accéder simultanément par plusieurs processus. Par défaut, chaque bloc est copié sur 3 machines différentes (c’est configurable). Organisation des machines pour HDFS Un cluster HDFS est constitué de machines jouant différents rôles exclusifs entre eux : L’une des machines est le maître HDFS, appelé le namenode. Cette machine contient tous les noms et blocs des fichiers, comme un gros annuaire téléphonique. Une autre machine est le secondary namenode, une sorte de namenode de secours, qui enregistre des sauvegardes de l’annuaire. Toutes les autres machines sont des datanodes. Elles stockent les blocs du contenu des fichiers. Pierre Nerzic 33 / 64 Pierre Nerzic 34 / 64 Pierre Nerzic 35 / 64 Pierre Nerzic 36 / 64 Un schéma des nodes HDFS Les datanodes contiennent des blocs (A, B, C... ), le namenode sait où sont les fichiers : quels blocs et sur quels datanodes. (DN: Data Node) BigData - Semaine 1 Hadoop File System (HDFS) Explications Les datanodes contiennent des blocs. Les mêmes blocs sont dupliqués (replication) sur différents datanodes, en général 3 fois. Cela assure : fiabilité des données en cas de panne d’un datanode, accès parallèle par différents processus aux mêmes données. Le namenode sait à la fois : sur quels blocs sont contenus les fichiers, sur quels datanodes se trouvent les blocs voulus. On appelle cela les metadata. Inconvénient majeur : panne du namenode = mort de HDFS, c’est pour éviter ça qu’il y a le secondary namenode. Il archive les metadata, par exemple toutes les heures. BigData - Semaine 1 Hadoop File System (HDFS) Mode high availability Comme le namenode est absolument vital pour HDFS mais unique, Hadoop propose une configuration appelée high availability dans laquelle il y a 2 autres namenodes en secours, capables de prendre le relais instantanément en cas de panne du namenode initial. Les namenodes de secours se comportent comme des clones. Ils sont en état d’attente et mis à jour en permanence à l’aide de services appelés JournalNodes. Les namenodes de secours font également le même travail que le secondary namenode, d’archiver régulièrement l’état des fichiers, donc ils rendent ce dernier inutile. Pierre Nerzic 40 / 64 Pierre Nerzic 41 / 64 Pierre Nerzic 42 / 64 Pierre Nerzic 43 / 64 Pierre Nerzic 44 / 64 Pierre Nerzic 45 / 64 Pierre Nerzic 46 / 64 Pierre Nerzic 47 / 64