Introduction aux MégaDonnées (Big Data) PDF - Septembre 2024
Document Details
Uploaded by Deleted User
Institut supérieur des langues appliquées et d'informatique de Béja
2024
Manel KHAZRI KHELIFI
Tags
Summary
Ce document fournit une introduction aux mégadonnées, également appelées Big Data. Il couvre les concepts fondamentaux, ainsi que les 5 "V" (Volume, Variété, Vélocité, Valeur, Véracité/Validité ) qui caractérisent les mégadonnées. L'auteur présente un résumé de divers aspects du Big Data.
Full Transcript
Introduction aux mégadonnées (Big Data) Manel KHAZRI KHELIFI Institut supérieur des langues appliquées et d'informatique de Bé...
Introduction aux mégadonnées (Big Data) Manel KHAZRI KHELIFI Institut supérieur des langues appliquées et d'informatique de Béja Septembre 2024 Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 1 Modèle des 3V étendu au 5V Mégadonnées et informatique décisionnelle Usage des mégadonnées Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 2 Actuellement nous produisons annuellement une masse de données estimée à Cerner ce terme Big Data ou mégadonnées, et d’introduire différentes grandes près de 3 trillions (3 millions de millions) d’octets de donnée s. méthodes et techniques qui s’y rattachent (notamment liées aux Data Centers), ainsi que leur opportunités On estime ainsi que 90% des données dans le monde ont été créées au cours des 2 années précédentes. On s’intéressera ici à 2 grandes problématiques : La masse totale des données crées et copiées de par le monde pour 2011 était leur stockage et leur gestion / Big Data Engineering de 1,8 Zétabytes, et s’accroit avec un facteur de 9 tous les 5 ans. ▪ les techniques traditionnelles de stockage de type bases de donnée s Tous les secteurs sont touchés, tant scientifiques qu’économiques, ainsi que le relationnelles ne permettant pas de stocker de telles quantité de données développement des applications Web et les réseaux sociaux. ▪ nouvelles solutions … Dans ce contexte, est apparu le terme « Big Data ». leur analyse / Big Data Analytics L’origine de ce terme anglo-saxon, littéralement « grosses données », est controversée, et sa traduction française officielle recommandée est ▪ applications à visée analytique (analyses) traitant des données pour en “mégadonnées”, même si parfois on parle de “données massives”. tirer du sens. 1 BRASSEUR C. Enjeux et usages du big data. Technologies, méthodes et mises en œuvre, Paris, Lavoisier, p. 30. (2013). ▪ généralement appelées « Big Analytics », ou « Analytique » ou encore « 2 IDC-2011, GANTZ J., REINSEL D. Extracting Value from Chaos. IDC iView, pp. 1–12. (2011). HELBING D., POURNARAS, E. Build Digital Democracy : Open Sharing of Data that are Collected with Smart Devices would Empower broyage de données », reposant généralement sur des mét hodes Citizens and Create Jobs. Nature, Vol. 527, Nov. 2015, Macmillan Publishers. (2015). d’apprentissage et de calcul distribué. Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 3 Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 4 Généralement faite selon 3 « V » : Volume, Variété et Vélocité Auxquels s’ajoutent 2 autres « V » complémentaires : Valeur et Véracité/Validité Fait référence à la quantité d’informations, trop volumineuses pour être acquises, stockées, traitées, analysées et diffusées par des outils standards, Peut s’interpréter comme le traitement d’objets informationnels de grande taille ou de grandes collections d’objets, Le développement de l’IoT (Internet des objets) et la généralisation de la géolocalisation ou de l’analytique ont engendré une explosion du volume de données collectées, On estime qu’en 2020, 43 trillions de gigabytes seront générés, soit 300 fois plus qu’en 2002. (1 trillion = 1018 = un milliard de milliards de bytes) Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 5 6 Voyagiste voyages-sncf.fr : Fait référence à l’hétérogénéité des formats, types, et qualité des En moyenne 360 000 par jour (11 millions par mois) informations, BD relationnelle respectant les propriétés ACID Est lié au fait que ces données peuvent présenter des formes complexes du fait qu'elles trouvent leurs origines dans : ▪ des capteurs divers et variés (température, vitesse du vent, hygrométrie, tours/mn, luminosité...), ▪ des messages échangés (e-mails, médias sociaux, échanges d'images, de vidéos, musique), ▪ des textes, des publications en ligne (bibliothèques numér iques, sites web, blogs,...), ▪ enregistrements de transactions d'achats, des plans numérisés, des annuaires, des informations issues des téléphones mobiles, etc. Changement d’échelle : Facebook, GMail et Twitter d’une quinzaine d’année Usage de technologies nouvelles pour analyser et recouper les d’existence, plusieurs centaines de millions de visiteurs par jour ! données non structurées (mails, photos, conversations…) représentant au moins 80 % des informations collectées. Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 7 Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 8 Type de données générées et stockées par secteurs d’activité (Mc Kinsey) : Fait référence à l’aspect dynamique et/ou temporel des données, à leur délai d’actualisation et d’analyse , les données ne sont plus traitées, analysées, en différé, mais en temps réel ou quasi réel, elles sont produites en flots continus, sur lesquels des décisions en temps réel peuvent être prises, ce sont les données notamment issues de capteurs, nécessitant un traitement rapide pour une réaction en temps réel, dans le cas de telles données de grande vélocité engendrant des volumes très importants, il n’est plus possible de les stocker en l’état, mais seulement de les analyser en flux (streaming) voire les résumer. Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 9 10 Associé à l’usage qui peut être fait de ces mégadonnées, de leur analyse, notamment d’un point de vue économique. Fait référence à la qualité des données et/ou aux problèmes éthiques liés à leur utilisation, L’analyse de ces mégadonnées demande une certaine expertise tant liée à des méthodes et techniques en statistique, en analyse de données, que comprend les problèmes de valeurs aberrantes ou manquantes (ces de domaine pour l’interprétation de ces analyses. problèmes pouvant être résolus par le volume de donnée s), En 2013, McKinsey Global Institute : fait référence aussi au niveau de la confiance que l’on peut avoir dans les - dans les seuls Etats Unis, il manquerait environ 150 000 personnes donnée s. avec une expertise en analyse de Big Data, - le système de santé américain pourrait créer 300 milliards de S’il existe des critères permettant de qualifier la qualité des données, dans le dollars de valeur par an dont deux tiers correspondrait à des cas de Big Data, la vérification de la qualité est rendue difficile voire impossible du fait du volume, de la variété et de la vélocité spécifiques au Big réductions de coût d’environ 8%. Data. Les termes de « Data Scientist » et de « Data Science » sont liés à cette expertise recherchée et à cette nouvelle discipline émergente. Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 11 Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 12 Mégadonnées (Big Data) = Informatique Décisionnelle et les Mégadonnées ont vocation à stocker des données qui : et analyser des masses de données très importantes ▪ sont trop volumineuses L’informatique décisionnelle (ID) - Business Intelligence (BI) - est ▪ ou ayant une arrivée trop rapide apparue dans les années 1990 en management et en informatique : ▪ ou une variété trop grande L’ID appréhende des données volumineuses principalement historisée et pour : orientées sujet, stockées dans des entrepôts de données. ▪ permettre de les ranger directement dans des bases de Caractéristiques des données traitées : données traditionnelles (Relationnelles) ▪ multidimensionnelles, fortement structurées selon un modèl e ▪ ou de les traiter par les algorithmes actuels ». défini, de forte densité en information, et principalement numériques, ▪ Masses de données très importantes : Informatique Décisionnelle Versus Mégadonnées ? ▪ stockées dans des entrepôts de données ou dans des cubes. DAVENPORT, T. H. Competing on Analytics, Harvard Business Review (84:1), pp. 98-107. (2006). MOTHE J., PITARCH Y., GAUSSIER E. Big Data: Le cas des systèmes d’information, Revue Ingénierie des Systèmes d’Information, Hermès Editeur, Vol. 19/3, (2014). Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 13 14 Business Analytics introduit fin des années 2000, composante analytique Les mégadonnées : clé dans la ID permettant des analyses : Concernent des données bien plus volumineuses que celles traitées par l’ID, principalement réalisées par des opérateurs d’analyse en ligne OLAP (On Line structurées ou non structurées, et de faible densité en information. Analysis Processing) sur de cubes extraits de ces entrepôts, ou par des utilisent les statistiques inférentielles (ou inductive), pour inférer des lois techniques de fouille de données (Data Mining), (rég ressions....) reposant principalement sur des agrégations et grâce à des opérateurs OLAP spécifiques, ou méthodes de fouille de données (datamining), Statistiques inférentielles : permettant de mesurer des phénomènes, notamment pour détecter des utilisent la théorie des probabilités pour restreindre le nombre d’individus en tendances, faisant des sondages sur des échantillons, s’appuient principalement sur la statistique descriptive précisent un phénomène sur une population globale, par observation sur une partie restreinte de cette population (échantillon), Statistique descriptive (ou exploratoire) : permettent d’induire (inférer) du particulier au général avec un objectif décrire des données à travers leur présentation (la plus synthétique possible), principalement explicatif, par des modèles et d’hypothèses probabilistes, leur représentation graphique, et le calcul de résumés numériques. donnent aux mégadonnées des capacités prédictives , intéressante mais coûteuse car reposant sur des enquêtes portant sur un permettent de faire intervenir une part de hasard (théorie des tests nombre d'individus important d'hypothès es). Ne fait PAS fait appel à des modèles probabilistes CATTELL R. (2011). Scalable SQL and NoSQL data stores. ACM SIGMOD Record, 39(4), pp. 12- 27. Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 15 Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 16 Loin de les opposer, Informatique décisionnelle et mégadonnées peuvent Les Mégadonnées ou Big Data sont dès à présent utilisées s’enrichir l’un l’autre : dans TOUS les secteurs d’activités, tant scientifiques, ▪ l’Informatique Décisionnelle apporte aux mégadonnées ses méthodes techniques que socio-économiques, de conception d’entrepôts et d’analyse, «... depuis les données récupérées de l’exploitation de ▪ les mégadonnées apportent notamment ses architectures de stockage distribuées et ses analyses à larges échelles basées sur les statistiques moteurs d’avion permettant de mieux maintenir ou concevoir inférentielles. ces derniers, … Pour conclure : … jusqu’aux données spécifiant nos relations sur les réseaux ▪ l’Informatique Décisionelle est basée sur un modèle défini du monde, sociaux pouvant être utilisées par les banques pour estimer la qualité de notre crédit... ». ▪ alors que les mégadonnées visent à ce que les mathématiques (statistique) pour trouver un modèle dans les données. DELORT, P. (2015). Le Big Data. Presses Universitaires de DELORT, P. (2015). Le Big Data. Presses Universitaires de France. France. Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) Manel KHAZRI KHELIFI - Introduction aux mégadonnées (Big Data) 17 18