Cours Big Data PDF
Document Details
Université de Tunis El Manar
Manel ZEKRI
Tags
Summary
Ce document présente une introduction générale au Big Data. Il couvre des aspects tels que les faits, les sources et les enjeux du Big Data dans les entreprises, ainsi que les approches traditionnelles à comparer à l'approche Big data. L'auteur aborde l'importance et les défis liés au Big Data dans les différents secteurs d'activité.
Full Transcript
# Chapitre 1: Introduction au Big Data ## Contents 1. Big Data: Faits, Intérêts, Sources et Challenges 2. Qu'est-ce que le Big Data ? 3. Problématique et termes clés 4. Chiffres clés et forces majeurs 5. Importance et défis du Big Data 6. Big Data et décisionnel 7. Approche traditionnelle versus...
# Chapitre 1: Introduction au Big Data ## Contents 1. Big Data: Faits, Intérêts, Sources et Challenges 2. Qu'est-ce que le Big Data ? 3. Problématique et termes clés 4. Chiffres clés et forces majeurs 5. Importance et défis du Big Data 6. Big Data et décisionnel 7. Approche traditionnelle versus approche Big Data 8. Mise en place du Big Data: des chantiers de grande ampleur 9. Enjeux stratégiques 10. Enjeux technologiques ## Big Data: Faits, Intérêts, Sources et Challenges ### Big Data: Faits - Chaque jour, nous générons 2.5 trillions d'octets de données. - 90% des données dans le monde ont été créées au cours des deux dernières années. ### Big Data: Sources - **Sources multiples:** sites, Bases de Données, téléphones, serveurs: - Détecter les sentiments et les réactions des clients - Détecter les conditions critiques ou potentiellement mortelles dans les hôpitaux, et à temps pour intervenir. - Prédire des modèles météorologiques pour planifier l'usage optimal des éoliennes. - Prendre des décisions risquées basées sur des données transactionnelles en temps réel. - Identifier les criminels et les menaces à partir de vidéos, sons et flux de données. - Etudier les réactions des étudiants pendant un cours, prédire ceux qui vont réussir, d'après les statistiques et modèles réunis au long des années (domaine Big Data in Education). - **Capteurs utilisés pour collecter les informations climatiques.** - **Messages sur les médias sociaux.** - **Images numériques et vidéos publiées en ligne.** - **Enregistrements transactionnels d'achat en ligne.** - **Signaux GPS de téléphones mobiles.** - **Données appelées Big Data ou Données Massives** ### Big Data: Intérêts - **1/3** Chefs d'entreprise prennent fréquemment des décisions basées sur des informations en lesquelles ils n'ont pas confiance, ou qu'ils n'ont pas. - **1/2** Chefs d'entreprise disent qu'ils n'ont pas accès aux informations dont ils ont besoin pour faire leur travail. - **83%** Des DSI (Directeurs des Si) citent: «L'informatique décisionnelle and analytique >> comme faisant partie de leurs plans pour améliorer leur compétitivité. - **60%** Des PDG ont besoin d'améliorer la capture et la compréhension des informations pour prendre des décisions plus rapidement. ## Historique & contexte - L'évolution du SI amène les entreprises à traiter de plus en plus de données issues de sources toujours plus variées. - Les prévisions de taux de croissance des volumes de données traitées dépassent les limites des technologies traditionnelles. - On parle de Petaoctet (billiard d'octets) (ou Petabyte) voir de Zettaoc-tet (Trilliard d'octets) (ou Zettabyte). - Quelle solution pour exploiter ces données ? | Year | Event | Volume | |----------|------------------------------------------------------------------------------|-----------| | 1996 | Sauvegarder sur support électronique coûte moins cher que l'archivage papier. | | | 1997 | 1ère utilisation du terme 'Big Data' lors d'une conférence informatique. | | | 1998 | 1ère estimation de croissance & volumétrie des données internet. | | | 2000 | Présentation des trois modèles de données dynamiques lors d'une conférence << économétrie>>. | | | 2001 | Définition des 3V du Big Data. | 1 Po | | 2005 | Définition du WEB 2.0. | 1 Go | | 2008 | 1ères analyses sur l'impact du Big Data dans les activités commerciales, scientifiques, médicales, etc. | 120 | ## Definition ### Big Data: Exploration de très vastes ensembles de données pour obtenir des renseignements utilisables. - Le terme Big Data se réfère aux technologies qui permettent aux entreprises d'analyser rapidement un volume de données très important et d'obtenir une vue synoptique. - En mixant intégration de stockage, analyse prédictive et applications, il permet de gagner en temps, en efficacité et en qualité dans l'interprétation de données. - Les objectifs de ces solutions d'intégration et de traitements des données sont de traiter un volume très important de données aussi bien structurées que non structurées, se trouvant sur des terminaux variés (PC, smartphones, tablettes, objets communicants...), produites ou non en temps réel depuis n'importe quelle zone géographique dans le monde. - Le Big Data sera un outil majeur à la fois pour la prise de décisions et l'optimisation de la compétitivité au sein des entreprises. ### Qu'est-ce que le Big Data ? - **Historique & contexte** - **Definition** - **Est-ce une innovation ?** - **Vocabulaire** ## Vocabulaire - **Not Only SQL / Bases sans schéma:** Catégorie de systèmes de gestion de base de données (SGBD) qui n'est plus fondée sur l'architecture classique des bases relationnelles. - **MapReduce:** modèle de programmation permettant de manipuler de grandes quantités de données non obligatoirement structurées. - **Hadoop / Cassandra / MongoDB:** framework de développement d'applications utilisant le modèle Map Reduce. - **Data Flow / Pig/Hive:** logiciel et langage d'analyse de données permettant d'utiliser Hadoop. ## Définition : Autres notions Autour du Big Data, on trouve également les termes : - **Open Data:** Une donnée ouverte est une donnée qui peut être librement utilisée, réutilisée et redistribuée par quiconque. - **Interoperabilité:** Capacité de divers systèmes et organisations à travailler ensemble (inter-opérer). - **Little Data:** Parfois utilisée pour permettre aux entreprises qui n'auraient pas les 3V pour utiliser les technologies Big Data; - **Smart Data:** Nouvelle expression synonyme de Business Intelligence (Informatique décisionnelle). En 2013, le Big Data s'est retrouvé au cœur de toutes les conversations. Cependant, le Big Data c'est un gros volume de données parfois inexploitable et peu pertinent. - **Bad Data:** Attention à ne pas être confronté au final au Bad Data ! ## Big Data: Est-ce une innovation? - L'explosion des volumes des données nécessite une innovation en terme de: - Acceleration matérielle: Abandon des disques durs au profit des mémoires dyna-miques DRAM (Dynamic Random Access Memory: mémoire vive dynamique) ou flash. - Meilleur benefice des processeurs multicœurs. - **Bases de données d'analyse massivement parallèle (MPP).** - **Modèle Map-Reduce, Haddop et autres approches NoSQL.** ## Big Data: Volume (1) - Le prix de stockage des données a beaucoup diminué ces 30 dernières années: - De $100.000/ Go (1980) - À $0.10/Go (2013) - Grand marché de données est estimé à croître de 45% par annnée pour atteindre 25 milliards de dollars cette année (2015) - 1.8 ZB créées en 2011;~8 ZB en 2015;~35 ZB en 2020 ## Big Data: Volume (2) - Les lieux de stockage fiables (comme des SAN: Storage Area Network) ou réseaux de stockage peuvent être très coûteux: - Choisir de ne stocker que certaines données, jugées sensibles. - Perte de données, pouvant être très utiles, comme les Logs. - Comment déterminer les données qui méritent d'être stockées ? - Transactions? Logs? Métier ? Utilisateur? Capteurs ? Médicales? Sociales ? - Problèmes: - Comment stocker les données dans un endroit fiable, qui soit moins cher? - Comment parcourir ces données et en extraire des informations facilement et rapidement? ## Problématique et termes clés (1) - Le Big Data se caractérise par la problématique des 3V: - **Volume (Volume):** L'entreprise est submergée de volumes de données croissants de tous types. - **Variété (Variety):** Gérer la complexité de plusieurs types de données et de schémas structurés ou non structurés (texte, données de capteurs, son, vidéo, logs, etc.). - **Vitesse (Velocity):** Parfois, les données doivent être saisies et traitées au fil de l'eau, au fur et à mesure de leur collection par l'entreprise, pour la détection des fraudes (on qualifie de fraude toute action destinée à tromper. La falsification et l'adultération sont des exemples de fraude) par exemple. ## Problématique et termes clés (2) - Vous êtes confrontés a une problématique de gestion de données correspondant a ces trois critères. - Vous ne savez plus gérer ces données avec les architectures traditionnelles. - Vous avez une problématique de type Big Data. - Il faut en effet penser a collecter, stocker puis analyser les données d'une façon qui ne peut plus être traitée par une approche traditionnelle pour permettre de satisfaire au 4ème V. - **⇒ la Valorisation des données.** - **Objectif:** Relever ce qui est important et ce qui l'est moins. ## Big Data: Vélocité - Rapidité d'arrivée des données. - Vitesse de traitement. - Les données doivent être stockées a l'arrivée, parfois même des Tera-octets par jour. - Sinon, risque de perte d'informations. - **Exemple:** Il ne suffit pas de savoir quel article un client a acheté ou réservé; Si on sait que vous avez passé plus de 5mn à consulter un article dans une boutique d'achat en ligne, il est possible de vous envoyer un email dès que cet article est soldé. ## Big Data: Variété (1) - Pour un stockage dans des bases de données ou dans des entrepôts de données, les données doivent respecter un format prédéfini. - La plupart des données existantes sont non-structurées ou semi-structurées. - Données sous plusieurs formats et types. - On veut tout stocker: - **Exemple:** pour une discussion dans un centre d'appel, on peut la stocker sous forme textuelle pour son contenu, comme on peut stocker l'enregistrement en entier, pour interpréter le ton de voix du client. - Certaines données peuvent paraître obsolètes, mais sont utiles pour certaines décisions: - **Exemple:** Besoin de: Données GPS, plan de livraison du camion, circulation, chargement du camion, Niveau d'essence... ## Big Data: Variété (2) - **Données structurées versus Données non structurées** - **Données structurées:** Données que l'on peut clairement codifier et identifier; - Les données d'un tableur sont typiquement des données structurées ; - On peut comprendre leurs significations en croisant les titres de la ligne et colonne dans la quelle se trouent les données; → Les systèmes d'analyse algorithmique ont depuis toujours été développés pour traiter ce type de données. - **Données non structurées:** Données qui ne répondent pas à un codage qui permet d'en tirer de l'information. - C'est en analysant les contenus des messages que l'on déduit l'information: fichiers texte, audio, vidéo, etc. que l'on peut clairement codifier et identifier. ## Big Data: Le 4ème V - La Visualisation (Valeur) (1) - Le Big Data, ce n'est pas simplement des volumes de données considérables échangés, mais aussiune variété de contenus, de formats et de sources infinies, ainsi qu'une véritable problématique de maîtrise de la vitesse de création et de mise à jour des données. - Enfin, et pas des moindres, la Big Data met en opposition deux nécessités a priori contradictoires: Celle de rationaliser et rendre accessibles des données qui se comptent pourtant en millions, milliards... - C'est là qu'intervient le besoin d'une Visualisation de données optimale et adaptée à une exploitation très opérationnelle de cette Big Data, avec trois objectifs finaux: Créer de la valeur, découvrir des insights différenciants, innover...le tout à un coût modéré ! ## Chiffres clés - Plus de 2 milliards de vidéos regardées sur Youtube chaque jour et 220 milliards de recherche sur Google chaque mois. - 30 milliards de contenus statut, photo, vidéo, événement, etc. sont ajoutés sur Facebook par mois par plus de 600 millions d'utilisateurs actifs. - Le nombre d'appareils connectés a Internet a dépassé le nombre d'humains en 2008. - La compagnie de Social Games traite 1 Petabyte (1 million de GB) de données chaque jour. - Le marché du Big Data et des Big Analytics (ou broyage de données) pourraient représenter près de 250 milliards de dollars sur 4 ans. - Fin 2011, 20 foyers moyens on généré plus de trafic que la totalité des utilisateurs Internet en 2008. - On estime que des données de mauvaise qualité coûtent plus de 600 milliard de dollars par année aux entreprises américaines. ## Forces majeures - **La révolution du stockage grâce au Cloud.** - **L'avènement d'une nouvelle science des données les: Analytics avancés.** - **Les nouvelles possibilités de monétisation.** - **L'automatisation des échanges de données et les objets connectés.** - **Les progrès de la visualisation de données.** ## Big Data: Le 5ème V - La Véracité - On peut classifier les données traitées sous le chapeau du Big Data en deux principaux types: - **Données des entreprises:** elles comportent les emails, les documents, les bases de données, toutes les historiques des processus métiers (Logs). - **Données en dehors des entreprises:** elles englobent les bases de données externes (publiques ou fournisseurs de données) contenues et échangées via les réseaux sociaux en ligne, les historiques de navigation et de recherche, les données transmises par les objets connectés, etc. - **Véracité ou qualité de données s'introduit.** Données doivent être nettoyées, essuyées et mises en cohérence avant de pouvoir être analysées et croisées avec les données internes. - **La qualité des données dépend de deux facteurs:** - **Données peuvent être inexactes or incomplètes.** - **Il devient indispensable de vérifier la crédibilité de la source et la qualité du contenu préalablement.** ## Défis du Big Data - Afin de déterminer la meilleure stratégie pour une entreprise, il est essentiel que les données qu'on compte sur soient correctement analysées. - Le laps de temps de cette analyse est important parce que certaines d'entre elles doivent être effectuées fréquemment afin de déterminer rapidement tout changement dans l'environnement des affaires. - **Nouvelles technologies problème organisationnel.** - **La nécessité des spécialistes de l'informatique.** - **La confidentialité et la sécurité.** Comme le Big Data englobe une grande quantité de données complexes, il est très difficile pour une entreprise de trier ces données selon des niveaux privés et d'appliquer la sécurité adéquate. En outre, la plupart des entreprises aujourd'hui font des affaires à travers des pays et continents et les différences entre les lois privées sont considérables et doivent être pris en considération lors du démarrage de l'initiative Big Data. ## Importance du Big Data - **Dans la technologie de l'information:** améliorer la sécurité, diagnostiquer les anomalies et le dépannage en analysant les structures dans les logs existants; - **Au service chargé de la clientèle:** en utilisant des informations des centres d'appels afin d'obtenir les modèles de clientèle et donc d'améliorer la satisfaction du client par la personnalisation des services; - **Dans l'amélioration des services et des produits a travers l'utilisation du contenu des médias sociaux.** - **Dans la détection de la fraude:** dans les transactions en ligne pour toute type d'industrie; - **Dans l'évaluation des risques en analysant les informations provenant des transactions sur le marché financier.** ## Approche traditionnelle versus approche Big Data ### Approche Traditionnelle - Les besoins métiers guident la conception de la solution. - Appropriée pour les données structurées. - Les opérations et les processus répétitifs, les sources relativement stables et les besoins sont bien compris et cadrés. ### Big Data et décisionnel - Le modèle OLAP, ou traitement analytique en ligne, est considéré l'ancêtre du Big Data. - Il s'agit de volumes importants de données historiques quireprésentent toutes les données de l'entreprise, et qui sont requêtées afin d'obtenir des informations agrégées et statistiques de l'activité de l'entreprise (décisionnel, ou Business Intelligence), ou pour extraire des informations nouvelles de ces données existantes à l'aide d'algorithmes de traitement des données (Data Mining). **Mais...** - Modélisation des données préliminaires: Fait et Dimensions. - Structuration de données à des besoins spécifiques. - Application à une analyse multi-dimensionnelle des données, mais pas pour fouille de données ou apprentissage automatique. ### Approche Big Data (1) - Les sources d'information guident la découverte créative. ### Approche traditionnelle versus approche Big Data - Approche traditionnelle - Approche Big Data - Fusion de deux approches ## Mise en place d'un projet Big Data - Choisir d'investir dans le Big Data est un premier pas, encore faut-il que les besoins métier soient identifiés en amont. - Deux étapes: Instruction & Conception ### Instruction - Instruction: Essentielle à chaque projet et prend tout son poids dans ce type de chantiers. - **Recueillir les besoins métier réels.** - **Recenser des problématiques récurrentes** - **Collecter:** Recueil interne (systèmes transactionnels, interactionnels, Internet des objets) ou acquisition externe (achat auprès d'acteurs tels que Linkedin, Reuters, Google, datamarkets) - **Stocker:** - Arbitrage sur les exigences de confidentialité, de performance des systèmes, d'externalisation et de besoin en cloud computing et business intelligence. - **Analyser:** Choix de la technique: du data mining aux techniques de traitement du signal, adaptées à environnentent de données dont la taille croît exponentiellement. - **Diffuser:** Anticipation des modalités et des outils Informatiques de diffusion des résultats auprès des acteurs responsables de la tarification, de la relation client... ### Conception - Choisir une technologie. - Réaliser un proof of concept sur des jeux de données et des volumes suffisants pour évaluer les technologies concurrentes. - Structurer son système de Big Date. ## Fusionner l'approche Big Data avec l'approche Traditionnelle - La question n'est pas : Dois-je choisir entre l'approche classique et l'approche Big Data? - Mais plutôt : Comment les faire fonctionner ensemble ? | Approche Traditionnelle | Approche Big Data | | --------------------------- | ------------------------ | | Analyse structurée et répétée | Analyse itérative et exploratoire | | Responsables Métier Déterminent quelles questions poser | Responsables li Fournissent une plateforme pour permettre la découverte créative | | Responsables IT Structurent les données pour répondre à ces questions | Responsables Métier Explorent la plateforme pour déterminer quelles quesHorns poser | ## Mise en place du Big Data: des chantiers de grande ampleur ### Méthodologie: - **Une approche progressive et itérative** - Dans ce type de projets, le modèle classique du cycle en V est déconseillé. - Il faut au contraire construire la solution progressivement, en prévoyant quelques itérations comprenant des interactions avec les futurs utilisateurs. - Données sont au cœur des attentes. Un dialogue permanent avec les utilisateurs des données doit être établi. - Les méthodes incrémentales sont donc adaptées à ce type de projet: - Il s'agit de diviser le projet en incréments, c'est-à-dire en parties fonctionnelles cohérentes. - Chaque incrément pouvant être testé séparément et faisant l'objet de plusieurs itérations. - L'objectif est d'impliquer les utilisateurs dans le développement, la fourniture des exigences et l'évaluation des itérations. ## Impacts du Big Data dans l'entreprise (1) - La Big Data impacte l'ensemble de l'entreprise et permet de remettre le client au cœur de la stratégie : - Tous les départements sont concernés par l'exploitation du Big Data: Marketing, Communication, Digital, RH, Études, Commercial, Finances, Innovation, Direction Générale... - Finie la démarche Top Down où la Marque pousse sa stratégie vers le consommateur, en espérant que celle ci cadre avec les attentes de ses cibles. La Big Data permet, via l'analyse data, de se défaire de cette angoisse puisqu'elle remet le consommateur au cœur de la stratégie de l'entreprise. - Ainsi, le comportement du consommateur, ses centres d'intérêt et ses prises de parole libres générés à grande échelle sont agrégés et analysés afin de créer ce fameux cadre stratégique, qui devient par définition totalement ajusté aux besoins et attentes des clients, et permet à la Marque d'alimenter toutes les directions de l'entreprise de façon innovante et performante. ## Impacts du Big Data dans l'entreprise (2) - **Top-Down** - Marque vers Consommateur - MARQUE - Marketing - Communication - Etudes - Innovation - RH - Direction Générale - Etudes - Digital - Communication - Innovation - Marketing - **Le BIG DATA basé sur les infos Consommateur alimente la MARQUE** ## Impacts du Big Data dans l'entreprise (3) - L'emergence de nouveaux metiers capables de gérer vos données cternet et d'en extraire les bonnes informations : - **Architecte Big Data:** - Connaissance infrastructures et logiciels Big Data. - Connaissances en modélisations. - **Data Analyst** - Connaissance des logiciels & langages Big Data. - Connaissance en modélisations. - **Data Scientist:** - Connaissance des logiciels & langages Big Data. - Connaissance en modélisations. - Connaissances metiers. - **Chief-Data-Officer (Directeur des données):** - Responsable des données et de leur gouvernance (collecte, traitement, sauvegarde, accès). - Responsable de l'analyse des données et aide à la decision. - Mettre en œuvre des équipes agiles & transverses. ## Enjeux stratégiques - Big Data: pour qui, pour quoi ? - Impacts du Big Data dans l'entreprise ## Big Data: pour qui, pour quoi ? - Des arômes et ingrédients quse déclinent dans tous les secteurs d'activité | Sector | Area | |---|---| |Industrie | Profail coe roet, Qualte, innovation RSD, Maintenancерментны | |Assurance | Fraudes et risques, Recommandation client, Tarification à l'usage, personnalisations | |Secteur public | Services Informationnels, Fraudes, abus, Sécurité publique, Personnalisation de la retation citoyen | |Distribution | per_onnalise's | |Santé | Gestion des effels indésirables, Traitements personnalisés, Amélioration des diagnostics | |Telecom | Parcours chents multi CHITILUX, Partage de données de géo localisation, Fraudes et analyse du comportement client | |Banques | Parcours chents mufti canaux, Fraude, ant blanchiment, Partage des données consommateurs pour personalisation | |Transports, loisirs | Planification of gentian des evts liés à la logistique, Servico chient toimps 1Gel, Economie d'énergie, Pricing dynamique | |Produits gde conso.| Analyse the sentiments it relour produits, Relation personnabse, Produit comme un service | ## Enjeux technologiques