Management Stratégique des Données (Big Data - PDF)
Document Details
Uploaded by MDA74
TELECOM Lille 1
Tags
Summary
This document is about the strategic management of data, or big data. It covers definitions, key issues, technologies, and analysis of data. It presents exercises and questions, and explores the ecosystem of platforms and monetization related to the topic.
Full Transcript
Management stratégique des données (Big Data- Mégadonnées) Tous droits réservés à STUDI - Reproduction interdite Table des matières...
Management stratégique des données (Big Data- Mégadonnées) Tous droits réservés à STUDI - Reproduction interdite Table des matières Table des matières I. Introduction 3 II. Données massives (Big Data) 3 A. Définitions utiles..........................................................................................................................................................3 B. Enjeux des mégadonnées............................................................................................................................................4 C. Data Lakes (lacs de données)......................................................................................................................................5 D. Technologies employées pour le Big Data..................................................................................................................6 E. Intelligence Artificielle (IA) et Machine Learning.........................................................................................................7 III. Exercice : Quiz 8 IV. Analyse et sécurisation des données 9 A. Analyse de données (data analyses)...........................................................................................................................9 B. Sécurité des mégadonnées (data sécurité)...............................................................................................................11 V. Exercice : Quiz 13 VI. Écosystème des plateformes et monétisation 14 A. Plateformes................................................................................................................................................................14 B. Stratégie écosystémique............................................................................................................................................14 C. Monétisation des données et contenus....................................................................................................................15 D. Défis autour de la monétisation des données..........................................................................................................15 E. Monétisation des contenus et ses leviers..................................................................................................................16 VII. Exercice : Quiz 16 VIII. Essentiel 17 Solutions des exercices 18 2 Tous droits réservés à STUDI - Reproduction interdite I. Introduction Contexte Sens et portée de l'étude Compétences visées Notions et contenus Appréhender les Comprendre les enjeux liés Big data, data analyses, opportunités et les défis aux mégadonnées. data sécurité des données massives (mégadonnées). Identifier les grandes Écosystème des étapes du traitement des plateformes Intégrer la monétisation données et des des données/contenus. mégadonnées. Datacenter et cloud computing Aborder la sécurité des Accompagner une données massivement démarche de mise en accessibles en ligne. cohérence et en sécurité des solutions SI externalisées. Rappel Le programme du DSCG suppose connu celui du DCG Lien avec le référentiel DSCG UE5 Module 1 - Gouvernance des Systèmes dʼInformation (SI) Chapitre 1.4 Management stratégique des données (Big Data-Mégadonnées) II. Données massives (Big Data) A. Définitions utiles Le « Big Data » (« mégadonnées », « données massives » ou « grosses données » en français), est devenu une réalité qui bouscule les habitudes, offre de nouvelles opportunités de création dʼaffaires, mais peut aussi être vu comme une menace pour lʼéquilibre de nos sociétés. Définition Le Big data selon la CNIL Le Big data selon la CNIL1 « Avec le développement des nouvelles technologies, dʼinternet et des réseaux sociaux ces vingt dernières années, la production de données numériques a été de plus en plus nombreuse : textes, photos, vidéos, etc. Le gigantesque volume de données numériques produites combiné aux capacités sans cesse accrues de stockage et à des outils dʼanalyse en temps réel de plus en plus sophistiqués, offre aujourdʼhui des possibilités inégalées dʼexploitation des informations. Les ensembles de données traités correspondant à la définition du Big Data répondent à trois caractéristiques principales : volume, vélocité et variété. » 1 https://www.cnil.fr/fr/definition/big-data Données massives (Big Data) Reprenons les éléments constitutifs de cette définition : Une évolution des technologies permet la création de données numérisées en grand volume. Les capacités de stockage sont elles aussi en progrès (baisse des coûts, miniaturisation) et peuvent donc absorber ces données produites au sein de data centers. Les outils dʼanalyse deviennent plus performants et peuvent donc traiter ces données pour en extraire des informations utilisables par les détenteurs de ces données. Définition Data center (source : CISCO) « Un data center [...] est une infrastructure composée dʼun réseau dʼordinateurs et dʼespaces de stockage. Cette infrastructure peut être utilisée par les entreprises pour organiser, traiter, stocker et entreposer de grandes quantités de données. Un centre de données basique regroupe des serveurs, des sous-systèmes de stockage, des commutateurs de réseau, des routeurs, des firewalls, et bien entendu des câbles et des racks physiques permettant dʼorganiser et dʼinterconnecter tout cet équipement informatique. Pour fonctionner correctement, un Data Center doit aussi abriter lʼinfrastructure adéquate : un système de distribution dʼénergie, des générateurs dédiés au backup, un système de ventilation et de refroidissement, et une puissante connexion internet. Une telle infrastructure nécessite un espace physique suffisamment vaste et sécurisé pour contenir tout cet équipement. » B. Enjeux des mégadonnées En 2021, selon Stock Apps, le marché mondial du Big Data et de lʼanalyse de données est évalué à plus de 215 milliards de dollars (alors quʼen 2016 des études prévoyaient un volume de 66 milliards pour lʼannée 2021 !). La multiplication des appareils mobiles et connectés, lʼaccès à des technologies open source ainsi que la période pandémique avec le développement du travail à distance, ont favorisé le développement dʼun phénomène qui ne cesse de prendre de lʼampleur. Exemple Exemples de sources de données massives pour un service marketing dʼune entreprise Les sources de données accessibles sont nombreuses, cela va des moteurs de recherche et navigateurs internet aux formulaires en ligne et réseaux sociaux. Les données mobiles (géolocalisation, requêtes et intentions de recherches, informations récoltées via des applications mobiles) et celles issues des assistants vocaux (requêtes et intentions de recherches, habitudes de consommation, goûts personnels) sont tout aussi fournies. Viennent sʼajouter les données non structurées issues des forums en ligne, les données ouvertes (Open data), celles relatives aux achats en ligne, sites de recommandation et dʼavis client, mais aussi celles du Web en général (médias en ligne, sites dʼinformations spécialisés, sites dʼentreprises concurrentes, etc.), les données fournies par les objets connectés ou encore récoltées en magasin, les études statistiques, etc. Parmi toutes ces sources, seules celles qui permettent dʼaccéder à des données numérisées, de grands volumes et pour un coût unitaire très faible, peuvent alimenter des dispositifs qualifiés de Big Data. Fondamental Pour faire face aux enjeux du Big Data, les organisations doivent réorganiser les SI ce qui implique lʼusage dʼoutils spécifiques et la mise en œuvre de stratégies adaptées (y compris via le recrutement de profils spécialisés). 4 Tous droits réservés à STUDI - Reproduction interdite Données massives (Big Data) Complément 3V, 4V voire davantage... Le Gartner group, entreprise américaine de conseil et de recherche dans le domaine des techniques avancées, sʼarrête sur les critères des 3V (Volume, variété et vélocité) cités précédemment. Cependant, la liste des V ne cesse de sʼallonger, et on évoque les critères 5V, 7V, etc., voire 10V ! Voici un tableau récapitulatif non exhaustif de quelques critères. Veillez à retenir les 4 premiers critères. Volume À partir de quelques dizaines de Téraoctets, etc. Données non structurées, semi-structurées Variété (audio, vidéo, etc.). Vitesse, dans le sens fréquence de création, Vélocité collecte et partage des données. Important pour que lʼanalyse soit pertinente et Véracité les résultats significatifs : pas dʼanomalie, les données sont testées. Utiles à la prise de décision business. Fait Valeur référence à lʼobjectif : sans utilité, la donnée ne devrait pas être stockée. Données utiles à des fins multiples, formatables Variabilité de différentes façons. Visibilité Relatif à la forme et lʼaccessibilité de la donnée. Attention Le Big Data est lié à des approches différentes de celles de lʼinformatique décisionnelle : tout dʼabord il faut noter que les volumes et technologies différent, ensuite que les mégadonnées sont liées à des capacités prédictives (et pas seulement analytiques). Ces données ne sont pas stockées dans un SGBDR habituel ou un tableur, et sont collectées de manière automatisée en interne et en externe (réseaux sociaux, Web, etc.) ! C. Data Lakes (lacs de données) Définition Data lake (lac de données) Un Data lake (lac de données) contient des données sous une forme non structurée. Attention Il ne sʼagit pas dʼune version améliorée d'un entrepôt de données (Data Warehouse), les données ne subissent pas de traitement ou dʼanalyse préalable. Le Data Lake est supposé supporter des sources diverses, ainsi que des formats variés. Les données sont conservées dans un format brut, dʼorigine. Le modèle de données schema-on-read auquel on recourt permet de charger les données sans se préoccuper de leur structure, ce qui confère au lac de données une grande flexibilité quand on va lʼalimenter via des traitements par lots (millions dʼamas de données traitées sur des périodes conséquentes) ou du traitement de flux (petits lots traités en temps réel). Les données sont issues dʼobjets connectés, des navigations sur le Web (liens cliqués consécutivement) ou encore des messages postés sur les réseaux sociaux. Tous droits réservés à STUDI - Reproduction interdite 5 Données massives (Big Data) Remarque Une gouvernance des données doit être mise en place pour éviter que la qualité et la fiabilité des données soient mises en péril (surstockage de données voire accumulation de déchets informationnels) : le terme de marécage de données (Data Swamp) est évoqué lorsque les processus et traitements sont inadaptés. Cette gouvernance doit aussi impliquer une sécurisation des données (protection des données sensibles, droits dʼaccès, etc.), une rationalisation de la collecte, qui peut être moins importante au départ (le stockage de données à moindre coût peut entraîner une accumulation masquant les informations utiles), le développement dʼune stratégie d'apprentissage machine (recrutement de personnel qualifié pour mettre en place un nettoyage et une analyse des données adaptés), et une définition claire des objectifs (problématiques métiers clairement établies). D. Technologies employées pour le Big Data Le Big data nécessite de recourir à des technologies permettant des traitements rapides sur de gros volumes : Informatique dans les nuages (Cloud Computing), qui désigne un service de mise à disposition de ressources et services via internet (à la demande et tarifés à la consommation). Ainsi lʼorganisation accède à un stockage massif avec un coût de possession moindre. Bases de données dénormalisées du type NoSQL (Not Only SQL), cʼest-à-dire que les données sont redondantes, mais les solutions sont scalables et performantes. Technologies de traitement ajustées, qui regroupent des frameworks (Hadoop et Spark dʼApache, Storm, Flink et Hive) qui sʼappuient sur des algorithmes de calcul à haute performance (citons MapReduce utilisé par Google) et facilitent le traitement rapide des données. Complément Exemples de technologies et applications Le tableau suivant présente quelques applications possibles via les technologies citées précédemment. Notons avec intérêt que ces technologues sont des outils open source (Apache étant leader dans le domaine), ce qui favorise leur adoption à grande échelle, mais nécessite tout de même des compétences rares en interne pour leur intégration et leur évolution (inspiré de mobiskill,1 2021). Le plus populaire. Pas de capacité de traitement en temps réel, mais permet de créer des algorithmes de trading, dʼévaluer des risques, créer des modèles dʼinvestissement, améliorer la relation client, proposer Apache des recommandations (utilisé à lʼorigine pour la Hadoop suggestion de contacts sur Facebook, dʼemplois sur LinkedIn, de contenus sur Netflix, etc.), faire de la maintenance prédictive dʼappareils connectés et autres infrastructures, etc. Considéré comme le successeur de Hadoop. Permet lʼanalyse en temps réel, avec des résultats 100 fois plus rapides que son prédécesseur. Propose un ensemble dʼAPI sophistiquées, le nettoyage en continu de données Apache Spark ETL avant leur transfert vers des data warehouses, la détection de traitements inhabituels, un framework de machine learning (segmentation de clientèle, analyse des sentiments, etc.) et des outils de visualisation. 1 https://mobiskill.fr/blog/conseils-emploi-tech/big-data-quels-frameworks-utiliser/ 6 Tous droits réservés à STUDI - Reproduction interdite Données massives (Big Data) Analyse de haute précision, avec une forte tolérance aux Flink pannes et un haut débit. Capacité dʼinterconnexion à différentes sources de données. Vitesses de traitement élevées et sophistiquées, outil Apache Storm facilement évolutif et très convivial. Analyse en temps réel, machine learning, ETL, etc. Vitesses de traitement très élevées et sophistiquées, outil Apache Hive facilement évolutif et très convivial. Analyse en temps réel, machine learning, ETL, etc. E. Intelligence Artificielle (IA) et Machine Learning Fondamental Le Big Data implique de transformer la donnée en valeur grâce à des systèmes complexes capables dʼapprendre et de raisonner. Définition Intelligence artificielle Source : OCI1 LʼIntelligence Artificielle (IA) est un terme large qui désigne des systèmes ou des machines simulant une forme d'intelligence humaine. Plusieurs approches sont possibles au sein de lʼIA : Le RPA (Robotic Process Automation), qui est un mode dʼapprentissage supervisé, les « robots », en fait une combinaison de dispositifs matériels (par exemple des scanners pour numériser des documents papier et des logiciels de reconnaissance optique) qui vont collecter, trier, consolider, retravailler les données au travers de routines bien définies. Lʼanalyse sémantique, qui permet dʼexploiter les textes, les messages, bref, tous les échanges écrits ou même vocaux, et de les transformer en données exploitables pour les entreprises. Le Machine Learning et le Deep Learning (développés ci-après). Le Predictive Analytics : les outils de prédictions et de simulations. Définition Machine learning (apprentissage automatique) Source : OCI2 La Machine Learning (ML) est une forme dʼIntelligence Artificielle (IA) qui est axée sur la création de systèmes qui apprennent, ou améliorent leurs performances, en fonction des données quʼils traitent. Ses capacités prédictives permettent de prendre des décisions prospectives et proactives au lieu de sʼappuyer sur des données antérieures : maintenance prédictive des équipements (planification des interventions et gestion des temps dʼarrêt imprévus par une meilleure gestion des stocks des pièces de rechange). 1 https://www.oracle.com/dz/artificial-intelligence/machine-learning/what-is-machine-learning/#:~:text=L'intelligence%20artific ielle%20est%20un,pas%20exactement%20au%20m%C3%AAme%20concept 2 https://www.oracle.com/dz/artificial-intelligence/machine-learning/what-is-machine-learning/#:~:text=L'intelligence%20artific ielle%20est%20un,pas%20exactement%20au%20m%C3%AAme%20concept Tous droits réservés à STUDI - Reproduction interdite 7 Exercice : Quizsolution La machine learning va permettre dʼautomatiser des routines plus complexes en nous épargnant dʼavoir à prévoir tous les cas de figure. Cette technique permet dʼextraire de lʼinformation à partir de sources non structurées, sans règles initiales, par un processus dʼapprentissage continu. Exemple Usages du machine learning Source : OCI1 « Lorsque nous interagissons avec les banques, achetons en ligne ou utilisons les médias sociaux, des algorithmes de machine learning entrent en jeu pour optimiser, fluidifier et sécuriser notre expérience. Les entreprises les utilisent, entre autres, pour : Identifier, comprendre et fidéliser leurs clients les plus précieux puis concentrer leurs efforts de marketing sur la nécessité dʼencourager ces clients à valeur ajoutée à interagir plus souvent avec leur marque. Identifier les clients susceptibles de cesser leurs investissements dans une entreprise et les raisons. La modélisation du taux de perte des clients aide les entreprises à optimiser les promotions, les campagnes par e- mail et dʼautres initiatives de marketing ciblées. Des algorithmes de clustering et de classification permettent de regrouper les clients en personnalités, en fonction de variantes spécifiques (démographie, le comportement de navigation et lʼaffinité). À mesure que le volume des données disponibles dans les entreprises augmente et que les algorithmes deviennent plus sophistiqués, les capacités de personnalisation augmentent, permettant ainsi aux entreprises de se rapprocher du segment de clientèle idéal. Analyse automatisée des écarts entre réels et prévisions pour les départements financiers de lʼentreprise. Classification des images par attribution dʼétiquettes à une image entrante à partir dʼun ensemble déterminé de catégories. Permet par exemple la modélisation des plans de construction 3D à partir de conceptions 2D, le marquage de photos dans les médias sociaux, la documentation des diagnostics médicaux. Détection de potentielles complications dans une image : prise en compte des variations de point de vue, de lʼéclairage, de lʼéchelle ou du volume dʼencombrement dans lʼimage. Moteurs de recommandation pour la vente croisée et la vente incitative, et lʼamélioration de lʼexpérience client ». Complément Deep Learning (réseau de neurones profond) Branche du Machine Learning (1986, Geoffrey Hinton), cette technique « utilise des couches de nœuds de calcul qui constituent ces réseaux et travaillent en collaboration pour traiter les données et délivrer des prédictions. Ces réseaux de neurones sʼinspirent directement du fonctionnement du cerveau humain. Les nœuds de calcul sont comparables aux neurones, et le réseau en lui-même sʼapparente au cerveau. » (Source : DataScientest2). Exercice : Quiz [solution n°1 p.19] Question 1 1 https://www.oracle.com/dz/artificial-intelligence/machine-learning/what-is-machine-learning/#:~:text=L'intelligence%20artific ielle%20est%20un,pas%20exactement%20au%20m%C3%AAme%20concept 2 https://datascientest.com/machine-learning-tout-savoir 8 Tous droits réservés à STUDI - Reproduction interdite Analyse et sécurisation des données Pour qualifier le Big data, on évoque les critères suivants : Volume, Vacuité et Véracité Volume, Vélocité et Variété Volume, Vélocité et Vanité Volume, Vélocité, Variété, Véracité Question 2 Pour faire face au Big Data, les organisations doivent : Utiliser les outils adaptés Éventuellement recruter des profils spécialisés Réorganiser les SI Question 3 Big Data et informatique décisionnelle désignent les mêmes concepts. Vrai Faux Question 4 Un Data Lake : Contient des données sous une forme non structurée Est un entrepôt de données Contient des données qui ont subi un traitement ou une analyse préalable Question 5 Le Machine Learning : Est une solution qui permet dʼexploiter tous les échanges écrits ou même vocaux, et de les transformer en données exploitables Est une forme dʼIA (Intelligence Artificielle) Permet de prendre des décisions uniquement basées sur les données antérieures IV. Analyse et sécurisation des données A. Analyse de données (data analyses) Les usages sont nombreux, comme évoqué dans lʼexemple précédent à propos des technologies de machine learning : marketing (le terme data marketing étant usité), recherche scientifique, maintenance prédictive, profilage, cybersécurité, sport, etc. Alors que lʼinformatique décisionnelle (BI, Business Intelligence) évoque le Data Mining (forage de données, analyse en vue dʼen tirer des informations utiles et dʼétablir des relations de causalité), il est question pour les mégadonnées de Data Analytics (ou data analysis, analyses de données). Tous droits réservés à STUDI - Reproduction interdite 9 Analyse et sécurisation des données Lʼobjectif est de donner un sens aux données. Cette science permet de faire le lien entre les technologies évoquées précédemment et lʼinterprétation humaine, via lʼusage des outils dʼETL et la mise à disposition des outils de visualisation des données (Dataviz). Des analyses avec différents objectifs « Aujourd'hui, presque toutes les organisations se sont transformées en organisations data-driven, ce qui signifie qu'elles déploient une approche visant à collecter davantage de données relatives à leurs clients, marchés et processus commerciaux. Ces données sont ensuite classées, stockées et analysées pour leur donner un sens et en tirer des informations précieuses. (...) Les différents outils de Data Analytics utilisent différentes manières pour analyser les données (...) : Dans l'analyse descriptive, vous travaillez sur la base des données entrantes, et pour l'exploitation de ces données, vous déployez des analyses et obtenez une description basée sur les données. Lʼanalyse prédictive garantit que le chemin est prédit pour le futur plan d'action. Analyse diagnostique : il s'agit de regarder dans le passé et de déterminer pourquoi une certaine chose s'est produite. Ce type d'analyse s'articule généralement autour d'un tableau de bord. Analyse prescriptive : il s'agit d'une analyse basée sur des règles et des recommandations afin de prescrire une certaine voie analytique à l'organisation. » (Blog Oracle France, 23 juin 2022, Oracle France1). Exemple Usages de lʼanalyse de données (data analysis / analytics) Finances : détection de pratiques commerciales illégales sur le marché boursier, les banques, etc., lutte contre le blanchiment d'argent, KYC (Know Your Customer, procédures permettant aux banques et plateformes cryptomonnaies d'identifier les clients), atténuation des fraudes et gestion des risques d'entreprises. Santé : amélioration des opérations quotidiennes et optimisation des soins (prédiction des risques d'infection, de détérioration et de réadmission), priorisation des investissements sur des traitements à partir d'informations multiples (comportements sur les réseaux sociaux, dépenses liées aux traitements, informations de bracelets connectés des patients, etc.). Marketing : analyse des préférences des clients. Ressources humaines : analyse de la rentabilité des interventions en matière de RH (recrutement, formation, etc.). Événements sportifs : utilisation par les soigneurs et entraîneurs des données physiologiques des joueurs (accélérations, rythmes cardiaques, etc.). Remarque Au sein de lʼanalyse des données (data analytics), on peut encore différencier les sciences suivantes : Lʼanalyse de données exploratoires (EDA, Exploratory Data Analysis) qui fait ressortir de nouveaux éléments au sein des données existantes. Lʼanalyse de données confirmatoires (CDA, Confirmatory Data Analysis), éprouvant les hypothèses existantes. Lʼanalyse de données qualitatives (QDA, Qualitative Data Analysis), utiles pour les sciences sociales, car permettant de tirer des conclusions à partir de données non numériques telles que des mots, photographies, vidéos, etc. 1 https://blogs.oracle.com/oracle-france/post/quest-ce-que-le-big-data-analytics 10 Tous droits réservés à STUDI - Reproduction interdite Analyse et sécurisation des données B. Sécurité des mégadonnées (data sécurité) Pour sécuriser les usages, qui sont intimement liés au recours à une informatique dans les nuages (coûts moindres, expertise du prestataire, centrage sur le cœur de métier, etc.), et fiabiliser les solutions (en termes de disponibilité et performance) tout en favorisant lʼévolutivité du SI, la mise en place et le maintien dʼune gouvernance des données sont nécessaires. Par ailleurs, on recourt aux solutions Big Data en environnement ultra-connecté, impliquant de sʼintéresser aux problématiques de sécurisation et dʼusage des données personnelles. Exemple Lʼusage des fichiers journaux (enregistrement de certaines des actions effectuées sur les systèmes informatiques) doit se faire dans le respect du RGPD (Voir CNIL1). Il nʼest pas permis, par exemple, dʼutiliser les informations issues des dispositifs de journalisation pour compter les heures travaillées : dans ce cas cʼest un détournement de finalité, puni par la Loi. À ce titre, en 2021 la CNIL a adopté une recommandation portant sur la mise en place de mesures de journalisation (cf. CNIL2). La sécurité du Big Data demeure une question délicate : la « dépérimetrisationdépérimetrisation » offre de superbes possibilités de captage de nombreuses données via des objets connectés (capteur dʼune chaîne de production, réfrigérateur ou encore voiture connectée) sous toutes les formes possibles. Cependant, il sʼagit de sʼassurer dʼune sécurisation à la fois des échanges de bout en bout (du captage, dʼautant plus sʼil passe par des réseaux sans fil, au stockage à la diffusion), mais aussi de lʼintégrité des programmes traitant les données. Exemple La vulnérabilité des données lors des traitements « Lorsquʼelle est en traitement, la donnée est aussi particulièrement vulnérable. Sa protection est dʼautant plus difficile à appréhender dans ce contexte quʼelle implique également les programmes chargés de son traitement. Le risque étant quʼune modification malveillante du programme pourrait entraîner une action qui nʼaurait pas lieu dʼêtre ; par exemple, un véhicule qui ne freine pas alors quʼil le devrait (ou lʼinverse). Dès lors, cʼest toute lʼintégrité du programme, sa configuration et son intelligence (IA) qui doivent être préservées pour assurer la sécurité de la donnée. » Source : Silicon3 Exemple La sécurité des IoT, premier rempart « Extérieurs au système dʼinformation par définition, les objets connectés représentent (...) une surface dʼattaque colossale, avec autant de portes dʼentrée potentielles vers les données des organisations. Ils sont donc les premiers éléments à sécuriser pour limiter les risques de malveillance, en particulier dans les secteurs stratégiques, impactant la santé humaine ou aux enjeux économiques particulièrement importants. Cʼest évidemment le cas de lʼautomobile, du médical (santé connectée), des grands réseaux et Opérateurs dʼImportance Vitale (eau, électricité, télécommunications, armée/défense), et de toutes les grandes industries dont les arrêts de production sont économiquement dramatiques. Pour toutes ces activités en particulier, mais également pour lʼensemble de lʼéconomie, seul un niveau de sécurité intégré et homogène de bout en bout, depuis les objets connectés jusquʼaux profondeurs du Cloud, permettra dʼassurer la sécurité dʼun monde où la donnée est partout. » 4 Source : Silicon5 1 https://www.cnil.fr/fr/securite-tracer-les-acces-et-gerer-les-incidents 2 https://www.cnil.fr/fr/la-cnil-publie-une-recommandation-relative-aux-mesures-de-journalisation 3 https://www.silicon.fr/avis-expert/big-data-une-securite-lacunaire 4 https://www.silicon.fr/avis-expert/big-data-une-securite-lacunaire 5 https://www.silicon.fr/avis-expert/big-data-une-securite-lacunaire Tous droits réservés à STUDI - Reproduction interdite 11 Analyse et sécurisation des données Ainsi, lʼorganisation doit, en ce qui concerne les aspects techniques : Protéger les données des fuites (y compris au sein du Cloud, les plateformes doivent être rassurantes quant à la rigueur associée à la sécurisation des systèmes). Mettre en place un chiffrement des données. Rester vigilante quant aux solutions Open Source, nombreuses, mais basées sur les expériences et partages de communautés volontaires. Recourir à des solutions applicatives ayant fait leurs preuves. Repérer les violations dʼaccès (journalisation, techniques de visualisation des anomalies et fraudes). Dʼun point de vue organisationnel, les processus doivent permettre de : Mener une veille constante sur les nouvelles vulnérabilités, ce qui peut impliquer de collaborer avec des organisations du secteur en vue de partager autour des bonnes pratiques, Mettre en place une politique dʼauthentification rigoureuse, Sʼassurer que les finalités définies pour les traitements soient respectées (RGPD), Vérifier les prises de décisions proposées par les systèmes automatisés ne soient pas discriminantes (lʼanalyse prédictive permettant par exemple lʼoctroi dʼun emploi ou dʼun crédit), Sʼassurer que les profilages permettant de proposer des contenus pertinents selon les centres dʼintérêt détectés soient licites (ne pas conduire à des discriminations par exemple). Exemple Les algorithmes de profilage en ligne « Quels sont les risques pour les personnes ? Certaines informations que la personne considère comme particulièrement personnelles pourraient être utilisées à des fins de profilage. Le profilage pourrait placer la personne dans un groupe qui ne lui correspond pas vraiment. Les recommandations suggérées pourraient placer la personne dans une bulle de filtre, où seuls des contenus similaires à son historique lui sont proposés. Quelques conseils de la CNIL pour lʼentreprise : Minimiser les données collectées à des fins de profilage. Privilégier la transparence et informer la personne concernée du profil qui lui correspond. Analyser les catégories de données collectées pour identifier si elles pourraient conduire à des discriminations. Favoriser lʼexplicabilitéexplicabilité de lʼalgorithme dans son ensemble (globale) et sur chacune des décisions prises (locale). Permettre à la personne concernée de prendre la main sur le profil qui la caractérise. » Source : CNIL1 Enfin, dʼun point de vue managérial, lʼorganisation doit sʼassurer quʼelle dispose dʼune expertise technique précise, pour veiller et réaliser des tests de vulnérabilités et dʼintrusion (cf. cours sur lʼaudit du SI), mais aussi assurer la mise à jour des solutions. Ces spécialistes, recrutés ou sollicités via le marché spécialisé, interviennent aussi pour optimiser le stockage des données et former les collaborateurs. 1 https://www.cnil.fr/fr/intelligence-artificielle/dis-moi-ce-que-tu-cherches-je-te-dirai-qui-tu-es-les-algorithmes-de-profilage-en- ligne 12 Tous droits réservés à STUDI - Reproduction interdite Exercice : Quizsolution Remarque Sécuriser les systèmes et usages est coûteux. Avant toute chose, lʼobjectif de lʼorganisation doit être clairement défini. Si elle se lance dans lʼaventure (ou si, par la force des choses, elle doit faire face à de gros volumes de données), une définition claire des objectifs est vitale : les problématiques métiers sont clairement établies, et la gouvernance des données sʼassurera que des réponses sont apportées par le Big Data (et donc que le jeu en vaut la chandelle !). Exercice : Quiz [solution n°2 p.20] Question 1 Lʼanalyse des données peut servir au domaine du sport. Vrai Faux Question 2 Une organisation data-driven déploie une approche visant à : Collecter davantage de données relatives aux clients Collecter davantage de données relatives aux marchés Collecter davantage de données relatives aux processus commerciaux Question 3 Lʼanalyse de données qualitative (QDA, Qualitative Data Analysis) : Fait ressortir de nouveaux éléments au sein des données existantes Éprouve les hypothèses existantes Permet de tirer des conclusions à partir de données non numériques telles que des mots, photographies, vidéos, etc. Question 4 Dans lʼanalyse des données, lʼusage de fichiers journaux : Est utile pour discerner des anomalies et tracer les accès Est interdit Doit se faire dans le respect du RGPD Question 5 Pour sécuriser lʼusage des données, il vaut mieux ne pas échanger avec des concurrents les techniques utilisées. Vrai Faux Tous droits réservés à STUDI - Reproduction interdite 13 Écosystème des plateformes et monétisation VI. Écosystème des plateformes et monétisation A. Plateformes Lʼapproche écosystémique considère que les métiers (opérations, cycles de vie, processus, etc.) et les systèmes dʼinformation (outils, humains et règles et procédures) sont en symbiose. Une entreprise utilise une plateforme (une Marketplace par exemple), mais en quelque sorte devient et/ou se confond avec la plateforme. Ses processus sont amalgamés à ceux de lʼécosystème au sein duquel elle se développe ! Exemple Deezer est à la fois une entreprise (une licorne française, start-up avec une valorisation supérieure à un milliard de dollars) et une plateforme. Elle utilise certes une plateforme technologique, mais ses opérations, cycles de vie et processus sont en symbiose avec les SI, à tel point quʼen cas de rupture dʼinternet, son activité nʼexiste plus ! Développer sa plateforme (Darty qui propose la vente en ligne sur son propre site Web) et/ou intégrer les plateformes proposées par des prestataires (Décathlon qui vend via Rakuten), ce choix stratégique permet de créer de nouvelles chaînes de valeur, avec des impacts sur le développement des produits et services. Lʼentreprise entre ainsi dans une stratégie de partenariat via les écosystèmes accessibles (ce qui peut impliquer de collaborer avec ses concurrents afin dʼassurer une omniprésence sur un marché). Remarque Économie des plateformes Créées en 2008-2009, « les entreprises Airbnb et Uber sont devenues en quelques années des start-up mondiales, symboles de lʼessor dʼune nouvelle économie. Leurs modèles dʼaffaires [sont] fondés sur lʼexternalisation de la production auprès dʼune multitude de producteurs indépendants » (source : DARES1). B. Stratégie écosystémique En développant sa propre plateforme, une entreprise peut se positionner au centre du marché, en proposant des services innovants à forte valeur ajoutée. Toutefois, pour des raisons financières et/ou stratégiques, le recours à une plateforme existante peut ouvrir la voie à de nouveaux partenariats et marchés. Exemple En recourant à des API, une PME peut proposer à la vente des articles sur la Marketplace dʼAmazon de manière automatisée (interfaçage avec son ERP), et ainsi élargir ses possibilités de vente via de nouveaux canaux. Ces deux voies ne sont pas opposées, elles sont plutôt complémentaires : ainsi une entreprise ne dépendra pas dʼun seul écosystème (fragilisé par les relations avec ses fournisseurs et clients), mais pourra faire évoluer sa chaîne de valeur et anticiper ses évolutions dʼactivité en sʼassociant à des superpuissances économiques. 1 https://dares.travail-emploi.gouv.fr/publications/l-economie-des-plateformes 14 Tous droits réservés à STUDI - Reproduction interdite Écosystème des plateformes et monétisation C. Monétisation des données et contenus La monétisation des données (Data Monetization) relève de lʼexploitation et de la revente de données issues des processus de lʼentreprise (données de production, liées aux clients, aux concurrents et partenaires) en vue dʼen tirer un gain financier. Ces données peuvent être revendues (ou cédées contre des biens, services, concédées via des arrangements). Lorsquʼon recourt à un intermédiaire, on évoque le terme de Data Broker. Définition Data Broker Entreprise spécialisée dans la collecte et lʼexploitation de données personnelles en vue de leur commercialisation auprès dʼentreprises privées (annonceurs, grandes entreprises commerciales, banques, assurances, etc.). Certaines sont spécialisées dans les données immobilières, dʼassurances ou encore de crédit. Exemple « Il existe environ 4 000 entreprises de data brokerage à travers le monde, dont la société Acxiom, une des plus grandes, qui possède 23 000 serveurs travaillant jour et nuit sur la collecte et lʼanalyse de données de 500 millions de consommateurs tous pays confondus. (...) Chaque data broker détiendrait entre 3 000 et 5 000 informations sur un individu, de la constitution de son patrimoine à la race de son chien, en passant par la marque de sa voiture, ses habitudes alimentaires, ou la couleur de ses chemises. » (LA DÉPÊCHE TECH1). Remarque La monétisation des données implique davantage quʼune revente externe afin dʼen tirer des revenus. On évoque la notion de monétisation en interne pour désigner lʼanalyse des défaillances dans lʼexploitation des données afin de trouver des solutions dʼamélioration des activités et services (et donc, de la productivité). Exemple Deutsche Telekom monétise ses données en interne : elle les utilise pour optimiser ses activités et services clients. Elle propose aussi de nouveaux services à ses clients B2B en sʼappuyant sur des données agrégées et anonymisées : la monétisation est dans ce cas externe. Définition Data Driven Une entreprise Data Driven est pilotée par les données : elle prend ses décisions via une analyse continue des données. D. Défis autour de la monétisation des données Pour Google et Facebook, les données constituent une manne ; leur monétisation est la principale source de revenus de ces plateformes colossales. Elles ne sont cependant pas à l'abri de scandales récurrents, comme lʼactualité en témoigne. Les défis à relever pour toute entreprise souhaitant intégrer le marché de la revente de données sont, entre autres, les suivants : Le respect de la Réglementation sur la Protection des Données (RGPD). Le lobbying des consommateurs craignant pour leurs libertés individuelles et leur sécurité (un exemple édifiant étant le retrait de compteurs électriques connectés « Linky » dont la revente des données de « courbe de charge » permettait de discerner lʼabsence dʼun abonné à son domicile). 1 https://ladepeche.ma/data-brokers-les-nouveaux-grands-mechants-du-data-capitalisme/ Tous droits réservés à STUDI - Reproduction interdite 15 Exercice : Quizsolution Lʼimage, la réputation de lʼentreprise qui va susciter la méfiance chez les utilisateurs / clients. Les investissements conséquents (solutions techniques, compétences, etc.) qui doivent se justifier par un business plan solide. E. Monétisation des contenus et ses leviers Générer des contenus non pas via la revente de données, mais plutôt en proposant des produits numériques (écrits, vidéos, articles, etc.) est une voie de développement dʼun business pour une structure existante ou en voie de création. Les méthodes courantes de monétisation des contenus sont les suivantes : La publicité : cʼest une solution simple et populaire, mais qui ne peut être rentable que via une très forte audience, et ne doit pas nuire au message, voire masquer le contenu de la page. Cependant elle ne peut à elle seule fournir les revenus suffisants. La vente dʼun contenu premium (suffisamment rare pour être payé par le client - un livre blanc, un article de qualité ou encore une vidéo inédite) : assure un gain à lʼachat, voire un revenu régulier (abonnement) en fidélisant le client (exemple des plateformes de streaming de séries) via des offres différenciées. Le risque étant quʼune plateforme illégale revende voire offre ce contenu. Les applications payantes doivent sʼinscrire dans la même logique : des services ludiques et/ou rares pour que lʼutilisateur daigne payer. Le recours aux solutions de paiement proposées par lʼéditeur du système dʼexploitation (Google pay par exemple, rattaché à votre compte PayPal ou votre carte bleue préalablement enregistrée) facilite la monétisation de tels services. Lʼaffiliation consiste à être dans un partenariat (catalogue dʼun site e-commerce, affichage de bandeaux, promotion dʼun jeu concours, etc.), et assure des revenus élevés (au clic, au nombre de formulaires remplis, voire au CA) si le trafic est ciblé. Cette solution nécessite cependant des investissements élevés. La solution AdSense (liens contextuels présélectionnés par les algorithmes de Google) : faciles à intégrer, actualisés, ils manquent parfois de pertinence en termes de contenus. Lʼappel aux dons (exemple de Wikipédia). Exercice : Quiz [solution n°3 p.21] Question 1 Un Data Broker : Est une entreprise qui revend ses données Est une entreprise spécialisée dans la commercialisation de données Question 2 La monétisation en interne : Est la revente de données aux entreprises du même secteur Est la facturation en interne de lʼusage des données Est lʼanalyse des défaillances dans lʼexploitation des données afin de trouver des solutions dʼamélioration des activités et services Question 3 16 Tous droits réservés à STUDI - Reproduction interdite Essentiel Une entreprise Data Driven est : Spécialisée dans la commercialisation de données Pilotée par les données Revend ses données Question 4 Le RGPD interdit la monétisation des données. Vrai Faux Question 5 Lʼaffiliation consiste, par exemple, à : Vendre un contenu premium Recourir à un bandeau dʼaffichage Utiliser le système Ad Sense de Google VIII. Essentiel Le gigantesque volume de données numériques produites combiné aux capacités sans cesse accrues de stockage et à des outils dʼanalyse en temps réel de plus en plus sophistiqués offre aujourdʼhui des possibilités inégalées dʼexploitation des informations. Les ensembles de données traités correspondant à la définition du Big Data répondent à trois caractéristiques principales : volume, vélocité et variété. Pour faire face aux enjeux du Big Data, les organisations doivent réorganiser les SI ce qui implique lʼusage dʼoutils spécifiques et la mise en œuvre de stratégies adaptées (y compris via le recrutement de profils spécialisés). Un Data Lake (lac de données) contient des données sous une forme non structurée. Le Big data nécessite de recourir à des technologies permettant des traitements rapides sur de gros volumes : Informatique dans les nuages (cloud computing). Bases de données dénormalisées du type NoSQL (Not Only SQL). Technologies de traitement ajustées, qui regroupent des frameworks qui sʼappuient sur des algorithmes de calcul à haute performance et facilitent le traitement rapide des données. LʼIntelligence Artificielle (IA) est un terme large qui désigne des systèmes ou des machines simulant une forme d'intelligence humaine. La Machine Learning (ML) est une forme dʼIntelligence Artificielle (IA) qui est axée sur la création de systèmes qui apprennent, ou améliorent leurs performances, en fonction des données quʼils traitent. Alors que lʼinformatique décisionnelle (BI, Business Intelligence) évoque le Data Mining (forage de données, analyse en vue dʼen tirer des informations utiles et dʼétablir des relations de causalité), il est question pour les mégadonnées de Data Analytics (ou data analysis, analyses de données), avec lʼobjectif de donner un sens aux données. Pour sécuriser les usages, qui sont intimement liés au recours à une informatique dans les nuages (coûts moindres, expertise du prestataire, centrage sur le cœur de métier, etc.), et fiabiliser les solutions (en termes de disponibilité et performance) tout en favorisant lʼévolutivité du SI, la mise en place et le maintien dʼune gouvernance des données sont nécessaires. Développer sa plateforme et/ou intégrer les plateformes proposées par des prestataires, ce choix stratégique permet de créer de nouvelles chaînes de valeur, avec des impacts sur le développement des produits et services. Tous droits réservés à STUDI - Reproduction interdite 17 Solutions des exercices La monétisation des données (Data Monetization) relève de lʼexploitation et de la revente de données issues des processus de lʼentreprise en vue dʼen tirer un gain financier. On évoque la notion de monétisation en interne pour désigner lʼanalyse des défaillances dans lʼexploitation des données afin de trouver des solutions dʼamélioration des activités et services (et donc, de la productivité). Quant à la monétisation des contenus, elle peut se faire via la publicité, la vente de contenus premium, lʼaffiliation ou encore lʼappel aux dons. Solutions des exercices 18 Tous droits réservés à STUDI - Reproduction interdite Solutions des exercices Exercice p. 8 Solution n°1 Question 1 Pour qualifier le Big data, on évoque les critères suivants : Volume, Vacuité et Véracité Volume, Vélocité et Variété Volume, Vélocité et Vanité Volume, Vélocité, Variété, Véracité Le Gartner group, entreprise américaine de conseil et de recherche dans le domaine des techniques avancées, sʼarrête sur les critères des 3V (Volume, variété et vélocité) - cependant, on évoque les critères 5V, 7V, etc., en ajoutant la Véracité, la Valeur, la Variabilité, etc. Question 2 Pour faire face au Big Data, les organisations doivent : Utiliser les outils adaptés Éventuellement recruter des profils spécialisés Réorganiser les SI Pour faire face aux enjeux du Big Data, les organisations doivent réorganiser les SI ce qui implique lʼusage dʼoutils spécifiques et la mise en œuvre de stratégies adaptées (y compris via le recrutement de profils spécialisés). Question 3 Big Data et informatique décisionnelle désignent les mêmes concepts. Vrai Faux Le Big Data est lié à des connotations différentes de celles de lʼinformatique décisionnelle : les volumes et technologies différent, les mégadonnées sont liées à des capacités prédictives (et pas seulement analytiques). Ces données ne sont pas stockées dans un SGBDR habituel ou un tableur, et sont collectées de manière automatisée en interne et en externe (réseaux sociaux, Web, etc.). Question 4 Un Data Lake : Contient des données sous une forme non structurée Est un entrepôt de données Contient des données qui ont subi un traitement ou une analyse préalable Un Data Lake (lac de données) contient des données sous une forme non structurée. Il ne sʼagit pas dʼune version améliorée d'un entrepôt de données (Data Warehouse), les données ne subissent pas de traitement ou dʼanalyse préalable. Le Data Lake est supposé supporter des sources diverses, ainsi que des formats variés. Les données sont conservées dans un format brut, dʼorigine. Tous droits réservés à STUDI - Reproduction interdite 19 Solutions des exercices Question 5 Le Machine Learning : Est une solution qui permet dʼexploiter tous les échanges écrits ou même vocaux, et de les transformer en données exploitables Est une forme dʼIA (Intelligence Artificielle) Permet de prendre des décisions uniquement basées sur les données antérieures La Machine Learning (ML) est une forme dʼIntelligence Artificielle (IA) qui est axée sur la création de systèmes qui apprennent, ou améliorent leurs performances, en fonction des données quʼils traitent. Ses capacités prédictives permettent de prendre des décisions prospectives et proactives au lieu de sʼappuyer sur des données antérieures. Exercice p. 13 Solution n°2 Question 1 Lʼanalyse des données peut servir au domaine du sport. Vrai Faux Les usages de lʼanalyse des données sont nombreux : marketing (le terme data marketing étant usité), recherche scientifique, maintenance prédictive, profilage, cybersécurité, sport, etc. Question 2 Une organisation data-driven déploie une approche visant à : Collecter davantage de données relatives aux clients Collecter davantage de données relatives aux marchés Collecter davantage de données relatives aux processus commerciaux Les organisations data-driven déploient une approche visant à collecter davantage de données relatives à leurs clients, marchés et processus commerciaux. Ces données sont ensuite classées, stockées et analysées pour leur donner un sens et en tirer des informations précieuses. Question 3 Lʼanalyse de données qualitative (QDA, Qualitative Data Analysis) : Fait ressortir de nouveaux éléments au sein des données existantes Éprouve les hypothèses existantes Permet de tirer des conclusions à partir de données non numériques telles que des mots, photographies, vidéos, etc. Au sein de lʼanalyse des données (data analytics), on peut encore différencier les sciences suivantes : Lʼanalyse de données exploratoires (EDA, Exploratory Data Analysis) qui fait ressortir de nouveaux éléments au sein des données existantes, Lʼanalyse de données confirmatoires (CDA, Confirmatory Data Analysis), éprouvant les hypothèses existantes, 20 Tous droits réservés à STUDI - Reproduction interdite Solutions des exercices Lʼanalyse de données qualitative (QDA, Qualitative Data Analysis), utiles pour les sciences sociales car permettant de tirer des conclusions à partir de données non numériques telles que des mots, photographies, vidéos, etc. Question 4 Dans lʼanalyse des données, lʼusage de fichiers journaux : Est utile pour discerner des anomalies et tracer les accès Est interdit Doit se faire dans le respect du RGPD Lʼusage des fichiers journaux permet en effet de discerner des anomalies, mais aussi de tracer les actions des utilisateurs. Cependant il doit se faire dans le respect du RGPD. Question 5 Pour sécuriser lʼusage des données, il vaut mieux ne pas échanger avec des concurrents les techniques utilisées. Vrai Faux Dʼun point de vue organisationnel, les processus de lʼorganisation doivent permettre de mener une veille constante sur les nouvelles vulnérabilités, ce qui peut impliquer de collaborer avec des organisations du secteur en vue de partager autour des bonnes pratiques. Exercice p. 16 Solution n°3 Question 1 Un Data Broker : Est une entreprise qui revend ses données Est une entreprise spécialisée dans la commercialisation de données Une entreprise Data Broker est spécialisée dans la collecte et lʼexploitation de données personnelles en vue de leur commercialisation auprès dʼentreprises privées (annonceurs, grandes entreprises commerciales, banques, assurances, etc.). Certaines sont spécialisées dans les données immobilières, dʼassurances, de crédit, etc. Question 2 La monétisation en interne : Est la revente de données aux entreprises du même secteur Est la facturation en interne de lʼusage des données Est lʼanalyse des défaillances dans lʼexploitation des données afin de trouver des solutions dʼamélioration des activités et services On évoque la notion de monétisation en interne pour désigner lʼanalyse des défaillances dans lʼexploitation des données afin de trouver des solutions dʼamélioration des activités et services (et donc, de la productivité). Tous droits réservés à STUDI - Reproduction interdite 21 Solutions des exercices Question 3 Une entreprise Data Driven est : Spécialisée dans la commercialisation de données Pilotée par les données Revend ses données Une entreprise Data Driven est pilotée par les données : elle prend ses décisions via une analyse continue des données. Question 4 Le RGPD interdit la monétisation des données. Vrai Faux Pour toute entreprise souhaitant intégrer le marché de la revente de données, il sʼagira de respecter la Réglementation sur la Protection des Données (RGPD). Question 5 Lʼaffiliation consiste, par exemple, à : Vendre un contenu premium Recourir à un bandeau dʼaffichage Utiliser le système Ad Sense de Google Lʼaffiliation consiste à être dans un partenariat (catalogue dʼun site e-commerce, affichage de bandeaux, promotion dʼun jeu concours, etc., et assure des revenus élevés (au clic, au nombre de formulaires remplis, voire au CA, etc.) si le trafic est ciblé. Cette solution nécessite cependant des investissements élevés. 22 Tous droits réservés à STUDI - Reproduction interdite