Chapitre 2 : Introduction à la préparation des données PDF
Document Details
Uploaded by Deleted User
Dr. Ing. Rihab LAAJILI
Tags
Summary
Ce document présente une introduction à la préparation des données et aux méthodologies de science des données. Il décrit le processus CRISP-DM et la méthodologie ASUM-DM. Il met l'accent sur la compréhension des données, la préparation, la modélisation et le déploiement des données.
Full Transcript
# Chapitre 2 : Introduction à la préparation des données ## 1 INTRODUCTION Le premier chapitre se concentre la présentation des données et sur l'importance de sa préparation et de sa réduction dans le domaine du traitement de données. Il expose les motivations de ces processus, en mettant en évide...
# Chapitre 2 : Introduction à la préparation des données ## 1 INTRODUCTION Le premier chapitre se concentre la présentation des données et sur l'importance de sa préparation et de sa réduction dans le domaine du traitement de données. Il expose les motivations de ces processus, en mettant en évidence les implications de données mal préparées et en démontrant les avantages de la réduction de données. ## 2 METHODOLOGIES DE SCIENCE DE DONNEES Les méthodologies de science des données sont des approches structurées pour extraire des connaissances exploitables à partir des données. Elles jouent un rôle clé dans la résolution de problèmes, la prise de décisions et la création de valeur à partir des données. Les sections qui suivent présentent les trois méthodologies de science de données les plus utilisées. ### 2.1 CRISP-DM (CROSS-INDUSTRY STANDARD PROCESS FOR DATA MINING) CRISP-DM est un modèle de processus standardisé pour la gestion de projets de data mining et de science des données. Elle offre une approche systématique pour résoudre des problèmes complexes en utilisant des données, en garantissant une meilleure compréhension et une prise de décision éclairée. Elle permet une planification efficace, une collaboration interdisciplinaire et des itérations pour s'adapter aux changements. CRISP-DM est une méthodologie en six étapes qui guide le processus de data mining, de la compréhension du problème métier à la mise en production des modèles, en passant par la préparation des données et l'évaluation des résultats. #### 2.1.1. Compréhension du problème métier (Business Understanding) **Objectif:** Comprendre les objectifs commerciaux du projet et ses exigences spécifiques. **Étapes clés :** - Définir les buts de l'analyse. - Identifier les questions auxquelles les données doivent répondre. - Traduire les objectifs métier en objectifs de data mining. #### 2.1.2. Compréhension des données (Data Understanding) **Objectif:** Acquérir des données et en comprendre la structure et la qualité. **Étapes clés :** - Collecter les données initiales. - Examiner les données pour repérer les problèmes potentiels. - Explorer les relations entre les variables. - Identifier les données manquantes ou incohérentes. #### 2.1.3. Préparation des données (Data Preparation) **Objectif:** Nettoyer et transformer les données pour les rendre exploitables **Étapes clés :** - Sélectionner les variables pertinentes. - Gérer les valeurs manquantes et les doublons. - Transformer et formater les données (normalisation, création de variables factices). #### 2.1.4. Modélisation (Modeling) **Objectif:** Appliquer des techniques de modélisation pour créer des modèles prédictifs. **Étapes clés :** - Sélectionner les techniques de modélisation (régression, classification, etc.). - Diviser les données en ensembles d'entraînement et de test. - Ajuster les paramètres des modèles et les entraîner. #### 2.1.5. Évaluation (Evaluation) **Objectif:** Évaluer la performance des modèles et s'assurer qu'ils répondent aux objectifs métiers. **Étapes clés :** - Comparer les résultats des modèles avec les objectifs fixés. - Vérifier la fiabilité et la pertinence des modèles. - Déterminer si des ajustements sont nécessaires avant le déploiement. #### 2.1.6. Déploiement (Deployment) **Objectif:** Intégrer les modèles dans les processus métier et rendre les résultats exploitables. **Étapes clés :** - Déployer les modèles en production et documenter les processus et les résultats. - Assurer la maintenance et l'évolution du modèle en fonction des besoins. ### 2.2 ASUM-DM (ANALYTICS SOLUTIONS UNIFIED METHOD FOR DATA MINING) ASUM-DM est une méthodologie développée par IBM pour guider le processus d'exploration et d'analyse des données. Elle se concentre sur la découverte de connaissances utiles à partir de grandes quantités de données, en utilisant des techniques avancées de data mining. ASUM-DM est composée de plusieurs phases bien définies, chacune jouant un rôle spécifique dans le processus global d'analyse des données. #### 2.2.1. Analyser, Concevoir, Configurer et Construire **Analyser:** Étudier les besoins métier et les objectifs pour comprendre les attentes du projet. Cela implique la collecte des données nécessaires et l'identification des problèmes à résoudre. **Concevoir:** Définir l'architecture du modèle analytique et des processus. Planifier les solutions et élaborer les spécifications techniques et fonctionnelles. **Configurer:** Ajuster les outils et les environnements en fonction des besoins du projet. Cela peut inclure la mise en place de bases de données, d'outils d'analyse, et de systèmes adaptés. **Construire :** Développer et implémenter le modèle ou les algorithmes prédictifs à partir des données préparées, tout en assurant leur fiabilité et leur efficacité. #### 2.2.2. Déployer Intégrer les solutions analytiques développées dans l'infrastructure de l'entreprise. Cette étape consiste à mettre en production les modèles et à s'assurer qu'ils sont fonctionnels et accessibles aux parties prenantes. #### 2.2.3. Opérer et Optimiser **Opérer:** Superviser le fonctionnement du modèle en production, en s'assurant qu'il produit des résultats conformes aux attentes. Cela inclut également la gestion quotidienne du système. **Optimiser:** Améliorer continuellement les performances du modèle et des processus en fonction des retours d'expérience. Cette étape inclut le monitoring, la maintenance et l'ajustement des modèles pour maximiser leur efficacité. #### 2.2.4. Gestion de projet (Project Management) Ces étapes, regroupées sous la gestion de projet, assurent la planification, l'exécution, le suivi, et l'amélioration des solutions analytiques, tout en veillant à leur déploiement réussi et à leur utilisation optimale tout en assurant la documentation et la communication avec les parties prenantes. ### 2.3 TDSP (TEAM DATA SCIENCE PROCESS) TDSP est une méthodologie développée par Microsoft pour structurer et organiser le travail d'une équipe de data science. Elle fournit un cadre pour gérer efficacement l'ensemble du cycle de vie des projets, de la planification à l'implémentation : - **Axé sur la collaboration :** Encourage le travail en équipe entre data scientists, ingénieurs, et autres parties prenantes. - **Centré sur les bonnes pratiques:** Utilise des standards, des outils et des processus bien définis pour garantir la reproductibilité et la qualité des projets. - **Approche itérative :** Comme les autres méthodologies, TDSP est itératif et flexible, permettant des ajustements continus en fonction des retours. Ses étapes sont similaires à celles des méthodologies précédentes (CRISP-DM et ASUM-DM), mais TDSP met un accent particulier sur la collaboration d'équipe, la gestion des outils et la réutilisation des composants à travers plusieurs projets. ## 3 LES DIFFERENTS TYPES DE DONNEES ### 3.1 DONNEES STRUCTUREES Les données structurées sont celles qui ont été préalablement définies et organisées selon un schéma rigide avant leur stockage dans des systèmes de gestion de bases de données (comme les data warehouses). Ce processus est appelé "schema-on-write" (ou schéma à l'écriture), ce qui signifie que les données doivent être formatées avant d'être stockées. Le meilleur exemple de données structurées est la base de données relationnelle, où les informations sont classées dans des champs bien définis et peuvent être facilement interrogées via des langages comme SQL. Les avantages des données structurées incluent leur facilité de traitement, en particulier avec des algorithmes de machine learning, ainsi que leur accessibilité pour les utilisateurs professionnels qui peuvent interroger les données sans expertise technique approfondie. De plus, ces données bénéficient d'un large éventail d'outils disponibles pour leur traitement, étant donné leur maturité dans le domaine. Cependant, ces données présentent certains inconvénients. Leur structure rigide limite leur utilisation à des buts prédéfinis, réduisant leur flexibilité. En outre, les options de stockage sont restreintes à des environnements comme les data warehouses, qui sont rigides et coûteux à maintenir. Les exemples de données structurées incluent les feuilles de calcul Excel, les données de ventes (comme les codes-barres) et les statistiques de blogs. ### 3.2 DONNEES NON STRUCTUREES Les données non structurées, contrairement aux données structurées, ne suivent pas de schéma prédéfini avant leur stockage. Elles sont conservées dans leur format d'origine et ne sont formatées que lorsqu'elles sont utilisées, selon un processus appelé "schema-on-read" (ou schéma à la lecture). Ce type de données peut se présenter sous divers formats tels que des e-mails, des posts sur les réseaux sociaux, des fichiers de capteurs IoT, ou encore des images satellites. Les avantages des données non structurées résident dans leur flexibilité. Elles sont stockées dans leur format brut, ce qui permet de les adapter à divers cas d'utilisation. De plus, l'absence de préformatage permet une accumulation rapide des données. Enfin, ces données sont souvent stockées dans des data lakes, qui offrent une capacité de stockage massive et évolutive, surtout dans les environnements cloud. Néanmoins, les inconvénients des données non structurées incluent le besoin d'une expertise en data science pour les exploiter correctement, ainsi que l'utilisation d'outils spécialisés, parfois encore en développement. Les exemples de données non structurées incluent les avis clients, les échanges sur les réseaux sociaux, les discussions en ligne et les images satellites. ### 3.3 DONNEES SEMI-STRUCTUREES Les données semi-structurées se situent entre les données structurées et non structurées. Elles ne sont pas entièrement organisées dans une structure rigide, mais elles contiennent des métadonnées ou une organisation partielle qui permettent de les interpréter plus facilement. Les données semi-structurées combinent à la fois structure et flexibilité. Bien qu'elles ne suivent pas un modèle rigide, elles possèdent certains aspects structurés qui permettent de les indexer et de les rechercher facilement. Cette structure partielle facilite leur manipulation tout en préservant une certaine souplesse. Les applications courantes des données semi-structurées incluent la gestion des données clients, avec des formats comme XML/JSON qui permettent de stocker des informations sur les clients de manière flexible. Elles sont également utilisées dans l'analyse de logs pour le suivi des activités réseau, et dans les projets Big Data et IoT, où les capteurs génèrent des données semi-structurées, utiles pour des analyses en temps réel. ### 3.4 RECAPITULATION Les données peuvent être classées en deux grandes catégories : les données structurées et les données non structurées. Ces deux types de données se différencient à travers cinq questions essentielles : | Caractéristique | Données structurées | Données non structurées | |---|---|---| | Qui ? | Accès en libre-service | Expertise en data science nécessaire | | Quoi ? | Schéma à l'écriture | Nombreux types différents | | Quand? | Types de données sélectionnés | Schéma à la lecture | | Où ? | Généralement stockées dans des data warehouses | Généralement stockées dans des data lakes | | Comment ? | Format prédéfini | Format natif | ## 4 LES DIFFERENTES FORMES DE DONNEES Dans le contexte actuel, les "données" font référence à des informations numériques collectées, stockées, et traitées, pouvant prendre diverses formes. ### 4.1 FORMES DE DONNEES Les différentes formes de données comprennent : - **Données Numériques:** Ce sont des données sous forme de nombres, y compris les entiers, les décimaux, les pourcentages, etc. Elles sont généralement utilisées pour des calculs mathématiques. - **Données Textuelles :** Les données textuelles sont composées de caractères alphabétiques et de symboles. Elles incluent des documents, des e-mails, des articles, des messages texte, etc. - **Données Audio :** Les données audio sont des signaux sonores qui peuvent être enregistrés et stockés sous forme numérique. Cela inclut la musique, les enregistrements vocaux, etc. - **Données Vidéo :** Les données vidéo sont des séquences d'images en mouvement. Elles peuvent être stockées sous forme numérique et incluent des vidéos, des films, des clips, etc. - **Données Image:** Les données image sont des fichiers contenant des images fixes ou des photographies. Elles peuvent être enregistrées sous différents formats tels que JPEG, PNG, GIF,... - **Données Géospatiales:** Ces données sont associées à des emplacements géographiques spécifiques. Elles sont couramment utilisées dans la cartographie, la navigation GPS et la géolocalisation. - **Données Temporelles :** Les données temporelles sont liées à des horodatages ou à des séquences temporelles. Elles sont essentielles pour suivre les tendances au fil du temps. - **Données Biométriques:** Il s'agit de données liées aux caractéristiques physiologiques ou comportementales des individus, telles que les empreintes digitales, la reconnaissance faciale ou la voix. - **Données Réseau et Sociales:** Ces données proviennent des médias sociaux, des réseaux informatiques et des activités en ligne. Elles incluent les interactions sur les réseaux sociaux, les données de trafic réseau, etc. - **Données Financières :** Les données financières incluent les informations liées aux transactions, aux budgets, aux marchés financiers et à la comptabilité. - **Données Scientifiques:** Les données scientifiques sont utilisées dans la recherche et l'analyse scientifiques. Elles couvrent divers domaines tels que la biologie, la physique, la chimie, etc. - **Données Machine :** Ces données sont générées par des appareils, des capteurs et des machines. Elles sont utilisées dans l'Internet des objets (IoT) et l'automatisation industrielle. ## 5 PREPARATION DE DONNEES : La préparation de données consiste à rendre les données brutes prêtes pour l'analyse. Son rôle est essentiel dans le cycle des données. Elle englobe l'ensemble des procédés visant à rendre les données brutes prêtes à être analysées et permet de nettoyer, organiser et structurer les données pour garantir leur qualité. Les défis incluent les valeurs manquantes, les erreurs et la variété des sources de données, issues de différentes plateformes et formats. La préparation des données constitue le fondement indispensable pour des conclusions et des decisions précises et fiables dans le domaine du traitement de données. ### 5.1 DONNEES SALES (DIRTY DATA) Les dirty data (ou "données sales") font référence à des données qui sont incorrectes, incomplètes, dupliquées ou non conformes aux standards attendus. Elles peuvent entraîner des erreurs dans les analyses et affecter la qualité des résultats obtenus à partir des bases de données. Les principales causes des dirty data incluent : - **Données manquantes:** Des valeurs absentes dans certaines colonnes. - **Données inexactes:** Erreurs de saisie ou d'enregistrement (ex.: fautes de frappe). - **Données dupliquées :** Plusieurs enregistrements pour un même élément. - **Données incohérentes:** Formats différents pour des informations similaires (ex.: différentes manières d'écrire une adresse). La gestion et le nettoyage des dirty data sont essentiels pour garantir la fiabilité des analyses de données et des prises de décision. ### 5.2 TACHES DE NETTOYAGE DES DONNEES : L'une des tâches cruciales lors du nettoyage des données est la suppression d'erreurs, de doublons et de valeurs aberrantes, car ces problèmes peuvent fausser considérablement vos résultats. Il est également essentiel de supprimer les points de données non désirés, tels que les colonnes redondantes ou inutiles, pour simplifier l'analyse. Une structuration appropriée de vos données, notamment l'encodage des variables catégorielles et la normalisation, garantit une manipulation cohérente. Enfin, la complétion des lacunes majeures dans les données, comme le remplacement des valeurs manquantes par des estimations appropriées, renforce la qualité de vos données pour des analyses plus précises. Les méthodes de gestion des valeurs manquantes : - **Suppression des lignes:** Si la proportion de lignes avec des valeurs manquantes est faible par rapport à la taille du jeu de données, vous pouvez supprimer ces lignes. - **Imputation:** Remplacez les valeurs manquantes par des estimations appropriées. Les méthodes d'imputation courantes incluent l'utilisation de la moyenne, de la médiane ou du mode pour les données numériques, et de la valeur la plus fréquente pour les données catégorielles. - **Création d'une catégorie "Inconnu":** Pour les données catégorielles, créez une catégorie spéciale comme "Inconnu" pour les valeurs manquantes, au lieu de les supprimer ou de les imputer. - **Utilisation de techniques avancées:** Pour les données temporelles ou séries chronologiques, envisagez des techniques avancées telles que l'interpolation temporelle pour estimer les valeurs manquantes. - **Modélisation:** Dans certains cas, construisez des modèles prédictifs pour estimer les valeurs manquantes en fonction des autres caractéristiques du jeu de données. - **Analyse exploratoire :** Comprenez pourquoi les données sont manquantes en effectuant une analyse exploratoire. Cette compréhension peut guider la stratégie de gestion des valeurs manquantes. Le rôle central de la préparation des données réside dans la transformation des données en un état adapté à l'exploration et à l'interprétation, mais elle n'est pas exempte de défis significatifs. Parmi ces défis, deux aspects se démarquent particulièrement : ### 5.3 DEFIS LIES A LA QUALITE DES DONNEES : - **Données incorrectes ou inexactes:** Des données brutes peuvent contenir des erreurs, des fautes de frappe ou des incohérences, ce qui peut entraîner des analyses erronées. - **Valeurs manquantes:** La présence de données manquantes dans un ensemble de données peut compromettre l'exhaustivité de l'analyse et introduire des biais. - **Données dupliquées :** Les doublons dans les données peuvent fausser les résultats et augmenter la complexité de l'analyse. - **Incohérences dans la structure des données :** Des données structurées de manière incohérente, par exemple, des formats de date différents, peuvent rendre la préparation difficile. - **Données obsolètes:** Les données qui ne sont plus pertinentes ou à jour peuvent induire en erreur si elles ne sont pas correctement identifiées et gérées. ### 5.4 DEFIS LIES A LA VARIETE DES SOURCES DE DONNEES : - **Hétérogénéité des formats de données:** Les données peuvent provenir de sources différentes avec des formats variés, ce qui nécessite une transformation et une normalisation pour l'analyse. - **Différents protocoles d'accès aux données :** L'accès aux données peut se faire via différents protocoles, ce qui nécessite une compréhension approfondie de chaque source. - **Diversité des sources de données :** Les données peuvent provenir de multiples sources telles que des bases de données relationnelles, des fichiers plats (qui stockent des données sous forme de texte brut), des API web, ce qui rend l'intégration complexe. ## 6 MOTIVATION POUR LA PREPARATION DES DONNEES : Lorsque les données ne sont pas correctement préparées, cela peut entraîner des analyses incorrectes ou déformées. En d'autres termes, des données brutes et non préparées peuvent mener à des conclusions erronées. Par exemple, des valeurs manquantes dans un ensemble de données peuvent fausser les statistiques et les prédictions. De même, des données incohérentes ou mal formatées peuvent entraîner des interprétations erronées. Ajoutons à ceci les deux exemples suivants : - **Exemple 1:** Prenons un ensemble de données sur les ventes d'une entreprise. Si les entrées de la colonne "prix" contiennent des erreurs de saisie, comme des valeurs négatives ou des valeurs trop élevées, cela peut fausser les calculs de revenus et de profits, conduisant ainsi à des decisions commerciales incorrectes. - **Exemple 2:** Dans le domaine médical, une base de données contenant des informations sur les patients peut contenir des valeurs manquantes pour des données cruciales, telles que la pression artérielle ou les antécédents médicaux. L'absence de ces données peut avoir un impact majeur sur le diagnostic et le traitement des patients. ## 7 REDUCTION DE DONNEES: La réduction de données est une composante essentielle du traitement de données massives, également connu sous le nom de Big Data. Les données massives se caractérisent par leur volume considerable, leur variété de sources, et leur vélocité, c'est-à-dire la vitesse à laquelle les données sont générées, collectées et traitées. Face à cette abondance de données, la réduction de données vise à simplifier le processus d'analyse en extrayant l'information la plus pertinente tout en réduisant le bruit et la complexité. L'importance de la réduction de données réside dans sa capacité à améliorer l'efficacité et les performances du traitement. Voici quelques exemples concrets de scénarios où la réduction de données est cruciale : - **Traitement en temps réel:** Dans les applications en temps réel, comme la détection d'anomalies dans un flux de données en continu, la réduction de données permet de réduire la charge de traitement en se concentrant que sur les données les plus pertinentes pour les decisions immédiates. - **Stockage efficace :** Dans les systèmes de gestion de données massives, le stockage de toutes les données brutes peut être prohibitif en termes de coût et d'espace. La réduction de données permet de conserver uniquement les données essentielles tout en économisant des ressources. ## 8 BENEFICES DE LA PREPARATION ET DE LA REDUCTION DE DONNEES : La préparation et la réduction de données offrent de nombreux avantages significatifs dans le domaine du traitement de données. Leur impact positif touche divers aspects. - **Amélioration de la précision des modèles:** Lorsque les données sont correctement préparées, les modèles d'analyse et d'apprentissage automatique peuvent fonctionner de manière plus précise et permettent aux algorithmes de détecter des tendances plus subtiles et des modèles plus significatifs, ce qui se traduit par des prédictions plus fiables. - **Réduction des coûts de stockage:** Les données non préparées, en particulier dans le cas de données massives, peuvent occuper d'énormes quantités d'espace de stockage coûteux. En éliminant les données redondantes ou non essentielles, la réduction de données permet de réduire considérablement les coûts de stockage. - **Accélération des analyses:** Lorsque vous travaillez avec des données massives, la rapidité est cruciale. En réduisant la quantité de données à traiter, la réduction de données accélère le processus d'analyse. Une mauvaise qualité des données peut avoir des conséquences dévastatrices sur les entreprises. Elle se traduit par une perte de revenus significative, une inefficacité opérationnelle, et une insatisfaction des clients, qui peuvent choisir d'aller ailleurs en raison d'une expérience médiocre. De plus, une analyse inexacte basée sur des données de mauvaise qualité peut entraîner des décisions erronées. L'impact s'étend même à la réputation de l'entreprise et à la conformité aux réglementations, ce qui peut engendrer des coûts financiers importants. La mauvaise qualité des données peut ainsi représenter une menace majeure pour la pérennité des entreprises et souligne l'importance cruciale de la gestion de la qualité des données. ## 9 ÉTUDES DE CAS: Cette section, examine des cas réels où la préparation de données a eu un impact significatif sur les résultats et où la réduction de données a été cruciale dans des applications spécifiques. ### 9.1 PREPARATION DE DONNEES AVEC IMPACT SIGNIFICATIF: - **Cas 1:** Détection de fraudes financières - Dans le secteur financier, la préparation minutieuse des données de transactions a permis de détecter des fraudes. En éliminant les transactions non pertinentes et en identifiant les schémas inhabituels, les modèles d'apprentissage automatique ont pu repérer avec précision les activités frauduleuses, économisant ainsi des millions de dollars pour les institutions financières. - **Cas 2:** Soins de santé personnalisés - Dans le domaine médical, la préparation de données a été cruciale pour personnaliser les traitements. En analysant les données de patients, y compris les antécédents médicaux, les analyses suggèrent des plans de traitement adaptés individuellement, améliorant ainsi l'efficacité des soins et les taux de guérison. ### 9.2 REDUCTION DE DONNEES DANS DES APPLICATIONS SPECIFIQUES: - **Cas 3:** Surveillance des médias sociaux - Dans le domaine du marketing, la réduction de données est essentielle pour surveiller les médias sociaux en temps réel. En réduisant les flux de données brutes pour se concentrer sur les indicateurs clés, les entreprises peuvent réagir rapidement aux tendances émergentes, ajustant ainsi leurs stratégies de marketing pour un impact maximal. - **Cas 4:** Analyse de trafic routier - Dans le secteur des transports, la réduction de données permet d'optimiser la gestion du trafic routier. En utilisant des capteurs de trafic, les données sont réduites pour identifier les congestions et les itinéraires alternatifs, améliorant ainsi la circulation et réduisant les temps de trajet. ## 10 CONCLUSION Après la présentation des données, ce premier chapitre nous a montré que la préparation et la réduction de données sont essentielles pour des analyses précises, une gestion efficace des ressources et des prises de décision rapides. Des exemples concrets ont illustré leur importance dans divers domaines. Nous sommes désormais prêts à explorer davantage le traitement de données et les métiers qui y sont liés.