Techniques d’exploration de données (data mining) - Cours Complet-DM PDF
Document Details
Uploaded by UnlimitedAcademicArt2747
Université Sultan Moulay Slimane
2024
Rachid AIT DAOUD
Tags
Summary
This document is a module description for "Techniques d’exploration de données (data mining)" for the IDS program (Semestre 3) at Sultan Moulay Slimane University. It covers the objectives, elements, methods, methods of evaluation, and the structure of the module including a chapter on introduction to Data Science, the Data Mining process, data types, Data Scientists, and an evaluation chapter.
Full Transcript
Université Sultan Moulay Slimane Ecole Supérieure de Technologie - Fkih Ben Salah Techniques d’exploration de données (data mining) Filière: IDS, Semestre 3 Pr. Rachid AIT DAOUD...
Université Sultan Moulay Slimane Ecole Supérieure de Technologie - Fkih Ben Salah Techniques d’exploration de données (data mining) Filière: IDS, Semestre 3 Pr. Rachid AIT DAOUD A.U: 2024-2025 Descriptif du module ❖ Intitulé du module: Techniques d’exploration de données (data mining). ❖ Objectifs du module: 1. S’initier à la science des données et nommer les démarches à suivre pour résoudre un problème lié à la science des données. 2. Acquérir les compétences nécessaires pour collecter, nettoyer et préparer les données pour l'analyse. 3. Comprendre les concepts clés et les différentes tâches de data mining. 4. Implémenter les algorithmes classiques de data mining pour découvrir des modèles et des tendances cachés. 5. Savoir interpréter et communiquer les résultats de l'analyse de données de manière claire et concise. 2 Descriptif du module ❖ Les éléments du module: Un seul élément ❖ Méthodes pédagogiques : ❖ Cours magistraux ❖ Etude de cas et travaux pratiques ❖ Exposés (discussions et débats en classe) ❖ Mini-projets ❖ Évaluations ❖ Mode d’évaluation: ❖ Exposés et participation en classe: 10% ❖ Travaux pratiques: évaluation des TPs + Compte rendu mini-projets: 40% ❖ Examen final: 50 % 3 Plan Chapitre 1: Introduction à la Science des Données Définition de la Science des Données Les types de données Rôles et responsabilités du Data Scientist Les défis et limites de la science de données Les outils et langages de programmation utilisés en science de données Chapitre 2: Processus d’Extraction de Connaissances à partir de données ECD Enjeux Définition Etapes du processus d’ECD Les techniques associées à chaque étape d’ECD. Le standard CRISP-DM comme modèle de processus d’ECD Chapitre 3: Les techniques de data mining (Fouille de données) Définition et objectifs du data mining Applications Les deux catégories de data mining Les principales techniques de data mining Chapitre 4: Évaluation des modèles Métriques d'évaluation des modèles Validation croisée Sur-ajustement et sous-ajustement Chapitre 5: Utilisation des résultats du data mining Techniques de présentation des résultats du data mining Interprétation des résultats 4 Chapitre 1: Introduction à la Science des Données 5 Chapitre 1: Introduction à la Science des données Définition de la Science des Données La science des données, également appelées data science, est un domaine interdisciplinaire qui utilise des méthodes scientifiques, des processus, des algorithmes et des systèmes pour extraire des connaissances et des informations utiles à partir de données structurées et non structurées. Les sciences de données combinent des compétences en mathématiques, en statistiques, en programmation informatique et en domaines spécifiques afin de résoudre des problèmes complexes et de prendre des décisions éclairées basées sur les données. → En résumé, La Data Science permet d’exploiter les données afin de modéliser des comportements, de prendre des décisions, ou de faire des prédictions en utilisant des algorithmes. 6 Chapitre 1: Introduction aux Sciences de données Pourquoi la science des données ? Dans un environnement concurrentiel où les données ne cessent de circuler, les décideurs peuvent compter sur la Data Science pour analyser leurs données afin de faire émerger des informations cachées pouvant les aider à prendre des décisions plus avisées concernant leur business. En utilisant la Data Science, les entreprises seront capables de réaliser : Analyse prédictive (que va-t-il se passer ensuite ?) De meilleures décisions (devrions-nous choisir A ou B) Découvertes de modèles (trouver un modèle, ou peut-être des informations cachées dans les données) Exemple: →Domaine de marketing: ▪ Prévision de la demande, prévision des ventes ▪ Recommandations de produits à partir de l’expérience client → Domaine de finance: ▪ Évaluation du risque de crédit: En analysant les données historiques des emprunteurs, les banques peuvent évaluer plus précisément le risque de défaut de paiement et ajuster leurs conditions de crédit en conséquence. ▪ Détection de la fraude: Les algorithmes d'apprentissage automatique permettent d'identifier les transactions frauduleuses en temps réel, protégeant ainsi les institutions financières et leurs clients. → Autres exemple: ▪ Maintenance préventive. 7 ▪ Pour prédire qui gagnera les élections ▪ Pour prédire les étudiants qui vont quitter leurs études Chapitre 1: Introduction aux Sciences de données Les type de données a. Les différents types de données utilisées dans l'analyse statistique. des variables qui peuvent être sont des variables numériques qui classées en différentes catégories peuvent être mesurées et doivent distinctes. avoir un sens lorsque l’on y applique des opérations arithmétiques. Ex: le genre Ex: Mention (P, AB, Ex: le nombre de Ex: le montant, la (homme, femme), B, TB) voitures dans un température, le type de sang (A, Sondage niveau de parking, le note étudiant B, AB, O) ou la satisfaction des clients nombre de frères couleur des yeux (très insatisfait, et sœurs ou le (bleu, marron, insatisfait, peu nombre de points vert) satisfait, satisfait, très marqués dans un satisfait match de football 8 Chapitre 1: Introduction aux Sciences de données Les type de données b. Types de données dans les contextes de Big data - Big Data fait référence aux gros volumes de données qui nous entourent. - Chaque type de données diffère dans la manière dont il est créé, stocké et analysé. - Sur la base des caractéristiques, les données sont classées dans trois types: structurées, semi-structurées et non structurées. Données structurées Données non structurées Données semi-structurées sont essentiellement tout ce sont des données qui ne sont sont des informations qui ne résident pas dans qui peut être placé dans des pas organisées de manière une base de données rationnelle, mais qui bases de données prédéfinie ou qui ne possèdent possèdent des propriétés organisationnelles relationnelles et organisé de pas de modèle (schéma) de facilitant leur analyse. Utilisent les balises ou manière à être lié à d'autres données prédéfini. d’autres marqueurs pour séparer les données. données via des tables. Très complexes à stocker dans Ex: Fichier XML, JSON des bases de données de type Ex: Données relationnelles lignes et colonnes. ID nom note 1000 Ali 14,17 1001 Kamal 17,44 1002 Ahmed 16,73 9 Chapitre 1: Introduction aux Sciences de données Les type de données 2. Types de données dans les contextes de Big data Quiz: Déterminer le type de données pour chaque exemple Exemple Données structurées Données non-structurées Données semi-structurées Une feuille excel Un email Un avis client Un live tik tok Fichier texte Fichier contient des tags (ou d'autres marqueurs) 10 Chapitre 1: Introduction aux Sciences de données Les type de données 2. Types de données dans les contextes de Big data Quiz: Déterminer le type de données pour chaque exemple Exemple Données structurées Données non-structurées Données semi-structurées Une feuille excel X Un email X Un avis client X Un live tik tok X Fichier texte X Fichier contient des tags (ou X d'autres marqueurs) 11 Chapitre 1: Introduction aux Sciences de données Rôles et responsabilités du Data Scientist Un Data Scientist nécessite des compétences solides dans plusieurs domaines : 1. Programmation (Python ou R) 2. Base de données 3. Mathématiques et Statistiques 4. Machine learning 12 Chapitre 1: Introduction aux Sciences de données Rôles et responsabilités du Data Scientist Les rôles et responsabilités d'un Data Scientist peuvent varier en fonction de l'entreprise et du domaine d'application spécifique. → Les tâches les plus courantes d’un data scientist: 1. Posez les bonnes questions: Pour comprendre la problématique business. 2. Collecte et nettoyage des données : Le Data Scientist est responsable de la collecte de données pertinentes pour résoudre un problème spécifique. Cela peut impliquer de travailler avec des bases de données, des API ou des sources de données externes. Le Data Scientist doit également nettoyer et préparer les données pour les rendre utilisables dans les modèles d'analyse. 3. Analyse exploratoire des données : Le Data Scientist effectue une analyse approfondie des données pour comprendre les tendances, les modèles et les relations entre les variables. Cela peut impliquer l'utilisation de techniques statistiques et de visualisation des données pour identifier des informations clés. 4. Développement de modèles prédictifs : Le Data Scientist utilise des techniques d'apprentissage automatique et de statistiques pour développer des modèles prédictifs qui peuvent être utilisés pour résoudre des problèmes spécifiques. Cela peut inclure des modèles de régression, de classification, de clustering ou d'autres techniques avancées. 5. Evaluation des modèles, mise en oeuvre des ces derniers et communication des résultats. 6. Veille technologique : Le Data Scientist doit rester à jour sur les dernières avancées en matière d'apprentissage automatique, de statistiques et de technologies connexes. 13 Chapitre 1: Introduction aux Sciences de données Les défis et limites des sciences de données Les sciences des données sont un domaine en pleine évolution et elles peuvent être confrontées à plusieurs défis et limites. 1. Qualité des données : Les données utilisées dans les sciences des données peuvent être incomplètes, bruitées ou de mauvaise qualité. Il peut être difficile de nettoyer et de préparer ces données pour l'analyse, ce qui peut affecter la qualité des résultats obtenus. 2. Confidentialité et éthique : Les données utilisées dans les sciences des données peuvent contenir des informations sensibles sur les individus, ce qui soulève des questions de confidentialité et d'éthique. Il est important de prendre des mesures pour protéger la vie privée des individus. 3. Volume et vitesse des données : Les données sont générées à un rythme exponentiel, ce qui peut rendre difficile leur collecte, leur stockage et leur analyse. 4. Complexité des modèles : La création, l'optimisation et l'interprétation des modèles complexes peuvent être difficiles et nécessitent des compétences avancées en mathématiques, en statistiques et en informatique (ressources humaines polyvalentes). 14 Chapitre 1: Introduction aux Sciences de données Les défis et limites des sciences de données 5. Interprétation des résultats : Les résultats obtenus à partir de l'analyse des données peuvent être difficiles à interpréter et à expliquer aux responsables non techniques. Il est important pour les scientifiques des données de pouvoir communiquer efficacement les résultats de manière compréhensible et pertinente pour les décideurs. 6. Disponibilité des compétences : Les compétences nécessaires pour être un bon scientifique des données sont en forte demande, ce qui peut rendre difficile le recrutement de professionnels qualifiés. 7. Évolution rapide des technologies : Les technologies et les outils utilisés dans les sciences des données évoluent rapidement, ce qui nécessite une mise à jour constante des compétences et une adaptation aux nouvelles méthodes et techniques. 15 Chapitre 1: Introduction aux Sciences de données Les outils et langages de programmation utilisés en sciences des données La boîte à outils d’un Data Scientist SGBD : Oracle, MySQL, PostGreSQL, MongoDB Outils ETL: Talend, Pentaho Framework de traitement distribué de gros volumes de données big data: Hadoop, Apache Spark Plateforme d’analyse de données et Machine learning: Knime, weka, tanagra Langage de programmation dédié aux sciences de données: Python, R Langage de communication avec les BD relationnelles: SQL, PL/SQL Outils de BI et dataviz: PowerBI, Tableau, Looker N.B: Ces outils et langages ne sont qu'une petite sélection parmi de nombreux autres disponibles. Le choix des outils et langages dépendra des besoins spécifiques du projet et des préférences de l'équipe de sciences des données. 16 Chapitre 2: Processus d’Extraction de Connaissances à partir de données ECD Enjeux Définition Etapes du processus d’ECD (KDD) Les techniques associées à chaque étape d’ECD (KDD). Le standard CRISP-DM comme modèle de processus d’ECD (KDD). 17 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 1. Enjeux ❖ Cas de commerce électronique les sites de commerce électronique collectent et stockent toutes les données et les opérations effectuées par les visiteurs (les données démographiques sur les clients, les achats (transactions), les habitudes de navigation, les durées d'utilisation, et les commentaires). Génération des bases de données volumineuses, complexes et pas nécessairement structurées Question: A partir de ces données, et avec les outils simples(requêtes sql, Excel, app GRC …) est-ce que on peut arriver à établir une véritable connaissance client? Exemple: Est-ce que on peut prédire le comportement de nos clients? Réponse: Non Quelles requêtes SQL spécifiques pourrions-nous exécuter sur cette base de données pour identifier les clients à haut potentiel ? Les outils simples comme Excel et les requêtes SQL sont-ils suffisants pour prévoir les produits susceptibles d'intéresser nos clients ? Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 1. Enjeux ❖ Cas de commerce électronique Problème: Le choix d'outils simples peut être adéquat pour des analyses exploratoires ou des projets de petite envergure, mais peut s'avérer insuffisant pour des analyses plus complexes requérant des fonctionnalités avancées. L’incapacité de découvrir des informations utiles cachées dans les grandes bases de données. → Ce qui empêche les entreprises de bénéficier de ces données en les transformant en valeur ajouté, c'est- à-dire en connaissances actionnables. Solution: Faire appel à d'autres techniques puissantes qui sont capables de donner un sens à ces données, en suivant un processus bien défini (KDD). Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 1. Enjeux En général, les applications d’ECD ont le plus souvent l'un des objectifs suivants : - Gestion de la relation client : marketing direct, acquisition des clients, détection de la fraude, etc. - L'aide à la décision s'applique à presque tous les domaines, allant de la médecine au marketing en passant par la logistique. - Conception des systèmes de recommandations : Ces derniers suggèrent généralement des objets aux clients selon leur profil, - Développement des outils et des services de prédiction : la prédiction de faillite des entreprises, la gestion du risque de crédit, prévention des risques naturels, prédiction de l’attrition, prédiction de la consommation d'énergie, etc. → La découverte de connaissances devient alors un enjeu stratégique fondamental dans différents domaines. Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 2. Définition L'expression KDD (ECD) a été inventée lors du premier atelier de "Knowledge Discovery in Databases" en 1989 pour souligner que la « connaissance » est le produit final d'une découverte axée sur les données. Usama Fayyad a définit KDD comme: "L’extraction de connaissances à partir des données (ECD) est l’acquisition de connaissances nouvelles, non triviales et potentiellement utiles à partir de faits cachés au sein de grandes quantités de données". L'acquisition de connaissances nouvelles: Cela signifie découvrir des choses que l'on ne savait pas auparavant. Exemple: en analysant les données de vente d'un magasin, on pourrait découvrir que les ventes d’un article ont augmenté de 20% au cours du dernier. C'est une nouvelle connaissance qui n'était pas évidente avant l'analyse. Non triviales: Les connaissances découvertes doivent être intéressantes et significatives, pas des évidences. Exemple: savoir que les gens achètent plus de crème solaire en été n'est pas une découverte surprenante, c'est une évidence. Une découverte non triviale serait plutôt de savoir quels sont les facteurs qui influencent le choix d'une marque de crème solaire particulière. Potentiellement utiles: Les connaissances découvertes doivent avoir une utilité. Elles doivent permettre de prendre de meilleures décisions, de résoudre des problèmes ou d'améliorer un processus. Exemple: en découvrant que les clients qui ont acheté un produit A ont également tendance à acheter le produit B, une entreprise peut proposer des offres croisées pour augmenter ses ventes. Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 2. Définition Objectif de KDD: Identifier et extraire une connaissance ou un savoir, à partir de grande quantité de données Knowledge Discovery in Databases Process Connaissance ?? Grande quantité de données 22 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 2. Définition Données, Information, Connaissance Différence entre ces termes? Données : Les données sont des faits bruts, non organisés et sans contexte. Information : L'information est constituée de données traitées, organisées et contextualisées, donnant un sens aux données brutes. Connaissance : La connaissance est l'interprétation et l'application de l'information, permettant de prendre des décisions ou d'agir. Exemple: 1. Données : homme, 40°C, 60 ans. 2. l’information organise ces données : Un patient de sexe masculin, âgé de 60 ans, présente une température corporelle de 40°C. 3. La connaissance interprète cette information en utilisant l'expertise médicale : ▪ 40°C est considéré comme une fièvre élevée. ▪ À 60 ans, le patient est plus vulnérable aux complications liées à la fièvre. ▪ Cette situation nécessite une intervention médicale urgente. ▪ Il y a plusieurs causes possibles qui doivent être investiguées rapidement (infection grave, maladie inflammatoire). → Cette connaissance permettrait à un professionnel de santé de prendre des décisions éclairées sur les prochaines étapes du traitement, les tests à effectuer, et l'urgence de la situation. Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 2. Définition → L’Extraction de Connaissances à partir de Données (ECD) ou en anglais, Knowledge Discovery in Databases (KDD) est un processus itératif et interactif qui comprend plusieurs étapes séquentielles, dont l’objet est d’identifier et d’extraire une connaissances utiles, à partir de grande quantité de données, par des méthodes automatiques ou semi-automatiques. Fig. Processus d’Extraction de Connaissances à partir des données (U Fayyad 1996 ) Remarque: Le processus KDD peut nécessiter un nombre important d'itérations, comme le montrent les lignes pointillées de la Figure ci-dessus. Il pourrait même créer des boucles entre deux étapes ou plus. 24 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 3. Etapes du processus de KDD Les étapes fondamentales qui ont été proposées initialement pour le processus de KDD (Fayyad et al., 1996), sont résumées comme suit : 1- Sélection : Le processus de sélection développe une compréhension claire du domaine d'application. L'identification de l'objectif du processus KDD du point de vue de l'utilisateur est également une tâche importante. Sur la base de cette compréhension et de ce plan global, un sous- ensemble de variables et de données ou échantillonnage de données sont sélectionnés pour les utiliser dans le processus de découverte de connaissances. 25 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 3. Etapes du processus de KDD Les étapes fondamentales qui ont été proposées initialement pour le processus de KDD (Fayyad et al., 1996), sont résumées comme suit : 2- Nettoyage et prétraitement des données : Au cours de cette étape, les données sélectionnées dans l’étape précédente sont nettoyées et traitées. Ces opérations sont fondamentales pour réduire la présence de bruit dans les données ou des valeurs aberrantes. Cette étape comprend également la conception d'un moyen de traitement de champs de données manquants. 26 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 3. Etapes du processus de KDD Les étapes fondamentales qui ont été proposées initialement pour le processus de KDD (Fayyad et al., 1996), sont résumées comme suit : 3- Transformation : Elle implique la conversion des données prétraitées dans un format adapté à l'analyse. Cela peut inclure la création de nouvelles variables, la réduction de dimension, etc. Les stratégies de réduction des données comprennent la réduction de la dimensionnalité, la réduction de la numérosité et la compression des données (Ex: ACP). 27 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 3. Etapes du processus de KDD Les étapes fondamentales qui ont été proposées initialement pour le processus de KDD (Fayyad et al., 1996), sont résumées comme suit : 4- Data mining : Cette étape comprend la sélection de techniques d’exploration de données à utiliser pour rechercher des modèles dans les données selon l’objectif du processus KDD, c'est-à-dire s'il s'agit d'une régression, d'une classification, d'un clustering ou d'une prédiction. - Au cours de cette étape, plusieurs modèles sont généralement élaborés, le plus performant étant choisi. 28 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 3. Etapes du processus de KDD Les étapes fondamentales qui ont été proposées initialement pour le processus de KDD (Fayyad et al., 1996), sont résumées comme suit : 5- Interprétation et évaluation: La dernière étape implique l'interprétation et l’évaluation des modèles identifiés dans l’étape précédente. - Des mesures et métriques sont utilisées dans cette phase pour évaluer la qualité et la pertinence des connaissances extradites. - Des rétroactions aux étapes précédentes sont possibles pour d'autres itérations jusqu’à l’obtention de résultats complètement satisfaisants pour les experts métier. - Cette étape peut également impliquer des techniques de communication des connaissances extraites de manière compréhensible et significative pour les utilisateurs finaux. 29 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 4. Les techniques associées à chaque étape de KDD 1.Sélection des données : techniques de requêtes SQL, d'exploration de bases de données (Analyse de corrélation), de filtrage des données, etc. 2. Prétraitement des données : techniques de nettoyage des données, de gestion des valeurs manquantes, de détection et de suppression des outliers, etc. 3. Transformation des données : techniques de normalisation, de discrétisation, de réduction de dimension, etc. des données. 4. Data mining: techniques de classification, de régression, de clustering, d'association de règles, de fouille de textes, etc. 5. Interprétation/Evaluation: techniques de validation croisée, de matrice de confusion, de courbe ROC, de mesures de performance, etc.. Et pour la présentation des connaissances: techniques de visualisation de données, de création de rapports, de tableaux de bord interactifs, etc. 30 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ C’est quoi un modèle de processus KDD? - Tous les modèles de processus de KDD consistent en un ensemble d'étapes de traitement et utilisent le même flux de processus lors de la conception d’un système d’extraction de connaissances. - Un modèle KDD comprend la description de toutes ses étapes et les tâches comprises dans chacune de ces dernières, et aussi une explication des relations entre ces tâches. - Un modèle de processus complet est un modèle qui rend les gros projets d’exploration de données plus rapides, plus efficaces et moins coûteux. 31 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ C’est quoi un modèle de processus KDD? - Plusieurs modèles de processus ont été développés, les plus cités dans la littérature du domaine de l’ECD sont les suivants : Knowledge Discovery in Databases (KDD) Process by Fayyad et al. (1996). Information Flow in a Data Mining Life Cycle by Ganesh et al. (1996). SEMMA by SAS Institute (1997) Knowledge Discovery Life Cycle (KDLC) Model by Lee and Kerschberg (1998). CRoss-Industry-Standard Process for Data Mining (CRISP-DM) by CRISP-DM (2000). Generic Data Mining Life Cycle by (DMLC) by Hofmann (2003). Ontology Driven Knowledge Discovery Process (ODKD) by Gottgtroy (2007). → La représentation du processus de KDD sous forme d’un ensemble d’étapes qui sont exécutées en séquence continue est le point commun entre ces différents modèles, Tandis que, la portée, le nombre et les tâches spécifiques à chaque modèle représentent les principales différences entre ces modèles. 32 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ Le modèle CRISP-DM ▪ CRISP-DM (CRoss-Industry Standard Process for Data Mining) est un modèle à six étapes. ▪ Il a été au départ initiée dans la fin de l’année 1996 par un large consortium d'entreprises européennes : SPSS (fournisseur de solutions d'exploration de données commerciales), NCR (fournisseur d'entrepôt de données Teradata), Daimler Chrysler (fabricant d'automobiles), et OHRA (compagnie d'assurance néerlandaise) ; ▪ Les deux dernières sociétés ont servi comme sources de données et des études de cas. ▪ Il reste aujourd’hui le seul modèle utilisable efficacement pour tous les projets Data Science, et s’applique à tous les domaines d’activité, indépendamment du logiciel de data mining utilisé. 33 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ Le modèle CRISP-DM - le modèle CRISP-DM décompose le cycle de vie d’un projet de data mining en six étapes allant de la compréhension du problème métier au déploiement et la mise en production, et chacune de ses étapes est composée d’un ensemble des tâches spécifiques. Fig. Cycle de vie d’un projet data mining avec le modème CRISP-DM 34 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ Les étapes du CRISP-DM : CRISP-DM Compréhension de la problématique : La première étape du CRISP est très importante, dans cette étape les objectifs et les exigences d’un point de vue commercial doivent être clairs et fixés précisément, ensuite les objectifs commerciaux sont traduits en objectifs de data mining, et un plan de projet préliminaire sera créé pour accomplir ces objectifs. Fig. Cycle de vie d’un projet data mining avec le modème CRISP-DM 35 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ Les étapes du CRISP-DM : CRISP-DM Compréhension des données : Cette étape commence par le recensement des données existantes, la description des données, l'exploration d’autres données et l’évaluation de la qualité de ces données. Fig. Cycle de vie d’un projet data mining avec le modème CRISP-DM 36 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ Les étapes du CRISP-DM : CRISP-DM Préparation des données: Cette étape est la plus longue d’un projet de KDD. - Elle monopolise généralement 80 % du temps consacré à l’ensemble du projet. - Plusieurs outils d’extraction, de transformation, et de téléchargement (ETL) peuvent être utilisés dans cette étapes afin de concevoir et d’alimenter l’entrepôt de données (data warehouse). Fig. Cycle de vie d’un projet data mining avec le modème CRISP-DM - Se fait en 4 étapes: la sélection, le nettoyage, la transformation et l’agrégation des données. 37 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ Les étapes du CRISP-DM : CRISP-DM Modélisation : L'objectif de cette étape est la sélection et l'application des techniques de modélisation appropriées afin d’en extraire des modèles. - La préparation de données est aussi nécessaire dans cette étape pour utiliser correctement certains algorithmes particuliers qui requièrent souvent des paramétrages différents et des données en entrées différentes. → Par conséquent, il y aura dans cette étape un va et vient entre la phase de préparation de données et la modélisation. → A la fin de cette étape plusieurs modèles data mining vont Fig. Cycle de vie d’un projet data mining avec le modème CRISP-DM être générés qui répond tous à la problématique. 38 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ Les étapes du CRISP-DM : CRISP-DM Evaluation : Les modèles créés à l’étape précédente passent par une étape de validation, elle consiste à évaluer si les résultats de ces modèles sont conformes aux objectifs de l’entreprise. Par conséquent, un ou plusieurs modèles présentant les meilleures performances sont découverts. Fig. Cycle de vie d’un projet data mining avec le modème CRISP-DM 39 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ Les étapes du CRISP-DM : CRISP-DM Déploiement : Cette phase vise à mettre en œuvre les résultats obtenus lors des phases précédentes dans un environnement de production. les principales étapes de la phase de déploiement de CRISP-DM : 1. Elaboration d’un plan de déploiement: Définir les objectifs du déploiement, les ressources nécessaires, les contraintes et les délais. 2. Préparation de l'infrastructure : Mettre en place Fig. Cycle de vie d’un projet data mining avec le modème CRISP-DM l'infrastructure (technique et les ressources humaines) nécessaire pour déployer le modèle ou la solution développée. 40 Chapitre 2: Processus d’Extraction de Connaissances à partir de Données ECD 5. Le standard CRISP-DM comme modèle de processus d’ECD (KDD). ❖ Les étapes du CRISP-DM : CRISP-DM 3. Déploiement du modèle ou de la solution : Cette étape consiste à mettre en place le modèle ou la solution développée dans l'environnement de production. 4. Validation et tests : Des tests et des évaluation de la qualité et la performance de la solution déployée. 5. Formation et documentation : Former les utilisateurs finaux sur l’utilisation de la solution déployée + Création de documentation détaillée (utilisation et maintenance) Fig. Cycle de vie d’un projet data mining avec le modème CRISP-DM 41 Chapitre 3: Les techniques de data mining (Fouille de données) Pourquoi la fouille de données (data mining)? Définition et objectifs du data mining Applications Les deux catégories de data mining Les principales techniques de data mining 42 Chapitre 3: Les techniques de data mining (Fouille de données) 1. Pourquoi la fouille de données (data mining)? - La croissance explosive des données : des téraoctets aux yottaoctets ❑ Collecte et disponibilité des données ▪ Les outils de collection de données automatiques, web, base de données,.. ❑ Différentes sources de données ▪ web, e-commerce, transactions, les actions, caméras de surveillance, réseaux sociaux, news,.. ❑ Nous sommes noyés sous les données, mais avides de connaissances En résumé, l’abondance des données, associée au besoin d’outils d’analyse de données puissants, a été décrite comme une situation riche en données mais pauvre en connaissances. Data mining: Analyse automatique des données massives……... 41 Chapitre 3: Les techniques de data mining (Fouille de données) 1. Définition et Objectifs de DM - La fouille de données (data mining en anglais) est une étape centrale du processus de KDD, qui implique l’utilisation d'outils sophistiqués d'analyse de données pour découvrir des modèles et des relations valides auparavant cachés dans de grands ensembles de données. - La connaissance extraite par les techniques de data mining doivent: non trivial: ne doit pas être facile à déduire implicite: ne peut pas être directement observée ou déduite à partir des données brutes. précédemment inconnue: c'est-à-dire qu'elle doit apporter une nouvelle compréhension ou révéler des relations cachées entre les variables ou les données. potentiellement utile: être pertinente et utile pour résoudre un problème ou prendre une décision. 41 Chapitre 3: Les techniques de data mining (Fouille de données) 1. Définition et Objectifs de DM Par exemple, supposons que nous ayons une base de données contenant des informations sur les clients d'un magasin, telles que leur âge, leur sexe, leur lieu de résidence et leurs achats. Compléter le tableau suivant Action Requête ou technique de data mining Trouver tous les clients dont le prénom est Ahmed. Requête sur BD Trouver tous les clients qui ont une grande probabilité Techniques data mining de devenir des clients perdus. (classification / prédiction) Identifier les clients qui ont dépensé plus de 2000 dh Requête sur BD dans le dernier mois. Trouver tous les clients qui ont acheté le lait. Requête sur BD Trouver tous les produits qui sont fréquemment Techniques data mining achetés avec le lait. (Règles d’association) Identifier les clients qui ont des habitudes d’achats Techniques data mining similaires (Regroupement Clustering) 41 Chapitre 3: Les techniques de data mining (Fouille de données) 2. Applications L’utilisation de méthodes de data mining permet aux entreprises de divers secteurs d’acquérir un avantage concurrentiel à travers les connaissances acquises par ces méthodes. ❑ Le secteur bancaire : Source de données principale (Les transactions bancaires, données démographiques). - Mesure du risque de crédit - Détection de la fraude - Gestion prédictive du cycle de vie des clients ❑ Le secteur de vente au détail: Source de données principale (des données sur les clients, les produits, les fournisseurs et également des données sur les concurrents). - Analyse du panier de la ménagère (Objectif augmenter les ventes) - Prévision des ventes (Pour une meilleure gestion de stock) - Segmentation de clients (Connaitre ses clients) ❑ Le secteur de Télécommunication: SD (données sur les appels, données sur les clients, données sur les concurrents, …) - Gestion de la perte de client (prédire le taux de désabonnement) 46 Chapitre 3: Les techniques de data mining (Fouille de données) 2. Applications L’utilisation de méthodes de data mining permet aux entreprises de divers secteurs d’acquérir un avantage concurrentiel à travers les connaissances acquises par ces méthodes. ❑ Le secteur agroalimentaire: - Prédire la quantité nécessaire de cultures pour satisfaire les besoins des citoyens pour les prochaines années. - Gestion de la chaîne d'approvisionnement: analyser les données de la chaîne d'approvisionnement, telles que les données sur les stocks, les délais de livraison et les coûts de transport → optimiser la gestion de la chaîne d'approvisionnement, de réduire les coûts et de minimiser les pertes. - Gestion des risques alimentaires, SD: les incidents de contamination, les plaintes des consommateurs, les rappels de produits, … → détecter les risques potentiels, de prendre des mesures préventives et de garantir la sécurité des produits alimentaires. ❑ Commerce électronique: - Systèmes de recommandation et personnalisation - Acquérir, garder et fidéliser le client - Marketing directe 47 Chapitre 3: Les techniques de data mining (Fouille de données) 3. Les deux catégories de data mining Selon le résultat attendu du processus global de KDD, les tâches de data mining peuvent être classées en deux catégories : prédictives et descriptives. ❑ Les techniques prédictives sont utilisées pour prédire ou estimer des valeurs inconnues ou futures à partir des données disponibles (données historiques). ❑ Les techniques descriptives sont utilisées pour analyser et résumer les données afin de comprendre les caractéristiques des données, les tendances, les relations cachées internes. 48 Chapitre 3: Les techniques de data mining (Fouille de données) 3. Les deux catégories de data mining Prédictives Descriptives 1. Utilisation des variables utilisent à la fois les variables d'entrée (variables les méthodes descriptives se concentrent principalement indépendantes) et la variable de sortie (variable dépendante) sur l'analyse des variables d'entrée pour comprendre leurs pour construire un modèle prédictif. relations et leurs impacts sur les données. 2. Nature des résultats fournissent des résultats sous forme de résumés fournissent des résultats sous forme de prédictions ou statistiques, des relations cachées, de visualisations ou de d'estimations de valeurs inconnues ou futures. rapports qui décrivent les caractéristiques et les tendances des données. 3.Utilisation des modèles utilisent des modèles prédictifs, tels que la régression linéaire, utilisent des modèles descriptifs, tels que l'analyse de les arbres de décision ou les réseaux neuronaux, pour prédire cluster, l'analyse de corrélation ou l'analyse de séquence, les valeurs de la variable de sortie. pour comprendre les structures et les relations dans les données. → En résumé, les méthodes prédictives sont utilisées pour prédire des valeurs inconnues ou futures, tandis que les méthodes descriptives sont utilisées pour résumer et comprendre les données existantes. 49 Chapitre 3: Les techniques de data mining (Fouille de données) 3. Les deux catégories de data mining - Bien qu’il existe une large gamme de méthodes de data mining, la figure suivante illustre la classification de celles qui sont principalement utilisées pour atteindre les objectifs de prédiction et de description. - Un certain nombre d'algorithmes/méthodes sont disponibles pour les différentes tâches de data mining. N.B: L’analyse des valeurs aberrantes peut être effectuée à des fins prédictives ou descriptives. Dans le contexte prédictif: l’analyse des valeurs aberrantes vise à identifier et détecter les anomalies (carte bancaire, ouverture gmail sur autre appareil, détection des anomalies pour une maintenance prédictive). Dans le contexte descriptif: l’analyse des valeurs aberrantes vise à comprendre et à expliquer les causes de ces valeurs aberrantes (si elles sont le résultat d'erreurs de mesure, de valeurs aberrantes ou de comportements inhabituels), leur impact sur les 50 Fig: Classification des techniques de data mining selon les tâches statistiques descriptives. Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.1. Classification INPUT CLASSIFICATION OUTPUT INPUT DATA SET Training data Testing data données d'entraînement: sont les données utilisées pour entraîner un modèle d'apprentissage automatique, et Training data sont généralement étiquetées, c'est-à-dire qu'elles ont une réponse connue (par exemple, une catégorie ou une valeur numérique) qui est utilisée pour entraîner le modèle à prédire la réponse correcte. Testing data données de test: sont des données séparées qui sont utilisées pour évaluer la performance du modèle. Ces données sont également étiquetées, mais elles ne sont pas utilisées pour entraîner le modèle. 51 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.1. Classification Données de test Testing data Données d’entrainement Construire le modèle Training data 2 Utiliser les données de test 3 pour évaluer le modèle 1 Apprendre et analyser les 5 caractéristiques des données Prédiction apple New data Toutes les données sont étiquetées (nom des fruits est connu) 4 ? banana Le modèle sera utilisé pour apple prédire le nom des fruits correspondent à chaque image Toutes les données sont non-étiquetées (nom des fruits est inconnu) 52 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.1. Classification ❑ Classification: est le processus de recherche d’un modèle (ou d’une fonction) qui décrit et distingue les classes de données. ❑ Le modèle est dérivé en se basant sur l'analyse d'un ensemble de données d'entraînement étiquetées (données pour lesquelles les étiquettes de classe sont connues à l’avance). ❑ Le modèle est utilisé pour prédire la classe étiquette prévue d'appartenance d'une nouvelle instance non étiquetée. Nouvelle instance non-étiquetée? 53 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.1. Classification Exemple d’application de la classification: (Marketing directe) 1. Objectif: ▪ Minimiser le coût lié à la diffusion des emails, messages publicitaires en ciblant seulement les clients qui sont susceptible d’acheter un nouveau produit. 2. Approche: ▪ Utilisez les données d'un produit similaire introduit précédemment + liste des client qui ont décidé d'acheter et la liste de ceux qui ont décidé autrement. ▪ Collecter d’autres données sur ces clients: données démographiques, style de vie, des données sur l'historique des achats. ▪ Après la phase de pré-traitement, utiliser ces données comme des données d’entrées pour construire le modèle de classification (training and testing). 54 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.1. Classification Algorithme de classification Modèle de classification Training data Testing data ID_Student Genre Ville Etabl bac+2 Rester IF Ville == "FBS" OR EtabBac2 == "FBS" 1000 H Settat Casa Non THEN Rester = "Oui" 1007 H Rabat FBS Oui 101 F FBS Casa Oui 1019 F Casa FBS Oui 2000 H Khenifra Meknes No 55 2017 H Agadir Essaouira No Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.2. Clustering (Regroupement) Le modèle analyse les caractéristiques des données et la manière dont les éléments sont similaires, puis essaye de trouver le meilleur regroupement de données Données non groupées Données groupées selon la couleur Est-ce que ce résultat de regroupement représente la seule/la meilleure façon de regrouper? 56 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.2. Clustering (Regroupement) Eléments non regroupés Comment peut-on regrouper ces éléments? 57 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.2. Clustering (Regroupement) Forme Couleur Taille Comment les algorithme de clusering (regroupement) choisir le meilleur regroupement? 58 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining Je peux voir 4.2. Clustering (Regroupement) un motif ❑ Clustering: Etant donnée un ensemble d’éléments de données (non étiquetés), les méthodes de clustering visent à organiser cet ensemble en un ensemble de groupes (clusters) ❑ Les éléments sont regroupés en se basant sur la similarité. ❑ Les éléments ayant des caractéristiques similaires soient regroupés dans le même cluster. ❑ Un cluster est donc une collection d'objet similaires entre eux et dissimilaires aux autres groupes. ❑ Lorsqu'un nouveau élément est introduit, il est classé dans le cluster le plus similaire. 59 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.2. Clustering (Regroupement) Application: Segmentation du marché + + La concurrence est forte, nous devons retenir nos clients fidèles → Décision: Une stratégie de rétention doit être appliquée (réduction de 20%) 60 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.2. Clustering (Regroupement) Exemple d’application de clustering: (Segmentation du marché) 1. Objectif: ▪ segmenter les clients en plusieurs segments selon des critères précis, afin de bien identifier les différences et les similitudes dans leur comportement pour prendre finalement les bonnes décisions et pour mener des actions marketing ciblées et personnalisées. 2. Approche: + ▪ Collecter des données sur les clients: données démographiques, données sur + l'historique des achats. ▪ Appliquer un algorithme de clustering sur ces données ▪ Evaluer la qualité de regroupement en examinant les habitudes d’achats d’un client d’un cluster x par rapport à un autre client y appartient à un autres cluster. 61 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.3. Recherche des modèles fréquents, corrélations et associations ❑ Les motifs fréquents sont des motifs ou patterns (tel que les ensembles d’items, les sous séquences, ou les sous structures) qui apparaissent fréquemment dans un ensemble de données. ❑ Par exemple: ▪ un ensemble d’items tel que le lait et le pain qui apparaissent souvent dans une base de transactions dans un supermarché, est un ensemble d’items fréquent. ▪ Une sous séquence telle que acheter premièrement un PC puis une caméra numérique ensuite une carte mémoire qui se produit souvent dans la base historique des achats, est une séquence d’items fréquente. ❑ Trouver de tels motifs fréquents joue un rôle essentiel dans la fouille des associations et des corrélations au sein les données. 62 Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.3. Recherche des modèles fréquents, corrélations et associations Question: Quels articles sont fréquemment achetés ensemble au supermarché ? ID_Tr Items algorithme de recherche de 1 Thé, lait, Œufs, Sucre règles d'association 2 Thé, Sucre, Jus 3 lait, Pain 4 Sucre, Café … … Règle d’association: Thé → Sucre [50%, 75%] (sera acceptée ou refusée) Transactional data - Support = 50% (signifie que 50 % de toutes les transactions analysées montrent que le thé et le sucre sont achetés ensemble) résultat - Confidence = 75% (signifie que si un client achète du thé, il y a 75% de chances qu’il achète également du sucre. Dans cet exemple nous avons déduit qu’il y a une corrélation entre l’achat du thé et sucre. Quelles actions pouvez-vous63 entreprendre ? Chapitre 3: Les techniques de data mining (Fouille de données) 4. Les principales techniques de data mining 4.4. Outlier analysis (Analyse des valeurs aberrantes) - Les valeurs aberrantes, ou outliers, sont des observations qui se démarquent de manière significative du reste des données et peuvent avoir un impact significatif sur les résultats de l'analyse. - Utile pour la détection des fraudes et l'analyse des événements rares. - Exemples: - Trouver une activité inhabituelle dans la transaction bancaire d'un client (fréquence des achats, emplacement, horaire, équipement...) - Détecter les tentatives de connexion suspectes (Email) - Détection des anomalies pour une maintenance prédictive. - Prévision de la santé des patients : détection de valeurs aberrantes dans les mesures de pression artérielle d'un patient peut indiquer des problèmes médicaux graves ou des erreurs de mesure. 64 Chapitre 3: Les techniques de data mining (Fouille de données) Résumé → Sciences de données est un domaine interdisciplinaire qui vise à extraire des connaissances et des informations à partir de données brutes en utilisant des méthodes analytiques, statistiques et informatiques. → L'abondance des données dans le monde moderne a conduit à la nécessité d'exploiter ces données de manière plus puissante et sophistiquée via les techniques de sciences de données avancées. (ML, DL, NLP, …) → KDD est un processus qui englobe les différentes étapes (data selection, pretraitement, data transformation, data mining, Evaluation/Interpretation), impliquées dans la découverte de connaissances à partir de données. → L'objectif principal du data mining est d'identifier des relations ou des motifs cachés dans les données qui peuvent être utilisés pour prendre des décisions, faire des prédictions, classer des données, etc → Les principales fonctions de data mining: Classification, Clustering, Association et Outlier analysis 65 Chapitre 4: Les algorithmes de Machine Learning (ML) 1.Les principaux types d’apprentissage automatique 2. Algorithmes de clustering (k-means, HAC) 3. Régression 4. K plus proches voisins (KNN) 5. Arbre de decision 6. Réseaux de neurones artificiels (ANN) Les algorithmes de Machine Learning (ML) – Principaux types d’algorithmes de ML 1. Les principaux types d’algorithmes de ML Apprentissage par Apprentissage supervisé Apprentissage non supervisé renforcement Dans ce type d'apprentissage, le Contrairement à l'apprentissage Dans ce type d'apprentissage, modèle est entraîné sur un supervisé, dans l'apprentissage non un agent apprend à prendre ensemble de données étiquetées, supervisé, les données ne sont pas des décisions en interagissant c'est-à-dire des données pour étiquetées. Le modèle cherche à avec un environnement. lesquelles la sortie attendue est découvrir des schémas ou des L'agent reçoit des connue. Le modèle apprend à prédire structures cachées dans les données, récompenses ou des la sortie en se basant sur les entrées et comme des groupes, des corrélation pénalités en fonction de ses les étiquettes correspondantes. ou des associations. actions, et il apprend à Exemples: régression linéaire, la Exemples: Clustering (comme K- maximiser les récompenses régression logistique, les arbres de means, DBSCAN), Règles d’association au fil du temps. Les décision, ANN, les machines à vecteurs (Apriori) algorithmes de renforcement de support (SVM), etc. sont souvent utilisés dans les domaines tels que les jeux, la robotique, la gestion des stocks, etc. 2. Les algorithmes de clustering Plan ❑Qu'est-ce que le clustering, l’analyse de clusters et la qualité de clustering ? ❑Principales méthodes de clustering ▪ Les méthodes de partitionnement (k-means, K-medoids) ▪ Les méthodes hiérarchiques (agglomératif, divisif) ❑C’est quoi l’algorithme k-means ❑Les étapes de l’algorithme K-means ❑Les paramètres de l'algorithme k-means ❑Comment choisir le nombre optimal de clusters ❑Limitations de l'algorithme k-means ❑Conseils pour l'utilisation efficace de k-means ❑Etude de cas (TP) preencoded.png Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Qu'est-ce que le clustering, l’analyse de clusters et la qualité de clustering ? ❖ Qu'est-ce que le clustering, l’analyse de clusters, et la qualité de clustering? ❑ Clustering: Est le processus qui vise à regrouper une collection d’objets de données en groupes plus petits, ou clusters, dans lesquels les objets à l'intérieur d'un cluster présentent des similitudes les uns avec les autres mais diffèrent de ceux des autres clusters. ❑ L’analyse de clusters: Est une étape importante après avoir appliqué un algorithme de clustering sur un jeu de données. Elle permet d'examiner en détail les clusters obtenus et d'en tirer des insights. Caractérisation des clusters Visualisation des clusters Interprétation des insights (Donner du sens aux clusters identifiés en les reliant au contexte métier + Expliquer les patterns révélées par l'analyse des clusters) ❑ La qualité d'un clustering: fait référence à l'évaluation de la performance d'un algorithme de clustering dans la manière dont il regroupe les données. Il existe plusieurs mesures de qualité de clustering (Cohésion intra- cluster, Séparation inter-cluster, Indice de silhouette, indice de Dunn, ….). Remarque: Il est important de noter que le choix de la mesure de qualité de clustering dépend du type de données et des objectifs spécifiques du problème à résoudre. Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Qu'est-ce que le clustering, l’analyse de clusters et la qualité de clustering ? ❖ Qu'est-ce qu'un bon clustering ❑Une bonne méthode de clustering produira des clusters de haute qualité (l’objectif n’est pas limité seulement à diviser l’ensemble de données à plusieurs clusters): a b Clusters de haute qualité: Distance Inter-clusters élevée Maximiser la similarité à l'intérieur des clusters Faible distance Inter-clusters tout en minimisant la similarité entre les clusters Faible distance Intra-clusters Distance Intra-clusters élevée D’après cette figure, quelle est la figure qui représente un bon clustering (a ou b)? Au sein d’un cluster → Forte similarité intra-cluster→ Minimiser la distance entre les points d’un cluster x. Entre les clusters → Faible similarité inter-cluster → Maximiser la distance entre les clusters. ❑La qualité d’une méthode de clustering est dépend de : ▪ La mesure de simularité utilisée par cette dernière, son implémentation et sa capacité à découvrir tout ou partie des patterns cachés derrière les données. Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Qu'est-ce que le clustering, l’analyse de clusters et la qualité de clustering ? ❖ Qu'est-ce qu'un bon clustering Métrique de similarité/Désimilarité ❑ En clustering, il est courant d'utiliser des métriques de similarité ou de désimilarité pour mesurer la proximité entre les points de données. ❑ Les métriques de similarité évaluent à quel point deux points de données sont similaires, tandis que les métriques de désimilarité évaluent à quel point deux points de données sont différents. ❑ Les métriques de similarité les plus courantes sont la distance euclidienne, la distance de Manhattan, corrélation de Spearman, etc. ❑ Ces métriques sont utilisées pour mesurer la distance entre deux points de données numériques en fonction de leurs coordonnées. ❑ Pour les données catégorielles, il est préférable d’utiliser des métriques de similarité spécifiques telles que la similarité de Jaccard, la similarité de Dice, la similarité de Tanimoto. ❑ Pour les données textuelles, des métriques de similarité telles que la similarité cosinus, la similarité de Jaccard pour les ensembles de mots, la distance de Levenshtein pour les chaînes de caractères, etc. sont souvent utilisées. ❑ Il est important de choisir la bonne métrique de similarité en fonction de la nature des données et des objectifs du clustering. Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Qu'est-ce que le clustering, l’analyse de clusters et la qualité de clustering ? ❖ Qu'est-ce qu'un bon clustering La qualité d'un clustering: Comment je peux mesurer la qualité d’un clustering ❑ Pour une tâche de clustering, il est difficile de définir ce qui est assez similaire ou ce qui est assez bon (nombre de clusters) ❑ il existe plusieurs mesures de qualité de clustering qui peuvent être utilisées pour évaluer la performance d'un algorithme de clustering. ▪ La cohésion intra-cluster : La cohésion intra-cluster mesure la similarité des points de données à l'intérieur de chaque cluster. Elle évalue la variance des distances entre les points de données dans un cluster. ▪ La séparation inter-cluster : La séparation inter-cluster mesure la distance entre les clusters. Elle évalue la distance moyenne entre les centres des clusters. ▪ L'indice de Dunn : L'indice de Dunn mesure la séparation entre les clusters par rapport à leur taille. Il évalue la distance minimale entre les centres des clusters divisée par la taille maximale des clusters. ▪ L'indice de silhouette : L'indice de silhouette mesure à quel point les points de données sont similaires à ceux de leur propre cluster par rapport aux autres clusters. Il varie de -1 à 1, où une valeur proche de 1 indique que les points de données sont bien regroupés et une valeur proche de -1 indique que les points de données sont mal regroupés. ❑ La qualité d'un clustering dépend des objectifs spécifiques du problème à résoudre (ex: obj1: trouver des groupes de clients en fonction de leur comportement d’achat, obj2: trouver des groupes de clients en fonction de leur propension à acheter des produits luxes). Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Principales méthodes de clustering ❖ Principales méthodes de clustering Clustering partitionné Clustering hiérarchique Cette méthode consiste à diviser les données en un certain Cette méthode consiste à regrouper les données de manière hiérarchique, nombre de clusters non hiérarchiques, ensuite les évaluer en commençant par des clusters individuels pour finalement aboutir à un selon un certain critères. Cette méthode nécessite seul cluster contenant toutes les données. Il existe deux types de clustering généralement de spécifier le nombre de clusters k à hiérarchique : agglomératif (ascendant) et diviseur (descendant). l'avance Exemple: DIANA, AGNES, … Exemple: K-means, K-medoids (médiane) … agglomératif diviseur le dendrogramme Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> La Méthode de clustering K-means ❖ La Méthode de clustering K-means ❑ K-means est un algorithme itératif, le plus couramment utilisé pour regrouper n vecteurs basés sur des attributs en k partitions, où k < n, en fonction de certaines mesures (ex: la somme des carrés des distances). Le nom vient du fait que k clusters sont identifiés et le centre d'un cluster est la moyenne de tous les vecteurs dans ce cluster. ❑ K-means a besoin d’un moyen de comparer le degré de similarité entre les différents objets. ❑ L'algorithme k-means utilise la distance euclidienne sur les attributs sélectionnés pour affecter chaque objet au cluster le plus appropriés. ❑ Pour les deux points p (x₁, y₁) et q (x₂, y₂), la distance euclidienne est: ❑ Deux données qui se ressemblent, auront une distance de dissimilarité réduite, alors que deux objets différents auront une distance de séparation plus grande. ❑ Dans l’espace euclidien dimensionnel n- la distance d(p,q) entre deux points p = (p₁, p₂,..., pn) et q = (q₁, q₂,..., qn) : Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> La Méthode de clustering K-means ❖ La Méthode de clustering K-means (suite) ❑ Étant donné K (le nombre de clusters), trouver une partition de K clusters qui optimise le critère de partition choisi. ❑ K-means cherche toujours à trouver des clusters de telle sorte que la somme des carrés des distances euclidiennes soit minimisée (SSE). ❑ Le SSE est défini comme la somme des carrés des distances euclidiennes de chaque point à son centroïde le plus proche. Sum of Squared Errors (SSE) = σ𝑘𝑖=1 σ𝑝∈𝐶𝑙𝑖 𝑑𝑖𝑠𝑡(𝑝, 𝑐𝑖 )2 Où K est le nombre de clusters, p est l’objet du cluster Cli et ci représente le centroïde du cluster Cli Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Les étapes de K-means ❖ Les étapes de l'algorithme k-means 1 1. Initialisation K=3 Choisissez un nombre de clusters et des centres initiaux aléatoires. 2 2. Attribution Attribuez chaque point de données au cluster dont le centre est le plus proche. 3 3. Réaffectation Recalculez les centres des clusters en fonction des points de données qui y sont attribués. 4 4. Convergence Itérez les étapes 2 et 3 jusqu'à ce que les centres des clusters ne se changent plus. Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Les étapes de K-means ❖ Les étapes de l'algorithme k-means → Exemple simple (k=2) Question: Appliquez le clustering K-means pour les ensembles de données suivants pour deux clusters (k = 2). Objet Variable1 Variable2 1 1 1 2 1,5 2 3 2,90 4 4 5 7 5 3,5 5 6 4,5 5 7 3,5 4,5 Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Les étapes de K-means ❖ Les étapes de l'algorithme k-means Step 1 (Initialisation): Choisissez un nombre de clusters et des centres initiaux aléatoires. +K=2 Objet Variable1 Variable2 + Centres initiaux = c1(1,1) et c2(5,7) 1 1 1 2 1,5 2 Objet Vecteur 3 2,90 4 Cluster 1 1 (1.0, 1.0) 4 5 7 Cluster 2 4 (5.0, 7.0) 5 3,5 5 K=2 6 4,5 5 8 4 7 7 3,5 4,5 6 5 6 5 varaible2 3 7 4 3 2 2 1 1 0 0 1 2 3 4 5 6 variable1 Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Les étapes de K-means ❖ Les étapes de l'algorithme k-means Step 2 (Calcule de la distance et l’attribution): Attribuez chaque objet de données au cluster dont le centre est le plus proche. Obj Centroïde1 (1.0, 1.0) Centroïde2 (5.0, 7.0) Cluster Objet Var1 Var2 1 Cl1 1 1 1 (𝟏 − 1)2 +(1 − 1)2 = 0 (𝟓 − 1)2 +(𝟕 − 1)2 = 7,21 2 1,5 2 2 (𝟏 − 1.5)2 +(𝟏 − 2)2 = 1.12 (𝟓 − 1.5)2 +(𝟕 − 2)2 = 6.10 Cl1 3 2,90 4 3 (𝟏 − 2.90)2 +(𝟏 − 4)2 = 3.55 (𝟓 − 3)2 +(𝟕 − 4)2 = 3.66 Cl1 4 5 7 4 (𝟏 − 5)2 +(𝟏 − 7)2 = 7.21 (𝟓 − 5)2 +(𝟕 − 7)2 = 0 Cl2 5 3,5 5 5 (𝟏 − 3.5)2 +(𝟏 − 5)2 = 4.72 (𝟓 − 3.5)2 +(𝟕 − 5)2 = 2.50 Cl2 6 4,5 5 6 (𝟏 − 4.5)2 +(𝟏 − 5)2 = 5.31 (𝟓 − 4.5)2 +(𝟕 − 5)2 = 2.06 Cl2 7 3,5 4,5 7 Cl2 K=2 (𝟏 − 3.5)2 +(𝟏 − 4.5)2 = 4.30 (𝟓 − 3.5)2 +(𝟕 − 4.5)2 = 2.92 8 4 7 Cl2 6 5 6 5 Variable2 3 4 Cl1 7 Itération 1 3 2 2 1 1 0 0 1 2 3 4 5 6 Variable1 Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Les étapes de K-means ❖ Les étapes de l'algorithme k-means Step 3 (Recalcule des centres): Recalculez les centres des clusters en fonction des objets de données qui y sont attribués.. Objet Var1 Var2 Cluster Les nouveaux centres sont: 1 1 1 Cl1 2 1,5 2 Cl1 3 2,90 4 Cl1 (1 + 1.5 + 2.90) (1 + 2 + 4) 𝑐1 = , = (1.80, 2.33) 4 5 7 Cl2 3 3 5 3,5 5 Cl2 (5 + 3.5 + 4.5 + 3.5) 7 + 5 + 5 + 4.5 𝑐2 = , = (4.13, 5.38) 6 4,5 5 Cl2 4 4 7 3,5 4,5 Cl2 K=2 K=2 8 8 4 Cl2 4 7 7 6 6 5 6 5 6 5 7 7 5 Variable2 Variable2 3 3 4 4 Cl1 3 3 2 2 2 2 1 1 1 1 0 0 0 1 2 3 4 5 6 0 1 2 3 4 5 6 Variable1 Variable1 Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Les étapes de K-means ❖ Les étapes de l'algorithme k-means Step 2 (Calcule de la distance et l’attribution): Attribuez chaque objet de données au cluster dont le centre est le plus proche. Obj Centroïde1 (1.80, 2.33) Centroïde2 (4.13, 5.38) Cluster Objet Var1 Var2 1 (𝟏. 𝟖𝟎 − 1)2 +(2.33 − 1)2 = 1,55 (𝟒. 𝟏𝟑 − 1)2 +(𝟓. 𝟑𝟖 − 1)2 = 5,38 Cl1 1 1 1 2 (𝟏. 80 − 1.5)2 +(𝟐. 𝟑𝟑 − 2)2 = 0,45 (𝟒. 𝟏𝟑 − 1.5)2 +(𝟓. 𝟑𝟖 − 2)2 = 4,28 Cl1 2 1,5 2 3 (𝟏. 𝟖𝟎 − 2.90)2 +(𝟐. 𝟑𝟑 − 4)2 = 2,00 (𝟒. 𝟏𝟑 − 3)2 +(𝟓. 𝟑𝟖 − 4)2 = 1,85 Cl2 3 2,90 4 4 (𝟏. 𝟖𝟎 − 5)2 +(𝟐. 𝟑𝟑 − 7)2 = 5,66 (𝟒. 𝟏𝟑 − 5)2 +(𝟓. 𝟑𝟖 − 7)2 = 1,84 Cl2 4 5 7 5 Cl2 5 3,5 5 (𝟏. 𝟖𝟎 − 3.5)2 +(𝟐. 𝟑𝟑 − 5)2 = 3,17 (𝟒. 𝟏𝟑 − 3.5)2 +(𝟓. 𝟑𝟖 − 5)2 = 0,74 6 4,5 5 6 (𝟏. 80 − 4.5)2 +(𝟐. 𝟑𝟑 − 5)2 = 3.80 (𝟒. 𝟏𝟑 − 4.5)2 +(𝟓. 𝟑𝟖 − 5)2 = 0,53 Cl2 7 3,5 4,5 7 (𝟏. 𝟖𝟎 − 3.5)2 +(𝟐. 𝟑𝟑 − 4.5)2 = 2.76 (𝟒. 𝟏𝟑 − 3.5)2 +(𝟓. 𝟑𝟖 − 4.5)2 = 1,08 Cl2 8 K=2 Cl2 4 7 6 5 6 5 Variable2 3 4 Cl1 7 Itération 2 3 2 2 1 1 0 0 1 2 3 4 5 6 Variable1 Les algorithmes de Machine Learning (ML) --> Algorithms de clustering --> Les étapes de K-means ❖ Les étapes de l'algorithme k-means Step 3 (Recalcule des centres): Recalculez les centres des clusters en fonction des objets de données qui y sont attribués.. Objet Var1 Var2 Cluster Les nouveaux centres sont: 1 1 1 Cl1 2 1,5 2 Cl1 3 2,90 4 Cl2 (1 + 1.5) (1 + 2) 𝑐1 = , = (1.25, 1.50) 4 5 7 Cl2 2 2 5 3,5 5 Cl2 (2.90 + 5 + 3.5 + 4.5 + 3.5) 4 + 7 + 5 + 5 + 4.5 𝑐2 = , = (3.88, 5.10) 6 4,5 5 Cl2 5 5 K=2 K=