Machine Learning - Chapitre Introduction PDF
Document Details
Uploaded by Deleted User
IIT - Institut International de Technologie
2024
Najla BOUARADA
Tags
Summary
This document is an introduction to a Machine Learning course. The course aims to teach fundamental concepts, algorithms, and data preparation techniques in machine learning. The summary covers several sections, including the course objectives, schedule, evaluation criteria, and the broader scope of the course.
Full Transcript
MACHINE LEARNING Enseignante : Najla BOUARADA [email protected] Auditoire : 3 GLSI Année universitaire :2024/2025 ⚫ Objectifs de ce cours Se familiariser avec les concepts de base du machine learning, y compris la différence entre l'app...
MACHINE LEARNING Enseignante : Najla BOUARADA [email protected] Auditoire : 3 GLSI Année universitaire :2024/2025 ⚫ Objectifs de ce cours Se familiariser avec les concepts de base du machine learning, y compris la différence entre l'apprentissage supervisé, non supervisé et par renforcement. Apprendre à implémenter et utiliser les algorithmes de machine learning les plus courants. Evaluer la performance des modèles à l'aide de métriques appropriées et comment choisir le modèle le plus adapté pour un problème donné. Apprendre à préparer et nettoyer les données avant de les utiliser pour l'entraînement des modèles de machine learning. 2 Déroulement Volume horaire : ce cours est présenté, de manière hebdomadaire, comme suit : 42 Heures de cours intégré. Evaluation : Coefficient : 1 Examen de Devoir Surveillé (30%) Examen (70%) 3 Plan Chapitre 1 : Introduction Chapitre 2 : Apprentissage Non Supervisé Chapitre 3 : Apprentissage Supervisé 4 01 Introduction Introduction Je peux tout Oui, je peux apprendre apprendre à partir à partir des données passées de mes à l'aide de l'apprentissage expériences automatique Mais une machine peut-elle également apprendre de ses expériences ou de données passées comme le fait un humain ? La machine fonctionne selon nos instructions 6 Introduction Google a appris de Facebook reconnaît les classer les pages web photos des visages des amis Un filtre anti-spam classe les e-mails 8 Introduction L’apprentissage automatique est un sous-domaine de l’intelligence artificielle (IA) Ensemble de théories et de techniques visant à créer des Intelligence artificielle machines capables de simuler l'intelligence humaine Apprentissage Donner la capacité aux automatique ordinateurs d’apprendre sans avoir été explicitement programmés Un type de l’apprentissage Deep automatique qui se base sur learning des réseaux de neurones artificiels 9 Introduction L’intelligence artificielle : ✓ créer un système informatique capable d'imiter l'intelligence humaine ✓ utiliser diverses techniques pour permettre aux machines de développer des fonctions cognitives propres à l’intelligence humaine Compréhension Mémorisation Communication Adaptation Raisonnement Apprentissage autonome 10 Introduction L’apprentissage automatique : ✓ est une méthode pour réaliser des objectifs définis par l’intelligence artificielle, mais il n'englobe pas tout ce que l'IA peut accomplir ✓ Se fonde sur des algorithmes pour donner aux machines la capacité d’apprendre (extraire des connaissances) à partir de données 11 Introduction Programmation classique : un programme utilise un programme (règles et instructions) et des données en entrée pour produire des réponses données Programmation résultats règles classique Machine Learning: les algorithmes d’apprentissage automatique utilisent des données et les réponses afin d’identifier des modèles pour obtenir des règles (prédictions ou décisions) sur de nouvelles donnée données Apprentissage règles réponses automatique 12 Introduction Exemple 1 : Une entreprise souhaite déterminer le montant total dépensé par un client à partir de ses factures. Solution → Appliquer un algorithme classique : une simple addition → Un algorithme d’apprentissage automatique n’est pas nécessaire 13 Introduction Exemple 2 : Une entreprise cherche à identifier les produits que le client est le plus susceptible d’acheter dans le mois à venir en analysant ses factures. Solution → Un algorithme classique ne peut pas donner une solution → Appliquer un algorithme d’apprentissage automatique pour en extraire un modèle prédictif capable de répondre à notre question 14 Historique 1. Années 1950 - Naissance de l'IA et des bases du machine learning : 1952 : Développement d'un des premiers programmes de machine learning, un programme de jeu de dames 1957 : Invention du premier réseau de neurone 15 Historique 2. Années 1960-1970 - Développement des premiers algorithmes : Développement des algorithmes comme les arbres de décision et les méthodes de regroupement (clustering) 16 Historique 3. Années 1980 - Renaissance des réseaux neuronaux : Amélioration d'entraînement des réseaux neuronaux et relancement d'intérêt pour les réseaux neuronaux artificiels 17 Historique 4. Années 1990 - Progrès dans les algorithmes : Amélioration des algorithmes, comme les support vector machines (SVM) et évolution de performances dans de nombreux domaines. 18 Historique 5. Années 2000 - Émergence du Big Data et de nouvelles techniques : Des algorithmes comme les forêts aléatoires (random forests) et les réseaux bayésiens se sont également popularisés. 19 Historique 6. Années 2010 - Apprentissage profond et explosion des applications : Avec l'émergence de l'apprentissage profond (deep learning), évolution dans des domaines comme la reconnaissance d'image, le traitement du langage naturel et l'automatisation. 20 Historique 7. Aujourd'hui - Applications généralisées : Le machine learning est au cœur de nombreuses industries, comme la santé, la finance, et l'automobile, notamment avec l'intelligence artificielle des véhicules autonomes et la médecine prédictive. 21 Applications de l'apprentissage automatique Finance Santé Détection de fraudes des cartes Alertes et diagnostics à partir des bancaires données des patients Analyse des risques identification des maladies Prédiction des comportements Détection du cancer frauduleux Prédiction du traitement Commerce Élaboration d’offres selon les Énergie, matières besoins des clients premières et services publics Avoir une idée sur les profils des Optimisation de la demande et de clients l'offre d'énergie Planification prédictive des stocks cprédiction du taux de pollution Émissions et commerce de carbone Voyage Industrie Programmation des vols Maintenance prédictive Tarification dynamique Estimation de la réserve de garantie Résolution des réclamations Prévision de la demande gestion de la congestion 22 Introduction Le machine learning est fondé sur deux principes fondamentaux : → Des données Les données sur lesquelles l'algorithme va s'entraîner (apprendre) → l’algorithme d’apprentissage Le processus appliqué à ces données pour générer un modèle Exécuter un algorithme d'apprentissage sur un ensemble de données = Entraînement 23 Introduction L’apprentissage automatique permet à un ordinateur d'apprendre automatiquement à partir de données et de s'améliorer à partir de l'expérience sans être explicitement programmée Il utilise des algorithmes pour créer un modèle à partir de données ALGORITHME D’APPRENTISSAGE 24 Introduction Le modèle créé aide à faire des prédictions ou à prendre des décisions ALGORITHME D’APPRENTISSAGE 25 Algorithme vs modèle Un algorithme est une procédure exécutée sur des données pour créer un modèle d’apprentissage automatique Un algorithme est décrit à l'aide des approches mathématiques et statistiques L’algorithme d'apprentissage automatique aide les ordinateurs à apprendre à partir des données, améliorer la performance, à résoudre des tâches sans être explicitement programmés Exemples d’algorithmes de machine learning : Régression linéaire Régression logistique Arbre de décision Réseau neuronal artificiel K-Nearest Neighbors K-Means 26 Algorithme vs modèle Un modèle en apprentissage automatique est le résultat ou la représentation concrète de l’application d’un algorithme d’apprentissage automatique sur un ensemble de données Il contient les connaissances ou les modèles collectés par l'algorithme à partir de cet ensemble de données Un modèle représente ce qui a été appris par un algorithme d’apprentissage automatique. algorithme modèle Régression linéaire Modèle composé d'un vecteur de coefficients avec des valeurs spécifiques. Arbre de décision Modèle composé d'un arbre d'instructions if- then avec des valeurs spécifiques. 27 Cycle de vie Collecte de Déploiement données du modèle Préparation de données Optimisation du modèle Choix d’un modèle modèle Entraînement Evaluation du du modèle modèle Comment fonctionne un système d'apprentissage automatique ?28 Cycle de vie Collecte de Collecte d’un grand Déploiement données ensemble de données du modèle Préparation de données Optimisation du modèle Choix d’un algorithme modèle Entraînement Evaluation du du modèle modèle 29 Cycle de vie Collecte de Déploiement données du modèle Nettoyage et transformation des Préparation données pour les rendre utilisables de données pour les modèles de ML Optimisation du modèle Choix d’un algorithme modèle Entraînement Evaluation du du modèle modèle 30 Cycle de vie Collecte de Déploiement données du modèle Préparation de données Optimisation du modèle Choix d’un algorithme Sélection de l’algorithme de Machine modèle Learning adapté au type de données Entraînement Evaluation du et à l’objectif souhaité du modèle modèle 31 Cycle de vie Collecte de Déploiement données du modèle Préparation de données Optimisation du modèle Choix d’un algorithme modèle Entraînement Evaluation du du modèle modèle Entraînement du modèle sur l’ensemble des données → apprendre à faire des prédictions ou à classifier des informations 32 Cycle de vie Collecte de Déploiement données du modèle Préparation de données Optimisation du modèle Choix d’un algorithme modèle Entraînement Evaluation du du modèle modèle Évaluation des performances du modèle sur un ensemble de données de test pour mesurer sa précision et son efficacité 33 Cycle de vie Collecte de Déploiement données du modèle Surveiller en permanence les Préparation performances du modèle et apporter des de données mises à jour et des améliorations Optimisation du modèle Choix d’un algorithme modèle Entraînement Evaluation du du modèle modèle 34 Cycle de vie Implémenter le modèle dans un système de production Collecte de Déploiement données du modèle Préparation de données Optimisation du modèle Choix d’un algorithme modèle Entraînement Evaluation du du modèle modèle 35 Dataset Le domaine du Machine Learning dépend fortement des ensembles de données (dataset) pour préparer des modèles et faire des prédictions précises. Dataset : Collection structurée de données, organisées et stockées à des fins d'analyse ou de traitement Peut contenir des valeurs numériques, enregistrements audio, du texte ou des images. 36 Dataset Les données dans un dataset doivent avoir un lien cohérent entre elles Un dataset se présente sous la forme d’un tableau Variables = attributs = caractéristiques Observations = Instances = exemples 37 Dataset Types de datasets : Datasets Numériques : prix, température, etc. Datasets Catégorielles : Oui/Non, Cancer/NonCancer, Bleu/vert, etc. Séries temporelles : valeurs au cours du temps (position d’une voiture) Datasets d’Images : un assortiiment d’images Datasets de textes : informations textuelles 38 Types de l’apprentissage automatique L’apprentissage automatique consiste à construire un modèle qui utilise directement des données du problème que l’on cherche à résoudre. Les différents types de Machine Learning correspondent aux manières d’utiliser ces données pour apprendre à la machine à résoudre un problème 39 Types de l’apprentissage automatique Problème : reconnaissance automatique des chiffres manuscrits Données : base de données MNIST des chiffres manuscrits diversité en forme, orientation, épaisseur de traits Extrait de la base des données 40 Types de l’apprentissage automatique Difficile d’écrire une liste explicite de règles permettant de discriminer les chiffres. → chercher un algorithme permettant d’extraire des règles implicites en se basant sur des données → Ces règles peuvent être appliquées sur de nouveaux chiffres afin de les reconnaître Une seule valeur de sortie est correcte à la fois Une instance (valeur) ne peut pas appartenir à plusieurs classes (ou à aucune) en même temps 41 Types de l’apprentissage automatique Apprentissage Apprentissage Apprentissage par supervisé non-supervisé renforcement 42 Apprentissage Supervisé Régression Classification 42 Apprentissage Supervisé Instruire un modèle à partir d’exemples connus Les données d’entraînement ont des étiquettes (labels) Le modèle analyse ces données pour apprendre les relations entre les données d’entrée et les étiquettes de sortie correspondantes. 43 Apprentissage Supervisé Superviser l’apprentissage de la machine en lui montrant des exemples des données de la tâche qu’il doit réaliser Moins de données d’entraînement Faciliter le processus d’entraînement Processus d’étiquetage difficile 44 Apprentissage Supervisé Régression : Prédire la valeur d’une variable quantitative (valeur continue) prix d’un appartement Evolution du climat Durée de vie d’un patient Algorithmes de régression Régression linéaire Régression logistique Régression polynomiale Régression non linéaire 45 Apprentissage Supervisé Classification : Prédire la valeur d’une variable qualitative (valeur discrète) Email spam / Non Spam Cancer / Non Cancer Photo Chat / Chien Algorithmes de Classification Arbres de décision Machines à vecteurs de support (SVM) K plus proches voisins (KNN) 45 Apprentissage Non Supervisé Traîner un algorithme d’apprentissage avec des données non étiquetées Pas d’information de classe correcte pour les données d’entrées La machine doit créer les réponses Apprentissage Non Supervisé L’algorithme d’apprentissage automatique doit trouver les similarités et les distinctions entre les instances des données L’objectif du système est de regrouper les données ayant des caractéristiques communes Apprentissage Non Supervisé Regroupement (Clustering) Réduction de dimensionnalité Association Apprentissage Non Supervisé Regroupement (Clustering): Séparer les données en un nombre donné de groupes Les éléments du même groupe ont des caractéristiques proches de celles des éléments du même groupe groupes Algorithmes de regroupement K-means Classification Ascendante Hiérarchique Apprentissage Non Supervisé Association : Trouver les relations entre les variables dans une grande base de données Déterminer l'ensemble des éléments qui apparaissent ensemble dans l'ensemble de données Algorithmes d’association : algorithme a priori Apprentissage Non Supervisé Réduction de dimensionnalité: Construire une version à faible dimension d'une donnée à haute dimension Algorithmes de réduction de dimensionnalité : Analyse des composantes principales Décomposition en valeur singulière Apprentissage par Renforcement L’apprentissage par Renforcement : ✓ l’ensemble des méthodes qui permettent à un agent d’apprendre à choisir quelle action prendre d’une manière autonome ✓ utilisé dans les jeux dont le résultat ne peut être décidé qu’à la fin de la partie La machine peut se montrer encore plus créative Elaborer ses propres stratégies et s’adapter dans le temps et dans son environnement afin de réaliser des tâches données L’algorithme devient un agent autonome L’objectif est de réaliser une action au sein d’un environnement Apprentissage par Renforcement Un agent (robot, drone, personnage dans un jeu vidéo, etc.) doit apprendre les actions à prendre, à partir d'expériences ✓ Un agent se plonge dans un environnement ✓ l’agent prend des actions ✓ l’agent interagit avec l’environnement ✓ Pour apprendre, l’agent reçoit une récompense ou une pénalité ✓ l’agent met à jour sa politique. Un algorithme apprend de ses erreurs pour atteindre un objectif.