Artificial Intelligence - Master 2 - University of Science and Technology Mohamed-Boudiaf - Chapter VI PDF

Summary

This document is a course support material for a master's level course on Artificial Intelligence, specifically for Network and Telecommunications. It provides an overview of fundamental concepts and techniques in Machine Learning, with a focus on how to prepare datasets and identify potential issues like overfitting and underfitting.

Full Transcript

University of Science and Technology Mohamed-Boudiaf Faculty of Electrical Engineering Department of Electronics Course support entitled : Artificial Intelligence Master 2 Specialty : Networks and Telecommunications Present...

University of Science and Technology Mohamed-Boudiaf Faculty of Electrical Engineering Department of Electronics Course support entitled : Artificial Intelligence Master 2 Specialty : Networks and Telecommunications Presented by : Mr. Mohammed Hicham HACHEMI Senior Lecturer (HDR) 1 Chapter VI Gérer un projet de ML 2 VI.1. Introduction Il ne suffit pas de Pour savoir comment se Mener bien Il faut également connaitre des servir de ces un projet ML algorithmes algorithmes 2 problèmes les plus courants en ML Le problème Une mauvaise d’Over fitting préparation du Dataset 3 VI.1. Introduction Ce n'est pas celui qui dispose du meilleur algorithme qui réussit, mais celui qui dispose du plus de données. chercheur américain en informatique (l'apprentissage automatique et la robotique) 4 VI.1. Introduction Une étude menée en Montre dépend avant la quantité de La performance données que 2001 par Michelle que d’un programme comporte votre Banko et Eric Brill tout de de ML Dataset L’étude beaucoup sont similaires en révèle aussi d’algorithmes de ML terme de performance Mais avoir beaucoup de De bonnes données il faut aussi avoir Et données ne suffit pas Comprendre ces données Qui représente le plus grand temps passé l’étape de préparation Data pre-processing des données sur un projet de ML 5 VI.2. Data pre-processing: Comment préparer votre Dataset ? avant de il est impératif de procéder un Dataset commencer à quelques retouches Il est fréquent qu’un Dataset contienne quelques anomalies, voire des erreurs, qu’il faut supprimer rendre Il est aussi important de mettre sur une l’apprentissage de normaliser vos données même échelle la machine plus rapide et aussi plus efficace Si vous avez des valeurs manquantes, assigner une valeur par défaut Si vous avez des features catégoriales (exemple : homme/femme) il faut les convertir en données numériques (homme=0, femme=1) 6 VI.2. Data pre-processing: Comment préparer votre Dataset ? avant de il est impératif de procéder un Dataset commencer à quelques retouches Nettoyer le Dataset des features redondantes pour faciliter l’apprentissage de la machine. Un point qui peut faire toute la différence est la création de nouvelles features, ce qu’on appelle Exemple : un Dataset qui contient les feature engineering features : 𝑥𝑥1 = 𝑙𝑙𝑜𝑜𝑛𝑛𝑔𝑔𝑢𝑢𝑒𝑒𝑢𝑢𝑟𝑟 𝑗𝑗𝑎𝑎𝑟𝑟𝑑𝑑𝑖𝑖𝑛𝑛 𝑥𝑥2 = 𝑙𝑙𝑎𝑎𝑟𝑟𝑔𝑔𝑒𝑒𝑢𝑢𝑟𝑟 𝑗𝑗𝑎𝑎𝑟𝑟𝑑𝑑𝑖𝑖𝑛𝑛 équivaut à la surface du jardin possible de créer 𝑥𝑥3 = 𝑥𝑥1 × 𝑥𝑥2 7 VI.2. Data pre-processing: Comment préparer votre Dataset ? Attention ! Le tableau à importer doit avoir à un certain format. ne contient que vos données (pas de notes ni commentaires) et qui commence dès la colonne A ligne 1 : 8 Que pensez-vous des deux modèles ? J≥0 J=0 9 Que pensez-vous des deux modèles ? J≥0 J=0 Le modèle B souffre ici d’un phénomène très à éviter problème appelé Over fitting courant en ML 10 VI.3. Over fitting trop de paramètres survient un modèle trop complexe ou trop de features Qui a été entraîné le modèle a un mais ce qu’on appelle certes très faible coût aussi une grande variance 𝑱𝑱(𝜽𝜽) Conséquence un modèle moins performant que prévu 11 VI.3. Over fitting À trop appris les exemples que Autrement Votre modèle que vous avez donnés dans la dit vous avez entraîné phase d’apprentissage Lorsque vous voulez le généraliser sur d’autre modèles Vous aurez un modèle moins performant que prévu 12 VI.3. Over fitting B était Mais sur de A est meilleur Avant que B meilleur que A nouvelles données 13 VI.4. Under fitting il suffit de développer des Plus de problème On pourrait Over fitting modèles moins complexes de variance ! alors dire avec moins de features on risque alors d’avoir Mais qui manque C’est vrai Under fitting de précision un modèle erroné On dit que le modèle Ce problème touche à la fois les a un grand biais régressions et les classifications 14 VI.4. Under fitting 15 VI.5. La Régularisation Comment trouver le juste milieu entre biais et variance ? Solution méthode de Régularisation en régulant l’amplitude permet de garder toutes des paramètres 𝜽𝜽 les features d’un modèle C.à.d. permet de limiter la variance d’un modèle sans sacrifier son biais 16 VI.5. La Régularisation Différentes techniques existent dans la méthode de régularisation 1. Pénaliser légèrement la Fonction Coût du modèle en ajoutant un terme de pénalité sur ses paramètres. Pour la régression linéaire, la Fonction Coût devient alors facteur de régularisation trop grand Under fitting correspond niveau de pénalité trop faible Over fitting On peut le contrôler directement dans Sklearn 17 VI.5. La Régularisation on peut augmenter Le modèle ne tient pas 2. Pour K-Nearest Neighbour la valeur de K compte des anomalies (nombre de voisins) noyées dans la masse une en désactivant 3. Pour Réseaux technique aléatoirement certains pénalise de Neurones nommée neurones à chaque cycle de le modèle Dropout Gradient Descent 18 VI.6. Train set et Test set Comment être sûr de la performance de votre modèle sur des données futures ? Il faut entraîner votre modèle sur et utiliser la seconde partie pour évaluer une partie seulement du Dataset la vraie performance de notre modèle On appelle cela le Train set et le Test set. Une bonne manière de mesurer la performance de votre modèle de Machine Learning C.à.d. divisé le Dataset aléatoirement en deux parties avec un rapport 80/20 : Train set (80%), qui permet à la machine d’entraîner un modèle. Test set (20%), qui permet d’évaluer la performance du modèle. 19 VI.6. Train set et Test set 12 exemples La sélection est aléatoire 4 exemples 16 exemples 20 VI.7. Repérer un problème d’Under fitting ou d’Over fitting La technique la plus efficace pour repérer si votre modèle a un problème de biais de variance ou (Under fitting) (Over fitting) consiste à analyser les erreurs (la Fonction Coût) sur le Train set et le Test set 𝑱𝑱(𝜽𝜽)𝒕𝒕𝒓𝒓𝒂𝒂𝒊𝒊𝒏𝒏 𝑱𝑱(𝜽𝜽)𝒕𝒕𝒆𝒆𝒔𝒔𝒕𝒕 21 VI.7. Repérer un problème d’Under fitting ou d’Over fitting les erreurs sont grandes les erreurs sont faibles Train set et Test set Train set grandes sur Test set alors le modèle a un grand biais alors le modèle a une grande Variance 22 VI.8. Que faire en cas d’Over fitting ou Under fitting ? Dans le cas où votre Modèle a un grand biais (Under fitting) vous pouvez : Créer un modèle plus complexe, avec plus de paramètres. Créer plus de features à partir des features existantes. Entraîner votre modèle plus longtemps. Diminuer le Learning Rate du Gradient Descent (si le Learning Rate est trop grand, la Fonction Coût ne converge pas) Récolter plus de features dans les données (parfois une feature importante n’a pas été récoltée) 23 VI.8. Que faire en cas d’Over fitting ou Under fitting ? Dans le cas où votre Modèle a une grande variance (Over fitting) vous pouvez : Utiliser la régularisation Utiliser un modèle avec moins de paramètres ou un Dataset avec moins de features Collecter plus de données (avoir un Dataset plus grand permet de développer un modèle qui généralise mieux) 24 VI.9. Résumé des étapes de développement en ML 25 VI.9. Résumé des étapes de développement en ML 26 VI.10. Résumé sur Biais et Variance Biais C’est l’erreur due à un modèle erroné qui manque de précision et donne lieu à un Under fitting. Variance C’est l’erreur due à un modèle trop sensible aux détails et incapable de généraliser, ce qui donne lieu à un Over fitting. 27 Supervised Learning Tasks Les algorithmes d'apprentissage supervisé se caractérisent par leur capacité à trouver des relations entre un ensemble de et une valeur cible caractéristiques qu'elle soit discrète ou continue 28 Supervised Learning Tasks L'apprentissage supervisé peut résoudre deux types de tâches Classification Régression 29 VI.10. Arriver à un bon modèle couvre non seulement mais aussi la sélection de l'algorithme le réglage de ses hyperparamètres 30

Use Quizgecko on...
Browser
Browser