Fondamentaux de l'apprentissage et complexité PDF
Document Details
Uploaded by Deleted User
Tags
Related
- Chapitre 1 Recherche Adversariale en Intelligence Artificielle PDF
- Chapitre 2 IA et Machine Learning (Partie 1) 2024-2025 PDF
- Introduction au Machine Learning PDF
- Apprentissage automatique - Première Partie PDF
- Matrices de Corrélation PDF
- L’apprentissage automatique (Machine Learning) - Séance 2 - PDF
Summary
Ce document présente des concepts fondamentaux en apprentissage automatique, tels que les défis liés aux données et à la sélection d'algorithmes pour la formation d'un modèle. Il détaille le concept de biais et de variance, les différentes solutions pour gérer les problèmes d'underfitting et d'overfitting, et discute du prétraitement des données, de l'ingénierie des features et de leurs rôles dans l'amélioration de la performance du modèle.
Full Transcript
1. Defis de l’apprentissage automatique : Sélectionner l’algorithme d’apprentissage adéquat et l’entrainer sur des données adéquates. Donc les 2 points facteurs principaux qui influencent le modèle sont : les donnees + l’algo d’apprentissage. Defis de donnees: Données insuffisantes....
1. Defis de l’apprentissage automatique : Sélectionner l’algorithme d’apprentissage adéquat et l’entrainer sur des données adéquates. Donc les 2 points facteurs principaux qui influencent le modèle sont : les donnees + l’algo d’apprentissage. Defis de donnees: Données insuffisantes. Le biais : l’erreur dans Données non representatives. (relatives au apprentissage target) La variance : l’erreur dans le Données de mauvais qualité. test/validation. Features non pertinents. Note: Le calcul d’erreur se fait avec la fonction COST : Defis des algos d’apprentissage : Cost x = (somme Loss / Somme x) >=1, 1. Underfitting : car le modèle est simple x soit apprentissage ou validation. tandis que les données sont complexes. 4. Modèle bien généralisé: bias Polynome = 1 faible, variance faible et 2. Overfitting : car le modèle est complexe complexité optimale. tandis que les données sont simples. Polynome = 3,4,… 3. Data leakage : lorsque les donnees du test se retrouvent dans ceux d’apprentissage. 2. Solutions proposées pour gérer les defis : Underfitting : 1. Selectionner un modèle complexe 2. Ajouter plus de features, pour donner au modèle plus d’infos. · Prétraitement : Prépare les données en 1 les normalisant, en imputant les valeurs manquantes et en encodant les variables catégorielles. A noter que c’est la partie la plus couteuse en terme de temps. · Feature Engineering : Crée et transforme des caractéristiques pour améliorer la performance du modèle en capturant des relations significatives dans les données. 3. Entrainer le modèle plus pour qu’il apprenne d’avantage. Overfitting : 1. Utiliser la validation des donnees 2. Utiliser la regularisation qui élimine le poids des features, réduisant ainsi la complexité. 3. Ajouter plus de donnees, ainsi augmenter la taille d’apprentissage. 4. Suppr/ajouter des features Data leakage : F-Mesure ou F1 score : 1. Échantillonner le dataset, et appliquer sur chaque sous ensemble test/apprentissage, Notes : chacun separemment les operations Exactitude = nbr des valeurs predites correctes prétraitement et le feature Precision = nbr des valeurs engineering. predites positives. Rappel = nbr de valeurs reelles positives. 2. Metriques d’évaluation d’un modèle : On a deux problemes : 1. Probleme de classification 2. Probleme de regression 1. Probleme de classification : - Matrice de confusion : - Courbe ROC : Comment se fait la création de la courbe ? 1. descritiser les Ypred : Ça veut dire que pour chaque Ypred du tableau donnée, on doit verifier avec chaque valeur du vecteur de Sachant que : seuils : ypred(a), ypred(b), ypred(C), * La première val = T si : reel=pre, = F, si …., si Ypred > seuil alors Y’=1, sinon reel/=pred Y’=0. Avec a,b,c appart au vecteur. * La deuxième val = T si : prediction pos, = Notant : si y’a deux valeur F, si prediction neg. identiques dans le vecteur, on calcule pour une seule. A partir de cette matrice on peut dériver 2. Calculer TP, FN, FP, TN : plusieurs critères d’évaluation, tel que : Pour chaque valeur du vecteur du seuils, on doit calculer TP, FN, FP, TN. Notant que la somme d’une colonne d’une valeur de seuil doit être égal au nbr de val dans le vecteur. 3. Dessiner le graphe sur la base du TPR/FPR: Avec les deux formules : En calculant : TPR = TP/(TP + FN), FPR : FP/(FP+TN), pour chaque valeur du seuil. Axe X : FPR Axe Y : TPR. · Prétraitement : Prépare les données en 3 les normalisant, en imputant les valeurs manquantes et en encodant les variables catégorielles. A noter que c’est la partie la plus couteuse en terme de temps. · Feature Engineering : Crée et transforme des caractéristiques pour améliorer la performance du modèle en capturant des relations significatives dans les données.