48 Questions
Qu'est-ce qu'un arbre de décision?
Un algorithme d'apprentissage supervisé
Quel est le nom du nœud initial au début d'un arbre de décision?
Nœud racine
Quels sont les nœuds qui résultent du fractionnement des nœuds racines dans un arbre de décision?
Nœuds de décision
Quel est le nom des nœuds où une division ultérieure n'est pas possible dans un arbre de décision?
Nœuds feuilles
Qu'est-ce qu'un branch ou sous-arbre dans un arbre de décision?
Un sous-section d'un arbre de décision
Quels sont les sous-nœuds qui émergent d'un nœud parent dans un arbre de décision?
Nœuds enfants
Quel est le but principal de l'élagage dans les arbres de décision?
Réduire la complexité de l'arbre de décision
Quel est le nom de la méthode qui consiste à élaguer l'arbre avant qu'il n'atteigne sa profondeur maximale?
Pre-pruning
Quel est le paramètre qui permet de limiter la profondeur maximale de l'arbre de décision?
max_depth
Quelle est la formule utilisée pour mesurer l'impureté d'un nœud dans un arbre de décision?
Gini
Quel est le but de la méthode de post-pruning?
Supprimer les nœuds qui ne changent que peu le score de classification
Quel est le nom de la mesure qui évalue l'incertitude d'un ensemble de données?
Entropy
Quel est le critère utilisé en pratique pour mesurer l'impureté d'un nœud dans un arbre de décision ?
Indice de Gini
Quel est le problème lié à la sensibilité lors de la recherche du meilleur split pour chaque caractéristique ?
Problème de sensibilité
Qu'est-ce que l'entropie mesure dans un arbre de décision ?
L'impureté d'un nœud
Quel est le but du pruning dans un arbre de décision ?
Réduire le sur-apprentissage
Quelle est la différence clé entre l'entropie et l'indice de Gini ?
L'entropie est utilisée pour les problèmes de classification binaire, tandis que l'indice de Gini est utilisé pour les problèmes de classification multiclasse
Quels sont les deux types de pruning dans un arbre de décision ?
Pre-pruning et post-pruning
Quel est le type d'algorithme utilisé par les arbres de décision?
Apprentissage supervisé
Quel est le nom du nœud qui divise en sous-nœuds?
Nœud parent
Quel est le résultat final d'un arbre de décision?
Un nœud feuille
Qu'est-ce que représente une branche dans un arbre de décision?
Une sous-section d'un arbre de décision
Quel est le but principal d'un arbre de décision?
De fournir des modèles faciles à comprendre
Quel type de tâche peut être résolue par un arbre de décision?
Toutes les réponses ci-dessus
Quelle est la principale utilisation des arbres de décision?
Pour de la classification
Quel est l'avantage des arbres de décision?
Ils sont très expressifs
Quel est le problème lié à la structure des arbres de décision?
Ils sont peu interprétables
Quel est le nom des nœuds qui résultent du fractionnement des nœuds racines dans un arbre de décision?
Nœuds
Quel est le rôle des feuilles dans un arbre de décision?
D'assigner une classe majoritaire
Quel est le but des arbres de décision dans les compétitions Kaggle?
De servir de base pour d'autres modèles de machine learning
Quel est le problème que peut créer l'optimisation lors des classes déséquilibrées?
La sous-représentation de la classe minoritaire
Quel est l'avantage de mettre un poids plus important aux éléments de la classe minoritaire?
Éviter la surreprésentation de la classe majoritaire
Qu'est-ce que les variables en haut de l'arbre de décision reflètent?
L'importance des caractéristiques
Quel est le problème lié à la présence de nombreux arbres profonds dans un modèle d'arbre de décision?
La difficulté à interpréter les résultats
Quel est le but de la méthode Random Forest?
Améliorer la précision des prédictions en utilisant des arbres de décision individuels
Quel est l'avantage de l'utilisation du calcul en parallèle dans les arbres de décision?
Accélérer l'optimisation
Quel est le critère qui prend en compte le nombre d'échantillons dans une feuille?
Critère sur le nombre de samples au niveau de la feuille
Quel type de features peut gérer un arbre de décision en plus des numériques?
Catégorielles et booléennes
Quel est le problème lié à la recherche du meilleur split pour chaque caractéristique?
Sensibilité
Pourquoi est-il important de trouver le meilleur seuil pour les features?
Pour améliorer la précision de l'arbre de décision
Quel est le but de mixer les différents critères dans un arbre de décision?
Améliorer la précision de l'arbre
Quel est le problème lié à avoir énormément de features?
Chronophagie
Pourquoi est-il important d'éviter le sur-apprentissage dans un arbre de décision?
Pour éviter que le modèle ne soit trop spécifique aux données d'entraînement
Quel est l'avantage de l'indice de Gini par rapport à l'entropie?
Il est plus facile à calculer
Quel est le nom de la méthode qui consiste à prendre un seul seuil aléatoire pour chaque caractéristique?
Idée aléatoire
Quel est le but de la méthode de pré-pruning?
Éviter le sur-apprentissage en élaguant l'arbre avant qu'il n'atteigne sa profondeur maximale
Quel est le problème lié à la recherche du meilleur split pour chaque caractéristique?
La sensibilité des données
Quel est le critère utilisé pour décider si un split est utile dans un arbre de décision?
Si l'entropie diminue
Study Notes
Amélioration des performances de l'arbre de décision
- L'élagage permet d'améliorer les performances de l'arbre de décision en supprimant les nœuds ou sous-nœuds qui ne sont pas significatifs.
- Il supprime également les branches qui ont une très faible importance.
Méthodes d'élagage
- Il existe deux façons de tailler : Pre-pruning (Pré-taillage) et Post-pruning (Post-élagage).
- Pre-pruning : nous pouvons arrêter la croissance de l'arbre plus tôt, ce qui signifie que nous pouvons élaguer/supprimer/couper un nœud s'il a peu d'importance lors de la croissance de l'arbre.
- Post-pruning : une fois que notre arbre a atteint sa profondeur, nous pouvons commencer à tailler les nœuds en fonction de leur importance.
Paramètres pour limiter la croissance
- max_depth : Limiter la profondeur max de l'arbre.
- min_samples_split : Limiter le nombre de sample avant de faire un split.
- min_samples_leaf : Après un split, il doit y avoir plus de min_samples_leaf dans chaque feuille.
Post-pruning
- Réduire l'arbre a posteriori en utilisant la loss entropy/gini avec le nombre de nœud terminaux et un paramètre de régularisation.
- Supprime ensuite les nœuds qui ne changent que peu le score de classification.
Arbre de décision
- Un arbre de décision est un algorithme d'apprentissage supervisé.
- Les arbres de décision sont utilisés pour les tâches de classification et de régression, fournissant des modèles faciles à comprendre.
- Ils ont une structure arborescente hiérarchique de nœuds.
Terminologie
- Nœud racine/sommet : nœud initial au début d'un arbre de décision.
- Nœuds de décision : Nœuds résultant du fractionnement (split) des nœuds racines.
- Nœuds feuilles ou terminaux : nœuds où une division ultérieure n'est pas possible, indiquant la classification ou le résultat final.
- Branch or Sub tree (Sous-arbre) : sous-section d'un arbre de décision.
- Nœud parent et enfants : Un nœud divisé en sous-nœuds est appelé nœud parent, et les sous-nœuds qui en émergent sont appelés nœuds enfants (ou fils).
Trouver le meilleur split
- Idée simple : Faire des intervalles.
- Idée maligne et plus rapide : Prendre les seuils endroits il y a une alternance des deux classes.
- Idée encore plus simple : Prendre un seuil aléatoire.
Sortie multiple
- Chaque feuille stocke k valeurs au lieu de 2 (nombre de classes).
- Changement du critère pour tenir compte de k classes.
Critères de classification
- Loss de classification.
- Entropy.
- Index de Gini (pureté).
Sur-apprentissage
- Le sur-apprentissage risque d'être encore plus présent avec l'arbre de décision.
- Deux méthodes de pruning pour éviter le sur-apprentissage : Pre-pruning et Post-pruning.
Découvrez les différents types d'élagage pour améliorer les performances des arbres de décision, notamment le pré-taillage et le post-élagage.
Make Your Own Quizzes and Flashcards
Convert your notes into interactive study material.
Get started for free