Descente de Gradient et Optimisation

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

La descente de gradient stochastique met à jour les paramètres après chaque exemple d'entraînement.

True (A)

La descente de gradient par mini-lots est plus lente que la descente stochastique.

False (B)

L'un des inconvénients de la descente de gradient stochastique est sa convergence moins bruyante.

False (B)

Les paramètres initiaux du modèle dans l'algorithme de descente de gradient par mini-lots doivent être initialisés aléatoirement.

True (A) Signup and view all the answers

La taille des mini-lots n'a aucune influence sur l'efficacité de la descente de gradient par mini-lots.

False (B) Signup and view all the answers

La descente de gradient par lots nécessite plus de mémoire que la descente de gradient stochastique.

True (A) Signup and view all the answers

Le gradient est calculé uniquement pour l'ensemble des données dans la descente de gradient stochastique.

False (B) Signup and view all the answers

Le taux d'apprentissage est un paramètre essentiel dans l'algorithme de descente de gradient.

True (A) Signup and view all the answers

Le taux d'apprentissage est considéré comme un hyperparamètre secondaire.

False (B) Signup and view all the answers

L'approche de recherche manuelle consiste à ajuster tous les hyperparamètres simultanément.

False (B) Signup and view all the answers

La méthode ReduceLROnPlateau ajuste le taux d'apprentissage lorsque la métrique suivie ne s'améliore pas.

True (A) Signup and view all the answers

La recherche par grille teste toutes les combinaisons possibles d'hyperparamètres prédéfinis.

True (A) Signup and view all the answers

Il est recommandé de toujours commencer par la taille du mini-batch lors de l'ajustement des hyperparamètres.

False (B) Signup and view all the answers

Un learning rate élevé pourrait mieux fonctionner avec un batch size spécifique.

True (A) Signup and view all the answers

La limite inférieure du taux d'apprentissage dans l'ajustement des hyperparamètres est de 0.01.

False (B) Signup and view all the answers

Réduire le taux d'apprentissage par un facteur de 0.5 améliorera toujours la performance du modèle.

False (B) Signup and view all the answers

Le taux d'apprentissage doit être choisi avec soin pour éviter une convergence trop lente.

True (A) Signup and view all the answers

La descente de gradient par mini-lots est le moins utilisé des types de descente de gradient.

False (B) Signup and view all the answers

Relu, Leaky Relu et Sigmoid sont des exemples de fonctions d'activation.

True (A) Signup and view all the answers

La descente de gradient par lots met à jour le modèle après avoir évalué chaque exemple séparément.

False (B) Signup and view all the answers

Le principal inconvénient de la descente de gradient par lots est son efficacité avec les grands ensembles de données.

True (A) Signup and view all the answers

Adam, RMSprop et SGD avec momentum sont des algorithmes d'optimisation utilisés pour la descente de gradient.

True (A) Signup and view all the answers

L'ajustement du nombre de couches cachées n'affecte pas la capacité de généralisation d'un modèle.

False (B) Signup and view all the answers

La descente de gradient stochastique met à jour le modèle après chaque exemple d'entraînement.

True (A) Signup and view all the answers

La technique de décroissance fixe consiste à réduire le taux d'apprentissage après un nombre variable d'époques.

False (B) Signup and view all the answers

Il est recommandé de commencer avec un taux d'apprentissage relativement bas pour stabiliser l'entraînement.

False (B) Signup and view all the answers

La méthode de décroissance exponentielle réduit le taux d'apprentissage de manière constante après chaque itération.

False (B) Signup and view all the answers

L'ajustement dynamique du taux d'apprentissage permet d'éviter que le modèle ne saute autour du minimum global.

True (A) Signup and view all the answers

L'objectif de la décroissance du taux d'apprentissage est de ralentir le processus d'entraînement de manière uniforme.

False (B) Signup and view all the answers

La méthode de décroissance par validation implique de modifier le taux d'apprentissage uniquement si la performance s'améliore.

False (B) Signup and view all the answers

Un taux d'apprentissage ajusté de manière dynamique peut accélérer la convergence et améliorer la stabilité.

True (A) Signup and view all the answers

Les paramètres θ sont initialisés de manière fixe au début de chaque époque.

False (B) Signup and view all the answers

La régularisation L2 est une technique utilisée pour améliorer la performance d'un modèle de machine learning.

True (A) Signup and view all the answers

Les experts en machine learning n'ont pas besoin de savoir quels éléments ajuster pour obtenir un effet spécifique.

False (B) Signup and view all the answers

Il est préférable que le set de développement et le set de test proviennent de la même distribution.

True (A) Signup and view all the answers

Il existe seulement un critère de performance pour qu'un système de machine learning soit performant.

False (B) Signup and view all the answers

L'expérimentation intelligente implique des retours rapides pour éviter les inefficacités à long terme.

True (A) Signup and view all the answers

La bonne performance réelle est jugée uniquement sur le jeu d'entraînement.

False (B) Signup and view all the answers

Un modèle de machine learning doit bien se comporter uniquement sur le jeu de test.

False (B) Signup and view all the answers

Un bouton de télévision ancienne ayant plusieurs fonctions rend l'ajustement de l'image plus facile.

False (B) Signup and view all the answers

La Recherche par Grille consiste à tester toutes les combinaisons d'une grande quantité de valeurs pour chaque hyperparamètre.

False (B) Signup and view all the answers

La normalisation de mini-batch ne nécessite pas de calculer la moyenne et l'écart-type des activations.

False (B) Signup and view all the answers

Un des avantages de la normalisation de mini-batch est qu'elle accélère l'apprentissage et améliore les performances du modèle.

True (A) Signup and view all the answers

Des mini-lots de taille 32 ou 64 sont souvent utilisés pour réduire la variance de la normalisation.

True (A) Signup and view all the answers

Pour améliorer l'exactitude d'un modèle, il est suffisant d'augmenter uniquement la quantité de données.

False (B) Signup and view all the answers

La normalisation de mini-batch agit comme une forme de régularisation pour réduire l'overfitting.

True (A) Signup and view all the answers

L'un des inconvénients de la Recherche par Grille est qu'elle peut être peu coûteuse en calcul lorsqu'il y a de nombreux hyperparamètres.

False (B) Signup and view all the answers

Pour structurer un projet de machine learning, il est nécessaire d'identifier les techniques les plus inefficaces.

False (B) Signup and view all the answers

Flashcards

Descente de gradient par lots

Méthode d'optimisation des paramètres d'un modèle d'apprentissage automatique en calculant le gradient sur l'ensemble des données d'entraînement à chaque étape.

Descente de gradient stochastique (SGD)

Méthode d'optimisation des paramètres en utilisant un seul exemple d'entraînement à la fois pour calculer le gradient.

Descente de gradient par mini-lots

Méthode d'optimisation qui combine les avantages de la descente par lots et de la descente stochastique en utilisant des mini-lots de données pour calculer le gradient.