Architecture du transformateur
18 Questions
1 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Quel est le composant principal de l'architecture Transformer?

  • Encodeur et Décodeur (correct)
  • Machines à vecteurs de support
  • Réseaux de neurones convolutifs
  • Modèles de Markov cachés

Les Transformers ont surpassé les modèles précédents comme les LSTM et les RNN.

True (A)

Quelles sont les deux sous-couches principales de l'encodeur ?

Self-Attention et Réseau de neurones Feed Forward

Les connexions ______ sont utilisées autour de chacune des deux sous-couches, suivies d'une normalisation de la couche.

<p>résiduelles</p> Signup and view all the answers

Quel mécanisme permet au modèle de pondérer l'importance des différentes parties de la séquence d'entrée lors de son traitement?

<p>Mécanisme d'auto-attention (B)</p> Signup and view all the answers

Les requêtes et les clés doivent avoir les mêmes dimensions dans le mécanisme d'attention.

<p>True (A)</p> Signup and view all the answers

Quelle fonction est appliquée aux scores d'attention après la mise à l'échelle?

<p>Softmax (C)</p> Signup and view all the answers

Quel est le but de l'attention multi-tête?

<p>Permettre au modèle d'assister à différents aspects de la séquence d'entrée</p> Signup and view all the answers

Quelle est la fonction principale de l'encodage de position dans un Transformer ?

<p>Fournir des informations sur la position des mots dans la séquence. (A)</p> Signup and view all the answers

L'encodage de position nécessite un entraînement supplémentaire.

<p>False (B)</p> Signup and view all the answers

Quelle fonction d'activation est couramment utilisée dans le réseau de neurones feed-forward des couches Encodeur et Décodeur ?

<p>ReLU</p> Signup and view all the answers

Dans le décodeur, la première couche d'attention est masquée pour empêcher le décodeur de traiter les jetons ______.

<p>futurs</p> Signup and view all the answers

Quel est le rôle du 'Masked Multi-Head Attention' dans le décodeur d'un Transformer ?

<p>Empêcher le décodeur d'accéder aux tokens futurs lors de l'entraînement. (B)</p> Signup and view all the answers

Pendant l'entraînement, les Transformers utilisent une technique appelée 'rétropropagation' pour ajuster les poids du réseau.

<p>False (B)</p> Signup and view all the answers

Quel algorithme d'optimisation est fréquemment utilisé pour mettre à jour les paramètres d'un Transformer pendant l'entraînement ?

<p>Adam</p> Signup and view all the answers

Pour éviter le surapprentissage, des techniques de ______ comme le dropout sont utilisées lors de l'entraînement des Transformers.

<p>régularisation</p> Signup and view all the answers

Pourquoi les Transformers sont-ils adaptés à l'entraînement sur GPUs ?

<p>Ils sont hautement parallélisables. (A)</p> Signup and view all the answers

Faites correspondre les composants du Transformer à leur description:

<p>Multi-Head Attention = Capture différentes relations dans les données Positional Encoding = Fournit des informations sur la position des mots Feed Forward Network = Apprend les relations non linéaires entre les entrées Masked Multi-Head Attention = Empêche d'assister les jetons futurs dans le décodeur</p> Signup and view all the answers

Flashcards

Architecture Transformer

Architecture clé de l'IA moderne, particulièrement importante en traitement automatique du langage.

Structure Globale d'un Transformer

Un modèle composé principalement d'un Encodeur et d'un Décodeur.

Fonction de l'Encodeur/Décodeur

L'Encodeur transforme l'entrée, le Décodeur génère la sortie.

Composants de l'Encodeur

Couche d'Auto-Attention et Réseau de Neurones Feed Forward.

Signup and view all the flashcards

Mécanisme d'Auto-Attention

Elle permet au modèle de peser l'importance des différentes parties de la séquence d'entrée.

Signup and view all the flashcards

Calcul des Scores d'Attention

Calcul des scores d'attention entre toutes les paires de mots dans la séquence d'entrée.

Signup and view all the flashcards

Entrées de l'Attention

Queries, Keys et Values. Queries et Keys calculent les scores; Values donne une moyenne pondérée.

Signup and view all the flashcards

Multi-Head Attention

Permet au modèle de considérer différents aspects de la séquence d'entrée.

Signup and view all the flashcards

Encodage Positionnel

Ajoute des informations sur la position des mots, car les Transformers n'ont pas d'ordre inhérent.

Signup and view all the flashcards

Réseau Feed Forward

Un réseau de neurones avec deux transformations linéaires et une activation ReLU, appliqué à chaque position.

Signup and view all the flashcards

Multi-Head Attention Masquée

Empêche le décodeur de se concentrer sur les jetons futurs durant l'entraînement.

Signup and view all the flashcards

Teacher Forcing

Technique où la sortie correcte est donnée au décodeur à chaque étape.

Signup and view all the flashcards

Interaction Encodeur-Décodeur

Le décodeur utilise la sortie de l'encodeur comme clés et valeurs de l'attention.

Signup and view all the flashcards

Couche Softmax (Décodeur)

Composant qui transforme la sortie du décodeur en une distribution de probabilité.

Signup and view all the flashcards

Cross-Entropy Loss

Minimise la différence entre la sortie prédite et la sortie réelle.

Signup and view all the flashcards

Attention Windowing

Réduit le coût de calcul de l'attention pour les longues séquences.

Signup and view all the flashcards

Fine-Tuning (Transformers)

Modèles pré-entraînés adaptés à des tâches spécifiques pour réduire les besoins en données.

Signup and view all the flashcards

Study Notes

  • La vidéo traite de l'architecture Transformer, un élément clé de l'IA moderne, en mettant l'accent sur la compréhension de ses aspects pratiques et de son fonctionnement interne.

Introduction aux Transformers

  • Les transformateurs ont révolutionné l'IA, en particulier dans le traitement du langage naturel, surpassant les modèles précédents tels que les LSTM et les RNN.
  • La vidéo vise à fournir une compréhension pratique de l'architecture Transformer, au-delà des aspects théoriques.

Architecture globale du transformateur

  • Le modèle Transformer se compose principalement d'un Encodeur et d'un Décodeur.
  • L'entrée passe par l'encodeur, puis par le décodeur, et enfin produit le résultat.
  • L'encodeur et le décodeur sont composés de blocs de construction similaires qui peuvent être empilés pour augmenter la profondeur du modèle.
  • L'article original sur les transformateurs utilisait 6 encodeurs et 6 décodeurs empilés les uns sur les autres.

Encodeur expliqué

  • L'encodeur se compose de deux sous-couches principales : une couche d'auto-attention et un réseau neuronal à propagation directe.
  • Les entrées sont transmises via la couche d'auto-attention, puis via le réseau neuronal à propagation directe, et enfin sorties vers l'encodeur suivant.
  • Des connexions résiduelles sont utilisées autour de chacune des deux sous-couches, suivies d'une normalisation de couche. Cela permet d'améliorer la formation et le flux de gradient.
  • Il existe deux couches de normalisation identiques et indépendantes dans chaque bloc.
  • Une transformation linéaire est effectuée après la normalisation.
  • La sortie de chaque bloc d'encodeur a les mêmes dimensions que son entrée, ce qui permet de l'empiler.

Mécanisme d'auto-attention

  • Le mécanisme d'auto-attention permet au modèle de pondérer l'importance des différentes parties de la séquence d'entrée lors de son traitement.
  • Il calcule les scores d'attention entre toutes les paires de mots dans la séquence d'entrée pour comprendre les relations entre eux.
  • L'attention au produit scalaire mis à l'échelle est utilisée pour calculer les scores d'attention.
  • Les entrées du mécanisme d'attention comprennent les requêtes, les clés et les valeurs, où les requêtes et les clés sont utilisées pour calculer les scores d'attention, et les valeurs sont utilisées pour calculer une moyenne pondérée.
  • Les requêtes et les clés doivent avoir les mêmes dimensions.
  • Les scores d'attention sont calculés en prenant le produit scalaire de la requête et de la clé, en mettant à l'échelle le résultat par la racine carrée de la dimension de la clé (pour stabiliser les gradients), puis en appliquant une fonction softmax pour obtenir des probabilités.
  • La sortie de la couche d'attention est une somme pondérée des vecteurs de valeurs, où les poids sont les scores d'attention.

Attention multi-têtes

  • L'attention multi-têtes est utilisée pour permettre au modèle de prêter attention à différents aspects de la séquence d'entrée.
  • Au lieu d'effectuer un seul calcul d'attention, l'entrée est projetée linéairement en plusieurs « têtes », et l'attention est calculée indépendamment pour chaque tête.
  • Les sorties des différentes têtes sont ensuite concaténées et transformées linéairement pour produire la sortie finale.
  • L'utilisation de plusieurs têtes permet au modèle de capturer différentes relations et dépendances dans les données.
  • Chaque tête possède son propre ensemble de matrices de poids de requête, de clé et de valeur.

Encodage positionnel

  • L'encodage positionnel est ajouté aux intégrations d'entrée pour fournir des informations sur la position des mots dans la séquence.
  • Étant donné que l'architecture Transformer n'a aucune compréhension inhérente de l'ordre (contrairement aux RNN), l'encodage positionnel est nécessaire pour injecter des informations sur la position des mots dans la séquence.
  • Les encodages positionnels sont ajoutés directement aux intégrations d'entrée.
  • Les vecteurs d'encodage positionnel ont la même dimension que les vecteurs d'intégration de mots.
  • L'article original sur les transformateurs utilise des fonctions sinus et cosinus pour créer des encodages positionnels.
  • La technique d'encodage positionnel ne nécessite pas d'entraînement.
  • Les intégrations positionnelles apprises sont également utilisées dans certaines implémentations.

Réseau neuronal à propagation directe

  • Chaque couche d'encodeur et de décodeur contient un réseau à propagation directe.
  • Il se compose de deux transformations linéaires avec une activation ReLU entre les deux.
  • Il est appliqué à chaque position séparément et de manière identique.
  • Le réseau à propagation directe aide le modèle à apprendre les relations non linéaires entre les caractéristiques d'entrée.

Décodeur expliqué

  • Le décodeur se compose également de sous-couches similaires à l'encodeur, mais avec une couche d'attention multi-têtes masquée supplémentaire.
  • Le décodeur possède trois sous-couches : une couche d'attention multi-têtes masquée, une couche d'attention multi-têtes et un réseau neuronal à propagation directe.
  • La première couche d'attention est masquée pour empêcher le décodeur de prêter attention aux jetons futurs (afin de maintenir la propriété autorégressive).
  • La sortie de l'encodeur est utilisée comme clés et valeurs pour la deuxième couche d'attention multi-têtes du décodeur.
  • Le décodeur utilise également des connexions résiduelles et une normalisation de couche, similaires à l'encodeur.
  • La couche finale du décodeur est une couche linéaire, suivie d'une fonction Softmax pour produire les probabilités de sortie.

Attention multi-têtes masquée

  • Elle est présente dans le bloc de décodeur, en tant que première couche d'attention.
  • Elle empêche le décodeur de prêter attention aux jetons futurs dans la séquence d'entrée pendant l'entraînement.
  • Le masquage garantit que la prédiction pour une position donnée ne dépend que des positions connues avant elle.
  • Cela se fait en définissant les poids d'attention des positions futures sur l'infini négatif (ou un très grand nombre négatif) avant d'appliquer la fonction softmax.

Formation d'un transformateur

  • Les transformateurs sont généralement entraînés à l'aide d'une technique appelée « force d'enseignement », où la sortie de vérité de base est fournie comme entrée au décodeur à chaque pas de temps.
  • Le modèle est entraîné pour minimiser la perte d'entropie croisée entre la sortie prédite et la sortie de vérité de base.
  • Des algorithmes d'optimisation tels que Adam sont utilisés pour mettre à jour les paramètres du modèle pendant l'entraînement.
  • Des techniques de régularisation telles que le dropout sont utilisées pour éviter le surajustement.

Considérations pratiques

  • Le mécanisme d'attention est coûteux en termes de calcul, en particulier pour les longues séquences.
  • Des techniques telles que le fenêtrage d'attention et l'attention clairsemée sont utilisées pour réduire le coût de calcul.
  • Les transformateurs sont hautement parallélisables, ce qui les rend adaptés à l'entraînement sur les GPU.
  • Les modèles Transformer pré-entraînés, tels que BERT et GPT, peuvent être affinés pour diverses tâches en aval, ce qui réduit la quantité de données d'entraînement nécessaires.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Description

La vidéo traite de l'architecture du transformateur et de son fonctionnement interne. Le modèle de transformateur se compose principalement d'un encodeur et d'un décodeur. L'objectif est de fournir une compréhension pratique de l'architecture du transformateur.

More Like This

Transformer Networks
5 questions

Transformer Networks

SupportiveStarlitSky avatar
SupportiveStarlitSky
Transformer Architecture
10 questions

Transformer Architecture

ChivalrousSmokyQuartz avatar
ChivalrousSmokyQuartz
Transformer Network: Causal Self-Attention
18 questions
Transformer Networks Overview
5 questions

Transformer Networks Overview

IntuitiveFuchsia3018 avatar
IntuitiveFuchsia3018
Use Quizgecko on...
Browser
Browser