Architecture du transformateur

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

Quel est le composant principal de l'architecture Transformer?

Encodeur et Décodeur (correct)
Machines à vecteurs de support
Réseaux de neurones convolutifs
Modèles de Markov cachés

Les Transformers ont surpassé les modèles précédents comme les LSTM et les RNN.

True (A)

Quelles sont les deux sous-couches principales de l'encodeur ?

Self-Attention et Réseau de neurones Feed Forward

Les connexions ______ sont utilisées autour de chacune des deux sous-couches, suivies d'une normalisation de la couche.

résiduelles Signup and view all the answers

Quel mécanisme permet au modèle de pondérer l'importance des différentes parties de la séquence d'entrée lors de son traitement?

Mécanisme d'auto-attention (B) Signup and view all the answers

Les requêtes et les clés doivent avoir les mêmes dimensions dans le mécanisme d'attention.

True (A) Signup and view all the answers

Quelle fonction est appliquée aux scores d'attention après la mise à l'échelle?

Softmax (C) Signup and view all the answers

Quel est le but de l'attention multi-tête?

Permettre au modèle d'assister à différents aspects de la séquence d'entrée Signup and view all the answers

Quelle est la fonction principale de l'encodage de position dans un Transformer ?

Fournir des informations sur la position des mots dans la séquence. (A) Signup and view all the answers

L'encodage de position nécessite un entraînement supplémentaire.

False (B) Signup and view all the answers

Quelle fonction d'activation est couramment utilisée dans le réseau de neurones feed-forward des couches Encodeur et Décodeur ?

ReLU Signup and view all the answers

Dans le décodeur, la première couche d'attention est masquée pour empêcher le décodeur de traiter les jetons ______.

futurs Signup and view all the answers

Quel est le rôle du 'Masked Multi-Head Attention' dans le décodeur d'un Transformer ?

Empêcher le décodeur d'accéder aux tokens futurs lors de l'entraînement. (B) Signup and view all the answers

Pendant l'entraînement, les Transformers utilisent une technique appelée 'rétropropagation' pour ajuster les poids du réseau.

False (B) Signup and view all the answers

Quel algorithme d'optimisation est fréquemment utilisé pour mettre à jour les paramètres d'un Transformer pendant l'entraînement ?

Adam Signup and view all the answers

Pour éviter le surapprentissage, des techniques de ______ comme le dropout sont utilisées lors de l'entraînement des Transformers.

régularisation Signup and view all the answers

Pourquoi les Transformers sont-ils adaptés à l'entraînement sur GPUs ?

Ils sont hautement parallélisables. (A) Signup and view all the answers

Faites correspondre les composants du Transformer à leur description:

Multi-Head Attention = Capture différentes relations dans les données Positional Encoding = Fournit des informations sur la position des mots Feed Forward Network = Apprend les relations non linéaires entre les entrées Masked Multi-Head Attention = Empêche d'assister les jetons futurs dans le décodeur Signup and view all the answers

Flashcards

Architecture Transformer

Architecture clé de l'IA moderne, particulièrement importante en traitement automatique du langage.

Structure Globale d'un Transformer

Un modèle composé principalement d'un Encodeur et d'un Décodeur.