Architecture du Transformateur

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Dans une phrase complexe, quelle combinaison d'éléments est nécessaire pour sa formation?

  • Une proposition indépendante (IC) et une proposition subordonnée (DC) (correct)
  • Deux propositions indépendantes (IC) reliées par une conjonction de coordination
  • Au moins deux propositions indépendantes (IC) et une proposition subordonnée (DC)
  • Une proposition indépendante (IC) et deux propositions subordonnées (DC)

Laquelle des phrases suivantes illustre correctement l'utilisation d'un pronom démonstratif?

  • Qui a pris mon stylo?
  • Le livre que tu as vu hier était intéressant.
  • Elle a dit qu'elle viendrait, mais elle n'est jamais venue.
  • Ce gâteau est délicieux. (correct)

Comment le mode subjonctif se distingue-t-il des autres modes verbaux en anglais?

  • Il sert à décrire des actions passées.
  • Il est principalement utilisé pour formuler des commandes directes.
  • Il exprime des faits ou des réalités.
  • Il indique des souhaits, des suggestions, des doutes ou des propositions. (correct)

Quel est l'impact de la « markedness » sur l'acquisition du passé simple en anglais selon les règles habituelles?

<p>Elle complexifie l'acquisition, car les exceptions aux règles sont moins prévisibles. (D)</p> Signup and view all the answers

Dans la phrase «À moins que tu n'admettes qu'il y a un problème, tu continueras à gaspiller des efforts », quel est le rôle de « à moins que »?

<p>Conjonction de subordination (A)</p> Signup and view all the answers

Parmi les énoncés suivants, lequel illustre le mieux l'emploi d'un participe en tant qu'adjectif?

<p>Les sardines en conserve sont bonnes avec du pain. (A)</p> Signup and view all the answers

Dans le contexte des schémas de phrase, comment différencier une phrase de type S-TV-IO-DO d'une phrase S-TV-DO-OC?

<p>La phrase S-TV-IO-DO a à la fois un objet indirect et un objet direct, tandis que la phrase S-TV-DO-OC a un complément d'objet. (C)</p> Signup and view all the answers

Quelle est la principale fonction du temps présent parfait continu?

<p>Décrire une action qui a commencé dans le passé, continue dans le présent et pourrait se poursuivre dans le futur. (A)</p> Signup and view all the answers

Comment les voyelles sont-elles classées selon l'alphabet phonétique international (API)?

<p>Selon leur hauteur, leur antériorité/postériorité et leur arrondissement. (D)</p> Signup and view all the answers

Où le schwa /ə/ est-il typiquement trouvé dans les mots anglais, et quel est son impact sur la prononciation?

<p>Dans les syllabes non accentuées, il réduit la clarté de la voyelle à un son neutre et relâché. (D)</p> Signup and view all the answers

Flashcards

Participe

Un mot dérivé d'un verbe utilisé comme adjectif.

Clause

Groupe de mots contenant un sujet et un verbe.

Présent Perfect Continuous

Une action commencée dans le passé, se poursuit jusqu'au présent.

Passé Perfect

Une action terminée avant une autre action passée.

Signup and view all the flashcards

Futur Simple

Une action qui se produira à un certain moment dans le futur.

Signup and view all the flashcards

Subjonctif

Un mode qui exprime des souhaits, des suggestions ou des doutes.

Signup and view all the flashcards

Impératif

Un mode qui fait une demande ou donne un ordre.

Signup and view all the flashcards

Indicatif

Un mode qui énonce un fait ou une réalité.

Signup and view all the flashcards

Démonstratif Adjectif

Adjectif utilisé pour décrire la position de quelque chose.

Signup and view all the flashcards

Pronom Démonstratif

Pronom utilisé pour remplacer un nom.

Signup and view all the flashcards

Study Notes

Transformateur

  • Un modèle d'apprentissage en profondeur introduit en 2017 par Vaswani et al. dans "Attention is All You Need".
  • Principalement utilisé en traitement du langage naturel (TLN) pour la traduction automatique, mais applicable à la vision artificielle, etc.

Architecture

  • Repose sur le mécanisme de self-attention, avec une architecture encodeur-décodeur.

Encodeur

  • Constitué de plusieurs couches d'encodeur identiques.
  • Chaque couche d'encodeur comprend deux sous-couches :
  • Un mécanisme de self-attention multi-tête.
  • Un réseau de feed forward entièrement connecté par position.
  • Chaque sous-couche utilise une connexion résiduelle suivie d'une normalisation de couche.
  • La sortie de chaque sous-couche est $LayerNorm(x + Sublayer(x))$.
  • $Sublayer(x)$ est la fonction implémentée par la sous-couche.

Décodeur

  • Comprend également plusieurs couches de décodeur identiques.
  • Chaque couche de décodeur a trois sous-couches :
  • Un mécanisme de self-attention multi-tête.
  • Un mécanisme d'attention multi-tête fonctionnant sur la sortie de la pile d'encodeurs.
  • Un réseau de feed forward entièrement connecté par position.
  • Comme l'encodeur, chaque sous-couche utilise une connexion résiduelle, suivie d'une normalisation de couche.
  • La sortie de chaque sous-couche est $LayerNorm(x + Sublayer(x))$.
  • Elle comprend une couche linéaire finale et une fonction softmax pour prédire la probabilité du mot suivant.

Attention

  • Un composant essentiel de l'architecture Transformer qui permet de se concentrer sur les parties les plus pertinentes de la séquence d'entrée.

Self-attention Dot-Product à l'échelle

  • Le mécanisme d'attention utilisé prend trois entrées : les requêtes (Q), les clés (K) et les valeurs (V).
  • La sortie est calculée en prenant le produit scalaire des requêtes avec les clés, divisé par la racine carrée de la dimension des clés ($d_k$), puis en appliquant une fonction softmax. * Cette dernière obtient les poids sur les valeurs.
  • La formule est : $Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

Self-attention multi-tête

  • Utilisation de la self-attention multi-tête pour que le modèle puisse apprendre différentes relations entre les mots dans une séquence.
  • Multi-head attention exécute h fonctions d'attention indépendantes en parallèle au lieu d'une seule fonction d'attention.
  • La sortie de chaque tête est concaténée puis projetée linéairement.

Avantages

  • Parallélisation : peut gérer toute la séquence d'entrée en parallèle, contrairement aux RNN séquentiels.
  • Plus rapide que les RNN, en particulier pour les séquences longues.
  • Dépendances à longue distance : l'attention permet d'apprendre les dépendances entre les mots distants dans une phrase, ce qui est crucial pour la traduction automatique.
  • Scalabilité : peut être mis à l'échelle vers des modèles massifs avec des milliards de paramètres pour une grande précision dans de nombreuses tâches de Traitement du Langage Naturel.

Applications

  • Traduction automatique
  • Résumé de texte
  • Réponse aux questions
  • Génération de texte
  • Vision artificielle

Théorie Algorithmique des Jeux - Introduction

  • Traite des contextes multi-agents où chaque agent a des préférences/objectifs différents.
  • L'objectif est de concevoir des stratégies pour chaque agent afin d'obtenir le meilleur résultat possible pour lui-même.

Exemple

  • Routage du trafic
  • Chaque conducteur veut minimiser son temps de trajet.
  • L'itinéraire emprunté par un conducteur affecte le temps de trajet des autres conducteurs.

Théorie Algorithmique des Jeux (TAG)

  • Combine la théorie des jeux (incitations et rationalité) avec la conception d'algorithmes (calcul et efficacité).

Questions en TAG

  • Calcul : Peut-on calculer efficacement les stratégies optimales ?
  • Conception de mécanismes : Peut-on concevoir les règles du jeu pour que le résultat soit socialement souhaitable ?
  • Prix de l'anarchie : Dans quelle mesure le résultat est-il inefficace lorsque les agents agissent de manière égoïste ?

Exemple 1 : Routage égoïste

Modèle

  • Un graphe dirigé $G = (V, E)$.
  • $r$ paires source-destination $(s_i, t_i)$.
  • $f_i$ : quantité de trafic de $s_i$ à $t_i$.
  • $\mathcal{R}_i$ : ensemble de chemins de $s_i$ à $t_i$.
  • $c_e(x)$ : coût de l'arête $e$ lorsqu'elle transporte une quantité $x$ de trafic.

Agents

  • Chaque agent contrôle une quantité infinitésimale de trafic et agit égoïstement pour minimiser son temps de trajet.

Équilibre de Wardrop

  • Le flux $f$ est en équilibre de Wardrop si pour chaque $s_i, t_i$ et chaque $R_i, R'_i \in \mathcal{R}_i$ avec $f_R > 0$:

$\qquad c(R_i) \le c(R'_i)$

Coût social

  • Temps de trajet total de tous les agents :

$\qquad SC(f) = \sum_{e \in E} f_e \cdot c_e(f_e)$

  • Une question importante est de savoir dans quelle mesure le coût social à l'équilibre de Wardrop est élevé, comparé au coût social optimal ?

Exemple 2 : Enchères

Cadre

  • Un seul objet à vendre.
  • $n$ enchérisseurs avec des valeurs privées $v_i$.

Mécanisme

  • Un mécanisme spécifie :
  • Règle d'attribution : quel enchérisseur obtient l'objet ?
  • Règle de paiement : combien chaque enchérisseur paie-t-il ?

But

  • Concevoir un mécanisme qui soit :
  • À l'épreuve des stratégies : L'offre véridique est une stratégie dominante.
  • Efficace : L'objet est attribué à l'enchérisseur avec la valeur la plus élevée.
  • Maximisation des revenus : Maximiser les revenus du vendeur.
  • Enchère de Vickrey
  • L'enchérisseur le plus offrant remporte, mais paie le deuxième prix le plus élevé.
  • Elle est à l'épreuve des stratégies et efficace.

Plan du cours

  1. Bases de la théorie des jeux :
  • Jeux sous forme normale, équilibre de Nash, stratégies mixtes
  1. Conception de mécanismes :
  • Mécanisme de Vickrey-Clarke-Groves (VCG), maximisation des revenus
  1. Prix de l'anarchie :
  • Routage égoïste, jeux de formation de réseau
  1. Partage équitable :
  • Découpe de gâteau, allocation de ressources
  1. Choix social :
  • Règles de vote, manipulation

Prérequis

  • Algorithmes et structures de données
  • Théorie de base des probabilités
  • Maturité mathématique

Complexité Algorithmique

  • Mesure de la quantité de temps (complexité temporelle) et d'espace de stockage (complexité spatiale) qu'un algorithme requiert pour résoudre un problème d'une taille donnée.

Importance

  • Aide à choisir le meilleur algorithme pour une tâche spécifique.
  • Permet de prédire la performance d'un algorithme.
  • Essentiel pour une conception logicielle efficace.

Expression

  • Notation « Grand O », qui décrit la limite supérieure du taux de croissance d'un algorithme.

Complexités courantes

  • $O(1)$ - Constante : Le temps d'exécution est le même quelle que soit la taille de l'entrée.
  • $O(log n)$ - Logarithmique : Le temps d'exécution augmente logarithmiquement avec la taille de l'entrée.
  • $O(n)$ - Linéaire : Le temps d'exécution augmente linéairement avec la taille de l'entrée.
  • $O(n log n)$ - Linéarithmique : Le temps d'exécution augmente presque linéairement avec la taille de l'entrée.
  • $O(n^2)$ - Quadratique : Le temps d'exécution augmente quadratiquement avec la taille de l'entrée.
  • $O(2^n)$ - Exponentielle : Le temps d'exécution double à chaque ajout de taille à l'entrée.
  • $O(n!)$ - Factorielle : Le temps d'exécution augmente considérablement avec la taille de l'entrée.

Exemple

  • Recherche d'un élément dans un tableau trié :
  • Recherche linéaire : $O(n)$
  • Recherche binaire : $O(log n)$
  • La recherche binaire est plus efficace pour les grands tableaux en raison de sa complexité temporelle logarithmique.
  • La compréhension de la complexité algorithmique aide à écrire un code efficace et évolutif.

Fonction Logistique

  • Aussi appelée courbe sigmoïde. Forme mathématique :

$\qquad S(x) = \frac{L}{1 + e^{-k(x-x_0)}}$

  • $x_0$ est la valeur du point milieu de la sigmoïde
  • $L$ est la valeur maximale
  • $k$ est la pente de la courbe
  • Fonction logistique standard : $L=1$, $x_0=0$ et $k=1$

$\qquad S(x) = \frac{1}{1 + e^{-x}}$

  • Utilisée en statistiques, en apprentissage automatique comme fonction d'activation des réseaux de neurones, en biologie pour la modélisation de la croissance des populations, et en économie pour modéliser la diffusion d'une innovation.

Propriétés

  • Définie pour toutes les valeurs réelles de $x$.
  • Continue et différentiable.
  • Bornée entre 0 et $L$.
  • Croissante.
  • Symétrique par rapport au point $(x_0, L/2)$.

Dérivée

  • La dérivée de la fonction logistique est :

$\qquad S'(x) = kS(x)(1 - S(x)/L)$

  • Pour la fonction logistique standard :

$\qquad S'(x) = S(x)(1 - S(x))$

  • La dérivée est maximale au point milieu de la sigmoïde, à $x = x_0$

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Like This

Transformer Network: Causal Self-Attention
18 questions
Transformers 101: From Zero to Hero
48 questions
Architecture du transformateur
18 questions
Use Quizgecko on...
Browser
Browser