Podcast
Questions and Answers
Quelle est la principale fonction d'un modèle discriminatif dans le contexte de la classification supervisée ?
Quelle est la principale fonction d'un modèle discriminatif dans le contexte de la classification supervisée ?
- Modéliser directement les frontières entre les différentes classes de données. (correct)
- Apprendre les structures internes de chaque classe de données.
- Estimer la probabilité qu'une instance appartienne à une classe spécifique.
- Générer de nouvelles instances de données similaires aux données d'entraînement.
Dans l'apprentissage automatique, quel est l'impact principal de la 'malédiction de la dimensionnalité' sur les performances des modèles ?
Dans l'apprentissage automatique, quel est l'impact principal de la 'malédiction de la dimensionnalité' sur les performances des modèles ?
- Elle augmente la complexité du modèle, nécessitant plus de données pour une généralisation efficace. (correct)
- Elle nécessite moins de données pour entraîner efficacement les modèles.
- Elle réduit le risque de sur-apprentissage en simplifiant l'espace des caractéristiques.
- Elle améliore la capacité du modèle `a identifier des motifs complexes dans les données.
Quelle est la principale utilité de la méthode Expectation-Maximization (EM) en apprentissage automatique ?
Quelle est la principale utilité de la méthode Expectation-Maximization (EM) en apprentissage automatique ?
- Réduire la dimensionnalité des données en sélectionnant les caractéristiques les plus pertinentes.
- Éviter le sur-apprentissage en pénalisant les modèles trop complexes.
- Traiter les ensembles de données contenant des valeurs manquantes. (correct)
- Améliorer la vitesse de convergence des algorithmes d'optimisation.
Dans un réseau de neurones, quel est le rôle principal des couches cachées (Hidden Layers) ?
Dans un réseau de neurones, quel est le rôle principal des couches cachées (Hidden Layers) ?
Comment la fonction d'activation ReLU (Rectified Linear Unit) contribue-t-elle à améliorer les performances des réseaux de neurones profonds ?
Comment la fonction d'activation ReLU (Rectified Linear Unit) contribue-t-elle à améliorer les performances des réseaux de neurones profonds ?
Dans le contexte de l'apprentissage par rétropropagation, pourquoi est-il important de diviser les données en lots (batches) ?
Dans le contexte de l'apprentissage par rétropropagation, pourquoi est-il important de diviser les données en lots (batches) ?
Quel est l'effet principal d'un taux d'apprentissage (learning rate) trop élevé lors de l'entraînement d'un réseau de neurones ?
Quel est l'effet principal d'un taux d'apprentissage (learning rate) trop élevé lors de l'entraînement d'un réseau de neurones ?
Quelle est la fonction principale de l'optimiseur Stochastic Gradient Descent (SGD) dans le contexte des réseaux de neurones ?
Quelle est la fonction principale de l'optimiseur Stochastic Gradient Descent (SGD) dans le contexte des réseaux de neurones ?
Pourquoi la normalisation par batch (Batch Normalization) est-elle une technique importante dans l'entraînement des réseaux de neurones profonds ?
Pourquoi la normalisation par batch (Batch Normalization) est-elle une technique importante dans l'entraînement des réseaux de neurones profonds ?
Dans le contexte des séries temporelles, quel est le rôle du rééchantillonnage (subsampling/oversampling) ?
Dans le contexte des séries temporelles, quel est le rôle du rééchantillonnage (subsampling/oversampling) ?
Quelle est la principale limitation des réseaux de neurones classiques (MLP) lorsqu'ils sont appliqués à des séries temporelles ?
Quelle est la principale limitation des réseaux de neurones classiques (MLP) lorsqu'ils sont appliqués à des séries temporelles ?
Comment les réseaux de neurones récurrents (RNN) surmontent-ils la limitation de mémoire des MLP lors du traitement de séquences ?
Comment les réseaux de neurones récurrents (RNN) surmontent-ils la limitation de mémoire des MLP lors du traitement de séquences ?
Quelle est la principale fonction des portes logiques (gates) dans les cellules LSTM (Long Short-Term Memory) ?
Quelle est la principale fonction des portes logiques (gates) dans les cellules LSTM (Long Short-Term Memory) ?
Quels sont les principaux avantages des CNN 1D par rapport aux RNN pour l'analyse des séries temporelles ?
Quels sont les principaux avantages des CNN 1D par rapport aux RNN pour l'analyse des séries temporelles ?
Dans le contexte des CNN, quelle est la fonction d'une carte de caractéristiques (feature map) ?
Dans le contexte des CNN, quelle est la fonction d'une carte de caractéristiques (feature map) ?
Pourquoi l'invariance de translation est-elle une propriété importante des CNN dans le traitement d'images ?
Pourquoi l'invariance de translation est-elle une propriété importante des CNN dans le traitement d'images ?
Quelle est la principale différence entre Max Pooling et Average Pooling dans un CNN ?
Quelle est la principale différence entre Max Pooling et Average Pooling dans un CNN ?
Comment les Skip Connections (Connexions Résiduelles) contribuent-elles à améliorer l'entraînement des réseaux de neurones très profonds ?
Comment les Skip Connections (Connexions Résiduelles) contribuent-elles à améliorer l'entraînement des réseaux de neurones très profonds ?
Dans le contexte des CNN, qu'est-ce qu'un exemple adversarial (adversarial example) ?
Dans le contexte des CNN, qu'est-ce qu'un exemple adversarial (adversarial example) ?
Quel est l'objectif principal de l'apprentissage par transfert (transfer learning) dans le contexte des réseaux de neurones ?
Quel est l'objectif principal de l'apprentissage par transfert (transfer learning) dans le contexte des réseaux de neurones ?
Dans l'apprentissage supervisé, quel est le rôle principal d'un ensemble de données étiquetées ?
Dans l'apprentissage supervisé, quel est le rôle principal d'un ensemble de données étiquetées ?
Quelle est la caractéristique principale de l'apprentissage auto-supervisé qui le distingue de l'apprentissage supervisé traditionnel ?
Quelle est la caractéristique principale de l'apprentissage auto-supervisé qui le distingue de l'apprentissage supervisé traditionnel ?
Dans un réseau de neurones, quel est le rôle de la fonction de perte (loss function) ?
Dans un réseau de neurones, quel est le rôle de la fonction de perte (loss function) ?
Quelle est la différence fondamentale entre l'erreur quadratique moyenne (MSE) et l'entropie croisée en tant que fonctions de perte ?
Quelle est la différence fondamentale entre l'erreur quadratique moyenne (MSE) et l'entropie croisée en tant que fonctions de perte ?
Dans le contexte de l'apprentissage automatique, pourquoi les modèles complexes sont-ils souvent considérés comme des 'boîtes noires' ?
Dans le contexte de l'apprentissage automatique, pourquoi les modèles complexes sont-ils souvent considérés comme des 'boîtes noires' ?
Quel est l'objectif principal de l'approche d'apprentissage autonome (autonomous learning) en intelligence artificielle ?
Quel est l'objectif principal de l'approche d'apprentissage autonome (autonomous learning) en intelligence artificielle ?
Dans le contexte des graphes, qu'est-ce qu'un nœud (ou sommet) ?
Dans le contexte des graphes, qu'est-ce qu'un nœud (ou sommet) ?
Quel est l'objectif principal des réseaux de neurones graphiques (GNN) ?
Quel est l'objectif principal des réseaux de neurones graphiques (GNN) ?
Quelle est l'étape d'agrégation dans les réseaux de neurones graphiques (GNN)?
Quelle est l'étape d'agrégation dans les réseaux de neurones graphiques (GNN)?
Comment les Graph Attention Networks (GAT) améliorent-ils les réseaux de neurones graphiques (GNN) traditionnels ?
Comment les Graph Attention Networks (GAT) améliorent-ils les réseaux de neurones graphiques (GNN) traditionnels ?
Dans le contexte des transformateurs (transformers), quel est le rôle de l'encodeur ?
Dans le contexte des transformateurs (transformers), quel est le rôle de l'encodeur ?
Qu'est-ce que le mécanisme d'attention permet aux transformateurs de réaliser ?
Qu'est-ce que le mécanisme d'attention permet aux transformateurs de réaliser ?
Quelle est la principale caractéristique du Graphormer qui le distingue des transformateurs traditionnels ?
Quelle est la principale caractéristique du Graphormer qui le distingue des transformateurs traditionnels ?
Quelle technique d'apprentissage automatique pourrait être utilisée pour identifier des groupes de clients similaires en fonction de leurs comportements d'achat, sans connaître à l'avance les catégories ?
Quelle technique d'apprentissage automatique pourrait être utilisée pour identifier des groupes de clients similaires en fonction de leurs comportements d'achat, sans connaître à l'avance les catégories ?
Quelle étape est cruciale avant d'appliquer des modèles de séries temporelles pour améliorer la qualité de l'analyse ?
Quelle étape est cruciale avant d'appliquer des modèles de séries temporelles pour améliorer la qualité de l'analyse ?
Quelle méthode aide à traiter les séries temporelles en palliant les lacunes des réseaux de neurones classiques (MLP) ?
Quelle méthode aide à traiter les séries temporelles en palliant les lacunes des réseaux de neurones classiques (MLP) ?
Quelles sont les étapes clés du fonctionnement des Réseaux de Neurones Graphiques (GNN) ?
Quelles sont les étapes clés du fonctionnement des Réseaux de Neurones Graphiques (GNN) ?
Flashcards
Reconnaissance ou classification
Reconnaissance ou classification
Identifier et associer des données à des concepts.
Régression
Régression
Estimer des valeurs intermédiaires.
Clustering
Clustering
Regrouper des données similaires ensemble.
Éléments pour l'apprentissage
Éléments pour l'apprentissage
Signup and view all the flashcards
Classification supervisée
Classification supervisée
Signup and view all the flashcards
Modèles génératifs (Bayes)
Modèles génératifs (Bayes)
Signup and view all the flashcards
Modèles discriminatifs
Modèles discriminatifs
Signup and view all the flashcards
Métriques d'évaluation
Métriques d'évaluation
Signup and view all the flashcards
Maximum de Vraisemblance (MLE)
Maximum de Vraisemblance (MLE)
Signup and view all the flashcards
Expectation-Maximization (EM)
Expectation-Maximization (EM)
Signup and view all the flashcards
Structure d'un réseau de neurones
Structure d'un réseau de neurones
Signup and view all the flashcards
Fonctions d'activation
Fonctions d'activation
Signup and view all the flashcards
Propagation avant
Propagation avant
Signup and view all the flashcards
Biais
Biais
Signup and view all the flashcards
Comment les réseaux de neurones apprennent
Comment les réseaux de neurones apprennent
Signup and view all the flashcards
Descente de gradient
Descente de gradient
Signup and view all the flashcards
Rétropropagation
Rétropropagation
Signup and view all the flashcards
Modification des poids
Modification des poids
Signup and view all the flashcards
Convergence
Convergence
Signup and view all the flashcards
Taux d'apprentissage
Taux d'apprentissage
Signup and view all the flashcards
PyTorch
PyTorch
Signup and view all the flashcards
Tenseurs
Tenseurs
Signup and view all the flashcards
Réseau de neurones (PyTorch)
Réseau de neurones (PyTorch)
Signup and view all the flashcards
Fonction de perte (PyTorch)
Fonction de perte (PyTorch)
Signup and view all the flashcards
Optimiseur (PyTorch)
Optimiseur (PyTorch)
Signup and view all the flashcards
Batch Normalization
Batch Normalization
Signup and view all the flashcards
Dropout
Dropout
Signup and view all the flashcards
Séquences
Séquences
Signup and view all the flashcards
Applications des séquences
Applications des séquences
Signup and view all the flashcards
Composants d'une série temporelle
Composants d'une série temporelle
Signup and view all the flashcards
Fenêtre d'observation
Fenêtre d'observation
Signup and view all the flashcards
Horizon de prévision
Horizon de prévision
Signup and view all the flashcards
Réseaux pour séries temporelles
Réseaux pour séries temporelles
Signup and view all the flashcards
Réseaux de Neurones Convolutifs 1D (1D-CNN)
Réseaux de Neurones Convolutifs 1D (1D-CNN)
Signup and view all the flashcards
Réseaux de Neurones Récurrents (RNN)
Réseaux de Neurones Récurrents (RNN)
Signup and view all the flashcards
LSTM
LSTM
Signup and view all the flashcards
Évolutions de l'IA
Évolutions de l'IA
Signup and view all the flashcards
Graphes computationnels
Graphes computationnels
Signup and view all the flashcards
Avantages des CNN
Avantages des CNN
Signup and view all the flashcards
Study Notes
RAGOT – NN
CM1 – Introduction au ML
- L’objectif principal est d'identifier et d'associer des données à des concepts grâce à la reconnaissance ou la classification.
- L'interpolation entre les valeurs permet de faire des prédictions, avec la régression.
- Des données similaires sont regroupées sans supervision grâce au clustering.
- Il est important de définir un objectif clair, d'avoir des données étiquetées ou non, un modèle pour résoudre la tâche, et une évaluation des performances.
Classification supervisée
- Le principe est d'associer une observation à une classe donnée, à l'aide d'une fonction cible qui prédit le label correct.
Modèles génératifs (Bayes)
- Ils servent à apprendre les structures internes des classes.
Modèles discriminatifs
- Ils servent à modéliser les frontières entre classes.
- Mesurer le taux de reconnaissance et le taux d'erreur permet d'évaluer les performances, avec des métriques globales.
- La précision, le rappel et la spécificité sont utilisés pour la classification binaire.
- Une matrice de confusion résume les prédictions correctes et erronées.
- La performance entre sensibilité et spécificité est visualisée dans une ROC Curve.
Problèmes d’apprentissage et solutions
- La malédiction de la dimensionnalité, les déséquilibres ou le sur-apprentissage sont des défis majeurs.
- La validation croisée (k-fold stratifiée), la génération de données synthétiques et les techniques de régularisation sont des solutions.
Le modèle de Bayes
- La règle de Bayes permet d'évaluer la probabilité conditionnelle pour les cas discrets, en considérant des hypothèses de distribution de données (paramétriques ou non paramétriques).
- L'estimation avec MLE (Maximum Likelihood Estimation) est une approche paramétrique.
- Moins de présuppositions sur les distributions sont réalisées avec l'estimation non paramétrique pour les cas continus.
Estimation avec Maximum de Vraisemblance (MLE)
- Il s'agit d'une méthodologie pour estimer les paramètres d'un modèle de probabilité en maximisant la vraisemblance observée des données.
Méthode Expectation-Maximization (EM)
- Elle sert à traiter les données incomplètes, avec une étape d'espérance (E-step) et une étape de maximisation (M-step).
CM2 – NN
- Un réseau de neurones typique possède les couches d'entrée, cachées et de sortie.
Structure fondamentales d'un réseau de neurones
- La couche d'entrée correspond aux données brutes (features).
- Les couches cachées traitent les données pour en extraire des caractéristiques via des calculs.
- Le nombre et la taille des couches cachées déterminent la capacité du modèle.
- La couche de sortie fournit le résultat final, et le nombre de neurones dans cette couche en dépend.
Fonctions d'activation
- La sigmoïde est adaptée à des sorties de classification binaire.
- L'unité linéaire rectifiée (ReLU) est populaire pour les couches intermédiaires, elle simplifie les calculs et évite certains problèmes.
- Le Softmax est particulièrement utile pour des sorties multi-classes.
Propagation avant (Forward Propagation)
- Les données d'entrée passent à travers les couches du réseau, où une combinaison linéaire des entrées $$z^{(l)} = W^{(l)}a^{(l-1)} + b^{(l)}$$ est calculée à chaque couche.
- Le vecteur résultant est transformé à l’aide d’une fonction d’activation $$a^{(l)} = f(z^{(l)})$$.
Les biais
- Ils agissent comme des "seuils", ajustant les conditions d'activation des neurones.
- Ils peuvent abaisser le seuil nécessaire à l'activation, augmentant sa sensibilité.
Applications pratiques
- Les données d'entrée sont associées à des étiquettes de classes, comme la reconnaissance de chiffres manuscrits pour une classification supervisée.
- L'ensemble des données d'un batch est traité simultanément pour maximiser l'efficacité.
CM3 – NN learning
Initialisation et Objectif de l'Apprentissage
- L'apprentissage par rétropropagation commence par une initialisation aléatoire des poids et biais du réseau neuronal.
- L’objectif principal est d'adapter les poids et biais pour réduire l'écart entre la sortie du réseau (prédictions) et les valeurs attendues.
- Une perte quadratique ou l'entropie croisée sont des fonctions de perte.
Descente de Gradient
- Elle repose sur la mise à jour des poids dans la direction inverse du gradient, pour minimiser la fonction de coût.
Vecteur de gradient
- La direction indique où les poids doivent être ajustés pour réduire la perte, et la norme est proportionnelle à l'amplitude de la modification des poids.
Rétropropagation
- La méthode de rétropropagation ajuste les poids en suivant les étapes de calcul de la perte, propagation de l'erreur, mise à jour des poids et répartition des données en lots.
Règles et Généralisation
- La modification des poids est proportionnelle au produit de l'entrée et du gradient de la perte.
- Elle peut être exprimée sous forme de produit matriciel, pour optimiser les grands ensembles de données.
Convergence et Paramètres
- L'apprentissage continue jusqu'à convergence, avec un learning rate entre 0 et 1 qui contrôle la vitesse de mise à jour des poids.
- Ce système est utilisé pour la classification supervisée, la régression, mais elle nécessite une bonne gestion des hyperparamètres.
CM4 – Pytorch
- PyTorch est une bibliothèque open-source développée par Facebook en 2016, issue de Torch (2002) et fusionnée avec Caffé2 en 2018.
- PyTorch a des modèles efficaces, une programmation flexible et aisée.
Les Tenseurs
- Ils remplacent les tableaux numpy, avec une intégration possible des gradients pour les calculs.
- Les opérations supportées sont les multiplications matricielles, sommations, transposées etc.
Création d’un Réseau de Neurones
- Les réseaux de neurones sous PyTorch sont définis comme une séquence de couches.
- On y retrouve la
linear_relu_stack
et la définition d'une fonction de propagation avantforward
.
Apprentissage et Optimisation
nn.CrossEntropyLoss()
pour les tâches de classification est une fonction de perte, avec la fonction Softmax().- Le Stochastic Gradient Descent (SGD) est un optimiseur, avec la déclaration de l'
optimizer
. - Le cycle d’apprentissage (epoch) comprend le calcul des prédictions et des pertes, la rétropropagation des gradients et la mise à jour des poids
Régularisation et Normalisation
- Le Batch Normalization sert à normaliser les caractéristiques pour chaque batch
- La désactivation aléatoire de neurones durant l’entraînement peut être réalisée avec l'application de Dropout.
RAGOT – Séquences
CM1 – Time series 1
Définition des séries temporelles et des séquences
- Les séquences sont des ensembles ordonnés d'éléments, et les séries temporelles des séquences potentiellement infinies, où chaque élément est associé à une étape temporelle.
Applications des séquences
- Elles permettent d'identifier des traductions, classifications ou reconnaissance.
- Elles permettent d'anticiper des valeurs futures par régression ou prédiction ou de produire des données ou des musiques.
Comparaison des séquences
- Des mesures comme la distance euclidienne ou des algorithmes comme le Dynamic Time Warping (DTW) sont utilisés.
- Le DTW aligne des séquences avec des contraintes et une optimisation via programmation dynamique.
Prétraitement des séries temporelles
- La détection des valeurs aberrantes est un traitement essentiel.
- L'analyse est améliorée par le rééchantillonnage, l'interpolation des données manquantes, la normalisation ou le traitement du signal.
5. Décomposition des séries temporelles
- La tendance (Trend), saissonnalité (Seasonality) ou cycles (Cyclic) permettent de décomposer les séries temporelles.
Prévision des séries temporelles
- Elle repose sur la fenêtre d'observation, l'horizon de prévision et des techniques de prévisions "pas à pas" ou multi-étapes.
CM2 - Time series 2
Problèmes rencontrés avec les réseaux de neurones classiques (MLP)
- Ils ont une taille fixe en entrée et sortie, une redondance des caractéristiques et un manque de mémoire.
Réseaux de Neurones Convolutifs 1D (1D-CNN)
- Adaptés à l'analyse des séries temporelles via les motifs répétitifs, la fênetre glissante permet de générer des sous-séquences pour les traitements locaux.
- Ils ne peuvent traiter des séquences de tailles variables ou prendre en compte les étapes temporelles distantes.
3. Réseaux de Neurones Récurrents (RNN)
- Les RNN analysent les données séquentielles en utilisant des connexions récurrentes.
- Une étape temporelle tient compte des sorties précédentes.
- Des problèmes de gradient évanescent ou des dépendances longues difficiles à capturer existent.
LSTM (Long Short-Term Memory)
- Une mémoire à long et court termes sont introduites pour surmonter ces limites ou oublier via l'application de portes logiques.
- $$ c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c}_t $$ et $$ a_t = o_t \odot \text{tanh}(c_t) $$ sont les équations LSTM
- Ces équations permettent une gestion efficace des dépendances longues dans les séquences complexes.
- Les CNN 1D et RNN (incluant LSTM) apportent des solutions distinctes aux séries temporelles.
- Les CNN sont puissants pour détecter les motifs locaux, alors que les RNN capturent les dépendances globales.
CARDOT – CNN
CM1 – CNN
Histoire et évolutions de l'IA
- La Backpropagation (1986), CNN (1998), GANs (2014), et Transformer (2017) ont marqué l'évolution de l'IA.
Différenciation automatique (AutoGrad)
- AutoGrad intégré dans PyTorch, simplifie la computation des gradients nécessaires à l'optimisation des réseaux neuronaux.
- Il fonctionne en établissant des graphes computationnels dynamiques.
- Appliquer les opérations, calculer les gradients ou désactiver la traçabilité sont les fonctions d'AutoGrad.
Convolution : Principe et applications
- La convolution est essentielle au traitement d'image et permet l'extraction des caractéristiques.
- Elle réalise l'application de filtres (kernels), le calcul d'une "feature map", et il existe des convolutions 1D, 2D ou 3D.
- Un filtre 2x2 appliqué à une image 3x3, donne une carte 2x2 contenant des valeurs.
Importance des CNN
- Ils apportent des connexions locales et des poids partagés et une hiérarchie spatiale pour capturer les relations entre pixels.
- L'invariance de translation est présente permettant de détecter des motifs peu importe leur localisation.
CM2 – CNN notions
- Un Réseau de Neurones Convolutif (CNN) est un modèle d'apprentissage profond, il extrait automatiquement des caractéristiques comme les bords, les textures.
- La reconnaissance d'images, la détection d'objets ou le traitement du langage naturel font parties des applications.
- Contrairement aux approches traditionnelles, les CNN apprennent automatiquement les caractéristiques spatiales.
Architecture des CNN
Elles comprennent les couches
- Convolutionnelle (application de filtres),
- de Pooling (réduction des dimensions),
- entièrement connectée (prédiction).
Fonctionnement de la Convolution
- La convolution fonctionne par déplacement d'un filtre sur l'image, ou une convolution 1x1 permet la réduction des dimensions.
Techniques pour améliorer les CNN
- Le Dropout pour régulariser
- Batch Normalization pour améliorer la vitesse et la stabilité
- L'ajout de Skip Connections (Connexions Résiduelles).
Applications courantes des CNN
- La classification d'images, la détection ou segmentation d'objets.
- Ou les tâches NLP comme la classification de phrases.
Avantages et Limites des CNN
- Extraction automatique de caractéristiques, réduction des paramètres et reconnaissance efficace sont des avantages.
- Requiert de larges ensembles de données, sont sensibles aux exemples adversariaux, manque d'interprétabilité sont des limites.
CM3 – CNN models
Architectures Classiques de CNN
LeNet-5 (1989)
- Créé par Yann LeCun, il réalise la reconnaissance de chiffres manuscrits avec des couches de convolution, de pooling et entièrement connectées.
- C'est un modèle démontrant le potentiel des CNN.
AlexNet (2012)
- Créé par Alex Krizhevsky et Geoffrey Hinton, utilisé pour la classification d'images avec 8 couches, l'utilisation de ReLU, dropout.
- Il utilise les GPU pour l'entraînement
VGGNet (2014)
- Créé par S.Simonyan et A.Zisserman et réalise la classification d'images, avec des réseaux profonds et des filtres 3×3 uniformes.
- Il a une consommation informatique élevée.
GoogLeNet ou Inception v1 (2014)
- A une consommation informatique élevée et réalise la classification d'images avec un module Inception , une architecture profonde et est optimisée.
ResNet (2015)
- Créé par Microsoft Research, il réalise la classification, la détection et la segmentation grâce à des connexions résiduelles.
- Il a jusqu'à 152 couches profondes.
DenseNet (2017)
- Realise la classification et réutilisation de caractéristiques, avec des connexions denses entre les couches.
- Il réalise une utilisation efficace des paramètres.
MobileNet (2017)
- Google Reseach en est le créateur et réalise des applications en temps réel sur appareils mobiles grâce à des convolutions séparables.
- Il allège la charge informatique de manière efficace.
EfficientNet (2019)
- Google Reseach en est le créateur et est dédié pour l'équilibre entre précision et efficacité, approche de mise à l'échelle des dimensions et variantes adaptées.
Vision Transformers (ViT) (2020)
- Google Research en est le créateur, utilise la classification d'images et divise/extrait avec l'attention les patch d'images en séquence.
Résumé des méthodes et concepts supplémentaires
- L'utilisation d'Autoencodeurs convolutionnels, pour réduire ou reconstruire les données.
- L'apprentissage par transfert est réalisé en réutilisant les modèles préentraînés.
RAVEAU – GNN
CM1 – DeepLearningRRv2
Introduction à l'Intelligence Artificielle (IA)
- L'Intelligence Artificielle (IA) est un domaine qui créé dessystèmes capables d'effectuer des tâches qui nécessitent de l'intelligence humaine.
- L'IA est divisée en sous-domaines comme l'apprentissage automatique (machine learning) et l'apprentissage profond.
Types d'Apprentissage
Apprentissage Supervisé
- Il est formé sur un ensemble étiqueté, chaque entrée est associée à une sortie correcte.
- Un modèle entraîne des images étiquettées (chats et chiens) pour reclasser de nouvelles images.
Apprentissage Non Supervisé
- Il utilise des données non étiquetées et identifie des motifs ou des structures dans les données sans sortie.
- Le clustering est une technique qui regroupe des données similaires, segmentant les clients.
Apprentissage Auto-Supervisé
- Le modèle génère ses propres étiquettes pour utiliser des données non étiquetées.
- Il est utilisé pour traiter le langage naturel et la vision par ordinateur.
3. Réseaux de Neurones
Structure de Base
- Le neurone est l'unité de base qui reçoit des entrées, effectue un calcul et produit une sortie.
Couches
- Les neurones sont organisés en : couche d'entrée, couches cachées et couche de sortie. Types de Réseaux de Neurones
Réseaux de Neurones Profonds (DNN)
- Les DNN ont plusieurs couches cachées pour apprendre des représentations hiérarchiques des données.
- La reconnaissance vocale, la traduction automatique utilisent les DNN.
Réseaux de Neurones Convolutifs (CNN)
- Les CNN traitent des données structurées, extraient des caractéristiques locales grâce filtres pour réduire la dimensionnalité.
Réseaux de Neurones Récurrents (RNN)
- Les RNN traitent des séquences de données, avec des connexions récurrentes entre les entrées.
- La traduction automatique, la génération de texte et l'analyse de sentiments les utilisent.
Apprentissage et Optimisation
Fonction de Perte
- Elle quantifie l'écart entre les prédictions et les valeurs réelles pour guider l'apprentissage, avec l'erreur quadratique ou l'entropie croisée.
Descente de Gradient
- La descente de gradient ajuste les poids du réseau pour minimiser la perte, en calculant le gradient de la fonction.
- Les poids sont ajustés lors du calcul du gradient, ajustant le taux d'apprentissage.
Défis et Perspectives
Explicabilité
- Comprendre comment ils prennent des décisions est difficiles avec les réseaux profonds.
- Des procédés importants comme les caractéristiques et les méthodes d'interprétabilité rendre les modèles transparents sont en développement.
Apprentissage Autonome
- L'objectif est de déployer des systèmes capables d'apprendre et de s'adapter, et de généraliser les modèles.
Raisonnement et Planification
- L'IA doit posséder des capacités de raisonnement et de planification.
CM2 – graph neural networks romain raveaux
Introduction aux Réseaux de Neurones
- Ils imitent les neurones biologiques avec des couches : d'entrée, cachées et de sortie.
Types d'apprentissage
- L'apprentissage supervisé est formé sur un ensemble étiqueté, où est associé à une sortie connue.
- L'apprentissage non supervisé apprend à partir de données non étiquetées, dans supervision explicite.
Graphes et Réseaux de Neurones Graphiques (GNN)
Qu'est-ce qu'un graphe
- Les nœuds (sommets), et les arêtes (liens) définissent des relations entre des objets.
Principes des GNN
- Les nœuds (vecteur de caractéristiques) sont associés à leurs propriétés et permettent à l'info de propager avec l'aide des voisins, ce qui aide à construire des représentations plus riches.
Fonctionnement des GNN
-L'étape d'Agrégation réalise la collecte des informations des voisins (somme, moyenne etc) et sont combinées ensuite avec le nœud lors de l'étape de Combinaison.
Types de GNN
- Graph Convolutional Networks (GCN) : Extraient des caractéristiques par convolutions.
- Graph Attention Networks (GAT) Pondèrent l'importance par mécanisme d'attention.
- GraphSAGE : Echantillon des voisins pour les grands graphes.
Applications des GNN
- Classification de Noeuds, d'image ou de molécules avec l'apprentissage semi-supervisé.
Transformateurs et Mécanisme d'Attention
Qu'est-ce qu'un Transformateur
- Les transformateurs ont une achitecture basée sur l'attention.
Architecture des Transformateurs
- Elle se compose de plusieurs couches d'encodeurs et de décodeurs.
- Encodeur, transforme et se concentre différent parties de l'entrées. -Décodeur, se concentre sur les parties pertinentes génère une sortie en fonction des informations de l'encodeur.
Mécanisme d'Attention
- Ce mécanisme permet au modèle de se concentrer de génèrer les poids d'attention en fonction d l'importance relative de chaque élément.
Il existe plusieurs types d'attention, notamment :
- Attention Scaled Dot-Product et Multi-Head Attention
Graphormer
Le Graphormer est une extension des transformateurs qui intègre des informations structurelles des graphes.
Fonctionnement du Graphormer
- Il applique un mécanisme d'attention avec encodages positionnels.
Avantages du Graphormer
- Il flexble et améliore les performances tâches de.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.