Document Details

LuckyFuchsia5437

Uploaded by LuckyFuchsia5437

NIKIEMA Issoufou

Tags

natural language processing nlp machine learning artificial intelligence

Summary

This document is a presentation on Natural Language Processing (NLP), covering various topics such as the introduction to libraries NLTK and SpaCy for NLP. It discusses different NLP models, classification, syntax analysis and their practical applications.

Full Transcript

LE NLP à l’ère de l'IA. ISSOUFOU NIKIEMA L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 1 Plan de la présentation Introduction au NLP Etat de l’art...

LE NLP à l’ère de l'IA. ISSOUFOU NIKIEMA L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 1 Plan de la présentation Introduction au NLP Etat de l’art Méthodologie Mise en œuvre Résultats et Interprétation Conclusion L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 2 Chapitre 3 Modèles de classification de texte L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 3 Chapitre 3 : Modèles de classification de texte Analyse de texte Analyse syntaxique (POS tagging) Extraction d'entités nommées (NER) Outils et bibliothèques pour le NLP Introduction à NLTK Introduction à SpaCy Modèles de classification de texte Naive Bayes Introduction aux modèles avancés (BERT, GPT) L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 4 Analyse syntaxique (POS tagging) Syntaxe : étude des règles qui régissent la combinaison des mots en phrases. L’objectif de ces règles est de prédire : ❑la nature des constituants de la phrase ❑la structure hiérarchique de ces constituants leurs fonctions syntaxiques L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 5 Analyse syntaxique (POS tagging) Utilisée pour vérifier la grammaire, l'agencement des mots et montre la relation entre les mots. La phrase telle que ‘Run the quickly dog’ est rejetée par l'analyseur syntaxique anglais Formes d’analyse syntaxique : ❑ Parts of speech (POS) tagging ❑ Shallow parsing or chunking ❑ Dependency parsing ❑ Constituency parsing L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 6 Analyse syntaxique (POS tagging) POS tagging ❖ L'étiquetage des parties du discours est crucial en NLP ->permet une analyse syntaxique plus approfondie des textes -> analyses plus ciblées et des filtrages basés sur des catégories spécifiques. ->Cela aide à comprendre la structure grammaticale et à extraire des informations clés. ❖ Les étiquetages POS permettent de filtrer les mots par catégories grammaticales spécifiques. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 7 Analyse syntaxique (POS tagging) POS tagging ❖ Cela peut être utilisé pour simplifier l'analyse en réduisant le nombre de mots à considérer ou pour effectuer des analyses spécifiques basées sur des parties du discours particuliers ❖ Chaque POS tag, tel que les noms (N), peut avoir des subdivisions comme noms singuliers (NN), noms propres singuliers (NNP), noms pluriels (NNS), etc. https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 8 Analyse syntaxique (POS tagging) L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 9 Analyse syntaxique (POS tagging) L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 10 Outils et bibliothèques pour le NLP L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 11 Introduction à NLTK NLTK est une bibliothèque Python dédiée au traitement naturel du langage ou Natural Language Processing Le NLTK, ou Natural Language Toolkit, est une suite de bibliothèques logicielles et de programmes. Elle est conçue pour le traitement naturel symbolique et statistique du langage anglais en langage Python. C’est l’une des bibliothèques de traitement naturel du langage les plus puissantes. Cette suite d’outils rassemble les algorithmes les plus communs du traitement naturel du langage comme le tokenizing, le part-of-speech tagging, le stemming, l’analyse de sentiment, la segmentation de topic ou la reconnaissance d’entité nommée. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 12 Introduction à NLTK La Tokenization consiste à décomposer une portion de texte en mots, espaces, symboles, ponctuations et autres éléments pour en faire des » tokens «. Il s’agit d’une étape fondamentale pour la plupart des tâches NLP. La lemmatisation est directement liée à la tokenization, et permet de réduire un mot à sa forme basique. Les suffixes, préfixes et autres participes passés peuvent être supprimés pour retrouver la racine du terme. Ce processus est très utile, notamment pour le Machine Learning et plus particulièrement pour la classification de texte. Le Tagging part-of-speech (POS) est un procédé visant à assigner des propriétés grammaticales telles que des noms, des verbes, des adverbes ou des adjectifs à des mots. Les mots partagent les mêmes étiquettes POS suivent généralement la même structure syntaxique et sont utiles pour les processus basés sur des règles ; L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 13 Introduction à NLTK La reconnaissance d’entité est un processus visant à classifier les entités nommées dans un texte dans différentes catégories prédéfinies. Il peut s’agir par exemple de personnes, de lieux, ou encore de dates. Le modèle statistique de spaCy permet de classifier une large variété d’entités, notamment des personnes, des entités, des œuvres d’art ou encore des nationalités. L’analyse de dépendance est une méthode permettant de piloter l’analyse de dépendance d’une phrase. Ceci permet de révéler son format grammatical. Cette technique met en lumière les relations entre les mots principaux et leurs dépendances. Enfin, la représentation mot-vecteur aide les machines à comprendre et à interpréter les liens entre les mots à la manière d’un humain. La représentation numérique d’un mot met en lumière ses relations avec les autres mots. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 14 Introduction à SpaCy spaCy : la bibliothèque Python Open Source de NLP spaCy est une bibliothèque Python gratuite et open source publiée sous la licence MIT pour le traitement naturel du langage (Natural Language Processing ou NLP). Elle est écrite en Cython, et conçue pour l’usage en production grâce à une API concise et simple d’utilisation. Cette bibliothèque est initialement développée par Matt Honnibal de Explosion AI. Pour les connaisseurs du langage Python, on peut considérer spaCy comme l’équivalent de numPy pour le NLP : une bibliothèque de bas niveau, mais intuitive et performante. Grâce à cet outil, il est possible de créer des applications permettant de traiter et de comprendre de larges volumes de texte. Il peut être utilisé notamment pour développer des systèmes d’extraction d’information, de compréhension du langage naturel, ou encore pour pré-traiter des textes pour le Deep Learning. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 15 Introduction à SpaCy Les outils et fonctionnalités spaCy spaCy peut être utilisé pour une large variété de tâches liées à des projets NLP. Il permet par exemple la Tokenization, la Lemmatisation, le tagging POS, la reconnaissance de phrase ou d’entité, l’analyse des dépendances, la transformation mot / vecteur et d’autres techniques de normalisation et de nettoyage. Si ces termes vous semblent abscons, pas d’inquiétude. C’est parfaitement normal si vous n’êtes pas encore initié au Traitement Naturel du Langage. Voici donc un aperçu plus détaillé des différentes fonctionnalités spaCy. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 16 Introduction à SpaCy La Tokenization consiste à décomposer une portion de texte en mots, espaces, symboles, ponctuations et autres éléments pour en faire des » tokens «. Il s’agit d’une étape fondamentale pour la plupart des tâches NLP. La lemmatisation est directement liée à la tokenization, et permet de réduire un mot à sa forme basique. Les suffixes, préfixes et autres participes passés peuvent être supprimés pour retrouver la racine du terme. Ce processus est très utile, notamment pour le Machine Learning et plus particulièrement pour la classification de texte. Le Tagging part-of-speech (POS) est un procédé visant à assigner des propriétés grammaticales telles que des noms, des verbes, des adverbes ou des adjectifs à des mots. Les mots partagent les mêmes étiquettes POS suivent généralement la même structure syntaxique et sont utiles pour les processus basés sur des règles ; L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 17 Introduction à SpaCy La reconnaissance d’entité est un processus visant à classifier les entités nommées dans un texte dans différentes catégories prédéfinies. Il peut s’agir par exemple de personnes, de lieux, ou encore de dates. Le modèle statistique de spaCy permet de classifier une large variété d’entités, notamment des personnes, des entités, des œuvres d’art ou encore des nationalités. L’analyse de dépendance est une méthode permettant de piloter l’analyse de dépendance d’une phrase. Ceci permet de révéler son format grammatical. Cette technique met en lumière les relations entre les mots principaux et leurs dépendances. Enfin, la représentation mot-vecteur aide les machines à comprendre et à interpréter les liens entre les mots à la manière d’un humain. La représentation numérique d’un mot met en lumière ses relations avec les autres mots. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 18 NLTK VS SPACY Tout d’abord, spaCy regroupe divers algorithmes adaptés à différents problèmes dans sa boite outils. Ces algorithmes sont gérés et rénovés par la bibliothèque. De son côté, NLTK permet de choisir parmi de nombreux algorithmes en fonction du problème à résoudre. Une autre différence majeure est que spaCy utilise des modèles statistiques pour sept langues :français, l’anglais, l’allemand, l’espagnol, l’italien, le portugais et le néerlandais. NLTK prend en charge de nombreux langages différents. Lors d’une analyse de texte, comme l’analyse de sentiment, spaCy déploie une stratégie orientée objet. Les mots et les phrases sont considérés comme des objets. À l’inverse, NLTK est une bibliothèque de traitement de lignes. Elle reçoit les inputs et retourne des outputs sous forme de lignes de code. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 19 NLTK VS SPACY Enfin, chacune de ces deux bibliothèques à sa propre spécialité. Pour la tokenization et le tagging POS, spaCy offre de meilleurs résultats et propose les algorithmes les plus récents et les plus performants. En revanche, NLTK est supérieur pour la tokenization de phrase. spaCy offre de nombreuses possibilités, mais il est important de bien comprendre ses limites. Tout d’abord, il ne s’agit pas d’une plateforme ou d’une API. Elle n’est pas proposée sous forme de logiciel ou d’application, mais il s’agit d’une bibliothèque simplifiant le développement d’applications NLP. Il ne s’agit pas non plus d’un moteur permettant de créer des chatbots ou des assistants vocaux. Cette bibliothèque peut être utilisée pour propulser des applications de conversations NLP, mais ne fournit que les capacités sous-jacentes de traitement de texte. Elle n’est pas non plus pensée pour la recherche ou l’enseignement, contrairement à NLTK ou CoreNLP. C’est ce qui explique l’une des principales différences, à savoir que spaCy évite de demander à l’usager de choisir entre de multiples algorithmes. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 20 Modèles de classification de texte L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 21 NAIVE BAYES L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 22 NAIVE BAYES Le classificateur Naive Bayes est une méthode de classification basée sur le théorème de Bayes avec une hypothèse d'indépendance naïve entre les prédicteurs. En dépit de sa simplicité, le classificateur Naive Bayes a prouvé son efficacité dans divers domaines d'application, notamment le filtrage de spam, l'analyse de sentiments et la classification de documents. Théorie du Classificateur Naive Bayes Le classificateur Naive Bayes repose sur l’application du théorème de Bayes, qui décrit la probabilité d’un événement, basée sur des connaissances a priori de conditions pouvant être liées à l’événement. La formule du théorème de Bayes est la suivante : P(A|B) = P(B|A) * P(A) / P(B) L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 23 NAIVE BAYES Théorie du Classificateur Naive Bayes ❖ P(A|B) est la probabilité de l’événement A étant donné que l’événement B est vrai. ❖ P(B|A) est la probabilité de l’événement B étant donné que l’événement A est vrai. ❖ P(A) et P(B) sont les probabilités a priori des événements A et B respectivement. Dans le contexte de la classification, A représente une classe spécifique, et B représente un ensemble de caractéristiques (ou attributs). Le classificateur Naive Bayes calcule la probabilité qu’un exemple appartienne à une classe donnée, en supposant que toutes les caractéristiques sont indépendantes les unes des autres. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 24 NAIVE BAYES Types de Classificateurs Naive Bayes ❖ Naive Bayes Gaussien : Le classificateur Naive Bayes Gaussien est utilisé lorsque les attributs sont continus et suivent une distribution normale. ❖ Naive Bayes Multinomial : Le classificateur Naive Bayes Multinomial est souvent utilisé pour la classification de documents où les données sont des fréquences de mots ❖ Naive Bayes Bernoullien : Le classificateur Naive Bayes Bernoullien est adapté aux variables binaires (présence ou absence d’une caractéristique) L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 25 NAIVE BAYES Applications Pratiques ❖ Filtrage de Spam : Identification des courriels indésirables. En utilisant les caractéristiques de l’e-mail, telles que la fréquence de certains mots, le classificateur Naive Bayes peut déterminer la probabilité qu’un e-mail soit un spam ou non. ❖ Analyse de Sentiments : Détermination de l’opinion exprimée dans un texte. Le classificateur peut être utilisé pour évaluer si les sentiments exprimés dans des critiques de produits, des commentaires sur les réseaux sociaux ou d’autres textes sont positifs, négatifs ou neutres. ❖ Classification de Documents : Catégorisation automatique de textes en fonction de leur contenu. Par exemple, dans les systèmes de gestion de contenu, les articles peuvent être automatiquement classés dans des catégories telles que sports, politique, technologie, etc. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 29 NAIVE BAYES Applications Pratiques Avantages et Inconvénients Avantages Simplicité : Facile à comprendre et à mettre en œuvre. Le classificateur Naive Bayes est simple à coder et ne nécessite pas beaucoup de paramètres de réglage. Rapidité : Efficace en termes de calcul, même avec des jeux de données volumineux. En raison de sa simplicité, le classificateur Naive Bayes est extrêmement rapide à former et à prédire. Performance : Peut être très performant, surtout avec des données textuelles. Malgré ses hypothèses simplistes, il donne souvent des résultats compétitifs par rapport à des modèles plus complexes, en particulier dans les tâches de classification de texte. Inconvénients Hypothèse d’indépendance : L’hypothèse d’indépendance entre les prédicteurs est souvent irréaliste. Dans de nombreux cas pratiques, les caractéristiques ne sont pas réellement indépendantes, ce qui peut entraîner des prédictions sous-optimales. Performances Variables : Peut être surpassé par d’autres méthodes de classification plus sophistiquées lorsque les données ne respectent pas les hypothèses de base. Dans des contextes où les relations entre les caractéristiques sont complexes, des modèles plus avancés comme les machines à vecteurs de support ou les réseaux neuronaux peuvent offrir de meilleures performances. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 30 Modèles Avancé BERT L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 31 Introduction aux modèles avancés (BERT, GPT) En octobre 2018 la filière d’intelligence artificielle de Google (Google AI) a publié un modèle de deep learning pré-entraîné, appelé BERT, capable de résoudre plusieurs problématiques de NLP. Pour comprendre ce qu’est BERT et quelle est l’idée innovante derrière ce modèle nous allons nous baser sur une tâche typique de NLP. Prenons la phrase suivante : « La personne va au supermarché et achète une ____ de chaussures. » Il est clair qu’ici l’objectif est de compléter cette phrase, la réponse est évidente pour un humain, mais moins pour un algorithme. La méthode BERT : Reprenons la même tâche et regardons ce que fait BERT. Au lieu de prédire le mot suivant dans une séquence, BERT utilise une nouvelle technique appelée Masked LM (MLM) : il masque aléatoirement des mots dans la phrase, puis il essaie de les prédire. Le masquage signifie que le modèle regarde dans les deux sens et qu’il utilise le contexte complet de la phrase, à gauche et à droite, afin de prédire le mot masqué. Contrairement aux modèles de langage précédents, il prend en compte les mots précédents et suivants en même temps. Les modèles existants manquaient cette approche « simultanée ». L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 32 Introduction aux modèles avancés (BERT, GPT) Comment ça fonctionne techniquement ? Bert est un modèle de type Transformers. Un transformer est un modèle qui fonctionne en effectuant un petit nombre constant d’étapes. À chaque étape, il applique un mécanisme d’attention pour comprendre les relations entre les mots de la phrase, quelles que soient leurs positions respectives. Prenons un exemple simple : « Tu as une nouvelle souris pour ton ordinateur ? » Pour déterminer le sens du mot souris, l’objet et non l’animal, le transformer va prêter attention au mot « ordinateur » et prendre une décision en une étape basée sur ça. Pour permettre cela, BERT se base donc sur l’architecture des transformers, c’est-à-dire consistant en un encodeur pour lire le texte et un décodeur pour faire une prédiction. BERT se limite à un encodeur, car son objectif est de créer un modèle de représentation du langage qui sera ensuite utilisable pour des tâches de NLP. (Il permet de comprendre le langage). L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 33 Introduction aux modèles avancés (BERT, GPT) Comment utiliser le BERT ? Avant d’utiliser BERT il est crucial de faire la préparation des données suivantes : Tokenisation des mots et ajout de tokens de début et de fin de phrase Marqueur ajouté à chaque phrase pour les distinguer Un marqueur de position est ajouté à chaque token (mots) pour indiquer sa position. Après cela il faut choisir son modèle BERT. Il y en a plusieurs types de différentes tailles, il revient à l’utilisateur de choisir la complexité qui lui convient pour sa tâche. Enfin, il reste à importer le modèle et l’incorporer à votre architecture. Une fois ces étapes passées, il ne reste plus qu’à faire les prédictions ! L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 34 Introduction aux modèles avancés (BERT, GPT) BERT est un modèle de représentation du langage très puissant qui a marqué une étape importante dans le domaine du traitement automatique du langage – il a considérablement augmenté notre capacité à faire de l’apprentissage par transfert en NLP. Bert vous permettra par exemple de classifier les tweets selon le sentiment qu’ils renvoient ou encore de créer un assistant virtuel capable de répondre aux questions de façon intelligente. Pour mieux comprendre comment fonctionne BERT et les transformers ou encore découvrir le Deep Learning et le NLP pour en faire votre métier rejoignez les formations professionnalisantes de Datascientest. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 35 Modèles Avancé GPT L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 36 Introduction aux modèles avancés (GPT) Generated Pre-trained Transformer (GPT) Le Generative Pre-trained Transformer est un modèle d’intelligence artificielle réalisant des tâches liées au traitement automatique du langage naturel. C’est quoi un transformateur génératif pré-entraîné (GPT) ? Le transformateur génératif pré-entraîné est une famille de modèles de réseaux neuronaux récurrents utilisant l’architecture des transformers. Cette technologie représente une avancée majeure dans le domaine de l’intelligence artificielle générative. On l’a vu avec l’adoption massive de ChatGPT. Depuis qu’il a été lancé, toutes les grandes entreprises tech rivalisent pour proposer le modèle de langage le plus performant, ou plutôt, le plus humain. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 37 Introduction aux modèles avancés (GPT) Generated Pre-trained Transformer (GPT) Pourquoi un tel engouement ? Parce que ce modèle d’apprentissage automatique est capable de réaliser un éventail de tâches liées au traitement du langage naturel. Et sa ressemblance avec les conversations entre deux êtres humains est parfois déconcertante. Depuis la compréhension des requêtes à la génération de différents types de textes cohérents et pertinents, il permet de recréer une conversation comme avec un humain (ou presque). Ce faisant, les utilisateurs peuvent automatiser de nombreuses tâches : traduction linguistique, synthèse de documents, rédaction d’articles de blog, idées de publications sur les réseaux sociaux, écriture de code, et même écriture de poèmes. Il n’est plus nécessaire de passer des heures à faire des recherches, réfléchir à un plan, rédiger les différentes parties, les transformateurs génératifs pré- entraînés le font pour vous en quelques secondes. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 38 Introduction aux modèles avancés (GPT) Generated Pre-trained Transformer (GPT) Comment fonctionnent les modèles pré-entraînés ? Pour être capable de réaliser des prouesses rédactionnelles proches (voire meilleures) que celles d’un être humain, le transformateur génératif pré-entraîné se base sur l’architecture de réseau neuronal « transformer ». Celle-ci utilise l’attention auto-régressive (ou mécanisme d’auto attention). Le modèle d’IA ne prend pas seulement en compte le dernier mot pour générer du texte, mais plutôt le contexte. Il peut assigner un poids différent aux mots, afin de mieux comprendre les relations entre les mots et les phrases. Finalement, c’est l’ensemble des mots et des phrases qui, mis bout à bout, permettent au GPT de comprendre la requête de l’utilisateur et de lui fournir une réponse cohérente à la fois sur le fond et sur la forme. Pour cela, le modèle GPT a d’abord été pré-entraîné avec d’énormes quantités de données textuelles. L’idée était alors de comprendre la structure, la syntaxe et les subtilités du langage. Ce n’est que lorsqu’il a bien compris le langage humain que le modèle a été entraîné à réaliser certaines tâches spécifiques. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 39 Introduction aux modèles avancés (GPT) Generated Pre-trained Transformer (GPT) À quoi servent les GPT ? De plus en plus sophistiqués, les transformateurs génératifs pré-entraînés sont capables de réaliser une grande diversité de tâches. Voici les plus courantes : ❖ La génération de texte : il est possible de rédiger des articles de blogs, des posts pour les réseaux sociaux, des scripts vidéos, des emails, du code informatique, … Et ce, dans différents styles. Il suffit de lui préciser avec exactitude le résultat souhaité. ❖ La traduction automatique : les GPT ayant été entraînés sur des milliards de données textuelles, vous pouvez leur demander une traduction dans n’importe quelle langue. ❖ La création de chatbots sophistiqués : ils se présentent comme des assistants virtuels capables de répondre à la moindre question de leur utilisateur. ❖ L’extraction de résumés : vous pouvez présenter des textes avec plusieurs milliers de lignes et demander un résumé concis d’une centaine de mots. ❖ L’analyse de données : ils peuvent analyser de gros volumes de données et les retranscrire sous forme de tableaux ou de feuilles de calcul. Certaines applications peuvent même vous fournir des graphiques. Pour les utilisateurs, la véritable force des transformateurs génératifs pré-entrainés, c’est la vitesse d’exécution. Ils réalisent en quelques secondes ce qu’un être humain réalise en une heure ou plus. Ce faisant, ces outils permettent de gagner en productivité de manière exponentielle. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 40 Introduction aux modèles avancés (GPT) Generated Pre-trained Transformer (GPT) Quelles sont les limites des transformateurs génératif pré-entraîné ? Bien que très utiles et incroyablement performants, les transformateurs génératifs pré-entraînés ne sont pas sans faille. Notamment à cause des ensembles de données d’entraînement. Celles-ci peuvent contenir des biais sexistes, racistes, homophobes, … Si le modèle les a intégrés, il va les retranscrire dans ses résultats. Il convient donc de prendre ses réponses avec des pincettes. Idéalement, vérifiez les sources de ces informations (si le modèle vous les transmet). Pour éviter ces biais, il est primordial d’améliorer sans cesse les modèles en lui proposant des données sans biais. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 41 Références 1. https://datascientest.com/spacy 2. https://datascientest.com/formations-data 3. https://datascientest.com/nltk 4. https://datascientest.com/nlp-twitter-analyse-de-sentiment 5. https://www.stat4decision.com/fr/traitement-langage-naturel-francais-tal-nlp/ 6. https://www.nltk.org/ 7. https://www.ahp-numerique.fr/2018/10/16/tal-ia-texte-nlp/ 8. https://cours-machine-learning.blogspot.com/p/nlp-web-mining.html 9. https://spacy.io 10. https://datascientest.com/generative-pretrained-transformer 11. https://encord.com/glossary/gpt-definition/ 12. https://encord.com/glossary/gpt-definition/ 13. https://france.devoteam.com/paroles-dexperts/lstm-transformers-gpt-bert-guide-des-principales-techniques-en-nlp/ 14. https://datascientest.com/formation-intelligence-artificielle L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 42 Merci Pour votre attention L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 43

Use Quizgecko on...
Browser
Browser