Chapitre 1 Introduction PDF
Document Details
Uploaded by SereneArgon3619
Université Virtuelle du Burkina Faso
NIKIEMA Issoufou
Tags
Summary
This document provides an introduction to Natural Language Processing (NLP). It covers the fundamental concepts, different applications and challenges within NLP. Examples include various methods and tools.
Full Transcript
LE NLP à l’ère de l'IA. ISSOUFOU NIKIEMA L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 1 PLAN DU COURS INTRODUCTION AU NLP PHASE DE PRÉTRAITEMENT QUELQUES OUTILS UTI...
LE NLP à l’ère de l'IA. ISSOUFOU NIKIEMA L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 1 PLAN DU COURS INTRODUCTION AU NLP PHASE DE PRÉTRAITEMENT QUELQUES OUTILS UTILISÉS TRAVAUX PRATIQUES L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 2 LES OBJECTIFS DU COURS À la fin de ce cours, les étudiants seront capables de : 1. Comprendre les concepts fondamentaux du traitement automatique du langage naturel (NLP). 2. Utiliser des bibliothèques Python pour le NLP, telles que NLTK et SpaCy. 3. Appliquer des techniques de prétraitement des textes. 4. Construire des modèles de base pour des tâches de NLP comme la classification de texte, l'analyse de sentiment et l'extraction d'entités nommées. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 3 CHAPITRE 1 : INTRODUCTION L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 4 CHAPITRE 1 : INTRODUCTION DÉFINITION IMPORTANCE APPLICATIONS COURANTES DU NLP L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 5 DEFINITIONS L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 6 DEFINITIONS Le NLP pour Natural Language Processing ou Traitement du Langage Naturel est une discipline qui porte essentiellement sur la compréhension, la manipulation et la génération du langage naturel par les machines. Ainsi, le NLP est réellement à l’interface entre la science informatique et la linguistique. Il porte donc sur la capacité de la machine à interagir directement avec l’humain L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 7 DEFINITIONS L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 8 DOMAINES D’APPLICATION L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 9 APPLICATION L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 10 APPLICATION Le NLP est terme assez générique qui recouvre un champ d’application très vaste. Voici les applications les plus populaires : ❖ Traduction automatique ❖ Sentiment analysis ❖ Marketing ❖ Chatbots L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 11 NLP & TRADUCTION AUTOMATIQUE Le développement d’algorithmes de traduction automatique a réellement révolutionné la manière dont les textes sont traduits aujourd’hui Des applications, telles que Google Translator, sont capables de traduire des textes entiers sans aucune intervention humaine. Le langage naturel étant par nature ambigu et variable, ces applications ne reposent pas sur un travail de remplacement mot à mot, mais nécessitent une véritable analyse et modélisation de texte, connue sous le nom de Traduction automatique statistique (Statistical Machine Translation en anglais). L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 12 NLP & ANALYSE DE SENTIMENTS Aussi connue sous le nom de « Opinion Mining », l’analyse des sentiments consiste à identifier les informations subjectives d’un texte pour extraire l’opinion de l’auteur. À titre exemple, lorsqu’une marque lance un nouveau produit, elle peut exploiter les commentaires recueillis sur les réseaux sociaux pour identifier le sentiment positif ou négatif globalement partagé par les clients. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 13 NLP & ANALYSE DE SENTIMENTS De manière générale, l’analyse des sentiments permet de mesurer le niveau de satisfaction des clients vis-à-vis des produits ou services fournis par une entreprise ou un organisme. Elle peut même s’avérer bien plus efficace que des méthodes classiques comme les sondages. En effet, si l’on rechigne souvent à passer du temps à compléter de longs questionnaires, une partie croissante des consommateurs partage aujourd’hui fréquemment leurs opinions sur les réseaux sociaux. Ainsi, la recherche de textes négatifs et l’identification des principales plaintes permettent d’améliorer les produits, d’adapter la publicité et de réduire le niveau d’insatisfaction des clients. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 14 NLP & MARKETING Les spécialistes du marketing utilisent également le NLP pour rechercher des personnes étant susceptible d’effectuer un achat. Ils s’appuient pour cela sur le comportement des internautes sur les sites, les réseaux sociaux et les requêtes aux moteurs de recherche. C’est grâce à ce type d’analyse que Google génère un profit non négligeable en proposant la bonne publicité aux bons internautes. Chaque fois qu’un visiteur clique sur une annonce, l’annonceur reverse jusqu’à 50 dollars ! L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 15 NLP & MARKETING De manière plus générale, les méthodes de NLP peuvent être exploitées pour dresser un portrait riche et complet du marché existant, des clients, des problèmes, de la concurrence et du potentiel de croissance des nouveaux produits et services de l’entreprise. Les sources de données brutes pour cette analyse comprennent les journaux de ventes, les enquêtes et les médias sociaux… L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 16 NLP & CHATBOTS Les méthodes NLP sont au cœur du fonctionnement des Chatbots actuels. Bien que ces systèmes ne soient pas totalement parfaits, ils peuvent aujourd’hui facilement gérer des tâches standards telles renseigner des clients sur des produits ou services, répondre à leurs questions, etc. Ils sont utilisés par plusieurs canaux, dont l’Internet, les applications et les plateformes de messagerie. L’ouverture de la plateforme Facebook Messenger aux chatbots en 2016 a contribué à leur développement. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 17 NLP & AUTRES APPLICATIONS Classification de texte : cela consiste à attribuer un ensemble de catégories prédéfinies à un texte donné. Les classificateurs de texte peuvent être utilisés pour organiser, structurer et catégoriser à ensemble de textes. Reconnaissance de caractères : Cela permet d’extraire, à partir de la reconnaissance des caractères, les principales informations des reçus, des factures, des chèques, des documents de facturation légaux, etc. Correction automatique : la plupart des éditeurs de texte sont aujourd’hui muni d’un correcteur orthographique qui permet de vérifier si le texte contient des fautes d’orthographe. Résumé automatique : les méthodes NLP sont également utilisées pour produire des résumés courts,précis et fluides d’un document texte plus long L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 18 REPRÉSENTATION DES TEXTES L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 19 REPRÉSENTATION DES TEXTES L'encodage de caractères est un système permettant de représenter des caractères sous forme de valeurs numériques, appelées points de code. Ces points de code permettent aux ordinateurs de stocker et de manipuler du texte, qui peut ensuite être affiché ou utilisé de diverses manières. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 20 REPRÉSENTATION DES TEXTES Pourquoi s’intéresser aux caractères? Donnée de base du NLP : caractère ∈ alphabet Qualité des données primordiale pour le NLP Diversité des caractères dans les langues humaines Traitements plus compliqués quand on ne traite pas de l’anglais L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 21 REPRÉSENTATION DES TEXTES Encodage des textes : ASCII ASCII (American Standard Code for Information Interchange) est un standard d'encodage de caractères qui attribue des numéros uniques à chaque lettre, chiffre et autre symbole utilisé dans le texte écrit. Il est largement utilisé, mais présente certaines limitations. ASCII dispose de 128 points de code, ce qui signifie qu'il peut représenter 128 caractères et symboles. Certains de ces points de code représentent des instructions pour l'ordinateur, tandis que d'autres représentent des caractères imprimables tels que des lettres et des chiffres. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 22 REPRÉSENTATION DES TEXTES Encodage des textes : ASCII Language L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 23 REPRÉSENTATION DES TEXTES Encodage des textes : UNICODE Au lieu d'utiliser les codes 0 a 127, il utilise les codes 0 a 65535 (en base 16 : de 0000 a FFFF). Le code UNICODE permet de représenter tous les caractères spécifiques aux différentes langues. De nouveaux codes sont régulièrement attribues pour de nouveaux caractères: caractères latins (accentues ou non), grecs, cyrillics, arméniens, hébreux, thaï, hiragana, katakana... L'Unicode définie donc un correspondance entre symboles et nombres. (Le symbole "Ő" sera représenté par le nombre 213). L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 24 REPRÉSENTATION DES TEXTES Encodage des textes : UNICODE Caractères Unicode Caractères Unicode 0080 a Caractères Unicode 0900 a Caractères Unicode 1100 0000 a 007F (0 a 127) 00FF (128 a 255) (caractères 097F (2304 a 2431) a 117F (4352 a 4479) (caractères latins) latins, dont accentues) (caractères devanagari) (caractères hangul jamo) L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 25 NLP : MÉTHODOLOGIES L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 26 METHODOLOGIES Globalement, nous pouvons distinguer deux aspects essentiels à tout problème de NLP : La partie « linguistique », qui consiste à prétraiter et transformer les informations en entrée en un jeu de données exploitable. La partie « apprentissage automatique » ou « Data Science », qui porte sur l’application de modèles de Machine Learning ou Deep Learning à ce jeu de données. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 27 PERSPECTIVES ET ENJEUX DU NLP L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 28 ENJEUX-PERSPECTIVES Les règles qui régissent la transformation de texte en langage naturel en information ne sont pas faciles à comprendre pour les ordinateurs. Cela nécessite de comprendre à la fois les mots et la façon dont les concepts sont liés pour délivrer le message voulu. Parmi les principaux challenges : ❖ Ambiguïté ❖ Synonymie ❖ Style d’écriture L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 29 AMBIGUÏTÉ En langage naturel, les mots sont uniques mais peuvent avoir des significations différentes selon le contexte, ce qui entraîne une ambiguïté au niveau lexical, syntaxique et sémantique. Pour résoudre ce problème, le NPL propose plusieurs méthodes, telles que l’évaluation du contexte par exemple. Cependant, la compréhension de la signification sémantique des mots d’une phrase reste une tâche en cours de recherche. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 30 SYNONYMIE Un autre phénomène clé en langage naturel est le fait que nous pouvons exprimer la même idée avec différents termes qui dépendent également du contexte spécifique. Par exemple, les termes « grand » et « large » peuvent être synonymes pour décrire un objet ou un bâtiment, mais ils ne sont pas interchangeables dans tous les contextes : « grand » peut signifier plus âgé. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 31 STYLE D'ÉCRITURE Selon la personnalité de l’auteur, ses intentions et émotions, une même idée peut être exprimée de diverses manières. Certains auteurs n’hésitent pas à utiliser de l’ironie ou le sarcasme et donc véhiculer un sens opposé au sens littéral. Ainsi, alors que les humains peuvent facilement maîtriser une langue, l’ambiguïté et les caractéristiques imprécises des langues naturelles sont ce qui rend la NLP difficile à mettre en œuvre pour les machines. L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 32 Références 1. https://datascientest.com/introduction-au-nlp-natural-language-processing 2. https://www.ahp-numerique.fr/2018/10/16/tal-ia-texte-nlp/ 3. https://www.codeandcortex.fr/traitement-du-langage-naturel-nlp-spacy/ 4. https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP- MFQZwNmU4S&ab_channel=TensorFlow L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 33 Merci Pour votre attention L3 NLP UVBF – PURE DEVELOPPER NIKIEMA Issoufou 34