Techniques d’indexation et de référencement LSIM 3 PDF
Document Details
Uploaded by HallowedCatharsis5671
Chaima Bouhlila Chammam
Tags
Summary
This document presents an overview of indexing and referencing techniques, specifically for LSIM 3. It discusses different indexing methods, pre-processing steps, and the importance of representation in information retrieval.
Full Transcript
Techniques d’indexation et de référencement LSIM 3 Chapitre 2: Indexation et référencement Année universitaire: 2024 – 2025 Chaima Bouhlila Chammam...
Techniques d’indexation et de référencement LSIM 3 Chapitre 2: Indexation et référencement Année universitaire: 2024 – 2025 Chaima Bouhlila Chammam 1 Positionnement du chapitre 2 Plan du chapitre Partie 1 1. Représentation de l’information 2. Types d’indexation Indexation manuelle Indexation automatique Partie 2 1. Pré-traitement des documents textuels 2. Processus d’indexation linguistique Partie 3 1. Techniques d’indexation statistique 3 Partie 1.1 : Présentation de l’indexation 4 Introduction La recherche d'informations (RI) est la science qui étudie la manière de répondre pertinemment à une requête en retrouvant l'information dans un corpus = Satisfait un besoin d'information à partir de grandes collections La RI dépend de la représentation de l’information = Indexation 5 Indexation A quoi ça sert ? Analyser un document pour définir son contenu : Déterminer quel est le sujet du livre Processus permettant de construire un ensemble d’éléments « clés » permettant de caractériser le contenu d’un document afin retrouver ce document en réponse à une requête 6 Définition (1/2) Est une étape très importante dans le processus de RI. Elle consiste à déterminer et extraire les termes représentatifs du contenu d’un document, qui couvrent au mieux leur contenu sémantique. La qualité de la recherche dépend en grande partie de la qualité de l’indexation. 7 Définition (2/2) L’input de l’indexation est une collection de documents: Texte : mots simples : pomme /groupe de mots : pomme de terre Image : Couleurs, formes Vidéo Son Multimédia... Chaque type de document possède son propre processus d’indexation Exemple: histogramme de couleur pour une image Dans ce chapitre, voua allez découvrir les étapes d’indexation pour un document textuel 8 Représentation de l’information(1/2) 9 Représentation de l’information(2/2) 10 Partie 1.2 : Types d’indexation 11 Indexation manuelle ou intellectuelle o Les annotations faites par des humains(= des indexeurs ) o Basée sur un vocabulaire contrôlé o Approche utilisée souvent dans les bibliothèques, les centres de documentation o Dépend du savoir faire de l’indexeur ,de ses connaissances et de son expérience pratique dans le domaine de l'indexation. 12 Avantage ⁺ Permet la recherche par concepts (par sujets, par thèmes), ⁺ Permet la classification (regroupement) de documents (par sujets, par thème) ⁺ Fournit une terminologie standard pour indexer et rechercher les documents 13 Inconvénients ⁻ Indexation très coûteuse ⁻ Difficile à maintenir : La terminologie évolue, Des termes différents peuvent être affectés à un même document par des indexeurs différents ‾ Processus humain donc subjectif Des termes différents peuvent être affectés à un même document par des indexeurs différents Les indexeurs peuvent ne pas être d’accord avec les autres indexeurs et eux même ⁻ Les utilisateurs ne connaissent pas forcément le vocabulaire utilisé par les indexeurs - N’assure pas forcément une bonne recherche d’information Le vocabulaire contrôlé est centré au document 14 Processus Etape 1 :Analyse documentaire L'indexeur doit avoir une connaissance globale du document à analyser. Pour analyser un document, il consulte d'abord le titre, la table des matières, le résumé, l'introduction, les introductions et les conclusions des chapitres (s'ils existent) et la conclusion. Cette lecture rapide permet à l'indexeur de connaître le sujet principal (thème) discuté ou décrit dans le document. Etape 2 : Le choix des concepts (mots-clés) Pour définir les principaux concepts qui caractérisent au mieux un document, l'indexeur doit répondre à un certain nombre de questions, celles qu'un utilisateur se poserait lors d'une recherche d'informations telles que : de qui et de quoi parle le document ? où et quand? 15 Etape 3 : Conversion de concepts en descripteurs L'indexeur choisit les termes d'indexation adéquats (les descripteurs) à partir d'une liste de vocabulaire contrôlé. Un vocabulaire contrôlé est un ensemble fini de termes d'index parmi lesquels tous les termes d'index doivent être sélectionnés. Seuls les termes approuvés peuvent être utilisés par l'indexeur pour décrire le document. Etape 4 : Relecture et révision Lors de cette étape, l'indexeur décide de retenir ou de rejeter certains descripteurs. 16 Indexation automatique Avec l'avènement des ordinateurs, les chercheurs ont réalisé qu'ils pouvaient utiliser des techniques automatiques et des méthodes logicielles pour indexer une collection de documents afin de : Faciliter la recherche d'informations Obtenir des résultats précis avec un temps et des ressources réduits. L'automatisation de l'indexation a permis de surmonter les limites et les insuffisances desapproches manuelle d'indexation telles que le coût. l'indexation automatique utilise un vocabulaire libre formé par l'extraction de termes clés (un seul mot ou un groupe demots) caractérisant desdocuments. 17 Avantage L’indexation automatique est très rapide et optimise : Les couts Le temps d’indexation Elle est fortement dépendante du vocabulaire des documents Elle est objective Elle ne fais pas recours à l’intervention humaine Le même algorithme indexe de la même façon les documents Elle est facile à maintenir et assure une mise-à-jour rapide et efficace 18 Inconvénients Les variations de langue et autres problèmes qui entraînent une perte d'informations dans l'indexation automatique incluent: Synonymes Variantes orthographiques (Exp: Un mètre est:Meter (Ang. Américain)/ Metre (Ang. Britanique) Formes abrégées des termes : abréviations, acronymes, sigles. Différentes langues Le problème de l'Homophonie, c'est-à-dire un mot ou une phrase ayant plus d'un sens. Vrais homophonie, c'est-à-dire des mots ayant deux sens ou plus 19 Partie 2.1 : Pré-traitement des documents textuels 20 Introduction L’input de l’indexation est une collection de documents textuels, aussi appelé corpus = Généralement écrit en langage naturel. Pour rendre le langage naturel compréhensible par la machine, il faut appliquer un ensemble d’étapes qu’on appelle « pré-traitement » sur chaque document. Le processus de pré-traitement se base sur l’approche linguistique. 21 L’approche linguistique se repose principalement sur le : Traitement Automatique du Langage Naturel (TALN) = Natural Language Processing ( NLP). Est une branche de l'intelligence artificielle qui analyse, traite et récupère efficacement les données textuelles d'information. En utilisant la puissance du TALN, on peut résoudre une vaste gamme de problèmes du monde réel, notamment: la synthèse de documents, le générateur de titres et de sous-titres, la détection de fraude, la reconnaissance vocale, la traduction automatique, etc. 22 Prétraitement de texte Le prétraitement de texte est une méthode pour nettoyer les données de texte et les préparer à alimenter le modèle en données. Les données textuelles contiennent du bruit sous diverses formes telles que des émotions, de la ponctuation, du texte. Lorsque nous parlons de langage humain, il y a différentes manières de dire la même chose, et ce n'est que le problème principal ,Alors que les machines ne comprendront pas les mots, elles ont besoin de nombres, nous devons donc convertir le texte en nombres d'une manière efficace. Prétraiter un texte = mettre le texte sous une forme analysable pour une tâche bien spécifique. Il existe différentes manières de prétraiter un document textuel pour une tâche d’indexation. 23 1. Pré-traitement morphologique = Normalisation textuelle La mise en minuscules de TOUTS les caractères dans un document, est l'une des formes de prétraitement de texte les plus simples et les plus efficaces. Exemple : Input Output TomCat, TOMCAT, Tomcat Tomcat USA, Usa,U.S.A usa La suppression du bruit est l'une des étapes de prétraitement de texte les plus essentielles. Exemple : Input Output hi! hi 1.Introduction introduction Bonjour …. bonjour 24 Il y a au total 32 ponctuations principales qui doivent être prises en compte. La transformation d'un texte en une forme canonique (standard) est nécessaire pour certains cas. Par exemple, les mots « gooood » et « gud » peuvent être transformés en « good » Un autre exemple est le mappage de mots presque identiques tels que: « mots vides », « motsvides » et « mots-vides » vers « mots vides ». 25 Cette étape est importante pour les textes écrits en langage familier incluant des abréviations, des fautes d’orthographe, les mots hors vocabulaire) Parfois, il arrive que des mots et des chiffres combinés Exemple : 400 $ = 400dollar (sans espace) 26 corpus Partie 2.2 : Processus d’indexation linguistique Base Indexé 27 Processus de l’approche linguistique Extraction des termes - Tokenisation 1 Suppression des mots vides 2 Stemming – Radicalisation 3 Lemmatisation 4 28 Etape 1. Extraction des termes - Tokenisation La tokenisation (= La racinisation) a un effet important sur le reste du processus d’indexation linguistique. La tokenisation est un moyen de séparer un morceau de texte en unités plus petites appelées tokens. Exemple tokenisation du mot : La tokenisation du mot « Smarter » donne les résultats suivants: {s, m, a, r, t, e, r} pour les caractères {smart, er} pour les sous-mots malades , malade , maladie = malade Ce terme est ensuite utilisé pour préparer le vocabulaire de l’index. La tokenisation est un processus délicat qui fait face à plusieurs défis. 29 Parmi les défis de tokenisation , on cite : - Mot composés : Pomme de terre Langue Allemande les mots composés ne sont pas segmentés Exemple : Lebensversicherungsgesellschaftsangestellter - L’orthographe des noms : Zaghouane = Zaghwen = Zaghwane - Les dates , les adresses IP - Le chinois et le japonise ne sépare pas par des espaces. - Les liaisons entre les lettres et l’orientation de la langue :La langue arabe s’écrit de droite à gauche avec certains items écrits de gauche à droite (ex : les chiffres) –> Les mots sont séparés mais les lettres sont liées dans un mot 30 Etape 2. Suppression des mots vides o L'idée de cette étape consiste simplement à supprimer les mots qui apparaissent couramment dans tous les documents du corpus. Des exemples de quelques mots vides: En anglais sont « the », « a », « an », « so », « what ». En français sont « un », « le », « donc », « quoi », « à ». o Leur suppression n'affecte pas le message global pour en perdre le sens = Supprimons les informations de bas niveau de notre texte afin de se concentrer sur les informations importantes = Aucune conséquence négative sur l’indexation = Réduit la taille de l'ensemble de données et réduit ainsi le temps de traitement car on a réduit le nombre des tokens trouvés 31 En supprimant les termes vides, les requêtes de recherche peuvent être effectuées beaucoup plus rapidement et avec une plus grande pertinence. Par exemple : la recherche de « quels sont les mots vides » est assez similaire à « mots vides ». Remarque : pour Twitter, des termes comme « # », « @nom d'utilisateur » sont des termes qui se répètent dans les documents contenant des tweets. 32 Il n’y a aucune règle universelle et aucune liste de mots vides universelle. 33 Etape 3+4: Stemming Lemmatisation Stemming (« racinisation »): rendre la racine des mots pour éviter le biais des variations autour d’un même sens Processus morphologique permettant de regrouper les variantes d’un mot La "racine" dans ce cas peut ne pas être un vrai mot racine, mais juste une forme canonique du mot original. Exemple : o auditer, auditeur, audition o économie, économiquement, économiste, économ o pour l’anglais : retrieve, retrieving, retrieval, retrieved, retrieves ð retriev 34 Il existe différents algorithmes pour le stemming. L'algorithme le plus courant, qui est également connu pour être empiriquement efficace pour l'anglais, est l'algorithme de Porters. s La lemmatisation (mots de même lemme) Exemple : produis, produit, produisons,... → produire Est très similaire à la radicalisation (stemming), où le but est de supprimer les inflexions et de mapper (correspondre) un mot à sa forme racine. La seule différence est que la lemmatisation essaie de le faire correctement. Au lieu de les couper, la lemmatisation transforme en fait les mots à la racine réelle. Exemple : en français: le mot « meilleur » correspond au mot « bien ». 35 Output de l’approche linguistique Texte original Texte purifié Text indexing is a preprocessing step text index process step text retrieve for text retrieval. During the text during text index process text indexing process, texts are collected, collect parse store facilitate fast parsed and stored to facilitate accurate text retrieve text retrieve fast and accurate text retrieval. Text call document retrieve branch inform retrieval (also called document retrieve inform store prime retrieval) is a branch of information form text text retrieve define match retrieval in which the information state use query set text is stored primarily in the form of text. Text retrieval is defined as the matching of some stated user query against a set of texts. 36 Partie 3 : Techniques d’indexation statistique Next 37