Introduction à la Recherche d'Information PDF
Document Details
Uploaded by HallowedCatharsis5671
Tags
Summary
Ce document traite des méthodes et processus de recherche d'information. Il explique les concepts fondamentaux comme la requête, le corpus et les systèmes de retrieval. L'indexation, manuelle et automatique, y est également décrite.
Full Transcript
CHAP1:Introduction a la recherche d information: introcduction les besoins d'information est une expression mentale d'un utilisateur.la requete est une representation de besoin. probleme: la satisfaction de besoin à l'information d'un utilisateur est exprimée par une requete sur un ensemble de...
CHAP1:Introduction a la recherche d information: introcduction les besoins d'information est une expression mentale d'un utilisateur.la requete est une representation de besoin. probleme: la satisfaction de besoin à l'information d'un utilisateur est exprimée par une requete sur un ensemble des documents appelé Corpus. =>est un ensemble des méthodes et des stratégies pour la recherche et la sélection des informations pertinentes 1)L'approche générale de la RI: ->trouver les documents ayant le meme mot que le requete ->requete: ensemble des mots cles ->comparer les mots de chaque document assez de la requete ->selectionner les documents qui contient les mots cles de la requete +Modele de correspendance: - l'ensemble des documents restitués à l'utilisateur. - les resultas affichies sont ordonnes selon le degre de pertinence. - la pertinence de resultat de pend de la methode de recherche implimente par le systheme de recherche d information. 2)Systeme de recherche d information:(SRI) est un ensemble de programme assurant les fonctions nécessaires a la RI dans le but de selectionner des documents pertinents repondant a un bessoin d utilisateur et exprime a la aide du requete =>le SRI permettant d'automatiser les taches de RI.réponse rapide.communication double sens.sécurité.multiformat Prob: Le probleme de SRI et comment selectionner ou identifier les information heterogenes (selon langue,selon format) CHAP2: Indexation et referencement: introduction:la recherche d information et la science qui etudie le manière de repondre de façon pertinente à une requete en retrouvant l'information adequante dans le corps a fin de satisfait le besoin de l utilisateur. 1)Indexation:.analyser un document pour definir son contenue..l'indexation de processus permet de construire un ensemble de mot clés qui caraterise la cohérence un document a fin de retrouver ces documents en reponse a une requete =>L'indexation facilite la RI => gain de temps. une requete tres importante dans le processus de recherche d'information, elle consiste à determiner et d'extraire le terme representatif de contenu des documents NB: la qualité de la recherche depend en grande partie de la qualité de l'nformation 2)Types d'indexation: a) indexation manuelle: les annotations faite par des humains(indexeur) exemple: bibliotheque depend de savoir faire ces connaissances et son experience dans le domaine d'indexation inconvénients: - couteux - c'est un processus humain subjective - perte de temps +)Processus d'indexation manuelle: - analyser le contenue - le choix de concept (les mots clés) - conversion des concepts en descripteur - révision et relecture b) indexation automatique: à la presence de l'ordinateur, les chercheurs ont réalisé la phase d'indexation automatique à l'aide des techniques et des méthodes informatisé à fin de: + faciliter la recherche d'information + diminuer le cout et le temps d'indexation - synonyme - orthographe - les abriviation , les sigles, acronymes - mixe entre les langages - homophonie (deux ayant deux sens) +)Processus d'indexation automatique: * Pré-traitement textuels : Input de l'indexation et une collection des documents textuels (corpus) (généralement écrit en langage naturel) pour rendre les langages naturels comprehensible par la machine, il faut appliquer un ensemble des étapes appelé pré-traitement → Les étapes de pr-traitement basé sur l'approche linguistique → L'approche linguistique se repose principalement sur TALN (NLP) (traitement automatique des langages naturels) le pré-traitement textuels est une méthode pour nettoyer , traiter a fin d’alimenter les modèles de données. les données textuelles contiennent des bruits sous forme des mots vides, symboles de la ponctuations. → il existe différentes manières de pré-traitement d’un document textuel pom une tache d’indexation * Pré-traitement morphologique (normalisation textuelle) : 32 ponctuations principales :. , ; ? ! \ / = {} () [] Forme canonique (standard): * + - _ '' "" # @ la transformation d’une texte en une forme canonique (standard) Exp : Bj / Bjr -> Bonjour Good / God -> Good Mappage de mot: mot-vides / mot vides / mot u vides pomme_de_terre / pomme de terre le langage familial: les abréviations, faute d’orthographe exp: Dr->Docteur +)Processus d’indexation linguistique: Traiteme Linguistique (4pahes): 1) extraction des mots = tockenisation 2) Supprimer des mots vides 3) stenning = Radicalisation 4) lemmatisation ph1: Extraction des mots =Tokens: est une étape très importante sur le reste de processus d'indexation linguistique. La tokenisation est un moyen de séparer un morceau de texte en unité plus petite appelé tokens. exp: malade /malades /maladie→ malade => le terme malade est ensuite utilisé pour préparer le vocabulaire d'index. Remarque : le phase de tokenisation est une étape très importe et délicate qui face à plusieurs défis: - les mots composés - les dates et les chiffres - l’orientation des langages et la liaison entre les lettres.