Histoire de la recherche d'information (RI)
39 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Quelle est une caractéristique d'une ressource non structurée ?

  • Elle contient des métadonnées organisées.
  • Elle est toujours multilingue.
  • Elle est organisée sous forme de tableau.
  • Elle est sous forme de texte brut. (correct)
  • Qu'est-ce que la méta-information dans le contexte des documents ?

  • Les données à propos du document. (correct)
  • Les éléments visuels accompagnant le texte.
  • Le texte brut d'un document.
  • Les commentaires d'un lecteur.
  • Quelle est une difficulté majeure liée à la recherche d'information ?

  • Les sources d'information sont toujours facilement accessibles.
  • L'information recherchée est souvent isolée dans des documents spécifiques.
  • L'information recherchée peut être noyée parmi d'autres informations. (correct)
  • L'utilisateur a généralement une bonne connaissance des sources disponibles.
  • Dans le contexte des ressources hétérogènes, qu'est-ce qui fait référence à des formats spécifiques ?

    <p>XML, HTML ou autres formats issus d'applications métier.</p> Signup and view all the answers

    Quel type de contenu est considéré comme sémantique ?

    <p>Un contenu qui a du sens et qui est extrait du texte.</p> Signup and view all the answers

    Quel type d'indexation utilise uniquement des experts pour identifier les termes clés d'un document?

    <p>Indexation manuelle</p> Signup and view all the answers

    Quelle affirmation est vraie concernant le vocabulaire contrôlé?

    <p>Il inclut des relations sémantiques entre des mots clés.</p> Signup and view all the answers

    Quel type de vocabulaire contrôlé établit des relations entre les concepts?

    <p>Thésaurus</p> Signup and view all the answers

    Quel est un synset dans le contexte de WordNet?

    <p>Un ensemble de mots synonymes</p> Signup and view all the answers

    Quelle relation sémantique est un exemple de généralisation/spécialisation?

    <p>Hyperonymie</p> Signup and view all the answers

    Quel est un exemple d'indexation combinant manuelle et automatique?

    <p>Indexation semi-automatique</p> Signup and view all the answers

    Quel est le principal objectif de l'indexation?

    <p>Représenter le contenu d’un document</p> Signup and view all the answers

    Quel est le rôle des ontologies dans le vocabulaire contrôlé?

    <p>Elles organisent les concepts avec des relations.</p> Signup and view all the answers

    Qui a introduit le terme « recherche d’information » en 1948 ?

    <p>Calvin N. Mooers</p> Signup and view all the answers

    Quel modèle était utilisé dans les expérimentations de recherche d’information dans les années 1950 ?

    <p>Modèle booléen</p> Signup and view all the answers

    Quelle conférence a été la première à aborder le thème de la recherche d’information ?

    <p>International Conference on Scientific Information</p> Signup and view all the answers

    Quel projet visait à tester l’efficacité des méthodes d'indexation entre 1957 et 1967 ?

    <p>Projet Cranfield</p> Signup and view all the answers

    Quelles mesures ont été inventées dans le Projet Cranfield pour évaluer la recherche d’information ?

    <p>Précision et rappel</p> Signup and view all the answers

    Dans quel domaine le système MEDLARS a-t-il été principalement expérimenté ?

    <p>Domaine biomédical</p> Signup and view all the answers

    Quel était le principal objectif des expérimentations sur la recherche d’information dans les années 1960 et 1970 ?

    <p>Élaborer des méthodologies pour évaluer les systèmes de RI</p> Signup and view all the answers

    Quel type de vocabulaire était utilisé pour indexer les documents dans le système MEDLARS ?

    <p>Vocabulaire contrôlé</p> Signup and view all the answers

    Quel est l'impact de la structure d'index sur la rapidité de recherche dans une base d'index?

    <p>Elle améliore la rapidité de recherche.</p> Signup and view all the answers

    Qu'est-ce qu'un fichier inversé dans une structure d'index?

    <p>Un index des termes avec les références des documents correspondants.</p> Signup and view all the answers

    Qu'est-ce que l'expression 'bag of words' désigne?

    <p>Un ensemble de termes extraits des documents.</p> Signup and view all the answers

    Quelle est la différence principale entre le Record-Level Inverted Index et le Word-Level Inverted Index?

    <p>Le niveau de détail concernant les mots dans le document.</p> Signup and view all the answers

    Pourquoi la recherche d'un terme dans une structure index ordinaire peut-elle être lente?

    <p>Parce que chaque document doit être consulté séquentiellement.</p> Signup and view all the answers

    Quel élément n'est pas typiquement inclus dans une structure inverted index?

    <p>Les tailles des documents.</p> Signup and view all the answers

    Quels termes sont utilisés pour D2 dans l'exemple de traitement de texte?

    <p>c’, ceci.</p> Signup and view all the answers

    Quel avantage une structure inverted index peut-elle offrir?

    <p>Accélération de la recherche grâce à la réduction de l'espace de stockage.</p> Signup and view all the answers

    Quelle règle de désuffixation transforme 'caresses' en 'caress'?

    <p>SSES → SS</p> Signup and view all the answers

    Quelle est la première étape de transformation du mot 'Generalization' selon l'algorithme de Porter?

    <p>Generalization</p> Signup and view all the answers

    Quel algorithme fonctionne de manière similaire à l'algorithme de Porter pour la langue française?

    <p>Algorithme Carry</p> Signup and view all the answers

    Quel type d'outil est TreeTagger?

    <p>Un outil de lemmatisation et d'annotation de texte</p> Signup and view all the answers

    Quelles caractéristiques un lemme peut-il varier à cause de?

    <p>Genre, nombre, et conjugaison</p> Signup and view all the answers

    Que nécessite un nouveau lexique pour étendre TreeTagger à une langue non prise en charge?

    <p>Un lexique et un corpus entraîné</p> Signup and view all the answers

    Quel exemple ne suit pas une règle de désuffixation de l'algorithme de Porter?

    <p>cat → cats</p> Signup and view all the answers

    Quelle règle permet de réduire 'relational' en 'relate'?

    <p>ATIONAL → ATE</p> Signup and view all the answers

    Quel est le but principal de l'algorithme de Porter?

    <p>Raccourcir les mots en leurs racines</p> Signup and view all the answers

    Quel site propose le téléchargement de l'algorithme Carry?

    <p>otlet-institute.org</p> Signup and view all the answers

    Study Notes

    Histoire de la recherche d'information (RI)

    • Le terme "recherche d'information" est apparu en 1948 grâce à Calvin N. Mooers dans son mémoire de maîtrise.
    • Au début, la RI était principalement axée sur les applications dans les bibliothèques (appelée "automatisation de bibliothèques").
    • Les premières expérimentations de la RI ont débuté dans les années 1950 avec des petites collections de documents (références bibliographiques).
    • La première conférence internationale consacrée à la RI a eu lieu à Washington en 1958.
    • Au tout début, les chercheurs se concentraient sur la manière de retrouver des documents (avec quels mots, quels termes), ce qui a conduit à l'essor de la notion d'indexation.
    • Dans les années 1960 et 1970, des expérimentations à plus grande échelle ont été menées, et des méthodologies pour évaluer les systèmes de RI ont vu le jour. Des corpus de test (comme CACM) ont été créés pour comparer différents systèmes de RI, contribuant ainsi à l'avancement du domaine.

    Projets de recherche et concepts fondamentaux en RI

    • Le projet Cranfield (1957-1967), dirigé par Cyril Cleverdon, visait à tester l'efficacité de différentes méthodes d'indexation et de recherche de documents. Ce projet a vu naître les mesures de précision et de rappel qui sont encore utilisées aujourd'hui pour évaluer la pertinence des résultats de recherche.
    • Le projet MEDLARS (MEDical Literature Analysis and Retrieval System) était une expérimentation de la RI dans le domaine biomédical, menée par F. Wilfrid Lancaster et achevée en 1968. Les documents étaient indexés manuellement à l'aide d'un vocabulaire contrôlé. Les résultats étaient évalués en termes de précision et de rappel.

    Types de sources d'information et défis

    • Les sources d'information peuvent être :
      • Non structurées : texte brut (plain text).
      • Structurées ou semi-structurées (XML, HTML, etc.).
    • Il existe une grande hétérogénéité dans les sources d'information :
      • Langage : contenu multilingue.
      • Format : documents, images, vidéos, etc.
      • Formats spécifiques : issus d'applications métier.

    Problématiques en RI

    • Deux catégories principales d'informations :
      • Méta-information ou métadonnées (données/informations à propos du document) :
        • Attributs : titre, auteur, date de création, etc.
        • Structure : structure logique, liens, etc.
      • Contenu :
        • Contenu brut : texte du document.
        • Contenu sémantique : information extraite du contenu brut.
    • Problématiques liées aux sources d'information :
      • Grande variété et hétérogénéité des documents.
      • Volume important d'informations.
      • L'utilisateur ne connaît pas nécessairement les meilleures sources d'information à l'avance.
      • L'information recherchée est souvent noyée dans un grand volume d'autres informations.

    Indexation pour améliorer la récupération d'information

    • L'indexation est un processus qui permet de construire un ensemble de termes clés (index) pour représenter le contenu d'un document.
    • Un index peut représenter :
      • Un mot simple : "pomme".
      • Un groupe de mots : "pomme de terre".
    • L'indexation peut être :
      • Manuelle : effectuée par des experts des documents.
      • Automatique : réalisée par un ordinateur.
      • Semi-automatique : combinaison des deux précédentes.
    • L'indexation peut être basée sur :
      • Un langage libre : éléments directement extraits des documents.
      • Un langage contrôlé : lexique, thésaurus, ontologie/réseau sémantique, etc.

    Vocabulaire contrôlé en indexation

    • Types de vocabulaires contrôlés :
      • Lexique : liste de mots clés.
      • Liste hiérarchique (taxonomie) : de concepts, de notations, etc.
      • Thésaurus : liste de mots clés avec des relations sémantiques entre eux.
      • Ontologie/réseau sémantique : liste de concepts avec des relations entre eux.
      • Dictionnaire de mots : exemple, WordNet (pour l'anglais).

    WordNet

    • WordNet est un dictionnaire gratuit de mots anglais créé par des chercheurs à l'Université de Princeton.
    • Contenu de WordNet :
      • Mots en anglais organisés en synsets (ensembles de mots synonymes).
      • Chaque synset possède une définition et des relations avec d'autres synsets.
      • Un mot peut appartenir à plusieurs synsets.
      • Relations sémantiques entre synsets :
        • Hyperonymie/hyponymie (généralisation/spécialisation) : relation "is-a".
        • Antonymie (opposé à).

    Types d'indexation

    • Manuelle
    • Automatique
    • Semi-automatique

    Indexation manuelle

    • Idée de l'indexation manuelle :
      • Identifier les termes clés qui représentent chaque document.
      • Enrichir manuellement la base d'index (terme / document).

    L'algorithme de Porter (pour la racine des mots en anglais)

    • Exemples de règles :
      • SSES → SS (caresses → caress).
      • SS → SS (caress → caress).
      • S→ (cats → cat).
      • ATIONAL → ATE (relational → relate).
      • TIONAL → TION (conditional → condition).
      • Ative → (formative → form).
      • ALIZE → AL (formalize → formal).

    L'algorithme de Porter (suite)

    • Aperçu des étapes :
      • Étape 1 : Généralisation.
      • Étape 2 : Généralisation.
      • Étape 3 : Général.
      • Étape 4 : Gener.

    L'algorithme de Porter (implémentation)

    L'algorithme Carry (pour la langue française)

    Approche avec l'outil TreeTagger

    • TreeTagger est un outil de lemmatisation et d'annotation de texte créé par Helmut Schmid à l'Université de Stuttgart.
    • Il prend en charge plusieurs langues (français, anglais, allemand, italien, espagnol, portugais, russe, etc.) et peut être adapté à de nouvelles langues si un lexique et un corpus d'entraînement sont fournis.
    • Règles générales :
      • Pour un verbe conjugué : on prend sa forme à l'infinitif.
      • Pour un nom, adjectif, article, etc. : on conserve sa forme.

    Structure de la base d'index

    • La rapidité et l'efficacité de la recherche dépendent de la structure de la base d'index.
    • L'indexation produit par défaut une liste de termes décrivant chaque document.
    • La recherche séquentielle de termes dans chaque document est lente.
    • La structure d'index la plus utilisée dans les moteurs de recherche est l'index inversé (inverted index).

    Structure inverted index

    • Structure : Terme → {doc1, Doc2, ...}
    • Chaque terme sélectionné dans les documents est utilisé comme index.
    • Pour chaque index, on trouve la référence à tous les documents qui le contiennent.
    • La structure peut être enrichie par la fréquence du terme dans chaque document et sa position.

    Structure inverted index (exemple 1)

    • Documents D1, D2 et D3 avec les textes suivants :
      • D1 : c', est, ce, que.
      • D2 : c', est, ceci.
      • D3 : ceci, est, une, banane.

    Structure inverted index (exemple 1, suite)

    • Structure inverted index résultante :
      • c' → {D1, D2}.
      • est → {D1, D2, D3}.
      • ce → {D1}.
      • que → {D1}.
      • ceci → {D2, D3}.
      • une → {D3}.
      • banane → {D3}.

    Structure inverted index (types)

    • Deux types :
      • Record-Level Inverted Index : le fichier d'index inversé contient une liste de références aux documents pour chaque terme.
      • Word-Level Inverted Index : le fichier d'index inversé contient la liste de références aux documents et les positions de chaque mot dans chaque document.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Cours Systèmes de RI PDF

    Description

    Ce quiz explore l'évolution de la recherche d'information depuis son émergence en 1948. Découvrez les étapes clés, des débuts en bibliothèques aux méthodologies modernes d'évaluation des systèmes de RI. Testez vos connaissances sur les pionniers et les innovations dans ce domaine fascinant.

    More Like This

    Use Quizgecko on...
    Browser
    Browser