Podcast
Questions and Answers
Quelle est une caractéristique d'une ressource non structurée ?
Quelle est une caractéristique d'une ressource non structurée ?
Qu'est-ce que la méta-information dans le contexte des documents ?
Qu'est-ce que la méta-information dans le contexte des documents ?
Quelle est une difficulté majeure liée à la recherche d'information ?
Quelle est une difficulté majeure liée à la recherche d'information ?
Dans le contexte des ressources hétérogènes, qu'est-ce qui fait référence à des formats spécifiques ?
Dans le contexte des ressources hétérogènes, qu'est-ce qui fait référence à des formats spécifiques ?
Signup and view all the answers
Quel type de contenu est considéré comme sémantique ?
Quel type de contenu est considéré comme sémantique ?
Signup and view all the answers
Quel type d'indexation utilise uniquement des experts pour identifier les termes clés d'un document?
Quel type d'indexation utilise uniquement des experts pour identifier les termes clés d'un document?
Signup and view all the answers
Quelle affirmation est vraie concernant le vocabulaire contrôlé?
Quelle affirmation est vraie concernant le vocabulaire contrôlé?
Signup and view all the answers
Quel type de vocabulaire contrôlé établit des relations entre les concepts?
Quel type de vocabulaire contrôlé établit des relations entre les concepts?
Signup and view all the answers
Quel est un synset dans le contexte de WordNet?
Quel est un synset dans le contexte de WordNet?
Signup and view all the answers
Quelle relation sémantique est un exemple de généralisation/spécialisation?
Quelle relation sémantique est un exemple de généralisation/spécialisation?
Signup and view all the answers
Quel est un exemple d'indexation combinant manuelle et automatique?
Quel est un exemple d'indexation combinant manuelle et automatique?
Signup and view all the answers
Quel est le principal objectif de l'indexation?
Quel est le principal objectif de l'indexation?
Signup and view all the answers
Quel est le rôle des ontologies dans le vocabulaire contrôlé?
Quel est le rôle des ontologies dans le vocabulaire contrôlé?
Signup and view all the answers
Qui a introduit le terme « recherche d’information » en 1948 ?
Qui a introduit le terme « recherche d’information » en 1948 ?
Signup and view all the answers
Quel modèle était utilisé dans les expérimentations de recherche d’information dans les années 1950 ?
Quel modèle était utilisé dans les expérimentations de recherche d’information dans les années 1950 ?
Signup and view all the answers
Quelle conférence a été la première à aborder le thème de la recherche d’information ?
Quelle conférence a été la première à aborder le thème de la recherche d’information ?
Signup and view all the answers
Quel projet visait à tester l’efficacité des méthodes d'indexation entre 1957 et 1967 ?
Quel projet visait à tester l’efficacité des méthodes d'indexation entre 1957 et 1967 ?
Signup and view all the answers
Quelles mesures ont été inventées dans le Projet Cranfield pour évaluer la recherche d’information ?
Quelles mesures ont été inventées dans le Projet Cranfield pour évaluer la recherche d’information ?
Signup and view all the answers
Dans quel domaine le système MEDLARS a-t-il été principalement expérimenté ?
Dans quel domaine le système MEDLARS a-t-il été principalement expérimenté ?
Signup and view all the answers
Quel était le principal objectif des expérimentations sur la recherche d’information dans les années 1960 et 1970 ?
Quel était le principal objectif des expérimentations sur la recherche d’information dans les années 1960 et 1970 ?
Signup and view all the answers
Quel type de vocabulaire était utilisé pour indexer les documents dans le système MEDLARS ?
Quel type de vocabulaire était utilisé pour indexer les documents dans le système MEDLARS ?
Signup and view all the answers
Quel est l'impact de la structure d'index sur la rapidité de recherche dans une base d'index?
Quel est l'impact de la structure d'index sur la rapidité de recherche dans une base d'index?
Signup and view all the answers
Qu'est-ce qu'un fichier inversé dans une structure d'index?
Qu'est-ce qu'un fichier inversé dans une structure d'index?
Signup and view all the answers
Qu'est-ce que l'expression 'bag of words' désigne?
Qu'est-ce que l'expression 'bag of words' désigne?
Signup and view all the answers
Quelle est la différence principale entre le Record-Level Inverted Index et le Word-Level Inverted Index?
Quelle est la différence principale entre le Record-Level Inverted Index et le Word-Level Inverted Index?
Signup and view all the answers
Pourquoi la recherche d'un terme dans une structure index ordinaire peut-elle être lente?
Pourquoi la recherche d'un terme dans une structure index ordinaire peut-elle être lente?
Signup and view all the answers
Quel élément n'est pas typiquement inclus dans une structure inverted index?
Quel élément n'est pas typiquement inclus dans une structure inverted index?
Signup and view all the answers
Quels termes sont utilisés pour D2 dans l'exemple de traitement de texte?
Quels termes sont utilisés pour D2 dans l'exemple de traitement de texte?
Signup and view all the answers
Quel avantage une structure inverted index peut-elle offrir?
Quel avantage une structure inverted index peut-elle offrir?
Signup and view all the answers
Quelle règle de désuffixation transforme 'caresses' en 'caress'?
Quelle règle de désuffixation transforme 'caresses' en 'caress'?
Signup and view all the answers
Quelle est la première étape de transformation du mot 'Generalization' selon l'algorithme de Porter?
Quelle est la première étape de transformation du mot 'Generalization' selon l'algorithme de Porter?
Signup and view all the answers
Quel algorithme fonctionne de manière similaire à l'algorithme de Porter pour la langue française?
Quel algorithme fonctionne de manière similaire à l'algorithme de Porter pour la langue française?
Signup and view all the answers
Quel type d'outil est TreeTagger?
Quel type d'outil est TreeTagger?
Signup and view all the answers
Quelles caractéristiques un lemme peut-il varier à cause de?
Quelles caractéristiques un lemme peut-il varier à cause de?
Signup and view all the answers
Que nécessite un nouveau lexique pour étendre TreeTagger à une langue non prise en charge?
Que nécessite un nouveau lexique pour étendre TreeTagger à une langue non prise en charge?
Signup and view all the answers
Quel exemple ne suit pas une règle de désuffixation de l'algorithme de Porter?
Quel exemple ne suit pas une règle de désuffixation de l'algorithme de Porter?
Signup and view all the answers
Quelle règle permet de réduire 'relational' en 'relate'?
Quelle règle permet de réduire 'relational' en 'relate'?
Signup and view all the answers
Quel est le but principal de l'algorithme de Porter?
Quel est le but principal de l'algorithme de Porter?
Signup and view all the answers
Quel site propose le téléchargement de l'algorithme Carry?
Quel site propose le téléchargement de l'algorithme Carry?
Signup and view all the answers
Study Notes
Histoire de la recherche d'information (RI)
- Le terme "recherche d'information" est apparu en 1948 grâce à Calvin N. Mooers dans son mémoire de maîtrise.
- Au début, la RI était principalement axée sur les applications dans les bibliothèques (appelée "automatisation de bibliothèques").
- Les premières expérimentations de la RI ont débuté dans les années 1950 avec des petites collections de documents (références bibliographiques).
- La première conférence internationale consacrée à la RI a eu lieu à Washington en 1958.
- Au tout début, les chercheurs se concentraient sur la manière de retrouver des documents (avec quels mots, quels termes), ce qui a conduit à l'essor de la notion d'indexation.
- Dans les années 1960 et 1970, des expérimentations à plus grande échelle ont été menées, et des méthodologies pour évaluer les systèmes de RI ont vu le jour. Des corpus de test (comme CACM) ont été créés pour comparer différents systèmes de RI, contribuant ainsi à l'avancement du domaine.
Projets de recherche et concepts fondamentaux en RI
- Le projet Cranfield (1957-1967), dirigé par Cyril Cleverdon, visait à tester l'efficacité de différentes méthodes d'indexation et de recherche de documents. Ce projet a vu naître les mesures de précision et de rappel qui sont encore utilisées aujourd'hui pour évaluer la pertinence des résultats de recherche.
- Le projet MEDLARS (MEDical Literature Analysis and Retrieval System) était une expérimentation de la RI dans le domaine biomédical, menée par F. Wilfrid Lancaster et achevée en 1968. Les documents étaient indexés manuellement à l'aide d'un vocabulaire contrôlé. Les résultats étaient évalués en termes de précision et de rappel.
Types de sources d'information et défis
- Les sources d'information peuvent être :
- Non structurées : texte brut (plain text).
- Structurées ou semi-structurées (XML, HTML, etc.).
- Il existe une grande hétérogénéité dans les sources d'information :
- Langage : contenu multilingue.
- Format : documents, images, vidéos, etc.
- Formats spécifiques : issus d'applications métier.
Problématiques en RI
- Deux catégories principales d'informations :
- Méta-information ou métadonnées (données/informations à propos du document) :
- Attributs : titre, auteur, date de création, etc.
- Structure : structure logique, liens, etc.
- Contenu :
- Contenu brut : texte du document.
- Contenu sémantique : information extraite du contenu brut.
- Méta-information ou métadonnées (données/informations à propos du document) :
- Problématiques liées aux sources d'information :
- Grande variété et hétérogénéité des documents.
- Volume important d'informations.
- L'utilisateur ne connaît pas nécessairement les meilleures sources d'information à l'avance.
- L'information recherchée est souvent noyée dans un grand volume d'autres informations.
Indexation pour améliorer la récupération d'information
- L'indexation est un processus qui permet de construire un ensemble de termes clés (index) pour représenter le contenu d'un document.
- Un index peut représenter :
- Un mot simple : "pomme".
- Un groupe de mots : "pomme de terre".
- L'indexation peut être :
- Manuelle : effectuée par des experts des documents.
- Automatique : réalisée par un ordinateur.
- Semi-automatique : combinaison des deux précédentes.
- L'indexation peut être basée sur :
- Un langage libre : éléments directement extraits des documents.
- Un langage contrôlé : lexique, thésaurus, ontologie/réseau sémantique, etc.
Vocabulaire contrôlé en indexation
- Types de vocabulaires contrôlés :
- Lexique : liste de mots clés.
- Liste hiérarchique (taxonomie) : de concepts, de notations, etc.
- Thésaurus : liste de mots clés avec des relations sémantiques entre eux.
- Ontologie/réseau sémantique : liste de concepts avec des relations entre eux.
- Dictionnaire de mots : exemple, WordNet (pour l'anglais).
WordNet
- WordNet est un dictionnaire gratuit de mots anglais créé par des chercheurs à l'Université de Princeton.
- Contenu de WordNet :
- Mots en anglais organisés en synsets (ensembles de mots synonymes).
- Chaque synset possède une définition et des relations avec d'autres synsets.
- Un mot peut appartenir à plusieurs synsets.
- Relations sémantiques entre synsets :
- Hyperonymie/hyponymie (généralisation/spécialisation) : relation "is-a".
- Antonymie (opposé à).
Types d'indexation
- Manuelle
- Automatique
- Semi-automatique
Indexation manuelle
- Idée de l'indexation manuelle :
- Identifier les termes clés qui représentent chaque document.
- Enrichir manuellement la base d'index (terme / document).
L'algorithme de Porter (pour la racine des mots en anglais)
- Exemples de règles :
- SSES → SS (caresses → caress).
- SS → SS (caress → caress).
- S→ (cats → cat).
- ATIONAL → ATE (relational → relate).
- TIONAL → TION (conditional → condition).
- Ative → (formative → form).
- ALIZE → AL (formalize → formal).
L'algorithme de Porter (suite)
- Aperçu des étapes :
- Étape 1 : Généralisation.
- Étape 2 : Généralisation.
- Étape 3 : Général.
- Étape 4 : Gener.
L'algorithme de Porter (implémentation)
- Implémentation disponible dans plusieurs langages de programmation : https://tartarus.org/martin/PorterStemmer/index.html
L'algorithme Carry (pour la langue française)
- L'algorithme Carry fonctionne sur le même principe que l'algorithme de Porter et est téléchargeable gratuitement sur le site du projet GALILEI : http://www.otlet-institute.org/GALILEI_Platform_fr.html
Approche avec l'outil TreeTagger
- TreeTagger est un outil de lemmatisation et d'annotation de texte créé par Helmut Schmid à l'Université de Stuttgart.
- Il prend en charge plusieurs langues (français, anglais, allemand, italien, espagnol, portugais, russe, etc.) et peut être adapté à de nouvelles langues si un lexique et un corpus d'entraînement sont fournis.
- Règles générales :
- Pour un verbe conjugué : on prend sa forme à l'infinitif.
- Pour un nom, adjectif, article, etc. : on conserve sa forme.
Structure de la base d'index
- La rapidité et l'efficacité de la recherche dépendent de la structure de la base d'index.
- L'indexation produit par défaut une liste de termes décrivant chaque document.
- La recherche séquentielle de termes dans chaque document est lente.
- La structure d'index la plus utilisée dans les moteurs de recherche est l'index inversé (inverted index).
Structure inverted index
- Structure : Terme → {doc1, Doc2, ...}
- Chaque terme sélectionné dans les documents est utilisé comme index.
- Pour chaque index, on trouve la référence à tous les documents qui le contiennent.
- La structure peut être enrichie par la fréquence du terme dans chaque document et sa position.
Structure inverted index (exemple 1)
- Documents D1, D2 et D3 avec les textes suivants :
- D1 : c', est, ce, que.
- D2 : c', est, ceci.
- D3 : ceci, est, une, banane.
Structure inverted index (exemple 1, suite)
- Structure inverted index résultante :
- c' → {D1, D2}.
- est → {D1, D2, D3}.
- ce → {D1}.
- que → {D1}.
- ceci → {D2, D3}.
- une → {D3}.
- banane → {D3}.
Structure inverted index (types)
- Deux types :
- Record-Level Inverted Index : le fichier d'index inversé contient une liste de références aux documents pour chaque terme.
- Word-Level Inverted Index : le fichier d'index inversé contient la liste de références aux documents et les positions de chaque mot dans chaque document.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Ce quiz explore l'évolution de la recherche d'information depuis son émergence en 1948. Découvrez les étapes clés, des débuts en bibliothèques aux méthodologies modernes d'évaluation des systèmes de RI. Testez vos connaissances sur les pionniers et les innovations dans ce domaine fascinant.