D1 Informations et données PDF
Document Details
Uploaded by IntelligibleNoseFlute
Tags
Summary
This document provides an overview of information retrieval and data management techniques. It discusses various information sources, including traditional and informal sources. It also covers indexing techniques and different search tools such as search engines and library catalogs. The document is intended for educational purposes, likely for university students.
Full Transcript
I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA D1 : Informations et données D1.1 Mener une recherche et une veille informationnelle La recherche d'information nécessite la mise en place d'une stratégie q...
I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA D1 : Informations et données D1.1 Mener une recherche et une veille informationnelle La recherche d'information nécessite la mise en place d'une stratégie qui consiste à : –cerner le besoin d'information ; –formuler le besoin d'information ; –repérer les sources pertinentes ; –identifier les outils à exploiter en fonction de ces sources ; –interroger les outils ; –évaluer la qualité des résultats. I. Les sources d'information Parmi les sources d'information sur le web, on distingue : les sources d'information traditionnelles (agences de presse, grandes organisations d'intérêt privé ou public, associations d'experts, publications scientifiques, etc.) qui diffusent des informations validées selon un processus reconnu ; les sources émergeant de structures collectives plus ou moins formelles, dont les règles de publication et de validation de l'information sont plus ou moins strictes. L'encyclopédie en ligne Wikipédia est une source qui émerge d'une communauté d'auteurs ; la qualité de l'information qu'elle diffuse est liée aux règles et processus d'édition qui lui sont propres. les sources informelles (pages web personnelles, blogs d'internautes, etc.) publiées sans aucun contrôle. Le blog d'un prix Nobel d'économie relève des sources informelles. Les D1 : Informations et données informations qui y sont publiées peuvent être d'une grande valeur, sans toutefois bénéficier d'une validation par d'autres spécialistes du domaine. II. L'indexation du contenu Pour permettre une recherche par le sujet, les documents doivent être indexés, c'est-à-dire associés à des mots-clé. 1 I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA 1) Les outils de recherche et l’indexation a) Les annuaires de recherche : Un annuaire de recherche est un outil de recherche qui répertorie des sites web sélectionnés pour leur qualité par des spécialistes du domaine. Les sites sont organisés dans une hiérarchie de catégories. Exemple : dmoz-odp.fr, yahoo.fr On peut utiliser un annuaire selon deux modalités : en naviguant de catégorie en catégorie ; en faisant une recherche par mots-clé. Avantages Inconvénients Bonne qualité des sites Taille réduite (donc résultats peu nombreux) (sélectionnés) Difficile à mettre à jour Difficile à trouver des sujets très spécifiques b) Les moteurs de recherche : Un moteur de recherche est un outil permettant de retrouver des pages web à partir d'une requête. Les ressources sont indexées automatiquement par des programmes informatiques appelés robots (ou crawlers ou spiders) C'est un logiciel qui réalise les tâches suivantes : moissonnage : les pages du web sont parcourues automatiquement par un robot ; indexation automatique : les pages sont analysées pour en extraire les mots D1 : Informations et données significatifs ; interrogation en fonction d'une requête : les mots clés de la requête sont comparés aux mots extraits par l'indexation et une liste de pages web sélectionnées est affichée par ordre de pertinence. Exemple : Google, Yahoo Search ou Bing sont des moteurs de recherche généralistes. 2 I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA Il existe des moteurs de recherche spécialisés dans certains types de ressources (images, vidéos...) ou dans certains domaines (technologie, musique, mathématiques, santé, chimie, etc.). Avantages Inconvénients Grand nombre de résultats Pas de contrôle de Recherche fructueuse pour des sujets très spécifiques l’information Sites récents Sites populaires en Recherche avancée premier Exemple de moteurs de recherche les plus populaires au monde : Google, Bing, Yahoo, Ask.com, AOL.com c) Les catalogues de bibliothèques - Contiennent des documents décrits par leur notice bibliographique (exemple SUDOC, BIRUNI) - Une notice bibliographique est la description d'un document. Elle est organisée selon des champs : auteur, titre, éditeur, collection, ISBN, année de publication, type de publication, résumé, mots-sujet, etc. d) Les portails documentaires - Un portail documentaire de bibliothèque centralise l'accès à un ensemble de services liés à la recherche d'information. On en trouve : l'accès au catalogue de cette bibliothèque et d'autres bibliothèques; l'accès à des documents en texte intégral ; l'accès à des encyclopédies, des dictionnaires, la presse en ligne, etc. ; D1 : Informations et données des services personnalisés comme l'accès à son dossier de lecteur, à des informations ciblées, à des outils de veille. 2) Les Requêtes Ils existent des commandes très simples, appelées opérateurs, pour affiner vos recherches dans un moteur de recherche. 3 I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA a) Opérateurs arithmétiques et booléens : Opérateurs Signification "" les guillemets permettent de rechercher une expression exacte. "Le blog du Modérateur" présente les sites où les mots Le blog du Modérateur sont présents, uniquement dans cet ordre. – le signe moins permet d’exclure un terme. La requête astuces recherche -Google permet de connaître les pages contenant astuces et recherche, mais exclue celles qui contiennent Google... deux nombres séparés par deux points permettent de recherche tous les nombres de la plage spécifiée. Smartphone 200..400 euros liste les téléphones compris entre 200 et 400 euros. Espace Affiche les pages contenant les termes spécifiés. Blog Modérateur présente les sites contenant ces deux termes, mais pas ceux contenant uniquement l’un des deux. OR Renvoie les pages contenant un des deux termes ou les deux ensembles. Renault OU Peugeot présente les sites contenant Renault ou Peugeot ou les sites contenant Renault et Peugeot. b) Les opérateurs avancés et spécifiques filetype: limite la recherche au type de fichier spécifié. o filetype:PDF permet de rechercher uniquement les documents PDF. site: permet de rechercher dans les pages web du site spécifié. o site:www.uvt.rnu.tn recherche uniquement les pages web du site de l’UVT. before: permet d’obtenir les articles publiés avant une date donnée. Vous pouvez D1 : Informations et données spécifier une année ou une date exacte. after: comme la précédente, mais cette commande vous donne les résultats publiés après la date spécifiée. c) Autres opérateurs : cache:, related:, define :, etc (voir la lien : https://www.blogdumoderateur.com/operateurs-recherche-google/) 4 I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA 3) Mener une recherche – Evaluer Evaluer une ressource consiste à étudier : sa pertinence : l'information qu'elle véhicule correspond-t-elle au besoin d'information ? sa qualité : l'information qu'elle contient est-elle fiable (processus de validation) et est-elle bien présentée (bien rédigée, lisible, accessible)? 4) Gérer ses trouvailles (les sources trouvées) Qu’allez vous faire avec votre ressource trouvée. Vous pouvez : La référencer dans votre document rédigé (Norme ISO 690-2 ou Z 44-005-2) Enregistrer une page web (page complète ou HTML seulement) Enregistrer un document accessible en ligne (enregistrer la cible du lien) Récupérer une partie d'un document (copier/coller, enregistrer l’image, etc) Consulter un site web hors connexion (HTTrack) 5) La veille informationnelle La veille informationnelle consiste à se tenir au courant de l'actualité d'un domaine ou d'un sujet. Les outils de veille informationnelle : Pour faciliter ce travail, on peut : agréger les flux d'actualités diffusés par différents sites. Cela permet d'afficher les derniers articles dans un même espace pour éviter de visiter les différents sites un par un (exemple : Netvibes ou iGoogle). s'abonner à des lettres d'information ou newsletters ; suivre un ou plusieurs veilleurs sur un système de microblogage (exemple : twitter); Le Microblogage permet à des internautes de publier des messages courts pour D1 : Informations et données exprimer une opinion, donner un avis ou encore partager un contenu ou une information en temps réel paramétrer des notifications pour être prévenu par courriel de nouveaux événements (dans des forums, dans les outils de partage de documents, ou de calendrier partagé par exemple). 5 I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA D1 : Informations et données D1.2 Gérer des données 1) L'organisation des fichiers a) Un fichier est une suite d'informations stockées sur un support physique sous forme de blocs de données binaires. 6 I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA b) Un dossier contient des fichiers ou d'autres dossiers. En y regardant de plus près au niveau du stockage en mémoire, un dossier est un fichier particulier qui joue le rôle de conteneur de fichiers. En imbriquant des dossiers, on peut créer une arborescence qui permet de ranger logiquement ses fichiers dans des dossiers et sous-dossiers. c) Le chemin d'accès d'un fichier est la liste des dossiers à parcourir pour atteindre ce fichier. Si cette liste commence à la racine (point d'entrée) du support, on parle de chemin absolu sinon c'est un chemin relatif. d) La désignation d'un fichier est unique par la donnée de son chemin d'accès et de son nom. e) L'extension est le suffixe du nom de fichier. Il donne une information sur le type du fichier. Exemple : L'extension du fichier Photo.jpg est jpg, et permet de dire que c'est une image. f) Un raccourci ou alias ou lien symbolique est un lien vers un fichier ou un programme. L'icône d'un raccourci placé sur le bureau est souvent repérable par la présence d'une D1 : Informations et données flèche. La suppression d'un raccourci ne supprime pas le fichier vers lequel il pointe ! 2) Propriétés des fichiers Un fichier possède des propriétés, on en trouve les droits d'accès (en lecture seule, modifications autorisées, etc.), l'application associée par défaut à un type de fichier, taille (poids), date de création,..etc. 7 I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA 3) Taille ou poids d’un fichier Les données sont stockées sur l'ordinateur ne sait manipuler que deux états possibles. C'est le principe du codage binaire. a) Le bit (binary digit) est l'élément de base du stockage de l'information : il peut prendre deux valeurs souvent symbolisées par 0 et 1. Les différentes informations (caractères, nombres, images,...) sont codées en binaire et la place qu'elles occupent dans la mémoire est mesurée en octets. b) Un octet est composé de 8 bits. 4) Les différentes unités de stockage : un kilooctet (ko) = 1 000 octets ; un mégaoctet (Mo) = 1 000 ko ; un gigaoctet (Go) = 1 000 Mo ; un téraoctet (To) = 1 000 Go. 5) Le format d’un fichier: Le format d’un fichier est la façon dont les informations (bits) sont codées dans le fichier. Il y a le format ouvert et le format fermé Il y a le format libre et le format propriétaires Exemple : Format Texte (.txt) : Ouvert & Libre 6) Document texte Un document texte est un fichier créé par un traitement de texte. C'est un fichier qui contient non seulement des caractères, mais aussi une structure, des mises en forme, des objets, etc. 7) Les formats d'images Pour représenter une image, on peut la décrire à l'aide de fonctions mathématiques D1 : Informations et données (représentation vectorielle) ou par l'ensemble des points qui la composent (représentation matricielle). a) Image vectorielle Une image vectorielle est définie par un ensemble de données mathématiques : coordonnées, fonctions, attributs, etc. 8 I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA Une image vectorielle peut être agrandie ou rétrécie sans dégradation car l'image sera recalculée précisément en fonction de la taille souhaitée. En général, le fichier correspondant est peu volumineux. b) Quelques formats d'images vectorielles Le format Scalable Vector Graphics (svg) est un format ouvert d'image vectorielle ; il est surtout utilisé en cartographie et sur les téléphones portables. Le format Dessin de l'Open Document Format (odg) est un format ouvert de dessin vectoriel; il est utilisé par l'application Draw d'Open Office. Un dessin réalisé avec la barre d'outils dessin des logiciels de bureautique ou un diagramme créé dans un logiciel de présentation sont des images vectorielles. c) Image matricielle Une image matricielle est définie par une grille de points ou pixels auxquels est associée une couleur. Une image matricielle se dégrade si on l'agrandit : la pixellisation devient visible. En fonction de la taille de l'image et du nombre de couleurs utilisées, le fichier correspondant peut devenir volumineux. Pour transiter sur Internet, on utilisera des formats matriciels compressés. d) Quelques formats d'images matricielles Le format BitMaP (bmp) est un format d'image matricielle développé par Microsoft et IBM. C'est un format simple, ouvert et facilement utilisable par les logiciels mais il est peu utilisé sur le web à cause de la taille volumineuse de ses fichiers, la couleur de chaque pixel étant codée sans effort de compression. Le format Joint Photographic Experts Group (jpeg ou jpg) est un format d'image ouvert compressé pour des images de type photographie (16 millions de couleurs). Le principe de compression JPEG est de coder la couleur de rectangles dont les pixels ont la même couleur (compression sans perte) ou des couleurs très proches (compression avec D1 : Informations et données perte, taux de qualité paramétrable). Le format Graphics Interchange Format (gif) est un format d'image ouvert compressé pour des images de type dessin. Il permet de définir une couleur de fond transparente, de proposer un mode d'affichage entrelacé (aperçu de l'image qui se précise en cours de téléchargement) et de créer des images animées. Les couleurs d'une image sont définies sur une palette de 256 couleurs choisies parmi 16 millions de couleurs possibles : c'est le principe de base de la compression GIF, dite en couleurs indexées. 9 I.S.L.A.I.B Cours: C2I Niveau: 1ière LNA Le format Portable Network Graphics (png) est un format d'image ouvert compressé. Il effectue une compression en couleurs indexées, mais la palette n'est pas limitée à 256 couleurs. 8) Les autres formats a) Le format Portable Document Format (pdf) est un format ouvert développé par la société Adobe Systems qui préserve la mise en forme d'un document : il est généralement utilisé pour la diffusion de documents formatés qui n'ont pas vocation à être modifiés ; il s'applique à tous types de documents imprimables : document de traitement de texte, feuille de calcul, présentation, etc. b) Le format Windows Media Audio (wma) est un format propriétaire de compression audio développé par Microsoft. c) Le Moving Pictures Expert Group a developpé des méthodes de compression pour les fichiers audio et vidéo. d) le format MPEG-1/2 Audio Layer 3 ou MP3 (mp3) est un format compressé ouvert pour les fichiers audio ; il s'agit d'une compression avec des pertes non perceptibles par l'oreille humaine ; e) le format MPEG-4 (mpg, mp4, etc.) est un format compressé ouvert pour les fichiers vidéos. D1 : Informations et données 10