Tranb 300 Synthèse - January 2024 Exam - PDF
Document Details
Uploaded by PrivilegedChrysoprase9763
Université Libre de Bruxelles
2024
Chloé Wattenbergh & Oliwia Kaim
Tags
Summary
This document is a past paper for a digital humanities course. It's a synthesis of materials and covers basic concepts of human digital humanities. The paper touches upon the digital encoding of information and its representation in computers.
Full Transcript
lOMoARcPSD|20640423 Tranb 300 synthèse Introduction aux humanités numériques (Université Libre de Bruxelles) Scanne pour ouvrir sur Studocu Studocu n'est pas sponsorisé ou supporté par une université ou un lycée...
lOMoARcPSD|20640423 Tranb 300 synthèse Introduction aux humanités numériques (Université Libre de Bruxelles) Scanne pour ouvrir sur Studocu Studocu n'est pas sponsorisé ou supporté par une université ou un lycée Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 TRANB300-synthèse Chloé Wattenbergh & Oliwia Kaim January’s exam session 2024 Ce document a été produit par Chloé Wattenbergh étudiante de BA3-COMM, année scolaire : 2022-2023. Il a été retravaillé à travers la LA- TEX par Oliwia Kaim, étudiante de BA3-LLANG, année scolaire : 2023-2024. 1 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 1 Introduction Diderot, dans son article « Encyclopédie » en 1799 éxprimait déjà son ressentit de surcharge d’informa- tions. C’est un sentiment qui existait déjà au Moyen-Âge, et surtout à partir de l’apparition de l’imprimé. Il peut être mis en parallèle avec le problème actuel de la généralisation de l’accès à une multitude d’in- formation grâce au numérique. Diderot propose alors comme solution une enxyclopédie pour classer et résumer le savoir humain, nous proposant alors un ensemble de concepts et d’outils numériques qui permettent de s’orienter dans la masse d’information. Définir les humanités numériques est une tâche difÏcule, la question fait encore débat parmi les scientifiques. Il est intéressant de comprendre les deux mots qui les composent. Humanités désigne l’ensemble des sciences humaines et sociales (SHS) Numérique est un mode de transport de l’information (digital en anglais) Le numérique code le signal à transmettre à l’ade d’un ensemble de nombres binaires. Cela s’oppose au transport analogique des données qui reprodit le signal sous une forme similaire de l’original. Les ordinateurs traitent l’information en binaire à cause de leur fonctionnement interne qui s’appuie sur des transistors qui laissent passer ou non le courant (dispositifs qui connaissent deux états : on et off ). En binaire, 0 équivaut à « off » tandis que 1 équivaut à « on ». L’objectif est alors d’associer ces transistors/bits. On peut en conlure avec l’image si-dessus, qu’1 transistor/bit c’est transmettre une information qui n’a, donc, que deux possibilités. Avec 2 bits, on a 4 possibilités, avec 3 on en a 8, etc. Plus on rajoute de transistors, plus on a de manires de coder l’information. Pour comprendre les équations avec l’exemple de 8 = 2³ La puissance-3 représente le nombre de bits/transistors qu’on utilise Le 2 représente les deux codifications qui peuvent être donnés selon que le transistor est on ou off. Le 8 représente le nombre de codifications possibles au final C’est-à-dirre qu’avec 3 transistors, on a les possibilités de codifications suivantes : 111 ; 000 ; 100 ; 010 ; 101 ; 011 ; 110 On a donc huit possibilités de codification. 2 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 Un byte/octet = 8 bits C’est la plus petite unité logiquement adressable par un programme sur un ordinateur. En informa- tique énormément de choses sont prévues pour être codées sur un cotet (c-à-d qu’on obtient 256 valeurs différentes) L’ASCII Est une norme de codage des caractères : chaque lettre est asociée à un numéro et à une version binaire. Par exemple la lettre A est représenté par le chiffre 65 et s’écrit alors en binaire : 01000001. Les humanités dans la sphère du numérique sont importantes pour : Faire preuve de critique, prendre du recul et contextualiser l’information L’expert des humanités numériques se trouve entre 3 catégories 1. Analyse quantitative (statistiques) 2. Manipulation (informatique) 3. Expertise des données (humanité) 2 Trouver l’information 2.1 Introduction Paul Otlet et Henri La Fontaine lancent le répertoire bibliographique universel en 1895. C’est une pièce dans laquelle est stockée un ensemble de fiches qui regroupent les informations sur toutes les publications sorties depuis le début de l’imprimerie. Pour cela, ils constituent un réseau de collaboration avec des institutions de partout dans le monde. Pour mettre de l’ordre dans ce répertoire, ils mettent également au point la classification décimale universelle. Celle-ci classe tous les sujets sur lesquels une publication pourrait voir le jour. 2.2 Internet Les USA veulent créer un réseau de communication pour faire face à une possible coupure téléphonique. En 1960, un ofÏcier invente la communication par paquets. Plus tard, le département de la défense déve- loppe le réseau Arpanet qui permet de connecter quelques ordinateurs ensemble. Le projet se développe et permet de connecter de plus en plus de machines à distance dans le cadre de circulation de travaux scientifiques mais aussi dans les entreprises. En 1982, on standardise le protocole TCP/IP qui permet l’interconnexion d’ordinateurs différents. Un an plus tard, la défense développe MILnet pour l’utilisation militaire et démilitarise Arpanet en le renommant alors Internet. Internet est une infrastructure qui est un énorme réseau mondial (différent du web qui représente tous les services auxquels on peut accéder via Internet). Il possède 3 propriétés spécifiques : Décentraliser : la commutation par paquets permet la circulation par différents chemins, pas de nœud central par lequel doivent passer les informations. Agnostique : trasporte n’importe quels types de données : réseau générique Ouvert : repose sur des protocoles ouvers, c-à-d utilisable par tout le monde, comme on le souhaite. Cela empêche les situations de monopole et tentatives de régulations. >< du réseau téléphonique qui est centralisé, pas agnostique (seulement pour le son) et fermé (entre les mains d’un petit nombre de sociétés). 3 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 2.3 Architecture client-serveur Pour accéder à une ressource sur Internet, l’ordinateur joue le rôle de client dans une relation avec le serveur. Il émet une requête, le serveur la reçoit et y répond. Le serveur reçoit donc en même temps pleins de requêtes différentes de pleins d’ordinateurs différents qu’il doit géer, prioritiser, etc. 2.4 Les protocoles C’est une liste de règles qui crée des conventions communes à tous les ordinateurs connectés aux réseaux qui définissent comment communiquer. Le protocole TCP/IP est l’un des protocoles ouvert le plus important d’internet. Il découpe alors le transport d’information en 4 couches indépendantes et hermétiques : Liaison de données : connecte l’ordinateur au réseau local avec le WiFi/câble. La couche définie comment les données sont échangées avec le réseau. Réseau : achemine les données sur le réseau en les faisant passer d’une route à l’autre cfe qui rend l’information de plus en plus précise. Transport : vérifie si les paquets sont correctemement arrivés. Application : regroupe toutes les méthodes utilisées par les applications pour envoyer et recevoir les données. 2.5 Hyper texte C’est un ensemble de documents contenants des hyperliens permettant de naviguer les uns vers les autres. Les hyper-liens du web sont unidirectionnels : si une page A pointe vers une page B, rien n’est visible sur B. L’application de ces hyperliens a été possible grâce au système bureaucratique informatique de Douglas Engelbart. Ted Nelson avait déjà essayé auparavant de l’implémenter sur son application Xanadu avec des hyperliens bidirectionnels. 2.6 Le World Wide Web Tom Berners-Lee propose en 1989 un système de l’information au CERN pour faciliter le partage de l’information entre ordinateurs très différents en termes de hard et software. C’est ainsi qu’il fonda le web, qui se fond sur 4 composantes : 1. Le protocole http : décrit la transmission de documents sur Internet où le navigateur web est le client et une application, le serveur. Une méthode http est une commande qui demande d’effectuer une action. On retrouve les méthodes : (a) GET (demander une ressource) (b) HEAD (demander infomration sur une ressource) (c) DELETE (effacer une ressource (d) POST (transmettre des informations au serveur) 4 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 2. Language HTML : language de balisage créé pour représenter les pages web qui sont associés facilement au protocole http. On appel cela le code source d’un site Internet. Pour mettre en forme une page on doit baliser le contenu avec des balises ouvrantes au début (chevron qui entoure un mot clef : ) et des balises fermantes en fin (un chevron avec un slash : ). Il est possible de mettre des balises à l’intérieur d’autres. Le HTML est pensé pour faire la différence entre le fond et la forme (mark-up >< make-up). On catégorise le contenu pour indiquer son rôle dans le document entier avec des niveaux. On indique ensuite dans l’en-tête à quoi correspond chaque niveau comme esthétique. 3. URLS : dans un réseau informatique chaque appareil connecté est identifié par une adresse IP. En 1984 Berners-Lee remplace les adresses IP par des noms de domaine et standardisent les URLS comme moyen d’acceder aux ressourses. Un URL contient alors : Le protocole de communication : http Le nom de domaine : www.w3.org Le chemin d’accès : /people/Berners-Lee/1991/081 Le nom du fichier : art-6468.tkt 4. Navigateur web : C’est un logiciel du web des documents dont il interprète le langage HTML. S’est développé de manière désorganisée avec des lancements de logiciels de plusieurs compagnies. En 1995 lancement d’Internet Explorer, le logiciel gratuit grâce à la publicité. L’objectif du navigateur est de faire en sorte qu’une page soit très lisible or les balises utilisés en publicité rendent la lisibilité complexes. C’est via les moteurs de recherche qu’on peut trouver une page web sur le navigateur. Au début on indexait tous les sites web mauellement, mais cela est vite devenu impossible. On lance alors l’indexation full-texte : chaque page web est passée en revue à un index est constitué en enregistrant chaque mot contenu dans la page en lagage humain (problme de polysémie et synonymie). Les moteurs de recherche finissent donc par faire appel à des crawlers : robots qui enregistrent le contenu (méthode tal) des pages mais aussi les relations entre celles-ci. Les relations permettent d’attribuer un score de confiance/intérêt et d’ensuite hiérarchiser l’ordre d’apparence = Ranking. 5 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 2.7 Le Ranking de Google Chaque moteur de recherche a une façon différente de calculer les scores. Chez Google cela marche selon l’algorithme PageRank. Il établit des hiérarchies entre les pages web via un score attribué à chacune. Le score d’un site va être d’autant plus grand que beaucoup de sites pointent vers lui. Il faut que ces sites aient eux-mêmes un gros score. Moindre est le liens de ces sites importants, plus gros sera le score. 3 Techniques et ressources documentaires électroniques, explo- rer le Deep-Web. Le Deep-Web est une partie du web qui recense des informations scientifiques mais qui n’est pas accessible via les moteurs de recherche classiques (la plupart du temps les contenus sont protégés par des droits d’auteurs). Il est possible d’accéder ) celui-ci via Cible+, la bibliothèque en ligne de l’ULB. On y retrouve l’ensemble des ressources papier de l’ULB (articles de périodiques, journaux, bases de données,...) ainsi que le dépôt institutionnel « Di-ffusion » qui recense les productions de chercheurs et académiciens. N’est pas pareil qu’un méta-moteur = Logiciel ou site web qui permet d’interroger simultanément plusieurs moteurs de recherche et d’obtenir la synthèse de leurs réponsés à une requête donnée. Sur Cible+ on peut filtrer nos résultats : disponible en ligne, évalué par les pairs ou encore open access. Open Access est un mouvement qui met à disposition gratuitement et de façon large la recherche scientifique pour tous. Il s’oppose aux dérives du monde de l’édition scientifique qui cadenasse la capacité pour les universités à acquiérir, à des prix décents, des abonnements à des revues scientifiques. On peut également filtrer par type de documents ou selon les sujets abordés (peut être limitant et générer des problèmes d’exhaustivité). Il y a deux aspects importants dans la recherche : La pertinence : adéquation entre demande et résultat. L’exhaustivité : avoir tous les documents qui correspondent à notre recherche 4 Modéliser les données 4.1 Introduction Les recensements de la population prenant trop de temps aux États-Unis, Herman Hollerith développe l’idée de la tabulatrice en 1880. Pour améliorer l’agrégation des informations récoltés, il propose l’idée de stocker les données dans des cartes perforées. La tabulatrice en est alors l’outil de lecture. La machine se compose d’un tableau de ressorts qui établissent du courant électrique aux endroits où les cartes sont perforées et incrémentent ainsi des compteurs. La tabulatrice permet de trier facilement les cartes selon des critères divers. Précurseur de l’ordinateur, la tabulatrice est le format tabulé sous lequel les données doivent être mises. Elles ont fortement influencé le développement de l’informatique. 6 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 4.2 Modéliser les données La recherche structurée permet de trier soigneusement les documents sur base de caractéristiques choisies >< recherche full texte qui traite l’ensemblre des documents sans différenciations. Il y a un réel enjeu à structurer les données stockées afin qu’elles puissent être récupérées le plus efÏcacement possible. Modéliser= représenter de manière formelle une vision du monde dont on a extrait certaines carac- téristiques dans un modèle de données. Un modèle est donc une façon de construire et de communiquer cette vision et délimitée du monde. Au cours du processus de modélisation 2 choses issues des sciences humaines sont importantes : Faire abstraction du monde réel et identifier les concepts clés à représenter. Rendre explicite sa vision du monde mais prendre aussi celle des autres en compte. Il existe 4 modèles de données : tabulaire, relationnel, XML, RDF. Ils sont comme 4 manièfres différentes de voir le monde. 4.3 Base de données tabulaire. 4.3.1 Implémentation Simple texte. On peut encoder numériquement un tableau en format TSV ou CSV mais de nombreux logiciels sont capables d’encoder et de lire des données également. Depuis des tableurs comme Excel jusqu’à des simples éditeurs de texte comme Notepad. 4.3.2 Recherche. La recherche dans un tableau se fait en plein texte. il faut parcourir l’ensemble du document ce qui rend difÏcile la recherche. Modèle limitant : au niveau nomenclature (2 manières différentes encoder la même chose : noms, dates,...), pour effectuer des modifications/ intégrations, pour faire des liens entre tableaux, etc. 4.3.3 Evolution. Les données tabulaires s’adaptent facilement aux changements en ajoutant simplement une colonne simplement. 4.3.4 Partage. Le format textuel peut être lu sur toutes les plateformes, donc le partage de fichiers est très facile. C’est pourquoi il est utilisé pour le partage de données ouvertes dans des projets. Petit problème est l’interprétation des colonnes qui n’est pas toujours évidente. 7 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 4.3.5 Avantages, inconvénients, contexte d’utilisation. Avantages : intuitif, adaptable à la réalité changeanteet independance technique. Inconvénients : sujet à la redondance ou aux incohérences, recherche lente et inefÏcace. Contexte : import et export de données qui ont une structure simple. 4.4 Base de données relationnelles 4.4.1 Modélisation. Introduit fin des années 1970 pour faire face aux incohérences lors de l’encodage, de la gestion de la recherche de données du modèle tabulaire. C’est l’adoption de ce modèle qui a transformé le web dans les années 2000 : passage web statique avec des pages HTML codées à la main à un web dynamique constitué de pages multiples créées et organisées par un CMS (Wordpress, Drupal,...) On reconstruit une vision du monde sur base de 3 éléments : Les entités : groupes d’objets qui peuvent évoluer indépendamment. Les attributs : caractéristiques des entités (avec toujours une clé primaire unique) Les relations : liens entre entités. Des cardinalités qui expriment le nombre d’individus qui participent à la relation entre 2 entités. Ces cardinalités doivent être justifiées. 4.4.2 Implémentation. A partir d’un schéma une base de données peut être construite avec un système de gestion de base de données= SGBD (Microsoft Access, file makeer pro, MySQL, oracle,...). Le choix du SBDG est important, il est donc nécessaire de comprendre l’interaction entre : Front-end : la partie visible du site au grand public. « Guichet. » Back-end : l’interface administrative du gestionnaire. « Stock. » 8 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 On crée une table (= entité) avec des champs et désigne ensuite les caractéristiques de chaque colonne (=attributs) : 4.4.3 Recherche. On peut facilement retrouver tous les attributs des colonnes dans la table « ouvrages » en faisant par exemple : SELECT « title » from « ouvrage » where auteur = 1. Il est aussi possible d’explorer les relations entre tables et même de les joindre. C’est donc un modèle qui permet d’effectuer aisément des recherches précises dans un grand volume d’informations. 4.4.4 Evolution. DifÏcile, l’ajout d’une nouvelle tale doit être effectué avec prudence, cela peut demander une configura- tion de l’ensemble du schéma. L’ajout de trop de tables nuit à la performance et à la compréhension. 4.4.5 Partage. Le fichier binaire ne peut être copié-collé, le SBDG sauvegarde les données dans un format qui lui est propre : risque d’incompatibilité technique. Il existe aussi un risque d’incompatibilité sémantique, chaque collection est différente même si on utilise la même version qu’un SGBD particulier. Il est donc nécessaire que comprendre parfaitement la logique de la structure et les interactions entre les tables pour utiliser la base de données d’une orga tierce. 4.4.6 Avantages, inconvénients, contexte d’utilisation. Avantages : permet de gérer les données complexes, optimiser les requettes et peut être amélioré. Inconvénients : format binaire rend complexe le partage et dependance envers le schéma. Contexte : gestion de données complexes dans un contexte local. 4.5 Base de données XML 4.5.1 Modélisation. Les questions de l’évolution et du partage sont devenus un problème lorsque le web a véritablement pris son envol. Le modèle hiérarchique ici permet l’échange de données structurées avec facilité. 9 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 Un document XML représente un arbre inversé où : Un nœud constitue la racine Les liens dans l’arbre sont les mêmes que ceux dans les arbres généalogiques. La nature hiérarchique est centrale : les enfants héritent des caractéristiques des parents. Rien n’empêche que les enfants aient également leurs propres caractéristiques. 4.5.2 Implémentation. Viens du besoin de devoir automatiser des grands volumes de texte non structurés qui sont difÏciles à gérer avec les bases de données. Réel besoin d’effectuer un balisage qui permet : De structurer, configurer la mise en page pour plus de cohérence. D’éviter des problèmes esthétiques pendant la rédaction car séparé de la mise en page du document. Exploiter la structure du document : recherche ; créer appareil critique, manipuler le document, etc. Fonctionne seulement si les balises sont clairement séparées du contenu et suivent une logique systéma- tique, prévisible et cohérente. En HTML, au balisage, les mots clefs dans les chevrons sont définis de manière univoque dans un document de référence. Ces standards sont définis par le W3C, organisme fondé par Tim Berners-Lee qui promeut la comptabilité des technologies web. Mais dans le cadre des balises pour la modéllisation de données, il est illusoire de définir des standards : utilisation d’un métalangage de balisage qui permet créer ses propres balises tout en respectant une syntaxe standardisée. On développe en 1960 le SGML sur le web mais il est par la suite simplifié en version XML (flexibilité de balisage mais validation par un schéma). 10 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 L’idéal est de modéliser comme attributs toutes les valeurs qui ne doivent pas être décompensées en caractéristiques et modéliser les autres nœuds enfants. XML est très flexible : pour éviter les répétitions ou différences d’encodage du modèle tabulaire on peut faire des références à d’autrees fichiers dans les balises. (Un fichier qui reprend toutes les caractéristiques des autres par exemple) De plus, pour éviter des problème d’interprétation sémantiques on a développé le langage XML schéma pour définir la structure et le contenu d’un document. On peut pour certaines balises décider de les standardiser quand ils sont récurrents. Possibilité de charger des balises déjà existantes en faisant appel à un espace de noms. 4.5.3 Recherche. Cela revient à se déplacer dans l’aborescence du document. Moins efÏcace que les bases de données relationnelles. 4.5.4 Evolution. Nécessite d’abord une analyse approfondie de sa structure pour s’assurer que les changements opérés ne mettent pas en péril la cohérence du schéma dans son ensemble. Certains éléments sont rétrocompa- tibles (sans conséquence sur le schéma) et d’autres ne le sont pas (ex. renommer une balise). 4.5.5 Partage. C’est un fichier texte, il y a donc interopérabilité technique, ce qui le rend facile à partager. Mais l’interopérabilité sémantique n’est pas garantie : choix des balises pas toujours clair pour tout le monde. DifÏcile donc de faire s’entendre 2 documents XML écrits par des personnes différences. 4.5.6 Avantages, inconvénients, contexte d’utilisation. Avantages : interopérabilité technique et lisibilité pour les humains/ machines. Inconvénients : implémentation complexe et verbosité (beaucoup à écrire) Contexte : import/ export de données complexes et gestion de données avec structure hiérarchique. 4.5.7 Editer les documents avec XML XML est aussi utile pour la structure des données elles-mêmes, pas seulement pour celle des bases de données (ex : édition numérique des sources historiques). Utiliser la TEI, langage de balisage basé sur XML ou on peut insérer de la sémantique dans une transcription et construire ainsi un appareil critique dans un texte. On pourrait signaler la correction d’informations, la localisation d’éléments, l’utilisation d’une mise en page particulière, le passage à la page suivante, etc. XML permet donc d’encoder toutes les situations que rencontre un éditeur de texte ce qui permet à un logiciel de voir le document sous plusieurs aspects différents. 11 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 4.6 Base de données RDF 4.6.1 Modélisation. Le web sémantique est une extension du web de tel sorte que les données peuvent être partagées et réutilisées par tout type d’utilisateur peu importe qui ou le moyen d’accès au web. Le RDF est un modèle de graphique développé par le W3C pour servir de base au web sémantique. Les données sont exprimées sous forme de triplet : sujet + prédicat objet Les précédents modèles travaillent dans un monde clos : seules les données conformes au schéma peuvent être encodées. Ce modèle travaille dans un monde ouvert : tout type de données peuvent être ajoutes sans problème = toile d’araignée infinie sans centre et dont les connexions vont dans tous les sens. XML utilise un schéma unique qui définit localement la sémantique des données. RDF les informations sont autodescriptives, renseignent forcément leur schéma spécifique. Principe de base web sémantique : définir pour chaque élément du triplet un identifiant qui permet par la suite la réutilisation sans contrainte. 4.6.2 Ontologies. La logique formelle du web sémantique se présente sous la forme d’ontologie. Qui est donc une façon de formaliser le sens d’un domaine d’application représenté dans un système d’information. Elle fournit un vocabulaire partagé utilisé pour modéliser un domaine : type d’objets/ concepts, leurs proprios et leurs relations. Il existe deux ontologies de base : RDF schéma (RDFS) et Web Ontology Language (OWL). ILs formalisent des concepts simples qui servent de briques de base pour d’autres constructions. 12 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 Exemple : pour définir has written on précise pleins d’élements à son sujet. Ici l’ensemble = une personne (sujet/ domaine) a écrit (prédicat) d’une œuvre littéraire (objet/ range). Dès lors dès qu’un ordinateur croise un triplet avec « haswritten » il peut directement inférer qui sont les sujet/ prédicat/ objet dans ce triplet. 4.6.3 Implémentation. L’implémentation du projet à grande échelle a été un échec. L’usage et le développement d’ontologies étaient trop complexe et onéreux. 10 ans après Berners-Lee revient avec une approche plus pragmatique : le web des données. Il s’agit d’un ensemble de bonnes pratiques pour guider la publication des données liées selon le principe du web sémantique (tout décrire par triplets simplifiés). En grande ligne, on passe par des irl pour mettre à jour une seule fois pour que tous les utilisateurs du lien soient à jour. Ici on remplace les chaines de caractère traditionnels sujet-prédicat-objet par les urls. 4.6.4 Recherche. RDF possède son langage de requête SPARQL. Lancer une requête c’est comme sélectionner des graphes qui figurent dans le nuage de triplets. Les résultats obtenus dépendent des données liées qui sont encodées en ligne. Nécessaire de connaitre les prédicats disponibles pour faire sa requête. Permet ici de faire des sauts d’un ensemble de données vers d’autres très facilement. 4.6.5 Evolution. Supporte bien les changements : face à une nouvelle réalité, il sufÏt d’ajouter un nouveau triplet. Aucun changements à effectuer dans la structure des données ou triplets existants. Juste un problème d’instabilité des URLs. 4.6.6 Partage. Construit pour. Permet de dépasser la sémantique d’un schéma local et aller vers le global. Mais rien n’empêche la publication des données contradictoires ou erronées cependant. L’enjeu majeur est de gérer la qualité de l’information dans le web. C’est pourquoi le domaine d’application se limite encore aux secteurs non critiques car entraine moins de dégâts. 4.6.7 Avantages, inconvénients, contexte d’utilisation. Avantages : neutralité du schéma et permet la découverte d’informations du monde ouvert. Inconvénients : perte de normalisatoin et marché de logiciel immature. Contexte : partage de données global sur le web. 13 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 5 Numériser les sources 5.1 Introduction. Paul Otlet expose 3 problèmes de la documentation dans son « traité de documentation » en 1934 : publier des livres de façon optimale + agréger des livres déjà parus dans un livre universel pour chaque science + organiser la lecture des livres. Il propose également 3 solutions à ces problèmes : L’humanité a tellement progressée qu’elle n’a plus besoin de livres. Compiler toutes les information dans un petits nombre de livres. Repenser complètement le stockage et la consultation des livres. Vannever Bush, chercheur du MIT et conseiller scientifique pour le président, appel à la fin de seconde guerre mondiale les scientifiques du monde à œuvrer pour le bien en trouvant des moyens d’élargir les ca- pacités mentales de l’homme. Il décrit dans son article un appareil qu’il appelle « Memex » : complétement personnel qui joue le rôle d’élargissement de la mémoire. Les 2 auteurs décrivent des innovations qui permettraient la résolution de problèmes qui concernent la matérialité des documents. Proposent une solution de proto-numérisation pour pallier les limites des livres physiques. 5.2 La numérisation. Les sources primaires n’ont pas toujours été numérisées, il est donc parfois nécessaire de le faire soi-même et donc de connaitre les tenants et aboutissants de la numérisation. C’est un processus pas si évident : Quels docs ? Quelle résolution ? Comment gérer tous les fichiers ? Comment décrire les docs ? C’est en 1990 que les premiers projets de numérisation en masse par les institutions culturelles appa- raissent. Sera plus difÏcile que prévu en partie à cause des contraintes politiques et financières que ces institutions subissent. Garder en tête que seulement une petite partie du patrimoine de l’humanité a été numérisée. Et si certains docs le sont ce n’est pas toujours correctement fiché et donc souvent introuvable. G Google books entretient cette confusion chez les gens sur l’accessibilité de l’ensemble des livres écrits par l’humanité. Outre l’incomplétude, il existe évidement des biais dans la sélection des doc numérisés. L’objectif de la numérisation est d’agir sur le présent plus que de vouloir conserver le passé. Souvent réponse à des objectifs politiques qui ne sont pas neutres. Des chercheurs se mettent à critiquer la pratique de microfilmage systématique de certains documents car certains d’entre eux sont devenus illisibles après quelques années. Il y a 4 étapes dans le processus de numérisation : Préparer : définir les objectifs de pertinence par rapport aux usagers, financement, travail interne ou sous-traitance, cahier de charges,... Numériser : définir les paramètres tels que le cadrage, la résolution, les couleurs, les formats,... Métadonnées : décrire les documents avec schémas, vocabulaire contrôlé, crowdsourcing. Logiciel de gestion de collection : base de données pour gérer la disponibilité des documents. 14 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 5.3 Préparation. 5.3.1 Les institutions culturelles et leurs missions. Au 19ième Siècle ma mission principale des institutions culturelles était la conservation du patrimoine vu les pillages et destructions qui avaient eu lieu les siècles précédents. Fin du 20ième Siècle leur rôle était de rendre ce patrimoine accessible au public. La notion de patrimoine a notamment évolué au cours du temps : elle reflète autant la culture vivante qu’une image du passé. Devant l’importance des collections qui existent il est impérial de se demander quels sont les besoins des utilisateurs et de l’intégrer dans la politique de numérisation. 5.3.2 Le scan on demand. Certains institutions proposent cela pour répondre aux besoins des utilisateurs : numériser des documents de la collection contre payement de frais. Amène la question de biais dans la numérisation car toujours le même type de documents concernés. Malheureusement le monde politique a tendance à placer les institutions culturelles au même pied que les entreprises commerciales : appliquer des critères de qualité et de performance dans la mise à disposition des collections. 5.3.3 Financement. En Europe c’est traditionnellement par des fonds publics (européens, nationaux, régionaux, etc.). Mais aux Etats-Unis il s’agit principalement de fonds privés ce qui influence aussi les choses : obligation de résultat, timing serré, choix de docs orienté. Des solutions médianes existent avec le partenariat public-privé où un accord précis est signé entre les 3 acteurs. 5.3.4 Sous-traitance. Décider de qui se charge de la numérisation : équipe interne ou faire de la sous-traitance ? Avantages des sous-traitants : mieux préparés, plus rapides, coutent moins cher en matériel, per- mettent de partager les risques et de ne pas accaparer le personnel de l’institution. Inconvénients : cout important, difÏculté de dialoguer ce qui rend parfois certaines demandes difÏ- ciles. Amène à ce que les appels d’offre circonscrivent le plus précisément le projet. 5.4 Numérisation en elle-même. 5.4.1 Image numérique matricielle. Pour scanner un document on utilise le scanner à plat : une source lumineuse et un miroir se déplacent d’un bout à l’autre du doc à numériser, tendis qu’une batterie de capteurs CCD convertit la lumière réfléchie par le doc en un signal analogique, qui est ensuite numérisé. Une fois le document scanné, un doc est converti en image numérique matricielle. C’est un tableau (une matrice) constitué de petits carrés unitaires (pixels) qui ont chacun une couleur unique. Pour la modifier il faut utiliser un logiciel de retouche d’image. L’encodage de cette couleur doit se faire en binaire pour que l’ordi puisse la manipuler. Le modèle le plus simple de couleur est le RGB : pour désigner une couleur on la décompose en rouge/vert/bleu avec une certaines teneur de chaque représenté par un nombre. La couleur est donc représentée comme 3 nombres codés en 24 bits (chacun 8 bits cad 256 valeurs différentes = 2 exposant 8) cad 256x256x256 = 16 777 216 couleurs différentes. 15 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 Dans l’ordinateur, les images sont stockées sous forme compressée. C’est possible car les images qui intéressent l’humain présented des motifs, corrélations, répétitions. Il y a deux types de compressions d’images numériques : Compression sans perte : permet après compression/ décompressionn de retrouver exactement l’image originale Compression avec perte : simplifie image originale et oublie parte simplifiée. On distingue 2 types de formats : Propriétaire/ natifs : produits par une applicaton particulière et ne peuvent être lus par celle-ci ou par un nombre limité d’autres applications. Formats standards : conçus pour être lus et échangés par plusieurs applications différentes. Certains formats proprio deviennent des standards de facto car ils ont le monopole du marché : PDF est à l’origine une création Adobe qui a finalement été converti en standard ouvert par la publication de ses spécificités par ISO. Ex : TIFF (sans perte d’Adobe), BMP (sans perte de Microsoft), PNG (sans perte ouvert), JPEG (perte avec algorithme complexe). La résolution est quant à elle le nombre relatif de pixels qu’on utilise pour représenter le doc par une unité de longueur. Exprimée en dots per inch (DPi) : dans une image de résolution 300 Dpi il y a 300 pixels utilisés pour représenter un pouce (2,54 cm). Plus il y a de pixels, plus la résolution est précise. C’est une mesure linéaire : Dans une image de résolution 400 Dpi il y a 4X plus de pixels que dans une image de résolution 200 Dpi. L’information de la résolution n’a de sens que si on considère l’image numérique en comparaison avec une image réelle. 5.4.2 Images vectorielles. Les images vectorielles consistent en des listes d’objets géométriques dont les attributs (couleur, position, …) sont définis individuellement sous format texte. Le logiciel trace donc les objets géométriques d’après les instructions contenues dans le fichier. Pas de pixels, sont utilisés pour les logos, graphiques, cartes, etc. Pour la modifier il faut un logiciel de dessin vectoriel (Adobe, Illustrator ou Inkscape). Le SVG est un format vectoriel basé sur XML et spécifié par le W3C, consortium du web. En SVG le format d’image est du texte : balises SVG codées en XML. 5.5 Métadonnées 5.5.1 Standardiser les métadonnées. Une métadonnée est une donnée qui décrit une autre donnée, méta désigne un niveau supérieur d’abs- traction. Une métadonnée peut également avoir des métadonnées à propos d’elle. Ce sont comme des étiquettes qui renseignent sur le titre, sujet, auteur, … des documents rédigés depuis des siècles. Un image numérique sans métadonnées est inexploitable. Il faut standardiser les métadonnées car problèmes de sémantique sinon. La standardisation permet l’interopérabilité entre des collections différentes et hétéro- gènes. DifÏcile à mettre en place car chaque projet porte un regard différent sur les données qu’il utilisé. Les bibliothèques, les musées et les centres d’archives n’ont pas le même objectif. Bibliothèques : décrivent des ouvrages dont il existe un grand nombre de copies identiques donc pour rationnaliser les efforts de catalogage elles ont construit un réseau d’échange de notices biblio- graphiques (format MARC). Elles utilisent le modèle tabulaire car ce sont des données simples qui ne risquent pas d’être modifiées souvent. 16 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 Musées : Unicité des pièce donc portent leur attention sur les caractéristiques particulières de collections. Les musées déploient moins d’effort dans la standardisation et échange de données. Existe quand même des standards avec la norme CDWA qui propose des lignes directrices pour la description d’art. Base de données relationnelle. Centres d’archives : volume important de documents très différents mais qui ont tous été produit ou collectés par la même organisation/personne. S’intéresse à la structure de l’archive, pas à la description précise des objets. Un archiviste dressera un inventaire des caractéristiques du fond dans sa globalité et ensuite descendra au niveau des dossiers et sous-dossiers. L’EAD est un standard crée pour décrire les doc d’archives en XML. 5.5.2 Dublin Core. Intéressant d’Identifier un ensemble limité de caractéristiques communes aux objets décrits. 1995 experts reprennent 15 éléments sous le nom de Dublin core : titre, créateur, sujet, description, éditeur, contribu- teur, date, type, format, identifiant, source, langue, relation, couverture, gestion des droits. Grâce a ce schéma on peut relier au travers de multiples systèmes d’infos des données structurées. Il existe des notices d’autorité qui donnent une orthographe de préférence pour les noms de personnes, collectivités, titres, etc. dans le but d’éviter les variations quand on complète les champs. Le projet VIAF agrège un grand nombre de notices d’autorité de différentes bibliothèques nationales. 5.5.3 Vocabulaire contrôlé. Développé pour l’intelligibilité de la description du contenu d’un doc ou d’un objet patrimonial. Il y en a différents types : 17 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 Vedettes-matière : vocabulaire homogène dans sa forme et univoque dans son utilisation, tout en multipliant les points d’accès aux termes retenus à parti des termes exclus grâce à des renvois d’équivalence. Pour cela un descripteur (référence choisie) = un seul concept et tout concept = un descripteur. En parlant d’un concept, le vedette matière va nous dire le bon vocabulaire et une liste d’équivalence. En France il y a la notice RAMEAU Les thésaurus : les concepts sont représentés par des termes, organisés de telle manière que les relations entre les concepts son rendues explicites, et les termes préférés sont accompagnés de synonymes. EuroVoc pour l’union européenne. La création de ce vocabulaire contrôlé se passe en 3 étapes : collecter et normaliser du vocabulaire + établir des relations sémantiques + présentation structurée. Les relations peuvent être hiérarchiques (BT >, NT< ), équivalentes (UF) ou de proximité (RT). Classifications : DDC est à la base de l’organisation physique des livres dans une bibliothèques. Classifie d’abord dans 10 thèmes différents (correspond au premier chiffre des 3), puis 10 sous thèmes dans chaque (2ième numéro), etc en étant de plus en plus précis. Inconvénients : couts, complexité pour décrire un doc avec ce vocabulaire contrôlé pour l’utilisateur final, lenteur des mises à jour (changements dans la réalité), subjectivité. 5.5.4 Problématique des métadonnées. Leur création est un processus complexe et long. C’est un volet onéreux dans les budgets de numérisation. De plus c’est une tache peu gratifiante déléguée aux stagiaires ou personnel administratif. Depuis quelques années est née l’exigence d’obéissance au principe FAIR. C’est-à-dire avoir des métadonnées correctes facilement trouvables. Pour pallier les problèmes plusieurs pistes de solutions : Sous-traitance : une des solution à court terme est d’acheter à des prestataires privés des notices par exemple. Le rétro-catalogage et encodage manuel est souvent délocalisé en Europe de l’Est ou en Afrique. Génération automatique de métadonnées : extraire le texte d’un document imprimé stocké sous forme d’image via logiciel de reconnaissance optique de caractères (OCR). Permet d’effectuer des recherches full-texte et donc d’utiliser des outils de « text mining » qui savent détecter les thèmes, auteurs, date, etc. Taux erreur élevé mais possible corriger certains erreurs après. Logiciel peut faire pareil avec des docs manuscrits mais avec un taux de correction moins bon. Existe même dans d’autres secteurs la possibilité d’extraire des info automatiquement d’images sans texte. Crowdsourcing : Les utilisateur remplissent eux même les métadonnées (ajout de mots clés ou commentaires dans les bases de données) 6 Analyser le contenu 6.1 Introduction. Roberto Busa décide en 1941 de stocker sur des fiches manuellement tous les mots et dans une œuvre et leur utilisation dans celle-ci. Plus tard le projet se développe et repose sur l’utilisation de cartes perforées. Il est considéré comme le père des humanités numériques en tant que pionnier de l’utilisation de l’ordinateur pour traiter automatiquement des données issues des SHS. 18 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 Nous allons analyser les résultats de 6 articles scientifiques issues de recherches en humanités numé- riques dans des disciplines différentes et exposer les techniques mises en œuvre pour obtenir celles-ci. Pour chaque cas il s’agira de méthodes diverses. Il faut en retenir les éléments suivants : sur quel genre de données elle se base, quel est son but,quel est son principe général, quel genre de résultat elle renvoie ?? 6.2 Cafiero et camps, « Why Molière Likely did write his plays » 6.2.1 Problématique. Cafiero et Camps s’attaquent à la question de savoir si c’est Molière qui a écrit ses pièces ou s’il s’agissait en réalité d’un porte-plume, Pierre Corneille. Des auteurs avaient avant cela afÏrmé (de manière qualitative pour Louys et quantitative pour les Labbé) que corneille était l’auteur de la majorité des pièces attribués à Molière. Ils vont essayer de répondre à deux hypothèses : corneille à tout écrit lui-même et Corneille à versifié les textes de Molière. L’adaptation des pièces étrangère déjà existantes et style codifié de l’époque rend l’analyse plus com- plexe. Cependant l’analyse est facilitée par la liste réduite de porte-plumes (Corneille ou son frère). 6.2.2 Données. Rassemblement de 2 corpus sifférents de comédies en vers : Un étendu avec des pièces d’auteurs postérieurs a ceux étudiés pour tester la validité de la méthode. Celui-ci à permis de rendre compte qu’il n’était pas pertinent de mettre sur le même pied des pièces de sous-genre différents. Corpus réduit avec des pièces de nos auteurs et 3 autres destiné à répondre à la question de recherche. Les auteurs ont mis à disposition leurs données, ainsi que les scripts utilisés pour obtenir les résultats, rendant ainsi leur analyse complètement transparente. Permet la reproductibilité. 6.2.3 Méthodes. Comparer les pièces entre elles et voir lesquelles sont similaires au niveau du style (pas du contenu). On représente chaque pièce mathématiquement et essaye de montrer que les pièces de Molière sont proches les unes des autres. La technique est de calculer la distance qui sépare chaque couple de pièce pour ensuite former des groupes de pièces proches. Pour calculer la distance entre deux pièces, on représente celles-ci par des vecteurs en comptant par exemple lesfréquences de tous les mots qui y figurent. Deux vecteurs proches donnent des petites distances et inversement. Il est possible d’étudier toutes sortes de caractéristiques des textes étudiés, pas seulement les fréquences des mots. Ici ils ont comparé les pièces avec les fréquences des mots, des lemmes (mots sans accords) mais ce n’était pas efÏcace car ramenait plus aux mêmes sujets. 19 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 Également avec la fréquence des lemmes situés aux rimes, afÏxes (groupes de 3 caractères), groupes de trois POS (verbe+détemrinant+adjectif), des mots vides. Toutes ces recherches ont mené au même résultat. Une fois les distances calculées il faut regrouper les plus proches via l’algorithme de partition- nement hiérarchique. On obtient des dendrogrammes qui regroupent les pièces sur base des distances. Les résultats sont unanimes, les pièces de Molière sont dans un même groupe et séparés de celles des autres auteurs. 6.3 Stoddart et al., « Patterns of Etruscan Urbanism. » 6.3.1 Problématique. Étude de l’implémentation de centres urbains étrusques à Rome durant l’Age de fer : les cités états les plus importantes, les influences dans le temps, les relations entre centres et avec les campagnes. 6.3.2 Données. Conjugue 2 types d’infos : des donnés relatives aux centres urbains et des données relatives aux espaces ruraux de l’Etrurie. Les sites étudiés sont des lieux d’habitation permanant qui correspondent à 3 périodes différentes. Ce sont des données archéologiques qui informent sur les surfaces des sites et dos données géographiques sur l’élévation du terrain. Ici aussi les auteurs mettent à disposition une partie de leurs données ainsi que le script utilisé pour obtenir les résultats. 6.3.3 Méthodes. Point de départ est de délimiter les territoires pour chaque centre urbain qui correspondent aux régions sur lesquelles ils ont de l’influence. Utilise modèle XTENT, généralisation de la décomposition de voronoi. Processus mathématique qui permet à partir de points-bases d’obtenir des cellules telles que : 20 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 Chaque point base est dans une seule cellule. Chaque cellule renferme l’ensemble des points du plan qui sont les plus proches du point-base de la cellule que des autres point-bases. Cette décomposition de veronoi présente quelques inconvénients quand il s’agit de l’appliquer à des centres d’activité humains et leurs zones d’influence : Calcul à vol d’oiseau or plus pertinent en termes de durée de voyage. Ne prend pas en compte la taille des centres et donc des influences différentes. Considère que la seule limite à une influence est la distance. Le modèle XTENT quant à lui utilise les données géographiques d’élévation pour estimer l’énergie dé- pensée pour se déplacer d’un lieu àl’autre. Si la taille d’un centre est importante, son influence sur les points proches de lui est grande ; Si un point est éloigné d’un centre, l’influence de celui-ci est petite sur ce point ; À partir d’une certaine distance, l’influence d’un centre devient nulle. Si l’influence de tous les centres par rapport à un point est égale à zéro, ce point ne sera attribué à aucun territoire et sera considéré dans une zone tampon. XTENT produit pour chaque centre urbain une liste de sites considérés comme faisant partie de son territoire. Avec cela, 3 analyses quantitatives sont effectuées 21 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 1. Histogrammes des tailles des sites : L’objectif est d’analyser la répartition des tailles des sites appartenant aux territoires pour savoir si il y en a seulement 1 ou plusieurs grands sites, si il existe des tailles moyennes, …On trace des histogrammes : découper l’intervalle de toutes les tailles et représente le nombre de sites qui font tel ou tel taille. 2. Analyse rang-taille : Comparer la distribution de la taille des sites avec la distribution de zipf. C’est une distribution théorique selon laquelle quand on classe les sites par taille : Donc la taille du site le plus grand est le double du deuxième site, le triple du troisième, etc. Est une règle qui marche bien pour les distributions de taille des systèmes urbains modernes mais moins bien pour celles de sites archéologiques. On représente donc la relation entre la taille des sites et leur rang mais en faisant subir une transformation : 22 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 A : Dans la loi de zipf le site de premier rang est égale à 5O, le 2 ième 25, 4 ième 12,5, Etc. B : au dessus de la loi de zipf car le deuxième site est plus grand qu’attendu. C : situation de préminance car les villes qui suivent celle de premier rang ont une plus petite taille qu’attendue D : situation intermédiaire avec 1 grande ville et plusieurs médianes. Fig. 1 : On peut calculer l’écart avec la loi zipf ainsi A = A1 3. Mesure de la centralisation régionale. : Apporter de l’information sur l’organisation spatiale des sites à l’intérieur des territoires. Savoir à quel point les sites d’un territoire sont proches du centre ou fort éloignés via des cercles concentriques autours du centre. On compte la proportion de la population du territoire dans chaque disque. On définit ensuite un indice decentralisation : B=0 s’il y n’y a pascentralisation, B= 1 si il y a centralisation. 6.3.4 Résultats. Évolution des territoires entre la période archaïque et la période post-archaïque. Les territoires s’étendent en cités états, s’autres stagnent et d’autres encore disparaissent. Des zones non influentes sont peuplées. Les centres du nord sont plus espacés sont plus espacés et l’évolution est moins rapide qu’au sud. Une comparaison avec les résultats qualitatifs obtenus avant est effectuée. Certaines conclusions ne concordent pas mais la majorités sont conformes aux précédentes conclusions. Peut-être expliqué par des limites de XTENT comme la non prise en compte des cours d’eau par exemple. Les historiogrammes nous apprennent qu’il y a beaucoup de petits sites et peu de grands centres. Suggère une situation de prééminence et centralisation. La centralisation régionale ne montre pas de tendance claires. Le paysage politique est celui d’une Etrurie morcelée en parcelles indépendantes et en compétition, contrôlées par des cités qui contrôle leur territoire. Les cités ont développé une identité propre. 23 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 6.4 Alfano, Higgins et Levernier, « identifying virtues and values through obituary data-mining. » 6.4.1 Problématique. Étude philosophique qui s’intéresse aux valeurs morales en s’intéressant aux notices nécrologiques. Dé- terminer les valeurs morales associées à une bonne vie en analysant ce qui a été dit à propos des morts. Sont des bonnes sources car mentionnent des qualités/personnalités, sont facilement accessibles et sont accompagnées de métadonnées sur les défunts. 6.4.2 Données. Divisé l’analyse en 3 études sur 3 corpus différents : Notices issues de 4 journaux américains, notices issues du new york times, notices qui mentionnent le nom de l’université d’un des auteurs dans la base de données obituarydata.com. Pour les notices de journaux on a extrait les termes qui exprimaient des valeurs et regroupés certains ensemble. Pour la troisième étude les mots ont été traités par ordinateur et les auteurs ont sélectionnés ce qui concernait des valeurs. 6.4.3 Méthodes. C’est l’interconnexion des valeurs qui compte, càd qu’elles sont mentionnées ensemble dans une même notice. Les auteurs ont fait appel à un ensemble de méthodes quantitatives d’analyse des réseaux basées sur la théorie mathématique des graphes : On défini des sommets qui sont les objets (valeurs ici) et on définit aussi les arrêtes, ce sont les liens/relations entre ces objets (apparaitre dans la même notice ici). Une fois le réseau construit on peut effectuer toute sorte de calculs et de représentations : varier la taille des sommets pour les différence de fréquence, la couleur pour les proportions de genres, la taille des arrêtes pour la différence de nombre de liens, …. La position des sommets est tout à fait libre, doit montrer la structure des liens le plus clairement possible. Il est utile d’ensuite effectuer un regroupement des valeurs à une échelle plus large que celle des couples de valeurs = clustering/partitionnement. Il s’agit alors de créer plusieurs communautés de valeurs où : il existe beaucoup de liens entre les valeurs d’une même communauté et ou il existe peu de liens entre les valeurs qui appartiennent à des groupes différents. 24 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 Le score de modularité est une métrique de statistique qui mesure à quel point ces deux règles sont respectées. Sur un graphe donné on peut rechercher quel est le partitionnement qui maximise ce score de modularité. 6.4.4 Résultats. Ils obtiennent une série de graphes, un pour chaque journal analysé. Dans the register guard les tailles des valeurs son liés au PageRank et la couleur au genre par exemple. Dans the Flint journal les couleurs représentent les communautés. En ce qui concerne les notices de ObituaryData, les sommets sont des groupes de valeurs et non des valeurs, les couleurs sont liées au pagerank, la taille des valeurs dépend du nombre de valeurs à l’intérieur Étude 1 : disparité des valeurs au niveau des villes mais surtout du genre (stéréotypes de genre mais aussi évocation de forme de résistance des femmes= tendance double et contradictoire) Étude 2 : peu de références à la famille, amitié, etc. Mais plutôt à descommunautés larges, accom- plissement intellectuels… Normal car journalistes qui écrivent les notices et souvent des personnes connues qui sont décrites. Étude 3 : Beaucoup de valeurs liées à l’érudition et la vie académique + références aux hobbies. 6.5 Dahllof, « Automatic Scribe Attribution for Medieval Manuscripts » 6.5.1 Problématique. Pour identifier un fragment à l’apparence commune d’un manuscrit, un long travail de paléographie et philologie doit être effectué. L’article propose donc une méthodologie de comparaison automatique de pages de manuscrits. Cella revient à une tache de classification : partir d’un ensemble de manuscrits dont les scribes sont connus et associer le fragment inconnu à l’un d’entre eux. Ici on a des pages dont l’historiographie est divisée : le fruit d’un seul scribe, copié par 2 différents ? L’outil aidera à trancher la question car il possède une innovation qui aide à lui faire confiance : l’expli- cabilité des prédictions effectuées. 25 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 6.5.2 Données. S’appuie sur un ensemble de 46 manuscrits disponibles sous forme numérisée dont il extrait 10 pages à chaque fois. De 3 périodes et régions différentes : 9ième, 15-16ième et 13-15ième. L’auteur met à dispo les données sur lesquelles il a travaillé. 6.5.3 Méthodes. L’outil d’attribution procède en 6 étapes. 1. Pré-traitement : avant d’être utilisées les images subissent des opérations telles qu’un recadrage, un redimensionnement et une binarisation (transformer les pixels colorés en noir et blanc) 2. Extraction des lettres : demander à l’ordinateur de repérer et d’extraire les groupes de pixels noirs attachés (=composantes connexes) qui correspondent aux lettre. On demande de coupe les lettres à l’endroit ou les traits sont les plus fins. 3. Calcul des densités : on va découper la lettre en une grille de 8x8 et ensuite on calcul la proportion de pixels noirs dans chaque rectangle = densité. On obtient ainsi une matrice 8x8 qui représente la lettre en question. On peut alors comparér 2 lettres en calculant la distance entre ces deux matrices. Elles sont proches si les densités sont proches càd si les pixels noirs sont situés aux mêmes endroits. 4. Attribution des lettres : On a extrait une lettre d’une page et on désire l’attribuer à un scribe parmi ceux connus. On applique l’algorithme des K plus proches voisins (= K nearest neighbors) : calculer la distance entre la lettre à attribuer et tous les lettres des pages connues, sélectionne les K lettres les plus proches de la lettre attribuée et la designer comme appartenant au scribe revenant le plus grand nombre de fois parmi les K lettres. 5. Attribution de la page : une fois que toutes les lettres ont été attribuées à un manuscrit on fait appel à un vote pour la page à attribuer, soit l’idée d’attribuer au scribe qui a obtenu le plus de lettres. 6. Visualisation des meilleures attributions : l’outil génère une page html avec un tableau don- nant, pour la page à attribuer, les meilleurs attributions de lettres : mettre les 2 lettres l’unes à coté de l’autre, noter la distance, remettre en bleu les pixels qui ont été binarisés. Ensuite la couleur de fond de la case indique beige si l’attribution de la lettre est la même que celle de la majorité des lettres = explication claire des prédictions. Pour vérifier l’éfÏcacité de l’outil, l’auteur utilise un procédé de validation croisée (=cross validation) : On divise les manuscrits des scribes connus en 2, les pages pour lesquelles on conserve l’info du scribe et d’autres pour lesquelles on oublie cette info. On utilise nesuite l’outil pour attribuer automatiquement les scribes des pages obliés sur base des pages conservées. 26 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 6.5.4 Résultats. Les résultats d’attribution des lettres sont médiocres MAIS la procédure de vote fonctionne très bien car 98,3% des pages sont correctment attribuées. Il en resort qu’il y a 2 scribes différents pour le manuscrit en question. La confusion peut venir du fait que les pages des 2scribes se ressemblent fort, en effet les attributions de lettres ne sont pas toutes correctes. 6.6 Mayaffre et Pudat,« Quantitative approaches to political discourse : cor- pus linguistics and text statistics. » 6.6.1 Problématique. S’intéressent aux discours publics des présidents de la cinquième république française et à la place qu’ils ont chacun attribués à l’Europe dans ceux-ci. 6.6.2 Données. 2 corpus de textes : les discours de Sarkozy à la télé de 2007 à 2010, les discours des présidents de la cinquième république entre 1958 et 2010 (De gaulle et Sarkozy). Pas oublier qu’un corpus est un artefact, pas un objet naturel, une série de choix est donc effectuée ainsi que des hypothèses de travail. 6.6.3 Méthodes. 1. Plusieurs outils de statistiques textuelles et de linguistique de corpus : L’indice de spécificité de Lafon pour découvrir si certains présidents utilisent le mot « Europe » plus que d’autres : On calcule la fréquence du mot dans tous le corpus, la fréquence du mot chez le président A, on compare ces deux fréquences et on calcul la probabilité d’observer une fréquence au moins aussi extrême que celle chez A. Ensuite on prend le logarithme en base 10 de cette probabilité et on donne le signe + au résultat si le mot est plus fréquent chez A que dans le corpus entier (et inversement avec -). Plus l’indice est éloigné de 0, plus la probabilité d’observer une fréquence au moins aussi extrême est petite,et donc plus le cas de A est particulier par rapport aux discours des autres présidents. On considère qu’un indice de spécificité plus grand que 2 ou plus petit que -2 indique une particularité notable. 2. Technique factorielle : l’analyse factorielle des correspondances (AFC) qui se base sur une table de contingence (nombre de fois ou un président utilise chaque mot). L’AFC produit un biplot, graphique qui représente conjointement présidents et mots. Les mots proches signifient qu’ils sont utilisés par les mêmes présidents, les présidents proches utilisent les mêmes mots et les présidents/mots proches signifie spécificité de relation. 3. Analyses de co-occurrences du mot « Europe » c-à-d déterminer les mots qui sont utilisés le plus souvent « dans les environs » du terme étudié. Pas oublier que les analyses qualitatives sont com- plémentaires des quantitatives, elles ne se remplacent pas. 27 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 6.6.4 Résultats. Le mot Europe figure à la septième position dans la liste des noms utilisés par Sarkozy. Mais l’indice de spécificité Lafon montre qu’il utilise moins que les autres présidents (Mitterrand le plus). Giscard quant à lui est très négatif, cela veut dire qu’il n’utilise presque jamais le mot. Sarkozy et Mitterrand on parlé tous les 2 de l’Europe mais avec une teinte différente, visible grâce à la co-occurrence des mots. 6.7 Zalkow, Weiss et Muller, « Exploring Tonal-Dramatic relationships in Richard Wagner’s ring cycle. » 6.7.1 Problématique. Analyse de la pratique de leitmotivs dans l’Anneau du Nibelung de Wagner. Il s’agit de thèmes musicaux courts qui représentent des persos, lieux, objets, sentiments, Effectue donc des analyses tonales via des outils numériques de visualisation et d’exploration de l’œuvre. 6.7.2 Données. Travailler à partir de partitions dans le cadre d’une analyse automatisée est difÏcile. Les auteurs uti- lisent donc 16 enregistrements de représentations de l’œuvre. L’ensemble des techniques qui permettent d’extraire l’info des formats audio sont appelées Music information retrieval (MIR) 6.7.3 Méthodes. Procédure longue et complexe de traitement des données : Aligner les enregistrements car la même mesure n’est pas tjr jouée en même temps. Ils divisent 3 enregistrement à la main mesure par mesure et utilisent des techniques de synchronisation pour annoter les 13 autres. Les 21 941 mesures peuvent être annotées de différentes façon : identité du perso qui chante, type de voix, identification des leitmotivs, etc. Pour chaque mesure on identifie les principaux accords qui transparaissent. Comme les accords peuvent se superposer le résultat est une série de probabilités associées à chaque accord. On fait de même avec les gammes musicales. On met les moyennes d’utilisation des gammes et accords sur un graphique. 6.7.4 Résultats. Le graphique donne le profile moyen des accords de la tétralogie : l’œuvre utilise un éventail large d’accords avec une prédominance du Do. On peut ensuite comparer les graphique obtenus avec deux ensembles d’enregistrements différents : les différences peuvent être gommées en considèrent simultanément plusieurs de ces enregistrements., permettant de ce concentrer sur les caractéristiques de l’œuvre elle-même. On peut aussi comparer les accords lors de différences de personnages, d’ambiance. Les caractéristiques des mesures pendant lesquelles les leitmotivs sont exprimés sont aussi analysées. Le valhalla apparait dans un contexte tonal bien spécifique. 28 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 7 Valoriser les résultats. 7.1 Introduction. Jusqu’au milieu du 17ième siècle la diffusion du savoir scientifique était très lente car les scientifiques exerçaient un autre métier en plus, étaient autodidactes et travaillaient de facon isolée. On compte de nombreuses découvertes effectuées parallèlement et indépendamment par les chercheurs différents ce qui questionne parfois la paternité de certaines œuvres. Henry Oldenburg est un scientifique Allemand qui publie en 1665 ses lettres de correspondance dans le premier numéro des périodiques « philosophical Transactions ». Ce journal contient des articles sur l’optique, l’astronomie, la bio, la géologie, …Ils jugent opportun d’utiliser la presse comme moyen de partage de savoirs et découvertes aux chercheurs/producteurs. L’objectif est de favoriser les essaies, recherches, transmissions, améliorations. Journal à succès au début mais avec des bénéfices qui ne sont pas à la hauteur de ce que Oldenburg espérait. La Royal Society, dont il est le secrétaire, fait de ce périodique son bulletin ofÏciel. Il s’agit du plus ancien périodique scientifique encore en activité. 4 rôles pour la revue : Enregistrer l’auteur et la date de découverte. Disséminer les découvertes Archiver les lettres présentant les découvertes. Certifier les articles/ouvrages scientifiques. Pour la certification il invente le peer reviewing : faire vérifier par des experts du domaine. 7.2 Outils de rédaction scientifique. 7.2.1 WYSIWYG & WYSIWYM L’étape finale d’un projet de recherche est la publication du résultat obtenu. On peut classer les logiciels de rédaction en 2 familles : WYSIWYG : what you see is what you get. Ce qui apparait à l’écran correspond à ce que sera le doc imprimé (microsft word, libre ofÏce writer, abiword, …). Est un logiciel facile qui ne demande pas un apprentissage important. Mais plus difÏciles quand il faut manipuler un doc de grande taille ou inclure des formules/références bibliographiques. Autre inconvénient est le format du fichier, chaque logiciel en utilise un différent qui change parfois avec les versions. Pour finir peuvent inclure des virus, prennent place importante de la mémoire vive et prennent décisions en toile de fond. Mélange 2 activités d’écriture : la rédaction et la mise en page, or il est essentiel de les distinguer comme nous l’avons vu avec le balisage HTML. Le format docx est une archive ZIP (compressée) dans laquelle on retrouve un fichier XML, les images du doc, etc. L’interface de Word sert à modifier le document XML. WYSIWYM : what you see is what you mean. Ces logiciels permettent d’effectuer un découpage entre le contenu et la mise en forme à l’inverse des logiciels WYSIWYG. Les fichiers sur lesquelles l’utilisateur travail sont des fichiers texte, ils sont donc légers à stocker, à manipuler et facile à partager. 29 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 7.2.2 LATEX LaTeX est un logiciel de rédaction WYSIWYM crée en 1977 par Donald Knuth et étendu en LaTeX par L. Lamport en 1983. Principe de séparation du fond et de la forme : encourage le rédaceur à se concentrer sur le contenu et la structure logique tandis que la mise en page est laissée au compilateur. En LaTeX on indique simplement qu’il s’agit d’un titre de niveau x et le système se charge d’assurer la meilleure ergonomie possible du doc (balisage). Rédigé en fichier texte (extension tex) et éventuellement fichier de style. Ensuite le code source (texte d’instruction lisible par humain) est traité par le compilateur (transformer le code source en code objet/machine) de LaTex pourproduire un document mis en forme (Ex : en PDF). Fonctionnalités énormes grâce à la possibilité de créer ses propres environnements, mais nécessite la connaissance de certaines balises (ouvrantes et fermantes). C’est un logiciel utilisé universellement pour taper des docs de sciences exactes car gère bien les formules et diagrammes. Aussi pratique pour les références bibliographiques (autonome en fonction des notes en base de page). Toute la mise en page (titres de sections jusqu’à la biblio) est contenue dans un/des fichier(s) sty : un même fichier tex peut donner des résultats différents si on change le fichier sty qui l’accompagne. 7.2.3 Markdown. Langage WYSIWYM crée en 2004 par john Gruber qui a pour objectif de faciliter la miseen ligne du contenu sur le Web sans utiliser les balises HTML. 30 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 7.2.4 Travail collaboratif. Intéressant de pouvoir bosser simultanément quand il s’agit d’un travail collaboratif. Possible avec google Doc ou ShareLaTex et Overleaf pour LaTex. Il y aussi des logiciels dédiés uniquement aux colabs : GIT permet de travailler en même temps hors connexion sur un même fichier tout en assurant une gestion des versions. Conserve copie centralisée, détecte les modifications apportées et adapte le doc maitre en conséquence. Existe la plateforme GitHub ainsi que l’application. 7.2.5 Gestion des références bibliographiques. Plutôt que de copier-coller les références directement dans le doc de rédaction on peut faire usage d’un logiciel de gestion dédié comme Endnote, BibTex ou Zotero. Ils gèrent toutes les références comme une base de données et permettent de les insérer intelligemment dans le document rédigé (plugins pour word, cite dans LaTex). 7.3 Paysage de la publication scientifique. 7.3.1 Format de publication. Une fois qu’on a rédigé il faut publier. On distingue plusieurs : revues scientifiques, comptes-rendus de congrès scientifiques, ouvrages collectifs, monographies. Les usages de ces formats dépendent fort des disciplines. 7.3.2 Le marché des revues scientifiques. Premières revues étaient attachées aux premières institutionsscientifiques pendant la seconde moitié du 17ième siècle. Le nombre de publications est en croissance exceptionnelle. L’activité d’édition scientifique est rapidement devenue un secteur commercial. Le processus de publication d’une revue à comité de lecture se passe ainsi : 1. Le chercheur soumet son article à la revue 2. L’éditeur en chef de la revue sélectionne des experts du domaine concerné comme électeurs. 3. Chaque relecteur produit un rapport avec remarques et ensuite donne son avis global sur la qualité. 4. L’auteur est averti et si nécessaire renvoie une version corrigée. 5. L’article est publié dans le prochain numéro. L’accès à ces revues est extrêmement cher pour les bibliothèques universitaires. Certaines obligent même à acheter des bouquets pour avoir accès. Les auteurs quant à eux doivent parfois payer des frais de traitement des articles pour être publiés. On voit vite apparaitre des sociétés éditions de grande envergure accaparer les parts du marché : situation qui se rapproche d’un oligopole. Il y a de moins en moins de diversité dans les éditeurs. 31 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 7.3.3 L’arrivée d’Internet. La communauté scientifique espérait que cella baisserait le prix des abonnements, or c’est l’inverse qui s’est produit. Dernières années on a vu des bibliothèques refuser la tyrannie des maisons d’édition et couper la collaboration avec les géants. Les institutions qui ont franchies le cap encouragent les autres à faire de même. Il existe des alternatives : Articles en Open Access. Lire et télécharger sans frais. L’argent pour payer les couts éditoriaux vient alors par du financement publicitaire, levées de fonds, par les auteurs eux-mêmes, vente d’une deuxième version cette fois payante. Certaines revues s’organisent en conglomérats pour effectuer des économies d’échelle. 7.4 Carnet de recherche en ligne. 7.4.1 Encoder en HTML et CSS. Possible de publier les résultats en ligne plutôt que dans des revues scientifiques. De nombreux carnets de recherche ont vu le jour, sur la plateforme hypothèses.or par exemple. 2 possibilités pour publier sur le web : Direct en html/css ou utiliser un CMS. Html est utilisé pour le contenu à publier, css pour le format que le navigateur web appliquera au contenu du fichier html. Avantages : propreté du code généré et grande flexibilité Inconvénients : nécessite de connaitre ces langages et les balisages et obligation de se replonger dans le code quand une modification de contenu est effectuée. 7.4.2 Encoder à l’aide d’un CMS Logiciels qui permettent de concevoir des sites web en passant par une interface ne nécessitant pas de code. Les sites crées sur ce modèle partagent la même structure : le contenu du site est stocké dans uns ensemble de tables (modèle relationnel) et quand le navigateur envoie une requête au serveur qui héberge le site, un script génère la page demandée en extrayant les info nécessaires des tables de la base de données et en les rassemblant dans un fichier html. Les CMS les plus utilisés sont WordPress, Drupal et Joomla. 7.4.3 Gérer une collection numérique avec Omeka. Logiciel de gestion de bibliothèque numérique qui permet de publier celle-ci facilement sur le web comme n’importe quel site avec CMS. Développement commence en 2007 distribué gratuitement sous License libre pour que n’importe quelle institution culturelle puisse l’utiliser. Fonctionne avec une base de données MySQL exploitée par des scripts php. 7.5 Hébergement. 7.5.1 File Transfer Protocol. Il faut déposer son site sur un serveur pour qu’il soit dispo sur le web. Contracter abonnement chez un service privé. On dépose notre fichier sur le serveur par le FTP par exemple à l’aide d’un logiciel comme FileZila. 32 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 7.5.2 Evolution de l’hébergement. 1960 entreprises se dotent de mainframes (ordi centraux voluminaux) sur lesquels sont stockées toutes les données et effectués les calculs. 1970-80 apparition des microprocesseur avec les micro-ordinateur ce qui fait passer les mainframes au second rôle de data center. 1980-90 les besoins de serveurs explosent mais façon d’utiliser n’était pas efÏcace. Cette situation mène à l’apparition du cloud computing en 2000. 7.5.3 Cloud Computing. Un fournisseur donne accès par internet un ensemble de services à ses clients (serveurs, espace de stockage, logiciels, …) Se paye à l’usage de la même manière que l’électricité, paye que ce qu’on consomme. De son coté le fournisseur mutualise les différents besoins de ses clients. Ex : Dropbox, google drive, iCloud, OfÏce 365, One Drive, … On range généralement ces accès en trois grandes catégories de services, en fonction des éléments qui sont mis à disposition 7.6 Valoriser dans le respect du droit. 7.6.1 Le droit d’auteur. Est un ensemble des droits que détiennent un auteur sur les œuvres qu’il a produites. On y trouve les droits moraux et droits patrimoniaux. Il dure 7O ans en Belgique après le décès puis tombe dans le domaine public. Le droit d’auteur connait des exceptions en ce qui concerne la recherche (droit de citer) et les institutions culturelles (copier œuvre et diffuser à l’intérieur). Il existe des licences libre qui donne un droit de copie/modification/redistribution. 33 Téléchargé par Raya Younoussova ([email protected]) lOMoARcPSD|20640423 7.6.2 Droit à l’image. Droit de s’opposer à l’utilisation de son image peu importe la destination que l’utilisateur veut en faire. Des exceptions règlent le problème de collections en ligne : présence de la personne est fortuite, apparait dans une foule, personnalité publique dans l’exercice de ses fonctions. 7.6.3 La protection de la vie privée. Pas publier des données qui contiennent des informations personnelles sauf : infos relatives à des faits ou personnes publics et dans le cadre de la recherche scientifique et historique. 7.6.4 Licenses libres. = auteur abandonne une partie de ses droits d’auteur en laissant 4 droits aux utilisateurs : liberté utiliser, étudier, copier et modifier/redistribuer. Libertés parfois soumises à des conditions parfois : Certaines licences empêchent les utilisateurs de changer la licence sous laquelle elle est distribuée = Copyleft. C’est l’idée qu’une œuvre est diffusée à condition que les conditions de sa diffusion restent inchangées. 34 Téléchargé par Raya Younoussova ([email protected])