Dataverwerking SV PDF
Document Details
Uploaded by RoomierLarimar3336
KU Leuven
Tags
Summary
This document covers various aspects of data processing, including how computers work, data analysis for humanities, web technologies, and future trends. It explores historical computing concepts and modern computer architectures, such as CPUs, memories, and I/O systems.
Full Transcript
Les 1: Computers hoe werken ze? =============================== 1. Computers hoe werken ze? 2. Data voor geesteswetenschappen 3. Analyseren van tabelgegevens 4. Analyseren van tekstuele gegevens 5. Het web: hoe werkt het? 6. Toekomstperspectieven 1. Inleiding 2. Data cleaning + inlei...
Les 1: Computers hoe werken ze? =============================== 1. Computers hoe werken ze? 2. Data voor geesteswetenschappen 3. Analyseren van tabelgegevens 4. Analyseren van tekstuele gegevens 5. Het web: hoe werkt het? 6. Toekomstperspectieven 1. Inleiding 2. Data cleaning + inleiding tot reguliere expressies : vrijdag 4 oktober 3. Inleiding tot statistieken : dinsdag 29 oktober 4. Structuur van het Wereldwijd web : Dinsdag 19 november - Abacus - Gebruikt om te tellen - Telraam of rekenrek - Voorloper van rekenmachine en computer - Romeinse tijd - Antiktyhera mechanism - Positie van zon/maan/planeten kon tonen - Weg te vinden op de zee - Complex systeem van bronzen tandwielen - Berekenen van de zonsverduisteringen - 2de eeuw voor Christus - Navigatie - Gevonden in 1901 op het Griekse eiland Antikythera - De term komt van \'digits\' in het Engels - Afgeleid van Latijnse Digiti dat aangaf dat vingers werden gebruikt voor te tellen - Een signaal dat niet digitaal is is **analoog** - **Digitaal staat tegenover analoog** - Geluid, temperatuur = analoog - Licht **(on - of)** = Digitaal - FM radio = analoog (geluid) - HDMI = digitaal (on-of) - Platenspeler = analoog (geluid) - Bluetooth = Digitaal (on-of) - Processor : CPU - Geheugen : Memorie - I/O systeem - Systeemsoftware - Applicatiesoftware - Programmeertaal - Hij was lid van Manhattan Project, verantwoordelijk voor de ontwikkeling van de atoombom in de VS - Urgente behoefte aan machines voor snelle en intensieve berekeningen - Besprak dit met 2 makers van de toen gebruikte machine : ENIAC - Machines toen geprogrammeerd voor 1 type zaak : elektronische rekenmachine - Ideeën die al in de jaren voor de **Tweede wereldoorlog** circuleerden - Document van Von Neumann circuleerde in **1945** - Idee om een computer te hebben die zowel **gegevens** als **instructies** kan **opslaan** - De eerste computers die deze architectuur implementeerden, verschenen aan het einde van de jaren \'40 - Het document had alleen zijn naam daarom praten ze alleen over Von Neuman 1. **CPU** : Central Processing Unit (Processor) 2. **Memorie** : geheugen 3. **Input/output systeem** : I/O systeem 1. **ALU**: brein van de CPU, voert alle logische en rekenkundige operaties uit (arithmetic logic unit) 2. **Register**: klein aantal gegevens om de operaties te doen, opslag van gegevens en opslag van tussenstappen 3. **Besturingseenheid**: organiseert alles - we moeten de registers informatie sturen, beheert het hele proces, regelt informatiestroom tussen ALU en registers -- welke gegevens worden er gebruikt- welke stappen moeten er gebeuren? Op het einde stuurt het ALU het antwoordt ook terug naar het register zodat het daar ook kan opgeslagen worden. Het begint bij besturingseenheid, dan register, dan ALU en dan eventueel terug register. Denk aan het voorbeeld van 5+3 - Multi core (één CPU met meerdere eenheden) en multi processor (veel CPU\'s op elkaar afgestemd) zijn nu de meest voorkomende architecturen - Het verdelen van onafhankelijke taken van het programma over verschillende cores, die vervolgens aan het einde van het proces worden gecombineerd - Mogelijk om verschillende apps samen te gebruiken - Voorwaarde van onafhankelijkheid: de input van de ene taak is niet de output van de andere en de output van de twee taken delen geen enkel element. - Verschillende processoren die in verbinding staan met het hoofdgeheugen - Denk aan een enkele doos (de CPU), waarin meerdere kleine rekenmachines (cores) zitten. - Deze cores kunnen onafhankelijk werken, elk een taak uitvoeren, maar delen dezelfde hulpbronnen, zoals toegang tot het geheugen - Graphics Processing Unit = elektronische schakeling die ontworpen is om de weergave van 3D graphics te verbeteren - Verschil CPU? GPU heeft meer transistors gewijd aan ALU en minder registers en besturingseenheid - Gebaseerd op parallel computing = meerdere berekeningen tegelijkertijd. - Parallel Computing maakt ze geschikt voor het verwerken van deep learning-algoritmen - Werken met 3D objecten - Posities weergegeven door matrices - CPU heeft beperkte capaciteit om grote hoeveelheden gegevens snel te verwerken - GPU heeft meer ALU\'s voor grotere gegevensinvoer - Minder besturingseenheden vanwege relatief eenvoudige taken Toepassingen van GPU\'s - Parallel Computing - Voor kunstmatige intelligentie (AI) - Cryptocurrency mining - Grote berekeningen om online transacties te vergemakkelijken **Primaire geheugen** - ![](media/image4.png)Direct aangesproken door de CPU - Bevindt zich op het moederbord - Registers maken deel uit van het primaire geheugen - Twee soorten : RAM en ROM - RAM = Random Access Memory - voor data die onmiddellijk wordt gebruikt, als je een programma of bestand opent dat wordt naar het RAM gestuurd; - SRAM - DRAM - ROM = Read Only Memory - Niet vluchtige info (blijft behouden) - Bevat permanente instructies voor de computer - Bevat BIOS (Basic input output system) het eerste programma dat wordt uitgevoerd bij het opstarten = vaste instructies. - HDD : Hard Disk Drive - Draaiende schijven en een lees/schijfkop - Grotere opslagcapaciteit - Langzamer - SSD : Solid State Drive - Flash-geheugen zonder bewegende delen - Stil en energiezuinig - Hogere kosten - Sneller dan HDD Keuze tussen HDD en SSD: - HDD - Geschikt voor het opslaan van grote hoeveelheden gegevens de zelden worden geopend - SSD - Geschikt voor snelle prestaties en frequentie toegang tot gegevens - Gebaseerd op het concept van mens-computerinteractie (HCI) : studie hoe we optimaal kunnen interageren met onze apparaten - Camera, toetsenbord, scanner, touchscreen, micro maken deel uit van het I/O systeem - Ergonomie en toegankelijkheid - Interactie met mensen is veel verbeterd : toegankelijk maken van digitale apparaten - BV visueel of lichamelijk gehandicapten (eyetracking, braille toetsenborden) - Ontwerpen voor comfort en gebruiksgemak - Toegankelijkheidsopties voor mensen met beperkingen - Output kan zowel materiaal als digitaal zijn : verschillende soorten output - Geluid, video, gedrukte teksten - Touchscreen - Verschillende apparaten - Eerste model: jaren 60 - Populair sinds: 2007: eerste IPhone - Het scherm wordt gebruikt voor invoer maar ook uitvoer - Output kan beelden zijn, haptische informatie (trilling) - Moederbord: - Alle belangrijke componenten van de CPU en het geheugen - Verbinding met I/O systeem mogelijk - Het **moederbord** is de fysieke basis die alle hardware met elkaar verbindt en ondersteunt. - Bussen - Verantwoordelijk voor de communicatie tussen de verschillende componenten - Transporteren gegevens, instructies en stroom tussen de CPU, geheugen en andere onderdelen - **Bussen** zijn de interne verbindingen die zorgen voor de communicatie en datatransport tussen de componenten op en rond het moederbord. Samen vormen ze het zenuwstelsel van de computer. - Programma\'s die we gebruiken zijn software - die in machines draaien - Software wordt vertegenwoordigd door 1-0 signalen in de hardware (geladen of niet geladen circuits) - Verschillende soorten software op basis van hun functie: - Systeemsoftware/besturingssysteem - Applicatiesoftware - Programmeertaal - Windows - MacOS - Linux - Operation system (OS)/ besturingssysteem : een programma waarmee de gebruiker kan communiceren met hardware en software op de computer - OS beheert de computer *Grafische gebruikersinterface (GUI) versus opdrachtregelinterface* - Twee manieren om met het besturingssysteem/ OS te communiceren - Grafische gebruikersinterface : GUI (Graphical User Interface) - Opdrachtregelinterface: CLI (Command line interface) - GUI: wijs en klik op het scherm wat u wil openen - visuele elementen - pictogrammen - Command line/opdrachtregel: je geeft directe commando\'s aan de computer - Linux gebruikers - Als je mkdir nieuwe\_map typt in een terminal om een nieuwe map te maken, gebruik je een CLI. - Beide interfaces werken samen met de software genaamd \'Shell\' - De shell is verantwoordelijk voor de communicatie tussen besturingssysteem en GUI/opdrachtregel - Shell vertaalt commando\'s naar het OS (besturingssysteem) - Het vertaalt de acties die jij uitvoert (bijvoorbeeld een klik of een commando) naar instructies voor het OS. - Drie OS die het meest gebruikt worden: Windows, MacOS, Linux - **Procesmanagement**: beheren van programma\'s die op de computer worden uitgevoerd - Drie mogelijke statussen - Actief - Wachtend - Gereed - Gaat om met programma onderbrekingen - **Scheduling**: maken van de wachtrij met processen voor de CPU - **Geheugenbeheer**: het image van het programma kopiëren in de harde schijf (swap space) & een deel in de RAM geladen - **Resourcebeheer** : beheert alle bronnen zoals CPU, geheugen...zodat elk programma toegang heeft tot de benodigde bron - **Bestandsbeheer** : openen, verplaatsen, verwijderen, hernoemen, kopieren - **Bescherming en beveiliging**: wanneer onderdeel van een netwerk en wanneer meerdere gebruikers - MacOs - Apple hardware - Eerste versie 1984 - Propriëtair system : Apple behoudt de rechten op het OS - Hoge continuïteit en consistentie - Windows (1985) - Propriëtair system - Kan door verschillende merken worden gebruikt - groot deel van de markt - 70% van de desktop en laptopcomputers - Windows 11 laatste versie - Softwarecompatibiliteit en ondersteuning voor verschillende hardware configuraties - Linux - Ontwikkeld: Linus Torvalds - Open sourse: iedereen kan het gebruiken - Servers en mobiele telefoons - Android is gebaseerd op Linux - Gratis - Veiligheid, flexibiliteit en prestaties - Programma\'s die we gebruiken - Word - Mozilla - OpenRefine - Geschreven door professionals, maar met kennis van coderen kun je je eigen scripts schrijven - Bepaalde taken uit te voeren - Naar het web te surfen - Muziek te luisteren - Videogames - Gesloten bron: - Geen toegang tot de code - Word,Excel, Chrome - Standaardoptie voor propriëtaire software - Open bron: - Gebruikers kunnen code kopieren, wijzigen en verwijderen - Geleverd met licentie die gebruik specificeert - Controle over wat het programma doet - Onzekerheid over wie verantwoordelijk is voor gebruikersprobleem en onderhoud - Samenwerking in de gemeenschap voor ontwikkeling en probleembeheer - Libre Office - Propiëtair - Software-uitgever behoudt rechten - Niet vrij herbruikbaar - Skype en adobe - Kan gratis verspreid worden - Vrij - Geen beperking tot wat de users doen met de code - Wijzigen, verspreiden... - Linux, LibreOffice - Webapplicaties - Draaien op een server - Webbrowser en actieve netwerkverbinding - Trager - Voordeel: onafhankelijk van welke computer je hebt - Native applicatie /lokale toepassingen - Draait op je OS - Geen internetverbinding - Moeilijker om samen te werken aan lokale programma\'s - Moet meestal aangepast worden aan verschillende platforms - Sneller - Python - Java -... - Kunstmatige taal om een machine (computer) te besturen - Begin: machinetaal programma, lijsten of 1 en 0 - Later meer mens-leesbaar - worden door compiler (programma) vertaald voor de CPU - Tekst analyse, data, bestandbeheer, beeldverwerking - R: - ![](media/image6.png)Statistiek - Gegevens analyse - Data visualisatie - Python - Veelzijdig - Taalkundeopleidingen - Gespecialiseerd in data-analyse en statistiek - Veel bibliotheken - Javascript - Web ontwikkeling - Zeer gevraagde vaardigheid - Meest gebruikt voor het coderen van interacties met webpagina\'s Hoorcollege 2 : data voor geesteswetenschappen ============================================== - Het **bit** : ofwel 1 - 0 - **Definitie Bit** = kleinste eenheid van informatie in de informatica. Een bit kan slechts 2 waardes aannemen. 0 of 1. Bits worden gebruikt om data te representeren zoals tekst, cijfers, afbeeldingen... Door meerdere bits samen te voegen kunnen complexere waarden worden gerepresenteerd. (ja of nee) - **De Klokspeed** : snelheid waarmee een processor instructies kan uitvoeren. Gemeten in Hertz. - Een punt op een punchcards - Elke kaart heeft rijen en kolommen - heeft een gat of niet - de aanwezigheid van een gat is een binaire waarde van 1 - afwezigheid van een gat is 0. Computers kunnen deze gaten lezen met een mechanische lezer. - Punchcards ging in de machine en de computer las dit - Claude Elwood Shannon (1916-2001), Vader van de informatietheorie, eerste definitie van het bit (1948) - **Electrical switch**: elektrische stroom kan aan of uitschakelen (zoals een lichtknop) - slaat geen gegevens op - **Flip flop**: digitaal schakeling element dat een binaire toestand kan opslaan - geheugencomponent die zijn toestand onthoudt. - **Punch card** : vroeg mechanisch opslagmedium. - **Bits**: Kan gebruikt worden op een eenvoudige aan/uit, ja/nee of waar/onwaar toestand te representeren. Het wordt gebruikt in binaire systemen. - Meer bits is meer informatie - 1 bit : 1,0 = 2 mogelijkheden - 2 bits : 00, 01, 10, 11 = 4 mogelijkheden - 3 bits : 000, 001, 011, 100, 101, 110 , 111 = 8 mogelijkheden - Algemene regel : N bits = 2\^n mogelijkheden ( twee tot de Nde macht) Hoe meer bits je hebt hoe meer verschillende waarden of combinaties je kan maken meer informatie kan opslaan en verwerken - **Byte:** Een byte is een groep van *8 bits*. Het is de basisunit van de gegevensopslag. Het kan *256 verschillende waarden representeren*. Kan gebruikt worden om een karakter, letter, cijfer te coderen. Het wordt gebruikt in geheugensystemen, opslagmedia... Bytes zijn standaard voor het opslaan van gegevens. - Normaal praten we over bytes : maten van een bestand is in byte (megabyte) - 8 bits heb je 2 \^ 8ste = 256 mogelijkheden complexere gegevens op te slaan en verwerken - 8 bits = veel meer informatie dan 1 bit. Met 8 bits kan je verschillende combinaties maken van de 0 en 1\'s. - Cijfers - Tekst letter, cijfer of symbool ASCII codering wordt elke letter van het alfabet vertegenwoordigd door een byte - Beelden gecodeerd door de kleurinformatie van elke pixel - Geluid informatie over frequentie van de geluidsgolven - Video elk frame van de video en elk stukje geluid wordt gecodeerd - Programma's en software instructie,... worden opgeslagen in bytes - **Decimale codering** : basis 10, getal systeem dat we dagelijks gebruiken. Het gebruikt 10 verschillende cijfers: 0-9 - **Binaire codering**: wordt gebruikt in computers en digitale systemen gebaseerd op het grondgetal 2, dus er worden maar 2 cijfers gebruikt 0 en 1. - Verschil? De manier waarop getallen worden gepresenteerd, ze gebruiken verschillende grondgetallen. - Het getal 452 betekent: - 4 x 10\^2 + 5 x 10\^1 + 2 x 10\^0 - = 400 + 50 + 2 - Het decimale systeem wordt gebruikt door mensen bij tellen, rekenen en dagelijkse activiteiten - Elk cijfer vertegenwoordigt zijn specifieke macht van tien, afhankelijk van zijn positie - 101 - Het binaire getal 1011 betekent - 1 x 2\^3 + 0x2\^2 + 1 x 2\^1 + 1 x 2\^0 - 8 + 0 + 2+1 = 11 (in decimaal) - 11 in decimale codering en in binaire codering is het... (basis is 2) op het examen alleen deze - ![](media/image11.png)17 is de binaire codering wat is de decimale codering... (basis is 10) (niet kunnen op het eindexamen) - = examen!! Andere manier om nummers te coderen is : **hexadecimale code** - Weergave vaak gevonden in informatica - Symbolen 0-9, A-F - Niet om echt te coderen. De computers vertalen het altijd naar binair - Historische systemen, zoals de **Baconiaanse code** en de **Baudotcode**, waren vroege methoden om tekens op een gestructureerde manier weer te geven en te verzenden. - Moderne computers gebruiken standaarden zoals **ASCII** of **Unicode** om tekens te representeren en op te slaan. - Francis Bacon (1561-1626) : geheime code waarbij elke letter wordt weergegeven door een reeks van twee symbolen (of vijf?) -- **Baconiaanse** code BV: A wordt AAAAA of 00000 in binaire vorm - Emile Baudot (1845-1903) : set van vijf - 1/0 bits 32 tekens (2\^5=32), twee sets werden gecombineerd (één bit geserveerd om de set te identificeren) -- **Baudotcode** -- gebruikt voor teleprinterberichten -- voorloper ASCII codering - Amerikaanse standaardcode voor informatie-uitwisseling - = karaktercodering die in computers wordt gebruikt om tekst te representeren. - Eerste standaardversie in de jaren 60, erg populair - Het gebruikt **7 bits**. Dit betekent dat het tot 128 tekens kan coderen 2\^7 - 26 hoofdletters - 26 kleine letters - 10 cijfers - 33 speciale tekens -- leestekens - Controletekens - Elk ASCII teken wordt gecodeerd als een binair getal van 7 bits. - Letters, cijfers en symbolen gecodeerd als numerieke waarde. - BV: letter A heeft ASCII - waarde 65, die in binaire notatie 1000001 is. - 128 is niet zo veel - mensen die meer nodig hadden, alleen Engelstalig (bv frans, grieks, er waren geen accenten) - Sets van 1 byte met tekens (bits) - BV: Windows 1252 - Single byte codering van het latijnse alfabet - Standaard gebruikt met engelse documenten op windows - Eerste 128 waren identieke aan ASCII - De extra 128 waren speciale symbolen, accenten en karakters toe voor Europese talen. - Kan 256 tekens coderen -- het is een 8 bits codering - Xerox : teksten drukken (info van computer decoderen en manier vinden om te drukken) - Apple: documenten van verschillende systemen wou werken, maar moeilijk want codering was altijd anders - Unicode groep gecodeert = unieke standaardontwikkeling in de jaren 80 - Google, Microsoft, adobe, Apple... werken samen - Unicode maakt het mogelijk om tekst in elke taal te gebruiken op computers - Elk teken wordt toegewezen aan een codepunt (getal), maar zegt niet hoe het in bytes moet worden gecodeerd U + \ - Karakter, geen glyph - Karakter : het idee, de letter, karakter van het alfabet - Glyph : manier hoe het wordt weergegeven (font) - Diakritische combinaties voor het Oudgrieks? Is het alpha of... - Positionele variaties voor Arabisch? Teken of glyph? - Elk teken in Unicode wordt geïdentificeerd met een unieke code punten : U + \ - De eerste 256 tekens in de Unicode-bib, waaronder de ASCII tekens, worden weergegeven als één byte. - Elk codepunt (hexadecimaal getal) kan op veel verschillende manieren in binay code worden weergegeven volgens verschillende transformaties - UTF-8 (Unicode-transformatie Format 8 bit): is een van die toewijzing aan binaire code (meest gekende) - Uses 1 to 4 bytes : gebruikt een variabele lengte voor het coderen van tekens. - ASCII-tekens (0-127): gebruiken **1 byte** (identiek aan standaard ASCII). - Complexere tekens: gebruiken **2 tot 4 bytes**. - We are not going into the transformation rules - Other encodings: UTF16, 32... - De eerste 128 tekens zijn identitek aan ASCII waarde - ASCII characters are compatible with almost everything. - Alle ASCII-bestanden werken automatisch in UTF-8. Unicode en UTF-8 zijn de huidige standaarden voor tekstrepresentatie in moderne technologie. Hoe zit het met oud-Grieks? - 20 jaar voordat Unicode werd geboren, werden de eerste oplossingen voor het Oud-grieks al voorgesteld - Unicode: Coderen van alle geschreven taal -- inclusief historisch en oude talen zoals Oud-Grieks - BetaCode: transliteratieschema (is een systeem dat wordt gebruikt om tekst van het ene schrift naar het andere om te zetten.) van Griekse tekens en diakritische tekens naar Latijnse letters betacode = speciaal ontworpen voor het coderen van Griekse en andere oude talen met behulp van alleen ASCII-tekens - W(=I geeft een omega aan, met een uwe ademhaling. "(" een circumflex accent "=" een onderschreven iota "I" - Verschillende bronnen zijn nog steeds in betacode met enkele inconsistenties (bv volgorde van diakritische tekens) - 1996 is unicode uitgebreid door middel van Supllementary Planes, bovenop het Basic Multilingual plane (meer tekens proberen coderen = nu de standaard) - Zag de combinatie van een letter met een accent als combinatie van tekens - Aanvullende vlakken omvatten bv het aanvullende meertalige vlak met - Oud griekse getallen - Lineair B - Lineair A - Romeinse tekens - 3 systemen van letters - Hiragana : grammaticale functies, 46 basisletters -- combinatie met Kanji - Katakana: 46 basisletters - Kanji : zelfstandigenaamwoorden - Complexe codering door diversiteit (door 3 systemen) - Vereist **double-byte-codering** vanwege het hoge aantal tekens - Shift JIS: Microsoft-codering, standaard op Windows en Mac - EUC-Jp: Unix-codering van JIS, Standaard voor Linux - UTF-8: universele codering die alle tekens van Unicode standaard kan weergeven - Duizenden tekens \> complexer dan Engels - Verschillende standaarden : - GB (Gubiao5) : main China en Signapore (vereenvoudigde karakters) - Big5: Taiwan, Hong Kong, Macau (traditionele karakters, vaak complexer) - Unicode : ondersteunt beide -- teksten in verschillende talen zonder conflicten -- handig voor internationale communicatie - Voorbeelden van gebruik - Digitale communicatie - Publicaties - Software en besturingssystemen - Van rechts naar links - Contextuele vorm (begin, eind, midden, geïsoleerd) de vormen van de letters afhankelijk van hun positie in het woord - De meest gebruikte tekenset is Unicode, die zowel volledige tekenset van Arabisch als contextuele vormen ondersteunt - Arabizi - = informele manier van scrhijven - Gebruikt op het internet en sociale media - Populair bij jongeren en op sociale media : sneller en gemakkelijker om te typen - A combination of latin alphabet and roman numbers - Basis is pixels - Elke pixel heeft een effen kleur - Pixel = kleinste element van een digitaal beeld. Elke pixel vertegenwoordigt een specifieke kleur en positie in het beeld - Gecodeerd als een eenheid van pixels, zeer kleine eenheden - Elke eenheid heeft een effen kleur die kan verschillen van aangrenzende kleuren - De resolutie van een afbeelding geeft het aantal pixels per afbeelding of de dichtheid van de pixels aan (PPI of pixels per inch) - Hoe hoger de resolutie, hoe meer details de afbeelding kan weergeven omdat er meer pixels zijn om de informatie vast te leggen (BV 1920 x 1080, HD, high definition) - Lage resolutie 1024 x 768 : korrelig of wazig als ze worden vergroot - 1 bit per pixel hoe meer bits er beschikbaar zijn per pixel, hoe meer kleuren - Zwart wit afbeelding: elke pixel kan \"aan\" of \"uit\" zijn. Een pixel kan worden weergegeven door een bit - Kan worden weergegeven als een reeks binaire code of wel getallen. - Voor zwart wit zijn er twee waarde: zwart of wit - Binaire code: twee waarden door de getallen 0 en 1, 0 is zwart en 1 is wit - Pixelreeksen: kan bestaan uit rasters en pixels. Kan worden gecodeerd als 0 of 1, afhankelijk van de kleur pixel. - Als u een afbeelding van slechts één kleur moet coderen, kan hetzelfde systeem van toepassing zijn - Maar hoe codeer je een afbeelding van verschillende kleuren? - Kleur verwijst naar de golflengte van licht: korte golflengte worden waargenomen als violet en lange golflengte als rood - Om kleuren digitaal te coderen gebruiken we vaak deze modellen - RGB - Rood - Groen - Blauw - Elke pixel in een afbeelding wordt gecodeerd als een combinatie van deze drie waarden - Grayscale - Op basis van hoe ons oog de kleuren waarneemt, kunnen we drie primaire kleuren onderscheiden - Primaire kleuren kunnen worden gecombineerd om alle kleuren te vormen (RGB) - In computerschermen worden kleuren gemengd als \"additieve kleur\" waarbij de combinatie van de drie wit geeft en niet zwart - Elk pixel is in werkelijkheid een combinatie van drie lichtbronnen - Elke pixel kan worden gecodeerd door de combinatie van de lichtlampen te beschrijven - De kleurdiepte van de afbeelding geeft aan hoeveel bits je gebruikt om elke pixel te coderen - Hoe meer bits, hoe meer tinten -- elke extra bit de hoeveelheid mogelijke combinaties verdubbelt - Hogere kleurdiepte : subtielere overgangen in kleur hoogwaardige fotografie - 3 bits : 8 kleuren - Je kan met 3 bits, 8 mogelijke combinaties krijgen - Ofwel 2\^3 = 8 - Als je bits toevoegt, kun je informatie toevoegen over de helderheid van de lamp - 24 bits kleuren worden beschouwd als \"true-color\" omdat het meer is dan wat we kunnen waarnemen -- elk primair kleur krijgt 8 bits toegewezen, dit betekend 256 verschillende intensiteitsniveaus - Als je deze 256 niveaus van rood, groen en blauw combineert krijg je 16.777.216 mogelijkheden - Door de 24bits kleurensysteem werd het mogelijk om veel realistischere en vloeiendere beelden te creëren - Vaak worden termen op een inwisselbare manier gebruikt - Beide methoden leveren gegevens op die gemanipuleerd kunnen worden - Digitaliseren impliceert echter een vorm van conversie, meestal afbeeldingen van tekst - Beeldvorming daarentegen zich richt op het nabootsen van een visuele weergave van het artefact (ongeplande of ongewenste verandering die kan optreden tijdens het proces) - **Optische tekenherkenning** (OCR) is een transformatie waarbij uit een afbeelding van een tekst door middel van een patroonherkenning alle tekens uit de afbeelding als zodanig worden herkend en apart opgeslagen door een computer - Taak van de computer vision - Aan het begin van de 20ste eeuw waren al leesapparaten voor mensen met een visuele beperking - Eerste apparaten : voor mensen met visuele beperking -- begin van OCR technologie - In de jaren 70 sterke impuls door Ray Kurzweil - Bijdrage van Ray Kurzweil : ontwikkelde apparaten om blinde mensen te helpen eerste omni-font OCR, die tekst in elk lettertype kon herkennen - In de jaren 2000 werd Cloud OCR - Opkomst van cloud computing gebruikers konden documenten en afbeeldingen naar de cloud uploaden voor tekstherkening Toekomstige richtingen - Verbeterde nauwkeurigheid - Integratie met AI: om contextuele begrip en foutcorrecties te verbeteren - Meertalige ondersteuning : om breder scala aan talen en scripts te ondersteunen - Kentekenherkenning - Gebruik in verkeersbeheer en wetshandhaving om automatisch kentekenplaten van voertuigen te lezen - Documenten doorzoekbaar maken (Google Books) - Handschrift in realtime converteren - Handgeschreven notities omzetten naar digitale tekst - Hulp aan blinden en slechtzienden - Gedrukte tekst omzetten naar spraak - Het verslaan van Captcha (completly autmated public turing test to tell computer en humans apart) - OCR richt zich op gedrukte pagina\'s terwijl HTR op de handgeschreven pagina (Handwritten Tekst Recognition) - Workflow - Preprocessing : het beter leesbaar maken van de afbeelding voor de machine - Ruisreductie: verwijderen van ongewenste markeringen in de afbeelding - Binarisatie : omzetten van afbeelding naar zwart wit om het herkennings proces te vereenvoudigen - Scheefstandcorrectie : correct uitlijnen van de tekst als de afbeelding scheef is - Tekstherkenning : feature extraction - lettertekens identificeren. - Patroonherkenning : herkennen van tekens op basis van hun vormen en patronen - Kenmerkextractie : analyseren van de onderscheidende kenmerken van elk teken om de nauwkeurigheid te verbeteren - Segmentatie : verdelen van de afbeelding in individuele tekens of woorden voor eenvoudige herkenning - Postprocessing : taalkundige informatie - herkende tekst wordt gecontroleerd en gecorrigeerd. - Spellingscontrole: corrigeren van fouten - Contextuele analyse: gebruik van de context van de tekst om herkenningsnauwkeurigheid te verbeteren - Maar ook evalueren en verbeteren - Visuele reproductie van de artefacten - Ook beeldvorming levert veel gegevens op die kunnen worden gebruikt om het object te analyseren - Essentieel voor conversering - Toegang tot het originele item is minder frequent - Produceert een momentopname van de status van het object op een bepaald moment - Legt informatie vast die niet direct zichtbaar is voor het blote oog - Valorisatie/disseminatie - Valorisatie : Dit verwijst naar het proces van het verhogen van de waarde en zichtbaarheid van cultureel erfgoed - Disseminantie : Dit betekent het verspreiden van kennis en informatie over cultureel erfgoed naar een breder publiek - Fotografen in standaard omstandigheden - Strijklicht (onregelmatigheden in het oppervlak benadrukken) - Lichtonder een zeer schuine hoek op een oppervlak wordt gericht, bijna parallel aan dat oppervlak. Benadrukt textuur en reliëf van het object, waardoor details zichtbaar worden - Om schilderijen en kunstwerken te onderzoeken - speculaire verlichting (details van het oppervlak benadrukken) - type verlichting waarbij licht op een oppervlak wordt gericht en op een zeer georganiseerde manier wordt gereflecteerd - om glans en reflectiviteit van een oppervlak te benadrukken - om oppervlaktekenmerken te bestuderen -- of opsoren van vervalsingen of latere toevoegingen - Infrarood fotografie : kunstwerk van Picasso - infrarood merkt een tweede werk op (omgekeerd) - Ultraviolet fotografie : verandering in het materiaal bijvoorbeeld restauratie, toevoegingen... - Ultraviolet : kortere golflengtes dan zichtbaar licht -- fluorescerende eigenschappen van materialen te onderzoeken. Opsporen van restauraties, retouches en vernislagen - In kunstconversatie om verborgen details en eerdere restauraties zichtbaar te maken - Infrarood : langere golflengtes dan zichtbaar licht -- gebruikt in kunstgeschiedenis en conversatie om onderliggende lagen van schilderijen te onderzoeken. - In 1989 werd ontdekt dat er een verborgen portret van een man onder het schilderij 'De Strijkster' zat van Pablo Picasso. Met het blote oog was dit niet zichtbaar door IRR (infraroodrelectografie) - Onze ogen kunnen niet alles zien van golflengtes, maar camera kan dit wel gebruiken - Portable light dome (KULeuven) - Combineert multi-light en multi-spectrale - Multi-light: fotometrische stereo: vangt zowel het gereflecteerde als het diffuse licht op - Multi-spectral: UV, Blue, Green, Red en Infrarood - Biedt open-acces pixel-viewer met veel mooie voorbeelden Verwijst naar objecten van studies in de geesteswetenschappen omzetten in data (teksten ,kunstwerken...) , d.w.z. kunnen een discrete representatie (info is opgedeeld) krijgen op basis van de binaire codering in de informatica. - Geen één op één relatie van een object naar voorstelling: altijd een keuze - Afhankelijk van het soort informatie dat in de gegevens zit en de manier waarop ze zijn gecodeerd, kunnen we aanvullende onderscheidingen maken - Voorbeelden van deze principes - Digitalisering van handgeschreven documenten : beslissen of je de tekst wil omzetten naar bewerkbare digitale tekst via OCR of dat je een afbeelding van de tekst wilt bewaren - Selectie van de inhoud : welke delen je wil opnemen? - Afbeeldingen - Resolutie en kwaliteit : kiezen welke resolutie je wil gebruiken -- hogere resolutie meer details -- lagere resolutie details verliezen maar efficiënt qua opslag - Kleurrepresentatie : hoe je de kleur wil representeren? - Algemeen - Sampling en kwantisering : omzetten van analoge signalen naar digitale vorm beslissen hoe vaak je het signaal wil samplen en hoeveel bits je gebruikt om elke sample te representeren - Filteren en ruisonderdrukking: digitaliseren van analoge gegevens moet je vaak beslissen of je filters wil toepassen om de ruis te verminderen - Data: het object van je studie - Gegevens verwijzen normaal gesproken naar de weergave van het studieobject - Metadata: coderen informatie over het object - Tijdstip van het maken van de dataset - Entiteit die de gegevensset vertegenwoordigt - Hoe het kan gebruikt worden - Kunnen op veel verschillende manieren gestructureerd en gecodeerd worden - Voor cultureel erfgoed zijn verschillende standaarden ontwikkeld: - MARC - BIBFRAME - Dublin Core - Data is ontworpen als drager voor bibliografische informatie over gedrukt materiaal, computerbestanden, kaarten, muziek... - Catalogiseren van bibliografische informatie in bibliotheken -- ontworpen om de uitwisseling van gegevens tussen bibliotheken mogelijk te maken - Bibliografische gegevens omvatten gewoonlijk titels, namen, onderwerpen, notities... - Ontwikkeld door Henriette Avram in de Amerikaanse Library of Congress in de jaren 60 - Nu kunnen Marc21 bestanden worden gecodeerd volgens XML-schema - KULeuven werkt hiermee 1. Dublin, Ohio (1995) 2. Dataset van boeken wil publiceren : auteur, jaar,... 3. Het beschrijven van verschillende soorten digitale bronnen 4. Oorspronkelijk ontwikkeld om web bronnen te beschrijven 5. Nu uitgebreid naar allerlei bronnen 6. Bestaat uit 15 elementen die gebruikt worden om informatiebronnen te beschrijven a. Titel: naam van de bron b. Creator : persoon of organisatie c. Subject : onderwerp van de bron d. Beschrijving : over de inhoud van de bron e. Uitgever f. Bijdrager : personen die heben bijgedragen aan de inhoud g. Datum : bv: publicatiedatum h. Type : de aard of het genre van de bron i. Formaat: fysiek of digitaal j. Identificator : unieke referentie voor de bron k. Bron : referentie naar de bron l. Taal : taal van de inhoud m. Relatie : gerelateerde bron n. Dekken : ruimtelijke of temporele reikwijdte van de bron o. Rechten : informatie over de rechten (copywrights...) 7. Deze elementen helpen bij het organiseren en toegankelijk maken van informatiebronnen door consistente en gestandaardiseerde beschrijvingen te bieden **MARC 21** is gedetailleerd en gespecialiseerd voor bibliotheken, terwijl **Dublin Core** eenvoudiger en veelzijdiger is, bedoeld voor een breed scala aan toepassingen buiten bibliotheken. Data: Structured, semi-structured, unstructured - **Gestructureerde data** wordt meestal gevonden in databases: key-value pairs, identifiers en volgen een bepaald datamodel ook graph data models - vooraf gedefinieerd & vast schema is geoganiseerd - BV: klantenbestand met kolommen voor klant-ID, naam, adres... - Beperkt in flexibiliteit - **Ongestructureerde data** zijn raw texts en afbeeldingen - Geen gedefinieerde structuur -- geen schema - Moeilijk te verwerken en doorzoeken - BV: audio-video bestanden/afbeeldingen... - **Semi gestructureerde data** zijn gestructureerde data die niet voldoen aan het tabulaire model maar nog steeds tags van andere soorten markers bevatten om elementen te scheiden. Het schema kan echter min of meer rigide zijn. Meestal XML - enige structuur, maar geen vast schema - structuur is flexibel gedefinieerd door tags of markeringen - BV: emailberichten met afzender, ontvanger, onderwerp... - Tekst - Voor het extracten van informatie zijn technieken nodig zoals : tekst mining en Natural Language Processing - Tekst mining: proces van het analyseren van grote hoeveelheden tekst om nuttige informatie te vinden. - NLP : tak van kunstmatige intelligentie die zich richt op de interactie tussen computers en menselijke taal. - Audiovisuele data - Deep learning : gebruik maakt van neurale netwerken met vele lagen om complexe patronen in data te herkennen. Beeld & spraak herkenning - Object recognition : proces waarbij een computer objecten in een afbeelding of video kan identificeren en labelen. Gezichtherkenning en autonome voertuigen - Voice recognition : technologie die spraak omzet in tekst. Siri. - Speech to tekst recognition : gesproken taal wordt omgezet in geschreven tekst [Semi gestructureerde data: XML] **Extensible Markup Language (XML)** - = systeem om een document te annoteren op een manier die visueel te onderscheiden is van de inhoud - Helpt bij het structureren en organiseren van informatie binnen een document - = gebruikt voor het overzetten, ophalen en het exporteren van data. - XML richt zich op de structuur van gegevens. **Historische context** - Redacteuren maakten vroeger aantekeningen met potlood en papier - Hielpen bij het verbeteren en verduidelijken van de tekst **Weergave van de tekst** - Wanneer de tekst wordt weergegeven verschijnt de opmaaktaal niet, terwijl de inhoud wel verschijnt - Markeringen die worden gebruikt om de structuur en opmaak van het document te definiëren, niet zichtbaar zijn voor de eindgebruiker, maar de inhoud zelf wel - Een opmaaktaal is gestructureerd rond **tags** die aangeven wat de delen van de tekst zijn (titel, inleiding...) - Niet hoe ze moeten worden weergegeven: scheiding tussen inhoudsbeschrijving en ontwerp - Weergave = in aparte documenten - = uitbreid baar omdat de gebruiker elke benodigde tag kan maken, deze kan beschrijven en de mogelijke toepassingen ervan kan identificeren - Het is ontwikkeld door het World Wide Web Consortium om specifiek de publicatie van documenten op internet aan te pakken - Voorbeeld: - \ : hoofdelement van XML structuur - **\Giorgio Parisi\**: Dit element specificeert de ontvanger van de notitie, in dit geval Giorgio Parisi. - **\Nobel Committee\**: Dit element geeft aan wie de notitie heeft verzonden, namelijk het Nobelcomité - **\Nobel Price in Physics\**: Dit element bevat het onderwerp of de titel van de notitie, wat in dit geval de Nobelprijs voor de Natuurkunde is. - **\It's coming Rome!\**: Dit element bevat de hoofdtekst of de boodschap van de notitie. Hierin wordt aangegeven dat de prijs naar Rome komt. XML : regels gaat over structuur, ze zeggen niet wat zijn de tags enz... iedereen kan zijn tags krijgen = nuttig in de humane wetenschappen, iedereen heeft verschillende interesses, iemand kan over de taal of structuur coderen... een manier vinden met XML om dat te doen Gebruikt tags om aan te geven hoe de tekst in een gegevensbestand moet worden gestructureerd, opgeslagen en getransporteerd. Om orde te brengen in de XML heb je ook de TEI: **tekst encoding Initiative** - Voor taalkunde, literaire teksten, allemaal teksten ontwikkelen, de tags betekenen altijd het zelfde, codering is juist - = standaardvorm van het coderen van teksten die wordt gebruikt in de studie van geesteswetenschappen & standaarden ontwikkelt en onderhoudt voor de representatie van teksten in digitale vorm - Gestart in de jaren 80, eerste release in 1994 - TEI-richtlijnen definiëren XML formaat dat wordt gebruikt voor het coderen van informatie over de teksten op verschillende niveaus van granulariteit - Voorbeelden : - Digitale edities van literaire werken - Shakespear's werken om teksten te coderen - Middeleeuwse manuscripten te digitaliseren - Historische documenten - Brieven en dagboeken : te digitaliseren -- coderen van metadata zoals datum, auteur... - Archiefmateriaal : gebruiken TEI om documenten te digitaliseren - Wetenschappelijke publicaties - Kritische apparaten te coderen - Linguïstische corpora - Taalstudies om teksten te coderen voor taalstudies - Vooraf gedefinieerd model en worden geformatteerd volgens een bepaalde gegevensstructuur voordat ze worden opgeslagen - = makkelijk voor computer en software om de inhoud te begrijpen - Voorbeelden: tabellen, Linked Data, relationele databases... - Idealiter wordt het datamodel duidelijk geschetst voordat met de dataverzameling wordt begonnen - U beslist of een enkele tabel of meerdere aan elkaar gerelateerde tabellen of een grafiek model de beste opties zijn (**keuze van het formaat**) - U identificeert de categorieën die u wil vastleggen en de eigenschappen van deze categorieën (**gegevensmodellering**) - U kiest zelf welke standaarden u wilt implementeren bij het coderen van uw data (**datastandaardisatie**) - Je zou denken dat het maken van tabellen eenvoudig is - 3 principes die worden toegepast van een opgeruimde tafel: - Elke variabele moet een eigen kolom hebben - Een geheugenlocatie met waarden van een bepaald type, het attribuut of kenmerk van uw gegevenspunten - Categorisch of numeriek - **Categorisch** : vertegenwoordigd door bepaalde waarde in een groep - **Numeriek** : waarden zijn getallen die in het algemeen maten of hoeveelheden vertegenwoordigen - Elke waarneming moet een eigen rij hebben - Een waarneming is de eenheid die je waarneemt - Studentendatabase is het een enkele student met zijn ID enz... - Belangrijk om goed na te denken over wat jouw unit is - Is het een catalogus van het enkele exemplaar van het boek of de editie? - Elke waarde moet een eigen cel hebben - Juiste splitsing van informatie is niet altijd eenvoudig - Maakt de maateenheid deel uit van de waarde of niet? - Als er twee waarden zijn voor één waarneming, hoe ga je daar dan mee om? Bv alle politieke partijen zouden willen registreren die in elke stad aan de macht zijn? - Vermijd het samenvoegen van cellen in rijen, lijnen Hoorcollege 3 : Analyseren van tabelgegevens ============================================ Structuur van de les 1. Distant Reading 2. Tabellen analyseren (+casestudy) 3. Relaties analyseren (+casestudy) - In het eerste deel zullen we de tabel gebruiken als een verzameling records, die bepaald gedrag in de loop van de tijd vertonen en die we cumulatief kunnen analyseren om een onderzoeksvraag te beantwoorden. - In het tweede deel zullen we aan de hand van een tabel relaties opsporen, gebruik maken van de zogenaamde netwerkanalyse 1. [Distant Reading] = een onderliggende benadering als het gaat om de computationele analyse van geesteswetenschappelijke data. = is een benadering waarbij de focus ligt op het analyseren van grote hoeveelheden tekst of data **zonder dat je elk individueel werk volledig leest**. In plaats daarvan gebruik je computationele methoden om **patronen, trends en samenhangen** in datasets te ontdekken. Maar hoe? Paratekst en Metadata - Paratekst, samenvattingen, secundaire literatuur - Aanvullende gegevens ipv volledige inhoud van de boeken - Deze benadering heeft een lange voorgeschiedenis - Sociale wetenschappen - Taalkunde We focussen op de rol van de computer in de ontwikkeling van Distant Reading Gebruik van computers : Dit idee was goed verbonden met de technologie - Volledige corpora - Op computers kan je makkelijk volledige corpora samen stellen en uploaden. Maken het mogelijk om duizenden boeken te onderzoeken. - Hypothesen te testen - Data kan worden gebruikt om hypothese te toetsen. Tegen de resultaten op de gegevens. BV zijn titels van boeken korter geworden na de 18^de^ eeuw? Complementair aan close reading : teksten gedetailleerd en op een kleinere schaal worden bestudeerd. Nieuwe methoden voor onderzoek in de geesteswetenschappen: - Het belangrijkste aspect: de ontwikkeling om grote hoeveelheden data vruchtbaar te benutten met het oog op geesteswetenschappelijke vraagstukken. - Dit betekent dat dezelfde methoden voor tekstanalyse kunnen worden toegepast op bijvoorbeeld literaire corpora, maar ook op archiefbronnen of historische kranten die relevant zijn voor de historici. Een methode om grote hoeveelheden tekstgegevens te analyseren zonder elke tekst afzonderlijk te lezen. Het kijkt naar patronen en trends in datasets, zoals woordfrequenties of thema\'s. Vandaag gaan we ons concentreren op de technieken die specifiek zijn voor de analyse van tabelgegevens: de volgende keer zal meer zeggen over tekstuele en visuele bronnen! - Gephi : software voor netwerkanalyse - Pandas: programmeertaal waarmee je tabellen makkelijk kan analyseren **Voorbeeld van distant reading** : Engelse romans van 1740 tot 1850. Titels vertegenwoordigen bijna een gecodeerde boodschap - ![](media/image13.png)In het begin waren titels veel **langer**: zeer lange, beschrijvende titels Dit gaf een kort overzicht van de belangrijkste gebeurtenissen, personages, setting en het einde van het verhaal romans waren toen nog schaars - Werden snel veer **korter** : Naarmate de publicatie van romans in Groot-Brittannië toenam, begonnen tijdschriften zoals de Monthly recensies van nieuwe romans te publiceren (opkomst tijdschriften en recensies), waardoor gedetailleerde titelpagina's overbodig werden. Korter aandacht publiek te trekken - Competitie op de markt : titels dienen voor nieuwsgierigheid op te wekken - Titel is een manier om aandacht te trekken op de lezer dus het moet een efficiënte titel zijn - Titels worden korter met 1 of 2 woorden Opkomst van eigennamen : - Eind 18de eeuw : Titels beginnen namen te gebruiken Markt groeide en titels korter voor op te vallen - Duiden protagonist van het verhaal aan Belangrijkste opmerkingen - De auteur geeft geen commentaar op de inhoud van de boeken gebruikt één soort metadata (titels) om de dataset te analyseren - Verankert de bevindingen zowel in relatie tot literaire trends als maatschappelijk fenomeen - Samenstelling dataset is cruciaal, want op basis van wat je identificeert, kun je vervolgens de trends analyseren - Big data maakt het mogelijk om dat te linken met de geschiedenis 2. [Tabellen analyseren ] Wat kunnen we doen? - Het identificeren van interessante categorieën die kunnen worden benut om onderzoeksvragen over onze vakgebieden te beantwoorden - Voorbeelden in onze datasets - Herkomst van de studenten in de Matrikels : geografische karakterisering van de Vroegmoderne Universiteit Leuven Trends in de tijd: - Vaak hebben databases voor de geesteswetenschappen een diachrone dimensie - Datum van inschrijving voor de Matrikels - Registratie van de gilden voor Cornelia -... - Mogelijke onderzoeksvragen? - Wat waren de meest productieve auteurs in de 16^de^ eeuw - Is het favoriete genre van de anime in de loop dan de tijd geëvolueerd - Hier bespreken we ons tot de **visualisaties** van de trends in de tijd - Eerste inzichten om analyse te verdiepen **Diversiteit van de gegevens:** Diversiteit van je data : [2 kleuren] - Links: 1 kleur - Rechts: 2 kleuren Vaak is het interessant te weten hoe divers een dataset is BV: hoe veel verschillende steden, auteurs kan ik vinden... ![](media/image15.png)[Drie verschillende kleuren ] Maar dataset links is minder divers dan rechts - Moeilijker om voorspelling te maken bij rechts dan bij links - Kansen zijn groter bij links dat je blauw hebt - Als je willekeurig een bal kiest, zijn er veel meer kansen om altijd dezelfde kleur te krijgen [Verschillende groten ] - Hoe kan je dat vergelijken? - Duidelijk met tellen - allebei 3 verschillende kleuren - Diversiteit is niet hetzelfde Diversiteitsindexen van Ecologie: - ![](media/image17.png)Verschillende indexen ontwikkeld om diversiteit van ecosystemen te volgen - **SoortRijkdom** : het aantal verschillende soorten - **Shannon-index (vanuit de informatietheorie) :** - = is een maat voor biodiversiteit die rekening houdt met zowel het aantal verschillende soorten als de verdeling van individuen over deze soorten. Het helpt ons te begrijpen hoe gevarieerd een ecosysteem is. Een hogere Shannon-index betekent meer diversiteit - Aantal verschillende soorten - Verdeling van individuen over deze soorten - Nauw verwant aan het concept van entropie in de informatietheorie. - Hoe hoger de Shannon-index, hoe groter de diversiteit en dus de onzekerheid (of entropie) over de soort van een willekeurig individu - Met een dataset werken kan het interessant zijn om te beseffen hoe divers je data is. - Een ecosysteem met hoge Shannon-index, een meer gelijkmatige verdeling van individuen over verschillende soorten heeft. Bias in datasets van de geesteswetenschappen: verwijst naar systematische vertekeningen - Geesteswetenschappelijke datasets worden samengesteld, gedigitaliseerd en gedeeld binnen specifieke historische contexten - Weerspiegelen 'historische' vooringenomenheid die de analyse kan beïnvloeden -- vertekend beeld geven - Vraag altijd: detecteren we historische patronen of patronen die de samenstelling weerspiegelen? - Belangrijk om te erkennen Voorbeeld van bias in collecties: GA&C - 2011: lanceerde Google: Google Arts & Culture, met als doel cultuur toegankelijker te maken - 6 miljoen hoge -- resolutie afbeeldingen van kunstwerken uit ongeveer 2500 musea in bijna elk land dat lid is van de VN - Open project : iedereen kan op de website zoeken - Bezoekers sinds 2020 toenam - Is het echt representatief van de kunstwerken en afbeeldingen in de wereld? Of krijgen we toegang tot beperkte groep van kunstwerken? - Het artikel onderzoekt hoe GA&C een onevenwichtige vertegenwoordiging van kunstwerken vertoont, waarbij sommige landen en instellingen worden voorgetrokken. **Geografische vooringenomenheid/Onevenwichtige vertegenwoordiging:** De eerste dingen die ze hebben opgemerkt is als je kijkt naar de herkomst van de kunstwerken is dat alles uit de VS komt Geen verassing - maar er is dus veel kunst die ook niet afkomstig is van de VS Enorm **geografische BIAS** in dit soort samenstelling Maar ook als je kijkt naar Frankrijk of Rusland, merken ze dat bijna alles de kunstwerken komen uit instellingen die in Parijs zitten, bijna niets buiten Parijs veel vergeten geen evenwicht Er is een echt BIAS - we krijgen geen toegang tot een effectieve verspreiding van kunstwerken - Er is een duidelijke voorkeur voor kunstwerken uit bepaalde landen, vooral de Verenigde Staten, terwijl andere landen ondervertegenwoordigd zijn. - Kunstwerken uit hoofdsteden zoals Moskou en Parijs domineren, terwijl kunst uit provincies minder zichtbaar is. - De VS is verantwoordelijk voor 82% van de afbeeldingen op GA&C - Bij zoekopdrachten naar algemene termen zoals 'chess', 'glove', of 'earring', de kans groot is dat de resultaten voornamelijk uit de VS komen, wat de culturele lens van de VS versterkt. - Landen zonder institutionele vertegenwoordiging in GA&C worden vaak vertegenwoordigd door objecten in buitenlandse musea, wat culturele zichtbaarheid vermindert **Dominantie over de 20^ste^ eeuw:** 1. Kunstwerken zijn uit de 20e eeuw, met een nadruk op moderne kunst en fotografie. 1. Dit kan leiden tot een vertekend beeld van kunstgeschiedenis, waarbij oudere en niet-westerse kunst minder aandacht krijgt. Kunstwerken zijn al van vroeg in de tijd -- in GA&C komt bijna alles van het laatste decennia dus dat is een groot BIAS - als je kunsten online wil zien of bestuderen krijg je een heel BIAS van de 19de en 20ste eeuw Het tellen van jouw diversiteit is een eerste stap voor het voorkomen van dit soort problemen Algemene opmerkingen : Manier om algemeen idee te geven om hoe tabellen te bestuderen 1. GA&C is niet representatief en evenwichtig : wat resulteert in digitale culturele kolonialisme 2. Dominantie van 20e-eeuwse materialen: 3. Ongelijke vertegenwoordiging van landen : discrepantie in hoe landen worden vertegenwoordigd op het niveau van instellingen en buitenlandse objecten. 4. Focus op hedendaagse kunst in Russische en Franse collecties 5. Belang van open toegang en transparantie 6. Aanbevelingen van Google Cultural Institute: kan bijdrage aan de dominantie van 20e eeuw beelden 7. Oproep tot dekolonisatie van data: Ongebalanceerde datarepresentatie kan leiden tot sociale ongelijkheid en conflicten. 8. Noodzaak van transparantie en open toegang: Culturele instellingen moeten bereid zijn hun beelden op externe platforms te delen en Google moet zijn methodologieën en keuzes openbaar maken. Casestudy : Klassieke auteurs als intellectuele sleutelfiguren : - Overgang middeleeuws naar modern denken gedreven door herontdekking van klassieke oudheid - Herniewde belangstelling voor baanbrekende auteurs - Rol van drukpers : cruciaal bij de verspreiding van klassieke werken in de beginfase - De invloed bleef bestaan in de 16^e^ en 17^e^ tot eind 18^e^ eeuw. Lange wetenschappelijke traditie: - De studie van de klassieke traditie en receptie is goed ingeburgerd - Dit geldt ook voor klassiekers in het vroegmoderne Engeland - Ontvangst van klassiekers - Invloed van bepaalde klassieke auteurs in vroegmoderne Engelse werken - Invloed van klassiekers bij bepaalde Engelse auteurs (kleinere groep) - Maatschappelijke aspecten van circulatie van klassiekers - Klassiekers in het curriculum van gymnasia - Vertaling van klassiekers Het richt zich voornamelijk op de 17e en 18e eeuw, vanwege de grotere beschikbaarheid van gegevens uit deze periode. De datasets zijn specifiek gericht op Britse uitgevers Klassiekers in kaart brengen in het vroegmoderne Engeland: - Vertrouwen op bestaande middelen: 3 datasets gebruikt : - Enligsh Short-Title Catalogue (ESTC) - Uitgebreide bron die metadata bevat over vroege boeken, tijdschriften, kranten voor 1801. - De ESTC combineert meerdere catalogi, wat resulteert in meer dan 480.000 records - Waardevol hulpmiddel voor het onderzoeken van historische publicaties en hun beschikbaarheid in bibliotheken wereldwijd - ESTC Authors - Trismegistos authors TmAuthors: - Grote dataset over oudheid, teksten, auteur, personen... - van 800 v.Chr. tot 800 n.Chr. - Informatie over auteurs Hoe herken je klassieke auteurs? - **VIAF** is een database die unieke identificatiegegevens verstrekt voor opmerkelijke personen. - Zowel ESTC-auteurs als TM-auteurs bevatten de VIAF-identifiers, wat betekent dat ze voor elk van hun auteurs deze identifier opnemen - Als je uw data wil standaardiseren kan je VIAF gebruiken - Grote lijst van auteurs die ook met VIAF identifiers hebben Hoeveel klassiekers zijn er gedrukt? Het drukken van klassieke werken lijkt in de loop van de tijd gestaag toe te nemen. We moeten echter rekening houden met de algemene groei van de boekdrukkunst, en nagaan of de toename van klassiekers in lijn is met deze algemene groei van het drukvolume, of dat deze minder of sterker is dan het gemiddelde. - Daarvoor berekenen we per decennium het aandeel van klassieke boeken ten opzichte van alle gedrukte boeken. De afbeelding rechts laat zien dat er doorheen de tijd een duidelijke afname is van het \"belang\" van klassieke drukken op het totaal, ze worden een steeds kleinere fractie. Verlies van relevantie? Verlies van diversiteit? - 2^e^ vraag over diversiteit : Hoewel we een algemene groei van het absolute aantal gedrukte klassiekers waarnemen, is er meer diversiteit in het gedrukte corpus of dat het feit dat de klassieke auteurs aan relevantie verloren in het algemene culturele landschap, ook betekende dat het beschikbare corpus op de een of andere manier afnam? - Is er meer diversiteit in het gedrukte corpus? - Je hebt meer en meer klassieke boeken en meer en meer auteurs ![](media/image19.png) In deze grafiek toont de oranje lijn het totale aantal klassieke werken dat is gedrukt (hetzelfde als in de vorige dia), terwijl de blauwe lijn het totale aantal unieke auteurs weergeeft dat tegelijkertijd is gedrukt, dus hoeveel verschillende klassieke auteurs zijn gepubliceerd. - Stabieler, maar minder - Als je meer boeken drukt - diversiteit verliezen in de circulatie van klassieke auteurs - Wanneer er meer boeken worden gedrukt zijn er nog steeds minder auteurs Meten voor diversiteit (ecologie) -- diversiteitsindexen - SoortenRijkdom : aantal verschillende auteurs. Het is erg gevoelig voor de zeldzaamste soorten. - Hill - shannon : sterk reageren op zeer hoge en lage zeldzaamheidswaarden - Hill - simpson : diversiteit is het meest gevoelig in verschillen in de overvloed van veel voorkomende soorten - hoe meer gepubliceerde auteurs wordt in hill - simpson gezien Alles wordt minder na 1660 - een piek en daarna wordt het minder Sterke afname : - Alle drie de waarden pieken aan het einde van de 17e eeuw en nemen daarna af. - Het betekent dat de diversiteit van de belangrijkste auteurs stabiel blijft. - De diversiteit van de kleinere auteurs neemt af Kernpunten = andere analyse - Ja, er is een piek van diversiteit in klassieke publicaties gevolgd door een afname van de diversiteit - Gevolg voor kleine auteurs, die zelden worden gedrukt - Gevestigde auteurs lijkt steeds meer "zichtbaarheid" te krijgen binnen het landschap van klassieke auteurs die in Engeland worden gedrukt. ![](media/image21.png) Waar hebben de auteurs het over? Nieuwsgierig: - Samenstellen van de lijst van de 20 beroemdste auteurs in de 17^de^ en 18^e^ eeuw waren er enkele verschillen - Vandaar de vraag : is er naast de afname van diversiteit ook een verandering in smaak? Wijzigingen van voorkeuren 3. [Relaties analyseren ] Welke relaties in data? - Onze gegevens bevatten verschillende relaties die het onderwerp van studie kunnen zijn - Welke studenten studeerden op hetzelfde moment en kwamen uit dezelfde regio? Netwerkanalyse : - Stelt ons in staat om relaties te bestuderen met kwantitatieve benadering - Algemeen overzicht van de totale set relaties die we in een dataset kunnen waarnemen - actoren met bijzonder relevante rol in het netwerk aangewezen - helpt bij het ophalen groepen hechte medewerkers Grafentheorie : - Wiskundig domein : grafentheorie - = gebieden van de stad - Grafische vraag : beroemde wiskundige -- Leonard Euler - Probleem van de 7 bruggen van Koningsberg - De vraag was: ik heb een stad die 7 bruggen heeft door de verschillende gebieden van de stad - kan men over alle bruggen lopen zonder twee keer een brug over te steken en te eindigen waar ze begonnen? - Elk gebied wordt vertegenwoordigd door een knooppunt - Twee knooppunten zijn met elkaar verbonden als er een brug is tussen de twee gebieden - Het is onmogelijk Wiskundige eigenschappen van netwerken : - Vaak gebruikt voor praktische vragen - BV: aantal steden, aantal punten die verbonden zijn tussen verschillende paden hoe kan ik de kortste weg tussen die twee punten vinden - BV: Hoe kan ik de meest efficiënte tour vinden zodat ik minder afstand doe Maatschappij en netwerken : **het sociogram** - Jacob L. Moreno en Helen Hall Jennings ontwikkelden het sociogram (1932) - Vertegenwoordigde de keuzes en voorkeuren binnen groep mensen - "sterren" zijn punten met veel keuzes, "geïsoleerd" degene die niet veel keuzes hebben Maatschappij en netwerken : **Zes graden van scheiding** - Bekend concept : 6 graden van scheiding, waarin staat dat alle mensen maximaal 6 doorgangen met elkaar verbonden zijn - Idee door Frigyes Karinthy - Waarom proberen ze dat te tonen? - Technologische vooruitgang maakte communicatie en reizen gemakkelijker - Fenomeen van verkrimpte wereld - Met 5 noden kan ik iedereen in de wereld bereiken Maatschappij en netwerken : **de kracht van zwakke banden** : - Mark Sanford Granovetter (socioloog) publiceerde in 1973 het artikel "The Strenght of Weak Ties" - Zwakke schakels zijn vaak cruciaal in de verspreiding van informatie - niet gemeenschappelijke vrienden, niet dezelfde familie = belangrijkste contacten om communicatie te spreiden - Fungeren als bruggen naar verschillende informatiekanalen Toepassing voor onderzoek - Geschiedenis - Het document Padget en Ansell (1993) dat de huwelijken van de 15e-eeuwse Florentijnse adellijke families modelleert als een netwerk, en de centrale positie benadrukt die de Medici\'s innamen tussen de oude en \"nieuwe\" adellijke families - Taalkunde - veel fenomenen die als netwerk beschreven kunnen worden - Netwerk waarin woorden gelinkt worden door syntactische relaties - Of semantische relatie - WordNet, netten van semantisch verwante termen - Vertegenwoordigen syntaxis - In literatuur wetenschap gebruiken veel netwerk tussen protagonisten van boeken te beschrijven - Elke keer dat tweemensen in dezelfde scene zijn hebben we dat gelinkt - zo zie je wie het meest centraal is - In de literatuur worden karakternetwerken gebruikt om relaties tussen personages in werken te beschrijven - Archeologie - Gebruikt om ruimtelijke connectiviteit in het verleden weer te geven : plaatsen kunnen met elkaar verbonden worden door nabijheid, zichtbaarheid - Contacten coderen die voortkomen uit materiële cultuur: als twee gemeenschappen dezelfde technieken gebruikten, is het waarschijnlijk dat ze in contact zijn geweest Sterke toename van de 21^ste^ eeuw: - Computationele methodologieën maken het mogelijk om grootschalige netwerken te overwegen - Meer beschikbaarheid van gegevens - Wereld Wide Web - Gelinkt door links (URL) - Sociale netwerken - Cyberbeveiliging - Pandemieën Maar wat is een netwerk? - Grafiek : geordend paar gevormd door een set knooppunten en set randen - G = (V,E) Knooppunten : de entiteiten die je bestudeert (mensen, instellingen, teksten, woorden) - V = (A,B,C,D,E) Randen : de schakels tussen de knooppunten. Formeel gedefinieerd als een paar knooppunten - E = (A,C), (A,E), (B,C), (D,B) Knooppunten : instellingen - Studie over instellingen die zijn gelinkt als een professor in beide universiteiten heeft gewerkt - Studie over historische universiteit tot moderne tijd - bestuderen de historische evolutie van de universitaire samenwerking Knooppunten woorden : - Studie over synoniemen - Woordenboek - als een woord wordt gebruikt om een ander woord te definieren, is er een link op deze manier zie je heel gelijkaardige linken met de rest van de woordenschat - = waarschijnlijk dat het synoniemen zijn - Er wordt een link getrokken van de ene term naar de andere. Knooppunten: uni modaal of multimodaal netwerk - Uni modaal : slechts één soort knooppunt - Multimodaal : verschillende soorten entiteiten (en relaties) (vooral bimodaal netwerk twee soorten knooppunten) -- handig om complexe informatie weer te geven Randen - Links geven een relatie tussen knooppunten aan : communicatie, relatie, gelijktijdig voorkomen... - Gericht/ongericht - Gericht - Asymmetrische relaties - de interactie of relatie gaat van het ene knooppunt naar het andere. - E-mails: Persoon A stuurt een e-mail naar Persoon B. - Volgers op sociale media: Persoon A volgt Persoon B, maar Persoon B volgt Persoon A misschien niet terug. - Ongericht - ![](media/image23.png)Symmetrische relatie - de interactie of relatie bestaat in beide richtingen tegelijk. - vrienden op facebook - broers - getrouwd - Gewogen/ongewogen - Gewogen - Kwantitatief bezit van randen - Numerieke waarde - Registreert de sterkte van de link - Aantal uitgewisselde e-mails, aantal keren twee woorden in een zin voorkomen - Ongewogen - Auteur van een boek - Geen kwantiteit van aantal in een relatie - De randen laten alleen zien **of de relatie bestaat**. Hoe kunnen we een netwerk vertegenwoordigen? Matrix - Elke rij en elke kolom een nood is en de cel tussen de twee heeft een nummer die is het **gewicht** van de link tussen de twee noden - Geen link = 0 - Alles is gebaseerd op dit matrix Wat kunnen we met een netwerk? - Visualisaties - Netwerk van filosofes - Als er in Wikipedia er wordt geschreven dat de ene filosoof geïnspireerd is door een andere filosoof is er een link - Analyses - Globaal - Lokaal - Rol van de knooppunten - Centraliteits metingen - Community detection en clustering - Aantal randen dat een knooppunt raakt - Gerichte grafiek onderscheidt tussen - **In-degree** : Het aantal randen dat naar een knooppunt wijst. Het doel (target) is van een relatie - Een hoog in-degree betekent dat een knooppunt veel relaties ontvangt - Wijst naar knooppunt - **Out -- degree** : Het aantal randen dat van een knooppunt vertrekt. de bron (source) is van een relatie. - Een hoog out-degree betekent dat een knooppunt veel relaties initieert. - Vertrekt naar knooppunt - Gewogen grafiek - Gewogen som van de randen die een knooppunt raakt - BV: als we denken aan universiteitsnetwerk - 2 universiteiten en 6 professoren die in beide universiteiten staan is er een link van 6 ![](media/image25.png) Andere centraliteitsgraden : die aangeven hoe \"belangrijk\" of \"centraal\" een knooppunt is binnen een netwerk. - Het meten van de impact van verschillende soorten rollen in het netwerk - Betweennes centrality - Closeness centrality - Eigenvector centrality **Betweennes Centrality** meet de snelheid van het kortste pad dat door het knooppunt gaat. Het meet de functie van de node als "brug" in het netwerk. **Closeness Centrality** meet hoe dicht een knooppunt zich bij de rest van het netwerk bevindt. Het meet hoe "gemakkelijk" het is voor elk knooppunt om de andere te bereiken - Voor I is het makkelijk om veel van de andere noden te reiken dus heel hoge closeness centrality - EDBC : ver van de rest van de knooppunten dus kleine closeness **Eigenvector centraliteit** meet het aantal en de kwaliteit van de verbindingen van een knooppunt. Een node heeft een hoge centraliteit als de verbinding ook zeer invloedrijk is in het netwerk. - A -- andere contacten zijn geïsoleerd - ze zijn niet belangrijk in het netwerk - I heeft hetzelfde aantal contacten - maar die zijn heel belangrijk want die hebben ook nog eens andere contacten Community detection : - Doel : het identificeren van clusters van knooppunten die intern dicht met elkaar verbonden zijn en losjes verbonden zijn met andere gemeenschappen Zeer nuttig om groepen actoren of woorden te identificeren die de neiging hebben om veel op elkaar in te werken. Analyse op globaal niveau: De **globale netwerkanalyse** richt zich op het bestuderen van de **algemene structuur** van een netwerk als geheel, in plaats van individuele knooppunten of lokale relaties. - Focus op de algemene structuur van het netwerk en op de verdeling ervan in grote subgrafieken - Volledig verbonden/componenten - Dichtheid en graadverdeling - Middelijn Analyse op globaal niveau: Dichtheid : - In die kleine netwerk heb je 6 mogelijke links - als iedereen gelinkt is aan de andere heb je 6 links maar in de feiten vind je maar 3 links die echt bestaan in mijn netwerk - Dat betekend dat de dichtheid 0.5 is half van de mogelijke linken bestaan echt - Met m : aantal randen - N : aantal knooppunten - = aantal actueel randen over aantal mogelijke randen - Gemiddelde graad : gemiddeld aantal links per knooppunt - Ongerichte grafiek : 2^E^/N - Gerichte grafiek : E/N - E : aantal randen - N : aantal knooppunten Analyse op globaal niveau: Kliekjes en componenten : Kan interessant zijn om te zien of jouw grafiek volledig verbonden is - zelden - alle knooppunten in link Of in een grafiek hoeveel kleinere groepen er zijn (subgraaf) die volledig verbonden zijn - Volledig verbonden grafiek: is een netwerk waarbij elk knooppunt met elk ander knooppunt direct verbonden is. - Volledige subgraaf kliek : subset van knooppunten die onderling allemaal met elkaar verbonden zijn. - Components treated as distinct graphs : subgroepen van knooppunten die onderling met elkaar verbonden zijn, maar niet met knooppunten buiten die groep. Analyse op globaal niveau: Diameter : - Kortste afstand tussen de twee verste knooppunten in het netwerk - Hoe breed is het netwerk Casestudy : - ESTC: intellectuelen in een netwerk. Uitgeversnetwerk speelt een cruciale rol in de verspreiding van kennis in de vroegmoderne tijd - Idee: bouw het netwerk op door de actoren die aan dezelfde boeken hebben meegewerkt aan elkaar te koppelen Voorbereiding van de gegevens: **De geschiedenis van de Engelse boekenhandel** Centrum in Londen: Het merendeel van de vroegmoderne publicaties in het Engels kwam uit Londen Persoonlijke netwerken: - De boekenhandel functioneerde op een menselijke schaal waar persoonlijke netwerken belangrijk waren. - Boekverkopers vestigden zich dicht bij hun klanten en clusterden onder de concurrentie. Technologische beperkingen: - De handbediende drukpers beperkte de productiecapaciteit. - Arbeid was de belangrijkste factor die de toename van de drukproductie beperkte. - Naarmate het aantal publicaties toenam, moest de industrie (en de mensen die erin werkten) mee groeien. Ze nemen alle personen en bouwen datamodel Kunnen we een netwerk bouwen waarin auteurs verbonden zijn waar ze samen aan boeken hebben gewerkt - Marc-velden - Relationeel Datamodel - Elke actor is een unieke entiteit - Verbindt alle titels waarbij de actor betrokken was - VIAF-match - Identificeert personen door middel van VIAF Analyse van het netwerk : Statistieken voor algemene netwerk Netwerkgroei: - Naarmate het aantal gedrukte documenten toenam, groeide ook het netwerk. Opkomende Structuur: - Het netwerk werd minder dicht verbonden en meer gespecialiseerd. - Bepaalde knooppunten (personen of entiteiten) speelden centrale rollen. - Nieuwe individuen in de boekenhandel zorgden voor een toename in productie. - De handel werd steeds meer gespecialiseerd en verticaal geïntegreerd. - Specifieke actoren werden belangrijk in het beheer en de ontwikkeling van de industrie. Beroemde auteurs : Shakespeare onderscheiden door rol Contacten die hij heeft met andere auteurs, printers, publishers... De streeplijn is waar shakespear is overleden Na aantal jaren worden de contacten heel groot- - na zijn dood terug heel populair - Shakespeare bleef na zijn dood in druk. - Er zijn pieken en dalen in zijn connecties, wat wijst op bekende edities uitgegeven door verschillende uitgevers. Beperkende Factor van Dood: - Dood kan een beperkende factor zijn voor de populariteit van een auteur, vooral in sociale netwerken. - Het aantal publicaties van een auteur kan echter blijven stijgen door postume publicaties. Belang van Postume Publicaties: - Postume publicaties en degenen die eraan werkten, moeten worden meegenomen in de data-analyse. - Dit benadrukt het belang van het overwegen van levens- en actieve jaren bij het onderzoeken van historische relaties. Methodologische Overwegingen: - Het simpelweg extraheren van alle gerapporteerde relaties kan misleidend zijn. - postume records moeten worden overwogen. Netwerk van Shakespeare : Mensen waarmee hij verbonden is in het netwerk Het verandert in verschillende jaren - belangrijkste Publisher die voorkomen Identificatie van Uitgevers: - Ego-kaarten uit verschillende periodes helpen bij het identificeren van uitgevers. Voorbeeld 1730-1739: - Duidelijke connecties tussen rivaliserende uitgevers Robert Walker en de Tonsons. - De Tonsons domineerden het netwerk halverwege de eeuw. Gemeenschapsdetectie: - Over publishers - precieze groepen die politieke situatie tonen - 2 gemeenschappen - Gele : - Paars : - Twee gemeenschappen visualiseren die zich verzetten tegen de parlementaire en royalistische kant van de oorlog De auteurs pasten community-detectie toe op de knooppunten van het netwerk, terwijl ze het netwerk in tijdsegmenten verdeelden, en ontdekten historisch betekenisvolle verbindingen. Hoorcollege 4: Analyseren van tekstuele gegevens ================================================ Tekstanalyse en beeldanalyse : vorige keer over tabellen en relaties Structuur van de klas 1. Vocabulaire analyse 2. Stylometrie 3. Topic modelling 4. Distand reading voor afbeeldingen 2 andere manieren om teksten te analyseren : 4.2 en 4.3 Distant reading op full-text corpora : - Distant reading = idee dat je niet de tekst of materiaal direct nakijkt maar je probeert het grote beeld, algemene idee van al jouw corpus/data te krijgen door dat te analyseren door de computer - Je kan ook metadata gebruiken (titels van boeken) vandaag kijken we naar de mogelijkheid om een volledige tekst te analyseren. - Groter aantal materiaal van afstand bekijken -- kan je doen met de computer - Hoe kun je teksten of deel van teksten karakteriseren binnen een heel groot corpus? - Enkele mogelijke onderzoeksvragen : - Heb je nodig om je teksten te karakteriseren - Zijn er teksten waarvan de woordenschat bijzonder onderscheidend is binnen mijn corpus? - Bv: analyse van nieuwspapers/tijdschriften van de 19de eeuw wil maken en je wil weten wat voor thema\'s er zijn. JE hebt 100 jaar aan materiaal dus je leest niet alles - je gebruikt deze technieken om een algemeen beeld te krijgen Verschillende benaderingen voor verschillende vragen : Analyse van de woordenschat : Het blootleggen van de aanwezigheid van specifieke concepten, tendensen... In jullie teksten kijken of er specifieke concepten zijn - kan je vinden door analyse van bepaalde woorden - Adjectieven **Stylometrie** = overeenkomsten vinden tussen teksten op basis van taalkundige kenmerken -- stijl analyseren **Topic Modelling** = Identificatie van de verdeling van specifieke onderwerpen/thema's in een corpus. Brede thema\'s binnen je corpus te identificeren. Automatische manier zodat je kan dan beslissen wat je wil lezen en wat niet **Cultural analytics**: icluding images = kunnen we visuele kenmerken van grote collecties afbeeldingen gebruiken om artistieke en culturele trends beter te begrijpen? Je moet niet naar elk beeld kijken maar je kan je corpus gebruiken 4.1 [Vocabulaire analyse] Casestudy : tekst mining voor historisch onderzoek Voorbeeld van dit onderzoek : Paper die veel collega\'s van faculteit letteren hebben aangewerkt. Frans, Taalkunde, Geschiedenis - soort van onderzoek dat interessant kan zijn voor verschillende groepen. Vraagt dat veel verschillende expertise samenkomen. - Project: IMPRESS - Drie gedigitaliseerde kranten uit het België van de 19^de^ eeuw - Onderzoek naar de rol van ideologie in het 19^de^ -eeuwse Belgische geneeskundediscours : Tijdschriften over geneeskundige - onderzoeken hoe de ideologische discours spraken van die tijd in die tijdschriften kwamen - 3 kranten gedigitaliseerd door samenwerking met KBR - Gebruik van tekst mining op de volledige inhoud van de kranten Oprichting van het corpus: - BARMB : verslagen van de vergaderingen van de Koninklijke Belgische Academie voor Geneeskunde. Katholiek en liberaal. - JMCP : liberale oriëntatie - JSML : katholieke oriëntatie - KBR : Katholieke Bibliotheek van Brussel 3 tijdschriften: BARBM, JMCP en JSML waarom die drie kranten? Grote corpus, veel pagina's je kan niet alles lezen om een idee te krijgen Keuze van de kranten komt door het feit dat het kranten zijn met een heel ander ideologische oriëntering 1. Verslagen van vergaderingen - katholiek en liberale mensen die erover deelnamen 2. Oriëntatie liberaal 3. Katholiek - OCR door de KBR - OCR = techniek waarmee je van de beelden de tekst kan nemen en zo kan digitaliseren als tekst - Door verschillende soorten files geproduceerd - XML : semi -gestructureerd ; manier om tekst te schrijven met informatie over de tekst - TXT, PDF - Moeilijkheden die typisch zijn voor historische tijdschriften - Lettertypen - Woorden met koppelteken - Tabellen - Nabewerking met R (programmeertaal) - gebruikt om de tekst te verbeteren en goed genoeg te maken om dat te analyseren Methodologie : - gebruik van AntConc om relevante passages te vinden rond bepaalde trefwoorden - gebruiksvriendelijke tool mogelijk maakt om te zoeken in grote corpora - de concordantie tool maakt het mogelijk om de context te zien waarin het woord wordt gebruikt - snel de frequentie van specifieke termen visualiseren - vb: Ze willen vooral vermijden om gewoon de nummer van het aantal keren waar er bv liberaal wordt gebruikt - ze wilden niet gewoon zeggen het wordt 80 keer gebruikt, ze willen een manier vinden om de context te lezen en begrijpen wat liberaal betekende in die kranten **Resultaten : Chronologie van het ideologische debat** Eerste vraag was: was er een sterk ideologisch debat in de kranten? - In geneeskunde kan er heel snel een ideologisch debat zijn bv bezoek aan de paus, heeft sterke opmerkingen gemaakt over de rol van doktoren, dus het is een domein waar religieuze en niet religieuze mensen heel verschillende meningen hebben - In die tijd: schoolstrijd : strijd tussen katholieke en liberale over de rol van religie in de rol van het onderwijs - Sterk debat over hoeveel/hoe sterk de invloed van de kerk kon zijn in het onderwijs 2 schoolstrijden ; - 19de eeuw - 50 jaren van de 20Ste eeuw : meer recent Ook: - Minder zichtbare toename van ideologische vocabulaire in wetenschappelijke artikelen - Kleine artikelen over politieke ontwikkelingen in België onthulden vaak de ideologische overtuigingen van de auteur - Ideologische uitspraken kwamen vaker voor in Leuvense tijdschriften : Katholieke artsen creëerden eerder een polariserend ideologisch klimaat in wetenschappelijke debatten tijdens de schoolstrijd **Resultaten : Concepten met een ideologische connotatie** Ook gezien dat concepten zoals vrij onderzoek en materialisme vaak voorkwamen in publieke debatten en ze werden ook gevonden in gedigitaliseerde medische corpus - Maar het was niet in wetenschappelijke uitwisselingen - Opnieuw waren het katholieke artsen dit soort termen met negatieve lading gebruikten - Materialist om ideologische tegenhangers aan te duiden - Terwijl liberalen die termen minder vaak **Resultaten : ideologie en tijdschriftsecties** Ze hebben ook gezien dat het heel belangrijk was om een verschil te maken tussen de verschillende genres binnen de tijdschriften Dus religie en ideologische conflicten waren afwezig in wetenschappelijke artikels maar meer in de sectie vergaderverslagen Op deze manier konden artsen aan de ene kant hun wetenschappelijke zuiverhuid behouden, maar ook betrokken blijven bij sociale en politieke identificaties Door het tellen van specifieke termen - Materialisme - Vrij onderzoek Konden ze dit verschil maken en meer het ideologische uitspraak van die jaren karakteriseren Artsen bleven betrokken bij bredere sociale en politieke identificaties [4.2 Stylometrie ] associatie zoekt tussen teksten op basis van formele (taalkundige) kenmerken Kwantitatieve benadering : door het identificeren van vingerafdrukken van teksten Identificeren van vingerafdrukken in teksten Wat betekend dat? - Als je praat doe je een aantal keuzes, bv over het gebruik van artikels, kleine functiewoorden... keuze waarover je je niet bewust van bent, je doet dat omdat het jouw manier van praten is, je controleert het niet - Door die soort taalkundig kenmerken te onderzoeken kunnen mensen zeggen dit tekst is van die auteur enz... - Je kan ook meer complexe vragen doen bv: genre van een tekst, auteur association Matrix of occurrences : Document -- term matrix - Rijen = document - Kolommen = term - Cellen = frequentie van de term in het document Stel je voor je hebt een corpus met veel verschillende teksten, 1, 2, 3 Als je alle woorden van die teksten samenstelt krijg je een lange lijst die alle verschillende woorden hebt ![](media/image27.png)Elk woord kan je zeggen hoeveel keer dat in een bepaalde tekst voorkomt In tekst 1: 34 x "the" Je doet dat zo voor elk woord dat in elke tekst voorkomt - Vaak voorkomende woorden : the, a, from, since - Voornamen zijn minder voorkomend Op deze manier wordt elk document weergegeven door een vector die de frequentie codeert van elke term die in het corpus aanwezig is. Rij van nummers = vector Vectoren van dimensies vertegenwoordigen punten in een n-dimensionale ruimte. Elke tekst is een punt. 3 dimensies Op basis van deze matrix is het mogelijk om afstanden tussen vectoren te berekenen (documenten) Hier: euclidische afstand Matrix of occurences: - Verschillende manieren om deze afstand te beoordelen - Burrow's delta - Tussen document A en B - Voor elk woord in document A wordt nagegaan hoeveel de frequentie afwijkt van het gemiddelde corpus - Hetzelfde wordt gedaan voor document B - Vervolgens wordt het verschil tussen de twee waardes berekend voor elk corresponderend paar in de documenten - De Burrows delta tussen doc A en B is het gemiddelde van deze verschillen Waarom is dat interessant? Zo kan je vinden welke teksten op basis van hun vocabulaire literair zijn met elkaar - welke teksten gebruiken ongeveer dezelfde woorden De afstand is normaal gerekend door Burrows Data : bijzondere manier om dat te doen In 1987 publiceerde John Burrows,Computation into Criticism: A Study of Jane Austen\'s Novels and an Experiment in Method. - Dit werk, dat toonde aan dat een kwantitatief onderzoek naar het gebruik van functiewoorden subtiele en krachtige patronen in taal kan onthullen. Vormde de basis voor computationele stilistiek en was een pionier in de toepassing van hoofdcomponentenanalyse op taalgegevens. Toepassingen van stylometrie : 2 situaties: - Anonieme tekst toe te schrijven aan aantal potentiële kandidaten - Je hebt een aantal teksten die anoniem is. Je hebt een aantal kanidaten die \"verdacht\" zijn en ze nemen de anonieme tekst en ze doen de operatie - ze rekenen de nummers van elk woord - Ze krijgen zo een grafiek als hiervoor en zien ah de brief komt heel dichtbij met de brieven van Margarita dus we denken dat omdat ze opdezelfde manier schrijft het logisch is dat het ook van Margarita is - Kijken naar welke auteur de minste afstand heeft met de originele tekst - Een reeks anonieme teksten die we willen clusteren om te weten welke waarschijnlijk van dezelfde auteur zijn - Je hebt een aantal anonieme teksten bv heel soms wil je vinden als bv een president een ghost writer heeft en hoeveel hij heeft - Je weet niet hoeveel verschillende auteurs er zijn - je moet proberen de tekst te groeperen en zoeken naar duidelijke groepen zodat je kan zien dat al die teksten door dezelfde persoon zijn geschreven In het eerste geval wordt voor elke anonieme tekst de afstand berekend die elke "toegeschreven" tekst heeft Deze wordt geassocieerd met de auteur wiens teksten dichter bij de anonieme teksten liggen Verschillende technieken voor clustering Vb : agglomeratieve hiërarchische clustering - Groepeer eerst de teksten die erg op elkaar lijken - Vervolgens worden deze groepen geaggregeerd op basis van gelijkenis - Totdat u een volledig dendogram krijgt - Dan kan je misschien een conclusie trekken : er zijn 2 auteurs want er is een groot verschil tussen ene groep en de andere Stylometrie zonder code : - User -- friendly tools : R-package; Stylo; JGAAP - Je moet niet coderen om dit soort analyse te maken - Maar je kan sommige software gebruiken die dat doen Casestudy : Pseudoniem van J.K. Rowling: - In 2013 kwam een roman uit, geschreven door zekere Robert Galbraith - nog niemand had van hem gehoord, het was duidelijk een pseudoniem van de auteur - Mysterieuze tweet, zei dat de auteur J.K. Rowling was - Het boek had ook zo een groot succes wat raar is want dat gebeurt niet bij een auteur die een eerste boek schreef - De Sunday Times belde Patrick Juala (Amerikaanse computerwetenschapper) om het mysterie op te lossen - Patrick Juola was de maker van JGAAP - Typsich probleem met de toeschrijving van auteurschap - ik wil een auteur vinden, er is een naam, maar het is een pseudoniem ik heb een aantal eventuele kandidaten die het kunnen zijn waaronder JK Rowling en ik wil zien of er een mogelijkheid is dat het JK Rowling is - Bij de analyse werd rekening gehouden met 4 functies - **Woordlengte** : hoe lang zijn de woorden die je gebruikt - typisch van iedereen om bepaalde lengte van woorden te gebruiken, maar dat is onbewust - **De 100 meest voorkomende woorden** : de, het, sinds, wanneer... - **Teken 4 gram** (reeks van 4 aaneengrenzende tekens) : hij heeft gerekend de reeks van 4 woorden. - **Woordbigrammen** (aangrenzende woorden) : units van 2 woorden - groepen van twee woorden - vaak representatief op de manier waarop je praat Corpus ter vergelijking: - 4 vrouwelijke auteurs - Vergelijkbaar genre - In hetzelfde tijdperk Resultaat : - Tekst van JK Rowling was de enige die consequent overkwam als de beste match voor de 4 teksten - JK Rowling gaf toe dat zij de auteur was - Door die 4 dingen te onderzoeken kon hij zeggen, maar hij kan het niet 100% zeker zeggen - Het is een grote kans en het was juist - Zonder de tweet was het nog moeilijker om het te doen, je moest kandidaten hebben om die test te maken [4.3 Topic Modelling] - Statische methode om te ontdekken wat de abstracte onderwerpen zijn die in een reeks teksten voorkomen - 'topics' zijn clusters van vergelijkbare woorden - Onderliggend idee: betekenis van woorden afhankelijk van het gezelschap dat het houdt Latente Dirichlet-allocatie = bekendste model voor de taak - Zichtbare verschijnselen te verklaren met niet-waargenomen verschijnselen - Verdeling van woorden wordt verklaart door reeks van abstracte onderwerpen die de verdeling van woorden beïnvloeden - = Statistisch model dat zegt wat ik heb in een tekst ik weet hoeveel keer elk woord voorkomt Afhankelijk van zijn vocabulaire krijgt elke tekst een of meer van de gedetecteerde onderwerpen toegewezen Software: MALLET Terwijl voor stylometrie is het belangrijk om een idee te krijgen van vaak voorkomende woorden, hier is het meer interessant om te kijken naar niet zo vaak voorkomende woorden, die geven geen informatie over het onderwerp Focus van analyse zijn minder voorkomende woorden Applications : - Tool voor het verkennen van grote archieven of collecties en het selecteren van de meest geschikte teksten voor close reading - Dagboek van Martha Ballard : Amerikaanse vroedvrouw -- schreef 27jaar een dagboek - Inzicht in het leven van vrouwen - Cameron Blevins gebruikte MALLET om onderwerpmodellering toe te passen voor het navigeren door het dagboek en het verwerken van de zeer grote hoeveelheid informatie - om te navigeren in het dagboek en algemeen idee te krijgen van het dagboek - te lang om volledig te lezen - 30 onderwerpen - Het gebruik van deze onderwerpen kan in kaart worden gebracht - Om te berekenen hoe een onderwerp toeneemt, bereken je welk percentage woorden in de tekst bij dat onderwerp hoort - Hij heeft geprobeert te zien - als ik deze groepen woorden hebben - kijken naar hoe vaak ik ze vindt in de verschillende jaren van de dagboek - \'housework\' : hij ziet dat in het begin ze praat er niet veel maar in de laatste jaren wordt het een van de meest voorkomende topics - Aantal huiswerk en het gewicht ervan wordt groter met de jaren - Geeft een idee over vrouwen - Onderwerp : EMOTION heeft een piek rond jaren die bijzonder moeilijk bleken te zijn (haar man die overleed) - Het is ook mogelijk om binnen een jaar de cyclische evolutie van een onderwerp te identificeren - GARDENING - Hij ziet dat elke keer rond mei/juni/juli heb je een hogere frequentie - zijn de maanden waarin het topic heel belangrijk is in dat leven - Reguliere trends in het dagboek en in de woorden die ze gebruikt - maakt het mogelijk om algemeen beeld te krijgen van haar leven Ander voorbeeld van onderzoek met topic modelling Literaire teksten - Met topic -- modelling ontdekt hij de verschillen tussen tragedie en komedie in het Franse Drama - Komedie, tragedie, tragikomedie - Onderzoek : Schoch wou zien of je automatisch topics kon vinden die verbonden zijn met één van de twee genres en die echt een automatisch het verschil tonen tussen die twee genres Er zijn sterke associaties binnen die verschillende groepen woorden - lijst van groep het betekend dat die woorden vaak samenkomen in teksten en ze zijn heel goede kandidaten om dat topic te vertegenwoordigen - Coeur; amour : liefde - Secret, connaitre : geheim kennen - Vers, auteur, teksten : werken - Mal, medecin : geneeskunde, genezen Verschillende lijsten woorden die sterk geassocieerd zijn en duidelijk thema tonen Soorten topics: De verzameling toneelstukken bevat verschillende karakteristieke onderwerpen en thema's. - Abstracte thema's : liefde, dood, misdaad... - Dramatische personages: familieleden en hun rol in de verhalen - Concrete onderwerpen: instellingen en omgevingen - Specifieke activiteiten : activiteiten uitgevoerd door personages Aanpassing van topic Modeling voor literaire teksten verschil tussen abstracte thema's en concrete activiteiten Het gebruik van methoden zoals Topic Modeling, is oorspronkelijk ontwikkeld voor non-fictieve proza Topic Scores : wat hij wil testen, ik heb opnieuw die lijsten van woorden en ik ga terug in mijn teksten kijken of ze karakteriseren op een verschillende manier - ![](media/image29.png)Onderwerpscore per tekst : Welk percentage van de tekst wordt gevormd door woorden de bij elk onderwerp horen? - Tragedie en komedie tonen duidelijk verschillende onderwerpen, terwijl tragikomedie slechts één onderscheidend onderwerp heeft - 3 groepen - Tragedie - Komedie - Tragiekomedie (tussengenre) - Verschillende "soorten" onderwerpen - In feite is er een duidelijk verschil tussen tragische en komische teksten - Die soort van categorie zijn door de onderzoekers gegeven - manier om te zeggen dat er een verschil is tussen deze categorieën die we hebben gecreëerd - Je kan zien dat de kleuren tonen aan of de topic vaak voorkomend is : donkerrood - Niet vaak voorkomend : blauw - Je kan zien dat er een soort alternatie is - als iets rood is het aan de andere kant blauw en ook in de andere richting De matrix van scores = we kunnen een matrix bouwen waarin voor elke tekst de score van elk onderwerp wordt gegeven. - Soms wil je dat visualiseren - We hebben een voorbeeld gegeven dat teksten worden gezien als punten in de ruimte - Probleem? Dimensie van de ruimte is heel hoog - elk woord telt als dimensie - Simplificatie : het is maar een 3D space - het kan ook op wetenschappelijke manier gedaan worden door - dimentionality reduction Kijken naar topics - matrix is opgebouwd door lijst van teksten en voor elke topic zeg je hoe vaak de frequentie van die topic voorkomt Makkelijk om te krijgen - je telt voor elk woord de frequentie en je zet dat samen Min of meer hetzelfde idee - maar ipv elk woord een lijst van topics Principal Component Analysis : - Hoe kunnen we verdeling van "topics" in het corpus zien? - Elke vector wordt gevormd door de score van elk topic voor één tekst - PCA is een techniek die wordt gebruikt om in een **2D dimensie vectoren** te projecteren die behoren tot hogere dimensie, waarbij de datavariatie zoveel mogelijk behouden blijft - Kan je doen door een techniek te gebruiken die jouw teksten op een 2Ddimensie ruimte op het vlak zetten n dat is niet makkelijk - Moeilijke ding in dit soort techniek om de juiste perspectief te vinden zodat jouw punten in die dimensie blijven op een vlak te projecteren en goed te representeren - Er wordt gezocht naar de beste projectie zodat de verschillen tussen teksten worden weergegeven Analyse van de twee componenten maakt het mogelijk om de drie genres te onderscheiden Probeert die matrix met de topics en teksten gebruikt hij omdat te projecteren op een vlak - Er zijn aan ene kant komedies en andere kant tragedies - Duidelijke afstand hebben - = manier om te visualiseren dat verdeling van topics tussen 2 groepen teksten een heel duidelijk verschil krijgt Conclusie: - Meerdere toepassingen voor deze technieken (ook commercieel) - Commercieel ook : te identificeren in advertenties, welke themas... - Beoordeel hun bruikbaarheid, beoordeel de specifieke kenmerken van uw corpus - Belangrijke voorbewerking van de tekst - Belangrijk om altijd voorzichtig te zijn bij het interpreteren van de algemene resultaten 5. [Distant reading voor afbeeldingen ] - Grote hoeveelheid beeldmateriaal die online beschikbaar is, is niet alleen uitdagend op het niveau van information retrieval, of voor collectieverkenning, maar ook op het niveau van analyse - Distant reading kan ook toegepast worden op collecties van beelden die heel groot zijn - Het is onmogelijk om naar elk beeld te kijken - Meer en meer musea, galleries - Hoe voorkom je dat je een paar "bijzonder interessante" afbeeldingen uitkiest? - Digitale kunstgeschiedenis is moeilijker omdat het niet gemakkelijk is om een afbeelding te segmenteren - Voor teksten en databases is het makkelijk om de eenheid te identificeren - Maar voor foto's? Dit soort van onderzoek ging trager dan textuele analyse, omdat 1. Technische reden : goede kwaliteit van beelden op jouw computer zetten is moeilijk, moeilijk om software te vinden 2. Meer conceptueel, met tabellen of teksten is duidelijk wat de eenheid is (woord, letter, cel...) voor beelden als je moet eenheden vinden is dat minder duidelijk Een mogelijke aanpak : werken met pixels - Eerste oplossing is om te zeggen dat uw pixels de eenheden zijn, maar is anders dan met woorden - Met woorden zijn eenheden die een bedoeling/mening hebben en zien want het zijn taalkundige eenheden - Pixel : geen precieze zin - het beeld in onze computer zetten Lev Manovich, sleutelfiguur in de definitie van het vakgebied Culturele analyse - Eigenschappen van de pixels worden gebruikt om enkele stilistische kenmerken van de werken te ontdekken - Idee : visualisatie gebruiken om beelden te bestuderen - hoe doe je dat? Statistische informatie te verkrijgen over de pixels en d