L-Dataverwerking Samenvatting PDF
Document Details
Uploaded by Deleted User
Tags
Summary
This document summarizes a lecture on data processing, focusing on computer fundamentals. It covers the history of computers, the distinction between analogue and digital signals, and different types of software and hardware. The lecture also covers concepts such as Von Neumann architecture and the role of CPUs, memories, and I/O systems.
Full Transcript
**L-Dataverwerking** Hoorcollege 1: Computers: hoe werken ze? Wat is een **computer?** = A computer is a machine that can store and process information, Apparaat voor het vemerken en opslaan van informatie. Als we het hebben over "gegevensverwerking", verwijzen we naar digitale gegevens, dat wil...
**L-Dataverwerking** Hoorcollege 1: Computers: hoe werken ze? Wat is een **computer?** = A computer is a machine that can store and process information, Apparaat voor het vemerken en opslaan van informatie. Als we het hebben over "gegevensverwerking", verwijzen we naar digitale gegevens, dat wil zeggen gegevens die met een computer worden verwerkt = Apparaten die in premoderne tijden werden gebruikt, kunnen ook als computers worden beschouwd **Een lange geschiedenis** Vroege voorbeelden van reken- en informatieverwerkingsapparaten - **De abacus** (telraam) diende als een handmatig hulpmiddel voor eenvoudige berekeningen - Gebruikt worden om getallen te coderen (door de stukken op specifieke posities te plaatsen) en om rekenkundige bewerkingen uit te voeren zoals optellen, delen - **Antikythera-mechanisme** was een geavanceerde analoge computer was die astronomische berekeningen kon maken (op basis van de beweging van de zon, maan en planeten) - Werd gebruikt voor navigatie - Wordt beschouwd als een premoderne computer omdat het de positie van de hemellichamen kon coderen en hun beweging kon simuleren Beide vormen de basis voor het concept van het automatiseren van berekeningen, wat later leidde tot de ontwikkeling van moderne computers. **Computers vandaag de dag** Een computer is een apparaat waarmee gegevens volgens formele procedures (algoritmen) kunnen worden verwerkt, Meestal wordt met het woord computer een **elektronisch, digitaal** apparaat bedoeld, maar er bestaan ook mechanische en analoge computers. - **Elektronisch** = (elektronica, digitale stroom) Het bestudeert hoe elektrische stroom in een schakeling, waarin elektronenbuizen of halfgeleidertechniek zijn verwerkt, kan worden gestuurd (elektronica = het domein dat zich bezighoudt met elektronen) - **Digitaal** = Een digitaal signaal vertegenwoordigt gegevens als een reeks discrete waarden, zoals aan of uit (0 en 1). Dit betekent dat op elk moment het signaal maar één van een beperkt aantal mogelijke waarden kan hebben Digit (nummers) -- digiti (betekent vingers in het latijn) werden gebruikt om te tellen Analoog versus digitaal (communiceren met computers) - Elk signaal dat niet digitaal is is analoog (geluid, tempratuur) = onmogelijk om de verschillende waarden van een analoog signaal te tellen die oneiding zijn **Opbouw van de lezing** **1. Software** **= de processen die in de computer gebeuren (programma's en besturingsystemen)** Voorbeeld = systeem en applicatiesoftware en programeertaal **[Drie]** verschillende soorten software **1) Besturingssystemen:** operating system (OS) = een programma waarmee de gebruiker kan communiceren met hardware en software op de computer -- OS beheert de computer Grafische gebruikersinterface (GUI) kan verschillen afhankelijk van OS Twee manieren om met het besturingssysteem te communiceren: - Grafische gebruikersinterface (GUI) (Graphical User Interface) - Opdrachtregelinterface (CLI) (command line interface) GUI = wat je op je scherm ziet, zoals pictogrammen waarop je kunt klikken. CLI = commando's direct invoeren via de opdrachtregel, vaak gebruikt door Linux gebruikers. Beide interfaces werken samen met een software genaamd 'shell'. - De 'shell' vertaalt de commando's naar het besturingssysteem (OS) Verschillende taken: - **Procesmanagement** = Het beheren van de programma\'s die op de computer worden uitgevoerd, het toewijzen van de bronnen, het mogelijk maken van multitasking **[Drie] mogelijke statussen (actief, wachtend en gereed)** - **Scheduling** = het maken van de wachtrij met processen/taken voor de CPU - **Geheugenbeheer** = houdt in dat het besturingssysteem het geheugen (RAM) beheert door te bepalen welke programma\'s hoeveel geheugen krijgen, zodat ze soepel kunnen draaien. - **Resourcebeheer** = zorgt ervoor dat de computerbronnen (zoals CPU, geheugen en opslag) efficiënt worden verdeeld tussen verschillende programma\'s, zodat alles goed werkt zonder elkaar te verstoren - **Bestandsbeheer** = openen, verplaatsen, verwijderen, hernoemen, bestand kopiëren\... Voorbeelden: MacOs, Microsoft Windows,Linux **2) Applicatie software** = programma's die we gebruiken Geschreven door professionals, maar met kennis van coderen kun je je eigen scripts schrijven Applicaties zijn wat je het meest gebruikt op dagelijkse basis. Programma's stellen ons in staat om: - Bepaalde taken uit te voeren - Op het web te surfen - Naar muziek te luisteren - Videogames te spelen - Applicaties vertegenwoordigen de kern van het belang van computers - Verschillen tussen software zijn belangrijk om te overwegen bij het kiezen van programma's. In een onderzoekscontext heb je mogelijk enige vrijheid nodig om je workflow te ontwerpen. Deze parameters kunnen van pas komen bij het ontwerpen van je workflow Een **gesloten bron** kan je enkel gebruiken zoals de creator dit wilt Een **open bron** is een bron waar de code beschikbaar en zichtbaar is voor de gebruiker. Wordt geleverd met een licentie die gebruik specificeert. Geeft volledige controle over wat het programma doet. (Leiden tot onzekerheid) ![](media/image2.png) **Proprietaire software:** Skype en Adobe kunnen we gratis gebruiken maar we hebben geen rechten op het programma zelf Onderscheid tussen programma's die op het web draaien en programma's op je eigen computer De **webapplicatie** is onafhankelijk van de computer die je hebt (maar is wat trager) **Lokale toepassingen** draaien op je eigen CPU, vereisen geen internet, kunnen sneller zijn, moeten functioneel zijn op meerdere besturingssystemen en is moeilijker om samen te werken aan lokale programma's **3) Programeertaal** = Kunstmatige taal die wordt gebruikt om een machine, normaal gesproken een computer, te besturen (Python, Java...) - **Python**: - Veel gebruikt in industrie en onderzoek - Veelzijdig, veel bibliotheken - Beschikbaar als cursus in het derde jaar van de bachelor taal- en letterkunde (programmeren voor letteren - **R**: - Veel gebruikt in taalkundeopleidingen - Gespecialiseerd in data-analyse en statistiek - Statistiek, gegevensanalyse en data visualisatie - **JavaScript**: - Zeer gevraagde vaardigheid. - Meest gebruikt voor het coderen van interacties met webpagina's - Web ontwikkeling Leren coderen in één taal maakt het makkelijker om over te stappen naar een andere taal. - In het begin gebruikten mensen een zeer eenvoudige taal, genaamd machinetaal, die bestond uit lange reeksen getallen om opdrachten te geven (moeilijk) Voorbeeld: lijsten of 1 en 0 Later werden programmeertalen ontwikkeld die meer op menselijke taal leken, waardoor ze makkelijker te lezen en te begrijpen waren - **Compiler** = Deze nieuwe talen worden omgezet (vertaald) naar machinetaal door een programma dat een compiler wordt genoemd, zodat de computer ze kan begrijpen en uitvoeren (Tekst analysis, data analysis, bestandsbeheer, beeldverwerking) **2. Hardware** **= het concrete deel van onze computer (de mechaniek die wij fysiek kunnen zien)** Voorbeeld: processor, geheugen en I/O-systeem Von Neumann-architectuur - Ontwikkeld rond de Tweede Wereldoorlog, gebaseerd op ideeën van o.a. Alan Turing - Von Neumann publiceerde in 1945 een document dat de basis legde (hierin beschreef hij zo een machine dat niet alleen data verwerkt maar ook instructies geeft) - Aan het eind van de jaren \'40 verschenen de eerste computers met deze architectuur, die revolutionair waren voor hun tijd **Belangrijkste kenmerken:** de gegevens (data, bijvoorbeeld getallen) en instructies (berekeningen of acties) worden in hetzelfde geheugen opgeslagen ![](media/image4.png) De naam komt van de Hongaars-Amerikaanse wetenschapper en ingenieur, die lid van het Manhattan Project was, verantwoordelijk voor de ontwikkeling van de atoombom in de VS. - Urgente behoefte aan machines voor snelle en intensieve berekeningen. Besprak dit met de twee makers van de toen gebruikte machine, ENIAC. Machines waren destijds geprogrammeerd voor één type taak, zoals een elektronische rekenmachine. - 'Herprogrammeren' voor andere taken vereiste veel technische inspanning. Idee ontwikkeld door Von Neumann en de ENIAC-ingenieurs: een machine die zowel instructies als gegevens kon opslaan = De Von Neumann architectuur omvat **[drie]** belangrijke componenten **1) CPU ( central processing unit) -- het brein van de computer** Verwerkt intructies en voert berekeningen uit - **ALU =** (Arithmetic Logic Unit) = Voert rekenkundige en logische bewerkingen uit Het brein van de CPU - **Control unit** = Leest de instructies uit het geheugen, decodeert ze en stuurt de uitvoering aan, zegt wanneer de registers moeten handelen (besturingseenheid) - Regelt de informatiestroom tussen de ALU en de registers, beheert het hele proces en voorziet de ALU met de volgorde van de bewerkingen - **Registers** = kleine, supersnelle geheugenplaatsen in de CPU zelf. - Ze slaan kleine hoeveelheden gegevens op die de CPU snel nodig heeft tijdens het uitvoeren van bewerkingen (opslag van gegevens die nodig zijn voor het proces, tussenstappen) Kloksnelheid is de snelheid waarmee de CPU zijn instructies uitvoert en wordt gemeten in Hertz (Hz). - Dit geeft aan hoeveel instructies (handelingen) de CPU per seconde kan uitvoeren De **input** gaat naar de **Control Unit,** die de instructies beheert. - De Control Unit haalt gegevens uit de **Memory unit** en geeft ze door aan de **ALU** voor berekeningen. - Het resultaat gaat als **Output** naar de gebruiker. Dit proces laat zien hoe de computer informatie verwerkt, van invoer tot uitvoer **Multi-core processoren** Multi-core= één CPU met meerdere eenheden Multi-processor = veel CPU's op elkaar afgestemd CPU's met meerdere verwerkingskernen (cores) waarbij de verschillende taken van het programma gelijktijdig worden verdeeld over de cores. - Maakt het mogelijk om meerdere programma's tegelijk gebruiken, de taken beinvloeden elkaar onderling niet (Snellere en efficiëntere computerprestaties) Voorbeeld: word draait op één core, mijn mail op een andere (tegelijkertijd geopend) **Graphics processing units** Een GPU (Graphics Processing Unit) is een speciale chip in je computer die is ontworpen om beelden en graphics snel weer te geven, vooral 3D-beelden in games en video's - Hoofdbrein van de computer die taken uitvoert. In vergelijking heeft de GPU meer "rekenkracht" (transistors) voor het maken van beelden en minder voor andere taken zoals het beheren van gegevens. Gebasseerd op parallel computing: ze kunnnen veel taken tegelijkertijd uitvoeren - Dit maakt ze bovendien geschikt voor het verwerken van deep-learning algorithmes -technologieen die wordt gebruikt in kunstmatige intelligentie (zoals gezichtsherkenning of zelfrijdende auto\'s), omdat ze snel grote hoeveelheden gegevens kunnen verwerken **2) Memory unit (geheugen/opslag) =** Slaat zowel gegevens als instructies op. Toegang tot data en instructies gebeurt via hetzelfde datakanaal Een computergeheuegen bestaat uit primair (snel en tijdelijk, gebruikt voor actieve processen) en secundair geheugen (trager maar permanent, langdurige gegevens) **[Primair geheugen ]** **=** Direct aangesproken door de CPU, bevindt zich op het moederbord en de registers maken hier deel van uit, bestaat uit twee soorten - **RAM** = (random acces memory) tijdelijk geheugen dat snel gegevens opslaat voor actieve taken (vluchtig) - **SRAM** = Snelle, tijdelijke geheugenopslag die geen verfrissing nodig heeft - **DRAM** = Goedkoper en groter geheugen dat regelmatig verfrissing nodig heeft, gebruikt als hoofdgeheugen in computers - **ROM** = permanent geheugen is dat belangrijke instructies bevat en niet kan worden gewijzigd (read-only memory) - Bevat BIOS (Basic Input Output System), het eerste programma dat wordt uitgevoerd bij het opstarten. **[Secundair geheugen (opslag) ]** **=** Bevat bestanden en programma's die permanent worden opgeslagen - USB - HDD = Draaiende schijven en een lees/schrijfkop, Grotere opslagcapaciteit en Langzamer - SSD = Flash-geheugen zonder bewegende delen, Still en energiezuinig, Hogere kosten Keuze tussen HDD en SSD - **HDD** = Geschikt voor het opslaan van grote hoeveelheden gegevens die zelden worden geopend (bijv. archiefgegevens). - **SSD** = Geschikt voor snelle prestaties en frequente toegang tot gegevens **3) Het in-outputsysteem** - **Input =** Manieren om gegevens aan de computer te geven (zoals toetsenborden, muizen) - Invoerapparaten - **Output** = Manieren waarop de computer resultaten weergeeft (zoals schermen, printers). Materiaal (bladeren die uit de printer komen) als digitaal - Uitvoerapparaten - **Storage** Gebasseerd op **het concept van HCI (mens-computerinteractie)** = omvat het bestuderen van hoe gebruikers computers en software gebruiken, en hoe deze systemen kunnen worden verbeterd om de gebruikerservaring (comfort en gebruiksgemak) te optimaliseren Houdt rekening met factoren zoals: - Ergonomie - Toegankelijkheid = toegangkelijkheidsopties voor mensen met beperkingen **Van computermuis naar een touchscreen -- de evolutie van input/output systemen** **Touchscreen** = complex gegeven (in en output door hetzelfde scherm) Eerste model al in de jaren 60, maar zeer populair sinds 2007: lancering van de eerste iPhone - Het scherm wordt gebruikt voor invoer (aanraking, gebaar) maar ook voor een deel van de uitvoer (beelden, maar ook haptische informatie zoals trillingen) ![](media/image7.png) **Interactie en verbinding van [componenten]** **Moederbord** = Bevat alle belangrijke componenten van de CPU en het geheugen, Maakt verbindingen met het I/O-systeem mogelijk. **Bussen** = Verantwoordelijk voor de communicatie tussen de verschillende componenten, Transporteren gegevens, instructies en stroom tussen de CPU, geheugen en andere onderdelen. Hoorcollege 2: Data **1. Data coderen** **Bit** (binair signaal) is de meest **elementaire eenheid van informatie**. Het is een logische toestand met een van de twee mogelijke waarden (ja of nee, 1 of 0). Hoeveelheid informatie verzonden in één tijdseenheid (klok) = Bit is geen codering, een fysiek apparaat, of een getal maar informatie **Morsecode** = (voorloper van de bit) werkt ook op basis van twee soorten signalen (lang -- **Dah**, 3x een dit en kort - **Dit**) en kan hiermee een alfabet en cijfers maken = tekst en berichtjes kunnen zo gecodeerd worden (basis voor moderne digitale communicatie), Dits en Dahs zijn gescheiden door pauzes. - Dit betekent informatie door een binair (twee) signaal sturen **Een kleine historiek** Bij de eerste computers, waren bits een punt op een punch cards, de kaart gaat in een machine, de computer las de kaart en waar er gaten waren betekende dit iets - Deze 'betekenis' werd vertaald naar iets specifiek Claude Elwood **Shannon** = was de eerste die een (definitie), term van een bit heeft geïntroduceerd, we noemen hem de 'vader van de informatietheorie' - "A Mathematical Theory of Communication" (1948) Ook de positie van een schakelaar of een punt in de punch card = draagt 1 bit aan informatie Een bit is niet veel informatie, dus wij praten over **bytes** (de maat van een bestand) en één byte is 8 bits samen en die geven veel meer informatie - Algemene regel: N bits = 2n mogelijkheden (2 tot de Nde macht) **Informatieopslag:** - Hoe langer mijn reeks bits, hoe groter de hoeveelheid informatie die ik kan opslaan. 1 bit: 2 mogelijkheid (2 tot de eerste macht) 2 bits: 4 mogelijkheden (2 tot de tweede macht) 3 bits: 8 mogelijkheden (2 tot de derde macht) **Waarom is dit belangrijk?** Hoe meer bits je hebt, hoe meer verschillende waarden of combinaties je kunt maken en hoe meer informatie je kan opslaan en verwerken. In de praktijk worden bits **meestal in groepen verwerkt**, zoals in bytes (8 bits = 256 mogelijke waarden (verschillende tekens mee coderen) = complexe gegevens Verschillende dingen kunnen als data beschouwd worden = cijfers, tekst en beelden - Vraag: hoe kunnen we met één en nul complexe informatie doorgeven **Met bytes (8 bits) kan je een breed scala aan informatie coderen, waaronder:** - **Tekst:** Elke letter, cijfer of symbool in een tekstbestand wordt gecodeerd met een of meer bytes (voorbeeld: de ASCII-codering) - **Afbeeldingen:** Afbeeldingen worden gecodeerd door de kleurinformatie van elke pixel op te slaan. Dit kan variëren van enkele bytes per pixel (zwart-wit afbeeldingen) tot meerdere bytes per pixel (kleurenafbeeldingen met hoge resolutie) - **Geluid:** Geluidsbestanden slaan informatie op over de frequentie en amplitude van geluidsgolven: een reeks bytes die de geluidsinformatie in digitale vorm vastleggen - **Video:** Video's combineren beeld en geluid, en vereisen daarom een grote hoeveelheid bytes om de visuele en auditieve informatie op te slaan. Elke frame van de video en elk stukje geluid wordt gecodeerd in bytes - **Programma en software:** De instructies en gegevens die een computerprogramma vormen, worden opgeslagen in bytes. Dit omvat alles van eenvoudige scripts tot complexe applicaties - **Overige gegevens:** sensorgegevens en configuratiebestanden **[Cijfers]** Decimale codering van gehele getallen= basis 10 systeem - Elke positie in een getal vertegenwoordigt een macht van 10, afhankelijk van de positie van het cijfer. Decimale codering van gehele getallen 152 2x100=2x1 5x1 01-5x10=50 100+50+2=152 Faculteit Letteren Ku LEUVEN Binaire codering van gehele getallen = basis 2 systeem ![](media/image9.png) Deze is te kennen voor het **examen!** **[Oefeningen ]** 11 = 3 1000 = 8 101001 = 41 Een andere manier is de **hexadecimale code** (de base is 16) -- de computer werkt altijd met binaire code maar soms is de hexadecimale code makkelijker (voor software) = weergave wordt vaak gevonden in de informatica Wordt gebruikt door **unicode** (met 1 positie, kan je 16 tekens weergeven en met 2 posities kan je 16 tot de 2^de^ macht combinaties weergeven) [**Tekens** (]Waar om is het belangrijk?) = Als je met documenten en bestanden werkt (vooral als ze van oude archieven komen of door verschillende systemen worden bewerkt) kan je problemen krijgen met de encodering - Voorbeeld: Je wilt een bestand openen en er staan rare tekens in (in deze situatie is het niet altijd makkelijk om te weten wat je moet doen) = coderingsproblemen **Enkele voorlopers** = Mensen die probeerden een alfabet te schrijven met tekens (signalen) Francis **Bacon** = schreef een geheime code (baconiaanse code) waarbij elke letter wordt weergegeven door een reeks van vijf symbolen, maar door middel van binaire representatie (Binaire code) = De letter 'A' wordt weergegeven als 'AAAAA' (of 00000 in binaire vorm) Een andere belangrijk man voor informatiewetenschappen (Emile **Baudot**) = een set van 5 bits (de dus 2 tot de 5^de^) dus 32 tekens, twee sets van 32 tekens (één bit gereserveerd om de set te identificeren die je gebruikte, maakte het mogelijk om meer tekens weer te geven) - Vroegere vorm van karaktercodering Hoe kunnen we tekst in de computer schrijven? **1) ASCII-codering** (Amerikaanse standaardcode voor informatie-uitwisseling) = de eerste standaardversie kwam uit in de jaren 60 (eerste keer populariteit) - Elke letter van het alfabet wordt vertegenwoordigd door een byte Ze gebruikten 7 bits (dus konden ze 128 tekens coderen) -- je kon hiermee Latijnse kleine en grote letters schrijven, leestekens, cijfers en controlecode. - Maar problematisch voor letters die niet in het Engelse alfabet voorkomen zoals letters met accenten en speciale tekens van andere talen = **nog meer karakters** nodig - Cijfers: 0-9 - Latijnse Kleine Letters: a-z - Latijnse Hoofdletters: A-Z - Leestekens: Zoals komma's, punten, vraagtekens - Controlecodes = Zoals regelterugloop (carriage return), tab, en andere niet-afdrukbare tekens die worden gebruikt voor tekstopmaak en besturing van apparaten. Omdat ASCII slechts 128 tekens kan coderen, was het problematisch voor het weergeven van letters die niet in het Engelse alfabet voorkomen, zoals letters met accenten (é, ñ, ü, etc.) en speciale symbolen die in andere talen worden gebruikt (diakritische accenten) Sets van 1 byte (8bits) met tekens **Windows 1252** = CP-1252 (tekenset gebruikt voor het coderen van het Latijnse alfabet) - **Single-byte codering** = elk teken wordt gecodeerd met 1 byte (8 bits), wat 256 mogelijke tekens oplevert (zelfde als ASCII-codering) - Standaard gebruikt in de oudere componenten van Engelse documenten (en veel Europese talen zoals Spaans, Frans en Duits) op Windows - Windows-1252 is een uitbreiding van de ISO-8859-1 standaard - Vervangen door unicode omwille van gebrek aan speciale tekens (andere talen) **Nood aan standaarden: Unicode** (1991) Op een bepaald moment waren er zoveel standaarden dat het onmogelijk werd om samen te werken (voorbeeld: Xerox wilden teksten drukken) -- (Apple wou documenten produceren tot verschillende systemen) maar de **codering** was altijd **anders** - Samen hebben ze een Unicode groep ontwikkeld die een unieke standaard wou ontwikkelen voor alle systemen - Het doel was om de Unicode-standaard te ontwikkelen, uit te breiden en te promoten - bestaande karaktercoderingen te vervangen die beperkt zijn in omvang en compatibiliteit met meertalige omgevingen - Het unicode consortium heeft verschillende leden (met stemrecht: Airbnb, Apple, Google, Adobe, Netflix, Meta en Microsoft) **Idee =** om iedereen samen te brengen moest elk teken worden toegewezen aan een uniek getal (codepunt)= het was een translatie tussen tekens en getallen - Als je de letter a wilt weergeven moet je dit nummer meegeven, belangrijk is dat je dat nummer dan ook gebruikt De nummers waren voor **karakters** (het idee, de letter) en niet voor glyphs (de manier waarop het wordt weergegeven) = er zijn verschillende manier om een a te schrijven Elke karakter (code punt): U + \, ieder karakter had zijn eigen code (identifier) = de eerste 256 tekens (waaronder de ASCII-tekens in de unicode- bibliotheek worden weergegeven als één byte (2 tot de 8^ste^) **Karakater versus glyps** = uitzonderingen (die niet duidelijk zijn) **Een karakter** = een abstract symbool, zoals een letter of cijfer (de letter \"A\") **Een glyph** = de visuele weergave van dat karakter (hoe het eruitziet op papier of scherm) - Één karakter, kan meerdere glyphs hebben (afhankelijk van lettertype en taal) Verschillende standaarden voor verschillende talen (unieke karakters) - **Positionele variaties voor Arabisch:** In het Arabisch verandert de vorm van een letter (glyph) afhankelijk van de positie in het woord (begin, midden, eind of geïsoleerd), hoewel het karakter hetzelfde blijft. - **Diakritische combinaties voor het Oudgrieks:** in het Oudgrieks kunnen karakters gecombineerd worden met extra tekens (diakritische tekens) zoals accenten, wat invloed heeft op de weergave (glyph) maar niet het basiskarakter verandert. Elk codepunt (hexadecimaal getal) kan op veel verschillende manieren in binaire code worden weergegeven, volgens verschillende transformaties (één van de bekendste) **UTF-8** (Unicode-transformatie Format -8 bit) is een van die toewijzing aan binaire code = dit is de standaard als we documenten moeten uitwisselen in unicode Het werkt door elk karakter om te zetten naar een reeks van 1 tot 4 bytes (8 bits per byte) - Er zijn ook andere mogelijkheden **UTF-16** (2 of 4 bytes per teken) en **UTF-32** (gebruikt altijd 4 bytes per teken, minder gebruikt) ASCII is komt overeen met zowel Windows als UTF-8, maar de andere (Windows en UTF-8) verschillen onderling (gebruiken andere codes voor extra tekens) **Wat is er gebeurd met die talen?** Hoe zit het met het **Oudgrieks?** Twintig jaar voordat Unicode werd geboren, werden de eerste oplossingen voor het Oudgrieks al voorgesteld (Om ook oud grieks in computer te zetten) **BetaCode** = transliteratieschema van Griekse tekens en diakritische tekens naar Latijnse letters (we gebruiken Latijnse letters om Griekse letters te tonen) - Voorbeeld: in betacode zou een Griekse letter met circonflexe, worden getranslitereerd naar iets als WC=I, waarbij de Latijnse letters en speciale symbolen een combinatie van Griekse tekens en hun bijbehorende accenten representeren Verschillende bronnen zijn nog steeds in bètacode, met enkele inconsistenties -- fouten (voorbeeld: de volgorde van diakritische tekens is nooit hetzelfde) Dankzij de uitbreiding van unicode, in **1996** hebben ze veel meer tekens proberen decoderen ook van archaïsch grieks, met alle accenten die we nodig hebben - Uitgebreid door middel van Supplementary Planes Aanvullende vlakken omvatten: - \"Archaïsch Grieks\", Lineair B, Oud-Griekse getallen, Romeinse tekens voor munteenheid, maten en gewichten, Lineair A en Oudgriekse muzieknotatie. Hoe zit het met **Japans?** = Het Japans heeft meerdere schrijfsystemen: hiragana, katakana, kanji (Complexe codering door de diversiteit van deze schrijfvormen) Één byte niet genoeg dus een double-byte-codering vanwege het hoge aantal tekens (16) - **Shift JIS:** Microsoft-codering, standaard op Windows en Mac (wordt veel gebruikt voor Japanse tekst in software en documenten) - **EUC-Jp** Unix-codering van JIS. (Standaard voor Japanse tekst op Linux) - **UTF-8** Universele codering, die alle tekens van de unicode standaard weergeven (inclusief Japanse tekens) = standaardcodering voor het web **Mojibake** = beschrijft het fenomeen wanneer het compleet fout ging (wanneer tekst werd gedecodeerd (weergegeven) met het verkeerde coderingssysteem) -- onjuiste weergave - Betekent letterlijk 'karaktervervomring' = wanneer de gebruikte tekenset niet overeenkomt met die van de oorspronkelijke tekst (vermeden door UTF-8) Hoe zit het met **Chinees?** Ook een complexiteit door de politiek en de verschillende deelstaten, met verschillende regels (Duizenden tekens dus veel complexer dan Engels -- 26 letters) Verschillende standaarden: - GB (Gubia05) = De GB-standaard, ook bekend als Guobiao, is de officiële tekenset voor **vereenvoudigde Chinese karakters**, voornamelijk gebruikt in China en Singapore. (= Vereenvoudigde karakters zijn een vereenvoudigde versie van traditionele Chinese karakters) - Big5 = een tekenset die wordt gebruikt voor traditionele Chinese karakters. Populair in Taiwan, Hong Kong en Macau. (= Traditionele karakters zijn de oorspronkelijke vorm van Chinese karakters, complexer) Unicode (ondersteunt beide) maar blijft een probleem als ze geen unicode gebruiken - Gebruikt in digitale communicatie, publicaties en software en besturingssystemen Hoe zit het met **Arabisch?** - Schrijven van links naar rechts - Contextuele vorm (tekens in het begin, eind, midden, geïsoleerd = staat los) = Arabische letters hebben verschillende vormen afhankelijk van hun positie De meest gebruikte tekenset is tegenwoordig Unicode, die zowel de volledige tekenset van Arabische als contextuele vormen (in de extensies) ondersteunt Arabizi = is een informele manier (populair op het internet en sociale media) waarop Arabische sprekers hun taal schrijven op internet en sociale media, met behulp van het Latijnse alfabet en cijfers om Arabische klanken weer te geven **[Beelden ]** Digitale afbeeldingen worden gecodeerd als een eenheid (verzameling) van pixels - **Pixels** = eenheden die heel klein zijn, een pixel (eenheid) heeft een effen kleur die kan verschillen van de aangrenzende kleuren, pixels samen = compleet beeld De **resolutie** van een afbeelding geeft het aantal pixels per afbeelding of de dichtheid van de pixels (pixels per inch, PPI) aan (Lage resolutie 1024x768, high definitie: 1 920x1080) - Hoe hoger de resolutie, hoe meer details (scherper en gedetailleerder) **Bits = Pixels** (in het geval van een zwart-wit afbeelding) kan elke pixel weergegeven worden door een bit aan = (aanwezig) of uit = (afwezig) -- slechts twee mogelijke waarden **Binaire code** = In binaire code worden deze twee waarden weergegeven door de getallen 0 en 1. (voorbeeld: 0 kan staan voor zwart en 1 voor wit) **Pixelreeksen** = Een zwart-wit afbeelding bestaat uit een raster van pixels. Elke pixel in dit raster kan worden gecodeerd als een 0 of een 1, afhankelijk van de kleur van die pixel. - Bij kleurenafbeeldingen is dit moeilijker (Hoe codeer je die?) Kleuren verwijzen naar de golflengte van licht (korte golflengten worden waargenomen als **violet** en lange golflengten als **rood**) = Deze uitspraak is analoog, dus hoe kan je dat binair weergeven? **Primaire kleuren** = Alle kleuren zijn een combinatie van drie primaire kleuren (op basis van die kleuren kan je alle andere kleuren vormen) dit systeem gebruiken onze computers - Primaire kleuren RGB kunnen worden gecombineerd om andere kleuren te vormen **RGB-systeem:** - **Rood (R):** De intensiteit van de rode component. - **Groen (G):** De intensiteit van de groene component - **Blauw (B):** De intensiteit van de blauwe component In computerschermen worden kleuren gemengd als \"additieve kleur\", waarbij de combinatie van de drie wit geeft (= elke pixel is in werkelijkheid een combinatie van drie lichtbronnen) **Subpixels** = de afzonderlijke kleurelementen waaruit een pixel op een beeldscherm bestaat (Elke pixel bevat meestal **drie subpixels**: RGB) Elke pixel (bit) kan worden gecodeerd door de combinatie van de lichtlampen (de drie subpixels erin te beschrijven samen vormen ze de **kleur van de pixel** De **kleurdiepte** van de afbeelding geeft aan hoeveel bits je gebruikt om elke pixel te coderen - Hoe meer bits, hoe meer \"tinten\" -- kleuren (extra bit, verdubbelt mogelijke combo's) Als je bits toevoegt, kun je informatie toevoegen over de helderheid - 24 bits kleuren wordt beschouwd als \"**true-color",** omdat het meer is dan wat we kunnen waarnemen! (Onze ogen kunnen niet meer kleuren zien) In een 24-bits kleurensysteem krijgt elke primaire kleur (rood, groen en blauw) 8 bits toegewezen (tegenwoordig, levensechte beeldkwaliteit) = Dit betekent dat elke kleurcomponent 256 verschillende intensiteitsniveaus kan hebben Mogelijke combinaties met **drie** bit **2. Data creëren voor de geesteswetenschappen** We gaan over **twee verschillende termen** praten (deze worden op een inwisselbare manier gebruik maar er is een klein verschil) digitaliseren en beeldvorming **1) Digitaliseren** = impliceert een vorm van conversie (van afbeeldingen omzetten naar tekst) **OCR** (Optical character recognition) = Optische tekenherkenning is een transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding als zodanig worden herkend en apart opgeslagen door een computer - **Technologie die afbeeldingen van tekst omzet in digitale tekst** Valt onder het domein van computer vision (visuele informatie analyseren en interpreteren) **Geschiedenis** - Aan het **begin van de 20e eeuw** waren er al leesapparaten beschikbaar voor mensen met een visuele beperking (tekst laten voorlezen) - **In de jaren \'70** kreeg OCR een sterke impuls door Ray Kurzweil, die apparaten ontwikkelde om blinde mensen te helpen (teksten scannen en omzetten naar spraak) - **In de jaren 2000** kwam Cloud OCR of WebOCR op, waardoor gebruikers OCR-diensten via het internet konden gebruiken (toegankelijker) **Toekomstige Richtingen** - **Verbeterde Nauwkeurigheid:** Voortdurend onderzoek richt zich op het verbeteren van de nauwkeurigheid van OCR, vooral voor complexe scripts - **Integratie met AI:** OCR combineren met kunstmatige intelligentie en machine learning om de contextuele begrip en foutcorrectie te verbeteren. - **Meertalige Ondersteuning:** Uitbreiden van OCR-mogelijkheden om een breder scala aan talen en scripts te ondersteunen. **Verschillende toepassingen** **(1) Kentekenherkenning** = Gebruikt in verkeersbeheer en wetshandhaving om automatisch kentekenplaten van voertuigen te lezen **(2) Documentdigitalisering** = Gedrukte documenten doorzoekbaar en bewerkbaar maken, zoals in Google Boeken. **(3) Realtime Handschriftconversie** = Handgeschreven notities in realtime omzetten naar digitale tekst, nuttig voor notuleren en digitale archivering **(4) Hulpmiddelen voor Visueel Gehandicapten** =Gedrukte tekst omzetten naar spraak of braille om mensen met een visuele beperking te helpen **(5) CAPTCHA Oplossen** = OCR kan worden gebruikt om CAPTCHA-systemen te omzeilen, hoewel dit vaak als een misbruik van de technologie wordt beschouwd = als je moet bewijzen dat je geen robot bent, computers kunnen zich ook zo gedragen Een **geschreven pagina** verwerken = **OCR** richt zich op gedrukte pagina\'s, tewijl **HTR** op de handgeschreven pagina (Handwritten Text Recognition) de workflow is als volgt: **1) Preprocessing** = het beter leesbaar maken van de afbeelding voor de machine (je hebt beelden van een boek of handschrift en zet dat op je computer -- contrast veranderen) = Ruisreductie (verwijderen van markeringen), binarisatie (omzetten naar zwart, wit om het herkenningproces te vergemakkelijken), scheefstandcorrectie (correct uitlijnen) **2) Teksherkenning** = feature extraction (door een complex systeem) = patroonherkenning (herkennen van tekens), kenmerkextractie (analyseren van onderscheidende kenmerken), segmentatie (verdelen in individuele tekens) **3) Postprocessing** = taalkundige informatie (ook verbeteren en evalueren) = spellingscontrole (corrigeren van fouten) en contextuele analyse (context van de tekst) **Belangrijke Componenten van OCR** - Beeldvoorverwerking - Ruisreductie = Verwijderen van ongewenste markeringen of vervormingen in de afbeelding - Binarisatie = Omzetten van de afbeelding naar zwart-wit om het herkenningsproces te vereenvoudigen - Scheefstandcorrectie = Het correct uitlijnen van de tekst als de afbeelding scheef is. - Tekstherkenning - Patroonherkenning = Herkennen van tekens op basis van hun vormen en patronen - Kenmerkextractie = Analyseren van de onderscheidende kenmerken van elk teken om de nauwkeurigheid te verbeteren - Segmentatie = Het verdelen van de afbeelding in individuele tekens of woorden voor eenvoudigere herkenning. - Naverwerking - Spellingscontrole = Corrigeren van fouten in de herkende tekst met behulp van een woordenboek - Contextuele Analyse = Gebruik van de context van de tekst om de herkenningsnauwkeurigheid te verbeteren **2) Beeldvorming** = richt zich op het nabootsen van een (complexe) visuele weergave van het artefact (= ongewenste of vervormde elementen, gevolg van bewerking) **Cultureel erfgoed** = Visuele reproductie van de artefacten (beeldvorming levert veel gegevens op die kunnen worden gebruikt om het object te analyseren -- details ontdekken) Essentieel voor conservering (cultureel erfgoed): de rol van digitalisering - Toegang tot het originele item is minder frequent = ze moeten dit niet elke keer opzoeken (ze hebben digitale reproducties) - Produceert een momentopname van de status van het object op een bepaald moment (de conditie veranderd over tijd) - Legt informatie vast die niet direct zichtbaar is voor het blote oog (details) - Valorisatie/Disseminatie (helpt bij waarderen en verspreiden) **Technieken** - Fotograferen in standaard omstandigheden - **Strijklicht** (raking light) = techniek waarbij licht onder een zeer schuine hoek op een oppervlak wordt gericht en gebruikt om specifieke delen van een object of een scène te accentueren en te belichten (onregelmatigheden in het oppervlak) -- Textuur en reliëf (penseelstreken, veranderingen in een schilderij onthullen) **Pentimenti** (= wijzigingen die de kunstenaar heeft aangebracht tijdens het schilderproces). Gebruiken om de conditie van kunstwerken te beoordelen, zoals het opsporen van craquelé (barstjes in de verflaag) of vervormingen in het doek. - Speculaire verlichting (= maakt duidelijk wat er op de oppervlakte staat, de details) -- licht wordt op het oppervlak gericht, vergelijkbaar met een spiegel = glans benadrukken, opsporen van vervalsingen en toevoegingen Het **hele spectrum benutten** = onze ogen kunnen dit niet zien, maar een camera wel (omvat alle soorten elektromagnetische straling, van radiogolven tot gammastralen) **Infrarood licht** = Dit licht heeft **langere golflengtes** dan zichtbaar licht. Infrarood wordt vaak gebruikt in kunstgeschiedenis en conservatie om onderliggende lagen van schilderijen te onderzoeken, zoals schetsen of eerdere composities die met het blote oog niet zichtbaar zijn. Het kan ook helpen bij het identificeren van materialen en technieken die door de kunstenaar zijn gebruikt. **Ultraviolet licht** = Dit licht heeft kortere golflengtes dan zichtbaar licht. In de kunstgeschiedenis kan het helpen bij het opsporen van restauraties, retouches en vernislagen, omdat sommige materialen onder UV-licht anders fluoresceren. - **Infrarood fotografie** = techniek om meer over informatie over beelden te verkrijgen, door infrarood kunnen ze een vroeger beeld zien = infraroodreflectografie (IRR) - Geholpen bij creatieve processen en het onthullen van vroegere werken - **Ultraviolete fotografie** = toont veranderingen in het materiaal, bijvoorbeeld door restauratie, bepaalde toevoegingen **Een combinatie van multi-light en multi- spectrale beeldvorming** = de Portable Light Dome (KU Leuven heeft dit ontwikkeld) **Multi-light beeldvorming** = Fotometrische Stereo: Dit systeem vangt zowel het gereflecteerde licht als het diffuse licht op, wat helpt bij het verkrijgen van gedetailleerde informatie over de oppervlakte-eigenschappen van objecten (schaduwen en texturen) **Multi-spectrale beeldvorming** = UV (ultraviolet), blauw, groen, rood, en infrarood licht. Dit stelt onderzoekers in staat om informatie te verzamelen die niet zichtbaar is voor het blote oog (chemische samenstellingen en details) - Biedt open-access pixel-viewer met veel mooie voorbeelden **3. Data creëren voor de geesteswetenschappen** **Object van studies** in de geesteswetenschappen (teksten, objecten, beelden, maar ook muziek, reacties.) kunnen worden omgezet in data - We kunnen een discrete representatie krijgen op basis van de binaire codering in de informatica (**Geen één-op-één relatie** van object naar voorstelling) Er moeten altijd keuzes gemaakt worden (Je moet kiezen welke soort fotografie of met welk soort teksten, is er veel informatie waarover je moet beslissen als je met teksten werkt, de lay-out, de handschriften...) = elke keer als je een studie begint met data moet je nadenken welke data je nodig hebt Enkele voorbeelden: - **Digitalisering van handgeschreven documenten:** Beslissen of je de tekst wilt omzetten naar bewerkbare digitale tekst via OCR, of een afbeelding - **Selectie van inhoud:** digitaliseren van een boek moet je beslissen welke delen je wilt opnemen. Wil je alleen de tekst, of ook de afbeeldingen, voetnoten en marges? - **Resolutie en kwaliteit:** Bij het scannen van een foto moet je kiezen welke resolutie je gebruikt. Een hogere resolutie vangt meer details, maar resulteert in grotere bestanden. Een lagere resolutie is efficiënter (opslag en verwerk) - **Filteren en ruisonderdrukking:** digitaliseren van analoge gegevens moet je beslissen of je filters wilt toepassen om ruis te verminderen kwaliteit van de representatie beïnvloeden, omdat sommige details verloren gaan Afhankelijk van het soort informatie en de manier waarop ze zijn gecodeerd: (Kunnen we een onderscheid maken) **Twee** grote onderscheidingen: **Data versus Metadata** **Data (gegevens)** = verwijzen normaal gesproken naar de weergave van het studieobject (De tekst, de afbeelding, het artefact...) **Metadata (gegevens)** = coderen informatie over het object (gegevens over de gegevens) -- Staat niet in de dataset zelf maar omvat informatie over de dataset Voorbeelden van Metadata: (die zitten in een catalogus) - Tijdstip van het maken van de dataset (Publicatiedata) - Entiteit die de gegevens set vertegenwoordigt (ik heb dit geschreven, auteur) - Hoe het kan worden gebruikt (publiekdomein) Metadata kunnen op veel verschillende manieren worden gestructureerd en gecodeerd - Voor cultureel erfgoed zijn verschillende standaarden (= om informatie te coderen) **1) MARC (Machine-readable cataloging) 21 (21^st^ century)** MARC 21 (Forrnat for Bibliographic Data) = is ontworpen als drager voor **bibliografische informatie** over gedrukt en manuscript tekstueel materiaal, computerbestanden, kaarten, muziek, doorlopende bronnen, visueel materiaal en gemengd materiaal te **representeren** Bibliografische gegevens (informatie) = omvatten gewoonlijk titels, namen, onderwerpen, notities, publicatiegegevens en informatie over de fysieke beschrijving van een item. - Ontwikkeld Henriette Avram in de Amerikaanse Library 0f Congress in de jaren \'60. Nu kunnen Marc21 -bestanden worden gecodeerd volgens een **XML-schema** **2) Dublin Core Metadata Element Set** = en standaard voor het beschrijven van verschillende soorten bronnen, zowel digitaal als fysiek (**1995** ontwikkeld in Dublin, Ohio) - **Simple (core)** -- eenvoudige bron bestaat uit 15 elementen die basisinformatie over een bron bieden (titel, onderwerp, taal, relatie...) Oorspronkelijk ontworpen voor het beschrijven van webbronnen (nu uitgebreid om allerlei soorten bronnen te beschrijven) -- en ook een uitgebreide (qualified) dublin core - **Dublin Core Metadata Initiative (DCMI):** Dit is de organisatie die verantwoordelijk is voor het onderhouden en ontwikkelen van de Dublin Core-standaarden **3) Bibframe** Een ander verschil over data is **gestructureerde, semi-gestructureerde en ongestructureerde** **1) Gestructureerde data** = Dit zijn gegevens die worden opgeslagen in een zeer georganiseerde vorm, meestal in databases. Ze volgen een bepaald datamodel, zoals tabellen (in relationele databases), met rijen en kolommen -- meer of minder complex Voorbeeld: Key-value paren, identifiers (zoals een klant-ID), of zelfs meer complexe structuren zoals grafendatamodellen **(met OpenRefine)** **Definitie** = Gestructureerde gegevens hebben een vooraf gedefinieerd \"model\" en worden geformatteerd volgens een bepaalde gegevensstructuur voordat ze worden opgeslagen - Toegankelijker voor software en vergemakkelijkt het begrip van de inhoud (tabel) Voorbeelden: tabellen, relationele databases, Linked Data, Graph databases = makkelijker als een tekst die eigenlijk **geen** structuur heeft **Hoe maken we een tabel?** = Idealiter wordt het datamodel (hoe gaat de tabel eruitzien?) duidelijk geschetst **voordat** met de dataverzameling wordt begonnen Je moet een bachelor schrijven en moet alle scholen waar Grieks wordt gegeven vinden, en hiervan een structuur maken ( een Excel document maken en kiezen, wat ga je precies gebruiken van gegevens?) -- Je moet **KEUZES** maken 1\) Een enkele tabel, of meerdere aan elkaar gerelateerde tabellen (relationele database), of een \'grafiek\'- model, wat is de beste optie? **(Keuze van het formaat)** 2\) identificeert de categorieën die u wilt vastleggen en de eigenschappen van deze categorieën **(gegevensmodellering)** -- Welke soort informatie, Wat zijn de velden? 3\) Kiezen welke standaarden u wilt implementeren bij het coderen van uw data **(datastandaardisatie)** -- moeilijkste! = om dit goed te standaardiseren, iets dat leesbaar is en waar er een standaard is (geen herhalingen en/of dingen die overeenkomen) **Tabellen en andere formaten** **Relationele databases** = Gegevens worden opgeslagen in tabellen die via sleutels aan elkaar zijn gekoppeld. (Relaties tussen verschillende gegevenssets) **Linked Data** = Een formaat om gegevens op het web met elkaar te verbinden en doorzoekbaar te maken via unieke identificatoren, vaak gebruikt voor het semantisch web - URL\'s (Uniform Resource Locators) = om unieke identificatoren voor gegevens aan te wijzen **Graphdatabases** = Gegevens worden weergegeven als knooppunten (records) en relaties (links) ertussen, ideaal voor complexe, sterk verbonden gegevens zoals sociale netwerken **Je eerste tabel maken** = Je zou kunnen denken dat het maken van tabellen een eenvoudige bewerking is, maar dat is het echt niet (er zijn **3 principes**) - Elke **variabele** moet een eigen **kolom** hebben = een variabele is wat je wilt weten over iets - Elke **waarneming** moet een eigen **rij** hebben - Elke **waarde** moet een eigen **cel** hebben **Elke variabele moet een eigen kolom hebben** Wat is een **variabele**? = Een geheugenlocatie met waarden van een bepaald type, en het is een attribuut of kenmerk van uw gegevenspunten Twee hoofdsoorten variabelen: categorisch en numeriek - **Categorische waarden** = worden vertegenwoordigd door een bepaalde waarde in een groep mogelijkheden - De merken van granen - De politieke voorkeur - Ook elementen met ranglijsten, bestellingen of beoordelingsschalen - **Numerieke waarden** zijn getallen die in het algemeen maten of hoeveelheden vertegenwoordigen **Elke waarneming moet een eigen rij hebben** **Een waarneming** = is de eenheid die je waarneemt (observeert) Voorbeeld: Voor een studentendatabase is het een enkele student, met zijn ID, Voor een bibliotheekcatalogus is het een enkel boek - Belangrijk om goed na te denken over wat jouw unit is Voorbeeld: is het in een catalogus het enkele exemplaar van het boek, of de editie? Voor de datasets van studenten, als een student in verschillende bachelors is ingeschreven, neem je deze dan meerdere keren op? Niet zo makkelijk om te bepalen wat een waarneming is (Wat wil je beschrijven?) **Elke waarde moet een eigen cel hebben** De **juiste splitsing** van informatie is niet altijd eenvoudig Voorbeeld: Is een bereik (400 v.Chr. - 200 n.Chr.) een waarde of maakt de maateenheid deel uit van de waarde (3 cm) of niet? - Als er twee waarden zijn voor één waarneming, hoe ga je daar dan mee om? = **Vermijd** het samenvoegen van cellen in rijen, lijnen. **2) Ongestructureerde data** = zijn raw texts en afbeeldingen (gegevens die niet in een vooraf bepaald model passen) -- geen vaste structuur dus moelijker voor computers **[Tekst ]** - Voor het extracten van informatie zijn technieken nodig zoals: text mining (= analyseren van grote hoeveelheden tekst om nuttige informatie te vinden) en Natural Language Processing (= tak van kunstmatige intelligentie, gebruikt om tekst te begrijpen, te interpreteren en te genereren) **[Audio-visuele data ]** - Deep learning (= sub-onderdeel van machine learning, complexe patronen in data te herkennen, gebruikt voor beeld- en spraakherkenning) - Object Recognition (= objecten in een afbeelding of video identificeren en labelen, gezichtsherkenning en voertuigen) - Voice recognition (= de technologie die spraak omzet in tekst, Siri) - Speech-to-text transcription (= het proces waarbij gesproken taal wordt omgezet in geschreven tekst, gebruikt in toepassingen zoals ondertiteling en transcriptieservices) **3) Semi-gestructureerde data** = zijn gestructureerde data die niet voldoen aan het \'tabulaire\' model, maar nog steeds tags van andere soorten markers bevatten om elementen te scheiden. Het schema erachter kan min of meer rigide (complex) zijn. - Vallen tussen gestructureerde en ongestructureerde data (**Meestal XML)** Deze soort systemen leren over de structuren en dan kunnen ze hetzelfde vinden in andere teksten (machinaal leren, leren door te herhalen) XML (format) -- er is een structuur maar die kan veranderen (semi-gestructureerd) = betekent **Extensible Markup Language** - A Markup Language is een systeem om een document te annoteren (notities te maken) op een manier die visueel te onderscheiden is van de inhoud. - Het werkt met een structuur die gebaseerd is op **tags** (soort labels), die aangeven wat de verschillende delen van de gegevens zijn - Het helpt bij het structureren en organiseren van informatie binnen een document Voorbeeld: - Redacteuren maakten vroeger aantekeningen met potlood en papier (bijvoorbeeld bij het proeflezen, delen markeren zonder de eigenlijke inhoud te veranderen. - In een digitale omgeving is dit precies wat XML doet: het voegt \"aantekeningen\" (tags) toe aan de gegevens zonder ze visueel te beïnvloeden = Wanneer de tekst wordt weergegeven, verschijnt de opmaaktaal niet, terwijl de inhoud wel verschijnt (niet zichtbaar voor de eindgebruiker, maar de inhoud zelf wel) Deze zijn visueel te onderscheiden van de rest van de tekst **Hoe werkt het?** Een opmaaktaal is gestructureerd rond **tags** die aangeven wat de delen van de tekst zijn (bij een boel kunnen tags er als volgt uitzien: titel, auteur, jaar...) - XML zegt niet **hoe** deze gegevens moeten worden getoond (bijvoorbeeld in een grote letter), het zegt alleen **wat** de gegevens zijn = scheiding tussen inhoudsbeschrijving en ontwerp De visuele weergave (ontwerp) van de XML-tags wordt in aparte documenten behandeld XML is **'uitbreidbaar'** omdat de gebruiker elke benodigde tag kan maken, deze kan beschrijven en de mogelijke toepassingen ervan kan identificeren **Waarom is het handig?** Het is ontwikkeld door het World Wide Web Consortium om specifiek de publicatie van documenten op internet aan te pakken we ontwikkelen een schema - Flexibel formaat = kan het gebruikt worden om allerlei soorten informatie te structureren en delen, van eenvoudige tot complexe gegevens **TEI** (om orde te brengen in deze codering) = voor taalkunde, literaire wetenschap en teksten The Text Encoding Initiative = is een internationaal samenwerkingsverband dat richtlijnen ontwikkelt voor de weergave en structurering van teksten in digitale vorm - Gestart in de **jaren \'80**, eerste release 1994 De TEI-richtlijnen = een specifiek XML-formaat dat wordt gebruikt om teksten op verschillende niveaus van **detail** te coderen = Dit kan variëren van eenvoudige tekststructuren zoals hoofdstukken en alinea\'s, tot complexere elementen zoals historische annotaties of literaire interpretaties Verschillende graden van precisie (detail) -- granulariteit - Van een globale structuur coderen tot specifieke passages Sommige hoofdstukken van de richtlijnen, zoals weergave van primaire bronnen (= coderen van primaire bronnen zoals manuscripten en archiefstukken) of het kritische apparaat, richten zich rechtstreeks op de praktijk van digitale edities, maar hebben over het algemeen een **bredere reikwijdte** Gebruikt in: 1\) Digitale edities van literaire werken (= om de tekst, annotaties, voetnoten... te coderen) 2\) Historische documenten 3\) Wetenschappelijke publicaties 4\) Linguïstische corpora (= markeren van grammaticale structuren, lexicale items...) Hoorcollege 3: Analyseren van tabelgegevens **Inleiding** In het **1^ste^ deel:** De tabel gebruiken als een verzameling records, die bepaald gedrag in de loop van de tijd vertonen en die we cumulatief kunnen analyseren In het **2^de^ deel** : zullen we aan de hand van een tabel relaties opsporen, gebruik maken van de zogenaamde netwerkanalyse. **Distant reading** We lezen en bestuderen slechts een klein deel van alle literatuur, vooral **de "canon**" (= de bekende en vaak erkende meesterwerken) Er zijn echter tienduizenden boeken, vooral uit de 19e eeuw, die nooit gelezen zijn en waarschijnlijk nooit zullen worden. = Dit laat zien hoe beperkt onze kennis van literatuur eigenlijk is, omdat er zoveel "onontdekte" werken bestaan, wat Margaret Cohen het \'grote ongelezen\' noemt - **TL,DR = Too Long, Didn't Read** (Dit is een samenvatting van een lange tekst, bedoeld voor snelle lezers of mensen met weinig tijd) - **TM,DR = Too Much, Didn't Read** (wat vaak wordt gebruikt als een tekst niet alleen lang, maar ook te complex of overweldigend is) **Close reading** = (grondige analyse van tekst) werkt vooral voor een kleine groep bekende werken, de "canon". Maar als je verder wilt kijken naar wereldliteratuur schiet dit tekort - **Distant reading** Volgens Franko **Morreti,** distance reading = betekent dat we literatuur bestuderen zonder elk individueel werk gedetailleerd te lezen (close reading), een **afstandelijke blik** op de literatuur te werpen door grote hoeveelheden teksten te analyseren met behulp van **statistieken, grafieken en kaarten**. Hierdoor kunnen **patronen en trends** in de literatuur worden geïdentificeerd die anders onzichtbaar zouden blijven (digitale hulpmiddelen) Hoe? (In plaats van elk boek volledig te lezen) - Parateksten (voorwoorden, inleidingen, omslagen), samenvattingen, secundaire literatuur = teksten over teksten - Doel van afstand lezen is om een breed overzicht te krijgen - focussen op kleinere eenheden dan een enkele tekst (bijvoorbeeld woorden, waarvan je de verdeling in een groot corpus zou analyseren) - Grotere eenheden door twee sets teksten met elkaar te vergelijken, of door te kijken naar de evolutie van titels over een groot tijdsbestek Deze benadering heeft een lange voorgeschiedenis in de sociale wetenschappen en de taalkunde voor literaire analyses **Computers** Met behulp van computers kunnen onderzoekers nu **volledige corpora** (grote verzamelingen teksten) analyseren (Dit maakt distant reading complementair aan close reading) - Onderzoekers kunnen hypothesen testen en patronen opsporen **Nieuwe methoden** voor onderzoek in de geesteswetenschappen - Distant reading wordt toegepast op verschillende domeinen, wij gaan ons focussen op de analyse van tabel(gegevens), nadien tekstuele gegevens en visuele bronnen Enkele **voorbeelden** - Reflecties op zevend duizend titels (= in het begin waren de titels langer, nu worden ze korter) Er is competitie op de markt, dus wordt de titel een manier om de aandacht van de koper te trekken en hen te overtuigen je boek te kopen - De evolutie van de lengte van titels wordt gebruikt om de veranderingen in de markt van Engelse romans in de 18e-19e eeuw te begrijpen - Titels beginnen namen te gebruiken, om het persoonlijker en makkelijker om te onthouden te maken (de opkomst van eigennamen) - Er wordt **geen commentaar** gegeven op de inhoud van de boeken, maar op de titels (één soort metadata) op de dataset te analyseren - Piekdata maken het mogelijk om gekoppeld te worden met de geschiedenis - Hij verankert de bevindingen zowel in relatie tot literaire trends als tot de bestaande maatschappelijke fenomenen **Tabellen analyseren** Ik heb een schone tabel, wat kunnen we nu doen? = Tabel over een instelling, een plaats, iets dat interessant is, nu moeten we interessante **categorieën identificeren** om onderzoeksvragen te beantwoorden Databases over de geesteswetenschappen hebben vaak een diachrone dimensie (= het bestuderen van iets door de tijd heen, oftewel de historische ontwikkeling ervan) Voorbeelden: datum van inschrijving, datum van publicatie van oude boeken - Mogelijke onderzoeksvraag: is de omvang van de gilden in de loop van de 17^de^ eeuw veranderd? Wat waren de meest productieve auteurs in de 16^de^ eeuw? **Twee aspecten** die belangrijk zijn voor humane wetenschappen (onderzoek): **1) De diversiteit van de data** (niet zo gemakkelijk om te tellen) Één soort kleur tegenover twee soorten kleuren, het is interessant om te weten **hoe divers** een dataset is, Voorbeeld: hoeveel verschillende auteurs, hoeveel woorden ( Data heeft verschillende groten en maten, dus hoe moeten we dit vergelijken? - **Diversiteitsindexen** van de Ecologie In de ecologie zijn er verschillende indexen ontwikkeld om de diversiteit van ecosystemen te volgen, aangezien diversiteit in de natuur wijst op gezondheid - 1^ste^ index: (richness), **rijkdom** = het aantal verschillende soorten of waarden Voorbeeld: Hoe rijk is de woordenschat? (enkel blauw = 1 en blauw en groen = 2) - 2^de^ index: **de Shannon-index** = een maat voor biodiversiteit die rekening houdt met zowel het aantal verschillende soorten als de verdeling van individuen over deze soorten (een hogere Shannon-index betekent meer diversiteit) - Zegt meer als we kijken naar de diversiteit van volgende gegevens Verwant met Entropie in de informatietheorie = meet de mate van onzekerheid of willekeur in een systeem (hoe hoger de Shannon-index, hoe groter de diversiteit en dus de onzekerheid, willekeur) - Shannon is de vader van de informatietheorie (uitvinder van 'de bit') Formule: ![](media/image12.png) **Bias in datasets van de geesteswetenschappen** = een historische vooringenomenheid die de analyses beïnvloeden (aangezien datasets worden samengesteld, gedigitaliseerd en gedeeld binnen een specifieke historisch context) - Detecteren we historische patronen? Of patronen die de samenstelling van bepaalde datasets weerspiegelen? (Onmogelijk te vermijden, maar belangrijk te erkennen) - Collecties zijn altijd het resultaat van selectie = dit vertekend de resultaten van statistische analyse ernstig Enkele voorbeelden: (minder relevant, gewoon weten) 1\) 2011, Google Arts and Culture (GA&C) is een platform dat miljoenen afbeeldingen van kunstwerken van over de hele wereld host, met als doel cultuur toegankelijker te maken - Het artikel onderzoekt hoe GA&C een onevenwichtige vertegenwoordiging van kunstwerken vertoont (vooral van de VN), waarbij sommige landen en instellingen worden voorgetrokken (niet representatief voor 'alle' kunstwerken) **Geografische** vooringenomenheid = bijna alle kunstwerken komen uit de Verenigde Staten, kunstwerken uit hoofdsteden (Parijs, Moskou) domineren terwijl diegene uit de provincies ondervertegenwoordigd zijn, de culturele lens van de VS is versterkt Door de **tijd** bepaalde vooringgenomenheid = De meeste kunstwerken zijn uit de 20e eeuw, Dit kan leiden tot een vertekend beeld - minder aandacht naar de oudere en niet-westerse kunst - GA&C is niet representatief en evenwichtig - Dominantie van 20e-eeuwse materialen - Ongelijke vertegenwoordiging van landen (enkel de grote landen en instellingen) 2\) De aanwezigheid van oude griekse en latijnse klassiekers in het vroegmoderne Engeland = De herontdekking van klassieke auteurs zoals Plato (filosofie) en Galenus (medicijnen) speelde een cruciale rol in de overgang van middeleeuws naar modern denken. - Hernieuwde belangstelling van enkele baanbrekende auteurs, eerste imitatieprocessen gevolgd door snelle verspreiding (drukpers) De studie van deze klassiekers is diep verankerd. Klassiekers bleven relevant dankzij hun opname in onderwijs en vertalingen, met de drukpers als sleutel voor hun verspreiding. Nieuwe, grootschalige onderzoeksmethoden maken het mogelijk om: - Een vogelvlucht overzicht te krijgen van het fenomeen - Aannames over het belang van bepaalde auteurs te herzien (=bias) - De invloed van de auteurs statistisch te toetsen De klassiekers werden in kaart gebracht aan de hand van = **(1) ESTC** (english short-title catalogue = Bevatten metadata over vroegere boeken, kranten en tijdschriften) voor de 19de eeuw, niet meer beschikbaar door hackers), **(2) ESTC authors** (= informatie over auteurs), (3) Trismegistos **authors** (= onderzoeksgroep van de faculteit letteren) - Analyse aan de hand van VIAF identifiers (= een database die unieke identificatiegegevens verstrekt voor opmerkelijke personen) **Kernpunten** - Er is een piek van \"diversiteit\" in klassieke publicaties in de tweede helft van de 17e eeuw, gevolgd door een afname van de diversiteit - Voor gevolgen voor de \"kleine auteurs\", degenen die zelden worden gedrukt - Een reeks gevestigde auteurs lijkt steeds meer \"zichtbaarheid\" te krijgen (cannolisatie van de klassieke literatuur) - Toename van belang (Horatius, Aristoteles), Afname van belang (Plutarchus, seneca) en relatief stabiel (Terence en Aesopus) Gegevens bevatten verschillende relaties die het onderwerp van de studie kunnen zijn Voorbeeld: Welke gildeleden werkten samen? **[Netwerkanalyse]** = een algemeen overzicht van de totale set relaties die we in een datatset kunnen waarnemen en stelt ons in staat om deze relaties te bestuderen met een kwantitatieve benadering Netwerkanalyse is gebaseerd op de grafentheorie, een gebied van de wiskunde dat werd uitgevonden door Leonard Euler, een van de beroemdste wiskundigen van de afgelopen eeuwen, met het beroemde probleem van de zeven bruggen van Königsberg **De grafentheorie** van Leonard Euler (beroemde wiskundige) -- 'het probleem van de zeven bruggen van köningsberg' = de vraag hier was, kan men over alle zeven bruggen lopen zonder twee keer een brug over te steken en te eindigen waar ze begonnen? - Elk gebied wordt vertegenwoordigd door een **knooppunt** en twee knooppunten zijn met elkaar verbonden als er een brug is tussen de twee gebieden = onmogelijk! Netwerken worden gebruikt om enkele praktische vragen te beanwtoorden (wiskundig) - Hoe kan ik de kortste weg tussen twee punten vinden? - Hoe kan ik de meeste efficiënte weg vinden zodat ik de minste afstanden doe? De netwerkanalyse verschoof naar de sociologie **Het sociogram** van Moreno en Jennings (maatschappij en netwerken) = vertegenwoordigde de keuzes en voorkeuren binnen een groep mensen, sterren zijn punten met veel keuzes (veel vrienden) en diegenen die niet veel keuzes hebben zijn geïsoleerd **Zes graden van scheiding** van Karinthy (maatschappij en netwerken) = technologische vooruitgang maakt communicatie en reizen gemakkelijker, dus ze geloofde dat alle mensen via maximaal zes kennissen (doorgangen) met elkaar verbonden konden zijn - Fenomeen van de krimpende wereld (technologische vooruitgang, heeft reizen en communicatie gemakkelijker gemaakt, dit maakt het idee van de zes graden van scheiding nog relevanter en verwijst naar de perceptie dat de wereld 'kleiner' wordt door verbeterde communicatiemiddelen en transport) Het concept van de zes graden van scheiding kan worden geanalyseerd met behulp van netwerkanalyse. In een sociaal netwerk betekent dit dat de gemiddelde afstand tussen twee willekeurige personen in het netwerk ongeveer zes stappen is = de \"kleine-wereld-eigenschap\" **De kracht van zwakke banden** van Granovetter (maatschappij en netwerken) = zwakke schakels (of ondirecte paden) zijn cruciaal in de verspreiding van informatie, deze mensen met zwakke banden (met niet veel gemeenschappelijke vrienden) = fungeren als bruggen naar verschillende informatiekanalen - Zwakke banden verbinden ons met mensen buiten onze directe sociale kring. Deze contacten kunnen ons toegang geven tot nieuwe informatie, ideeën en kansen die we anders niet zouden hebben (bijvoorbeeld, een kennis die je niet vaak ziet) **Toepassingen voor onderzoek** - **Gechiedenis** = Over de manier waarop in de 15de eeuwste Florencese Medidici (beroemde familie) een heel sterk netwerk van verschillende contacten had gecreërd (makkelijk de macht krijgen en daar heersen) - **Taalkunde** = netwerk waar woorden worden gelinkt door hun syntactische relaties - **Literatuurwetenschap** = karakternetwerken, om relaties tussen personages in werken te beschrijven (interacties tussen personages) - **Archeologie** = om ruimtelijke connectiviteit in het verleden weer te geven, contacten coderen die voortkomen uit materiële cultuur (hetzelfde bronmateriaal) De studie van netwerken heeft een sterke toename gehad in de 21^ste^ eeuw, door een grotere beschikbaarheid aan gegevens (door het World wide web, sociale netwerken en pandemiën, die ook door netwerken, besmettingen kunnen worden bestudeerd) Wat is een **[netwerk]** (grafiek) = geordend paar gevormd door een set knooppunten en een set randen - G=(V,E) **Knooppunten (**knot) = de entiteiten die je bestudeerd (mensen, teksten, woorden...) - V= (A,B,C,D) **Unimodaal** (slechts één soort entiteit) of **multimodaal** (verschillende soorten entiteiten en relaties, vooral bij een bimodaal netwerk, met twee soorten knooppunten) Multimodaal= Om complexe informatie weer te geven **Randen** (edges) = de schakels tussen de knooppunten (een paar knooppunten), randen geven ene relatie tussen knooppunten aan (gedeelde activiteit, communicatie...) - E = \[(A,C), (A,E)\] - **Gericht** = Asymmetrische relatie, waar de relaties niet gelijk zijn aan elkaar Voorbeeld: en brief aan mijn moeder is niet hetzelfde als een brief aan mijn - **Ongericht** = symmetrische relatie, geen specifieke richting Voorbeeld: is getrouwd met, is bevriend met... - **Gewogen** = kwantitatief bezit van randen, registreert de sterkte van de link Voorbeeld: aantal uitgewisselde mails, aantal keren dat woorden voorkomen - **Ongewogen** = netwerk van auteurs, netwerk van vrienden Hoe kunnen we een netwerk vertegenwoordigen? - Lijsten met randen en knooppunten (het gewicht tussen deze relaties) - Een matrix = (een reeks getallen die kan worden gebruikt voor algebraïsche bewerkingen) waarin de combinatie van elke rij en kolom een knooppunt is, waarbij de cel een nummer heeft dat het gewicht van de link tussen de twee knooppunten weergeeft (geen link = 0) Wat kunnen we met een netwerk? - Visualisaties (= bij het visualiseren van een netwerk, merk je de geïsoleerde groepen snel op, dit geeft je een eerste idee over de relaties binnen je dataset) - Analyses op lokaal en globaal niveau **[Analyse op lokaal niveau ]** **1) Rol** van knooppunten = elk knooppunt heeft een specifieke rol en invloed afhankelijk van de 'degree' van de verbindingen met andere knooppunten Degree (graad) = het aantal randen dat een knooppunt raakt (hoeveel contacten) - In het geval van een **gerichte grafiek** - **In-degree** (aantal randen waarvan TARGET het knooppunt is) - **Out-degree** (aantal randen waarvan SOURCE het knooppunt is) Voorbeeld: ik schrijf enorm veel brieven naar anderen, maar krijg er nooit terug, in dit geval is er een hoge out-degree en lage in-degree - In het geval van **gewogen grafieken**: gewogen (in of out) graad is de **gewogen som** van (inkomende of uitgaande) randen ![](media/image14.png) A heeft een degree (graad) van **5**, en G heeft een degree (graad) van **2** **2) Centraliteitsmetingen** = manier om te bepalen hoe belangrijk een knooppunt is Knooppunten kunnen hetzelfde degree hebben, maar een **verschillende 'functie'** = er zijn enkele parameters die de impact van verschillende soorten rollen meten - Betweennes centrality = meet de snelheid van het kortste pad dat door het knooppunt gaat, Het meet de functie van de node als \"brug\" in het netwerk Voorbeeld: een stad waar veel wegen samenkomen, een hoge betweennes centrality - Closeness centrality = meet hoe dicht een knooppunt zich bij de rest van het netwerk bevindt, Het meet hoe \"gemakkelijk\" het is voor elk knooppunt om de andere te bereiken Voorbeeld: in een sociaal netwerk kan iemand met een hoge closeness centrality, snel contact leggen met andere, makkelijk om informatie te verspreiden - Eigenvector centrality (google pagerank) = meet het aantal en de kwaliteit van de verbindingen van een knooppunt, Een node heeft een hoge centraliteit als de verbinding ook zeer invloedrijk is in het netwerk 3\) **Gemeenschapsdetectie en clustering** = je probeert groepen of clusters binnen het netwerk te vinden, die onderling sterker verbonden zijn dan met de rest - Doel =het identificeren van clusters van knooppunten die intern dicht met elkaar verbonden zijn, en losjes verbonden zijn met de andere gemeenschappen. Zeer nuttig om groepen actoren te identificeren die de neiging hebben om veel op elkaar in te werken/samen voor te komen. **[Analyse op globaal niveau ]** = focus op de **algemene** strucuur van het netwerk en op de verdeling ervan in grote subgrafieken - **volledig verbonden**/componenten = een groep knooppunten waarin elke knoop direct met elke andere knoop verbonden is - volledig verbonden grafiek - volledige subgraaf, kliek - componenten de behandeld worden als afzonderlijke grafieken - **Graadverdeling** = toont aan hoe de verbindingen verdeeld zijn onder de knooppunten - **Gemiddele graad** = gemiddeld aantal links per knooppunt - Ongerichte grafieken (2^E^/N) - Gerichte grafieken E/N - **Diameter** (middelijn) = beschrijft de maximale afstand binnen het netwerk, de afstand tussen de twee verste knooppunten (een idee van de breedte) - De korte afstand tussen de twee verste knooppunten - **Dichtheid** = geeft aan hoeveel verbindingen er zijn in verhouding tot het aantal knooppunten (hoge dichtheid, veel knooppunten onderling verbonden) Met m, **aantal randen** en n, **aantal knooppunten**: aantal actueel randen over aantal mogelijk randen (= is de dichtheid) Hoorcollege 4: Analyseren van tekstuele gegevens **Inleiding** De mogelijkheid om via distant reading een volledige corpus te bestuderen - Hoe kun je teksten of een deel van teksten **karakteriseren** binnen een groot corpus? Enkele mogelijke onderzoeksvragen: - Zijn er teksten waarvan de woordenschat bijzonder onderscheidend is binnen mijn corpus? - Kunnen we overeenkomsten zien tussen teksten op basis van auteur/genre/tijdperk? - Kan ik mijn teksten **clusteren** op basis van hun **stijl**? - Hoe kan ik een beeld krijgen van de thema\'s die aan bod komen? Distant reading wordt gebruikt om een algemeen idee te krijgen van de inhoud Er zijn **verschillende benaderingen** om deze vragen op te lossen: **Vocabulaire analyse** = een onderzoeksmethode waarbij gekeken wordt naar het gebruik van woorden binnen een tekst(en) Doel begrijpen welke woorden het meest voorkomen, welke variatie er is in woordkeuze, en wat dit zegt over de **stijl**, het **thema** of de **bedoeling** van de auteur - Analyse van de woordenschat = het blootleggen van de aanwezigheid van specifieke concepten? Brede stilistische tendensen? **Voorbeeld -- case study** Tekst mining voor historisch onderzoek "Mining Medical Journals: Religion and Ideology in Nineteenth-Century Medicine" (veel **expertise** komt samen) - Gebasseerd op drie gedigitaliseerde kranten uit België van de 19^de^ eeuw Het **[corpus]** bestaat uit: \(1) Bulletin de l'Académie Royale de Médecine de Belgique (BARMB), **katholieke als liberaal** \(2) Journal de Médecine, de Chirurgie et de Pharmacologie (JMCP) **Liberale oriëntatie** \(3) Journal des Sciences Médicales de Louvain (JSML) met een **katholieke oriëntatie** - Waarom die kranten? Kranten met verschillende ideologische redeneringen Onderzoek naar de rol van ideologie in het 19^de^ eeuwse belgische geneeskunde discours, (Het gebruik van religieuze en ideologische taal in medische tijdschriften en hoe deze reflecteren op de maatschappelijke spanningen in die tijd) OCR (Optical Character Recognition) = wordt gebruikt om tekst in gescande documenten, te herkennen en om te zetten naar bewerkbare en doorzoekbare digitale tekst, door de Koninklijke bibliotheek van België - XML, PDF Moeilijkheden = moeilijk te lezen letterypes, woorden met kopelteken en tabellen/figuren - Nabwerking met R (programeertaal) Onderzocht door middel van **[(Methodologie)]** - Tekst mining = het proces van het automatisch analyseren van grote hoeveelheden tekst om patronen, trends en inzichten te ontdekken - 186.000 pagina's onderzocht - AntConc = Gebruikt om relevante **passages** te vinden rond bepaalde trefwoorden - Gebruikersvriendelijke tool om woorden te zoeken in grotere corpus - "concordantie" tool toont ook de context waarin dit woord werd gebruikt - De frequentie van specifieke termen analyseren (hoeveelheid en context) **[Resultaten ]** - Religieuze en ideologische termen namen sterker toe tijdens de schoolstrijd, vooral in kleine artikelen en politieke stukken, maar minder in wetenschappelijke artikelen de schoolstrijd (= een gepolariseerd debat over de rol van religie in onderwijs) - Katholieke artsen gebruiken vaker negatieve termen zoals "materialist" om liberale tegenstanders te bekritiseren, terwijl liberale auteurs dit minder deden - Ideologische uitspraken kwamen vaker voor in Leuvense (katholieke) tijdschriften, waar katholieke artsen ideologische conflicten vaker op de spits dreven. Verder bleken ideologische uitdrukkingen vooral in bepaalde secties en vergaderverslagen te duiken, wat artsen de mogelijkheid gaf om een wetenschappelijk imago te behouden terwijl ze toch betrokken bleven bij maatschappelijke debatten - Inzicht in de **gebieden** en verschillende **genres** (ideologische uitdrukkingen) Het project toont zo hoe ideologische verdeeldheid de medische discours beïnvloedde **Stylometrie** Overeenkomsten vinden tussen teksten op basis van (formele) taalkundige kenmerken = een techniek (door bepaalde kenmerken te onderzoeken) om de schrijfstijl van auteurs te analyseren door patronen in taal, woordenschat en zinsstructuur (lengte) te bestuderen - Hoe onbewuster de keuzes van de kenmerken, hoe beter Kwantitatieve benadering en het identificeren van "vingerafdrukken" = **expressie** - Achterhalen wie de auteur van een tekst is, "the author association" Verschillende soorten analyses mogelijk = het opsporen van literaire genres, genderverschillen, chronolgische clustering..., bekendste vorm - **[Auteurschapsattributiestudies]** Concrete **toepassing** Twee situaties **(1)** **Een anonieme tekst toeschrijven** aan een van een aantal potentiële kandidaten, wordt vaak gedaan voor oudere teksten of wetsdocumenten (iets achterhalen) Je neemt de anonieme teksten, je creeërt een vector en je plaatsts die in een ruimte, nu kan je op basis van de afstand, kijken van welke auteur de anonieme teks kan zijn (Door te kijken welke van de auteurs het dicht bij de anonieme tekst ligt) **(2)** Een **reeks anonieme teksten** die we willen **clusteren,** om te weten welke waarschijnlijk van dezelfde auteur zouden zijn Verschillende technieken voor clustering worden toegepast - Agglomeratieve hiërarchische clustering - Groepeert eerst teksten die erg op elkaar lijken - Vervolgens worden die groepen samengevoegd op basis van gelijkenis Patrick Juola is de maker van de R-package stylo die bekend is in het gebruik van stylometrie **Voorbeeld -- case study** In 2013 kwam een roman genaamd "The cuckoo's calling" uit, geschreven door een niet-bekende schrijver, een mysterieuze tweet beweerde dat de auteur J.K Rowlings was - De schrijvster van Harry Potter Patrick Juola, werd ingezet om het mysterie op te lossen (maker van JGAAP) Bij de analyse werd rekening gehouden met **vier functies** - Woordlengte, hoe zijn de woordlengtes verdeeld in het corpus - De 100 meest voorkomende woorden (The, he, since, when) - In plaats van rekenen voor woord per woord, gaat hij een reeks van vier letters (tekens) identificeren = die samen voorkomen (frequentie van letters) - De units van twee woorden, hoeveel keer je \'my name\' gebruikt in plaats van de woorden appart ( groep van twee woorden) -- woordbigrammen = tendensie om dezelfde woorden met elkaar te associëren Gebruikte een corpus van vier vrouwelijke auteurs, met gemeenschappelijke kenmerken (vrouwen, vergelijkbaar genre en binnen hetzelfde tijdsperk) - Resultaten: de tekst van J.K Rowling was de enige die consequent overeenkwam, dus ze gaf toe dat zij effectief te auteur was **Document-term matrix (een tabel)** - Rijen = documenten (zoals boeken, artikelen of teksten) - Kolommen = woorden of termen - Cel = hoe vaak een bepaald woord in een bepaald document voorkomt (frequentie) Elk document wordt dus als een rij (vector) in deze tabel voorgesteld, die de de frequentie codeert van elk woord dat aanwezig is in het 'corpus' - Zo'n rij van nummers noemen we een **vector** (= kun je zien als punten in een ruimte) Vectoren van dimensie 'N' (= N aantal woorden) vertegenwoordigen punten in een N-dimensionale ruimte (één dimensie voor elk woord, dus als we 1.000 verschillende woorden hebben, is elke vector een punt in een 1.000-dimensionale ruimte) = **Elk punt is een tekst** Om de dimensie van de vectoren te verkleinen, wordt alleen een selectie van termen opgenomen, meestal de meest voorkomende termen **[Afstanden]** tussen documenten berekenen = Door de "afstand" tussen twee van die punten (of vectoren) te meten, kun je zien hoe vergelijkbaar twee documenten zijn - Als twee documenten bijna dezelfde woorden gebruiken in vergelijkbare frequenties, zullen hun punten in deze ruimte dichtbij elkaar liggen Afstandsmaten (om de afstand te beoordelen) - Euclidische afstand = (de rechte lijn tussen twee punten) - Burrows\' delta = een methode om te meten hoe sterk twee teksten op elkaar lijken op basis van hun woordgebruik - Hoeveel de woordfrequentie (hoe vaak elk woord voorkomt) in twee documenten afwijkt van het gemiddelde woordgebruik voor hele corpus - Eerst berekenen we hoe vaak elk woord gemiddeld voorkomt (corpus) - Nu kijken we hoe de frequentie van elk woord in tekst A en tekst B afwijken van dit gemiddelde voor elk woord - Dan bereken je het verschil tussen deze waarden voor elk woord en neem je het gemiddelde van die verschillen Dat gemiddelde verschil is de **Burrows-delta** tussen de twee documenten - Hoe lager de Burrows' delta, hoe meer de teksten op elkaar lijken, hogere waarde betekent dat er meer verschil is in de manier waarop de teksten woorden gebruiken In **1987** publiceerde John Burrows "Computation into Criticism: A Study of Jane Austen\'s Novels and an Experiment in Method" = Dit werk vormd de basis voor computationele stilistiek (pionier in de toepassing van hoofdcomponentenanalyse op taalgegevens) **Topic modeling** = (de verdeling van) bredere **thema's/onderwerpen** binnen jouw corpus idendtiificeren op een automatische manier -- statistische methode om abstracte onderwerpen te ontdekken "Topics" zijn clusters van vergelijkbare woorden (die altijd samen voorkomen) - Onderliggende idee: De betekenis van woorden is afhankelijk van het gezelschap, als je woorden altijd samen gebruikt is dit een teken van hun betekenis **Latente Dirichlet-allocatie (LDA)** - (bekenste model voor deze taak) = een statistisch model dat automatisch onderwerpen in een verzameling teksten vindt - Gebaseerd op Bayesiaanse waarschijnlijkheid Idee elk document bestaat uit een mix van (niet-waargenomen verschijnselen) onderwerpen die de verdeling van de (waargenomen) woorden in de tekst kan verklaren = welke onderwerpen kunnen we identificeren op basis van de woorden? Voorbeeld: Er zijn thema\'s die niet expliciet in de tekst staan, maar die in het hoofd van de auteur zitten en als resultaat het gebruik van woorden of de frequentie gaan veranderen - Teksten over eten of over voetbal Software **MALLET**, gebruikt om LDA uit te voeren **Belangrijke stap** in het modeleren van onderwerpen = het verwijderen van de juiste stopwoorden (de\", \"en\", \"is\")die heel vaak voorkomen in de tekst maar niets specifieks zeggen over het onderwerp model \"verwarren\" en de resultaten minder interpreteerbaar **1^ste^ voorbeeld -- case study** Het dagboek van **Martha Ballard,** een vroedvrouw uit de 18e eeuw, schreef 27 jaar lang\ over het dagelijkse leven in haar tijd - Van onschatbare waarde voor inzicht in het leven van vrouwen Cameron Blevins gebruikte MALLET om dit dagboek te analyseren (navigeren door grote hoeveelheid informatie, en ontdekte 30 onderwerpen, waaronder: - MIDWIFERY (verhalen over haar werk als vroedvrouw), GARDENING (beschrijvingen van landbouw en tuinieren) en CHURCH (activiteiten en geloofsbeleving) **[Resultaten ]** = het gebruik van deze onderwerpen werd geanalyseerd en in kaart gebracht - Het onderwerp **huishoudelijk werk** neemt in de loop van haar leven toe, de laatste jaren van haar leven had ze hier meer mee te maken - Het onderwerp **emotion**, kent een piek rond de jaren die moeilijk bleken - Binnen een jaar de cyclisctische evolutie te analyseren zoals, gardening schreef ze meer over in de maanden mei, juni en juli (groeimaanden) Om te bereken hoe een onderwerp toeneemt, bereken je welk percentage woorden in de tekst bij dat onderwerp horen (stijgingen en dalingen) **2^de^ voorbeeld -- casestudy** Een ander voorbeeld met literaire teksten = onderzoekt het verschil tussen twee genres: tragedie en komedie in het Franse drama Komedie, tragedie en tragikomedie De volgende woorden komen heel vaak samen voor in teksten, dus deze kunnen makkelijk een **topic** vertegenwoordigden (visualisatie van woordwolken, hoge (groote lettergrootte) en lage algemene onderwerpwaarschijnlijkheid Soorten **topics** - Abstracte thema's: liefde, dood, misdaad en huwelijk - Dramatische personages: familieleden en hun rol in verhalen - Concretere onderwerpen: instellingen en omgevingen - Specifieke activiteiten: activiteiten uitgevoerd door personages Literaire teksten veranderd de betekenis van het woord "onderwerp" verandert = "onderwerpen" zijn niet alleen **abstracte thema's** maar ook **concretere activiteiten** en **settings** die typisch zijn voor fictieve personages, zoals schrijven, eten, drinken... - Uit de onderwerpscore = Tragedie en komedie tonen duidelijk verschillende onderwerpen, terwijl tragikomedie slechts één onderscheidend onderwerp heeft Elk document in het corpus krijgt een vector (= een rij getallen, waarbij elk getal aangeeft hoe sterk een document met een bepaald topic te maken heeft) - Het probleem: **[te hoge dimensies]** **Principal Component Analysis (PCA)** = is een techniek die wordt gebruikt om in een 2D dimensie vectoren te projecteren die behoren tot hogere dimensies (dimensionaliteitsreductie), waarbij de datavariatie zoveel mogelijk behouden blijft - Er wordt gezocht naar de beste projectie (invalshoek) zodat de **verschillen** tussen teksten worden weergegeven, die richtingen die de meeste variatie bevatten tussen documenten dat zijn de hoofdrichtingen - Analyse van **die twee componenten** (horizontaal en verticaal) maakt het mogelijk om de drie genres te onderscheiden Ook gebruikt voor andere toepassingen, mening van mensen op sociale media, commercieël **Distant reading voor afbeeldingen** Kunnen we visuele kenmerken van grote collecties afbeeldingen gebruiken om artistieke en culturele trends beter te begrijpen = cultural analytics Distant reading (analysetchnieken) kan je ook toepassen op collecties van beeldmateriaal - Dit soort onderzoek gaat trager dan tekstuele analyse Omdat het niet makkelijk is om een afbeelding te segmenteren, voor teksten en databases is het gemakkelijk om de **eenheid** te identificeren (het woord, de rij, de cel..), voor beelden kunnen pixels de eenheid zijn = een start **Werken met [pixels]** Lev Manovich (sleutelfiguur in de definitie van het vakgebied Culturele analyse) - Eigenschappen van de pixels worden gebruikt om de visualisatie van beelden te bestuderen, om stilistische informatie (kenmerken te ontdekken) over de pixels en een statische evaluatie om dit beter te begrijpen Corpus met **twee series** van mangas (van dezelfde auteur) - Kan ik iets zeggen over de stijl in de grote dimensie? Methode omvat **twee stappen**: \(1) **Extraheren** van visuele kenmerken in afbeeldingen met digitale beeldverwerking (kleuren, lijnen, contrast, randen = extractie van veelvoorkomende kenmerken) en beschrijvende statistieken over pixels \(2) **2D-visualisaties** die de functies gebruiken om de afbeeldingen langs de twee assen te ordenen: op de x-as kunt u bijvoorbeeld de helderheidsmediaan weergeven en op de y-as de verzadigingsmediaan Hiervoor maakt hij gebruik van **twee statistische maten**, namelijk - **De standaarddeviatie** = maat voor hoe verspreid rond het gemiddelde de getallen in een dataset zijn (zie de zwarte stippellijn) **[Voorbeeld:]** Je hebt een groep van mensen en wilt de leeftijd analyseren, als de leeftijden dicht bij elkaar liggen, is de standaarddeviatie laag (rode straaf) Als de leeftijden sterk variëren, is de standaarddeviatie hoog (blauw) -- sterk gespreid = Het helpt je te begrijpen hoe ver de meeste getallen van het gemiddelde afwijken - **De entropie** (van Shannon) = een maat die zegt hoeveel variatie je in je dataset hebt Zelfde formule als voor de diversiteit (les 3) Twee datasets met verschillende kleuren (mate van onzekerheid in de gegevens) - Afbeelding die uit een paar **monochrome gebieden** bestaat = lage entropie - Veel details en texturen = hoge entropie **1^ste^ voorbeeld -- casestudy** Voor de **standaarddeviatie** - Berekend voor de grijswaarden van de pixels = grotere grijswaarden, grotere standaarddeviatie (aan de rechterkant) Voor de **entropie** - De pagina\'s met een lage entropie = bestaan uit een klein aantal vlakke gebieden, met minimaal detail en geen textuur - De pagina\'s met hoge entropiewaarden = hebben veel detail en textuur **2^de^ voorbeeld -- casestudy** Gebasseerd op een grote verzameling afbeeldingen om de perceptie van bepaalde concepten bij het publiek te bestuderen - Edward Said, Orientalism, 1978 Culturele studies die beweren dat het 'Westen' hun idenditeit identificeren in contrast met de wereld van de 'Oosterse ander' (om koloniale onderwerping te rechtvaardigen) Het wetenschappelijke en artistieke veld van het oriëntalisme hebben een "contrasterend beeld" van de westerse, geïndustrialiseerde wereld gecreeërd - De Oriënt werd voorgesteld als statisch, on- of onderontwikkeld en niet-rationeel - De Oriënt werd ook gezien als mysterieus, sensueel en seksueel geremd Artisten tonen een stereotiep beeld van de oosterse wereld (door gebruik van kleur) **De kleuren van het Oosten** - Onderzoekt het gebruik van kleur in visueel oriëntalisme (uit een collectie van beelden die foto's van **westerse en oosterse** plaatsen tonen) photochroom = kleuren werden toegevoegd door een drukker of printer en zijn dus niet te vinden in de originele foto Autochromen: Kleuren worden gefixeerd tijdens de natuurlijke belichting, de originele kleuren die de realiteit van de foto weergeven **Methodologie** - AI-modellen (nemen als input de kleuren en hun relatieve frequenties) -- voorspellen - Als een afbeelding een autochrome of een photochrome is - Als het Oriënt of Westen vertegenwoordigt **Resultaten** - fotochromes en autochromes beelden kunnen alleen onderscheiden worden op basis van kleuren (verschillende perceptie) - Alleen een onderscheid tussen Oriënt en Westen op basis van kleuren voor de fotochrome-collectie (= kleuren toegevoegd door de drukkers, die een bepaald idee van de Oriënt hadden) - Niet te onderscheiden op bais van de autochrome-collectie (= kleur afgeleid van de interactie tussen licht en de fotografische plaat, waardoor een meer neutraal perspectief van de Oriënt en het Westen werd representeerd) In de photochrome collecties zijn er kleuren (beige en kaki) die vaak met het Oosten worden geasocieërd (vooroordelen in het hoofd van de drukker) Hoorcollege 5: Het web, hoe werkt het? **Geschiedenis van het internet** **Het internet** Een wereldwijd systeem van verbonden computernetwerken dat gebruikmaakt van het Internetprotocol (TCP/IP) voor communicatie tussen netwerken en apparaten - Het internet bestaat uit homogene standaarden die worden geïmplementeerd op heterogene hardware = Het werkt dankzij uniforme standaarden die toegepast worden op diverse hardware, wat zorgt voor compatibiliteit en interoperabiliteit. **Hoofdcomponenten van de hardware:** 1. **Servers**: slaan gegevens en toepassingen op. 2. **Switches**: verbinden apparaten binnen een lokaal netwerk. 3. **Routers**: sturen datapakketten tussen netwerken. 4. **Kabels en glasvezel**: verzorgen fysieke datatransmissie. 5. **Modems**: zetten digitale data om voor verzending via analoge lijnen. **Modem** Een modem maakt informatiesignalen geschikt voor transport via analoge telefoonlijnen, kabels, of draadloze verbindingen. **Packet switching** Gegevens op het internet worden verzonden via **packet switching**, waarbij gegevens worden opgedeeld in kleinere pakketten die elk een deel van de informatie bevatten, samen met bestemming- en volgorde-informatie. Deze pakketten volgen **individuele routes** door het netwerk en worden bij aankomst samengevoegd tot het oorspronkelijke bericht **Packet Switching:** - **Werking**: Pakketten kunnen verschillende paden volgen, wat zorgt voor flexibiliteit bij overbelasting of netwerkuitval. - **Voordelen**: - **Efficiëntie**: Dynamisch gebruik van netwerkbronnen zonder verspilling (omdat ze enkel de benodigde brandbreedte gaan gebruiken) - **Schaalbaarheid**: Ondersteunt veel gebruikers en apparaten door aanpasbare netwerkcapaciteit aan de vraag - **Robuustheid**: Alternatieve routes bij defect vergroten betrouwbaarheid - **Kosteneffectiviteit**: Lager beheer- en uitbreidingskosten dankzij efficiënt gebruik van netwerkbronnen **Circuit Switching (vroegere technologie, zoals telefoonlijnen):** - **Werking**: Opzetten van een toegewijd communicatiekanaal voor de volledige duur van de transmissie (ongeacht of er continu gegevens worden verzonden of niet) - **Nadelen**: - Inefficiënt gebruik van netwerkbronnen bij inactieve transmissie. **Belang van Packet Switching:** Deze technologie biedt de flexibiliteit, betrouwbaarheid en schaalbaarheid die essentieel zijn voor de wereldwijde gegevensuitwisseling op het moderne internet ![](media/image18.gif) Wanneer werd **packet switching uitgevonden** = Verschillende onderzoekers ontwikkelden het idee in de jaren \'60 in de VS en VK (fundamenten) De eerste experimenten met packet switching werden in hetzelfde decennium uitgevoerd, met als een van de belangrijkste voorbeelden **het ARPANET-project** - Eerste grootschalige packet-switched netwerk - Opgericht door het Advanced Research Projects Agency (ARPA) van het Amerikaanse Ministerie van Defensie - Doel = om computers bij Pentagon-gesponsorde onderzoeksinstellingen te verbinden via telefoonlijnen, waardoor middelen en informatie konden worden gedeeld - Het verbindt universiteiten en onderzoeksinstellingen in de VS - Werd in 1971 operationeel verklaard en er werden verdere software softwareontwikkelingen geïntroduceerd = vroege vorm van e-mail **Implementatie van TCP/IP** in 1983 markeerde een belangrijke mijlpaal en maakte het mogelijk om verschillende netwerken samen te voegen tot een netwerk van netwerken - Uitvinders = Bob Kahn en Vint Cerf **Bob Kahn** - Betrokken bij de ontwikkeling van ARPANET - Ontwikkelde het Transmission Control Protocol (TCP) en IP **Vinton Cerf** - Werkte mee aan het ARPANET-project waar hij betrokken was bij de ontwikkeling van het network control protocol (NCP), de voorloper van TCP en IP - Werkte samen met Kahn aan het Internet Protocol (IP) - Later speelde hij een sleutelrol in de **ontwikkeling van het internet** **Uitbreiding van het internet** = In de jaren 90 was er een wereldwijde groei van het internet door de uitvinding van het world wide web, waarbij verschillende landen/gebieden verschillende toegang tot het internet kregen Cruciale rol bij de **wereldwijde uitbreiding** van het internet - Onderzeese glasvezelkabels = Essentieel voor wereldwijde internetconnectiviteit en gegevensoverdracht tussen continenten Factoren die toegang beïnvloeden - Goede infrastructuur en welvaart verhogen internetpenetratie - Gebrek aan investeringen, economische uitdagingen en politieke instabiliteit beperken de toegang - Grote verschillen tussen stedelijke en landelijke gebieden, met stedelijke gebieden die beter verbonden zij De eerste transatlantische glasvezelkabel = **TAT-8**, werd in 1988 in gebruik genomen **Geschiedenis van het world wide web** = Het internet werd in de jaren \'80 aanzienlijk uitgebreid over de **hele wereld** In 1989 doet Tim Berners-Lee zijn eerste voorstel aan de CERN (Europese Organisatie voor Nucleair Onderzoek) en stelt hypertext voor als de sleutel tot het beheren van interne informatie, gebaseerd op de structuur van het client-servernetwerk **Aard van het world wide web** - **Hypertext** = tekst met direct activeerbare hyperlinks (verwijzingen) - Dit maakt niet-lineair lezen mogelijk - **Client/server netwerk** - een client server netwerk stuurt een client een verzoek naar de server om een webpagina of data op te halen **Belangrijkste onderdelen van het word wide web** **(1) Unieke ID's voor bronnen op het web, later URL genoemd** = of Uniform Resource Locator is het adres dat we in de zoekbalk van de browser typen om een bepaalde website te bereiken - Dit adres wordt vervolgens vertaald in een IP-adres dat de server identificeert - Vertaling door DNS (Domain Name Service) servers - Wanneer de query (websiteadres) aan de DNS-service wordt verstrekt, wordt een IP-adres geretourneerd - Potentiële zwakke punten: - Als er problemen zijn met het DNS-protocol, is het onmogelijk om websites te bereiken - Beveiligingsbedreigingen - Denial of service (= het overspoelen van een DNS-server zodat deze stopt met het verstrekken van adressen aan de gebruikers) - Spoofing of Hijacking (= records in DNS-server worden gewijzigd zodat de verkeerde IP-adressen verstrekt worden, kwaadaardige sites) **Protocol** = geeft aan welk protocol gebruikt wordt, zoals http of https - Gebruikte versleuteling (SSL/TLS) zorgt ervoor dat de gegevens niet gemakkelijk kunnen worden onderschept of gelezen door onbevoegden **Domein** = Dit is het unieke adres van de website **Pad** =Dit verwijst naar een specifieke pagina of locatie op de website **(2) HTML (hypertext Markup Language)** - zie leermodule drie **(3) Hypertext Transfer Protocol (HTTP)** = wordt gebruikt in de toepassingslaag, het is de meest abstracte communicatielaag tussen client en server Client (meestal een webbrowser) stuurt verzoeken naar de server Soorten verzoeken (voorbeelden) - **GET** = Ophalen van gegevens van een server - **POST =** Verzenden van gegevens naar een server om een bron te creëren of bij te werken - **PUT** = vervangt alle huidige representaties van de doelresource door de inhoud van de aanvraag **De statuscode** geeft aan hoe de overdracht heeft plaatsgevonden 200 = Alles is goed gegaan 404 = Pagina niet beschikbaar 303 = Doorverwijzen naar een andere pagina **Verschillende stadia van het web** - **Web 1.0** = De Beginfase (1990-2000) - Statische pagina\'s, voornamelijk leesbaar (read-only) - Online woordenboeken zonder reactiemogelijkheid - **Web 2.0** = Gebruikersparticipatie (2000-2010) - Interactieve en dynamische inhoud - Gebruikers kunnen content creëren en delen (read/write) - Sociale media, blogs, commentaar en tagging - **Web 3.0** = De Toekomst (2010-heden) - Semantisch web, intelligent en intuïtief - Verbeterde gegevensverwerking en personalisatie - Integratie van AI en IoT **Centralisatie van het web** = Aanvankelijk was het internet een netwerk van netwerken Met zijn uitbreiding en groei, samenvallend met de overgang naar het Web 2.0, werd het web echter steeds meer gecentraliseerd Twee factoren worden als essentieel beschouwd: - De **rol** van **de browser** - De **rol** van **zoekmachines** **Browsers** = Een webbrowser is een applicatie waarmee gebruikers websites kunnen bezoeken door webpagina\'s van een server op te halen en weer te geven. De populariteit van webbrowsers nam een grote sprong met de introductie van Mosaic, later Netscape genoemd ('killer application) - Mosaic maakte als eerste de inline weergave van afbeeldingen mogelijk, wat het web aantrekkelijker maakte voor niet-technische gebruikers **Browsers wars** Een entiteit die werd geboren als een gedecentraliseerd netwerk, gaf de ruimte voor marktoorlogen dat afzonderlijke particuliere bedrijven de toegang tot het world wide web overnamen (Chrome) **Zoekmachines** = is een softwaresysteem dat hyperlinks en andere relevante informatie biedt op basis van een gebruikersquery - Vroeger werd het World Wide Web handmatig geïndexeerd = Tim Berners-Lee beheerde een lijst van webservers, gehost op CERN - Yahoo! Search was de eerste populaire zoekmachine - De Doorbraak van Google - onderscheidde zich door een algoritme dat zoekresultaten rangschikte op relevantie, bekend als **PageRank** (algoritme achter de Google-zoekmachine) Het web wordt gezien als een gericht netwerk = de knooppunten zijn de pagina\'s en de randen zijn de hyperlink van de ene pagina naar de andere - Elke link van de ene webpagina naar de andere fungeert als een stem voor de ranking - Pagina\'s met veel inkomende links worden als belangrijk beschouwd - Niet alle stemmen zijn gelijk - Links van belangrijke pagina\'s wegen zwaarder dan links van minder belangrijke pagina's (simuleert het gedrag van een willekeurige surfer) - Hoe groter de kans dat iemand op een pagina terechtkomt, hoe hoger de rang van die pagina ![](media/image21.png) **De [invloed] van zoekmachines** - 1^st^ invloed = Bias - Sommige pagina\'s worden (per ongeluk of expres) weggelaten door het indexeringsproces - Advertenties spelen een rol bij het geven van meer zichtbaarheid aan bepaalde pagina\'s - In de VS gevestigde websites lijken meer bekendheid te krijgen - Politieke keuzes - 2de invloed = Filter Bubble - **Eli Pariser** bedacht de term rond 2010 - Het fenomeen = Google de neiging heeft om ons resultaten te tonen die zijn afgestemd op onze eigen opvattingen en interesses - Google zou informatie van onze zoekopdrachten en persoonlijke informatie van de gebruiker exploiteren en dat is Idem voor sociale media (newsfeed) - Dit ver