Antwoorden Vragen Inleiding tot de Digitale Tekstanalyse PDF

Summary

This document contains answers to questions about digital humanities and methods of digital text analysis. It discusses topics including digital humanities projects and analysis techniques. It also addresses concepts such as "born digital" texts, close and distant reading, corpora and the history of digital humanities.

Full Transcript

lOMoARcPSD|36293610 Antwoorden vragen Inleiding tot de Digitale Tekstanalyse Inleiding tot de digitale tekstanalyse (Universiteit Gent) Scannen om te openen op Studocu Studocu wordt niet gesponsord of ondersteund door een hogeschool of unive...

lOMoARcPSD|36293610 Antwoorden vragen Inleiding tot de Digitale Tekstanalyse Inleiding tot de digitale tekstanalyse (Universiteit Gent) Scannen om te openen op Studocu Studocu wordt niet gesponsord of ondersteund door een hogeschool of universiteit Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - **Overmatig vertrouwen op technologie:** Kritiek Antwoorden dat DH te afhankelijk is van technologische tools, soms ten koste van diepgaande interpretatie. vragen Inleiding - **Toegankelijkheid en tot de Digitale inclusiviteit:** Niet alle onderzoekers hebben gelijke Tekstanalyse: toegang tot de benodigde technologieën en middelen. - **Interdisciplinair spanningsveld:** Soms moeilijkheden bij de samenwerking tussen - Wat zijn digital humanities? geesteswetenschappers en technici. Digital Humanities (DH) is een interdisciplinair vakgebied dat digitale technologieën en - Wat is digitale computationele methoden toepast op traditionele tekstanalyse? geesteswetenschappelijke disciplines zoals literatuur, Digitale tekstanalyse is het gebruik van geschiedenis, en filosofie. Het doel is om nieuwe computermethoden om teksten te analyseren en te manieren te vinden om data te analyseren, te interpreteren. Dit kan onder meer omvatten: het presenteren en te interpreteren. identificeren van patronen, het analyseren van tekststructuur, en het uitvoeren van statistische analyses op tekstuele gegevens. - Geef een voorbeeld van een DH project en toon aan dat - Wat is close en distant het zoals veel DH projecten reading? een multidisciplinair en - **Close reading:** Een gedetailleerde, aandachtige empirisch projecten is analyse van een relatief klein tekstfragment om Een voorbeeld van een DH-project is "Mapping the diepere betekenissen en nuances te ontdekken. Republic of Letters", dat de correspondentie van intellectuelen tijdens de Verlichting in kaart brengt. - **Distant reading:** Het gebruik van Dit project is multidisciplinair omdat het historici, computationele methoden om grote hoeveelheden computerwetenschappers en cartografen tekst te analyseren en algemene patronen en trends samenbrengt. Het is empirisch omdat het grote te identificeren. hoeveelheden data verzamelt en analyseert om netwerken en patronen te ontdekken. - Waar moet je op letten bij het verzamelen van corpora? Bij het verzamelen van corpora moet je letten op: - Beschrijf kort de - **Relevantie en representativiteit:** Zorg dat de geschiedenis van DH corpus relevant is voor je onderzoeksvraag en De geschiedenis van DH begon in de jaren 1940 en representatief is voor de bredere context. 1950 met de eerste experimenten in computergebruik - **Kwaliteit en nauwkeurigheid:** Zorg voor voor tekstuele analyse. De term "Digital Humanities" kwalitatieve, nauwkeurige en foutvrije teksten. werd in de vroege jaren 2000 populair. De afgelopen decennia hebben snelle technologische vooruitgangen - **Ethiek en rechten:** Respecteer auteursrechten en de opkomst van big data de ontwikkeling van DH en ethische overwegingen bij het gebruik van teksten. verder gestimuleerd. - Wat zijn de voornaamste punten van kritiek op DH? Voornaamste punten van kritiek op DH zijn: Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - Wat is het verschil tussen - **PDF (Portable Document Format):** Een “born digital” en “analoge” bestandsformaat voor het presenteren en uitwisselen van documenten, inclusief tekst, afbeeldingen, en teksten? interactieve elementen, onafhankelijk van software, - **Born digital:** Teksten die oorspronkelijk in hardware, of besturingssysteem. digitale vorm zijn gemaakt, zoals e-mails en webpagina's. - Wat zijn sense inventories? Sense inventories zijn databases of woordenboeken - **Analoge teksten:** Teksten die oorspronkelijk in die de verschillende betekenissen (senses) van fysieke vorm zijn gemaakt, zoals boeken en woorden bevatten, zoals WordNet. handgeschreven documenten, en later gedigitaliseerd zijn. - Hoe kan je teksten - Wat zijn de twee digitaliseren? Wat is OCR? voornaamste beperkingen bij Teksten kunnen gedigitaliseerd worden door ze te het doorzoeken en analyseren scannen en vervolgens Optical Character Recognition van corpora als je geen (OCR) te gebruiken. OCR is een technologie die gescande beelden van tekst omzet in bewerkbare en annotaties toevoegt? doorzoekbare digitale tekst. - **Gebrek aan context:** Zonder annotaties kan het moeilijk zijn om de juiste context en betekenis van woorden en zinnen te bepalen. - Wat is een - **Ambiguïteit:** Het kan lastig zijn om semantische bestandsformaat? Wat zijn de en syntactische ambiguïteit op te lossen zonder twee hoofdsoorten van aanvullende annotaties. bestandsformaten? Wat is een extensie? - Wat zijn de verschillende - **Bestandsformaat:** De structuur waarin data in een bestand is opgeslagen. niveaus van ambiguïteit in natuurlijke taal? Leg kort uit - **Hoofdsoorten:** Tekstgebaseerde formaten (zoals en geef telkens een.txt,.html) en binaire formaten (zoals.jpg,.pdf). voorbeeld. - **Extensie:** De aanduiding aan het einde van een - **Lexicale ambiguïteit:** Een woord met meerdere bestandsnaam die het type bestandsformaat aangeeft betekenissen (bijv. "bank" kan een financiële instelling (bijv..txt,.pdf). of een zitplaats zijn). - **Syntactische ambiguïteit:** Een zin met meerdere grammaticale structuren (bijv. "I saw the man with - Wat is HTML? Waarvoor the telescope" kan betekenen dat je een man met een staat de afkorting HTML? telescoop zag, of dat je een man zag door middel van HTML (HyperText Markup Language) is een een telescoop). opmaaktaal voor het creëren van webpagina's en webapplicaties. - **Semantische ambiguïteit:** Onzekerheid over de betekenis van een zin (bijv. "He gave her cat food" kan betekenen dat hij haar kattenvoer gaf, of dat hij haar kat eten gaf). - Wat is een PNG/PDF bestand? - **Pragmatische ambiguïteit:** Onzekerheid over de - **PNG (Portable Network Graphics):** Een intentie of context (bijv. "Can you pass the salt?" kan rasterafbeeldingsformaat dat verliesloze compressie een verzoek zijn of een vraag over iemand's fysieke biedt. vermogen). Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - **Syntactische annotatie:** Annoteren van de syntactische structuur van zinnen (bijv. subject, - Wat is het verschil tussen object). polysemie en homonymie? - **Semantische annotatie:** Annoteren van de - **Polysemie:** Eén woord met meerdere betekenis en relaties van woorden en zinnen (bijv. gerelateerde betekenissen (bijv. "head" als in "hoofd named entities, coreferentie). van een lichaam" en "hoofd van een organisatie"). - **Homonymie:** Eén woord met meerdere ongerelateerde betekenissen (bijv. "bat" als in "vleermuis" en "bat" als in "slagknuppel"). - Wat is WordNet? Wat is - Analyseer het volgende Cornetto? voorbeeld van ambiguïteit - **WordNet:** Een grote lexicale database van het Zonder een specifiek voorbeeld kan ik deze vraag niet Engels, waarin woorden zijn gegroepeerd op beantwoorden, maar de aanpak zou zijn om te betekenis en synoniemen, antoniemen en identificeren welke vorm van ambiguïteit aanwezig is hiërarchieën worden aangegeven. (lexicaal, syntactisch, semantisch, pragmatisch) en te beschrijven hoe die ambiguïteit ontstaat en mogelijk - **Cornetto:** Een vergelijkbare lexicale database kan worden opgelost. voor het Nederlands. - Wat is inter-annotator agreement? Waarom is het - Geef een definitie van belangrijk om inter-annotator “annotatie” te berekenen? Annotatie is het proces van het toevoegen van extra Inter-annotator agreement meet de mate van informatie of metadata aan een tekst, zoals tags, overeenstemming tussen verschillende annotatoren. labels of notities, om de tekst beter te begrijpen of te Het is belangrijk omdat het de betrouwbaarheid en analyseren. consistentie van de annotatieprocessen aangeeft. - Wat zijn de belangrijkste types van annotaties? - **Linguïstische annotatie:** Labels voor taalkundige - Wat zijn collocaties? kenmerken zoals POS-tags, syntactische structuren, of Collocaties zijn combinaties van woorden die vaak semantische rollen. samen voorkomen (bijv. "sterke kofÏe," "hoog gebouw"). - **Inhoudelijke annotatie:** Labels voor inhoudelijke aspecten zoals onderwerpen, thema’s, of sentiment. - **Structurele annotatie:** Labels voor de structuur - Wat zijn concordanties? van een tekst, zoals alinea's, hoofdstukken, of secties. Concordanties zijn lijsten van alle voorvallen van een woord of frase in een corpus, samen met hun omringende context. - Geef de verschillende soorten taalkundige annotaties en leg kort uit. - Wat is stylometrie? Geef - **POS-tagging:** Annoteren van woorden met hun een toepassing en voorbeeld. part-of-speech (bijv. zelfstandig naamwoord, Stylometrie is de studie van stilistische kenmerken van werkwoord). teksten, vaak gebruikt voor auteursherkenning. Een Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 voorbeeld is het toeschrijven van anonieme werken - Wat zijn typische problemen aan bekende auteurs door analyse van voor de bag-of-words schrijfstijlkenmerken. modellen? - **Verlies van context:** Bag-of-words houdt geen rekening met de volgorde of context van woorden. - Wat is authorship attribution? Wat is - **Dimensionaliteit:** De vectoren kunnen zeer groot worden bij grote vocabulaire. forensische taalkunde? - **Authorship attribution:** Het bepalen van de - **Synonymie en polysemie:** Woorden met auteur van een tekst door analyse van stilistische dezelfde of meerdere betekenissen worden niet kenmerken. adequaat onderscheiden. - **Forensische taalkunde:** Het toepassen van taalkundige kennis en methoden op juridische zaken, zoals het analyseren van getuigenverklaringen of - Wat is TF-IDF? Hoe bereken dreigbrieven. je TF-IDF (conceptueel, niet de formule). Waarom is het - Wat is Type-token ratio? nuttig om TF-IDF scores te Hoe bereken je TTR? Type-token ratio (TTR) is een maat voor lexicale gebruiken in plaats van diversiteit, berekend door het aantal unieke woorden absolute frequenties? TF-IDF (Term Frequency-Inverse Document Frequency) weegt woorden af op basis van hun (types) te delen door het totale aantal woorden frequentie in een specifiek document en hun (tokens) in een tekst. zeldzaamheid in de hele corpus. Dit helpt om belangrijke termen te identificeren die niet alleen frequent voorkomen maar ook onderscheidend zijn. - Wat heeft Loic De Langhe is zijn MAPR onderzocht? Wat - Wat is topic modeling? waren de voornaamste Topic modeling is een statistische methode om resultaten? abstracte thema's of topics in een collectie Zonder specifieke informatie over deze studie kan ik documenten te identificeren. Het verdeelt woorden deze vraag niet beantwoorden, maar MAPR staat vaak over topics en topics over documenten. voor "multi-agent path planning and routing." - Leg de “buffet”-metafoor - Wat zijn n-grammen? van Jockers uit. N-grammen zijn opeenvolgende reeksen van 'n' items De “buffet”-metafoor vergelijkt het proces van topic uit een gegeven tekst of spraak, bijvoorbeeld modeling met een buffet, waar documenten bigrammen (2-grams) zoals "New York" of trigrammen gerechten zijn en topics de ingrediënten. Elke (3-grams) zoals "The big dog." document bevat een mix van verschillende topics (ingrediënten). - Maak bag-of-words vectoren voor volgende tekst. - Geef een voorbeeld van een Dit vereist een specifieke tekst, maar het idee is om toepassing van topic een vector te maken waarin elke unieke modeling. woordfrequentie uit de tekst wordt geteld en Een toepassing is het analyseren van een grote weergegeven. collectie nieuwsartikelen om te ontdekken welke onderwerpen populair zijn in een bepaalde periode. Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 intelligentie vertoont. Een menselijke beoordelaar communiceert met zowel een mens als een machine - Wat is het verschil tussen zonder te weten wie wie is. Als de beoordelaar de collaborative en content- machine niet van de mens kan onderscheiden, slaagt based filtering? de machine voor de test. - **Collaborative filtering:** Aanbevelingssysteem dat gebruikmaakt van gebruikersdata en voorkeuren om suggesties te doen (bijv. gebruikers die dit boek leuk - Wat is Moravec’s paradox? vonden, vonden ook dat boek leuk). Moravec’s paradox stelt dat het moeilijker is om machines eenvoudige menselijke vaardigheden aan te - **Content-based filtering:** Aanbevelingssysteem leren, zoals zintuiglijke waarneming en motorische dat gebruikmaakt van kenmerken van items zelf om vaardigheden, dan complexe cognitieve taken zoals suggesties te doen (bijv. gebruikers die dit boek leuk schaakspelen. Dit komt doordat deze vaardigheden vonden, houden van boeken met een vergelijkbare diep geworteld zijn in miljoenen jaren evolutie. inhoud). - Geef 2 beperkingen van de - Wat is het verschil tussen Google Books Ngram Viewer. taal- en spraaktechnologie? Taaltechnologie omvat technieken en methoden voor - **Beperkte context:** De Ngram Viewer toont het verwerken van geschreven taal, zoals tekstmining woordfrequenties zonder context, wat interpretatie en machinevertaling. Spraaktechnologie richt zich op lastig maakt. gesproken taal, zoals spraakherkenning en - **Datarepresentativiteit:** De boeken in Google spraaksynthese. Books zijn niet noodzakelijk representatief voor alle gepubliceerde werken. - Bespreek de deelcomponenten - Wat visualiseert de Terms Deelcomponenten van taaltechnologie en Berry analyse in Voyant? spraaktechnologie omvatten: Terms Berry analyse visualiseert de co-occurrences - **Spraakherkenning:** Omzetten van gesproken van termen in een corpus, waardoor gebruikers taal naar tekst. kunnen zien hoe vaak en in welke context specifieke termen samen voorkomen. - **Spraaksynthese:** Omzetten van tekst naar gesproken taal. - **Natuurlijke taalverwerking (NLP):** Analyse en - Situeer computationele begrip van menselijke taal. taalkunde als onderdeel van - **Machinevertaling:** Automatisch vertalen van AI en leg uit. tekst van de ene taal naar de andere. Computationele taalkunde is een subveld van AI dat zich richt op de interactie tussen computers en menselijke taal. Het omvat taken zoals natuurlijke taalverwerking, spraakherkenning, en - Geef een kort overzicht van machinevertaling, waarbij AI-methoden worden de geschiedenis van gebruikt om taal te begrijpen en te genereren. taaltechnologie De geschiedenis van taaltechnologie begon in de jaren 1950 met vroege experimenten in machinevertaling. - Wat is de Turing test en In de jaren 1980 en 1990 werden statistische waarvoor wordt die gebruikt? methoden populairder. Sinds de jaren 2000 hebben De Turing test, bedacht door Alan Turing in 1950, is neurale netwerken en deep learning de prestaties van een test om te bepalen of een machine menselijke taaltechnologie enorm verbeterd. Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 het oplossen van veel complexe problemen in AI, zoals semantiek, contextbegrip en redeneren. - Waarom is taaltechnologie anno 2023 zo een hype? Taaltechnologie is een hype vanwege de aanzienlijke - Wat is het watervalmodel en vooruitgang in AI en machine learning, die betere waarvoor biedt het een prestaties mogelijk maken in toepassingen zoals chatbots, vertaaltools en spraakassistenten. De oplossing? toename van rekenkracht en beschikbaarheid van Het watervalmodel is een sequentieel ontwerpproces grote datasets heeft deze vooruitgang versneld. voor softwareontwikkeling, waarbij elke fase volledig moet worden afgerond voordat de volgende fase begint. Het biedt een gestructureerde aanpak voor grote projecten en helpt bij het beheren van complexe taken door duidelijke doelen en deadlines vast te stellen. - Wat bedoelde Jelinek precies met “Every time I fire a linguist, the performance of our speech recognition system - Performantie meten van goes up.” NLP systemen: accuraatheid, Fred Jelinek bedoelde dat statistische modellen precisie, recall, F-score zonder expliciete taalkundige regels beter - **Accuraatheid:** Het percentage correcte presteerden voor spraakherkenning dan systemen die voorspellingen. sterk afhankelijk waren van taalkundige kennis. - **Precisie:** Het percentage relevante resultaten - “Airplanes don’t flap their wings” onder de geretourneerde resultaten. Deze uitspraak benadrukt dat kunstmatige systemen - **Recall:** Het percentage relevante resultaten dat niet de biologische processen hoeven te imiteren om correct werd geïdentificeerd. effectief te zijn. Vliegtuigen vliegen niet door te - **F-score:** De harmonische gemiddelde van fladderen zoals vogels, maar door gebruik te maken precisie en recall, die een evenwicht biedt tussen van aerodynamische principes. beide. - “AI is the new electricity” (Andrew Ng) Andrew Ng bedoelt dat AI net zo’n transformerende - Wat is het verschil tussen kracht zal hebben voor de samenleving als elektriciteit ooit had, door vrijwel elk aspect van ons leven en een deductieve en inductieve onze industrieën te beïnvloeden. aanpak. Geef een voorbeeld. - **Deductieve aanpak:** Gebaseerd op een algemene theorie om specifieke gevallen te verklaren. - Waarom wordt NLU Bijvoorbeeld, vanuit de grammaticaregels een zin structureren. beschouwd als een AI- compleet probleem? - **Inductieve aanpak:** Gebaseerd op specifieke Natural Language Understanding (NLU) wordt als een observaties om algemene conclusies te trekken. AI-compleet probleem beschouwd omdat het vereist Bijvoorbeeld, leren van taalpatronen door analyse van dat een systeem menselijke taal volledig begrijpt en een grote hoeveelheid tekstdata. betekenisvolle antwoorden genereert. Dit impliceert Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - Bespreek de oplossingen voor lexicaal-morfologische - Bespreek de oplossingen ambiguïteit. voor ambiguïteit op Oplossingen voor lexicaal-morfologische ambiguïteit discoursniveau. omvatten: Oplossingen voor ambiguïteit op discoursniveau - **Woordenboeken en lexicons:** Vooraf omvatten: gedefinieerde woordenlijsten die de verschillende - **Anaphora resolutie:** Methoden om verwijzingen mogelijke vormen en betekenissen van woorden (zoals voornaamwoorden) naar hun antecedenten in bevatten. de tekst te traceren. - **Contextuele analyse:** Gebruik van de - **Discourse parsing:** Analyseren van de structuur omliggende woorden en zinsstructuur om de juiste en coherentie van langere teksten om verbanden betekenis te bepalen. tussen zinnen en alinea’s te begrijpen. - **Statistische methoden:** Gebruik van - **Coherentie-modellen:** Modellen die de logische probabilistische modellen die de waarschijnlijkheid volgorde en samenhang van een tekst evalueren. van een bepaalde betekenis berekenen op basis van trainingsdata. - Bespreek de oplossingen - Bespreek een statistische voor syntactische ambiguïteit. aanpak voor POS tagging, Oplossingen voor syntactische ambiguïteit omvatten: WSD,... - **Contextvrije grammatica’s (CFG’s):** Regelsets die Een statistische aanpak voor POS tagging (part-of- de mogelijke structuren van zinnen definiëren. speech tagging) of WSD (woordsense disambiguation) gebruikt probabilistische modellen, zoals Hidden - **Probabilistische CFG’s (PCFG’s):** CFG’s Markov Models (HMM) of neurale netwerken, die uitgebreid met waarschijnlijkheden om de meest getraind zijn op grote geannoteerde datasets. Deze waarschijnlijke zinsstructuur te bepalen. modellen berekenen de waarschijnlijkheid van elke - **Machine learning-modellen:** Modellen die leren mogelijke tag of betekenis en kiezen de meest van geannoteerde data om de meest waarschijnlijke waarschijnlijke optie op basis van contextuele syntactische structuur te kiezen. informatie. - Bespreek de oplossingen - Hoe kan je de performantie voor semantische ambiguïteit. van NLP systemen meten? Oplossingen voor semantische ambiguïteit omvatten: De performantie van NLP-systemen kan worden gemeten met metriek zoals accuraatheid, precisie, - **Woordsense disambiguation (WSD):** Methoden recall, F-score, en andere taak-specifieke metriek om de juiste betekenis van een woord in een zoals BLEU voor machinevertaling of ROUGE voor specifieke context te bepalen. samenvatÝng. Deze metriek evalueren hoe goed het systeem presteert bij het correct voorspellen van - **Ontologieën en kennisgrafieken:** Structuren die resultaten of het genereren van relevante output. relaties tussen concepten vastleggen en helpen bij het bepalen van de juiste betekenis. - **Contextuele embeddings:** Gebruik van neurale netwerken om de context van woorden in een zin te begrijpen en de juiste betekenis te kiezen. Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - Hoe werkt - Waarom spreken we van lexicongebaseerde gesuperviseerd en sentimentanalyse? ongesuperviseerd leren? Lexicongebaseerde sentimentanalyse maakt gebruik - **Gesuperviseerd leren:** Modellen worden van een vooraf gedefinieerde woordenlijst met getraind met gelabelde data, waarbij de juiste output positieve en negatieve woorden. De analyse voor elke invoer bekend is. beoordeelt de sentimenten van een tekst door de - **Ongesuperviseerd leren:** Modellen worden frequentie en sterkte van deze woorden te tellen en getraind met ongelabelde data en moeten zelf zo een algemene sentimentsscore te berekenen. patronen en structuren ontdekken. - Wat zijn artificiële neurale - Wat is machinaal leren? netwerken? Machinaal leren is een subveld van kunstmatige Artificiële neurale netwerken zijn computationele intelligentie waarin systemen leren van data om modellen geïnspireerd door het menselijk brein, patronen te herkennen en voorspellingen te doen bestaande uit lagen van verbonden 'neuronen'. Deze zonder expliciet geprogrammeerd te zijn. Het omvat netwerken leren complexe patronen en technieken zoals supervised learning, unsupervised representaties uit data door gewichten aan te passen learning, en reinforcement learning. op basis van fouten tijdens het trainen. - Leg een feature-gebaseerde aanpak uit voor automatische - Wat zijn de verschillende sentimentanalyse. stappen in een feature-based Een feature-gebaseerde aanpak voor automatische sentimentanalyse houdt in dat specifieke kenmerken ML? (features) van de tekst worden geïdentificeerd en De stappen in een feature-based machine learning geëxtraheerd, zoals woordfrequenties, n-grammen, (ML) aanpak omvatten: en POS-tags. Deze features worden vervolgens 1. **Data verzamelen:** Verzamelen van relevante gebruikt om een model te trainen dat sentimenten in data voor de taak. nieuwe teksten kan voorspellen. 2. **Data voorbewerken:** Schoonmaken en voorbereiden van de data. - Wat is het verschil tussen 3. **Feature-extractie:** Identificeren en extraheren clustering, classificatie en van relevante kenmerken uit de data. regressie? 4. **Model trainen:** Gebruik van de features om - **Clustering:** Een unsupervised learning-techniek een ML-model te trainen. waarbij data wordt gegroepeerd in clusters op basis van hun kenmerken. 5. **Model evalueren:** Testen van het model op nieuwe data en evalueren van de prestaties. - **Classificatie:** Een supervised learning-techniek waarbij data wordt ingedeeld in vooraf gedefinieerde 6. **Model toepassen:** Gebruik van het getrainde klassen. model om voorspellingen te doen op ongeziene data. - **Regressie:** Een supervised learning-techniek die continue outputwaarden voorspelt op basis van invoerdata. Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - Bouw een eenvoudige een word-embedding model en projecteren van de feature vector voor de resulterende vectoren in twee-dimensionale ruimte met technieken zoals Principal Component Analysis volgende zin (PCA) of t-SNE. Voor de zin "De kat zit op de mat" zou een eenvoudige feature vector kunnen bestaan uit: - Woordfrequenties: {"De": 2, "kat": 1, "zit": 1, "op": 1, - Wat is bias? "mat": 1} Bias in machine learning verwijst naar systematische fouten of vooroordelen in een model, vaak - POS-tags: {"De": "DET", "kat": "NOUN", "zit": "VERB", veroorzaakt door onevenwichtige of niet- "op": "PREP", "mat": "NOUN"} representatieve trainingsdata. Bias kan leiden tot - Lengte van de zin: 5 woorden onjuiste of oneerlijke voorspellingen. - Waarom heeft ChatGPT last van gender bias? ChatGPT kan gender bias vertonen omdat het - Wanneer spreken we van getraind is op een breed scala aan internetdata, die “deep learning”? bestaande maatschappelijke vooroordelen en Deep learning verwijst naar neurale netwerken met stereotypes kunnen bevatten. Dit leidt tot meerdere verborgen lagen (diep), die in staat zijn om ongewenste bias in de gegenereerde antwoorden. zeer complexe patronen en functies te leren. Deze lagen extraheren hiërarchische kenmerken van de data, van laag- tot hoog-niveau. - Bespreek de - Wat zijn word-embeddings? prototypetheorie? Word-embeddings zijn vectorrepresentaties van Prototypetheorie, voorgesteld door Eleanor Rosch, woorden in een continuë ruimte, waarbij woorden stelt dat categorieën in de menselijke geest met vergelijkbare betekenissen zich dicht bij elkaar georganiseerd zijn rond typische voorbeelden bevinden. Voorbeelden van word-embedding (prototypes). Leden van een categorie worden modellen zijn Word2Vec en GloVe. geëvalueerd op basis van hun gelijkenis met het prototype, in plaats van vaste regels. - Wat zijn transformers en - Wat is selectiebias, wat onderscheidt hen van correlation fallacy,... en licht eerdere neurale netwerken? Transformers zijn een type neurale toe aan de hand van een netwerkarchitectuur die rely op voorbeeld. zelfaandachtsmechanismen (self-attention) om - **Selectiebias:** Vooringenomenheid die optreedt context te begrijpen. Ze zijn sneller te trainen en wanneer de steekproef niet representatief is voor de performanter voor sequentie-taken dan eerdere populatie. Bijvoorbeeld, alleen data van stedelijke netwerken zoals recurrent neural networks (RNNs) en gebieden gebruiken om landelijke trends te long short-term memory networks (LSTMs). voorspellen. - **Correlation fallacy:** De fout om een correlatie als oorzakelijk verband te interpreteren. Bijvoorbeeld, veronderstellen dat een toename in ijsverkoop de - Bereken de coördinaten oorzaak is van meer verdrinkingen, terwijl beide door het warme weer veroorzaakt worden. voor volgende woorden in een twee-dimensionale ruimte... Deze vraag vereist specifieke woorden en data om uit te voeren. Het proces omvat meestal het trainen van Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - Bespreek het onderzoek copyrightwetten te waarborgen en ongeoorloofde naar de automatische detectie verspreiding van beschermde werken te voorkomen. van criminelen op basis van fotomateriaal. - Wat is het verschil tussen Dit controversiële onderzoek claimde criminelen te kunnen identificeren aan de hand van het internet en het WWW? gezichtskenmerken. Het kreeg veel kritiek vanwege Het internet is een wereldwijd netwerk van onderling ethische kwesties, vooroordelen, en het gevaar van verbonden computers en netwerken. Het WWW is valse positieve resultaten, wat kan leiden tot een informatiesysteem dat via het internet werkt, onrechtvaardige beschuldigingen en discriminatie. waarmee documenten en andere webbronnen kunnen worden geopend via webpagina's en hyperlinks. - Vragen uit het artikel over - Noem de 3 onderdelen van “stochastic parrots” een online zoeksysteem en Dit artikel bekritiseert grote taalmodellen zoals GPT-3 bespreek kort. voor het reproduceren van vooroordelen en 1. **Crawler (Spider):** Software die het internet ongewenste informatie uit hun trainingsdata zonder doorzoekt en webpagina’s verzamelt. begrip van de inhoud. Het benadrukt de noodzaak van verantwoorde en ethische benaderingen bij de 2. **Indexeerder:** Systeem dat de verzamelde ontwikkeling en implementatie van AI-systemen. pagina’s analyseert en opslaat in een index voor snelle zoekopdrachten. - Bespreek de 3. **Zoekalgoritme:** Software die de index ontstaangeschiedenis van het doorzoekt en de meest relevante resultaten WWW. retourneert op basis van een zoekopdracht. Het World Wide Web (WWW) werd in 1989 voorgesteld door Tim Berners-Lee, een Britse wetenschapper bij CERN. Het was bedoeld als een - Wat is een spider? manier om informatie eenvoudig te delen tussen Een spider, of webcrawler, is een programma dat onderzoekers. In 1991 werd de eerste website automatisch websites doorzoekt en data verzamelt gelanceerd en het WWW groeide snel uit tot een om een zoekmachineindex bij te werken. Het volgt essentieel onderdeel van het internet. links op pagina's om nieuwe of bijgewerkte inhoud te - Hoe is het WWW de laatste ontdekken. 30 jaar geëvolueerd? - Hoe worden woorden Het WWW is geëvolueerd van statische HTML- opgeslagen in de index? pagina's naar dynamische, interactieve en Woorden worden opgeslagen in een index met multimedia-rijke websites. Innovaties zoals e- verwijzingen naar de documenten waarin ze commerce, sociale media, cloud computing en voorkomen. Dit gebeurt vaak met een inverted index, mobiele internettoegang hebben de manier waarop waarbij elk woord een lijst van documenten bevat mensen communiceren, werken en entertainment waarin het voorkomt. consumeren drastisch veranderd. - Wat zijn uploadfilters? - Wat is het verschil tussen Uploadfilters zijn technologieën die automatisch een sparse en een inverted content scannen en blokkeren die inbreuk maken op index? auteursrechten voordat ze online worden geplaatst. - **Sparse index:** Bevat alleen een subset van de Ze worden vaak gebruikt om naleving van termen en verwijzingen, wat geheugen bespaart maar de zoekmogelijkheden beperkt. Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - **Inverted index:** Een volledige index die elke - Wat is een vraag-antwoord- term in de dataset opslaat samen met een lijst van systeem? documenten waarin de term voorkomt, wat Een vraag-antwoord-systeem is een type kunstmatige uitgebreide en snelle zoekopdrachten mogelijk maakt. intelligentie dat ontworpen is om vragen van gebruikers te begrijpen en nauwkeurige antwoorden te geven. Het maakt gebruik van natuurlijke - Wat is PageRank? taalverwerking (NLP) om de vraag te interpreteren en PageRank is een algoritme ontwikkeld door Google zoekt vervolgens in databases of het web naar het dat de belangrijkheid van webpagina’s beoordeelt op meest relevante antwoord. basis van het aantal en de kwaliteit van inkomende links. Pagina’s met veel kwalitatieve links worden hoger gerangschikt in zoekresultaten. - Hoe werkt IBM Watson? IBM Watson is een AI-systeem dat natuurlijke taalverwerking, machine learning en geavanceerde - Hoe werkt het vector space analyse gebruikt om grote hoeveelheden model? Leg uit aan de hand ongestructureerde gegevens te analyseren. Het werkt van een voorbeeld. door tekst te verwerken, te begrijpen en te leren van Het vector space model stelt documenten en data, en het kan worden gebruikt voor toepassingen zoekopdrachten voor als vectoren in een zoals gezondheidszorg, financiën en klantenservice. multidimensionale ruimte. De relevantie wordt bepaald door de hoek (cosinus) tussen de zoekopdracht en documentvectoren. Bijvoorbeeld, als - Wat is een sociale robot? een zoekopdracht "AI technologie" is, zullen Bespreek kort Furhat documenten met veel overeenkomende termen Een sociale robot is een robot die ontworpen is om dichterbij de zoekvector liggen en als relevanter menselijke sociale interactie na te bootsen en te worden beschouwd. faciliteren. Furhat is een sociale robot met een realistisch gezicht en geavanceerde spraakherkenningstechnologie, die in staat is om - Bespreek Google RankBrain natuurlijke gesprekken met mensen te voeren en Google RankBrain is een machine learning-gebaseerd empathische interacties te creëren. algoritme dat in 2015 werd geïntroduceerd om de zoekresultaten van Google te verbeteren. Het helpt Google om zoekopdrachten beter te begrijpen en - Technologie in de tolkcabine relevantere resultaten te leveren. RankBrain In de tolkcabine kunnen technologieën zoals interpreteert zoekopdrachten door te kijken naar automatische spraakherkenning (ASR), woorden en zinsstructuren en leert voortdurend om machinevertaling en spraak-naar-tekst-software nutÝg zoekopdrachten en inhoud beter te begrijpen. zijn. Deze technologieën helpen tolken om snel en nauwkeurig vertalingen te leveren door gesproken - Vernieuwingen in woorden om te zetten in tekst en deze in real-time te automatische zoeksystemen vertalen. in 2023 In 2023 zien we vernieuwingen zoals de integratie van - Waarom zouden geavanceerde AI-modellen zoals GPT-4 en BERT, ondertitelaars ASR gebruiken? verbeterde spraakherkenningstechnologieën, en meer Ondertitelaars zouden ASR gebruiken om de snelheid contextbewuste zoekresultaten. Deze systemen en efÏciëntie van het ondertitelingsproces te kunnen beter omgaan met complexe zoekopdrachten verbeteren. ASR kan gesproken dialoog automatisch en bieden relevantere antwoorden door gebruik te omzetten in tekst, waardoor ondertitelaars tijd maken van diepgaande taalmodellen. besparen bij het transcriberen en zich kunnen concentreren op het bewerken en synchroniseren van ondertitels. Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - Wat is generatieve AI en - Leg de werking van ChatGPT geef voorbeelden uit (3 stappen) Generatieve AI is een type kunstmatige intelligentie 1. **Pre-training:** Het model wordt getraind op een dat in staat is om nieuwe inhoud te creëren, zoals grote dataset van tekst om algemene taalpatronen en tekst, afbeeldingen, muziek, en meer. Voorbeelden woordverbanden te leren. zijn GPT-3 voor tekstgeneratie, DALL-E voor 2. **Fine-tuning:** Het model wordt verder verfijnd beeldgeneratie en Jukedeck voor muziekcompositie. met specifieke datasets en taken om nauwkeuriger en contextspecifiek te kunnen antwoorden. - Leg de naam ChatGPT uit 3. **Inferentie:** Het getrainde model genereert ChatGPT staat voor "Chat Generative Pre-trained antwoorden op basis van de input van de gebruiker Transformer". Het is een AI-taalmodel dat getraind is door gebruik te maken van de geleerde patronen en om natuurlijke gesprekken te voeren met gebruikers. kennis. "Chat" verwijst naar de mogelijkheid om te communiceren, en "GPT" verwijst naar het type model en de architectuur die wordt gebruikt. - Analogie “machine learning - Drie factoren waarom is als een taart” (Yann LeCun) De analogie van Yann LeCun vergelijkt machine generatieve AI vandaag zo learning met een taart: populair en performant is 1. Toegenomen rekenkracht en geavanceerde - **Data is het meel:** Zonder data kun je geen hardware, zoals GPU's en TPU's. machine learning doen. 2. Grotere en diversere datasets die beschikbaar zijn - **Algoritmes zijn het recept:** Ze bepalen hoe de voor training. taart wordt gebakken. 3. Verbeterde algoritmes en technieken in machine - **Rekenkracht is de oven:** Het zorgt ervoor dat learning en deep learning, zoals transformer- alles bij elkaar komt en goed werkt. architecturen. - Voornaamste beperkingen - Hoe wordt een taalmodel van ChatGPT vandaag getraind? 1. Gebrek aan echte begrip en bewustzijn. Een taalmodel wordt getraind door grote 2. Kan soms onnauwkeurige of ongepaste antwoorden hoeveelheden tekstdata in te voeren en het model te genereren. laten voorspellen welk woord er waarschijnlijk als volgende komt. Het model past zijn interne 3. Beperkt door de kwaliteit en bias van de parameters aan op basis van de fouten die het maakt, trainingsdata. zodat het beter wordt in het voorspellen van tekst over tijd. - Belangrijke - Leg uit: “you shall know a maatschappelijke uitdagingen word by the company it voor generatieve AI keeps” 1. Ethische kwesties zoals privacy en bias. Deze uitspraak van de taalkundige John Rupert Firth betekent dat de betekenis van een woord afgeleid kan 2. Impact op banen en werkgelegenheid. worden uit de context waarin het voorkomt. Woorden 3. Mogelijkheid van misbruik voor schadelijke die vaak samen voorkomen, hebben vaak doeleinden zoals desinformatie en deepfakes. gerelateerde betekenissen. Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - Waarom verhoogt AI de - **Zipf:** Formuleerde Zipf’s law, die stelt dat de kans op fake news? frequentie van een woord omgekeerd evenredig is aan zijn rang. AI kan de kans op fake news verhogen doordat het in staat is om overtuigende nepinhoud te genereren en - **Mosteller & Wallace:** Toonden het belang van te verspreiden met weinig menselijke tussenkomst, functiewoorden bij het identificeren van auteurschap. waardoor het moeilijker wordt om waarheid van fictie te onderscheiden. - Twee voorbeelden van - Uitdagingen van stylometrie integratie van ChatGPT in voor historische teksten 1. Beschikbaarheid en kwaliteit van teksten. praktische toepassingen 1. **Klantenservice:** Automatische chatbots die 2. Veranderingen in taalgebruik over tijd. klanten helpen met vragen en problemen. 3. Beperkte hoeveelheid data voor analyse. 2. **Onderwijs:** Virtuele assistenten die studenten helpen met studeren en huiswerk. - Case study Abelardus en Heloïse - Definitie van stylometrie en Een casestudy van Abelardus en Heloïse zou kunnen toepassingen onderzoeken hoe stylometrie kan helpen bij het Stylometrie is de studie van de stijlkenmerken van identificeren van auteurschap van hun teksten om auteurschap te identificeren of te correspondentie door het analyseren van hun karakteriseren. Toepassingen zijn onder andere schrijfstijl en het vergelijken met andere werken. literaire analyse, forensisch onderzoek en de detectie van plagiaat. - Lexicongebaseerde aanpak versus lerende aanpak voor detectie van depressie / hoofdpijnziektes - Belangrijke - **Lexicongebaseerde aanpak:** Gebruikt vooraf patronen/features in gedefinieerde woordenlijsten en patronen om stylometrie emotionele of medische toestanden te detecteren. 1. Frequentie van functiewoorden. - **Lerende aanpak:** Gebruikt machine learning- 2. Gemiddelde zinslengte. modellen die getraind zijn op grote datasets om patronen en kenmerken te leren die geassocieerd zijn 3. Woordenschatrijkdom. met depressie of hoofdpijnziektes. - Drie use cases waarbij NLP wordt ingezet voor maatschappelijk relevante - Korte geschiedenis en het toepassingen belang van Lutosławski, Yule, 1. **Gezondheidszorg:** Automatische analyse van Zipf, Mosteller & Wallace medische dossiers om aandoeningen te detecteren. - **Lutosławski:** Introduceerde het concept van "stylème" om stijlkenmerken te beschrijven. 2. **Klantenservice:** Chatbots en virtuele assistenten die klanten ondersteunen. - **Yule:** Ontwikkelde methoden voor het meten van lexicale rijkdom. 3. **Onderwijs:** Hulpmiddelen voor het automatisch beoordelen van essays en ondersteunen van taalonderwijs. Gedownload door Dana-Maria Macu ([email protected]) lOMoARcPSD|36293610 - Onomasiologische versus - Wat is een filter bubble? semasiologische Een filter bubble is een situatie waarin een gebruiker woordenboeken voornamelijk informatie te zien krijgt die - **Onomasiologische woordenboeken:** overeenkomt met zijn of haar bestaande opvatÝngen Organiseren woorden op basis van concepten of en voorkeuren, vaak door algoritmes die content thema's. aanbevelen op basis van eerdere interacties. Dit kan - **Semasiologische woordenboeken:** Organiseren leiden tot een vertekend wereldbeeld en beperkte woorden op basis van hun betekenis en gebruik in de blootstelling aan diverse standpunten. taal. - Soorten nieuwsaanbevelingssystemen 1. **Contentgebaseerd:** Aanbevelingen gebaseerd - Het DSDD-project uitleggen op de inhoud die een gebruiker eerder heeft gelezen. Het DSDD-project (Database of Spoken Dutch Dialects) documenteert en analyseert verschillende 2. **Collaborative filtering:** Aanbevelingen Nederlandse dialecten door middel van audio- gebaseerd op de voorkeuren van vergelijkbare opnames en transcripten. Dit project helpt bij het gebruikers. behoud en de studie van dialectale variaties. 3. **Hybride systemen:** Combineren contentgebaseerde en collaborative filtering- technieken om relevantere aanbevelingen te doen. - De Woordenbank uitleggen De Woordenbank is een uitgebreide database van Nederlandse woorden en hun betekenissen, gebruikt - Wat is immaterieel erfgoed? voor taalkundig onderzoek en taalonderwijs. Het Immaterieel erfgoed omvat tradities, rituelen, kennis bevat informatie over woordgebruik, synoniemen, en vaardigheden die door gemeenschappen worden antoniemen en contexten. doorgegeven van generatie op generatie. Voorbeelden zijn volksliederen, dansen, ambachtelijke technieken en mondelinge verhalen. - Het GCND-project en belang van spontane opnames Het GCND-project (Geïntegreerde Corpus - Waarom verdwijnen Nederlandse Dialecten) verzamelt spontane dialecten? spraakopnames van verschillende dialecten in Dialecten verdwijnen vaak door factoren zoals Nederland en Vlaanderen. Spontane opnames zijn globalisering, urbanisatie en standaardisering van belangrijk omdat ze natuurlijke taalgebruik talen. Jongere generaties nemen vaak de dominante vastleggen, wat waardevol is voor linguïstisch taal over, wat leidt tot een afname in het gebruik van onderzoek en dialectbehoud. lokale dialecten. - Waarom wil je dialecten bewaren? Dialecten behouden is belangrijk om culturele diversiteit en erfgoed te beschermen. Ze bevatten unieke kennis en expressievormen die bijdragen aan de identiteit en geschiedenis van gemeenschappen. Gedownload door Dana-Maria Macu ([email protected])

Use Quizgecko on...
Browser
Browser