Machine Learning en Sentiment Analyse

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Waarvoor wordt Sentiment Analyse voornamelijk gebruikt?

  • Het voorspellen van toekomstige gebeurtenissen
  • Het bepalen van de emotionele toon van tekst (correct)
  • Het identificeren van trends in sociale media
  • Het analyseren van websitebezoekers

LDA is een techniek die gebruikt kan worden om de frequentie van termen zoals "Cristiano Ronaldo" in een bepaald onderwerp te meten.

True (A)

Wat is een belangrijke eigenschap van KNN die het geschikt maakt voor kleine datasets?

Eenvoud & intuïtief

Naïve Bayes is een ______ classificatie-algoritme dat ervan uitgaat dat alle kenmerken onafhankelijk van elkaar zijn.

<p>probabilistisch</p> Signup and view all the answers

Match de volgende Machine Learning technieken met hun beschrijving:

<p>KNN = Classificatie van een nieuw datapunt door te kijken naar de k dichtstbijzijnde datapunten in de dataset. Naïve Bayes = Een probabilistisch algoritme met de aanname dat alle kenmerken onafhankelijk van elkaar zijn. Decision Tree = Een boomachtige structuur die beslissingen neemt op basis van inputs om tot eindvoorspellingen te komen.</p> Signup and view all the answers

Welke van de volgende is NIET een voordeel van neurale netwerken?

<p>Eenvoud &amp; intuïtie (D)</p> Signup and view all the answers

Neutrale netwerken zijn ideaal voor kleine datasets en real-time applicaties.

<p>False (B)</p> Signup and view all the answers

Wat is een belangrijk nadeel van Deep Learning modellen?

<p>Black-box model</p> Signup and view all the answers

Welke techniek is bedoeld voor het verminderen van het aantal kenmerken in data?

<p>Dimensiereductie (D)</p> Signup and view all the answers

Classificatie werkt alleen met continue doelvariabelen.

<p>False (B)</p> Signup and view all the answers

Wat zijn de 4 V's van big data?

<p>Volume, Variety, Velocity, Veracity</p> Signup and view all the answers

Een __________ vermindert de kans dat resultaten door toeval zijn ontstaan.

<p>statistisch significante uitkomst</p> Signup and view all the answers

Wat is een voorbeeld van regressie?

<p>Voorspellen van de prijs van een huis (B)</p> Signup and view all the answers

Koppel de volgende technieken aan hun beschrijvingen:

<p>K-Means Clustering = Verdeelt data in k-clusters op basis van gelijkenis Hiërarchische Clustering = Bouwt een boomstructuur van clusters PCA = Projecteert data in lagere dimensies t-SNE = Visualisatie van data in 2D/3D</p> Signup and view all the answers

Uniforme verdeling betekent dat enkele uitkomsten waarschijnlijker zijn dan andere.

<p>False (B)</p> Signup and view all the answers

Hoe verschilt praktische significantie van statistische significantie?

<p>Praktische significantie beoordeelt de betekenis in de echte context, terwijl statistische significantie aantoont dat resultaten waarschijnlijk niet door toeval komen.</p> Signup and view all the answers

Wat meet skewness in een verdeling?

<p>De mate van asymmetrie in de verdeling (D)</p> Signup and view all the answers

MCAR staat voor 'Missing Completely At Random'.

<p>True (A)</p> Signup and view all the answers

Wat is de F1-score?

<p>Een metric die de afweging tussen precision en recall in balans brengt.</p> Signup and view all the answers

One-Hot Encoding voorkomt dat het model ten onrechte een __ aan de categorieën toekent.

<p>rangorde</p> Signup and view all the answers

Koppel de soorten ontbrekende waarden aan hun beschrijvingen:

<p>MCAR = Ontbrekende waarde is onafhankelijk van geobserveerde en ontbrekende data MAR = Ontbrekende waarde hangt samen met geobserveerde data MNAR = Ontbrekende waarde is gerelateerd aan de ontbrekende waarden zelf</p> Signup and view all the answers

Wat doen Label Encoding en One-Hot Encoding?

<p>Ze transformeren categorische gegevens naar een numeriek formaat (D)</p> Signup and view all the answers

Spurious Correlation verwijst naar een echte relatie tussen twee variabelen.

<p>False (B)</p> Signup and view all the answers

Wat geeft een ROC-curve weer?

<p>De prestaties van een classificatiemodel bij verschillende drempelwaarden.</p> Signup and view all the answers

Wat is de primaire functie van een Convolutional Neural Network (CNN)?

<p>Beeldherkenning en -verwerking (D)</p> Signup and view all the answers

Recommender Systems (RecSys) kunnen alleen content-gebaseerde aanbevelingen doen.

<p>False (B)</p> Signup and view all the answers

Wat zijn de twee soorten relaties die in Machine Learning worden onderscheiden?

<p>Sequentiële en semantische relaties</p> Signup and view all the answers

Natural Language Processing (NLP) analyseert menselijke __________ data.

<p>tekstuele</p> Signup and view all the answers

Koppel de volgende technieken van Natural Language Processing aan hun beschrijvingen:

<p>Sentimentanalyse = Bepalen van emoties in teksten Topic modelling = Identificeren van thema's in tekst Tekstclassificatie = Categoriseren van tekstuele data Entiteitenherkenning = Herkennen van naamwoorden en entiteiten</p> Signup and view all the answers

Welk voorbeeld past bij een hybride recommender system?

<p>Een gebruiker leest een artikel en krijgt aanbevolen wat populaire gebruikers lezen. (C)</p> Signup and view all the answers

Large Language Models (LLM) kunnen alleen antwoorden geven op directe vragen.

<p>False (B)</p> Signup and view all the answers

Wat is het doel van Machine Learning?

<p>Patronen en relaties herkennen in data om beslissingen of voorspellingen te maken.</p> Signup and view all the answers

Wat is de belangrijkste eigenschap van de normale verdeling?

<p>Het is symmetrisch en gecentreerd rond het gemiddelde. (C)</p> Signup and view all the answers

De Poisson-verdeling modelleert de frequentie van een gebeurtenis in een vaste tijdsperiode.

<p>True (A)</p> Signup and view all the answers

Wat is de functie van K-mean clustering?

<p>K-mean clustering groepeert data en minimaliseert variantie.</p> Signup and view all the answers

De standaarddeviatie is de __________ van de variantie.

<p>vierkantswortel</p> Signup and view all the answers

Match elke verdeling met hun beschrijving:

<p>Normale verdeling = Symmetrisch en centraal rond het gemiddelde Bernoulli-verdeling = Binaire uitkomsten zoals 0 of 1 Binomiale verdeling = Meerdere Bernoulli-proeven Exponentiële verdeling = Tijd tussen gebeurtenissen</p> Signup and view all the answers

Wat beschrijft het doel van cross-validatie in machine learning?

<p>Het minimaliseren van overfitting en evalueren van modelprestaties. (D)</p> Signup and view all the answers

K-Fold Cross-Validation valt onder de technieken om overfitting te reduceren.

<p>True (A)</p> Signup and view all the answers

Wat is de rol van Latent Dirichlet Allocation (LDA)?

<p>LDA modelleert automatisch onderwerpen in een tekstverzameling.</p> Signup and view all the answers

Welke van de volgende technieken wordt vaak gebruikt voor binaire classificatieproblemen?

<p>Logistische regressie (A)</p> Signup and view all the answers

Unsupervised Learning gebruikt gelabelde data om patronen te vinden.

<p>False (B)</p> Signup and view all the answers

Noem twee belangrijke stappen die je onderneemt in het voorbewerkingsproces van data.

<p>Opschonen van data en normaliseren van data.</p> Signup and view all the answers

____-learning is het paradigma waarbij een model leert van gelabelde data.

<p>Supervised</p> Signup and view all the answers

Koppel de volgende termen aan hun beschrijvingen:

<p>Lineaire regressie = Voorspelt een continue output Logistische regressie = Gebruikt voor binaire classificatie Support Vector Machines = Vindt de optimale grens tussen klassen Neurale netwerken = Complexe modellen voor grote datasets</p> Signup and view all the answers

Wat is het doel van Exploratory Data Analysis (EDA)?

<p>Patronen en trends in datasets begrijpen (B)</p> Signup and view all the answers

Neurale netwerken zijn niet geschikt voor complexe datasets.

<p>False (B)</p> Signup and view all the answers

Wat is een voorbeeld van een evaluatiemetric die gebruikt kan worden bij modelevaluatie?

<p>F1-score</p> Signup and view all the answers

Flashcards

Ongestuurde leren (Unsupervised Learning)

Het proces van het vinden van verborgen patronen en trends in datasets, zonder vooraf gedefinieerde labels. Denk aan het sorteren van data in verschillende groepen op basis van overeenkomsten.

Gestoorde leren (Supervised Learning)

Een leermethode waarbij de relatie tussen inputs en outputs wordt geleerd, zodat het model nieuwe, ongeziene data kan voorspellen en fouten tussen voorspellingen en werkelijke labels minimaliseert.

Voorbewerking (Data Preprocessing)

Een techniek die wordt gebruikt in gestructureerde modellen, zoals support vector machines, neurale netwerken en regressiemogelijkheden om data klaar te maken voor analyse. Dit omvat taken zoals het vullen van ontbrekende waarden, het omzetten van categorische variabelen in numerieke representaties en het normaliseren van variabelen om betere prestaties te garanderen.

Dataverwerking (Data Processing)

Het proces van het transformeren van ruwe data in een meer interpreteerbare en bruikbare vorm, terwijl de integriteit van de data behouden blijft.

Signup and view all the flashcards

Nabewerking (Post-processing)

De laatste stap na het trainen van een machine learning model, waarbij het gebruikte model wordt aangepast om de nauwkeurigheid en stabiliteit van de voorspellingen te verbeteren.

Signup and view all the flashcards

Evaluatie metrics (Evaluation metrics)

Een techniek die wordt gebruikt om de prestaties van een algoritme te evalueren op een set data. Deze metrics meten hoe goed het model is getraind en hoe goed het ongeziene data kan voorspellen.

Signup and view all the flashcards

Supervised Learning technieken

Deze technieken omvatten lineaire regressie, logistische regressie, support vector machines en neurale netwerken, die worden gebruikt om relaties tussen variabelen te begrijpen en voorspellingen te doen.

Signup and view all the flashcards

Unsupervised Learning technieken

Deze technieken omvatten clustering, dimensionaliteitsreductie en associatieregelmining, die worden gebruikt om patronen en structuur te ontdekken in ongemerkte data.

Signup and view all the flashcards

Clustering

Het groeperen van vergelijkbare datapunten, waardoor complexiteit wordt verminderd.

Signup and view all the flashcards

K-Means Clustering

Een clustering techniek die de data in k-clusters verdeelt, waarbij elk datapunt tot de dichtstbijzijnde cluster wordt toegewezen.

Signup and view all the flashcards

Hiërarchische Clustering

Een clustering techniek die een boomstructuur van clusters bouwt, van algemene naar specifieke.

Signup and view all the flashcards

Dimensiereductie

Het proces van het verminderen van het aantal kenmerken in een dataset, terwijl belangrijke informatie bewaard blijft.

Signup and view all the flashcards

Principale Componenten Analyse (PCA)

Een techniek die data in lagere dimensies projecteert, waarbij de belangrijkste variatie gehandhaafd blijft.

Signup and view all the flashcards

t-SNE

Een visualisatietechniek die data (hoog-dimensionaal) projecteert in 2D/3D, waarbij de structuur behouden blijft

Signup and view all the flashcards

Association Rule Mining

Het analyseren van grote datasets om relaties tussen variabelen te vinden.

Signup and view all the flashcards

Lineaire Regressie

Een type van supervised learning dat de waarde van onbekende data voorspelt door onafhankelijke en afhankelijke variabelen te combineren.

Signup and view all the flashcards

Sentimentanalyse

Een techniek in data-analyse die de toon of emotie van tekst bepalt, zoals positief, negatief of neutraal. Bijvoorbeeld: Het analyseren van online recensies om te bepalen of mensen tevreden zijn met een product.

Signup and view all the flashcards

KNN (K-Nearest Neighbor)

Een machine learning-algoritme dat een nieuw datapunt classificeert door te kijken naar de k dichtstbijzijnde datapunten (buren) in de dataset. De classificatie wordt bepaald door de meerderheid van de klassen waartoe deze buren behoren.

Signup and view all the flashcards

Naïve Bayes

Een probabilistisch classificatie-algoritme dat ervan uitgaat dat alle kenmerken onafhankelijk van elkaar zijn, zelfs als dat in werkelijkheid niet zo is. Het is snel, eenvoudig en goed geschikt voor kleine datasets, en wordt vaak gebruikt bij tekstclassificatie zoals spamfiltering.

Signup and view all the flashcards

Decision Tree

Gebruikt een boomachtige structuur om beslissingen te nemen op basis van de inputs. Verdeelt de data in takken, conditioneert ze en leidt tot eindvoorspellingen bij de onderste bladeren.

Signup and view all the flashcards

Neurale netwerken

Een type machine learning-model dat bestaat uit lagen van neuronen, geïnspireerd door de werking van de hersenen. Het leert uit data en kan complexe patronen herkennen.

Signup and view all the flashcards

DNN (Deep Neural Network)

Een speciaal type neuraal netwerk met meerdere lagen neuronen, geschikt voor complexe taken zoals beeldherkenning en natuurlijke taalverwerking.

Signup and view all the flashcards

Normale verdeling (Klokvormige curve)

Een symmetrische verdeling, gecentreerd rond het gemiddelde. De meeste waarden liggen dichtbij het gemiddelde, met steeds minder waarden verder weg. Denk aan IQ-scores.

Signup and view all the flashcards

Student t-verdeling

Een verdeling vergelijkbaar met de normale verdeling, maar met bredere staarten. Dit betekent dat er meer variabiliteit is in de data. Gebruik deze verdeling voor kleine steekproeven.

Signup and view all the flashcards

Poisson-verdeling

Een verdeling die het aantal gebeurtenissen in een vaste tijd of ruimte modelleert. De waarschijnlijkheid van een gebeurtenis is afhankelijk van de frequentie van eerdere gebeurtenissen.

Signup and view all the flashcards

Bernoulli-verdeling

Een verdeling die de kans op succes of falen bij een enkele poging meet. De kans op succes is constant in elke poging.

Signup and view all the flashcards

Binomiale verdeling

Een verdeling die de kans meet om een bepaald aantal successen te behalen in een vast aantal pogingen, waarbij elke poging onafhankelijk is.

Signup and view all the flashcards

Exponentiële verdeling

Een verdeling die de tijd tussen twee opeenvolgende gebeurtenissen modelleert. De kans dat het langer duurt tot de volgende gebeurtenis neemt exponentieel af.

Signup and view all the flashcards

K-Fold Cross-Validatie

Een methode om de prestaties van een machine learning-model te beoordelen. De dataset wordt in 'k' subsets verdeeld (folds) en het model wordt herhaaldelijk getraind en geëvalueerd op verschillende folds.

Signup and view all the flashcards

Deep Neural Network

Een kunstmatig neuraal netwerk met meerdere lagen tussen de invoer- en uitvoerlagen.

Signup and view all the flashcards

Convolutional Neural Network (CNN)

Een type kunstmatig neuraal netwerk dat voornamelijk wordt gebruikt voor beeldherkenning en -verwerking, doordat het patronen in beelden kan herkennen.

Signup and view all the flashcards

Recurrent Neural Network (RNN)

Een neuraal netwerk dat is ontworpen om gegevensreeksen (zoals tijdreeksen of tekst) te verwerken door eerdere invoer te onthouden en te gebruiken om een bijbehorende reeks voorspellingen of outputwaarden te genereren.

Signup and view all the flashcards

Graph Neural Network (GNN)

Analyseert gegevens die worden gepresenteerd als een grafiek.

Signup and view all the flashcards

Natural Language Processing (NLP)

Analyseert menselijke tekstuele data van bronnen zoals sociale media or enquêtes.

Signup and view all the flashcards

Recommender Systems (RecSys)

Systemen die gepersonaliseerde aanbevelingen doen door patronen in gebruikersgedrag en voorkeuren te analyseren.

Signup and view all the flashcards

Machine Learning

Het doel is om computers te trainen om patronen en relaties te herkennen in data en daarop gebaseerde beslissingen of voorspellingen te maken zonder expliciete programmering.

Signup and view all the flashcards

Large Language Models (LLM)

Generatieve AI's die data/antwoorden genereren op basis van specifieke gebruikersinput/verzoeken. Voorbeeld: ChatGPT.

Signup and view all the flashcards

Recall

De verhouding tussen het aantal correct geclassificeerde positieve voorbeelden en het totale aantal positieve voorbeelden in de dataset.

Signup and view all the flashcards

F1-score

Een metriek die de balans tussen precisie en recall meet. Handig voor datasets met een ongelijk aantal voorbeelden in elke klasse.

Signup and view all the flashcards

Skewness

De mate van asymmetrie in een verdeling. Een scheve verdeling heeft een lange staart aan één kant.

Signup and view all the flashcards

Positieve skewness

Signaleert dat er meer waarden aan de ene kant van het gemiddelde zijn dan aan de andere.

Signup and view all the flashcards

Negatieve skewness

Signaleert dat er meer waarden aan de andere kant van het gemiddelde zijn dan aan de ene.

Signup and view all the flashcards

MCAR (Missing Completely At Random)

Ontbrekende waarde is volledig onafhankelijk van geobserveerde en ontbrekende data. Bv: beschadigd enquêteformulier.

Signup and view all the flashcards

MAR (Missing At Random)

Ontbrekende waarde hangt samen met geobserveerde waarde, maar niet met ontbrekende waarden zelf. Bv: oudere deelnemers missen BMI.

Signup and view all the flashcards

MNAR (Missing Not At Random)

Ontbrekende waarde is gerelateerd aan ontbrekende waarden zelf. Bv: Personen met hoog inkomen verbergen hun salaris.

Signup and view all the flashcards

Study Notes

Praktische vragen - Exploratieve data-analyse

  • Vraag 1: Leg uit waarom specifieke variabelen zijn gekozen voor het maken van grafieken, tabellen en statistieken. Beschrijf de onderlinge relaties tussen de variabelen.
  • Vraag 2: Beschrijf problemen die zijn opgetreden bij het gebruik van een CSV dataframe. Geef gedetailleerd aan wat er is gedaan om die problemen op te lossen.
  • Vraag 3: Kies twee paren van twee variabelen die mogelijk gerelateerd zijn aan beroertes. Leg uit waarom deze paren zijn gekozen en hoe de resultaten zijn berekend. Geef gedetailleerde uitleg.
  • Vraag 4: Benoem extra variabelen die in overweging zijn genomen. Leg uit wat criteria is gebruikt en hoe de andere drie variabelen (buiten het gekozen paar) verder zijn geanalyseerd. Interpreteer de resultaten.

Training en evaluatie van modellen

  • Vraag 5: Beschrijf de stappen die zijn gezet om een model te trainen en evalueren. Geef de gebruikte aanpak en de redenen voor modelkeuzes. Geef ook de gebruikte evaluatiemethoden aan en leg uit waarom ze zijn gekozen.
  • Vraag 6: Geef gedetailleerde aanwijzingen voor de stappen van voorbewerking, verwerking en nabewerking. Licht toe waarom deze stappen zijn uitgevoerd.
  • Vraag 7: Beschrijf wat er gebeurt in elke stap van de bewerkingsprocessen met de code. Leg ook de verwachte uitvoer van die processen uit.

Theorie vragen

  • Welke soorten data bestaan er?
  • Numerieke data: Numerieke waarden
  • Discreet: Data die geteld kan worden
  • Continu: Data die gemeten kan worden
  • Categorische data: Kwalitatieve data (categorieën)
  • Nominaal: Data met labels die geen volgorde hebben (bijvoorbeeld man/vrouw)
  • Ordinaal: Data met labels die wel een volgorde hebben (bijvoorbeeld laag/medium/hoog)
  • Wat is data-analyse (DA)?
  • Begrijpen van patronen en trends in gegevenssets (datasets).
  • Gebruikt voor diverse doelen, bijvoorbeeld menselijk gedrag, marketing, auto-verkoop etc.
  • Kun je Supervised Learning uitleggen, inclusief voorbeelden en algemene technieken?
  • Kun je Unsupervised Learning uitleggen, inclusief voorbeelden en algemene technieken?
  • Hoe kunnen input en outputs tot nieuwe, ongeziene data geleid worden voor predicties en wat zijn de voorbeelden.

Vragen over het gebruik van specificieke technieken

  • Vraag 8: Wat is de conclusie van het onderzoek en wat is de kans op beroerte?
  • Bepaal wat Classificatie & Regressie is voor Supervised Learning.
  • Uitleg over wat een continue en discrete doelvariabele is.
  • Uitleg over wat Lineaire Regressie is, wat het doet en wat de Voorbeelden zijn.
  • Uitleg over wat een t-test is en wat de toepassingen zijn.
  • Uitleg over de verschillende typen verdelingen (inclusief uniforme, normale, poisson, exponentiële, Bernoulli, binomiale verdelingen) en de verschillen daartussen.
  • Uitleg over het begrip Statistical significantie en praktische significantie, inclusief een voorbeeld.
  • K-means clustering uitleggen en voorbeeld geven.
  • Uitleg over t-SNE, Association Rule Mining, Autoencoders.
  • Uitleg over MAD (Mean Absolute Deviation), Variance, en Standard Deviation.
  • Uitleg over Cross-validatie, Leave-One-Out cross-validation.
  • Uitleg over LDA (Latent Dirichlet Allocation).
  • Uitleg over Sentimentanalyse en voorbeelden hiervan.
  • KNN (K-Nearest Neighbor) uitleggen.
  • Naïve Bayes uitleggen.
  • Bespreking van Train, Validation en Test modellen: uitleggen van het gebruik van deze modellen in Machine Learning.
  • Uitleg over Decision Tree's
  • Uitleg over Neural Networks, inclusief voor- en nadelen, verschillende soorten neural networks en de context voor hun gebruik.
  • Uitleg over Graph Neural Networks.
  • Uitleg over Natural Language Processing (NLP), incluis de technieken.
  • Uitleg over Recommender Systems (RecSys), inclusief de verschillende typen.
  • Uitleg hoe sequentieel en semantische relaties verwant zijn.
  • Uitleg over logististische regressie.
  • Uitleg over Random Forest Algorithmen.
  • Uitleg over statistische significantie en p-waarden.
  • Uitleg over Hypothesetoets.
  • Uitleg over Support Vector Machines (SVMs).
  • Uitleg over de verschillende typen ontbrekende gegevens met voorbeelden.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Exam Practice DAML PDF

More Like This

Use Quizgecko on...
Browser
Browser