Data-analyse en Machine Learning Quiz
48 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Data-analyse is het begrijpen van ______ en trends in datasets.

patronen

Supervised Learning leert de relatie tussen ______ en outputs.

inputs

Lineaire regressie voorspelt een ______ output op basis van invoerkenmerken.

continue

Logistische regressie wordt gebruikt voor ______ classificatieproblemen.

<p>binaire</p> Signup and view all the answers

Support Vector Machines vinden de optimale ______ tussen klassen/vectors.

<p>grens</p> Signup and view all the answers

Neurale netwerken zijn ______ modellen die grote datasets aankunnen.

<p>complexe</p> Signup and view all the answers

Unsupervised Learning traint een model op data zonder ______ inputs.

<p>gelabelde</p> Signup and view all the answers

Unsupervised Learning ontdekt ______ patronen, structuren of relaties in de data.

<p>verborgen</p> Signup and view all the answers

Clustering is het groeperen van vergelijkbare ______.

<p>datapunten</p> Signup and view all the answers

K-Means Clustering verdeelt data in k-______ op basis van gelijkenis.

<p>clusters</p> Signup and view all the answers

Classificatie werkt met een discrete doel______.

<p>variabele</p> Signup and view all the answers

Bij regressie voorspelt men de numerieke waarde van een ______.

<p>instantie</p> Signup and view all the answers

Volume, variety, velocity en ______ zijn de 4 V’s van big data.

<p>veracity</p> Signup and view all the answers

Statistical significance toont aan dat resultaten waarschijnlijk niet door ______ komen.

<p>toeval</p> Signup and view all the answers

Een uniforme verdeling heeft als kenmerk dat alle uitkomsten ______ zijn.

<p>gelijk</p> Signup and view all the answers

Autoencoders zijn neurale ______ ontworpen om efficiënte datarepresentaties te leren.

<p>netwerken</p> Signup and view all the answers

De normale verdeling is ______ en gecentreerd rond het gemiddelde.

<p>symmetrisch</p> Signup and view all the answers

De Student t-test is vergelijkbaar met de normaal maar heeft 'bredere ______'.

<p>staarten</p> Signup and view all the answers

De Poisson-verdeling modeleert het aantal ______ in een vaste tijd.

<p>gebeurtenissen</p> Signup and view all the answers

De Bernoulli-verdeling heeft ______ uitkomsten zoals 0 of 1.

<p>binaire</p> Signup and view all the answers

K-mean is een techniek voor ______ die data gegroepeert.

<p>clustering</p> Signup and view all the answers

MAD staat voor ______ Absolute Deviation.

<p>Mean</p> Signup and view all the answers

Cross-validatie minimaliseert ______ en geeft een nauwkeuriger beeld van modelprestaties.

<p>overfitting</p> Signup and view all the answers

Latent Dirichlet Allocation wordt gebruikt voor het automatisch modelleren van ______ in tekstverzamelingen.

<p>onderwerpen</p> Signup and view all the answers

Sequentiële relaties richten zich op de afhankelijkheid tussen opeenvolgende ______.

<p>acties</p> Signup and view all the answers

Een supervised learning model dat wiskunde gebruikt om de relaties tussen twee datafactoren te vinden wordt ______ genoemd.

<p>logistic regression</p> Signup and view all the answers

Statistische significantie geeft aan of een waargenomen verschil groot genoeg is om aan te nemen dat het niet door ______ is ontstaan.

<p>toeval</p> Signup and view all the answers

Een lage p-waarde wijst erop dat het resultaat waarschijnlijk niet door toeval komt en ______ is.

<p>statistisch significant</p> Signup and view all the answers

Nulhypothese gaat ervan uit dat er geen effect of ______ is.

<p>verschil</p> Signup and view all the answers

Support Vector Machines worden gebruikt voor classificatie- en ______ taken.

<p>regressie</p> Signup and view all the answers

Bij een tijdreeks is de ______ cruciaal.

<p>volgorde</p> Signup and view all the answers

Support Vector Machines vinden een optimaal ______ dat de data in verschillende klassen verdeelt.

<p>scheidingsvlak</p> Signup and view all the answers

De True Positive Rate (TPR) is ook bekend als de ______.

<p>gevoeligheid</p> Signup and view all the answers

Een perfecte ROC-curve loopt dicht bij de ______ hoek.

<p>linkerboven</p> Signup and view all the answers

Een coherence score meet de samenhang en logica van onderwerpen in een model door te evalueren hoe goed woorden binnen een onderwerp met elkaar ______.

<p>verband houden</p> Signup and view all the answers

De waarde van AUC ligt altijd tussen ______ en 1.

<p>0</p> Signup and view all the answers

CRISP-DM staat voor Cross-Industry Standard Process for ______.

<p>Data Mining</p> Signup and view all the answers

Bias verwijst naar een model dat ______ aannames heeft gemaakt.

<p>te simplistische</p> Signup and view all the answers

Overfitting komt voor wanneer een model goed presteert op ______ data.

<p>trainings</p> Signup and view all the answers

De confusion matrix laat ons de echte waarden van bepaalde ______ zien.

<p>metrics</p> Signup and view all the answers

De daadwerkelijke machine learning-modellen maken hoort bij de fase van ______.

<p>modellering</p> Signup and view all the answers

Associaties zijn een vorm van ______ learning.

<p>unsupervised</p> Signup and view all the answers

Een voorbeeld van een enkel attribuut associatie is ______ ^ Chips => Worst.

<p>Bier</p> Signup and view all the answers

MAE staat voor Mean Absolute ______.

<p>Error</p> Signup and view all the answers

Multi-relationele associaties kijken naar meerdere ______.

<p>attributen</p> Signup and view all the answers

De vier categorieën in de confusion matrix zijn true positives, true negatives, false positives en ______.

<p>false negatives</p> Signup and view all the answers

Accuracy is de verhouding van Alle ______ tot Alle voorspellingen.

<p>positieven</p> Signup and view all the answers

Precision is de verhouding van True ______ tot Alle positieve voorspellingen.

<p>positives</p> Signup and view all the answers

Study Notes

Praktische vragen - Exploratieve Data Analyse

  • Vraag 1: Leg uit waarom je specifieke variabelen hebt gekozen voor het maken van grafieken, tabellen en metingen. Leg ook de onderlinge verbanden uit.
  • Vraag 2: Beschrijf eventuele problemen die je ondervond tijdens het werken met CSV DataFrames. Beschrijf grondig hoe je deze problemen hebt opgelost.
  • Vraag 3: Kies twee paren van variabelen die mogelijk verband houden met beroertes. Leg uit waarom je deze specifieke variabelen hebt gekozen en hoe je jouw resultaten hebt verkregen. Geef een gedetailleerde uitleg.
  • Vraag 4: Beschrijf welke andere variabelen je hebt overwogen. Leg ook het criteria voor keuzes en de stappen die je daarna hebt ondernomen uit, en interpreteer de resultaten.

Training en evaluatie van modellen

  • Vraag 5: Beschrijf de methoden die je hebt gebruikt om modellen te trainen en evalueren. Leg je aanpak uit, welke evaluatie metrieken hebt je gebruikt en waarom, en welke modellen je hebt gekozen en de redenen daarachter.
  • Vraag 6: Beschrijf de voor-, verwerkings- en nabewerkingen van je data. Leg de redenen uit voor het uitvoeren van deze stappen.
  • Vraag 7: Leg alle stappen uit die je in de code hebt uitgevoerd om tot het gewenste resultaat te komen; beschrijf de input en output van iedere stap.

Theorie vragen

  • Welke soorten data zijn er? (Numerieke, discrete, continue en categorische (nominale en ordinale))
  • Wat is Data-analyse (DA)? (Het begrijpen van patronen en trends in datasets)
  • Uitleg van voorbeelden en de algemene technieken die gebruikt worden bij Supervised en Unsupervised learning.
  • Supervised learning: (Leer algoritmen op getrainde datasets om uitkomsten vooraf te voorspellen)
  • Unsupervised learning: (Leer algoritmen op datasets om verborgen patronen, relaties en verbanden in de dataset te ontdekken)

Andere vragen

  • Vraag 8: Wat is jouw algemene conclusie over de analyse en de modellen? Wat kun je zeggen over het risico op beroertes bij een individu?
  • Leg de vier V's van big data uit: (Volume, Variety, Velocity en Veracity)
  • Statistische significantie vs Praktische significantie: Toont aan dat resultaten waarschijnlijk niet door toeval komen, en beoordeelt of het resultaat zinvol/betekenisvol is in een reële context.
  • Verklaar verschillende soorten verdelingen (Uniforme, normale, exponentiële en Poisson-verdelingen).
  • Verklaar Student t-test (Vergelijkbaar met normaalverdeling maar met bredere staarten voor kleine steekproeven)
  • Verklaar Bernoulli-verdeling (Binaire uitkomsten zoals 0 of 1, zoals het gooien van een munt)
  • Verklaar Binomiale-verdeling (Meerdere Bernoulli-proeven, zoals de kans om twee keer een 4 te gooien met een dobbelsteen).
  • Verklaar Exponentiële verdeling (Tijd tussen gebeurtenissen, zoals de levensduur van een banaan)
  • Leg K-mean uit (gebruikt voor clustering, een methode voor het groeperen van data in sets die op elkaar lijken)
  • Beschrijf wat MAD, Variance en Standaarddeviatie zijn
  • Wat is cross-validatie: (Evaluatiemethode voor machine learning modellen door de data in subsets te splitsen).
  • Leave-one-out cross-validation (Methode om cross-validatie te doen waar slechts 1 datapunt in de testgroep zit)
  • Leg LDA (Latent Dirichlet Allocation) uit en waarvoor het gebruikt wordt.
  • Wat is sentimentanalyse: (Het analyseren van tekst om emoties of meningen te bepalen)
  • Leg K-nearest neighbor (KNN) algoritme uit
  • Leg Naïve Bayes uit (probabilistisch classificatie-algoritme)
  • Decision Tree (Methodologie van een boomstructuur om beslissingen te nemen op basis van inputdata)
  • Neural Networks (Methodologie van een algoritme voor het modelleren van niet-lineaire relaties )
  • Voor- en nadelen Neural Networks (Complexe relaties maar complex en duur )
  • Wanneer gebruik je wel of geen neural networks
  • Wat is GNN (Grafiek neurale netwerken)
  • Wat is Natural Language Processing (NLP): (Methode voor het analyseren van natuurlijke taal)
  • Wat is RecSys (Recommender Systems): (Systeem voor het doen van gepersonaliseerde aanbevelingen)
  • Wat is logististische regressie: (Supervised learning model dat relaties tussen factoren vindt)
  • Wat is een random forest: (Supervised learning methode die door meerdere decision trees een hogere nauwkeurigheid en robuustheid haalt)
  • Wat is statistische significantie en p-waarde
  • Wat is de nulhypothese in hypothesestoetsing
  • Wat zijn Support Vector Machines (SVMs)
  • Explicatie van een coherence score
  • Explicatie van CRISP-DM
  • Confusion Matrix (Tabel met resultaten van classificatiemodellen, zoals true positieven, true negatieven, false positieven en false negatieven)
  • Accuracy, Precision, Recall en F1-score (Metrieken voor het beoordelen van classificatiemodellen)
  • Wat is skewness (maat van asymmetrie in een verdeling)
  • Ontbrekende waarden in een dataset (MCAR, MAR en MNAR)
  • Hoe om te gaan met ontbrekende waarden in een dataset (Negeren/verwijderen, imputeren, markeren)
  • One-hot Encoding & Label Encoding (Methoden voor het omzetten van categorische data in numerieke data)
  • Wat is Spurious Correlation (Twee variabelen die toevallig gerelateerd lijken te zijn)
  • Wat is ROC en AUC (Metriek voor het vergelijken van classificatiemodellen)
  • Modelvalidatie (Het controleren van de nauwkeurigheid van het model bij ongeziene data)
  • Bias, Variance en Overfitting (Begrippen in het modelleren, die invloed hebben op de accuraatheid van het model)
  • Wat zijn associaties (Patronen en verbanden tussen items in een dataset)
  • Beschrijving typen associaties (Booleaans, kwantitatief, enkel attribuut, meerdere attributen)

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Exam Practice DAML PDF

Description

Test uw kennis over data-analyse en machine learning. Dit quiz behandelt belangrijke concepten zoals lineaire en logistische regressie, clustering en neuraal netwerken. Ontdek hoe verschillende technieken worden toegepast in het analyseren van datasets en het voorspellen van uitkomsten.

More Like This

Data Classification
16 questions

Data Classification

DauntlessYeti avatar
DauntlessYeti
Common Algorithms in Machine Learning
24 questions
Machine Learning Classification vs Clustering
34 questions
Use Quizgecko on...
Browser
Browser