Data-analyse en Machine Learning Quiz
48 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Data-analyse is het begrijpen van ______ en trends in datasets.

patronen

Supervised Learning leert de relatie tussen ______ en outputs.

inputs

Lineaire regressie voorspelt een ______ output op basis van invoerkenmerken.

continue

Logistische regressie wordt gebruikt voor ______ classificatieproblemen.

<p>binaire</p> Signup and view all the answers

Support Vector Machines vinden de optimale ______ tussen klassen/vectors.

<p>grens</p> Signup and view all the answers

Neurale netwerken zijn ______ modellen die grote datasets aankunnen.

<p>complexe</p> Signup and view all the answers

Unsupervised Learning traint een model op data zonder ______ inputs.

<p>gelabelde</p> Signup and view all the answers

Unsupervised Learning ontdekt ______ patronen, structuren of relaties in de data.

<p>verborgen</p> Signup and view all the answers

Clustering is het groeperen van vergelijkbare ______.

<p>datapunten</p> Signup and view all the answers

K-Means Clustering verdeelt data in k-______ op basis van gelijkenis.

<p>clusters</p> Signup and view all the answers

Classificatie werkt met een discrete doel______.

<p>variabele</p> Signup and view all the answers

Bij regressie voorspelt men de numerieke waarde van een ______.

<p>instantie</p> Signup and view all the answers

Volume, variety, velocity en ______ zijn de 4 V’s van big data.

<p>veracity</p> Signup and view all the answers

Statistical significance toont aan dat resultaten waarschijnlijk niet door ______ komen.

<p>toeval</p> Signup and view all the answers

Een uniforme verdeling heeft als kenmerk dat alle uitkomsten ______ zijn.

<p>gelijk</p> Signup and view all the answers

Autoencoders zijn neurale ______ ontworpen om efficiënte datarepresentaties te leren.

<p>netwerken</p> Signup and view all the answers

De normale verdeling is ______ en gecentreerd rond het gemiddelde.

<p>symmetrisch</p> Signup and view all the answers

De Student t-test is vergelijkbaar met de normaal maar heeft 'bredere ______'.

<p>staarten</p> Signup and view all the answers

De Poisson-verdeling modeleert het aantal ______ in een vaste tijd.

<p>gebeurtenissen</p> Signup and view all the answers

De Bernoulli-verdeling heeft ______ uitkomsten zoals 0 of 1.

<p>binaire</p> Signup and view all the answers

K-mean is een techniek voor ______ die data gegroepeert.

<p>clustering</p> Signup and view all the answers

MAD staat voor ______ Absolute Deviation.

<p>Mean</p> Signup and view all the answers

Cross-validatie minimaliseert ______ en geeft een nauwkeuriger beeld van modelprestaties.

<p>overfitting</p> Signup and view all the answers

Latent Dirichlet Allocation wordt gebruikt voor het automatisch modelleren van ______ in tekstverzamelingen.

<p>onderwerpen</p> Signup and view all the answers

Sequentiële relaties richten zich op de afhankelijkheid tussen opeenvolgende ______.

<p>acties</p> Signup and view all the answers

Een supervised learning model dat wiskunde gebruikt om de relaties tussen twee datafactoren te vinden wordt ______ genoemd.

<p>logistic regression</p> Signup and view all the answers

Statistische significantie geeft aan of een waargenomen verschil groot genoeg is om aan te nemen dat het niet door ______ is ontstaan.

<p>toeval</p> Signup and view all the answers

Een lage p-waarde wijst erop dat het resultaat waarschijnlijk niet door toeval komt en ______ is.

<p>statistisch significant</p> Signup and view all the answers

Nulhypothese gaat ervan uit dat er geen effect of ______ is.

<p>verschil</p> Signup and view all the answers

Support Vector Machines worden gebruikt voor classificatie- en ______ taken.

<p>regressie</p> Signup and view all the answers

Bij een tijdreeks is de ______ cruciaal.

<p>volgorde</p> Signup and view all the answers

Support Vector Machines vinden een optimaal ______ dat de data in verschillende klassen verdeelt.

<p>scheidingsvlak</p> Signup and view all the answers

De True Positive Rate (TPR) is ook bekend als de ______.

<p>gevoeligheid</p> Signup and view all the answers

Een perfecte ROC-curve loopt dicht bij de ______ hoek.

<p>linkerboven</p> Signup and view all the answers

Een coherence score meet de samenhang en logica van onderwerpen in een model door te evalueren hoe goed woorden binnen een onderwerp met elkaar ______.

<p>verband houden</p> Signup and view all the answers

De waarde van AUC ligt altijd tussen ______ en 1.

<p>0</p> Signup and view all the answers

CRISP-DM staat voor Cross-Industry Standard Process for ______.

<p>Data Mining</p> Signup and view all the answers

Bias verwijst naar een model dat ______ aannames heeft gemaakt.

<p>te simplistische</p> Signup and view all the answers

Overfitting komt voor wanneer een model goed presteert op ______ data.

<p>trainings</p> Signup and view all the answers

De confusion matrix laat ons de echte waarden van bepaalde ______ zien.

<p>metrics</p> Signup and view all the answers

De daadwerkelijke machine learning-modellen maken hoort bij de fase van ______.

<p>modellering</p> Signup and view all the answers

Associaties zijn een vorm van ______ learning.

<p>unsupervised</p> Signup and view all the answers

Een voorbeeld van een enkel attribuut associatie is ______ ^ Chips => Worst.

<p>Bier</p> Signup and view all the answers

MAE staat voor Mean Absolute ______.

<p>Error</p> Signup and view all the answers

Multi-relationele associaties kijken naar meerdere ______.

<p>attributen</p> Signup and view all the answers

De vier categorieën in de confusion matrix zijn true positives, true negatives, false positives en ______.

<p>false negatives</p> Signup and view all the answers

Accuracy is de verhouding van Alle ______ tot Alle voorspellingen.

<p>positieven</p> Signup and view all the answers

Precision is de verhouding van True ______ tot Alle positieve voorspellingen.

<p>positives</p> Signup and view all the answers

Flashcards

Data-analyse (DA)

Het begrijpen van patronen en trends in datasets.

Supervised Learning

Een type machine learning waarbij modellen met gelabelde data worden getraind om voorspellingen te doen over nieuwe, ongeziene data.

Unsupervised Learning

Een type machine learning waarbij modellen met ongeclassificeerde data worden getraind om verborgen patronen en structuren te ontdekken.

Lineaire Regressie (Supervised)

Een regressietechniek die gebruikt wordt om een continue output te voorspellen op basis van invoer kenmerken. Bijvoorbeeld, het voorspellen van huizenprijzen op basis van grootte en locatie.

Signup and view all the flashcards

Logistische Regressie (Supervised)

Een regressietechniek die gebruikt wordt voor binaire classificatie problemen. Bijvoorbeeld, het voorspellen of een e-mail spam is of niet.

Signup and view all the flashcards

Support Vector Machines (Supervised)

Een machine learning methode die de optimale grens tussen klassen of vectoren identificeert. Bijvoorbeeld, het classificeren van kankercellen.

Signup and view all the flashcards

Neurale Netwerken (Supervised)

Complexe modellen die grote en diverse datasets aankunnen. Bijvoorbeeld, het herkennen van objecten in een afbeelding.

Signup and view all the flashcards

K-Means Clustering

Een model dat data in k groepen verdeelt, waarbij elk datapunt tot de groep met de meeste gelijkenis behoort.

Signup and view all the flashcards

Hiërarchische Clustering

Een boomstructuur van clusters die data hiërarchisch groepeert, van algemeen naar specifiek.

Signup and view all the flashcards

Dimensiereductie

Het reduceren van het aantal kenmerken in data terwijl belangrijke informatie wordt behouden.

Signup and view all the flashcards

Lineaire Regressie

Een supervised learning model dat de waarde van onbekende data voorspelt door onafhankelijke en afhankelijke variabelen te combineren.

Signup and view all the flashcards

Classificatie

Het voorspellen tot welke klasse een instantie behoort, met een discrete doelvariabele.

Signup and view all the flashcards

Regressie

Het voorspellen van de numerieke waarde van een instantie, met een continue doelvariabele.

Signup and view all the flashcards

Statistische Significantie

Een meting die aangeeft of een resultaat waarschijnlijk niet door toeval is ontstaan.

Signup and view all the flashcards

Praktische Significantie

Een meting die beoordeelt of een resultaat betekenisvol is in een reële context.

Signup and view all the flashcards

Normale verdeling

Een symmetrische verdeling, gecentreerd rond het gemiddelde, met de meeste waarden dichtbij het gemiddelde.

Signup and view all the flashcards

Student t-verdeling

Vergelijkbaar met de normale verdeling, maar met bredere staarten, wat duidt op meer variabiliteit.

Signup and view all the flashcards

Poisson-verdeling

Een verdeling die de kans op een bepaald aantal gebeurtenissen in een vaste tijd of ruimte beschrijft.

Signup and view all the flashcards

Bernoulli-verdeling

Een verdeling die de kansen op twee mogelijke uitkomsten (0 of 1) in een enkele proef beschrijft.

Signup and view all the flashcards

Binomiale verdeling

Een verdeling die het aantal successen in meerdere onafhankelijke Bernoulli-proeven beschrijft.

Signup and view all the flashcards

Exponentiële verdeling

Een verdeling die de tijd tussen twee opeenvolgende gebeurtenissen beschrijft.

Signup and view all the flashcards

K-Means

Een techniek uit 'Unsupervised Learning' die data in clusters verdeelt door de variantie te minimaliseren.

Signup and view all the flashcards

Cross-Validatie

Een techniek om de prestaties van een machine learning-model te evalueren door de data in meerdere subsets te splitsen en het model te trainen en te testen op deze subsets.

Signup and view all the flashcards

Coherence score

Een score die de samenhang en logica van onderwerpen in een model beoordeelt door te kijken hoe goed woorden binnen een onderwerp met elkaar verband houden.

Signup and view all the flashcards

CRISP-DM

Een gestructureerde aanpak voor data-analyseprojecten, bestaande uit zes fasen: zakelijk begrip, data-begrip, data-voorbereiding, modellering, evaluatie en implementatie.

Signup and view all the flashcards

Confusion Matrix

Een tabel die de prestaties van een classificatiemodel samenvat door het aantal juiste en onjuiste voorspellingen te tonen, opgesplitst naar klassen. Het bevat vier categorieën: true positives, true negatives, false positives en false negatives, waarmee de nauwkeurigheid en effectiviteit van het model kunnen worden beoordeeld.

Signup and view all the flashcards

Accuracy

De verhouding van alle positieve classificaties tot alle voorspellingen in een Confusion Matrix.

Signup and view all the flashcards

Precision

De verhouding van true positives tot alle positieve voorspellingen in een Confusion Matrix.

Signup and view all the flashcards

Recall

De verhouding van true positives tot alle daadwerkelijke positieve gevallen in een Confusion Matrix.

Signup and view all the flashcards

F1-score

Een gemiddelde van precision en recall, die de balans tussen de twee meet. Het wordt berekend als 2 * (precision * recall) / (precision + recall).

Signup and view all the flashcards

Mean Absolute Error (MAE)

Som van alle fouten gedeeld door het aantal fouten.

Signup and view all the flashcards

Wat is logistieke regressie?

Een type machine learning-model dat wiskundige functies (zoals de sigmoid-functie) gebruikt om de waarschijnlijkheid van iets te voorspellen, gebaseerd op de relaties tussen twee datafactoren.

Signup and view all the flashcards

Wat is een random forest?

Een supervised learning-model dat voorspellingen doet door de uitkomsten van meerdere beslissingsbomen te combineren. Deze bomen zijn getraind op verschillende, willekeurige subsets van de trainingsdata om een hoge nauwkeurigheid te bereiken.

Signup and view all the flashcards

Wat is statistische significantie?

Statistische significantie geeft aan hoe waarschijnlijk het is dat een waargenomen verschil of relatie niet door toeval is ontstaan.

Signup and view all the flashcards

Wat is een p-waarde?

De p-waarde geeft de kans aan dat een waargenomen dataresultaat zou optreden, als er in werkelijkheid geen effect is (de nulhypothese waar is). Een lage p-waarde (bijvoorbeeld < 0,05) wijst op statistische significantie.

Signup and view all the flashcards

Wat is de nulhypothese?

Een aanname dat er geen effect of verschil is tussen twee groepen of variabelen. Bijvoorbeeld: "De nieuwe behandeling heeft geen effect op de patiënten."

Signup and view all the flashcards

Wat zijn support vector machines?

Support Vector Machines (SVMs) zijn supervised learning-modellen die een optimaal scheidingsvlak vinden om data in verschillende klassen te verdelen. Dit vlak maximaliseert de afstand (marge) tussen de data van de verschillende klassen, waardoor het model robuuster wordt.

Signup and view all the flashcards

Wat is het verschil tussen sequentiële en semantische relaties?

Sequentiële relaties focussen op de afhankelijkheid tussen opeenvolgende acties, terwijl semantische relaties de betekenisvolle verbanden tussen items benadrukken, onafhankelijk van hun volgorde.

Signup and view all the flashcards

Geef een voorbeeld van sequentiële en semantische relaties

Een tijdreeks is een reeks gegevens in de tijd, waarbij de volgorde cruciaal is. Een conceptnetwerk is een netwerk van begrippen, waarbij de verbanden tussen de begrippen belangrijk zijn, onafhankelijk van hun volgorde.

Signup and view all the flashcards

ROC-curve

De True Positive Rate (TPR) wordt uitgezet tegen de False Positive Rate (FPR) om de classificatieprestaties van een model te beoordelen. Een perfecte ROC-curve ligt dicht bij de linkerbovenhoek, wat een ideaal model aangeeft.

Signup and view all the flashcards

AUC (Area Under the Curve)

De AUC meet de oppervlakte onder de ROC-curve en geeft een enkele waarde om de prestaties van een model te beoordelen. Hoe dichter de AUC bij 1 ligt, hoe beter het model.

Signup and view all the flashcards

Bias (in ML)

Het model is te simpel en maakt te veel aannames, waardoor het te weinig leert en niet goed presteert op testdata.

Signup and view all the flashcards

Variance (in ML)

Het model past te veel aan de trainingsdata, waardoor het ruis en fouten oppikt en niet goed presteert op ongeziene data.

Signup and view all the flashcards

Overfitting

Het model presteert goed op de trainingsdata, maar slecht op onziene data. Dit komt doordat het model te veel details heeft onthouden, waardoor het niet goed generaliseert.

Signup and view all the flashcards

Associaties

Een vorm van unsupervised learning die patronen of relaties tussen items in een dataset identificeert.

Signup and view all the flashcards

Booleaans associatie

Een type associatie waarbij items samen worden gekocht, bijvoorbeeld brood en melk.

Signup and view all the flashcards

Kwantitatief associatie

Een type associatie waarbij relaties tussen verschillende attributen worden onderzocht. Bijvoorbeeld: leeftijd, inkomen en aankoop van een PC.

Signup and view all the flashcards

Study Notes

Praktische vragen - Exploratieve Data Analyse

  • Vraag 1: Leg uit waarom je specifieke variabelen hebt gekozen voor het maken van grafieken, tabellen en metingen. Leg ook de onderlinge verbanden uit.
  • Vraag 2: Beschrijf eventuele problemen die je ondervond tijdens het werken met CSV DataFrames. Beschrijf grondig hoe je deze problemen hebt opgelost.
  • Vraag 3: Kies twee paren van variabelen die mogelijk verband houden met beroertes. Leg uit waarom je deze specifieke variabelen hebt gekozen en hoe je jouw resultaten hebt verkregen. Geef een gedetailleerde uitleg.
  • Vraag 4: Beschrijf welke andere variabelen je hebt overwogen. Leg ook het criteria voor keuzes en de stappen die je daarna hebt ondernomen uit, en interpreteer de resultaten.

Training en evaluatie van modellen

  • Vraag 5: Beschrijf de methoden die je hebt gebruikt om modellen te trainen en evalueren. Leg je aanpak uit, welke evaluatie metrieken hebt je gebruikt en waarom, en welke modellen je hebt gekozen en de redenen daarachter.
  • Vraag 6: Beschrijf de voor-, verwerkings- en nabewerkingen van je data. Leg de redenen uit voor het uitvoeren van deze stappen.
  • Vraag 7: Leg alle stappen uit die je in de code hebt uitgevoerd om tot het gewenste resultaat te komen; beschrijf de input en output van iedere stap.

Theorie vragen

  • Welke soorten data zijn er? (Numerieke, discrete, continue en categorische (nominale en ordinale))
  • Wat is Data-analyse (DA)? (Het begrijpen van patronen en trends in datasets)
  • Uitleg van voorbeelden en de algemene technieken die gebruikt worden bij Supervised en Unsupervised learning.
  • Supervised learning: (Leer algoritmen op getrainde datasets om uitkomsten vooraf te voorspellen)
  • Unsupervised learning: (Leer algoritmen op datasets om verborgen patronen, relaties en verbanden in de dataset te ontdekken)

Andere vragen

  • Vraag 8: Wat is jouw algemene conclusie over de analyse en de modellen? Wat kun je zeggen over het risico op beroertes bij een individu?
  • Leg de vier V's van big data uit: (Volume, Variety, Velocity en Veracity)
  • Statistische significantie vs Praktische significantie: Toont aan dat resultaten waarschijnlijk niet door toeval komen, en beoordeelt of het resultaat zinvol/betekenisvol is in een reële context.
  • Verklaar verschillende soorten verdelingen (Uniforme, normale, exponentiële en Poisson-verdelingen).
  • Verklaar Student t-test (Vergelijkbaar met normaalverdeling maar met bredere staarten voor kleine steekproeven)
  • Verklaar Bernoulli-verdeling (Binaire uitkomsten zoals 0 of 1, zoals het gooien van een munt)
  • Verklaar Binomiale-verdeling (Meerdere Bernoulli-proeven, zoals de kans om twee keer een 4 te gooien met een dobbelsteen).
  • Verklaar Exponentiële verdeling (Tijd tussen gebeurtenissen, zoals de levensduur van een banaan)
  • Leg K-mean uit (gebruikt voor clustering, een methode voor het groeperen van data in sets die op elkaar lijken)
  • Beschrijf wat MAD, Variance en Standaarddeviatie zijn
  • Wat is cross-validatie: (Evaluatiemethode voor machine learning modellen door de data in subsets te splitsen).
  • Leave-one-out cross-validation (Methode om cross-validatie te doen waar slechts 1 datapunt in de testgroep zit)
  • Leg LDA (Latent Dirichlet Allocation) uit en waarvoor het gebruikt wordt.
  • Wat is sentimentanalyse: (Het analyseren van tekst om emoties of meningen te bepalen)
  • Leg K-nearest neighbor (KNN) algoritme uit
  • Leg Naïve Bayes uit (probabilistisch classificatie-algoritme)
  • Decision Tree (Methodologie van een boomstructuur om beslissingen te nemen op basis van inputdata)
  • Neural Networks (Methodologie van een algoritme voor het modelleren van niet-lineaire relaties )
  • Voor- en nadelen Neural Networks (Complexe relaties maar complex en duur )
  • Wanneer gebruik je wel of geen neural networks
  • Wat is GNN (Grafiek neurale netwerken)
  • Wat is Natural Language Processing (NLP): (Methode voor het analyseren van natuurlijke taal)
  • Wat is RecSys (Recommender Systems): (Systeem voor het doen van gepersonaliseerde aanbevelingen)
  • Wat is logististische regressie: (Supervised learning model dat relaties tussen factoren vindt)
  • Wat is een random forest: (Supervised learning methode die door meerdere decision trees een hogere nauwkeurigheid en robuustheid haalt)
  • Wat is statistische significantie en p-waarde
  • Wat is de nulhypothese in hypothesestoetsing
  • Wat zijn Support Vector Machines (SVMs)
  • Explicatie van een coherence score
  • Explicatie van CRISP-DM
  • Confusion Matrix (Tabel met resultaten van classificatiemodellen, zoals true positieven, true negatieven, false positieven en false negatieven)
  • Accuracy, Precision, Recall en F1-score (Metrieken voor het beoordelen van classificatiemodellen)
  • Wat is skewness (maat van asymmetrie in een verdeling)
  • Ontbrekende waarden in een dataset (MCAR, MAR en MNAR)
  • Hoe om te gaan met ontbrekende waarden in een dataset (Negeren/verwijderen, imputeren, markeren)
  • One-hot Encoding & Label Encoding (Methoden voor het omzetten van categorische data in numerieke data)
  • Wat is Spurious Correlation (Twee variabelen die toevallig gerelateerd lijken te zijn)
  • Wat is ROC en AUC (Metriek voor het vergelijken van classificatiemodellen)
  • Modelvalidatie (Het controleren van de nauwkeurigheid van het model bij ongeziene data)
  • Bias, Variance en Overfitting (Begrippen in het modelleren, die invloed hebben op de accuraatheid van het model)
  • Wat zijn associaties (Patronen en verbanden tussen items in een dataset)
  • Beschrijving typen associaties (Booleaans, kwantitatief, enkel attribuut, meerdere attributen)

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Exam Practice DAML PDF

Description

Test uw kennis over data-analyse en machine learning. Dit quiz behandelt belangrijke concepten zoals lineaire en logistische regressie, clustering en neuraal netwerken. Ontdek hoe verschillende technieken worden toegepast in het analyseren van datasets en het voorspellen van uitkomsten.

More Like This

Data Classification
16 questions

Data Classification

DauntlessYeti avatar
DauntlessYeti
Common Algorithms in Machine Learning
24 questions
Machine Learning Classification vs Clustering
34 questions
Use Quizgecko on...
Browser
Browser