Summary

This document contains practice questions for data analysis and machine learning. The questions cover various topics, including exploratory data analysis, training and evaluation of models, and different types and usage of models. The document also includes theoretical questions.

Full Transcript

Practical Questions Exploratory Data Analysis Vraag 1: Leg uit waarom je deze variabelen hebt gekozen om metrics, visualisaties en tabellen te maken. Leg hun onderlinge relatie uit. Vraag 2: Heb je problemen gehad met betrekking tot de CSV DataFrame? Leg grondig uit wat je hebt gedaan....

Practical Questions Exploratory Data Analysis Vraag 1: Leg uit waarom je deze variabelen hebt gekozen om metrics, visualisaties en tabellen te maken. Leg hun onderlinge relatie uit. Vraag 2: Heb je problemen gehad met betrekking tot de CSV DataFrame? Leg grondig uit wat je hebt gedaan. Vraag 3: Kies 2 paren van 2 variabelen waarvan je denkt dat ze mogelijk gerelateerd zijn aan beroertes. Waarom heb je deze gekozen, en hoe heb je je resultaten behaald? Leg gedetailleerd uit. Vraag 4: Welke andere variabele heb je gekozen? Wat is het criterium, en hoe ben je verder gegaan met de 3 andere variabelen? Leg uit en interpreteer deze resultaten. Training en Evaluatie van Modellen Vraag 5: Leg de stappen uit die je hebt ondernomen voor dit onderdeel. Wat is je aanpak? Welke evaluatiemetrics heb je gebruikt en waarom? Welke modellen heb je gebruikt en waarom? Vraag 6: Voorbewerking, verwerking en nabewerking; ga gedetailleerd in op waarom je deze stappen hebt genomen. Vraag 7: Leg uit wat er gebeurt in elke verwerkingsstap met betrekking tot je code en wat deze als output zou moeten geven. Vraag 8: Wat is je uiteindelijke conclusie in het algemeen? De analyse en je modellen? Wat kun je zeggen over het risico op beroertes bij een individu? Theorie Vragen Welke soorten data zijn er? Wat is DA? Data-analyse is het begrijpen van patronen en trends in datasets. Dit kan gaan over menselijk gedrag, marketing of zelfs autoverkopen. Kun je uitleggen, voorbeelden geven en algemene technieken benoemen met betrekking tot Supervised - en Unsupervised Learning? Notitie Supervised Learning Leer de relatie tussen inputs en outputs, zodat het nieuwe, ongeziene data kan voorspellen en fouten tussen voorspellingen en werkelijke labels minimaliseert. Voorbeelden Het voorspellen van huizenprijzen op basis van grootte, locatie, enz. Het classificeren van boetes van een politiebureau. Het leren van een AI om schaak te spelen. Veelgebruikte technieken Lineaire regressie: Voorspelt een continue output op basis van invoerkenmerken. Logistische regressie: Gebruikt voor binaire classificatieproblemen. Support Vector Machines: Vindt de optimale grens tussen klassen/vectors. Neurale netwerken: Complexe modellen die grote en diverse soorten datasets aankunnen. Notitie Unsupervised Learning Traint een model op data zonder gelabelde inputs om verborgen patronen, structuren of relaties binnen de data te ontdekken. Voorbeelden Detecteren van anomalieën binnen applicatiebeveiliging. Inzicht krijgen in klanten voor marketingdoeleinden. Ontdekken van nieuwe skateboardtrucs. Veelgebruikte technieken Clustering: Groeperen van vergelijkbare datapunten. K-Means Clustering: Verdeelt data in k-clusters op basis van gelijkenis. Hiërarchische Clustering: Bouwt een boomstructuur van clusters. Dimensiereductie: Vermindert het aantal kenmerken terwijl belangrijke informatie behouden blijft. Principale Componenten Analyse (PCA): Projecteert data in lagere dimensies. t-SNE: Visualisatie van data in 2D/3D. Association Rule Mining: Identificeert relaties tussen variabelen in grote datasets. Voorbeeld: Analyse van meest gekochte sportwagens. Autoencoders: Neurale netwerken ontworpen om efficiënte datarepresentaties te leren. Kun je specificeren wat Classificatie & Regressie in Supervised Learning zijn? Classificatie Discrete doelvariabele Voorspelt tot welke klasse een instantie behoort Vb: Classificatie werkt met een discrete doelvariabele, bijvoorbeeld het voorspellen of een e-mail "spam" of "geen spam" is. Regressie Continue doelvariabele Voorspelt de numerieke waarde van een instantie Vb: Regressie werkt met een continue doelvariabele, zoals het voorspellen van de prijs van een huis op basis van grootte en locatie. Wat is linear regression? Een supervised learning model dat de waarde van onbekende data voorspelt door onafhankelijke en afhankelijke variabelen samen te combineren. Ze kunnen vragen over gastcolleges zoals big data, leg de 4 V’s uit. Volume: De omvang van de data. Variety: De verschillende soorten data. Velocity: De snelheid waarmee data wordt verwerkt. Veracity: De nauwkeurigheid van de data. https://www.spiceworks.com/tech/big-data/articles/what-is-big-data/ Leg statististical significance uit, geef een voorbeeld en vergelijk het met praktical significance. Statistical significance Toont aan dat resultaten waarschijnlijk niet door toeval komen. Praktical significance Beoordeelt of het resultaat betekenisvol is in een reële context. Voorbeeld: Een medicijn dat stress met 1% kan verminderen kan statistisch significant zijn, maar in de praktijk niet erg nuttig. Leg de verschillende soorten verdelingen uit, wat zijn de verschillen tussen hen? Uniforme verdeling Alle uitkomsten zijn gelijk. Voorbeeld: Het opgooien van een munt. Kenmerk: Gelijk voor elke uitkomst. Normale verdeling (Klokvormige curve) Symmetrisch, gecentreerd rond het gemiddelde. Voorbeeld: IQ-scores. Kenmerk: 68-95-99.7% van de waarden liggen binnen 1, 2 of 3 standaarddeviaties vanaf het gemiddelde. Student t-test Vergelijkbaar met de normaal maar met "bredere staarten" (meer variabiliteit). Gebruik: Kleine steekproeven; afhankelijk van vrijheidsgraden. Voorbeeld: Kleine groepen testen op verschillen in gemiddelden. Poisson-verdeling Skewed; modelleert het aantal gebeurtenissen in een vaste tijd. Voorbeeld: Populariteit van een club tussen 20:00-02:00. Bernoulli-verdeling Binaire uitkomsten zoals 0 of 1. Voorbeeld: Het eenmalig gooien van een munt. Binomiale verdeling Meerdere Bernoulli-proeven. Voorbeeld: Kans om twee keer een 4 te gooien met een dobbelsteen. Exponentiële verdeling Tijd tussen gebeurtenissen. Voorbeeld: Levensduur van een banaan. Leg K-mean uit. K-mean (unsupervised learning): Wordt gebruikt voor clustering, groepeert data en minimaliseert variantie. Perfect voor grote datasets. Measures of Spread: leg MAD, variantie en standaarddeviatie uit. MAD (Mean Absolute Deviation): Gemiddelde van de absolute verschillen tussen elk datapunt en het gemiddelde. Variantie: Gemiddelde van de kwadratische verschillen van het gemiddelde. Standaarddeviatie: Vierkantswortel van de variantie. Wat is cross-validatie? Cross-validatie is een techniek om de prestaties van een machine learning-model te evalueren door de dataset in meerdere subsets (folds) te splitsen. Het model wordt herhaaldelijk getraind op een deel van de data (trainingsset) en getest op een ander deel (validatieset). Dit proces minimaliseert overfitting en geeft een nauwkeuriger beeld van hoe goed het model presteert op ongeziene data. K-Fold Cross-Validation Verdeelt de data in trainings- en testsets. Splits de trainingsset in k-subsets (folds). Traint en valideert de subsets en herhaalt dit proces met verschillende validatiesets. Kiest het beste model over alle folds met een evaluatie op de originele testset. Leave-One-Out-Cross-Validation k = Aantal instanties. Laat 1 instantie achter voor validatie en traint op de overige set. Herhaal voor alle instanties. instantie = rij in data set Beschrijf Train, Validation & Test Sets. Leg LDA uit en waarvoor het wordt gebruikt. Latent Dirichlet Allocation is een generatief statistisch model voor het automatisch modelleren van onderwerpen in tekstverzameling. Bijvoorbeeld: LDA kan worden gebruikt om Wikipedia-artikelen te analyseren en onderwerpen zoals "voetbal" en "prestaties" te identificeren. Hierbij kun je ook achterhalen hoe vaak termen zoals "Cristiano Ronaldo" in deze onderwerpen voorkomen en welke context daarbij hoort. Kun je uitleggen wat Sentimentanalyse betekent? Sentimentanalyse is een techniek binnen data-analyse waarbij tekst wordt geanalyseerd om de toon of emotie ervan te bepalen, zoals positief, negatief of neutraal. Bijvoorbeeld: Het analyseren van online recensies om te bepalen of mensen tevreden zijn met een product. Leg KNN uit. K-Nearest Neighbor: Een machine learning-algoritme dat een nieuw datapunt classificeert door te kijken naar de k dichtstbijzijnde datapunten (buren) in de dataset. De classificatie wordt bepaald door de meerderheid van de klassen waartoe deze buren behoren. Eenvoudig, intuïtief en geen aannames. Ideaal voor kleine datasets, maar minder efficiënt bij grotere datasets. Leg Naïve Bayes uit. Naïve Bayes is een probabilistisch classificatie-algoritme dat ervan uitgaat dat alle kenmerken (features) onafhankelijk van elkaar zijn, zelfs als dat in werkelijkheid niet zo is. Het is snel, eenvoudig en goed geschikt voor kleine datasets, en wordt vaak gebruikt bij tekstclassificatie zoals spamfiltering. Wat is een Decision Tree? Gebruikt een boomachtige structuur om beslissingen te nemen op basis van de inputs. Verdeelt de data in takken, conditioneert ze en leidt tot eindvoorspellingen bij de onderste bladeren. Eenvoudig, werkt goed met gemengde datatypes en is interpreteerbaar. Leg Neural Networks uit. Types of Neural Networks Voordelen van Neural Networks Complexe, lineaire relaties. Flexibel. Schaalbaarheid. Automatische kenmerkextractie. Nadelen van Neural Networks Grote hoeveelheden data nodig. Computationeel duur. Black-box model: Complexe algoritmen, moeilijk om beslissingen te verklaren. Gevoelig voor overfitting: Geen regularisatie/voldoende data = overfitting. Wanneer Neural Networks gebruiken Herkennen van complexe patronen. Grote datasets. Hoogdimensionale data. Niet-lineaire relaties: complexe data. Sequentiële/temporale data: Modellen voor tijdreeksen, tekst of spraak. Creatieve taken: Kunstwerk/afbeeldingsgeneratie. Wanneer GEEN Neural Networks gebruiken Kleine datasets. Eenvoudige modellen & eenvoudige problemen. Beperkte computationele middelen. Real-time applicaties. Wat is DNN? Deep Neural Network is een kunstmatig neuraal netwerk met meerdere lagen tussen de invoer- en uitvoerlagen. Wat is CNN & RNN? Convolutional Neural Network: Een type kunstmatig neuraal netwerk dat voornamelijk wordt gebruikt voor beeldherkenning en -verwerking doordat het patronen in beelden kan herkennen. Recurrent Neural Network: Een neuraal netwerk dat is ontworpen om gegevensreeksen (zoals tijdreeksen of tekst) te verwerken door eerdere invoer te onthouden en te gebruiken om een bijbehorende reeks voorspellingen of outputwaarden te genereren. Leg GNN uit. Graph Neural Network analyseert gegevens die worden gepresenteerd als een grafiek. Leg NLP uit en geef technieken. Natural Language Processing analyseert menselijke tekstuele data van bronnen zoals sociale media of enquêtes. Technieken: Sentimentanalyse Topic modelling Tekstclassificatie Entiteitenherkenning Wat is RecSys? Recommender Systems (RecSys) zijn systemen die gepersonaliseerde aanbevelingen doen door patronen in gebruikersgedrag en voorkeuren te analyseren. Dit wordt vaak gebruikt in e-commerce, streamingdiensten of sociale media. Noem 3 typen RecSys. Content-gebaseerd: Gelezen door gebruiker1 -> aanbevolen aan gebruiker1 Collaboratief: gebruiker1&2 zijn vergelijkbaar -> gelezen door gebruiker1 & aanbevolen aan gebruiker2 Hybride: Combinatie van content-gebaseerd en collaboratief Wat is het doel van Machine Learning? Machine Learning heeft als doel om computers te trainen om patronen en relaties te herkennen in data en daarop gebaseerde beslissingen of voorspellingen te maken zonder expliciete programmering. Het biedt toepassingen zoals: Automatiseren van processen Verbeteren van nauwkeurigheid en efficiëntie Voorspellen van toekomstige trends Het oplossen van complexe problemen Wat betekent LLM en waar kan het worden gebruikt? Large Language Models zijn generatieve AI's die data/antwoorden genereren op basis van specifieke gebruikersinput/verzoeken. Voorbeeld: ChatGPT Wat is het verschil tussen sequentiële en semantische relaties? Sequential relaties: De volgorde van acties of gebeurtenissen is belangrijk, waarbij elke actie afhankelijk is van de vorige. Semantic relaties: Er bestaat een betekenisvolle verbinding tussen items, los van volgorde of tijd. Verschil: Sequentiële relaties richten zich op de afhankelijkheid tussen opeenvolgende acties, terwijl semantische relaties de betekenisvolle verbanden tussen items benadrukken, onafhankelijk van hun volgorde. Bijvoorbeeld, bij een tijdreeks is de volgorde cruciaal (sequentieel), terwijl bij een conceptnetwerk de relaties tussen begrippen betekenisvol zijn, ongeacht de volgorde (semantisch). Wat is logististic regression? Een supervised learning model dat wiskunde (bijvoorbeeld de sigm(oïd)-functie) gebruikt om de relaties tussen twee datafactoren te vinden door de waarschijnlijkheid van iets te voorspellen. Wat is een random forest? Een supervised learning model dat voorspellingen van meerdere decision trees combineert, getraind op willekeurige trainingssamples van data, om een hogere nauwkeurigheid en robuustheid te bereiken. Wat is statistische significantie & p-waarde? Statistische significantie: Geeft aan of een waargenomen verschil of relatie in een dataset groot genoeg is om aan te nemen dat het niet door toeval is ontstaan. Het helpt te bepalen of een patroon "echt" is of slechts een toevallige variatie. P-waarde: Een getal dat de waarschijnlijkheid aangeeft dat een waargenomen resultaat in de data optreedt als de nulhypothese waar is. Een lage p-waarde (bijvoorbeeld < 0,05) wijst erop dat het resultaat waarschijnlijk niet door toeval komt en statistisch significant is. Voorbeeld: Als je een nieuwe behandeling test, beoordeelt de statistische significantie of het verschil tussen de behandelgroep en de controlegroep niet door toeval komt. De p-waarde geeft aan hoe groot de kans is dat dit verschil wordt waargenomen als er in werkelijkheid geen effect is (de nulhypothese klopt). Hypothesetoetsing, wat is de nulhypothese? Nulhypothese Gaat ervan uit dat er geen effect of verschil is (gemiddelden zijn gelijk). Wat zijn support vector machines? Support Vector Machines (SVMs) zijn supervisiemodellen die worden gebruikt voor classificatie- en regressietaken. Ze werken door een optimaal scheidingsvlak (hypervlak) te vinden dat de data in verschillende klassen verdeelt. Dit hypervlak maximaliseert de afstand (marge) tussen de dichtstbijzijnde datapunten van elke klasse, waardoor het model robuust is tegen fouten. Voorbeeld: Bij een tweeklassenprobleem (bijvoorbeeld "kat" of "hond") verdeelt een SVM de data in twee groepen door een lijn (in 2D) of een vlak (in 3D) te trekken die de beste scheiding biedt tussen de categorieën. Wat is een coherence score? Vergelijkt twee scores om te bepalen welk onderwerp het beste is. Een coherence score meet de samenhang en logica van onderwerpen in een model door te evalueren hoe goed woorden binnen een onderwerp met elkaar verband houden. Wat is CRISP-DM? CRISP-DM (Cross-Industry Standard Process for Data Mining) is een gestructureerde aanpak voor data-analyseprojecten, bestaande uit zes fasen: business understanding, data understanding, data preparation, modeling, evaluation, en deployment. Zakelijk begrip Welk probleem proberen we conceptueel op te lossen? Begrip en voorbereiding van data Welke data hebben we beschikbaar? Is het schoon? Modellering De daadwerkelijke machine learning-modellen maken Evaluatie Zijn mijn modellen goed of niet? Implementatie Naar productie brengen. Kun je meer details geven over de Confusion Matrix? De confusion matrix laat ons de echte waarden van bepaalde metrics zien, het helpt ons modellen te evalueren en rekening te houden met deze verschillen in waarden. Wat zijn de regressie-evaluatiemetrics? MAE (Mean Absolute Error): Som van alle fouten / aantal fouten MAPE (Mean Absolute Percentage Error): Absolute waarde van ((werkelijk – voorspeld) / werkelijk) Tel ze allemaal op en vermenigvuldig met 100/aantal. MSE (Mean Squared Error): (Kwadrateer alle fouten, tel ze op, deel door het aantal fouten). Grote fouten worden zwaarder bestraft dan kleine. Totale som van kwadratische fouten: Kwadrateer alle fouten en tel ze op. Wat is een Confusion Matrix? Een confusion matrix is een tabel die de prestaties van een classificatiemodel samenvat door het aantal correcte en incorrecte voorspellingen te tonen, opgesplitst naar klassen. Het bevat vier categorieën: true positives, true negatives, false positives en false negatives, waarmee de nauwkeurigheid en effectiviteit van het model kunnen worden beoordeeld. Binnen de Confusion Matrix, kun je beschrijven wat Accuracy, Precision, Recall en F1- score betekenen? Accuracy: Verhouding van => Alle positieven // Alle voorspellingen. Precision: Verhouding van => True positives // Alle positieve voorspellingen. Recall: Verhouding van => True positives // Alle positieven. F1-score: Biedt een metric die de afweging tussen precision en recall in balans brengt. Handig voor ongebalanceerde datasets. Welke soorten skewness zijn er en wat betekenen ze? Skewness meet de mate van asymmetrie in een verdeling: Positieve skewness (rechts scheef): Staart aan de rechterkant, waarden aan de linkerkant. Negatieve skewness (links scheef): Staart aan de linkerkant, waarden aan de rechterkant. Welke soorten ontbrekende waarden zijn er? MCAR (Missing Completely At Random) De ontbrekende waarde is volledig onafhankelijk van zowel geobserveerde als ontbrekende data. Voorbeeld: Een enquêteformulier wordt beschadigd tijdens transport, waardoor enkele antwoorden ontbreken. MAR (Missing At Random) De ontbrekende waarde hangt samen met enkele geobserveerde data, maar niet met de ontbrekende waarden zelf. Voorbeeld: In een medisch onderzoek ontbreken BMI-waarden vaker bij oudere deelnemers, omdat deze minder vaak werden gemeten. MNAR (Missing Not At Random) De ontbrekende waarde is gerelateerd aan de ontbrekende waarden zelf. Voorbeeld: Mensen met een hoog inkomen vullen hun salaris niet in op een enquête vanwege privacyredenen. Hoe zou je omgaan met ontbrekende waarden? Negeer/verwijder Impute (vervang de waarde) Markeer ontbrekende waarden en onderzoek patronen. Wat doen One-Hot Encoding en Label Encoding? One-Hot Encoding: Methode die categorische data omzet in numerieke/binaire vectoren. Dit voorkomt dat het model ten onrechte een rangorde toekent aan de categorieën, wat belangrijk is bij niet-hiërarchische gegevens zoals kleuren (bijvoorbeeld rood, groen, blauw). Label Encoding: Wijst unieke gehele getallen toe aan elke categorische data, waardoor ze numerieke labels worden. Dit is nuttig voor hiërarchische of ordinale categorieën, zoals klein, middelgroot en groot. Het doel van beide technieken is om categorische gegevens te transformeren naar een formaat dat machine learning-algoritmes begrijpen. Wat is Spurious Correlation? Wanneer twee variabelen toevallig gerelateerd lijken te zijn. Wat is ROC en AUC? ROC (Receiver Operating Characteristic): Een ROC-curve is een grafiek die de prestaties van een classificatiemodel weergeeft bij verschillende drempelwaarden. De curve toont de True Positive Rate (TPR) (gevoeligheid) op de y-as tegen de False Positive Rate (FPR) op de x-as. Het helpt bij het beoordelen van hoe goed een model onderscheid maakt tussen klassen, ongeacht de gekozen drempel. True Positive Rate (TPR): Percentage positieve gevallen dat correct wordt voorspeld. False Positive Rate (FPR): Percentage negatieve gevallen dat ten onrechte als positief wordt voorspeld. Een perfecte ROC-curve loopt dicht bij de linkerbovenhoek, wat een ideaal model aangeeft. AUC (Area Under the Curve): De AUC is de oppervlakte onder de ROC-curve en geeft een enkele waarde om de prestaties van een model samen te vatten. De waarde ligt tussen 0 en 1: AUC = 1: Perfect model (alle voorspellingen correct). AUC = 0.5: Willekeurig model (geen onderscheid tussen klassen). AUC < 0.5: Slechter dan willekeurig (foute voorspellingen domineren). Hoe dichter de AUC bij 1 ligt, hoe beter het model onderscheid maakt tussen positieve en negatieve klassen. Kun je Modelvalidatie beschrijven? Je zorgt ervoor dat het model accuraat, betrouwbaar en geschikt is voor het doel. Je controleert of het model echte werelddata vertegenwoordigt, de zakelijke vraag beantwoordt en goed presteert met ongeziene data. Wat betekenen Bias, Variance en Overfitting? Bias: Een model dat te simplistische aannames heeft gemaakt, wat leidt tot underfitting. Variance: Een model neemt ruis in de trainingsdata mee, wat leidt tot overfitting. Overfitting: Een model presteert goed op trainingsdata maar faalt op ongeziene data. Wat zijn associaties? Associaties zijn een vorm van unsupervised learning die patronen of relaties tussen items in een dataset identificeert. Ze worden vaak gebruikt om verbanden te ontdekken in transactiedata, zoals welke items vaak samen worden gekocht (bijvoorbeeld brood en melk). Kun je de typen associaties noemen? Booleaans Brood ^ Melk => Luiers Kwantitatief Leeftijd in [30,39] ^ inkomen in [2500, 4000] => koopt PC Enkel attribuut (1 variabele) Bier ^ Chips => Worst Meerdere attributen (meer dan 1 variabele) Leeftijd in [18,25] ^ inkomen < 1500 => student Multi-relationeel Buys(x, PC) ^ friends(x, y) => Buys(y, PC). X koopt een PC en is bevriend met Y; het is waarschijnlijk dat Y ook een PC koopt. Enkelniveau Bier ⇒ Friet. Studenten die bier kopen, kopen ook friet. Meerdere niveaus Stella Artois ⇒ Frikandel. Mensen die Stella drinken, kopen ook frikandellen. McDonald's ⇒ Kater. Mensen die McDonald's eten, krijgen vaak een kater. CORRELATIE IS GEEN CAUSALITEIT!!!!

Use Quizgecko on...
Browser
Browser