Aantekeningen Datasemester 1 (Deel 2) PDF

Summary

These notes cover data analysis, business intelligence, data mining, and the CRISP-DM framework for using data in organizations. It explores how data can be used to improve efficiency, drive innovation, and enhance services. The document also discusses the stages of a data project and the organizational context that influences problems and solutions.

Full Transcript

Data semester Alles. Data Helpt organisaties Presentaties meten Verbranden ontdekken (oorzaken) Voorspellen ! Beïnvloeden ———————————————————— + Ef ciënter werken, Nieuwe producten/...

Data semester Alles. Data Helpt organisaties Presentaties meten Verbranden ontdekken (oorzaken) Voorspellen ! Beïnvloeden ———————————————————— + Ef ciënter werken, Nieuwe producten/diensten/markten, Betere dienstverlening. Vier vormen van analytics -> DDPP = WatWarWatHoe ! De stadia in het datasemester fi Waarde komt niet vanzelf uit data… Waarde uit data halen kost moeite: Vraagt kennis van de business Vraagt kennis van modellen en statistiek Data is niet altijd wat je denkt dat het is. ^Termen hiervoor: Data mining, Analytics, Data science, Business Intelligence ! CRISP-DM CRoss Industry Standard Process - Data Mining Framework “Een proces voor hoe een organisatie waarde uit data kan halen” ! ^Voordelen Geschikt voor grote en kleine projecten Onafhankelijk van bedrijfstak Onafhankelijk van techniek Relatief… In praktijk bewezen ! Taken en producten per fase Business understanding Doel: Nauwkeurig het probleem van de opdrachtgever Grondig begrijpen (waar zit de pijn?) begrijpen en de organisatorische context in kaart brengen en een projectplan ontwikkelen To thoroughly understand, from a business perspective, what the Taal van de klant customer really wants to accomplish. Wat is de vraag achter de vraag? Taken: ! Determine Business Objectives - Producten Asses Situation - Taak More detailed fact- nding about resources, constraints… Asses Situation - Producten Determine Data Mining Goals - Taak Vertaling van de business vraag naar een dataprobleem. Meestal vrij algemeen, Precies gede nieerd moeilijker te meten en meetbare doelen. Determine Data Mining Goals - Producten “Data Mining Goals de niëren de feitelijke (data)producten die het project gaat opleveren” fi fi fi Produce Project Plan - Taak Describe the intended plan for achieving the data mining goals and thereby achieving the business goals. Context en doelen Op te leveren producten Welke activiteit door wie en wanneer? Benodigde middelen (geld, expertise, systemen, faciliteiten etc.) Te gebruiken tools en technieken Risico’s en maatregelen College 2 ——————————————————————————————————————— Organisatie context De context Beïnvloedt het probleem Beïnvloedt de oplossing Project leidt vaak tot verandering van Proces Systeem Helpt bij succes van Mensen verandering. Etc. Verkennen Waarom? Missie, visie, strategie en succesfactoren Wie? Belangerijk! Stakeholders en organisatiecultuur Hoe? Processen Verkennen - Waarom? Missie - “de identiteit” Reden bestaan organisatie Kritische succesfactoren (KSF) Gericht op organisatie Identiteit Deze zijn écht Waar organisatie voor staat Drie tot vijf. nodig voor succes Vanuit ver verleden Tijdloos Een beperkt aantal factoren die essentieel zijn voor het bereiken van de doelen van Visie - “de toekomstdroom” een organisatie Gericht op omgeving Waar we voor gaan Doelen bepalen wat Ideale toekomstige situatie “succes” betekent. Baar verre toekomst Kan worden bijgesteld Strategie - “De roadmap” Globaal stappenplan Van huidige naar ideale situatie Geleid door visie Verkennen - Wie? soorten: Input (suppliers), Output (customers), Invloed/Besturing Relatie ligt niet altijd voor de hand Iedereen die een relatie heeft met het probleem of de oplossing. Iemand die Met name ook die gevolgen ondervindt nodig is voor de oplossing Mogelijke stakeholders: Klant/opdrachtgever Domeinexpert/specialist Eindgebruiker Data-eigenaar It’er Databasebeheerder Systeembeheerder Infra-/cloudspecialist Architect Ontwikkelaar UX-designer Organisatiestructuur wie doet wat? Structuur helpt een organisatie om de organisatiedoelen te bereiken Organisatiestructuur Wie doet wat? Wie beslist wat? Verkennen - Hoe? Proces in beeld brengen Wat is een SIPOC Supplier Input Proces Output Customer 4 tot 8 stappen. Samenvatting Belang data voor organisaties: Ef ciëntie Innovatie Dienstverlening CRISP-DM: Waarde uit data halen Fasen, taken, producten Business understanding: Belang: Essentieel voor goede oplossing Resultaat: doelen, situatieanalyse, projectplan Organisatorische context: Waarom: missie, visie, strategie, succesfactoren (KSF) Wie: stakeholders, organisatiestructuur Hoe: proces (SIPOC) fi Business intelligence Alles draait om informatie maar het is ondoenlijk om zonder hulp alle informatie te verzamelen, samen te voegen en te duiden. BI automatiseert dit en helpt bij het nemen van besluiten. Data kan je niks mee, maar informatie wel. Je hebt dus niks aan data uit zichzelf Data warehouse: alle data die je nodig hebt dus niet de systemen enzo Waarom deze hele architectuur nodig is De informatievoorziening in een organisatie is als de watervoorziening in een huis. Je móet erop kunnen vertrouwen dat je op allerlei plekken schoon water kunt tappen Zonder architectuur Excel sheets worden steeds aangepast. Met architectuur Data warehouse is de bron van informatie, alle afdelingen komen daar terecht. Hoe zit het me BI en CRISP-DM? Taak - Collect Initial Data 1. Requirements vaststellen Documenteer alles! Welke data? Bronnen, scope Expertise? Namen, contactgegevens 2. Beschikbaarheid controleren Eigendom (ook binnen organisatie!) Beveiliging (anonimiseren, NDA, AVG/GDPR) 3. Extractiemethode bepalen Export, API, ETL Scrapen, query 4.Opslag kiezen Systemen (databaseplatform?) Tools Collect Initial Data - Data selecteren De keuze is essentieel maar niet onbeperkt... Voorbeeld Collect Initial Data Taak - Explore Data Taak - Verify Data Quality Nagaan of de data: Compleet is Correct is Belangrijk! Fouten bevat (hoeveel/hoe vaak) Kan vaak een ‘showstopper’ zijn Ontbrekende data bevat (hoeveel/hoe vaak). College 3 ——————————————————————————————————————— Data preparation. - Data preparation - uitgangssituatie Wat is een database? Relaties tussen tabellen Kraaipootnotatie Relatie altijd in twee richtingen bekijken: van ene naar andere entiteit en andersom Andere de nitie Een goede KPI... van KPI Is relevant voor de organisatiedoelen Kan worden vergeleken met een doel Geeft een objectief en betrouwbaar beeld Geeft voldoende detail om op te reageren fi Geeft ook informatie over trends Klanttevredenheidsscore Voorbeeld Chokolaide Voorbeeld Strategische KPI’s Voorbeeld Verslavings-KPI’s Resultaatkaart Geeft overzicht Laat zien hoe visie gerealiseerd wordt Visie Maakt resultaat van strategie concreet meetbaar Toont oorzaken en gevolgen Beoogde Gevolg resultaten Nadeel Oorzaak Strategie Alleen oorzaak-gevolg Geen andere relaties elementen KSF’s KPI’s en Data Mining Goals Samenvatting Casus Vitens Leklokalisatie Key Performance Indicators (KPI’s) Voortgang op organisatiedoelen monitoren Meetbaar en vergelijkbaar met beoogd resultaat Succesfactoren Hoe KPI’s te bepalen Resultaatkaart Relatie met data mining goals Hoorcollege 3 - Sustainable development Goals Samenvatting Sustainable development Goals Grotere context dan organisatie Raakt iedereen 17 doelen, 169 targets, 231 indicatoren Synergy/trade-off Data speel belangrijke rol Soorten doelen Per doel Economie Targets: beoogde resultaten Samenleving Indicatoren: om voortgang te monitoren Natuur en milieu DATA Beschikbaarheid data sterk toegenomen Nationale statistiek diensten belangrijk Vraag naar data jaagt innovatie aan Veel samenwerking voor betere en inclusievere data Openbaarheid en beschikbaarheid data hebben impact Investeren in data belangrijk voor SDG’s Hoe organisaties kunnen bijdragen SDG’s in missie en visie verwerken SDG-impact meten en rapporteren Energieneutraal worden Leren van andere organisaties Volg tips van de overheid: Rijksdienst voor Ondernemend Nederland > Duurzaam Ondernemen Wat beschrijft in de context van SDG's synergie het beste? De inspanning die wordt geleverd om het ene resultaat te behalen, werkt ook mee aan het behalen van andere resultaten Hoorcollege 3 - CRISP-DM business understanding Data understanding - Doel Nauwkeurig inzicht krijgen in de structuur, betekenis en de kwaliteit van de voor de oplossing van het probleem relevante data. Data understanding komt in mijn a alle fasen terug want het us essentieel voor een succesvolle oplossing. Data understanding - Taken Collect Initial Data - Taak 1. Requirements vastellen Welke data? Bronnen, scope Expertise 2. Beschikbaarheid controleren Eigendom (ook binnen organisatie!) Beveiliging (anonimiseren, NDA, AVG/GDPR) Documenteer alles! 3. Extractiemethode bepalen Export, API, ETL Scrapen, query 4. Opslag kiezen Systemen (databaseplatform?) Tools Collect Initial Data - Overweging bij het data selecteren Collect Initial Data - Voorbeeld Describe Data - Taak Data verkennen Belangrijkste kenmerken beschrijven (oppervlakkig): Bestandsformaat/structuur Aantal tabellen Aantal kolommen en rijen per tabel Koppelvelden (bv. ID’s) Opvallende zaken Voldoet aan requirements? Explore Data - Taak Mogelijke activiteiten Query’s schrijven Visualisaties maken Rapportage Verbranden vinden Analyses vergelijken met de ‘voorkant’ van applicatie Relaties zoeken (correlaties) Statische beschrijvingen (bv. Verdelingen) Hypotheses bedenken Data description ver jnen Bruikbaarheid verder vaststellen Etc. fi Verify Data Quality - Taak Nagaan of de data: Compleet is Correct is Fouten bevat (hoeveel/hoe vaak) Ontbrekende data bevat (hoeveel/hoe vaak) Fouten in data kunnen veel geld kosten Gemiste kansen Onvoorziene bedreigingen Ontevreden klanten Inef ciënties in proces Wat is datakwaliteit precies? De bruikbaarheid van data voor het beoogde (business)doel. Dimensies van kwaliteit Volledigheid Uniciteit Actualiteit Validiteit Nauwkeurigheid Consistentie fi Hoe ontstaan problemen met datakwaliteit? Gegevensinvoer Wijzingen bronsystemen Dataimigratie/-conversie Eterne data Systeemfouten … Samenvatting Sustainable development Goals Datakwaliteit Grotere context dan organisatie Bruikbaarheid voor doel Raakt iedereen Dimensies: volledigheid, actualiteit, 17 doelen, 169 targets, 231 indicatoren uniciteit, validiteit, nauwkeurigheid, Synergy/trade-off consistentie Data speel belangrijke rol Nauwkeurigheid moeilijk Ontstaan kwaliteitsproblemen Data Understanding Data verzamelen (Vaak veel betrokkenen) Data beschrijven Data verkennen Data kwaliteit vastellen Volgorde: 1 Collect Initial Data > 2 Describe Data > 3 Explore Data > 4 Verify Data Quality Hoorcollege 4 - Data preparation Data preparation - uitgangssituatie Data preparation - Veelvoorkomende taken Datastructuur in detail begrijpen Filteren en selecteren Data combineren Data naar andere vorm omzetten Datakwaliteit verbeteren 80% van het werk A data scientist is… …somebody who is more busy with data preparation than he’d like to admit Data preparation - Doel Data preparation - ‘data is the new oil’ Data preparation - Clean Ontbrekende waarden Uitschieters afhandelen Vervangen Verwijderen Ruis verwijderen Corrigeren Aggregeren of desaggregeren Wat we bedoelen met een model? Data preparation - Taken Data preparation - Construct Nieuwe kenmerken a eiden uit de data (bv. Leeftijd op basis van geboortedatum en verkoopdatum) Records creëren (bv. Testcases of voor ondervertegenwoordigde categorieën). fl Data uit verschillende datasets met elkaar combineren in één dataset. Data preparation - Integrate Data uit verschillende datasets met elkaar combineren in één dataset. Voorbeelden Join in SQL Verticaal zoeken in Excel(VLOOKUP) Uitdagingen ID-/sleutelkolommen waarop je kunt koppelen Verschil in aggregatieniveau Integrate: klanten op de kaart - Voorbeeld Elvenproef - Validiteit testen Een simpele check voor om te zien of een bankrekeningnummer VALIDE is: Data Preparation is risicovol Omgaan met ontbrekende waarden Drie soorten ontbrekende waarden Vakkennis vereist Goed omgaan met ontbrekende waarden en uitschieters vereist: Kennis van het domein Kennis van statistiek Samenvatting Data Preparation Select Clean Construct Integrate Transform Ontbrekende waarden/uitschieters In de praktijk Bewerkelijk Risico’s

Use Quizgecko on...
Browser
Browser