Big Data en Graf-native Databases

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Wat is een kenmerk van het label-property-graph bij databases?

  • Relaties zijn alleen in de vorm van strings.
  • Relaties zijn niet gericht.
  • Node's hebben geen label.
  • Node's kunnen eigenschappen bevatten. (correct)

Welke van de volgende elementen is geen onderdeel van de V's van big data?

  • Veracity.
  • Vorm. (correct)
  • Velociteit.
  • Volume.

Wat is een nadeel van verticale schaling (scale up)?

  • Er is een limiet aan de hoeveelheid hardware die kan worden toegevoegd. (correct)
  • Het is moeilijk om hardware binnen een enkele machine te beheren.
  • Er zijn geen mogelijkheden om de prestaties van het systeem te verbeteren.
  • Software systeem kan complexe data distributie niet beheren.

Wat beschrijft het beste de aard van een graf-native database?

<p>Het is ontworpen voor het opslaan van complexe relaties tussen gegevens. (D)</p> Signup and view all the answers

Welke van de volgende beweringen over horizontale schaling (scale out) is waar?

<p>Het verhoogt prestaties met kleine stappen na behoefte. (C)</p> Signup and view all the answers

Wat is een belangrijk voordeel van big data frameworks?

<p>Ze vergemakkelijken de verwerking van grote hoeveelheden data. (D)</p> Signup and view all the answers

Waarom is veracity belangrijk in de context van big data?

<p>Het betreft de onzekerheid en inconsistenties in data. (A)</p> Signup and view all the answers

Wat is het belangrijkste kenmerk van de statische benadering voor resource provisioning?

<p>Stelt resources vast vóór de uitvoering van de workflow. (C)</p> Signup and view all the answers

Hoe werkt de scheduler binnen het Apache Airflow systeem?

<p>Definieert specifieke tijdslots voor het uitvoeren van processen. (A)</p> Signup and view all the answers

Wat wordt bedoeld met 'backfilling' in het Apache Airflow?

<p>Het creëren van nieuwe data vanuit historische intervallen. (D)</p> Signup and view all the answers

Wat is een belangrijke functie van de 'operator' in Apache Airflow?

<p>Het uitvoeren van een specifieke taak met een enkele verantwoordelijkheid. (B)</p> Signup and view all the answers

Wat is het voornaamste verschil tussen de statische en dynamische resource provisioning aanpakken?

<p>De dynamische benadering vereist geen voorafgaande beslissingen over resources. (D)</p> Signup and view all the answers

Wat is de belangrijkste functie van de Driver in een Spark-applicatie?

<p>Het onderhouden van relevante informatie tijdens de levensduur van de applicatie. (C)</p> Signup and view all the answers

Welke van de volgende kenmerken is niet gekoppeld aan een Resilient Distributed Dataset (RDD)?

<p>Een RDD is altijd veranderlijk na creatie. (A)</p> Signup and view all the answers

Wat maakt de Dataset API uniek in vergelijking met de andere APIs in Apache Spark?

<p>Het biedt een type-veilige interface voor gegevens met specifieke datatypes. (A)</p> Signup and view all the answers

Welke clusterbeheerder is specifiek ontworpen voor workloads van Hadoop?

<p>YARN (A)</p> Signup and view all the answers

Wat houdt het concept van 'narrow transformations' in bij RDD-transformaties?

<p>Elke invoerpartitie levert alleen bij één uitvoerpartitie bij. (A)</p> Signup and view all the answers

Welke van de volgende opslagsystemen is geen permanente opslag?

<p>Apache Spark (D)</p> Signup and view all the answers

Wat is een belangrijk kenmerk van de Spark SQL bibliotheek?

<p>Het biedt ondersteuning voor gestructureerde en semi-gestructureerde gegevens. (B)</p> Signup and view all the answers

Wat is de primaire rol van executors in de Spark-architectuur?

<p>Het daadwerkelijk uitvoeren van de aan hen toegewezen taken. (C)</p> Signup and view all the answers

Wat is een belangrijk voordeel van het gebruik van Apache Spark voor data-analyse?

<p>Het ondersteunt zowel batch- als streamverwerking. (C)</p> Signup and view all the answers

Wat is het belangrijkste kenmerk van een Tumbling window?

<p>Het segmentatie van de datastroom gebeurt in tijdsegmenten die zich herhalen. (D)</p> Signup and view all the answers

Welke van de volgende windowtypes sluit gebeurtenissen uit op basis van tijdsintervallen waarin geen data is?

<p>Session window (A)</p> Signup and view all the answers

Wat betekent het proces van 'out of order events'?

<p>De volgorde waarin gebeurtenissen plaatsvinden verschilt van de volgorde waarin ze door het systeem worden geobserveerd. (D)</p> Signup and view all the answers

Wat is een belangrijk kenmerk van de Snapshot window?

<p>Het groepeert gebeurtenissen op basis van hun tijdstippen. (C)</p> Signup and view all the answers

In een Hopping window kunnen gebeurtenissen tot welke van de volgende behoren?

<p>Meerdere Hopping window resultaatsets. (B)</p> Signup and view all the answers

Wat wordt bedoeld met 'processing time' in stream processing?

<p>De tijdstempel die wordt ingevoegd wanneer de gebeurtenis door de applicatie wordt ontvangen. (D)</p> Signup and view all the answers

Welke framework is specifiek ontworpen om tuples één voor één te verwerken?

<p>Apache Flink (D)</p> Signup and view all the answers

Wat is een kenmerk van een Sliding window?

<p>Het genereert output alleen wanneer de inhoud van het window verandert. (C)</p> Signup and view all the answers

Wat beschrijft het beste een Hopping window in vergelijking met een Tumbling window?

<p>Het heeft overlappende tijdsegmenten. (A)</p> Signup and view all the answers

Wat is een kenmerk van de Apache Flink framework?

<p>Het voert stateful berekeningen uit voor onbegrensde datastromen. (B)</p> Signup and view all the answers

Wat is een belangrijkste voordeel van een master/slave architectuur in dataverwerkende systemen?

<p>Hoge efficiëntie met hoge doorvoer en lage latentie (C)</p> Signup and view all the answers

Welke van de volgende platforms is specifiek ontworpen voor het bouwen van real-time streaming data pipelines?

<p>Apache Samza (B)</p> Signup and view all the answers

Wat is een voordeel van Apache Kafka streams in vergelijking met traditionele bericht brokers?

<p>Het heeft een lage instapdrempel en eenvoudige integratie met andere toepassingen (C)</p> Signup and view all the answers

Wat is een kenmerk van Apache Storm?

<p>Eerste open-source framework voor streamverwerking in een gedistribueerde omgeving (C)</p> Signup and view all the answers

Welke rol speelt een coördinator in dataverwerkende systemen?

<p>Beheert de toewijzing van taken tussen containers (B)</p> Signup and view all the answers

Wat is een significant voordeel van Apache Samza?

<p>State wordt op schijf opgeslagen waardoor grotere staten mogelijk zijn (D)</p> Signup and view all the answers

Wat is een nadeel van Apache Storm vergeleken met andere frameworks?

<p>Lagere adoptie dan andere frameworks (C)</p> Signup and view all the answers

Welke functie biedt Apache Flume?

<p>Aggregatie en transport van gegevens naar datastores (B)</p> Signup and view all the answers

Wat is een essentieel kenmerk van Exacte Eens verwerking in dataverwerkende systemen?

<p>Zonder fouten of dataverlies tijdens verwerking (D)</p> Signup and view all the answers

Wat is de rol van een worker in een dataverwerkend systeem?

<p>Verwerkt alle taken in de daartoe aangewezen containers (D)</p> Signup and view all the answers

Flashcards

Big data

Zeer grote datasets die te groot en complex zijn om te verwerken en te analyseren met traditionele dataverwerkingsmethoden.

5 V's van big data

Een term die de kenmerken van big data beschrijft. Denk aan "Volume, Velocity, Veracity, Variety, Value".

Schaalbaarheid

Het vermogen van een systeem om effectief te blijven werken wanneer het aantal resources en gebruikers aanzienlijk toeneemt.

Verticale schaalbaarheid

Het toevoegen van meer processors, geheugen en snellere hardware aan een systeem.

Signup and view all the flashcards

Horizontale schaalbaarheid

Het verdelen van de werklast over meerdere servers.

Signup and view all the flashcards

Big data frameworks

Gespecialiseerde softwareplatforms die zijn ontworpen om grote datasets efficiënt te verwerken en te analyseren.

Signup and view all the flashcards

Graafdatabase

Een graafdatabase die gegevens in de vorm van knooppunten (entiteiten) en relaties (verbindingen tussen knooppunten) opslaat.

Signup and view all the flashcards

Statische resource-toewijzing

Een aanpak die de beslissing over benodigde resources neemt vóór de uitvoering van een workflow.

Signup and view all the flashcards

Dynamische resource-toewijzing

Een aanpak die de beslissing over benodigde resources neemt tijdens de uitvoering van een workflow.

Signup and view all the flashcards

Apache Airflow

Een platform om workflows te programmeren, te monitoren en te plannen.

Signup and view all the flashcards

Airflow Scheduler

Een belangrijk onderdeel van Apache Airflow dat workflows uitvoert.

Signup and view all the flashcards

Airflow Workers

Een onderdeel van Apache Airflow dat taken uitvoert.

Signup and view all the flashcards

Apache Spark

Een open-source dataverwerkingsengine voor parallele verwerking van grote datasets.

Signup and view all the flashcards

Persistente opslagsystemen

Een opslagapparaat dat data behoudt, zelfs wanneer het apparaat wordt uitgeschakeld.

Signup and view all the flashcards

Compatibiliteit met opslagsystemen

Spark is compatibel met verschillende opslagsystemen, waaronder cloud-opslag, gedistribueerde bestandssystemen, key-value-winkels en berichtbussen.

Signup and view all the flashcards

SparkContext

SparkContext coördineert een verzameling processen en communiceert met clusterbeheerders.

Signup and view all the flashcards

Driver

De kern van een Spark-applicatie die informatie over de applicatie beheert en taken verdeelt.

Signup and view all the flashcards

Executors

Verantwoordelijk voor het uitvoeren van taken die door de Driver worden toegewezen.

Signup and view all the flashcards

Resilient Distributed Dataset (RDD)

Een onveranderlijke verzameling data-items die gedistribueerd zijn over een cluster van machines.

Signup and view all the flashcards

RDD-transformaties

Operaties die een nieuw RDD creëren uit een bestaand RDD.

Signup and view all the flashcards

RDD-acties

Operaties die Spark instrueren om een resultaat te berekenen uit een reeks transformaties.

Signup and view all the flashcards

Gebeurtenis tijd

Het tijdstempel dat wordt ingevoegd in elk record bij de bron wanneer de gebeurtenis oorspronkelijk plaatsvond.

Signup and view all the flashcards

Verwerkingstijd

Het tijdstempel dat wordt ingevoegd in elk record in de streaming-applicatie wanneer het record wordt ontvangen.

Signup and view all the flashcards

Gebeurtenissen buiten volgorde

De volgorde waarin de gebeurtenissen plaatsvinden en de volgorde waarin ze door het systeem worden waargenomen, verschillen.

Signup and view all the flashcards

Venster

Verdeel de gegevensstroom in mini-batches of eindige stromen om verschillende transformaties toe te passen. Een venster is een periode waarover gegevens worden geaggregeerd of verwerkt.

Signup and view all the flashcards

Tuimelend venster

Segmenteert een gegevensstroom in verschillende tijdssegmenten en voert een functie uit op deze segmenten. Ze herhalen zich, overlappen niet en een gebeurtenis kan niet tot meer dan één tuimelend venster behoren.

Signup and view all the flashcards

Hopende venster

Ga in de tijd vooruit met een vaste periode. Gebeurtenissen kunnen tot meer dan één resultaatset van hopende vensters behoren.

Signup and view all the flashcards

Glijdend venster

Geef alleen gebeurtenissen uit voor punten in de tijd wanneer de inhoud van het venster daadwerkelijk verandert (wanneer een gebeurtenis het venster binnenkomt of verlaat). Elk venster heeft ten minste één gebeurtenis.

Signup and view all the flashcards

Sessie venster

Groeperen van gebeurtenissen die op vergelijkbare tijden aankomen, perioden van tijd filteren waar geen gegevens zijn. Begint wanneer de eerste gebeurtenis plaatsvindt. Als de gebeurtenis blijft plaatsvinden binnen de opgegeven time-out vanaf de laatste opgenomen gebeurtenis, wordt het venster uitgebreid om de nieuwe gebeurtenis op te nemen totdat de maximale duur is bereikt. Anders wordt het venster gesloten bij de time-out.

Signup and view all the flashcards

Snapshot venster

Groepeer gebeurtenissen die hetzelfde tijdstempel hebben.

Signup and view all the flashcards

Apache flink

Een kader en een gedistribueerd verwerkingsproces. Tupels stellen een enkel record van gegevens voor en worden één voor één verwerkt, in de volgorde waarin ze worden ontvangen. Tupels worden onmiddellijk verwerkt en het resultaat wordt uitgegeven.

Signup and view all the flashcards

Apache Kafka Streams

Een gedistribueerd datastreaming platform dat is gebundeld met Apache Kafka. Het wordt gebruikt om real-time data pipelines en applicaties te bouwen.

Signup and view all the flashcards

Apache Storm

Een gedistribueerd systeem voor real-time grote dataverwerking. Eén van de eerste open-source stream processing frameworks ontwikkeld om in een gedistribueerde omgeving te werken.

Signup and view all the flashcards

Apache Samza

Een gedistribueerd streamprocessing framework dat werd ontwikkeld bij LinkedIn in 2013. Het biedt ingebouwde integraties met verschillende platforms zoals Apache Kafka.

Signup and view all the flashcards

Worker

Een container die één of meerdere taken uitvoert in een streamprocessing framework.

Signup and view all the flashcards

Taak

Een logische eenheid van parallelisme in een streamprocessing framework. Elke taak verwerkt een subset van de invoerpartities en heeft zijn eigen opslag.

Signup and view all the flashcards

Coordinator

Een component in een streamprocessing framework die de toewijzing van taken aan de afzonderlijke containers beheert.

Signup and view all the flashcards

Master/Slave Architectuur

Een architectuur die gebruikt wordt in verschillende streamprocessing frameworks. Het heeft een master-slave structuur met een JobManager en TaskManager.

Signup and view all the flashcards

Exactly-Once Processing

Een eigenschap van streamprocessing frameworks die ervoor zorgt dat elke bewerking slechts één keer wordt uitgevoerd, zelfs als er fouten optreden.

Signup and view all the flashcards

Flexibele Windowing

Een mechanisme in streamprocessing frameworks dat toelaat om gegevens in verschillende tijdsintervallen te analyseren en te optimaliseren.

Signup and view all the flashcards

Save Points

Een punt in een streamprocessing framework waar de status van de bewerkingen wordt opgeslagen. Dit zorgt voor herstel na fouten.

Signup and view all the flashcards

Study Notes

Data Engineering

  • Advanced relational databases: Normalization, views, indexing, constraints, stored procedures, triggers, window functions, database transactions
  • NoSQL/Non-relational databases: Introduction to NoSQL, BASE, concepts of distributed systems, MongoDB, Apache Cassandra, graph databases, Cypher by Neo4j
  • Big data Frameworks: Big data frameworks, Apache Hadoop, Apache Spark, Stream processing
  • Stream Processing: Basic concepts of stream processing, time windowing, stream processing frameworks, Apache Spark Streaming, difference Flink and Spark, examples
  • Building data pipelines: The Data Engineering Lifecycle, Common Data Pipeline Patterns, Data Ingestion with Apache Kafka, Kafka Fundamentals, Separation of compute and data, Orchestration, Big Data Programming Models/Frameworks
  • Data visualization: Introduction to data visualization, ways to visualize data, univariate data, altimeter, boxplot, histogram, bar chart, word cloud, single numbers, bivariate data (scatter plots, time series), and multivariate data (tree maps, parallel coordinates)

Additional Topics

  • Data Privacy and General Data Protection Regulation (GDPR): Privacy, dimensions of privacy, how to protect privacy, general data protection regulation, types of data (explicit, implicit, inferred), basic privacy principles
  • Cloud computing: The role of the cloud, multi-tier architectures (client-server, web architectures), why use cloud computing, provisioning for peak load, underprovisioning, cloud systems, historian systems, virtualization and orchestration, types of hypervisors
  • Workflow Management: Workflow composition, Directed Acyclic Graphs (DAGs), Orchestration, workflow management
  • Apache Airflow, Apache Kafka: Software tools for building ETL pipelines, message broker for real-time data transfer

Specific Tools

  • MongoDB: Data storage, documents, collections, use cases
  • Apache Cassandra: Column-based database designed for high availability, data model, use cases, basic data modeling rules
  • Apache Spark: A unified engine for large-scale data processing, RDDs (resilient distributed datasets), transformations, actions, characteristics, APIs (DataFrame, Dataset), use cases
  • Apache Storm, Apache Samza: As alternative stream processing frameworks
  • Apache Kafka: Publish-subscribe messaging, topics, partitions, use cases

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Data Engineering Summary PDF

More Like This

The Big Data Basics Quiz
5 questions
Data Visualization Overview
9 questions

Data Visualization Overview

ConscientiousPipeOrgan avatar
ConscientiousPipeOrgan
Big Data and Statistics Concepts Quiz
16 questions
Big Data Fundamentals
13 questions

Big Data Fundamentals

BeneficiaryVenus1577 avatar
BeneficiaryVenus1577
Use Quizgecko on...
Browser
Browser