Big Data en Graf-native Databases
41 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Wat is een kenmerk van het label-property-graph bij databases?

  • Relaties zijn alleen in de vorm van strings.
  • Relaties zijn niet gericht.
  • Node's hebben geen label.
  • Node's kunnen eigenschappen bevatten. (correct)
  • Welke van de volgende elementen is geen onderdeel van de V's van big data?

  • Veracity.
  • Vorm. (correct)
  • Velociteit.
  • Volume.
  • Wat is een nadeel van verticale schaling (scale up)?

  • Er is een limiet aan de hoeveelheid hardware die kan worden toegevoegd. (correct)
  • Het is moeilijk om hardware binnen een enkele machine te beheren.
  • Er zijn geen mogelijkheden om de prestaties van het systeem te verbeteren.
  • Software systeem kan complexe data distributie niet beheren.
  • Wat beschrijft het beste de aard van een graf-native database?

    <p>Het is ontworpen voor het opslaan van complexe relaties tussen gegevens. (D)</p> Signup and view all the answers

    Welke van de volgende beweringen over horizontale schaling (scale out) is waar?

    <p>Het verhoogt prestaties met kleine stappen na behoefte. (C)</p> Signup and view all the answers

    Wat is een belangrijk voordeel van big data frameworks?

    <p>Ze vergemakkelijken de verwerking van grote hoeveelheden data. (D)</p> Signup and view all the answers

    Waarom is veracity belangrijk in de context van big data?

    <p>Het betreft de onzekerheid en inconsistenties in data. (A)</p> Signup and view all the answers

    Wat is het belangrijkste kenmerk van de statische benadering voor resource provisioning?

    <p>Stelt resources vast vóór de uitvoering van de workflow. (C)</p> Signup and view all the answers

    Hoe werkt de scheduler binnen het Apache Airflow systeem?

    <p>Definieert specifieke tijdslots voor het uitvoeren van processen. (A)</p> Signup and view all the answers

    Wat wordt bedoeld met 'backfilling' in het Apache Airflow?

    <p>Het creëren van nieuwe data vanuit historische intervallen. (D)</p> Signup and view all the answers

    Wat is een belangrijke functie van de 'operator' in Apache Airflow?

    <p>Het uitvoeren van een specifieke taak met een enkele verantwoordelijkheid. (B)</p> Signup and view all the answers

    Wat is het voornaamste verschil tussen de statische en dynamische resource provisioning aanpakken?

    <p>De dynamische benadering vereist geen voorafgaande beslissingen over resources. (D)</p> Signup and view all the answers

    Wat is de belangrijkste functie van de Driver in een Spark-applicatie?

    <p>Het onderhouden van relevante informatie tijdens de levensduur van de applicatie. (C)</p> Signup and view all the answers

    Welke van de volgende kenmerken is niet gekoppeld aan een Resilient Distributed Dataset (RDD)?

    <p>Een RDD is altijd veranderlijk na creatie. (A)</p> Signup and view all the answers

    Wat maakt de Dataset API uniek in vergelijking met de andere APIs in Apache Spark?

    <p>Het biedt een type-veilige interface voor gegevens met specifieke datatypes. (A)</p> Signup and view all the answers

    Welke clusterbeheerder is specifiek ontworpen voor workloads van Hadoop?

    <p>YARN (A)</p> Signup and view all the answers

    Wat houdt het concept van 'narrow transformations' in bij RDD-transformaties?

    <p>Elke invoerpartitie levert alleen bij één uitvoerpartitie bij. (A)</p> Signup and view all the answers

    Welke van de volgende opslagsystemen is geen permanente opslag?

    <p>Apache Spark (D)</p> Signup and view all the answers

    Wat is een belangrijk kenmerk van de Spark SQL bibliotheek?

    <p>Het biedt ondersteuning voor gestructureerde en semi-gestructureerde gegevens. (B)</p> Signup and view all the answers

    Wat is de primaire rol van executors in de Spark-architectuur?

    <p>Het daadwerkelijk uitvoeren van de aan hen toegewezen taken. (C)</p> Signup and view all the answers

    Wat is een belangrijk voordeel van het gebruik van Apache Spark voor data-analyse?

    <p>Het ondersteunt zowel batch- als streamverwerking. (C)</p> Signup and view all the answers

    Wat is het belangrijkste kenmerk van een Tumbling window?

    <p>Het segmentatie van de datastroom gebeurt in tijdsegmenten die zich herhalen. (D)</p> Signup and view all the answers

    Welke van de volgende windowtypes sluit gebeurtenissen uit op basis van tijdsintervallen waarin geen data is?

    <p>Session window (A)</p> Signup and view all the answers

    Wat betekent het proces van 'out of order events'?

    <p>De volgorde waarin gebeurtenissen plaatsvinden verschilt van de volgorde waarin ze door het systeem worden geobserveerd. (D)</p> Signup and view all the answers

    Wat is een belangrijk kenmerk van de Snapshot window?

    <p>Het groepeert gebeurtenissen op basis van hun tijdstippen. (C)</p> Signup and view all the answers

    In een Hopping window kunnen gebeurtenissen tot welke van de volgende behoren?

    <p>Meerdere Hopping window resultaatsets. (B)</p> Signup and view all the answers

    Wat wordt bedoeld met 'processing time' in stream processing?

    <p>De tijdstempel die wordt ingevoegd wanneer de gebeurtenis door de applicatie wordt ontvangen. (D)</p> Signup and view all the answers

    Welke framework is specifiek ontworpen om tuples één voor één te verwerken?

    <p>Apache Flink (D)</p> Signup and view all the answers

    Wat is een kenmerk van een Sliding window?

    <p>Het genereert output alleen wanneer de inhoud van het window verandert. (C)</p> Signup and view all the answers

    Wat beschrijft het beste een Hopping window in vergelijking met een Tumbling window?

    <p>Het heeft overlappende tijdsegmenten. (A)</p> Signup and view all the answers

    Wat is een kenmerk van de Apache Flink framework?

    <p>Het voert stateful berekeningen uit voor onbegrensde datastromen. (B)</p> Signup and view all the answers

    Wat is een belangrijkste voordeel van een master/slave architectuur in dataverwerkende systemen?

    <p>Hoge efficiëntie met hoge doorvoer en lage latentie (C)</p> Signup and view all the answers

    Welke van de volgende platforms is specifiek ontworpen voor het bouwen van real-time streaming data pipelines?

    <p>Apache Samza (B)</p> Signup and view all the answers

    Wat is een voordeel van Apache Kafka streams in vergelijking met traditionele bericht brokers?

    <p>Het heeft een lage instapdrempel en eenvoudige integratie met andere toepassingen (C)</p> Signup and view all the answers

    Wat is een kenmerk van Apache Storm?

    <p>Eerste open-source framework voor streamverwerking in een gedistribueerde omgeving (C)</p> Signup and view all the answers

    Welke rol speelt een coördinator in dataverwerkende systemen?

    <p>Beheert de toewijzing van taken tussen containers (B)</p> Signup and view all the answers

    Wat is een significant voordeel van Apache Samza?

    <p>State wordt op schijf opgeslagen waardoor grotere staten mogelijk zijn (D)</p> Signup and view all the answers

    Wat is een nadeel van Apache Storm vergeleken met andere frameworks?

    <p>Lagere adoptie dan andere frameworks (C)</p> Signup and view all the answers

    Welke functie biedt Apache Flume?

    <p>Aggregatie en transport van gegevens naar datastores (B)</p> Signup and view all the answers

    Wat is een essentieel kenmerk van Exacte Eens verwerking in dataverwerkende systemen?

    <p>Zonder fouten of dataverlies tijdens verwerking (D)</p> Signup and view all the answers

    Wat is de rol van een worker in een dataverwerkend systeem?

    <p>Verwerkt alle taken in de daartoe aangewezen containers (D)</p> Signup and view all the answers

    Study Notes

    Data Engineering

    • Advanced relational databases: Normalization, views, indexing, constraints, stored procedures, triggers, window functions, database transactions
    • NoSQL/Non-relational databases: Introduction to NoSQL, BASE, concepts of distributed systems, MongoDB, Apache Cassandra, graph databases, Cypher by Neo4j
    • Big data Frameworks: Big data frameworks, Apache Hadoop, Apache Spark, Stream processing
    • Stream Processing: Basic concepts of stream processing, time windowing, stream processing frameworks, Apache Spark Streaming, difference Flink and Spark, examples
    • Building data pipelines: The Data Engineering Lifecycle, Common Data Pipeline Patterns, Data Ingestion with Apache Kafka, Kafka Fundamentals, Separation of compute and data, Orchestration, Big Data Programming Models/Frameworks
    • Data visualization: Introduction to data visualization, ways to visualize data, univariate data, altimeter, boxplot, histogram, bar chart, word cloud, single numbers, bivariate data (scatter plots, time series), and multivariate data (tree maps, parallel coordinates)

    Additional Topics

    • Data Privacy and General Data Protection Regulation (GDPR): Privacy, dimensions of privacy, how to protect privacy, general data protection regulation, types of data (explicit, implicit, inferred), basic privacy principles
    • Cloud computing: The role of the cloud, multi-tier architectures (client-server, web architectures), why use cloud computing, provisioning for peak load, underprovisioning, cloud systems, historian systems, virtualization and orchestration, types of hypervisors
    • Workflow Management: Workflow composition, Directed Acyclic Graphs (DAGs), Orchestration, workflow management
    • Apache Airflow, Apache Kafka: Software tools for building ETL pipelines, message broker for real-time data transfer

    Specific Tools

    • MongoDB: Data storage, documents, collections, use cases
    • Apache Cassandra: Column-based database designed for high availability, data model, use cases, basic data modeling rules
    • Apache Spark: A unified engine for large-scale data processing, RDDs (resilient distributed datasets), transformations, actions, characteristics, APIs (DataFrame, Dataset), use cases
    • Apache Storm, Apache Samza: As alternative stream processing frameworks
    • Apache Kafka: Publish-subscribe messaging, topics, partitions, use cases

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Data Engineering Summary PDF

    Description

    Test je kennis over belangrijke concepten van big data en graf-native databases. Dit quiz behandelt onderwerpen zoals schaalbaarheid, resource provisioning en het gebruik van Apache Airflow. Verdiep je in de V's van big data en ontdek hun implicaties.

    More Like This

    The Big Data Basics Quiz
    5 questions
    Data Visualization Overview
    9 questions

    Data Visualization Overview

    ConscientiousPipeOrgan avatar
    ConscientiousPipeOrgan
    Big Data and Statistics Concepts Quiz
    16 questions
    Introduction to Big Data
    16 questions

    Introduction to Big Data

    EnthralledSard7619 avatar
    EnthralledSard7619
    Use Quizgecko on...
    Browser
    Browser