Big Data en Graf-native Databases

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Wat is een kenmerk van het label-property-graph bij databases?

Relaties zijn alleen in de vorm van strings.
Relaties zijn niet gericht.
Node's hebben geen label.
Node's kunnen eigenschappen bevatten. (correct)

Welke van de volgende elementen is geen onderdeel van de V's van big data?

Veracity.
Vorm. (correct)
Velociteit.
Volume.

Wat is een nadeel van verticale schaling (scale up)?

Er is een limiet aan de hoeveelheid hardware die kan worden toegevoegd. (correct)
Het is moeilijk om hardware binnen een enkele machine te beheren.
Er zijn geen mogelijkheden om de prestaties van het systeem te verbeteren.
Software systeem kan complexe data distributie niet beheren.

Wat beschrijft het beste de aard van een graf-native database?

Het is ontworpen voor het opslaan van complexe relaties tussen gegevens. (D) Signup and view all the answers

Welke van de volgende beweringen over horizontale schaling (scale out) is waar?

Het verhoogt prestaties met kleine stappen na behoefte. (C) Signup and view all the answers

Wat is een belangrijk voordeel van big data frameworks?

Ze vergemakkelijken de verwerking van grote hoeveelheden data. (D) Signup and view all the answers

Waarom is veracity belangrijk in de context van big data?

Het betreft de onzekerheid en inconsistenties in data. (A) Signup and view all the answers

Wat is het belangrijkste kenmerk van de statische benadering voor resource provisioning?

Stelt resources vast vóór de uitvoering van de workflow. (C) Signup and view all the answers

Hoe werkt de scheduler binnen het Apache Airflow systeem?

Definieert specifieke tijdslots voor het uitvoeren van processen. (A) Signup and view all the answers

Wat wordt bedoeld met 'backfilling' in het Apache Airflow?

Het creëren van nieuwe data vanuit historische intervallen. (D) Signup and view all the answers

Wat is een belangrijke functie van de 'operator' in Apache Airflow?

Het uitvoeren van een specifieke taak met een enkele verantwoordelijkheid. (B) Signup and view all the answers

Wat is het voornaamste verschil tussen de statische en dynamische resource provisioning aanpakken?

De dynamische benadering vereist geen voorafgaande beslissingen over resources. (D) Signup and view all the answers

Wat is de belangrijkste functie van de Driver in een Spark-applicatie?

Het onderhouden van relevante informatie tijdens de levensduur van de applicatie. (C) Signup and view all the answers

Welke van de volgende kenmerken is niet gekoppeld aan een Resilient Distributed Dataset (RDD)?

Een RDD is altijd veranderlijk na creatie. (A) Signup and view all the answers

Wat maakt de Dataset API uniek in vergelijking met de andere APIs in Apache Spark?

Het biedt een type-veilige interface voor gegevens met specifieke datatypes. (A) Signup and view all the answers

Welke clusterbeheerder is specifiek ontworpen voor workloads van Hadoop?

YARN (A) Signup and view all the answers

Wat houdt het concept van 'narrow transformations' in bij RDD-transformaties?

Elke invoerpartitie levert alleen bij één uitvoerpartitie bij. (A) Signup and view all the answers

Welke van de volgende opslagsystemen is geen permanente opslag?

Apache Spark (D) Signup and view all the answers

Wat is een belangrijk kenmerk van de Spark SQL bibliotheek?

Het biedt ondersteuning voor gestructureerde en semi-gestructureerde gegevens. (B) Signup and view all the answers

Wat is de primaire rol van executors in de Spark-architectuur?

Het daadwerkelijk uitvoeren van de aan hen toegewezen taken. (C) Signup and view all the answers

Wat is een belangrijk voordeel van het gebruik van Apache Spark voor data-analyse?

Het ondersteunt zowel batch- als streamverwerking. (C) Signup and view all the answers

Wat is het belangrijkste kenmerk van een Tumbling window?

Het segmentatie van de datastroom gebeurt in tijdsegmenten die zich herhalen. (D) Signup and view all the answers

Welke van de volgende windowtypes sluit gebeurtenissen uit op basis van tijdsintervallen waarin geen data is?

Session window (A) Signup and view all the answers

Wat betekent het proces van 'out of order events'?

De volgorde waarin gebeurtenissen plaatsvinden verschilt van de volgorde waarin ze door het systeem worden geobserveerd. (D) Signup and view all the answers

Wat is een belangrijk kenmerk van de Snapshot window?

Het groepeert gebeurtenissen op basis van hun tijdstippen. (C) Signup and view all the answers

In een Hopping window kunnen gebeurtenissen tot welke van de volgende behoren?

Meerdere Hopping window resultaatsets. (B) Signup and view all the answers

Wat wordt bedoeld met 'processing time' in stream processing?

De tijdstempel die wordt ingevoegd wanneer de gebeurtenis door de applicatie wordt ontvangen. (D) Signup and view all the answers

Welke framework is specifiek ontworpen om tuples één voor één te verwerken?

Apache Flink (D) Signup and view all the answers

Wat is een kenmerk van een Sliding window?

Het genereert output alleen wanneer de inhoud van het window verandert. (C) Signup and view all the answers

Wat beschrijft het beste een Hopping window in vergelijking met een Tumbling window?

Het heeft overlappende tijdsegmenten. (A) Signup and view all the answers

Wat is een kenmerk van de Apache Flink framework?

Het voert stateful berekeningen uit voor onbegrensde datastromen. (B) Signup and view all the answers

Wat is een belangrijkste voordeel van een master/slave architectuur in dataverwerkende systemen?

Hoge efficiëntie met hoge doorvoer en lage latentie (C) Signup and view all the answers

Welke van de volgende platforms is specifiek ontworpen voor het bouwen van real-time streaming data pipelines?

Apache Samza (B) Signup and view all the answers

Wat is een voordeel van Apache Kafka streams in vergelijking met traditionele bericht brokers?

Het heeft een lage instapdrempel en eenvoudige integratie met andere toepassingen (C) Signup and view all the answers

Wat is een kenmerk van Apache Storm?

Eerste open-source framework voor streamverwerking in een gedistribueerde omgeving (C) Signup and view all the answers

Welke rol speelt een coördinator in dataverwerkende systemen?

Beheert de toewijzing van taken tussen containers (B) Signup and view all the answers

Wat is een significant voordeel van Apache Samza?

State wordt op schijf opgeslagen waardoor grotere staten mogelijk zijn (D) Signup and view all the answers

Wat is een nadeel van Apache Storm vergeleken met andere frameworks?

Lagere adoptie dan andere frameworks (C) Signup and view all the answers

Welke functie biedt Apache Flume?

Aggregatie en transport van gegevens naar datastores (B) Signup and view all the answers

Wat is een essentieel kenmerk van Exacte Eens verwerking in dataverwerkende systemen?

Zonder fouten of dataverlies tijdens verwerking (D) Signup and view all the answers

Wat is de rol van een worker in een dataverwerkend systeem?

Verwerkt alle taken in de daartoe aangewezen containers (D) Signup and view all the answers

Flashcards

Big data

Zeer grote datasets die te groot en complex zijn om te verwerken en te analyseren met traditionele dataverwerkingsmethoden.

5 V's van big data

Een term die de kenmerken van big data beschrijft. Denk aan "Volume, Velocity, Veracity, Variety, Value".

Schaalbaarheid

Het vermogen van een systeem om effectief te blijven werken wanneer het aantal resources en gebruikers aanzienlijk toeneemt.