1 Big D, Hdfs, Map R TEST

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

¿Cuánto ocupa en total un archivo de 500 MB almacenado en HDFS, sin replicación, si se asume el tamaño de bloque por defecto?

  • Ocupará 512 MB que son 4 bloques de 128 MB, y hay 12 MB desperdiciados.
  • Ocupará 500 MB multiplicado por el número de datanodes del clúster.
  • Ocupara 500 MB (correct)
  • Ocupará 512 MB que son 4 bloques de 128 MB, y hay 12 MB desperdiciados.

¿Cuál de las siguientes afirmaciones respecto a HDFS es cierta?

  • Las dos respuestas anteriores son correctas.
  • El tamaño de bloque debe ser siempre pequeño para no desperdiciar espacio.
  • El factor de replicación es configurable por fichero, y su valor por defecto es 3 (correct)

¿Qué afirmación es cierta sobre el proceso de escritura en HDFS?

  • El cliente manda al namenode el fichero, que a su vez se encarga de escribirlo en los diferentes datanodes.
  • El cliente escribe los bloques en todos los datanodes que le ha especificado el namenode.
  • El cliente escribe los bloques en un datanode y este datanode envía la orden de escritura a los demás. (correct)

En un clúster de varios nodos donde no hemos configurado la topología…

<p>Es imposible que dos réplicas del mismo bloque caigan en el mismo nodo. (A)</p> Signup and view all the answers

Cuando usamos namenodes federados…

<p>Ninguna de las respuestas anteriores es correcta. (C)</p> Signup and view all the answers

¿Por qué se dice que HDFS es un sistema escalable?

<p>Porque se puede aumentar la capacidad del clúster añadiendo más nodos. (C)</p> Signup and view all the answers

¿Qué tipo de uso suele darse a los ficheros de HDFS?

<p>Ficheros de gran tamaño que se crean, no se modifican, y sobre los que se realizan frecuentes lecturas. (B)</p> Signup and view all the answers

La alta disponibilidad de los namenodes de HDFS implica que…

<p>La caída de un namenode apenas deja sin servicio al sistema de ficheros durante un minuto antes de que otro namenode entre en acción. (A)</p> Signup and view all the answers

El comando de HDFS para moverse a la carpeta /mydata es…

<p>No existe ningún comando equivalente en HDFS. (D)</p> Signup and view all the answers

¿Qué inconveniente presenta MapReduce?

<p>Entre las fases map y reduce siempre lleva a cabo escrituras a disco y movimiento de datos entre máquinas. (B)</p> Signup and view all the answers

Lo mejor si necesitamos más potencia de cómputo en un clúster Big Data es…

<p>Añadir más máquinas al clúster, aprovechando todas las que ya había. (C)</p> Signup and view all the answers

El sistema de ficheros precursor de HDFS fue…

<p>GFS (A)</p> Signup and view all the answers

Una distribución de Hadoop es…

<p>Un conjunto de aplicaciones del ecosistema Hadoop con versiones interoperables entre sí y listas para usarse. (B)</p> Signup and view all the answers

¿Qué compañías fueron precursoras de HDFS y MapReduce?

<p>Google en los dos casos. (B)</p> Signup and view all the answers

Definimos Big Data como…

<p>Las tecnologías que permiten almacenar, mover, procesar y analizar cantidades inmensas de datos heterogéneos. (C)</p> Signup and view all the answers

En la sociedad actual, la mayoría de los datos que se generan a diario son…

<p>Datos no estructurados generados por las personas. (A)</p> Signup and view all the answers

¿Qué retos presentan los datos generados por personas en una red social?

<p>Las dos respuestas anteriores son correctas. (C)</p> Signup and view all the answers

El término "commodity hardware" se refiere a…

<p>Máquinas de potencia y coste normales conectadas entre sí formando un clúster más potente. (C)</p> Signup and view all the answers

Un proyecto se denomina Big Data cuando…

<p>La forma más eficaz y directa de abordarlo implica tecnologías Big Data. (B)</p> Signup and view all the answers

Las tres "V" del Big Data se refieren a:

<p>Volumen, velocidad y variedad. (A)</p> Signup and view all the answers

Flashcards

HDFS file size

Without replication, a 500 MB file in HDFS occupies 500 MB.

HDFS replication factor

The replication factor is configurable per file, with a default value of 3.

HDFS write process

The client writes blocks to a datanode, which then propagates the write command to other datanodes.

HDFS replica placement

It's impossible for two replicas of the same block to reside on the same node.

Signup and view all the flashcards

Namenodes federated

None of the provided answers are correct.

Signup and view all the flashcards

HDFS scalability

HDFS is scalable because you can increase cluster capacity by adding more nodes.

Signup and view all the flashcards

Typical HDFS file usage

HDFS files are typically large, created once, not modified, and frequently read.

Signup and view all the flashcards

Namenode high availability

The failure of a namenode only causes a service interruption of about one minute before another namenode takes over.

Signup and view all the flashcards

MapReduce downside

MapReduce involves writing to disk and moving data between machines between the map and reduce phases.

Signup and view all the flashcards

Increasing cluster compute power

Add more machines to the cluster, leveraging the existing infrastructure.

Signup and view all the flashcards

HDFS precursor

GFS (Google File System).

Signup and view all the flashcards

Hadoop distribution

A set of Hadoop ecosystem applications with interoperable versions ready to use.

Signup and view all the flashcards

HDFS and MapReduce originators

Google.

Signup and view all the flashcards

Big Data definition

Technologies to store, move, process, and analyze immense amounts of heterogeneous data.

Signup and view all the flashcards

Most common data today

Unstructured data generated by people.

Signup and view all the flashcards

The three V's of Big Data

Volume, velocity, and variety.

Signup and view all the flashcards

"Commodity hardware"

Machines of normal power and cost connected to form a more powerful cluster.

Signup and view all the flashcards

When is a project "Big Data"?

The most effective way involves Big Data technologies.

Signup and view all the flashcards

More Like This

Lesson 1.1 The Big Bang Theory Recap Quiz
18 questions
1 Big Data
10 questions
Use Quizgecko on...
Browser
Browser