2 HDFS y MapReduce Sum Up

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

¿Cuál de las siguientes NO es una característica del acceso a archivos en HDFS?

Diseñado para archivos muy grandes.
Se utiliza principalmente acceso _batch_.
Acceso de tipo _write-once, read-many_.
Soporte para la modificación de archivos existentes. (correct)

¿Cuál es el tamaño de bloque predeterminado en HDFS?

64 MB
256 MB
512 MB
128 MB (correct)

¿Qué componente de HDFS es responsable de mantener los metadatos del sistema de archivos y la estructura de directorios?

DataNode
ResourceManager
NameNode (correct)
Secondary NameNode

Si el NameNode falla, ¿qué implicación tiene para el clúster HDFS?

El clúster estará inaccesible hasta que el NameNode se restaure o se reemplace. (C) Signup and view all the answers

¿Cuál es la función principal del Secondary NameNode en HDFS?

Realizar copias de seguridad periódicas de los metadatos del NameNode. (B) Signup and view all the answers

¿Cuál es el propósito del comando `hdfs dfs -ls`?

Listar los archivos y directorios en una ruta especificada en HDFS. (A) Signup and view all the answers

Si deseas copiar un archivo desde tu sistema de archivos local a HDFS, ¿qué comando usarías?

<code>hdfs dfs -copyFromLocal</code> (A) Signup and view all the answers

¿Qué comando se utiliza para crear un nuevo directorio en HDFS?

<code>hdfs dfs -mkdir</code> (A) Signup and view all the answers

¿Cuál es el principal beneficio de la replicación de bloques en HDFS?

Aumento de la tolerancia a fallos. (D) Signup and view all the answers

¿Qué implica el concepto de 'rack awareness' en HDFS?

Optimizar el almacenamiento de datos basándose en la topología física del clúster. (A) Signup and view all the answers

En el paradigma MapReduce, ¿cuál es la función del 'Mapper'?

Transformar los datos de entrada en pares clave-valor. (C) Signup and view all the answers

¿Cuál es la función del 'Reducer' en el paradigma MapReduce?

Agregar y procesar los datos intermedios con la misma clave. (A) Signup and view all the answers

¿Qué tipo de datos genera la función 'Mapper' en MapReduce como salida?

Pares clave-valor. (C) Signup and view all the answers

¿Cuál de las siguientes NO es una limitación de MapReduce?

Soporte nativo para procesamiento en tiempo real. (D) Signup and view all the answers

En MapReduce, ¿qué es el shuffle?

El movimiento de datos entre los mappers y los reducers. (D) Signup and view all the answers

¿Cuál es una ventaja de usar HDFS en comparación con un sistema de archivos tradicional?

Mayor tolerancia a fallos y escalabilidad. (B) Signup and view all the answers

¿Qué problema principal aborda MapReduce?

El procesamiento paralelo de grandes conjuntos de datos. (C) Signup and view all the answers

¿Cuál de los siguientes describe mejor el concepto de 'localidad de datos' en HDFS y MapReduce?

Mover el cómputo a los nodos donde residen los datos. (C) Signup and view all the answers

¿Qué comando en HDFS se utiliza para ver la parte final de un archivo?

<code>hdfs dfs -tail</code> (A) Signup and view all the answers

¿Cuál es el propósito de los archivos de registro (logs) de edición compartidos entre el NameNode activo y el NameNode en stand by en una configuración de alta disponibilidad?

Para mantener el NameNode en stand by sincronizado con las últimas operaciones. (C) Signup and view all the answers

¿En qué situación se utilizaría una configuración de NameNodes federados?

Para escalar el NameNode horizontalmente y gestionar más metadatos. (B) Signup and view all the answers

¿Quién gestiona la replicación de cada bloque en un pipeline durante el proceso de escritura en HDFS?

DataNodes (B) Signup and view all the answers

¿Por qué el NameNode no devuelve los bloques de datos durante el proceso de lectura?

Para evitar convertirse en un cuello de botella. (B) Signup and view all the answers

¿Qué tipo de problemas son adecuados para resolverse con MapReduce?

Problemas que pueden dividirse en tareas independientes y procesarse en paralelo. (B) Signup and view all the answers

Flashcards

¿Qué es HDFS?

Sistema de archivos distribuido de Hadoop, base de las tecnologías distribuidas, proporciona almacenamiento persistente.

¿Qué es MapReduce?

Procesamiento distribuido en paralelo de datos almacenados en HDFS.

¿Qué define a HDFS?

Almacena archivos muy grandes con patrones streaming, pensado para clústeres de ordenadores convencionales.