Escalabilidad e Infraestructura Distribuida en Hadoop

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Qué característica de Hadoop permite almacenar datos sin necesidad de definir un esquema prefijado?

schema-on-write
schema-on-delete
schema-on-update
schema-on-read (correct)

¿Qué tipo de información puede almacenar y procesar Hadoop?

Solo información no estructurada
Solo información estructurada
Estructurada, no estructurada y semi-estructurada (correct)
Solo información semi-estructurada

¿Cuál es la ventaja principal de la característica de 'esquema en lectura' de Hadoop?

Permite almacenar y procesar datos sin tratar previamente (correct)
Permite estructurar los datos durante el proceso de escritura
Obliga a definir un esquema detallado antes de almacenar datos
Limita la flexibilidad en la gestión de datos

¿Por qué el coste de implementar una plataforma Hadoop es significativamente menor que otras tecnologías de gestión de datos?

Por el uso de hardware commodity y código open-source (C) Signup and view all the answers

¿Qué tipo de datos se conocen como 'Raw data' en el contexto de Hadoop?

Datos sin tratar (C) Signup and view all the answers

¿En qué se diferencia el esquema en lectura de Hadoop del esquema en escritura de las bases de datos relacionales?

'Esquema en lectura' no requiere definir una estructura previa; 'Esquema en escritura' sí lo hace (C) Signup and view all the answers

¿Qué tipo de coste se destaca como uno de los puntos fuertes al implementar una plataforma Hadoop?

$Bajo coste (hardware commodity + código open-source) (D) Signup and view all the answers

¿Cuál es la principal ventaja de almacenar los datos sin tratar en Hadoop?

Rapidez a la hora de implementar proyectos con datos que cambian a menudo (A) Signup and view all the answers

¿Qué componente de Hadoop se utiliza para definir flujos de datos de transformación o consulta mediante un lenguaje de scripting?

Apache Pig (B) Signup and view all the answers

¿Cuál de los siguientes componentes de Hadoop se utiliza para acceder a ficheros de datos estructurados o semiestructurados como si fueran tablas de una base de datos relacional?

Apache Hive (C) Signup and view all the answers

¿Cuál es la función principal de Apache Sqoop en el ecosistema Hadoop?

Importar o exportar datos estructurados entre bases de datos relacionales y Hadoop (D) Signup and view all the answers

¿Qué componente de Hadoop facilita la ingestión de streams de datos procedentes de sistemas real-time en la plataforma?

Apache Flume (A) Signup and view all the answers

¿Cuál es la característica principal de Apache HBase dentro del ecosistema Hadoop?

Acceso aleatorio y con operaciones de edición de datos (A) Signup and view all the answers

¿Cuál es el objetivo principal de Apache Oozie dentro del ecosistema Hadoop?

Definir flujos de trabajo, su orquestación y planificación (B) Signup and view all the answers

¿Qué componente del ecosistema Hadoop se utiliza para importar o exportar datos entre bases de datos relacionales y la plataforma Hadoop?

Apache Sqoop (D) Signup and view all the answers

¿Cuál es la función principal de Apache Pig dentro del ecosistema Hadoop?

Definir flujos de transformación o consulta mediante scripting (B) Signup and view all the answers

¿Qué utilidad específica proporciona Apache Flume dentro del ecosistema Hadoop?

Ingestar streams de datos en tiempo real en la plataforma (C) Signup and view all the answers

¿Qué capacidad distingue a Apache HBase dentro del conjunto de componentes asociados a Hadoop?

Permite el acceso aleatorio y con operaciones sobre los datos. (C) Signup and view all the answers

Study Notes

Ventajas de Hadoop

Escalabilidad "ilimitada" y lineal, con un umbral máximo de unos 10.000 nodos en un clúster, lo que significa unos 50-100 petabytes.
Enfoque distribuido, compuesto por muchos nodos, lo que proporciona un rendimiento excelente para trabajos de mucha complejidad o con un volumen de datos muy elevado.
Ofrece una gran capacidad de almacenamiento y múltiples herramientas para trabajar con los datos.

Desventajas de Hadoop

Requiere nuevos perfiles escasos, ya que no hay una gran cantidad de profesionales con conocimientos en Hadoop o en las herramientas del ecosistema.
Debe utilizarse para casos de uso con complejidad "Big Data", bien por el volumen de datos, por la complejidad del procesamiento, por la variedad de los datos o por cualquier otra característica donde las tecnologías tradicionales no puedan cubrir el caso de uso.
La madurez, seguridad y gobierno de datos son Inferiores en comparación con las bases de datos relacionales.

Casos de uso de Hadoop

Cuando el volumen de datos es mayor que la capacidad de los sistemas tradicionales.
Cuando hay un problema de variedad de datos, porque son diversos o porque cambian frecuentemente.
Cuando se requiere una escalabilidad que no pueden ofrecer los sistemas tradicionales, por volumen, por velocidad de proceso, por rendimiento global, y no se requiere un nivel de transaccionalidad elevado.
Cuando se pretende tener una plataforma con la capacidad de almacenamiento y procesamiento de un gran volumen de datos para cubrir diferentes casos de uso.

Distribuciones comerciales de Hadoop

Ofrecen un "instalador" de toda la plataforma, simplificando enormemente el proceso de instalación y despliegue de la plataforma.
Proporcionan un servicio de soporte 24x7 para resolver todas las incidencias que puedan aparecer en la plataforma en producción.
Documentación más completa que la que se puede encontrar en los proyectos Apache.
Algunas distribuciones notables son Cloudera, Hortonworks y MAPR.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Description

Learn about the unlimited scalability and distributed approach of Hadoop, a powerful tool for big data management. Understand how Hadoop can handle massive data volumes by utilizing a distributed system of many nodes.