Escalabilidad e Infraestructura Distribuida en Hadoop
18 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Qué característica de Hadoop permite almacenar datos sin necesidad de definir un esquema prefijado?

  • schema-on-write
  • schema-on-delete
  • schema-on-update
  • schema-on-read (correct)

¿Qué tipo de información puede almacenar y procesar Hadoop?

  • Solo información no estructurada
  • Solo información estructurada
  • Estructurada, no estructurada y semi-estructurada (correct)
  • Solo información semi-estructurada

¿Cuál es la ventaja principal de la característica de 'esquema en lectura' de Hadoop?

  • Permite almacenar y procesar datos sin tratar previamente (correct)
  • Permite estructurar los datos durante el proceso de escritura
  • Obliga a definir un esquema detallado antes de almacenar datos
  • Limita la flexibilidad en la gestión de datos

¿Por qué el coste de implementar una plataforma Hadoop es significativamente menor que otras tecnologías de gestión de datos?

<p>Por el uso de hardware commodity y código open-source (C)</p> Signup and view all the answers

¿Qué tipo de datos se conocen como 'Raw data' en el contexto de Hadoop?

<p>Datos sin tratar (C)</p> Signup and view all the answers

¿En qué se diferencia el esquema en lectura de Hadoop del esquema en escritura de las bases de datos relacionales?

<p>'Esquema en lectura' no requiere definir una estructura previa; 'Esquema en escritura' sí lo hace (C)</p> Signup and view all the answers

¿Qué tipo de coste se destaca como uno de los puntos fuertes al implementar una plataforma Hadoop?

<p>$Bajo coste (hardware commodity + código open-source) (D)</p> Signup and view all the answers

¿Cuál es la principal ventaja de almacenar los datos sin tratar en Hadoop?

<p>Rapidez a la hora de implementar proyectos con datos que cambian a menudo (A)</p> Signup and view all the answers

¿Qué componente de Hadoop se utiliza para definir flujos de datos de transformación o consulta mediante un lenguaje de scripting?

<p>Apache Pig (B)</p> Signup and view all the answers

¿Cuál de los siguientes componentes de Hadoop se utiliza para acceder a ficheros de datos estructurados o semiestructurados como si fueran tablas de una base de datos relacional?

<p>Apache Hive (C)</p> Signup and view all the answers

¿Cuál es la función principal de Apache Sqoop en el ecosistema Hadoop?

<p>Importar o exportar datos estructurados entre bases de datos relacionales y Hadoop (D)</p> Signup and view all the answers

¿Qué componente de Hadoop facilita la ingestión de streams de datos procedentes de sistemas real-time en la plataforma?

<p>Apache Flume (A)</p> Signup and view all the answers

¿Cuál es la característica principal de Apache HBase dentro del ecosistema Hadoop?

<p>Acceso aleatorio y con operaciones de edición de datos (A)</p> Signup and view all the answers

¿Cuál es el objetivo principal de Apache Oozie dentro del ecosistema Hadoop?

<p>Definir flujos de trabajo, su orquestación y planificación (B)</p> Signup and view all the answers

¿Qué componente del ecosistema Hadoop se utiliza para importar o exportar datos entre bases de datos relacionales y la plataforma Hadoop?

<p>Apache Sqoop (D)</p> Signup and view all the answers

¿Cuál es la función principal de Apache Pig dentro del ecosistema Hadoop?

<p>Definir flujos de transformación o consulta mediante scripting (B)</p> Signup and view all the answers

¿Qué utilidad específica proporciona Apache Flume dentro del ecosistema Hadoop?

<p>Ingestar streams de datos en tiempo real en la plataforma (C)</p> Signup and view all the answers

¿Qué capacidad distingue a Apache HBase dentro del conjunto de componentes asociados a Hadoop?

<p>Permite el acceso aleatorio y con operaciones sobre los datos. (C)</p> Signup and view all the answers

Study Notes

Ventajas de Hadoop

  • Escalabilidad "ilimitada" y lineal, con un umbral máximo de unos 10.000 nodos en un clúster, lo que significa unos 50-100 petabytes.
  • Enfoque distribuido, compuesto por muchos nodos, lo que proporciona un rendimiento excelente para trabajos de mucha complejidad o con un volumen de datos muy elevado.
  • Ofrece una gran capacidad de almacenamiento y múltiples herramientas para trabajar con los datos.

Desventajas de Hadoop

  • Requiere nuevos perfiles escasos, ya que no hay una gran cantidad de profesionales con conocimientos en Hadoop o en las herramientas del ecosistema.
  • Debe utilizarse para casos de uso con complejidad "Big Data", bien por el volumen de datos, por la complejidad del procesamiento, por la variedad de los datos o por cualquier otra característica donde las tecnologías tradicionales no puedan cubrir el caso de uso.
  • La madurez, seguridad y gobierno de datos son Inferiores en comparación con las bases de datos relacionales.

Casos de uso de Hadoop

  • Cuando el volumen de datos es mayor que la capacidad de los sistemas tradicionales.
  • Cuando hay un problema de variedad de datos, porque son diversos o porque cambian frecuentemente.
  • Cuando se requiere una escalabilidad que no pueden ofrecer los sistemas tradicionales, por volumen, por velocidad de proceso, por rendimiento global, y no se requiere un nivel de transaccionalidad elevado.
  • Cuando se pretende tener una plataforma con la capacidad de almacenamiento y procesamiento de un gran volumen de datos para cubrir diferentes casos de uso.

Distribuciones comerciales de Hadoop

  • Ofrecen un "instalador" de toda la plataforma, simplificando enormemente el proceso de instalación y despliegue de la plataforma.
  • Proporcionan un servicio de soporte 24x7 para resolver todas las incidencias que puedan aparecer en la plataforma en producción.
  • Documentación más completa que la que se puede encontrar en los proyectos Apache.
  • Algunas distribuciones notables son Cloudera, Hortonworks y MAPR.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Description

Learn about the unlimited scalability and distributed approach of Hadoop, a powerful tool for big data management. Understand how Hadoop can handle massive data volumes by utilizing a distributed system of many nodes.

More Like This

Use Quizgecko on...
Browser
Browser