Escalabilidad e Infraestructura Distribuida en Hadoop
18 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Qué característica de Hadoop permite almacenar datos sin necesidad de definir un esquema prefijado?

  • schema-on-write
  • schema-on-delete
  • schema-on-update
  • schema-on-read (correct)
  • ¿Qué tipo de información puede almacenar y procesar Hadoop?

  • Solo información no estructurada
  • Solo información estructurada
  • Estructurada, no estructurada y semi-estructurada (correct)
  • Solo información semi-estructurada
  • ¿Cuál es la ventaja principal de la característica de 'esquema en lectura' de Hadoop?

  • Permite almacenar y procesar datos sin tratar previamente (correct)
  • Permite estructurar los datos durante el proceso de escritura
  • Obliga a definir un esquema detallado antes de almacenar datos
  • Limita la flexibilidad en la gestión de datos
  • ¿Por qué el coste de implementar una plataforma Hadoop es significativamente menor que otras tecnologías de gestión de datos?

    <p>Por el uso de hardware commodity y código open-source</p> Signup and view all the answers

    ¿Qué tipo de datos se conocen como 'Raw data' en el contexto de Hadoop?

    <p>Datos sin tratar</p> Signup and view all the answers

    ¿En qué se diferencia el esquema en lectura de Hadoop del esquema en escritura de las bases de datos relacionales?

    <p>'Esquema en lectura' no requiere definir una estructura previa; 'Esquema en escritura' sí lo hace</p> Signup and view all the answers

    ¿Qué tipo de coste se destaca como uno de los puntos fuertes al implementar una plataforma Hadoop?

    <p>$Bajo coste (hardware commodity + código open-source)</p> Signup and view all the answers

    ¿Cuál es la principal ventaja de almacenar los datos sin tratar en Hadoop?

    <p>Rapidez a la hora de implementar proyectos con datos que cambian a menudo</p> Signup and view all the answers

    ¿Qué componente de Hadoop se utiliza para definir flujos de datos de transformación o consulta mediante un lenguaje de scripting?

    <p>Apache Pig</p> Signup and view all the answers

    ¿Cuál de los siguientes componentes de Hadoop se utiliza para acceder a ficheros de datos estructurados o semiestructurados como si fueran tablas de una base de datos relacional?

    <p>Apache Hive</p> Signup and view all the answers

    ¿Cuál es la función principal de Apache Sqoop en el ecosistema Hadoop?

    <p>Importar o exportar datos estructurados entre bases de datos relacionales y Hadoop</p> Signup and view all the answers

    ¿Qué componente de Hadoop facilita la ingestión de streams de datos procedentes de sistemas real-time en la plataforma?

    <p>Apache Flume</p> Signup and view all the answers

    ¿Cuál es la característica principal de Apache HBase dentro del ecosistema Hadoop?

    <p>Acceso aleatorio y con operaciones de edición de datos</p> Signup and view all the answers

    ¿Cuál es el objetivo principal de Apache Oozie dentro del ecosistema Hadoop?

    <p>Definir flujos de trabajo, su orquestación y planificación</p> Signup and view all the answers

    ¿Qué componente del ecosistema Hadoop se utiliza para importar o exportar datos entre bases de datos relacionales y la plataforma Hadoop?

    <p>Apache Sqoop</p> Signup and view all the answers

    ¿Cuál es la función principal de Apache Pig dentro del ecosistema Hadoop?

    <p>Definir flujos de transformación o consulta mediante scripting</p> Signup and view all the answers

    ¿Qué utilidad específica proporciona Apache Flume dentro del ecosistema Hadoop?

    <p>Ingestar streams de datos en tiempo real en la plataforma</p> Signup and view all the answers

    ¿Qué capacidad distingue a Apache HBase dentro del conjunto de componentes asociados a Hadoop?

    <p>Permite el acceso aleatorio y con operaciones sobre los datos.</p> Signup and view all the answers

    Study Notes

    Ventajas de Hadoop

    • Escalabilidad "ilimitada" y lineal, con un umbral máximo de unos 10.000 nodos en un clúster, lo que significa unos 50-100 petabytes.
    • Enfoque distribuido, compuesto por muchos nodos, lo que proporciona un rendimiento excelente para trabajos de mucha complejidad o con un volumen de datos muy elevado.
    • Ofrece una gran capacidad de almacenamiento y múltiples herramientas para trabajar con los datos.

    Desventajas de Hadoop

    • Requiere nuevos perfiles escasos, ya que no hay una gran cantidad de profesionales con conocimientos en Hadoop o en las herramientas del ecosistema.
    • Debe utilizarse para casos de uso con complejidad "Big Data", bien por el volumen de datos, por la complejidad del procesamiento, por la variedad de los datos o por cualquier otra característica donde las tecnologías tradicionales no puedan cubrir el caso de uso.
    • La madurez, seguridad y gobierno de datos son Inferiores en comparación con las bases de datos relacionales.

    Casos de uso de Hadoop

    • Cuando el volumen de datos es mayor que la capacidad de los sistemas tradicionales.
    • Cuando hay un problema de variedad de datos, porque son diversos o porque cambian frecuentemente.
    • Cuando se requiere una escalabilidad que no pueden ofrecer los sistemas tradicionales, por volumen, por velocidad de proceso, por rendimiento global, y no se requiere un nivel de transaccionalidad elevado.
    • Cuando se pretende tener una plataforma con la capacidad de almacenamiento y procesamiento de un gran volumen de datos para cubrir diferentes casos de uso.

    Distribuciones comerciales de Hadoop

    • Ofrecen un "instalador" de toda la plataforma, simplificando enormemente el proceso de instalación y despliegue de la plataforma.
    • Proporcionan un servicio de soporte 24x7 para resolver todas las incidencias que puedan aparecer en la plataforma en producción.
    • Documentación más completa que la que se puede encontrar en los proyectos Apache.
    • Algunas distribuciones notables son Cloudera, Hortonworks y MAPR.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Description

    Learn about the unlimited scalability and distributed approach of Hadoop, a powerful tool for big data management. Understand how Hadoop can handle massive data volumes by utilizing a distributed system of many nodes.

    More Like This

    Use Quizgecko on...
    Browser
    Browser