7 Apache Hive y Apache Impala

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

¿Cuál de las siguientes opciones describe mejor el propósito principal de Apache Hive?

Permitir consultas SQL sobre datos distribuidos en entornos Hadoop. (correct)
Proporcionar una interfaz para la manipulación directa de datos en HDFS.
Gestionar la infraestructura de red en clústeres de computadoras.
Ejecutar aplicaciones Java directamente sobre datos masivos.

¿Cuál es la principal función de HiveQL en el contexto de Apache Hive?

Controlar el acceso y la seguridad de los datos.
Permitir la ejecución de consultas SQL-like para el análisis de datos. (correct)
Gestionar la asignación de recursos del clúster.
Definir la estructura interna de los archivos de datos.

¿Cuál de los siguientes motores de ejecución puede utilizar Apache Hive para procesar consultas?

Solo Spark o Tez.
MapReduce y Hadoop.
Únicamente MapReduce.
MapReduce, Spark y Tez. (correct)

¿Qué tipo de procesamiento es más adecuado para Apache Hive?

OLAP (Online Analytical Processing). (A) Signup and view all the answers

¿Cuál de las siguientes opciones describe mejor el concepto de 'schema-on-read' en Apache Hive?

El esquema de los datos se aplica al leer los datos, lo que permite flexibilidad en el formato de los datos almacenados. (C) Signup and view all the answers

¿Qué componentes son necesarios para conectarse al servicio principal de Hive (hiveserver2)?

Cliente Thrift, Driver JDBC y Driver ODBC. (A) Signup and view all the answers

¿Qué ocurre con los datos subyacentes cuando se elimina una tabla gestionada en Hive?

Tanto los metadatos como los datos se eliminan de HDFS. (B) Signup and view all the answers

¿Cuál es la función del metastore en la arquitectura de Hive?

Almacenar los metadatos (esquema, ubicación, etc.) de las tablas. (A) Signup and view all the answers

¿Cuál de las siguientes afirmaciones describe una característica clave de las tablas externas en Hive?

Los datos residen fuera del directorio de Hive y no se eliminan al eliminar la tabla. (D) Signup and view all the answers

¿Cuál es la función del proceso `impalad` en Apache Impala?

Coordinar y ejecutar consultas SQL en paralelo. (D) Signup and view all the answers

¿Cuál es la principal diferencia entre Apache Hive y Apache Impala en términos de procesamiento de consultas?

Hive traduce consultas a trabajos MapReduce/Spark/Tez, mientras que Impala utiliza su propio motor de ejecución paralelo. (D) Signup and view all the answers

¿Cuál es el propósito del demonio `statestored` en la arquitectura de Impala?

Supervisar la salud y disponibilidad de los demonios <code>impalad</code>. (C) Signup and view all the answers

¿Qué función cumple el demonio `catalogd` en Impala?

Comunicar los cambios en los metadatos a los procesos impalad. (C) Signup and view all the answers

¿Cómo se asegura Impala de que todos los nodos tengan la información más reciente sobre los metadatos?

A través de mensajes de broadcast enviados por el demonio <code>catalogd</code>. (C) Signup and view all the answers

¿Qué sentencias se deben ejecutar manualmente en Impala después de modificar una tabla desde Hive para asegurar que Impala vea los cambios?

REFRESH y INVALIDATE METADATA. (B) Signup and view all the answers

¿Cuál de los siguientes formatos de archivo es compatible tanto con Apache Hive como con Apache Impala?

Avro, Parquet, SequenceFile y RCFile. (C) Signup and view all the answers

¿Qué tipo de aplicaciones son más apropiadas para usar Impala en lugar de Hive?

Análisis interactivo y exploración de datos. (C) Signup and view all the answers

¿Cuál de las siguientes NO es una forma en que las aplicaciones pueden interactuar con Impala?

HWI (Hive Web Interface). (B) Signup and view all the answers

¿Qué lenguaje de consulta utilizan tanto Apache Hive como Apache Impala?

HiveQL. (A) Signup and view all the answers

En la arquitectura de Hive sobre MapReduce, ¿qué componente convierte la consulta en un abstract syntax tree (AST)?

Compilador. (C) Signup and view all the answers

¿Cuál es el repositorio central para los metadatos que necesita Hive?

Metastore. (B) Signup and view all the answers

¿En qué consiste la configuración denominada `metastore embebido` en Hive?

Utilizar una base de datos Derby como un fichero en disco en la misma JVM que Hive. (A) Signup and view all the answers

¿Por qué es necesario utilizar la configuración de `metastore local` en Hive en lugar de la de `metastore embebido`?

Para permitir múltiples sesiones concurrentes a Hive. (D) Signup and view all the answers

¿Qué componente de Hive se encarga de enviar el plan de trabajos al clúster de Hadoop y de actualizar el `metastore` si es necesario?

Motor de ejecución. (A) Signup and view all the answers

¿Cuál de los siguientes lenguajes de programación es necesario dominar para utilizar Apache Hive?

No es necesario dominar ningún lenguaje de programación. (D) Signup and view all the answers

Si se tiene un fichero de datos con delimitadores de más de un carácter, ¿qué se debe hacer antes de crear la tabla en Hive?

Editar el fichero desde fuera de Hive para cambiar los delimitadores por otros con un único carácter. (C) Signup and view all the answers

¿Cuál es el principal objetivo de Apache Impala?

Ejecución de consultas interactivas de baja latencia sobre datos almacenados en Hadoop. (D) Signup and view all the answers

¿Qué tipo de conexiones son proporcionadas por Apache Impala para que los clientes externos se conecten al servicio?

Interfaz gráfica de administración y Clientes ODBC o JDBC. (C) Signup and view all the answers

¿Qué ocurre si uno de los demonios de Impala cae debido a un fallo en el hardware o en la red?

El demonio informa a todos los demonios de Impala de esta situación, a fin de que no envíen trabajos al nodo inaccesible. (D) Signup and view all the answers

Flashcards

¿Qué es Apache Hive?

Sistema para manejar datos (leer, escribir, ETL, reporting y análisis) mediante SQL en datos distribuidos.

¿Qué es HiveQL?

Lenguaje de consulta utilizado por Apache Hive.

¿Qué es OLAP en Hive?

Análisis en bloque del informacional (datos históricos) de la empresa.

¿Qué es el metastore de Hive?

Almacena datos sobre tablas accesibles por Impala, metadatos de información estructurada existente en HDFS.