Ingeniería Big Data: Sociedad Interconectada

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Cuál es el objetivo principal del estudio de las tecnologías Big Data según el texto?

Entender cómo abordan las necesidades de procesamiento de datos actuales. (correct)
Aprender a programar en Java.
Crear nuevas bases de datos relacionales.
Dominar el uso de sistemas operativos Linux.

En el contexto de Big Data, ¿qué porcentaje de los datos generados se considera no estructurado?

80% (correct)
50%
20%
90%

¿Cuál de las siguientes NO es una fuente principal de datos en la era del Big Data?

Interacción entre humanos a través de sistemas informáticos.
Interacción humano-máquina en plataformas digitales.
Interacción entre máquinas mediante sistemas de monitoreo.
Interacción humano-máquina en dispositivos analógicos. (correct)

¿Cuál de las siguientes opciones describe mejor el objetivo de la transformación digital según el texto?

Centrarse en el cliente y tomar decisiones basadas en datos. (D) Signup and view all the answers

Según el texto, ¿cuál es una característica esencial para que un proyecto se considere Big Data?

Implicar al menos una de las tres 'V' (volumen, velocidad, variedad). (C) Signup and view all the answers

Según lo expuesto, ¿qué facilitan las tecnologías Big Data?

El manejo de datos que antes eran difíciles de procesar y analizar. (B) Signup and view all the answers

¿Cuál fue la principal contribución de Google al origen de las tecnologías Big Data?

El reconocimiento del creciente volumen de datos en Internet y la necesidad de indexarlos. (B) Signup and view all the answers

¿Qué problema específico abordó el Google File System (GFS)?

El almacenamiento de archivos que excedían la capacidad de un solo disco duro. (B) Signup and view all the answers

¿Cuál fue la principal ventaja de MapReduce en su momento?

Permitir a los desarrolladores concentrarse en la lógica de sus aplicaciones. (B) Signup and view all the answers

¿Quién desarrolló Apache Spark y cuál fue su motivación principal?

Matei Zaharia, para mejorar las limitaciones de Hadoop. (D) Signup and view all the answers

¿Qué característica principal permite a las tecnologías de procesamiento distribuido manejar grandes volúmenes de datos?

La capacidad de distribuir el procesamiento entre múltiples máquinas interconectadas. (B) Signup and view all the answers

¿Cuál de las siguientes herramientas NO forma parte del ecosistema Hadoop?

TensorFlow (C) Signup and view all the answers

En el ecosistema Hadoop, ¿cuál es la función principal de Zookeeper?

Coordinar la operación de las herramientas. (C) Signup and view all the answers

¿Qué herramienta del ecosistema Hadoop permite realizar consultas SQL en datos almacenados en HDFS?

Hive (C) Signup and view all the answers

¿Cuál de estas herramientas ha reemplazado a MapReduce debido a su mayor velocidad y eficiencia?

Apache Spark (D) Signup and view all the answers

¿Qué función cumplen las distribuciones de Hadoop?

Agrupar múltiples herramientas para facilitar la instalación y operación. (C) Signup and view all the answers

Entre las distribuciones de Hadoop mencionadas, ¿cuál es la única que es 100% open source y compatible con Windows?

Ninguna de las anteriores (B) Signup and view all the answers

¿Cuál es el tamaño de bloque predeterminado en HDFS?

128 MB (C) Signup and view all the answers

En HDFS, ¿cuál es el factor de replicación predeterminado para asegurar la alta disponibilidad de los datos?

3 (A) Signup and view all the answers

En la arquitectura de HDFS, ¿cuál es la función del NameNode?

Gestionar la estructura de directorios y los metadatos de los archivos. (A) Signup and view all the answers

¿Cómo se logra la alta disponibilidad del NameNode en HDFS?

Mediante el uso de un par de NameNodes activos y en espera. (A) Signup and view all the answers

Durante el proceso de escritura en HDFS, ¿qué rol desempeña el NameNode?

Proporcionar la localización de los DataNodes donde se escribirán los bloques. (C) Signup and view all the answers

Cuál de los siguientes comandos de HDFS se utiliza para ver el contenido de un directorio?

<code>hdfs dfs –ls</code> (D) Signup and view all the answers

Si necesitas copiar un archivo desde tu sistema de archivos local a HDFS, ¿qué comando utilizarías?

<code>hdfs dfs –copyFromLocal</code> (A) Signup and view all the answers

¿Cuál es el propósito del comando `hdfs dfs –tail /ruta/hdfs/fichero.txt`?

Mostrar las últimas líneas de un archivo. (D) Signup and view all the answers

¿Qué comando se utiliza para eliminar un directorio y todo su contenido en HDFS?

<code>hdfs dfs –rm –r /ruta/carpeta</code> (B) Signup and view all the answers

En MapReduce, ¿cuál es la función del Mapper?

Invocar en paralelo sobre cada bloque de entrada, generando resultados intermedios. (C) Signup and view all the answers

En MapReduce, ¿qué hace el Reducer?

Aplica la función a cada grupo de datos generados por el Mapper, combinando los valores. (B) Signup and view all the answers

¿Cuál es una desventaja significativa de MapReduce?

El resultado intermedio del Mapper se escribe en disco, penalizando el rendimiento. (D) Signup and view all the answers

¿Cuál de las siguientes opciones describe mejor a Apache Spark?

Un motor unificado de cálculo en memoria para procesamiento paralelo. (A) Signup and view all the answers

En el contexto de Apache Spark, ¿cuál es la función de Spark Core?

Contener las estructuras de datos fundamentales como los RDD. (A) Signup and view all the answers

RDD en Apache Spark, ¿qué significan las siglas?

Resilient Distributed Datasets (D) Signup and view all the answers

¿Cuál es una característica clave de los RDD en Spark?

Son inmutables y se transforman para obtener nuevos RDD. (B) Signup and view all the answers

¿Qué diferencia principal existe entre una transformación y una acción en Spark?

Las transformaciones son perezosas y solo se ejecutan cuando se invoca una acción. (A) Signup and view all the answers

En Spark, ¿qué representa un 'job'?

El procesamiento necesario para completar una acción del usuario. (A) Signup and view all the answers

En Spark, ¿qué son las 'tasks'?

Unidades mínimas de trabajo correspondientes a las transformaciones aplicadas a las particiones. (A) Signup and view all the answers

Al usar `toPandas` en Spark, ¿qué limitación principal se debe considerar?

Las limitaciones de memoria para evitar excepciones. (A) Signup and view all the answers

¿Cuál es la función principal de los DataFrames en Spark?

Manejar datos en forma de tablas distribuidas. (A) Signup and view all the answers

Spark SQL permite realizar consultas en lenguaje SQL sobre:

DataFrames registrados como tablas. (A) Signup and view all the answers

En Spark SQL, ¿qué son las vistas?

Transformaciones sobre tablas existentes sin almacenar datos duplicados. (D) Signup and view all the answers

¿Cuál es la diferencia entre las 'tablas gestionadas' y las 'tablas externas' en Hive?

Las tablas gestionadas son controladas completamente por Hive, mientras que las externas permiten que los datos queden intactos al borrar la tabla. (D) Signup and view all the answers

Según el texto, ¿cuál no es una de las operaciones que un Business Intelligence Analyst puede ejecutar en Apache Hive?

OLTP (B) Signup and view all the answers

Conceptualmente, ¿qué paradigma define mejor a Apache Impala?

Sistema de procesamiento masivamente paralelo (MPP). (A) Signup and view all the answers

En seguridad en la nube, ¿cuál es la distribución de responsabilidades según el modelo de responsabilidad compartida?

El proveedor gestiona la infraestructura, mientras que el usuario se asegura de la protección de sus datos y accesos. (B) Signup and view all the answers

¿Cuál es el enfoque principal para abordar las necesidades de procesamiento de datos según el texto?

La comprensión y aplicación de las tecnologías Big Data. (C) Signup and view all the answers

¿Qué porcentaje de los datos generados actualmente se considera estructurado?

20% (D) Signup and view all the answers

¿Qué tipo de interacción NO se menciona como una fuente principal de datos en la era del Big Data?

Interacción directa entre humanos sin mediación tecnológica. (C) Signup and view all the answers

¿En qué se enfoca la transformación digital según el contenido?

En centrarse en el cliente y aprovechar los canales digitales. (D) Signup and view all the answers

¿Qué característica es suficiente para considerar un proyecto como Big Data?

Implicar al menos una de las tres 'V' (volumen, velocidad, variedad). (B) Signup and view all the answers

¿Qué capacidades clave facilitan las tecnologías Big Data?

La aplicación de técnicas de análisis existentes a mayores volúmenes de datos. (A) Signup and view all the answers

¿Cuál fue el principal desafío que impulsó a Google a desarrollar tecnologías Big Data?

La necesidad de indexar el creciente volumen de páginas en Internet. (B) Signup and view all the answers

¿Cuál fue la propuesta clave del Google File System (GFS)?

Un sistema de almacenamiento basado en clústeres de ordenadores convencionales. (B) Signup and view all the answers

¿Qué ventaja crucial ofrecía MapReduce a los desarrolladores?

Simplificación de los aspectos de hardware y redes. (B) Signup and view all the answers

¿Cuál fue la principal motivación detrás del desarrollo de Apache Spark?

Mejorar las limitaciones de Hadoop. (C) Signup and view all the answers

¿Qué principio fundamental permite a las tecnologías de procesamiento distribuido manejar grandes volúmenes de datos?

La capacidad de procesar datos a través de múltiples máquinas interconectadas. (C) Signup and view all the answers

¿Cuál de las siguientes herramientas NO es un componente central del núcleo del ecosistema Hadoop?

Spark (D) Signup and view all the answers

¿Qué rol crucial desempeña Zookeeper en el ecosistema Hadoop?

Coordinación y gestión de la correcta operación de las herramientas. (A) Signup and view all the answers

¿Qué herramienta del ecosistema Hadoop brinda la capacidad de ejecutar consultas SQL directamente sobre los datos almacenados en HDFS?

Hive (A) Signup and view all the answers

¿Qué tecnología ha ganado prominencia reemplazando a MapReduce debido a su mejorada velocidad y eficacia?

Apache Spark (A) Signup and view all the answers

¿Cuál es el propósito principal de las distribuciones de Hadoop?

Facilitar la instalación, operación y compatibilidad de las herramientas de Hadoop. (B) Signup and view all the answers

¿Cuál de las siguientes distribuciones de Hadoop es totalmente de código abierto y compatible con Windows?

Ninguna de las anteriores. (C) Signup and view all the answers

¿Cuál es la capacidad estándar de un bloque en HDFS?

128 MB (B) Signup and view all the answers

¿Cuál es el factor de replicación predeterminado en HDFS para asegurar una alta disponibilidad de los datos?

3 (B) Signup and view all the answers

¿Cuál es el papel del NameNode dentro de la arquitectura HDFS?

Gestiona la estructura de directorios y los metadatos de los archivos. (D) Signup and view all the answers

¿Cuál es la técnica empleada para lograr una alta disponibilidad del NameNode en HDFS?

Utilizando un par de NameNodes activos y en espera que comparten un log de edición. (C) Signup and view all the answers

¿Cuál es el papel del NameNode durante el proceso de escritura en HDFS?

Proporciona la localización de los DataNodes donde se escribirán los bloques. (D) Signup and view all the answers

¿Cuál comando HDFS se utiliza para examinar los elementos dentro de un directorio?

<code>hdfs dfs –ls</code> (D) Signup and view all the answers

¿Qué comando utilizarías para transferir un archivo desde tu sistema de archivos local hacia HDFS?

<code>hdfs dfs –copyFromLocal</code> (A) Signup and view all the answers

¿Qué comando se utiliza para suprimir un directorio y todo su contenido dentro de HDFS?

<code>hdfs dfs –rm –r</code> (C) Signup and view all the answers

¿Cuál es la función del Mapper en MapReduce?

Invocar en paralelo sobre cada bloque de entrada, generando resultados intermedios. (D) Signup and view all the answers

¿Cuál es el rol del Reducer en el paradigma MapReduce?

Aplicar una función a cada grupo de datos generados por el Mapper, combinando los valores asociados a cada clave única. (A) Signup and view all the answers

¿Qué aspecto negativo importante presenta MapReduce?

El resultado intermedio del Mapper se escribe en disco, lo que penaliza el rendimiento. (C) Signup and view all the answers

¿Cuál es la función de Spark Core en Apache Spark?

Contiene las estructuras de datos fundamentales como los RDD. (C) Signup and view all the answers

En Apache Spark, ¿qué significan las siglas RDD?

Resilient Distributed Datasets (A) Signup and view all the answers

¿Cuál es la diferencia principal entre una transformación y una acción en Spark?

Las transformaciones son perezosas y solo se ejecutan cuando se invoca una acción. (B) Signup and view all the answers

¿Qué restricción principal se debe tener en cuenta al utilizar `toPandas` en Spark?

Los datos deben caber en la memoria del driver para evitar excepciones. (A) Signup and view all the answers

¿Cuál es el propósito principal de los DataFrames en Spark?

Manejar datos en forma de tablas distribuidas, facilitando un nivel de abstracción superior y facilidad de uso. (A) Signup and view all the answers

¿Cuál de las siguientes opciones describe mejor el paradigma de Apache Impala?

Procesamiento masivamente paralelo (MPP) diseñado para ejecutar consultas interactivas en SQL. (A) Signup and view all the answers

Según el modelo de responsabilidad compartida en seguridad en la nube, ¿qué parte es responsabilidad del proveedor de la nube?

La seguridad de la infraestructura física de la nube. (A) Signup and view all the answers

¿Qué habilidad central permite a los analistas de Business Intelligence trabajar con Apache Hive?

Consultas en lenguaje SQL (B) Signup and view all the answers

¿Qué representa un RDD en Apache Spark?

Una colección distribuida de datos resistente a fallos (B) Signup and view all the answers

¿Cuál de los siguientes servicios de AWS permite ejecutar aplicaciones en contenedores sin gestionar la infraestructura subyacente?

Amazon ECS (C) Signup and view all the answers

¿Qué ofrece Microsoft Azure a través de su Azure Marketplace?

Servicios de terceros, como imágenes de máquinas virtuales y software (B) Signup and view all the answers

¿Qué función desempeña Flume dentro del ecosistema Hadoop?

Tratamiento de logs (D) Signup and view all the answers

¿Cuál es el principal objetivo de las distribuciones de Hadoop como Cloudera o Hortonworks?

Facilitar la instalación y operación de las herramientas de Hadoop (A) Signup and view all the answers

¿En el contexto de AWS, qué rol desempeña Amazon Redshift?

Sistema de data warehousing para analíticas interactivas (B) Signup and view all the answers

¿Cuál es la función destacada de Cloud Dataprep en Google Cloud Platform (GCP)?

Limpiar y transformar datos en bruto para análisis (C) Signup and view all the answers

¿Qué tipo de modelo de servicio en la nube proporciona la infraestructura fundamental, como servidores y redes, que los usuarios pueden controlar?

IaaS (Infrastructure as a Service) (C) Signup and view all the answers

¿Qué describe mejor la función del NameNode en HDFS?

Gestiona los metadatos y la estructura de directorios del sistema de archivos (A) Signup and view all the answers

En Kafka, si tienes más consumidores en un grupo de consumidores que particiones en un topic, ¿qué ocurre?

Algunos consumidores permanecerán inactivos. (B) Signup and view all the answers

¿Cuál de estos NO es un beneficio principal del cloud computing?

Control completo sobre la infraestructura física (B) Signup and view all the answers

En el contexto de Google Cloud Platform, ¿qué servicio permite desplegar clústeres Hadoop totalmente gestionados?

Dataproc (A) Signup and view all the answers

En AWS, ¿qué servicio se utiliza para gestionar la identidad y el acceso a los recursos de la nube?

AWS IAM (B) Signup and view all the answers

En Spark MLlib, ¿qué función cumple un 'Estimador'?

Ajusta parámetros usando el método <code>fit</code> antes de realizar transformaciones (A) Signup and view all the answers

En Apache Kafka, ¿qué representa un 'topic'?

Una categoría o fuente de datos donde se organizan los mensajes (B) Signup and view all the answers

Si un usuario necesita ejecutar consultas SQL en tiempo real sobre datos almacenados en HDFS, ¿qué herramienta es más adecuada?

Apache Impala (D) Signup and view all the answers

Imagina que tienes un archivo CSV delimitado por comas pero con algunas comas dentro de los campos de texto. ¿Cuál es el método más robusto para leer este archivo en un DataFrame de Spark SQL correctamente?

Utilizar <code>spark.read.format('csv').option('quote', '"').option('escape', '\\').load('ruta/al/archivo.csv')</code>. (D) Signup and view all the answers

Estás diseñando un sistema de procesamiento de datos con Apache Kafka. Tienes un topic con 10 particiones y planeas tener un número variable de consumidores en un grupo de consumidores. ¿Cuál es el número máximo de consumidores activos que puedes tener simultáneamente y seguir aprovechando el paralelismo total sin tener consumidores inactivos?

10, ya que cada partición puede ser leída por un solo consumidor a la vez. (A) Signup and view all the answers

Estás trabajando en un proyecto de Machine Learning en Google Cloud Platform (GCP) y necesitas preparar un conjunto de datos masivo que contiene información personal sensible. Necesitas anonimizar los datos antes de usarlos para entrenar un modelo y garantizar el cumplimiento de las regulaciones de privacidad. ¿Qué servicio de GCP ofrece la funcionalidad más directa para transformar y anonimizar los datos en un entorno gestionado?

Cloud Data Loss Prevention (DLP) (A) Signup and view all the answers

Flashcards

¿Qué son las tecnologías Big Data?

Conjunto de tecnologías y arquitecturas para almacenar, mover, acceder y procesar datos que antes eran difíciles de manejar debido a su volumen, velocidad y variedad.

¿Quién reconoció la necesidad del Big Data?

Google fue la primera en reconocer la necesidad de procesar grandes volúmenes de datos para indexar la web. Desarrolló Google File System (GFS).

¿Qué es MapReduce?

Es un modelo de programación que permite procesar archivos en paralelo en clústeres conectados.

¿Qué es Apache Spark?

Solución open source que supera las limitaciones de Hadoop, comparte estructura de clústeres y reemplaza a MapReduce.