3 Spark I Componentes Sum

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

¿Cuál es una característica principal de Apache Spark que lo diferencia de MapReduce?

Spark es un motor unificado de cálculo en memoria. (correct)
MapReduce ofrece bibliotecas para procesamiento paralelo y distribuido.
Spark solo puede procesar datos de fuentes HDFS.
MapReduce es más intuitivo para la programación distribuida.

¿Cuál de las siguientes NO es una forma en que el motor de Spark puede ser utilizado?

Mediante una instrucción de la API de programación que recibe una consulta SQL como string.
Directamente a través de especificaciones SQL contra Spark (Hive).
Exclusivamente mediante el uso de MapReduce sin APIs. (correct)
A través de la API de DataFrames (R, Python, Java y Scala).

¿Qué ocurre con los cálculos en Spark en relación con la memoria y el disco?

Todos los cálculos se escriben inmediatamente en disco para asegurar la persistencia de los datos.
Todos los cálculos se llevan a cabo en memoria y solo se escriben resultados a disco cuando es necesario. (correct)
La decisión de usar memoria o disco se basa en el tamaño de los datos, independientemente de la operación.
Los cálculos se realizan únicamente en disco, similar a MapReduce.

¿Cuál es el componente principal de Spark donde residen las estructuras de datos fundamentales, como los RDDs?

Spark Core. (B) Signup and view all the answers

¿Cómo se gestionan los recursos para la ejecución de Spark en un clúster?

Mediante un gestor de recursos que asigna máquinas, CPU y memoria a Spark. (A) Signup and view all the answers

¿Cuál es la función principal de Spark SQL y su API estructurada?

Manejar tablas de datos distribuidas, estructuradas en columnas. (D) Signup and view all the answers

¿Qué módulo de Spark ha sido reemplazado por Spark Structured Streaming?

Spark Streaming. (D) Signup and view all the answers

¿Qué representa el término 'driver' en la arquitectura de Spark?

El código del programa principal (secuencial) que utiliza la biblioteca de Spark. (D) Signup and view all the answers

¿Cuál es la función del objeto `sparkSession` en Spark?

Establecer la comunicación con el gestor de clúster y configurar los recursos. (B) Signup and view all the answers

¿Qué término describe el proceso JVM que se ejecuta en cada nodo y ocupa los recursos asignados?

Executor. (A) Signup and view all the answers

¿Qué concepto representa la unidad mínima de ejecución de trabajos en Spark?

Task. (A) Signup and view all the answers

¿Qué son los RDDs (Resilient Distributed Datasets)?

Abstracciones fundamentales de Spark, colecciones no ordenadas de objetos distribuidas en memoria RAM. (D) Signup and view all the answers

¿Qué significa que un RDD sea 'inmutable'?

Su contenido no se puede modificar una vez creado; se obtienen nuevos RDDs aplicando transformaciones. (D) Signup and view all the answers

¿Cuál es la recomendación de los creadores de Spark respecto al uso de RDDs a partir de la versión 2.0?

Usar siempre DataFrames y su API correspondiente en lugar de RDDs. (C) Signup and view all the answers

¿Qué caracteriza a una transformación 'narrow' en Spark?

No requiere movimiento de datos, aplicándose localmente a cada partición. (A) Signup and view all the answers

¿Cuál es el destino del resultado de una 'acción' en Spark?

Se devuelve al 'driver'. (D) Signup and view all the answers

¿Qué es un DAG (Directed Acyclic Graph) en el contexto de Spark?

Un grafo que representa la secuencia de transformaciones para la resiliencia. (C) Signup and view all the answers

¿Cuál es el propósito fundamental de la función `cache()` en Spark?

Almacenar un RDD en la memoria RAM de los 'workers' para evitar recálculos. (C) Signup and view all the answers

En el contexto de Spark, ¿qué implica la serialización del código de una función?

Su conversión a un formato que permite enviarlo por la red a los nodos para su ejecución. (C) Signup and view all the answers

¿Qué tipo de RDD se considera un PairRDD en Spark?

Un RDD de tuplas de dos elementos (clave, valor). (B) Signup and view all the answers

¿Cuál es el objetivo principal de las operaciones `join` y `reduceByKey` en Spark?

Agrupar y combinar datos con la misma clave. (A) Signup and view all the answers

¿Qué variable se usaba en versiones anteriores de Spark para efectuar la conexión con el gestor de clúster, y ahora está envuelta por `sparkSession`?

SparkContext (A) Signup and view all the answers

¿Qué representa el término 'job' en el contexto de Spark?

Todo el procesamiento necesario para llevar a cabo una acción del usuario. (A) Signup and view all the answers

¿Qué define un 'stage' en el procesamiento de Spark?

El procesamiento que puede llevarse a cabo sin mover datos entre nodos. (B) Signup and view all the answers

¿Qué tarea realiza la operación `map` sobre un RDD en Spark?

Ejecutar una función sobre cada elemento del RDD, transformándolo. (D) Signup and view all the answers

¿Cuál de las siguientes opciones describe mejor el propósito de la acción `collect` en Spark?

Devolver todos los elementos contenidos en el RDD como una colección del lenguaje al 'driver'. (B) Signup and view all the answers

En términos de diseño de aplicaciones Spark con RDD, ¿qué restricción importante existe para realizar operaciones de agregación y otras operaciones entre RDDs?

Necesita un RDD con formato 'pairRDD' para poder realizar operacione. (B) Signup and view all the answers

Según el contenido, ¿qué paso es necesario para poder realizar un operación de join entre dos RDDs que tienen datos en formato diferente?

Realizar una transformación para manipular cada RDD para que ambos tengan el mismo formato. (A) Signup and view all the answers

Flashcards

¿Qué es MapReduce?

Paradigma de programación distribuida que presenta deficiencias.

¿Qué es Apache Spark?

Motor unificado de cálculo en memoria para procesamiento paralelo y distribuido.