Podcast
Questions and Answers
¿Qué es el núcleo principal de Spark?
¿Qué es el núcleo principal de Spark?
- RDDs (correct)
- GrapX
- Mllib
- Spark Streaming
¿Qué es el parámetro master en SparkContext?
¿Qué es el parámetro master en SparkContext?
- El puerto por defecto del clúster
- El número de workers locales
- El tamaño y el tipo del clúster (correct)
- El nombre del clúster
¿Qué es un Driver en Spark?
¿Qué es un Driver en Spark?
- Un worker que se ejecuta localmente
- Un programa que se ejecuta en el clúster
- Un executor que se reserva en el clúster
- Un objeto que se crea para acceder al clúster (correct)
¿Qué es GrapX en Spark?
¿Qué es GrapX en Spark?
¿Qué sucede en caso de fallo en un RDD?
¿Qué sucede en caso de fallo en un RDD?
¿Qué es pySpark?
¿Qué es pySpark?
¿Cuál es la principal ventaja de Spark sobre MapReduce?
¿Cuál es la principal ventaja de Spark sobre MapReduce?
¿Cuál es el papel de Spark en el ecosistema de BigData?
¿Cuál es el papel de Spark en el ecosistema de BigData?
¿Qué es Spark SQL?
¿Qué es Spark SQL?
¿Qué ventaja ofrece la abstracción de programación en Spark?
¿Qué ventaja ofrece la abstracción de programación en Spark?
¿Qué es el Spark Core?
¿Qué es el Spark Core?
¿Qué es cierto sobre Spark en relación con los gestores de clúster?
¿Qué es cierto sobre Spark en relación con los gestores de clúster?
Study Notes
Presentación
- Spark cambia de disco a utilizar RAM, lo que es más rápido y eficiente que el disco.
- Spark solo se encarga del procesamiento de datos, no del almacenamiento, por lo que utiliza HDFS, NoSQL, etc.
- Puede trabajar con diferentes gestores de clúster, como Hadoop (YARN), MESOS o standalone.
- Abstracción de programación: "Aquí tienes la operación, ejecutala en todos los datos", sin importar donde se ejecute.
Componentes integrados en Spark
- Spark Core: motor de computación, encargado de planificación, distribución y monitorización de tareas distribuidas en los workers.
- Componentes de alto nivel: SQL, Machine Learning, Graphs y Streaming.
Spark SQL
- Pensado para trabajar con datos estructurados.
- Consultas SQL o HQL (variante SQL de Apache) y también DataFrames.
Spark Streaming
- Procesamiento de streams en tiempo real.
MLlib
- Machine Learning de Spark, implementación de algoritmos distribuidos.
- Puede trabajar con RDDs (viejo) y DataFrames (nuevo).
GrapX
- Librería para manipular grafos (amigos en una red social).
RDDs
- Permiten escribir programas basados en operaciones sobre un conjunto de datos distribuidos.
- Son colecciones de objetos repartidas por el clúster.
- Se construyen y manejan mediante operaciones paralelas (Transformaciones y acciones).
- En caso de fallo, se reconstruye automáticamente.
Conceptos básicos
- La API de Spark para Python es pySpark.
- RDDs son el núcleo de Spark, actualmente ha evolucionado a Dataframes.
- Driver: programa que se ejecuta en la máquina local.
- Workers: se ejecutan por el clúster.
- SparkContext: crea un objeto que le dice a Spark cómo y dónde acceder al clúster.
SparkContext
- Parámetro master: permite indicar a SparkContext el tamaño y el tipo del clúster.
- Tipos de parámetros master: local, local[K], spark://HOST:PUERTO, mesos://HOST:PUERTO.
- SparkContext se crea en el driver.
- Mediante el sc se conecta al clúster manager.
- Una vez conectado, se reservan los executors.
- El driver envía el código y datos a los executors.
Ejecución
- Cada aplicación tiene sus propios executors, proporcionando aislamiento pero impidiendo compartir datos.
- Un worker podría tener más de un executor, dependiendo de los recursos hardware y siendo de aplicaciones distintas.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Aprende sobre la presentación de Spark, un sistema de procesamiento de datos que utiliza la memoria RAM en lugar de disco. Descubre cómo cambia la forma en que se procesan las tareas iterativas.