Podcast
Questions and Answers
¿Qué es el núcleo principal de Spark?
¿Qué es el núcleo principal de Spark?
¿Qué es el parámetro master en SparkContext?
¿Qué es el parámetro master en SparkContext?
¿Qué es un Driver en Spark?
¿Qué es un Driver en Spark?
¿Qué es GrapX en Spark?
¿Qué es GrapX en Spark?
Signup and view all the answers
¿Qué sucede en caso de fallo en un RDD?
¿Qué sucede en caso de fallo en un RDD?
Signup and view all the answers
¿Qué es pySpark?
¿Qué es pySpark?
Signup and view all the answers
¿Cuál es la principal ventaja de Spark sobre MapReduce?
¿Cuál es la principal ventaja de Spark sobre MapReduce?
Signup and view all the answers
¿Cuál es el papel de Spark en el ecosistema de BigData?
¿Cuál es el papel de Spark en el ecosistema de BigData?
Signup and view all the answers
¿Qué es Spark SQL?
¿Qué es Spark SQL?
Signup and view all the answers
¿Qué ventaja ofrece la abstracción de programación en Spark?
¿Qué ventaja ofrece la abstracción de programación en Spark?
Signup and view all the answers
¿Qué es el Spark Core?
¿Qué es el Spark Core?
Signup and view all the answers
¿Qué es cierto sobre Spark en relación con los gestores de clúster?
¿Qué es cierto sobre Spark en relación con los gestores de clúster?
Signup and view all the answers
Study Notes
Presentación
- Spark cambia de disco a utilizar RAM, lo que es más rápido y eficiente que el disco.
- Spark solo se encarga del procesamiento de datos, no del almacenamiento, por lo que utiliza HDFS, NoSQL, etc.
- Puede trabajar con diferentes gestores de clúster, como Hadoop (YARN), MESOS o standalone.
- Abstracción de programación: "Aquí tienes la operación, ejecutala en todos los datos", sin importar donde se ejecute.
Componentes integrados en Spark
- Spark Core: motor de computación, encargado de planificación, distribución y monitorización de tareas distribuidas en los workers.
- Componentes de alto nivel: SQL, Machine Learning, Graphs y Streaming.
Spark SQL
- Pensado para trabajar con datos estructurados.
- Consultas SQL o HQL (variante SQL de Apache) y también DataFrames.
Spark Streaming
- Procesamiento de streams en tiempo real.
MLlib
- Machine Learning de Spark, implementación de algoritmos distribuidos.
- Puede trabajar con RDDs (viejo) y DataFrames (nuevo).
GrapX
- Librería para manipular grafos (amigos en una red social).
RDDs
- Permiten escribir programas basados en operaciones sobre un conjunto de datos distribuidos.
- Son colecciones de objetos repartidas por el clúster.
- Se construyen y manejan mediante operaciones paralelas (Transformaciones y acciones).
- En caso de fallo, se reconstruye automáticamente.
Conceptos básicos
- La API de Spark para Python es pySpark.
- RDDs son el núcleo de Spark, actualmente ha evolucionado a Dataframes.
- Driver: programa que se ejecuta en la máquina local.
- Workers: se ejecutan por el clúster.
- SparkContext: crea un objeto que le dice a Spark cómo y dónde acceder al clúster.
SparkContext
- Parámetro master: permite indicar a SparkContext el tamaño y el tipo del clúster.
- Tipos de parámetros master: local, local[K], spark://HOST:PUERTO, mesos://HOST:PUERTO.
- SparkContext se crea en el driver.
- Mediante el sc se conecta al clúster manager.
- Una vez conectado, se reservan los executors.
- El driver envía el código y datos a los executors.
Ejecución
- Cada aplicación tiene sus propios executors, proporcionando aislamiento pero impidiendo compartir datos.
- Un worker podría tener más de un executor, dependiendo de los recursos hardware y siendo de aplicaciones distintas.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Aprende sobre la presentación de Spark, un sistema de procesamiento de datos que utiliza la memoria RAM en lugar de disco. Descubre cómo cambia la forma en que se procesan las tareas iterativas.