Spark Presentación

EloquentDarmstadtium avatar
EloquentDarmstadtium
·
·
Download

Start Quiz

Study Flashcards

Questions and Answers

¿Qué es el núcleo principal de Spark?

RDDs

¿Qué es el parámetro master en SparkContext?

El tamaño y el tipo del clúster

¿Qué es un Driver en Spark?

Un objeto que se crea para acceder al clúster

¿Qué es GrapX en Spark?

<p>Una librería para manipular grafos</p> Signup and view all the answers

¿Qué sucede en caso de fallo en un RDD?

<p>Se reconstruye automáticamente</p> Signup and view all the answers

¿Qué es pySpark?

<p>La API de Spark para Python</p> Signup and view all the answers

¿Cuál es la principal ventaja de Spark sobre MapReduce?

<p>Spark utiliza la memoria RAM, lo que es más rápido y eficiente que utilizar el disco</p> Signup and view all the answers

¿Cuál es el papel de Spark en el ecosistema de BigData?

<p>Spark es nuestra base para abarcar todos los campos del BigData</p> Signup and view all the answers

¿Qué es Spark SQL?

<p>Un componente de alto nivel para trabajar con datos estructurados</p> Signup and view all the answers

¿Qué ventaja ofrece la abstracción de programación en Spark?

<p>Da igual donde se ejecute y si se ejecuta dos veces en el mismo nodo</p> Signup and view all the answers

¿Qué es el Spark Core?

<p>Un motor de computación para tareas distribuidas</p> Signup and view all the answers

¿Qué es cierto sobre Spark en relación con los gestores de clúster?

<p>Spark puede trabajar con diferentes gestores de clúster</p> Signup and view all the answers

Study Notes

Presentación

  • Spark cambia de disco a utilizar RAM, lo que es más rápido y eficiente que el disco.
  • Spark solo se encarga del procesamiento de datos, no del almacenamiento, por lo que utiliza HDFS, NoSQL, etc.
  • Puede trabajar con diferentes gestores de clúster, como Hadoop (YARN), MESOS o standalone.
  • Abstracción de programación: "Aquí tienes la operación, ejecutala en todos los datos", sin importar donde se ejecute.

Componentes integrados en Spark

  • Spark Core: motor de computación, encargado de planificación, distribución y monitorización de tareas distribuidas en los workers.
  • Componentes de alto nivel: SQL, Machine Learning, Graphs y Streaming.

Spark SQL

  • Pensado para trabajar con datos estructurados.
  • Consultas SQL o HQL (variante SQL de Apache) y también DataFrames.

Spark Streaming

  • Procesamiento de streams en tiempo real.

MLlib

  • Machine Learning de Spark, implementación de algoritmos distribuidos.
  • Puede trabajar con RDDs (viejo) y DataFrames (nuevo).

GrapX

  • Librería para manipular grafos (amigos en una red social).

RDDs

  • Permiten escribir programas basados en operaciones sobre un conjunto de datos distribuidos.
  • Son colecciones de objetos repartidas por el clúster.
  • Se construyen y manejan mediante operaciones paralelas (Transformaciones y acciones).
  • En caso de fallo, se reconstruye automáticamente.

Conceptos básicos

  • La API de Spark para Python es pySpark.
  • RDDs son el núcleo de Spark, actualmente ha evolucionado a Dataframes.
  • Driver: programa que se ejecuta en la máquina local.
  • Workers: se ejecutan por el clúster.
  • SparkContext: crea un objeto que le dice a Spark cómo y dónde acceder al clúster.

SparkContext

  • Parámetro master: permite indicar a SparkContext el tamaño y el tipo del clúster.
  • Tipos de parámetros master: local, local[K], spark://HOST:PUERTO, mesos://HOST:PUERTO.
  • SparkContext se crea en el driver.
  • Mediante el sc se conecta al clúster manager.
  • Una vez conectado, se reservan los executors.
  • El driver envía el código y datos a los executors.

Ejecución

  • Cada aplicación tiene sus propios executors, proporcionando aislamiento pero impidiendo compartir datos.
  • Un worker podría tener más de un executor, dependiendo de los recursos hardware y siendo de aplicaciones distintas.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Quizzes Like This

Use Quizgecko on...
Browser
Browser