Spark Presentación

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

¿Qué es el núcleo principal de Spark?

  • RDDs (correct)
  • GrapX
  • Mllib
  • Spark Streaming

¿Qué es el parámetro master en SparkContext?

  • El puerto por defecto del clúster
  • El número de workers locales
  • El tamaño y el tipo del clúster (correct)
  • El nombre del clúster

¿Qué es un Driver en Spark?

  • Un worker que se ejecuta localmente
  • Un programa que se ejecuta en el clúster
  • Un executor que se reserva en el clúster
  • Un objeto que se crea para acceder al clúster (correct)

¿Qué es GrapX en Spark?

<p>Una librería para manipular grafos (B)</p> Signup and view all the answers

¿Qué sucede en caso de fallo en un RDD?

<p>Se reconstruye automáticamente (D)</p> Signup and view all the answers

¿Qué es pySpark?

<p>La API de Spark para Python (D)</p> Signup and view all the answers

¿Cuál es la principal ventaja de Spark sobre MapReduce?

<p>Spark utiliza la memoria RAM, lo que es más rápido y eficiente que utilizar el disco (C)</p> Signup and view all the answers

¿Cuál es el papel de Spark en el ecosistema de BigData?

<p>Spark es nuestra base para abarcar todos los campos del BigData (B)</p> Signup and view all the answers

¿Qué es Spark SQL?

<p>Un componente de alto nivel para trabajar con datos estructurados (A)</p> Signup and view all the answers

¿Qué ventaja ofrece la abstracción de programación en Spark?

<p>Da igual donde se ejecute y si se ejecuta dos veces en el mismo nodo (C)</p> Signup and view all the answers

¿Qué es el Spark Core?

<p>Un motor de computación para tareas distribuidas (B)</p> Signup and view all the answers

¿Qué es cierto sobre Spark en relación con los gestores de clúster?

<p>Spark puede trabajar con diferentes gestores de clúster (D)</p> Signup and view all the answers

Flashcards are hidden until you start studying

Study Notes

Presentación

  • Spark cambia de disco a utilizar RAM, lo que es más rápido y eficiente que el disco.
  • Spark solo se encarga del procesamiento de datos, no del almacenamiento, por lo que utiliza HDFS, NoSQL, etc.
  • Puede trabajar con diferentes gestores de clúster, como Hadoop (YARN), MESOS o standalone.
  • Abstracción de programación: "Aquí tienes la operación, ejecutala en todos los datos", sin importar donde se ejecute.

Componentes integrados en Spark

  • Spark Core: motor de computación, encargado de planificación, distribución y monitorización de tareas distribuidas en los workers.
  • Componentes de alto nivel: SQL, Machine Learning, Graphs y Streaming.

Spark SQL

  • Pensado para trabajar con datos estructurados.
  • Consultas SQL o HQL (variante SQL de Apache) y también DataFrames.

Spark Streaming

  • Procesamiento de streams en tiempo real.

MLlib

  • Machine Learning de Spark, implementación de algoritmos distribuidos.
  • Puede trabajar con RDDs (viejo) y DataFrames (nuevo).

GrapX

  • Librería para manipular grafos (amigos en una red social).

RDDs

  • Permiten escribir programas basados en operaciones sobre un conjunto de datos distribuidos.
  • Son colecciones de objetos repartidas por el clúster.
  • Se construyen y manejan mediante operaciones paralelas (Transformaciones y acciones).
  • En caso de fallo, se reconstruye automáticamente.

Conceptos básicos

  • La API de Spark para Python es pySpark.
  • RDDs son el núcleo de Spark, actualmente ha evolucionado a Dataframes.
  • Driver: programa que se ejecuta en la máquina local.
  • Workers: se ejecutan por el clúster.
  • SparkContext: crea un objeto que le dice a Spark cómo y dónde acceder al clúster.

SparkContext

  • Parámetro master: permite indicar a SparkContext el tamaño y el tipo del clúster.
  • Tipos de parámetros master: local, local[K], spark://HOST:PUERTO, mesos://HOST:PUERTO.
  • SparkContext se crea en el driver.
  • Mediante el sc se conecta al clúster manager.
  • Una vez conectado, se reservan los executors.
  • El driver envía el código y datos a los executors.

Ejecución

  • Cada aplicación tiene sus propios executors, proporcionando aislamiento pero impidiendo compartir datos.
  • Un worker podría tener más de un executor, dependiendo de los recursos hardware y siendo de aplicaciones distintas.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Like This

Big Data Technologies: Spark Processing II
5 questions
Data Extraction in Apache Spark
42 questions
Introduction à Apache Spark
13 questions

Introduction à Apache Spark

RockStarEnlightenment8066 avatar
RockStarEnlightenment8066
Use Quizgecko on...
Browser
Browser