Recent Lessons

Show all results for ""

Spark Presentación

Spark Presentación

Choose a study mode

Play Quiz

Study Flashcards

Spaced Repetition

Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

¿Qué es el núcleo principal de Spark?

RDDs (correct)
GrapX
Mllib
Spark Streaming

¿Qué es el parámetro master en SparkContext?

El puerto por defecto del clúster
El número de workers locales
El tamaño y el tipo del clúster (correct)
El nombre del clúster

¿Qué es un Driver en Spark?

Un worker que se ejecuta localmente
Un programa que se ejecuta en el clúster
Un executor que se reserva en el clúster
Un objeto que se crea para acceder al clúster (correct)

¿Qué es GrapX en Spark?

<p>Una librería para manipular grafos (B)</p> Signup and view all the answers

¿Qué sucede en caso de fallo en un RDD?

<p>Se reconstruye automáticamente (D)</p> Signup and view all the answers

¿Qué es pySpark?

<p>La API de Spark para Python (D)</p> Signup and view all the answers

¿Cuál es la principal ventaja de Spark sobre MapReduce?

<p>Spark utiliza la memoria RAM, lo que es más rápido y eficiente que utilizar el disco (C)</p> Signup and view all the answers

¿Cuál es el papel de Spark en el ecosistema de BigData?

<p>Spark es nuestra base para abarcar todos los campos del BigData (B)</p> Signup and view all the answers

¿Qué es Spark SQL?

<p>Un componente de alto nivel para trabajar con datos estructurados (A)</p> Signup and view all the answers

¿Qué ventaja ofrece la abstracción de programación en Spark?

<p>Da igual donde se ejecute y si se ejecuta dos veces en el mismo nodo (C)</p> Signup and view all the answers

¿Qué es el Spark Core?

<p>Un motor de computación para tareas distribuidas (B)</p> Signup and view all the answers

¿Qué es cierto sobre Spark en relación con los gestores de clúster?

<p>Spark puede trabajar con diferentes gestores de clúster (D)</p> Signup and view all the answers

Flashcards are hidden until you start studying

Study Notes

Presentación

Spark cambia de disco a utilizar RAM, lo que es más rápido y eficiente que el disco.
Spark solo se encarga del procesamiento de datos, no del almacenamiento, por lo que utiliza HDFS, NoSQL, etc.
Puede trabajar con diferentes gestores de clúster, como Hadoop (YARN), MESOS o standalone.
Abstracción de programación: "Aquí tienes la operación, ejecutala en todos los datos", sin importar donde se ejecute.

Componentes integrados en Spark

Spark Core: motor de computación, encargado de planificación, distribución y monitorización de tareas distribuidas en los workers.
Componentes de alto nivel: SQL, Machine Learning, Graphs y Streaming.

Spark SQL

Pensado para trabajar con datos estructurados.
Consultas SQL o HQL (variante SQL de Apache) y también DataFrames.

Spark Streaming

Procesamiento de streams en tiempo real.

MLlib

Machine Learning de Spark, implementación de algoritmos distribuidos.
Puede trabajar con RDDs (viejo) y DataFrames (nuevo).

GrapX

Librería para manipular grafos (amigos en una red social).

RDDs

Permiten escribir programas basados en operaciones sobre un conjunto de datos distribuidos.
Son colecciones de objetos repartidas por el clúster.
Se construyen y manejan mediante operaciones paralelas (Transformaciones y acciones).
En caso de fallo, se reconstruye automáticamente.

Conceptos básicos

La API de Spark para Python es pySpark.
RDDs son el núcleo de Spark, actualmente ha evolucionado a Dataframes.
Driver: programa que se ejecuta en la máquina local.
Workers: se ejecutan por el clúster.
SparkContext: crea un objeto que le dice a Spark cómo y dónde acceder al clúster.

SparkContext

Parámetro master: permite indicar a SparkContext el tamaño y el tipo del clúster.
Tipos de parámetros master: local, local[K], spark://HOST:PUERTO, mesos://HOST:PUERTO.
SparkContext se crea en el driver.
Mediante el sc se conecta al clúster manager.
Una vez conectado, se reservan los executors.
El driver envía el código y datos a los executors.

Ejecución

Cada aplicación tiene sus propios executors, proporcionando aislamiento pero impidiendo compartir datos.
Un worker podría tener más de un executor, dependiendo de los recursos hardware y siendo de aplicaciones distintas.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Like This

Big Data Technologies: Spark Processing II

5 questions

Big Data Technologies: Spark Processing II

PreferablePinkTourmaline

Apache Spark Overview

8 questions

Apache Spark Quiz: Test Your Knowledge of Big Data

SatisfactoryZinnia

Introduction à Apache Spark

13 questions

Introduction à Apache Spark

RockStarEnlightenment8066

3 Spark I Componentes Sum

28 questions

3 Spark I Componentes Sum

Itan

Use Quizgecko on...

Browser