Spark Presentación
12 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Qué es el núcleo principal de Spark?

  • RDDs (correct)
  • GrapX
  • Mllib
  • Spark Streaming
  • ¿Qué es el parámetro master en SparkContext?

  • El puerto por defecto del clúster
  • El número de workers locales
  • El tamaño y el tipo del clúster (correct)
  • El nombre del clúster
  • ¿Qué es un Driver en Spark?

  • Un worker que se ejecuta localmente
  • Un programa que se ejecuta en el clúster
  • Un executor que se reserva en el clúster
  • Un objeto que se crea para acceder al clúster (correct)
  • ¿Qué es GrapX en Spark?

    <p>Una librería para manipular grafos</p> Signup and view all the answers

    ¿Qué sucede en caso de fallo en un RDD?

    <p>Se reconstruye automáticamente</p> Signup and view all the answers

    ¿Qué es pySpark?

    <p>La API de Spark para Python</p> Signup and view all the answers

    ¿Cuál es la principal ventaja de Spark sobre MapReduce?

    <p>Spark utiliza la memoria RAM, lo que es más rápido y eficiente que utilizar el disco</p> Signup and view all the answers

    ¿Cuál es el papel de Spark en el ecosistema de BigData?

    <p>Spark es nuestra base para abarcar todos los campos del BigData</p> Signup and view all the answers

    ¿Qué es Spark SQL?

    <p>Un componente de alto nivel para trabajar con datos estructurados</p> Signup and view all the answers

    ¿Qué ventaja ofrece la abstracción de programación en Spark?

    <p>Da igual donde se ejecute y si se ejecuta dos veces en el mismo nodo</p> Signup and view all the answers

    ¿Qué es el Spark Core?

    <p>Un motor de computación para tareas distribuidas</p> Signup and view all the answers

    ¿Qué es cierto sobre Spark en relación con los gestores de clúster?

    <p>Spark puede trabajar con diferentes gestores de clúster</p> Signup and view all the answers

    Study Notes

    Presentación

    • Spark cambia de disco a utilizar RAM, lo que es más rápido y eficiente que el disco.
    • Spark solo se encarga del procesamiento de datos, no del almacenamiento, por lo que utiliza HDFS, NoSQL, etc.
    • Puede trabajar con diferentes gestores de clúster, como Hadoop (YARN), MESOS o standalone.
    • Abstracción de programación: "Aquí tienes la operación, ejecutala en todos los datos", sin importar donde se ejecute.

    Componentes integrados en Spark

    • Spark Core: motor de computación, encargado de planificación, distribución y monitorización de tareas distribuidas en los workers.
    • Componentes de alto nivel: SQL, Machine Learning, Graphs y Streaming.

    Spark SQL

    • Pensado para trabajar con datos estructurados.
    • Consultas SQL o HQL (variante SQL de Apache) y también DataFrames.

    Spark Streaming

    • Procesamiento de streams en tiempo real.

    MLlib

    • Machine Learning de Spark, implementación de algoritmos distribuidos.
    • Puede trabajar con RDDs (viejo) y DataFrames (nuevo).

    GrapX

    • Librería para manipular grafos (amigos en una red social).

    RDDs

    • Permiten escribir programas basados en operaciones sobre un conjunto de datos distribuidos.
    • Son colecciones de objetos repartidas por el clúster.
    • Se construyen y manejan mediante operaciones paralelas (Transformaciones y acciones).
    • En caso de fallo, se reconstruye automáticamente.

    Conceptos básicos

    • La API de Spark para Python es pySpark.
    • RDDs son el núcleo de Spark, actualmente ha evolucionado a Dataframes.
    • Driver: programa que se ejecuta en la máquina local.
    • Workers: se ejecutan por el clúster.
    • SparkContext: crea un objeto que le dice a Spark cómo y dónde acceder al clúster.

    SparkContext

    • Parámetro master: permite indicar a SparkContext el tamaño y el tipo del clúster.
    • Tipos de parámetros master: local, local[K], spark://HOST:PUERTO, mesos://HOST:PUERTO.
    • SparkContext se crea en el driver.
    • Mediante el sc se conecta al clúster manager.
    • Una vez conectado, se reservan los executors.
    • El driver envía el código y datos a los executors.

    Ejecución

    • Cada aplicación tiene sus propios executors, proporcionando aislamiento pero impidiendo compartir datos.
    • Un worker podría tener más de un executor, dependiendo de los recursos hardware y siendo de aplicaciones distintas.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Description

    Aprende sobre la presentación de Spark, un sistema de procesamiento de datos que utiliza la memoria RAM en lugar de disco. Descubre cómo cambia la forma en que se procesan las tareas iterativas.

    More Like This

    Big Data Technologies: Spark Processing II
    5 questions
    Data Extraction in Apache Spark
    42 questions
    Use Quizgecko on...
    Browser
    Browser