SPARK
30 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Qué diferencia Spark MLlib de Spark ML?

  • Spark MLlib es más rápida entrenando modelos que Spark ML
  • Spark MLlib ofrece interfaz para DataFrames en todos sus componentes, mientras que Spark ML sigue utilizando RDD y ha quedado obsoleta. (correct)
  • Spark MLlib no permite cachear los resultados de los modelos, mientras que Spark ML sí.
  • Ninguna de las respuestas anteriores es correcta.

¿Qué tipo de componentes ofrece Spark ML?

  • Estimadores y transformadores para ingeniería de variables y para normalizar datos.
  • Estimadores y transformadores para preparar los datos para el formato requerido por los algoritmos de aprendizaje automático de Spark.
  • Solo pipelines que no dan acceso a los estimadores internos
  • Las respuestas A y B anteriores son correctas. (correct)

¿Cuál es el método principal de un estimator de Spark ML?

  • El método estimate.
  • El método describe
  • El método fit. (correct)
  • El método transform.

¿A qué interfaz pertenecen los algoritmos de machine learning de Spark cuando aún no han sido entrenados?

<p>Estimator (B)</p> Signup and view all the answers

¿A qué interfaz pertenecen los modelos de Spark ML cuando ya han sido entrenados con datos?

<p>Transformer (A)</p> Signup and view all the answers

¿Qué ocurre si creamos un StringIndexer para codificar las etiquetas de una variable en el dataset de entrenamiento y después creamos otro StringIndexer para codificar los datos de test en el momento de elaborar predicciones?

<p>Podríamos obtener codificaciones distintas de la misma etiqueta en los datos de entrenamiento y en los de test, lo que falsearía los resultados de las predicciones. (C)</p> Signup and view all the answers

¿Cuál es la estructura principal que maneja Spark Structured Streaming?

<p>Streaming DataFrames. (C)</p> Signup and view all the answers

Spark Streaming permite leer flujos de datos:

<p>Desde fuentes como Apache Kafka y HDFS, si activamos la inferencia de esquema (C)</p> Signup and view all the answers

En Spark Streaming, una vez se ejecuta la acción start():

<p>Hay que ejecutar un método para indicar al driver que no finalice automáticamente y espere a que concluya la recepción del flujo. (B)</p> Signup and view all the answers

¿Qué acciones pueden realizarse en Spark Structured Streaming?

<p>start (C)</p> Signup and view all the answers

Elige la respuesta correcta respecto a los DataFrames de Spark:

<p>Un DataFrame es una envoltura de un RDD de objetos de tipo Row. (B)</p> Signup and view all the answers

Elige la respuesta correcta sobre los DataFrames de Spark:

<p>Puesto que son un envoltorio de un RDD, suponen una estructura de datos que sigue estando distribuida en memoria. (B)</p> Signup and view all the answers

¿Qué mecanismo ofrece la API estructurada de DataFrames para leer datos?

<p>Método read de la Spark Session. (A)</p> Signup and view all the answers

¿Es obligatorio especificar explícitamente el esquema del DataFrame cuando se leen datos de un fichero?

<p>No, porque, si no se indica el esquema, Spark guardará todos los campos de los que no sepa su tipo como strings. (C)</p> Signup and view all the answers

Selecciona la respuesta incorrecta: ¿Por qué es aconsejable utilizar DataFrames en Spark en lugar de RDDs?

<p>Porque los DataFrames ocupan menos en disco (C)</p> Signup and view all the answers

Tras ejecutar la operación b = df.withColumn(“nueva”, 2*col(“calif”)):

<p>El DataFrame contenido en b tendrá una columna más que df. (C)</p> Signup and view all the answers

¿Cuál es la operación con la que nos quedamos con el subconjunto de filas de un DataFrame que cumplen una determinada condición?

<p>filter (B)</p> Signup and view all the answers

Las API estructuradas de DataFrames y Spark SQL…

<p>Se pueden aplicar funciones de la API de DataFrames sobre el resultado de consultas de Spark SQL. (B)</p> Signup and view all the answers

La transformación map de Spark…

<p>No se puede aplicar a un DataFrame porque pertenece a la API de RDD. (A)</p> Signup and view all the answers

Para utilizar Spark SQL, es necesario…

<p>Registrar el DataFrame sobre el que se quieran ejecutar las consultas SQL como tabla o vista, antes de ejecutar cualquier consulta. (C)</p> Signup and view all the answers

¿Cuál es la principal fortaleza de Spark?

<p>Opera en memoria principal, lo que hace los cálculos mucho más rápidos. (A)</p> Signup and view all the answers

¿Qué tipo de procesos se benefician especialmente de Spark?

<p>Los algoritmos de aprendizaje automático que dan varias pasadas sobre los mismos datos. (C)</p> Signup and view all the answers

¿Cuál es la estructura de datos fundamental en Spark?

<p>RDD (A)</p> Signup and view all the answers

En una operación de Spark en la que sea necesario movimiento de datos…

<p>Siempre es necesario escribirlos primero en el disco local del nodo emisor. (A)</p> Signup and view all the answers

Cuando se ejecuta una transformación en Spark sobre un RDD…

<p>Se añade la transformación al DAG, que creará un RDD con el resultado de la transformación cuando se materialice el RDD resultante. (C)</p> Signup and view all the answers

La acción collect de Spark…

<p>Lleva todo el contenido del RDD al driver y podría provocar una excepción (C)</p> Signup and view all the answers

Elige la respuesta incorrecta: Un PairRDD…

<p>Es un tipo de RDD que contiene una tupla con un número variable de componentes. (B)</p> Signup and view all the answers

¿Qué es un executor de Spark?

<p>Un proceso creado en los nodos del clúster, preparado para recibir trabajos de Spark. (B)</p> Signup and view all the answers

La acción map de Spark…

<p>No existe como acción; es una transformación. (A)</p> Signup and view all the answers

Cuando Spark ejecuta una acción…

<p>Se materializan los RDD intermedios necesarios que no estuviesen ya materializados, se calcula el resultado de la acción y se liberan los no cacheados. (C)</p> Signup and view all the answers

Flashcards

Capital of France (example flashcard)

Paris

Use Quizgecko on...
Browser
Browser