5 Spark III y MLlib

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

¿Cuál es el propósito principal de Spark MLlib?

Gestionar la infraestructura de _hardware_ para el procesamiento de datos.
Implementar modelos de _machine learning_ de manera distribuida. (correct)
Optimizar la seguridad de los datos en entornos distribuidos.
Proporcionar herramientas para la visualización de datos en tiempo real.

¿Qué tipo de datos requiere la columna 'target' en problemas de aprendizaje supervisado en Spark ML?

Número real (_double_). (correct)
Booleano (_boolean_).
Número entero (_integer_).
Cadena de texto (_string_).

¿Cuál es la función de los 'pipelines' en Spark ML?

Optimizar el uso de la memoria caché en el procesamiento de datos.
Monitorear el rendimiento del _hardware_ del _cluster_.
Gestionar la concurrencia en el acceso a los datos.
Encapsular una secuencia de transformaciones y algoritmos en un solo objeto. (correct)

En Spark ML, ¿qué diferencia a un 'transformer' de un 'estimator'?

Un 'transformer' no necesita aprender ningún parámetro del DataFrame de entrada, a diferencia de un 'estimator'. (B) Signup and view all the answers

¿Qué funcionalidad ofrece Spark Structured Streaming en comparación con el procesamiento batch tradicional?

Capacidad de añadir filas automáticamente, en tiempo real, según van llegando. (A) Signup and view all the answers

¿Cuál es el propósito del `StringIndexer` en Spark ML?

Convertir cadenas de texto a números reales para algoritmos de machine learning. (B) Signup and view all the answers

¿Cómo se asegura Spark ML de que los nuevos datos para predicción pasen por el mismo preprocesamiento que los datos de entrenamiento?

A través de los 'pipelines', que encapsulan todas las etapas de preprocesamiento. (C) Signup and view all the answers

¿Qué API de Spark ML se considera la actual y recomendada para usar con DataFrames?

<code>org.apache.spark.ml</code> (B) Signup and view all the answers

En Spark Structured Streaming, ¿qué se debe hacer para asegurar que se detecte el esquema de los ficheros de entrada?

Activar explícitamente la opción de inferencia de esquema o especificar el esquema del fichero de entrada. (B) Signup and view all the answers

¿Qué implica el modo de salida 'complete' en Spark Structured Streaming?

Reemplazar completamente el fichero de salida con los resultados de cada actualización. (D) Signup and view all the answers

¿Cuál es la función del `VectorAssembler` en Spark ML?

Combinar múltiples columnas en una sola columna de tipo vector. (D) Signup and view all the answers

¿En qué se diferencia el procesamiento online del procesamiento batch según el contenido?

El procesamiento online exige reentrenar desde cero a menos que se use aprendizaje incremental, mientras que el batch entrena con datos preexistentes. (B) Signup and view all the answers

Según el contenido, ¿cuál es la mejor manera de desplegar modelos de machine learning entrenados con Spark en producción?

Desplegando los modelos como microservicios que reciben datos a través de llamadas HTTP. (A) Signup and view all the answers

¿Qué restricción impone Spark para los algoritmos de recomendación?

Solo permite el uso de filtrado colaborativo. (B) Signup and view all the answers

Para los algoritmos que no soportan variables categóricas, ¿qué transformación es necesaria?

OneHotEncoder (D) Signup and view all the answers

¿Qué ocurre cuando se llama al método `fit()` de un 'pipeline' en Spark ML?

Se recorre cada etapa del 'pipeline', aplicando transformaciones y entrenando modelos según sea necesario. (C) Signup and view all the answers

¿Qué tipos de fuentes de datos puede usar Spark Structured Streaming para la entrada?

Kafka, sistemas de ficheros como HDFS y sockets. (C) Signup and view all the answers

Si se tiene un 'pipeline' ya entrenado, ¿qué método se debe utilizar para realizar predicciones sobre nuevos datos?

<code>transform()</code> (A) Signup and view all the answers

¿Qué significa que un 'pipeline' es también un 'estimator'?

Significa que requiere un <code>fit</code> previo para aprender las transformaciones y modelos a aplicar. (B) Signup and view all the answers

Según lo revisado, ¿Spark fue concebido para explotación online de modelos entrenados?

No, ya que la fortaleza de Spark está en entrenar modelos en modo batch. (A) Signup and view all the answers

¿Cuál de las siguientes opciones no es una posibilidad que ofrezca Spark para el preprocesamiento de los datos?

Aplicar algoritmos de ensamblaje de modelos. (D) Signup and view all the answers

¿Cuál es el proceso para usar `Structured Streaming` con Spark?

Iniciar la ejecución del programa y este correrá indefinidamente, actualizando lo resultados periódicamente. (D) Signup and view all the answers

¿Qué interfaz tiene un único método `transform(df: dataframe)`?

Transformer (C) Signup and view all the answers

Según el texto, ¿si tenemos cinco clases, como se tienen que codificar éstas?

0.0, 1.0, 2.0, 3.0, 4.0 (A) Signup and view all the answers

Flashcards

¿Qué es Spark MLlib?

Módulo de Spark para limpieza de datos, ingeniería de variables, aprendizaje y ajuste de modelos.

¿Qué son las pipelines en Spark?

Proceso que encapsula etapas de preprocesamiento y modelado para asegurar consistencia en datos nuevos.