Machine Learning: Data Preparation

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

¿Cuál es la importancia de integrar variables en la preparación de datos para el aprendizaje automático?

Minimizar el tamaño del conjunto de datos.
Simplificar el proceso de limpieza de datos.
Crear un registro completo por cada entidad (persona/producto/servicio/sede). (correct)
Reducir la necesidad de realizar análisis estadístico.

¿Por qué es crucial eliminar variables irrelevantes y redundantes en la preparación de datos?

Para aumentar la complejidad del modelo y mejorar su precisión.
Para facilitar la interpretación de los resultados del modelo.
Para reducir el ruido en los datos y mejorar la eficiencia del modelo. (correct)
Para asegurar que todas las variables tengan el mismo peso en el análisis.

¿Qué tipo de variables se verían afectadas más directamente por la descripción estadística de los datos?

Variables numéricas y categóricas en igual medida.
Variables numéricas principalmente. (correct)
Variables categóricas únicamente.
Variables de texto.

¿Cuál es el propósito principal de la limpieza de datos atípicos (outliers)?

Para prevenir que valores extremos distorsionen los resultados del análisis. (C) Signup and view all the answers

¿Qué implica 'balancear datos' en el contexto de la preparación de datos para el aprendizaje automático?

Ajustar el conjunto de datos para que las clases estén representadas equitativamente. (C) Signup and view all the answers

¿Por qué es importante tener en cuenta el método de machine learning al transformar datos?

Porque algunos métodos solo funcionan con ciertos tipos de datos. (D) Signup and view all the answers

Al integrar datos de diferentes fuentes, ¿qué problema específico se busca resolver en la fase de 'Integración de los Datos'?

La creación de un registro unificado por cada entidad. (B) Signup and view all the answers

¿Cuál de las siguientes opciones describe mejor el propósito de eliminar variables irrelevantes durante la preparación de datos?

Reducir la dimensionalidad del conjunto de datos y evitar el sobreajuste. (D) Signup and view all the answers

En el contexto de la descripción estadística de datos numéricos, ¿cómo se interpretaría un histograma platicúrtico?

Los datos están muy dispersos con baja concentración alrededor de la media. (D) Signup and view all the answers

¿Qué enfoque se debe tomar al encontrar datos atípicos (outliers) en una variable numérica, como la edad, que exceden un rango razonable?

Asignar un valor nulo (NULL) a los valores atípicos para evitar distorsiones en el análisis. (C) Signup and view all the answers

¿Cuál es la principal desventaja de eliminar registros que contienen valores nulos en comparación con la imputación?

La eliminación puede resultar en una pérdida significativa de información. (C) Signup and view all the answers

¿Cuál es la diferencia fundamental entre undersampling y oversampling en el balanceo de datos?

Undersampling elimina muestras de la clase mayoritaria, mientras que oversampling crea nuevas muestras para la clase minoritaria. (B) Signup and view all the answers

¿Qué es SMOTE y cuál es su propósito en el balanceo de datos?

Es una técnica para generar sintéticamente nuevas muestras en la clase minoritaria. (B) Signup and view all the answers

En la transformación de datos, ¿por qué es necesario discretizar variables numéricas si el método de Machine Learning elegido es para variables categóricas?

Para hacer que los datos sean compatibles con el método de aprendizaje automático. (D) Signup and view all the answers

¿Qué tipo de algoritmos de machine learning son adecuados para ser utilizados directamente con 'variables numéricas'?

Redes Neuronales (RN), Máquinas de Vectores de Soporte (SVM) y K-Vecinos Más Cercanos (KNN). (A) Signup and view all the answers

Si un algoritmo de Machine Learning requiere variables categóricas, ¿cuál es el paso crucial para transformar una variable numérica, como la edad, en categórica?

Discretización de la variable en rangos. (C) Signup and view all the answers

En el contexto de la transformación de datos para Machine Learning, ¿cuál es la principal razón para normalizar variables numéricas?

Para asegurar que todas las variables tengan la misma escala y evitar que una domine a otras. (A) Signup and view all the answers

En la transformación de variables categóricas a numéricas, ¿qué implica la creación de variables dummy o one-hot encoding?

Crear una nueva variable binaria para cada categoría. (D) Signup and view all the answers

¿Cuál es la implicación de 'eliminar variables irrelevantes para la minería de datos' durante la fase de preparación de datos?

Reducir la complejidad del modelo y mejorar su eficiencia eliminando datos no informativos. (D) Signup and view all the answers

Si se tienen las variables 'Edad', 'Año de nacimiento' y 'Mayor de edad (sí/no)', ¿qué paso de preparación de datos sería más apropiado aplicar y por qué?

Eliminación de variables redundantes, ya que 'Año de nacimiento' y 'Mayor de edad' son redundantes con 'Edad'. (D) Signup and view all the answers

¿Cuál es la diferencia clave entre un histograma con asimetría positiva y uno con asimetría negativa?

En la asimetría positiva, la cola se extiende hacia valores más altos; en la negativa, hacia valores más bajos. (B) Signup and view all the answers

¿Que significa el término 'imputar' en el contexto de 'Limpieza de valores nulos'?

Predecir o estimar y luego sustituir, los valores faltantes. (D) Signup and view all the answers

¿Por que la técnica de undersampling podria ser problematica?

Puede perder información valiosa al eliminar instancias. (A) Signup and view all the answers

¿Cuál es el efecto principal de aplicar la técnica SMOTE a un conjunto de datos?

Genera nuevas instancias sintéticas para la clase minoritaria. (A) Signup and view all the answers

Normalizar un rango de datos a $[0, 1]$ es un paso crucial para que tipos de algoritmos?

K-Nearest Neighbors (KNN). (E) Signup and view all the answers

Una de las técnicas para volver datos categoricos, especialmente texto, en números se llama One-Hot Encoding. ¿Que efecto tiene esta técnica en el dataset?

Aumenta la dimensionalidad. (D) Signup and view all the answers

¿Cuándo seria más apropiado aplicar una transformación de datos que involucre la creación de 'dummies'?

Cuando la mayoria de algoritmos no soporta valores categóricos directamente. (B) Signup and view all the answers

Flashcards

Data Integration

Process of combining data from different sources into a unified view.

Irrelevant Variables

Removing variables that do not contribute to the analysis.