Podcast
Questions and Answers
¿Cuál es un problema común en el análisis de datos y el Machine Learning?
¿Cuál es un problema común en el análisis de datos y el Machine Learning?
La presencia de filas duplicadas en un conjunto de datos (dataset).
¿Qué práctica es esencial en la limpieza y preparación de datos?
¿Qué práctica es esencial en la limpieza y preparación de datos?
- Analizar solo las filas duplicadas.
- La eliminación de filas duplicadas. (correct)
- Aumentar las filas duplicadas.
- Ignorar las filas duplicadas.
¿Cómo pueden afectar las filas duplicadas a un modelo de Machine Learning?
¿Cómo pueden afectar las filas duplicadas a un modelo de Machine Learning?
- No tienen ningún impacto.
- Introducen sesgos en el modelo. (correct)
- Aceleran el entrenamiento del modelo.
- Mejoran la precisión del modelo.
¿Cómo afectan las filas duplicadas a la eficiencia de los algoritmos de Machine Learning?
¿Cómo afectan las filas duplicadas a la eficiencia de los algoritmos de Machine Learning?
¿En qué situación las filas duplicadas agotan los recursos computacionales?
¿En qué situación las filas duplicadas agotan los recursos computacionales?
Permitir filas duplicadas siempre mejora los resultados y métricas de un modelo.
Permitir filas duplicadas siempre mejora los resultados y métricas de un modelo.
¿Qué significa un valor cercano a -1 en el mapa de calor de missingno?
¿Qué significa un valor cercano a -1 en el mapa de calor de missingno?
Flashcards
Impacto de datos duplicados
Impacto de datos duplicados
Filas duplicadas pueden sesgar el modelo, reduciendo la eficiencia y dando interpretaciones erróneas.
Función duplicated()
Función duplicated()
Función para identificar filas completamente idénticas en un DataFrame.
Método drop_duplicates()
Método drop_duplicates()
Método para eliminar filas duplicadas de un DataFrame, alterando el DataFrame original.
Función isnull().sum()
Función isnull().sum()
Signup and view all the flashcards
Mapa de calor de valores nulos
Mapa de calor de valores nulos
Signup and view all the flashcards
Librería missingno
Librería missingno
Signup and view all the flashcards
Mapa de calor de missingno
Mapa de calor de missingno
Signup and view all the flashcards
Eliminación de valores nulos
Eliminación de valores nulos
Signup and view all the flashcards
Método dropna(subset=[...])
Método dropna(subset=[...])
Signup and view all the flashcards
Sustitución de valores nulos
Sustitución de valores nulos
Signup and view all the flashcards
Método fillna()
Método fillna()
Signup and view all the flashcards
Mediana
Mediana
Signup and view all the flashcards
Media
Media
Signup and view all the flashcards
Sustituir con la mediana
Sustituir con la mediana
Signup and view all the flashcards
Sustituir con la media
Sustituir con la media
Signup and view all the flashcards
¿Cuáles son las razones para eliminar datos duplicados?
¿Cuáles son las razones para eliminar datos duplicados?
Signup and view all the flashcards
¿Qué es pre-procesamiento de datos?
¿Qué es pre-procesamiento de datos?
Signup and view all the flashcards
¿Qué hace la función - titanic_data.duplicates
¿Qué hace la función - titanic_data.duplicates
Signup and view all the flashcards
¿Qué hace la función - titanic_data.drop_duplicates()
¿Qué hace la función - titanic_data.drop_duplicates()
Signup and view all the flashcards
¿Qué es titanic_data.isnull().sum()?
¿Qué es titanic_data.isnull().sum()?
Signup and view all the flashcards
¿Para qué sirve sns.heatmap(titanic_data.isnull(), cbar=False)?
¿Para qué sirve sns.heatmap(titanic_data.isnull(), cbar=False)?
Signup and view all the flashcards
¿Para qué sirve msno.heatmap(titanic_data,figsize=(10,6))?
¿Para qué sirve msno.heatmap(titanic_data,figsize=(10,6))?
Signup and view all the flashcards
¿Qué significa un valor cercano a -1 en el mapa de calor de missingno?
¿Qué significa un valor cercano a -1 en el mapa de calor de missingno?
Signup and view all the flashcards
¿Qué significa un valor cercano a 0 en el mapa de calor de missingno?
¿Qué significa un valor cercano a 0 en el mapa de calor de missingno?
Signup and view all the flashcards
¿Qué significa un valor cercano a 1 en el mapa de calor de missingno??
¿Qué significa un valor cercano a 1 en el mapa de calor de missingno??
Signup and view all the flashcards
¿Qué hace titanic_data = titanic_data.dropna(subset=["Age"])?
¿Qué hace titanic_data = titanic_data.dropna(subset=["Age"])?
Signup and view all the flashcards
¿Qué hace columns_to_drop_nulls = [Age”, “Fare”]
¿Qué hace columns_to_drop_nulls = [Age”, “Fare”]
Signup and view all the flashcards
¿Qué hace age_mean = titanic_data['Age'].mean()
¿Qué hace age_mean = titanic_data['Age'].mean()
Signup and view all the flashcards
¿Qué hace titanic_data['Age'].fillna(age_mean, inplace=True)?
¿Qué hace titanic_data['Age'].fillna(age_mean, inplace=True)?
Signup and view all the flashcards
¿Qué hace df[columns_to_fill_median] = df[columns_to_fill_median].fillna(df[columns_to_fill_median].median())
¿Qué hace df[columns_to_fill_median] = df[columns_to_fill_median].fillna(df[columns_to_fill_median].median())
Signup and view all the flashcards
Study Notes
Modelos de Machine Learning: Pre-procesamiento de Datos
- El análisis de datos y el aprendizaje automático (Machine Learning) a menudo se ven afectados negativamente por la presencia de filas duplicadas en un conjunto de datos (dataset).
- Eliminar las filas duplicadas es crucial para limpiar y preparar datos por las siguientes razones:
Sesgo en el modelo
- Las filas duplicadas pueden sesgar el modelo, otorgando un peso injustificado a ciertos datos duplicados.
Reducción de la eficiencia
- Los algoritmos de Machine Learning pueden volverse menos eficientes debido a las filas duplicadas, ya que procesan más datos de lo necesario, lo que puede aumentar los tiempos de entrenamiento y predicción.
Uso ineficiente de recursos
- En conjuntos de datos grandes, las filas duplicadas pueden consumir recursos computacionales. La eliminación de duplicados ahorra recursos y acelera el proceso de análisis.
Interpretación errónea de resultados
- Los resultados y las métricas del modelo pueden ser engañosos si se permiten filas duplicadas. La duplicación puede dar la falsa impresión de que un modelo tiene un mejor rendimiento.
Tratamiento de valores nulos
-
Los valores nulos se pueden localizar y tratar mediante las siguientes funciones:
-
Aplicar la función isnull() en el dataset de Titanic entrega un valor True si está corrupto
-
seaborn.heatmap(titanic_data.isnull(), cbar=False) se puede usar para generar un mapa del dataset
-
También se puede importar missingno as msno, y realizar la búsqueda en base al mapa que se genera
Interpretación de missingno
- Un valor cercano a -1 significa que si una variable aparece, es muy probable que la otra variable no aparezca
- Un valor cercano a 0 significa que no hay dependencia entre la aparición missing values de dos variables.
- Un valor cercano a 1 significa que si aparece una variable es muy probable que la otra esté presente.
Opciones de tratamiento
- Eliminar filas con valores nulos en la columna "Age"
- Eliminar filas con valores nulos en las columnas "Age” y “Fare”
- Se puede calcular la media de la columna 'Age' y reemplazar los valores nulos con dicha media
- Reemplazar valores nulos en las columnas seleccionadas por la mediana de la columna “Age” o “Fare”
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Eliminar filas duplicadas es crucial para limpiar datos en Machine Learning. Las filas duplicadas pueden sesgar el modelo, reducir la eficiencia algorítmica y consumir recursos innecesarios. Eliminar estos duplicados asegura un análisis más preciso y eficiente.