Pre-procesamiento de Datos para Machine Learning
7 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Cuál es un problema común en el análisis de datos y el Machine Learning?

La presencia de filas duplicadas en un conjunto de datos (dataset).

¿Qué práctica es esencial en la limpieza y preparación de datos?

  • Analizar solo las filas duplicadas.
  • La eliminación de filas duplicadas. (correct)
  • Aumentar las filas duplicadas.
  • Ignorar las filas duplicadas.

¿Cómo pueden afectar las filas duplicadas a un modelo de Machine Learning?

  • No tienen ningún impacto.
  • Introducen sesgos en el modelo. (correct)
  • Aceleran el entrenamiento del modelo.
  • Mejoran la precisión del modelo.

¿Cómo afectan las filas duplicadas a la eficiencia de los algoritmos de Machine Learning?

<p>La reducen. (B)</p> Signup and view all the answers

¿En qué situación las filas duplicadas agotan los recursos computacionales?

<p>En conjuntos de datos grandes.</p> Signup and view all the answers

Permitir filas duplicadas siempre mejora los resultados y métricas de un modelo.

<p>False (B)</p> Signup and view all the answers

¿Qué significa un valor cercano a -1 en el mapa de calor de missingno?

<p>Que si una variable aparece, es muy probable que la otra variable no aparezca.</p> Signup and view all the answers

Flashcards

Impacto de datos duplicados

Filas duplicadas pueden sesgar el modelo, reduciendo la eficiencia y dando interpretaciones erróneas.

Función duplicated()

Función para identificar filas completamente idénticas en un DataFrame.

Método drop_duplicates()

Método para eliminar filas duplicadas de un DataFrame, alterando el DataFrame original.

Función isnull().sum()

Función para contar el número de valores faltantes (nulos) en cada columna de un DataFrame.

Signup and view all the flashcards

Mapa de calor de valores nulos

Visualización gráfica que utiliza colores para mostrar la ubicación de los valores nulos en un DataFrame.

Signup and view all the flashcards

Librería missingno

Librería para la visualización de datos faltantes, incluyendo mapas de calor y diagramas de barras.

Signup and view all the flashcards

Mapa de calor de missingno

Muestra la correlación de la existencia de valores nulos entre diferentes columnas.

Signup and view all the flashcards

Eliminación de valores nulos

Eliminar las filas que contienen valores nulos en una o más columnas especificadas.

Signup and view all the flashcards

Método dropna(subset=[...])

Método para eliminar filas con valores nulos, especificando las columnas a considerar.

Signup and view all the flashcards

Sustitución de valores nulos

Sustituir los valores nulos por un valor específico, como la media o la mediana de la columna.

Signup and view all the flashcards

Método fillna()

Método para rellenar valores faltantes con un valor especificado (ej., media, mediana).

Signup and view all the flashcards

Mediana

Valor central de un conjunto de datos, útil para reemplazar valores nulos en distribuciones no simétricas.

Signup and view all the flashcards

Media

Valor promedio de un conjunto de datos, útil para reemplazar valores nulos en distribuciones simétricas.

Signup and view all the flashcards

Sustituir con la mediana

Reemplazar valores nulos con la mediana de la columna.

Signup and view all the flashcards

Sustituir con la media

Reemplazar valores nulos con la media de la columna.

Signup and view all the flashcards

¿Cuáles son las razones para eliminar datos duplicados?

Es sesgo en el modelo, reducción de la eficiencia, mal uso de recursos e interpretación errónea de resultados

Signup and view all the flashcards

¿Qué es pre-procesamiento de datos?

Es una forma de manipular o cambiar los datos numéricos antes o durante el procesamiento

Signup and view all the flashcards

¿Qué hace la función - titanic_data.duplicates

Es una función de pandas para identificar las filas duplicadas pandas import

Signup and view all the flashcards

¿Qué hace la función - titanic_data.drop_duplicates()

Es una función que se usa en pandas para eliminar las filas identicas

Signup and view all the flashcards

¿Qué es titanic_data.isnull().sum()?

Son los conteos de los valores NaN para cada columna en el dataframe

Signup and view all the flashcards

¿Para qué sirve sns.heatmap(titanic_data.isnull(), cbar=False)?

Sirve para analizar la posición de los valores perdidos en los datos.

Signup and view all the flashcards

¿Para qué sirve msno.heatmap(titanic_data,figsize=(10,6))?

Es útil para comprender las relaciones entre los valores perdidos en diferentes columnas

Signup and view all the flashcards

¿Qué significa un valor cercano a -1 en el mapa de calor de missingno?

Significa que si una variable aparece, es muy probable que la otra variable no aparezca

Signup and view all the flashcards

¿Qué significa un valor cercano a 0 en el mapa de calor de missingno?

Significa que no hay dependencia entre la aparición missing values de dos variables

Signup and view all the flashcards

¿Qué significa un valor cercano a 1 en el mapa de calor de missingno??

Significa que si aparece una variable es muy probable que la otra esté presente.

Signup and view all the flashcards

¿Qué hace titanic_data = titanic_data.dropna(subset=["Age"])?

Se eliminan todas las filas que tienen valores nulos en la columna Age

Signup and view all the flashcards

¿Qué hace columns_to_drop_nulls = [Age”, “Fare”]

Permite renombrar un grupo de colummnas

Signup and view all the flashcards

¿Qué hace age_mean = titanic_data['Age'].mean()

Calcula la media de la columna Age

Signup and view all the flashcards

¿Qué hace titanic_data['Age'].fillna(age_mean, inplace=True)?

Esta funcion permite reemplazar los valores nulos que se encuentren en Age por la respectiva media

Signup and view all the flashcards

¿Qué hace df[columns_to_fill_median] = df[columns_to_fill_median].fillna(df[columns_to_fill_median].median())

Reemplazar valores nulos en las columnas seleccionadas por la mediana

Signup and view all the flashcards

Study Notes

Modelos de Machine Learning: Pre-procesamiento de Datos

  • El análisis de datos y el aprendizaje automático (Machine Learning) a menudo se ven afectados negativamente por la presencia de filas duplicadas en un conjunto de datos (dataset).
  • Eliminar las filas duplicadas es crucial para limpiar y preparar datos por las siguientes razones:

Sesgo en el modelo

  • Las filas duplicadas pueden sesgar el modelo, otorgando un peso injustificado a ciertos datos duplicados.

Reducción de la eficiencia

  • Los algoritmos de Machine Learning pueden volverse menos eficientes debido a las filas duplicadas, ya que procesan más datos de lo necesario, lo que puede aumentar los tiempos de entrenamiento y predicción.

Uso ineficiente de recursos

  • En conjuntos de datos grandes, las filas duplicadas pueden consumir recursos computacionales. La eliminación de duplicados ahorra recursos y acelera el proceso de análisis.

Interpretación errónea de resultados

  • Los resultados y las métricas del modelo pueden ser engañosos si se permiten filas duplicadas. La duplicación puede dar la falsa impresión de que un modelo tiene un mejor rendimiento.

Tratamiento de valores nulos

  • Los valores nulos se pueden localizar y tratar mediante las siguientes funciones:

  • Aplicar la función isnull() en el dataset de Titanic entrega un valor True si está corrupto

  • seaborn.heatmap(titanic_data.isnull(), cbar=False) se puede usar para generar un mapa del dataset

  • También se puede importar missingno as msno, y realizar la búsqueda en base al mapa que se genera

Interpretación de missingno

  • Un valor cercano a -1 significa que si una variable aparece, es muy probable que la otra variable no aparezca
  • Un valor cercano a 0 significa que no hay dependencia entre la aparición missing values de dos variables.
  • Un valor cercano a 1 significa que si aparece una variable es muy probable que la otra esté presente.

Opciones de tratamiento

  • Eliminar filas con valores nulos en la columna "Age"
  • Eliminar filas con valores nulos en las columnas "Age” y “Fare”
  • Se puede calcular la media de la columna 'Age' y reemplazar los valores nulos con dicha media
  • Reemplazar valores nulos en las columnas seleccionadas por la mediana de la columna “Age” o “Fare”

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Eliminar filas duplicadas es crucial para limpiar datos en Machine Learning. Las filas duplicadas pueden sesgar el modelo, reducir la eficiencia algorítmica y consumir recursos innecesarios. Eliminar estos duplicados asegura un análisis más preciso y eficiente.

More Like This

Use Quizgecko on...
Browser
Browser