Problèmes de qualité des données et nettoyage

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Quelle méthode est la plus efficace pour détecter les incohérences dans un DataFrame?

Convertir toutes les colonnes en chaînes de caractères.
Analyser la description statistique de chaque colonne individuellement avec `describe()`. (correct)
Appliquer la méthode `dropna()` sur chaque colonne.
Supprimer toutes les lignes avec des valeurs manquantes.

Est-il toujours approprié de remplacer les valeurs manquantes par la moyenne de la colonne?

False (B)

Quelle fonction de Pandas est utilisée pour remplacer les valeurs manquantes?

fillna()

L'argument optionnel `______=True` dans `pd.to_datetime()` permet de spécifier que le format de date commence par le jour.

dayfirst Signup and view all the answers

Associez les arguments de la fonction `to_datetime()` avec leur description:

format = Spécifie le format de la date. errors = Personnalise la manière dont les erreurs de conversion sont gérées. dayfirst = Indique si le format de la date commence par le jour. infer_datetime_format = Déduit le format de la date selon les valeurs de colonne. Signup and view all the answers

Quel accesseur de Pandas permet d'accéder aux méthodes de traitement des chaînes de caractères dans une Series?

<code>str</code> (B) Signup and view all the answers

La méthode `split()` de l'accesseur `str` modifie directement la Series d'origine.

False (B) Signup and view all the answers

Quelles sont les fonctions de base pour nettoyer les entrées de texte incohérentes?

lower(), strip() Signup and view all the answers

La fonction `fuzzywuzzy.process.extract()` utilise l'argument _____ pour spécifier la fonction de comparaison de similitude.

scorer Signup and view all the answers

Quelle exception indique que le contenu d'un fichier n'est pas encodé avec UTF-8?

UnicodeDecodeError (D) Signup and view all the answers

Il est toujours optimal d'encoder avec `UTF-8`.

True (A) Signup and view all the answers

Quel module utilisez-vous pour deviner automatiquement le bon encodage?

charset_normalizer Signup and view all the answers

L'option ____ permet de spécifier l'encodage pour lire le fichier.

encoding Signup and view all the answers

Quel type de données est approprié pour une colonne contenant des catégories encodées numériquement?

<code>category</code> (B) Signup and view all the answers

L'objectif du nettoyage des données est d'ajouter de nouvelles informations dans le DataFrame.

False (B) Signup and view all the answers

Que faire quand une valeur manque car elle n'existe pas?

Conserver la valeur sous forme de NaN Signup and view all the answers

Comme l'accesseur `dt`, les chaînes de caractères ont un accesseur _____ permettant d'accéder aux méthodes de traitement d'une chaîne de caractères ordinaire python.

str Signup and view all the answers

Associez les méthodes des accesseurs de chaîne de caractères avec leur description:

contains() = Pour tester l'existence d'une chaîne de caractère à l'intérieur de la chaîne de la cellule. startswith()/endswith() = Teste si la cellule commence/se termine par la chaîne de caractères en paramètre. split() = Découpe une chaîne selon un séparateur et retourne une liste. Signup and view all the answers

La fonction extract permet de spécifier le nombre de valeurs à afficher grâce à quel argument?

limit (A) Signup and view all the answers

Dans le cadre du DataCleaning, les méthodes de l'accesseur str ne sont pas utiles.

False (B) Signup and view all the answers

Flashcards

df.isnull().sum()

Nombre d'entrées vides par colonne dans un DataFrame.

df.isnull().sum().sum()

Somme totale des cellules vides dans un DataFrame.