Podcast
Questions and Answers
Que fait la méthode 'applymap(format_float)' dans le code fourni?
Que fait la méthode 'applymap(format_float)' dans le code fourni?
- Elle supprime les valeurs nulles du DataFrame.
- Elle formate toutes les valeurs en deux chiffres après la virgule. (correct)
- Elle remplace toutes les valeurs numériques par des strings.
- Elle formate toutes les valeurs en nombre entier.
Quel est le but de la méthode 'pd.factorize(df['MOVIES']) + 1' dans le code fourni?
Quel est le but de la méthode 'pd.factorize(df['MOVIES']) + 1' dans le code fourni?
- Créer une nouvelle colonne 'ID' avec des valeurs uniques pour chaque film. (correct)
- Calculer la moyenne des notes des films.
- Supprimer les valeurs manquantes du DataFrame.
- Classer les films par ordre alphabétique.
Pourquoi la méthode 'df['CA'].map('{:.2f}'.format)' est-elle utilisée dans le code fourni?
Pourquoi la méthode 'df['CA'].map('{:.2f}'.format)' est-elle utilisée dans le code fourni?
- Pour formater les valeurs de chiffre d'affaires avec deux décimales. (correct)
- Pour convertir les valeurs de 'CA' en entiers.
- Pour supprimer les valeurs négatives de 'CA'.
- Pour ajouter 2 Ã chaque valeur de 'CA'.
Que signifie 'df['TYPE2'] = np.where(df['YEAR'].str.contains('–').fillna(False), 'Série', np.where(df['YEAR'].notnull(), 'Film', 'Inconnu'))' dans le code fourni?
Que signifie 'df['TYPE2'] = np.where(df['YEAR'].str.contains('–').fillna(False), 'Série', np.where(df['YEAR'].notnull(), 'Film', 'Inconnu'))' dans le code fourni?
Quelle est la raison de l'utilisation de 'df.replace('nan', np.nan, inplace=True)' dans le code fourni?
Quelle est la raison de l'utilisation de 'df.replace('nan', np.nan, inplace=True)' dans le code fourni?
'df['TYPE1'] = np.where(df['RunTime'].fillna(0) > 60, 'Film', np.where(df['RunTime'].notnull(), 'Série', 'Inconnu'))' réalise quelle action dans le code donné?
'df['TYPE1'] = np.where(df['RunTime'].fillna(0) > 60, 'Film', np.where(df['RunTime'].notnull(), 'Série', 'Inconnu'))' réalise quelle action dans le code donné?
'df.duplicated().sum()' retourne quoi dans le code fourni?
'df.duplicated().sum()' retourne quoi dans le code fourni?
'valeurs_NA = df.isnull().sum()' réalise quelle tâche spécifique dans le code donné?
'valeurs_NA = df.isnull().sum()' réalise quelle tâche spécifique dans le code donné?
'df['ID'] = pd.factorize(df['MOVIES']) + 1' crée une nouvelle colonne 'ID'. A quoi correspondent les valeurs uniques de cette colonne?
'df['ID'] = pd.factorize(df['MOVIES']) + 1' crée une nouvelle colonne 'ID'. A quoi correspondent les valeurs uniques de cette colonne?
'df['CA'] = df['Gross'].fillna('0').str.replace('$', '').str.replace('M', '').astype(float) * 1000000' a pour but principal de:
'df['CA'] = df['Gross'].fillna('0').str.replace('$', '').str.replace('M', '').astype(float) * 1000000' a pour but principal de:
Study Notes
Importation des bibliothèques et lecture des fichiers CSV
- Les bibliothèques pandas et numpy sont importées pour la manipulation de données.
- Quatre fichiers CSV sont lus en utilisant la méthode
read_csv
de pandas avec des délimiteurs différents (;
,\t
,,
) et des options de lecture supplémentaires (skipinitialspace=True
,skiprows=4
).
Exploration des données
- La méthode
info
est utilisée pour afficher les informations de base sur le jeu de données. - La méthode
isnull().sum()
est utilisée pour calculer le nombre de valeurs manquantes pour chaque colonne. - Les types de variables sont affichés à l'aide de la méthode
dtypes
. - Les statistiques descriptives sont calculées avec la méthode
describe
.
Traitement des données manquantes et de conversion
- Les valeurs manquantes sont remplacées par un texte par défaut dans la colonne
CA
. - Les valeurs de la colonne
CA
sont converties en float et formatées en millions avec deux décimales.
Création de nouvelles variables
- Une variable
ID
est créée en utilisant la méthodefactorize
pour attribuer un identifiant unique à chaque film. - Trois variables (
TYPE1
,TYPE2
,TYPE3
) sont créées pour séparer les films et les séries en fonction de la durée de lecture, de la présence de tirets dans la colonneYEAR
et de la fréquence d'apparition de l'identifiant.
Autres manipulations de données
- Les valeurs manquantes sont remplacées par
np.nan
pour une bonne gestion des données manquantes. - La méthode
applymap
est utilisée pour formater les flottants avec deux décimales.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Learn how to import and analyze movie data using Pandas in Python. This quiz covers reading CSV files, handling different delimiters, skipping rows, and checking information about the dataset.