10 Questions
Que fait la méthode 'applymap(format_float)' dans le code fourni?
Elle formate toutes les valeurs en deux chiffres après la virgule.
Quel est le but de la méthode 'pd.factorize(df['MOVIES']) + 1' dans le code fourni?
Créer une nouvelle colonne 'ID' avec des valeurs uniques pour chaque film.
Pourquoi la méthode 'df['CA'].map('{:.2f}'.format)' est-elle utilisée dans le code fourni?
Pour formater les valeurs de chiffre d'affaires avec deux décimales.
Que signifie 'df['TYPE2'] = np.where(df['YEAR'].str.contains('–').fillna(False), 'Série', np.where(df['YEAR'].notnull(), 'Film', 'Inconnu'))' dans le code fourni?
Identifier si un élément est un film ou une série en fonction de l'année.
Quelle est la raison de l'utilisation de 'df.replace('nan', np.nan, inplace=True)' dans le code fourni?
Transformer les strings 'nan' en valeurs numériques.
'df['TYPE1'] = np.where(df['RunTime'].fillna(0) > 60, 'Film', np.where(df['RunTime'].notnull(), 'Série', 'Inconnu'))' réalise quelle action dans le code donné?
Classifie les films et séries en fonction de leur durée.
'df.duplicated().sum()' retourne quoi dans le code fourni?
Le nombre total de valeurs dupliquées dans le DataFrame.
'valeurs_NA = df.isnull().sum()' réalise quelle tâche spécifique dans le code donné?
Compte le nombre total de valeurs manquantes dans chaque colonne du DataFrame.
'df['ID'] = pd.factorize(df['MOVIES']) + 1' crée une nouvelle colonne 'ID'. A quoi correspondent les valeurs uniques de cette colonne?
'ID' correspond à un code unique pour chaque film basé sur la colonne 'MOVIES'.
'df['CA'] = df['Gross'].fillna('0').str.replace('$', '').str.replace('M', '').astype(float) * 1000000' a pour but principal de:
Transformer les revenus au format dollar en format numérique.
Study Notes
Importation des bibliothèques et lecture des fichiers CSV
- Les bibliothèques pandas et numpy sont importées pour la manipulation de données.
- Quatre fichiers CSV sont lus en utilisant la méthode
read_csv
de pandas avec des délimiteurs différents (;
,\t
,,
) et des options de lecture supplémentaires (skipinitialspace=True
,skiprows=4
).
Exploration des données
- La méthode
info
est utilisée pour afficher les informations de base sur le jeu de données. - La méthode
isnull().sum()
est utilisée pour calculer le nombre de valeurs manquantes pour chaque colonne. - Les types de variables sont affichés à l'aide de la méthode
dtypes
. - Les statistiques descriptives sont calculées avec la méthode
describe
.
Traitement des données manquantes et de conversion
- Les valeurs manquantes sont remplacées par un texte par défaut dans la colonne
CA
. - Les valeurs de la colonne
CA
sont converties en float et formatées en millions avec deux décimales.
Création de nouvelles variables
- Une variable
ID
est créée en utilisant la méthodefactorize
pour attribuer un identifiant unique à chaque film. - Trois variables (
TYPE1
,TYPE2
,TYPE3
) sont créées pour séparer les films et les séries en fonction de la durée de lecture, de la présence de tirets dans la colonneYEAR
et de la fréquence d'apparition de l'identifiant.
Autres manipulations de données
- Les valeurs manquantes sont remplacées par
np.nan
pour une bonne gestion des données manquantes. - La méthode
applymap
est utilisée pour formater les flottants avec deux décimales.
Learn how to import and analyze movie data using Pandas in Python. This quiz covers reading CSV files, handling different delimiters, skipping rows, and checking information about the dataset.
Make Your Own Quizzes and Flashcards
Convert your notes into interactive study material.
Get started for free