Introduction aux objets DataFrame et Series
48 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Quelle méthode permet de combiner deux DataFrames en conservant tous les indices non nuls?

  • append
  • pd.merge
  • combine_first (correct)
  • pd.concat

Quel est l'effet des fonctions d'agrégation sur les dimensions d'un DataFrame?

  • Elles réduisent la dimension d'une unité. (correct)
  • Elles augmentent le nombre de dimensions.
  • Elles ne changent pas les dimensions.
  • Elles transforment les dimensions en lignes.

Quelle commande permet de réaliser des fonctions d'agrégation multiples sur une seule colonne d'un DataFrame groupé?

  • df.groupby('col').apply()
  • df.agg()
  • gb['col2'].agg([np.sum, np.mean]) (correct)
  • df.transform()

Quel est le problème potentiel lors de la concaténation de DataFrames?

<p>Avoir des lignes identiques (D)</p> Signup and view all the answers

Quel est l'usage de l'argument ignore_index dans pd.concat?

<p>Il réinitialise les index à partir de zéro. (D)</p> Signup and view all the answers

Quel résultat retourne la méthode df.groupby('cat').describe()?

<p>Un résumé statistique pour chaque groupe. (B)</p> Signup and view all the answers

Quelle fonction permet de transformer des valeurs dans un DataFrame de manière à avoir une moyenne de 0 et un écart type de 1?

<p>df.transform() (D)</p> Signup and view all the answers

Quelle commande permet de concaténer deux DataFrames horizontalement?

<p>pd.concat([df1, df2], axis=1) (D)</p> Signup and view all the answers

Quel type de données peut contenir un objet Series ?

<p>Des données de même type (D)</p> Signup and view all the answers

Que se produit-il lors de l'arithmétique entre deux objets Series ?

<p>L'arithmétique est vectorisée après alignement des indices (A)</p> Signup and view all the answers

Comment peut-on créer un objet Series à partir d'une plage de nombres ?

<p>Series(range(0,5)) (D)</p> Signup and view all the answers

Quel est le résultat de l'opération suivante : Series(range(0,4)) + Series(range(1,5)) ?

<p>1, 3, 5, 7 (C)</p> Signup and view all the answers

Quelle est la fonction utilisée pour charger une DataFrame à partir d'une base de données MySQL ?

<p>pd.read_sql_table() (A)</p> Signup and view all the answers

Quel est le produit de l'opération suivante : Series(['a', 'b']) * 3 ?

<p>['aaa', 'bbb'] (A)</p> Signup and view all the answers

Que contient un objet Index dans pandas ?

<p>Des objets hachables utilisés comme étiquettes (B)</p> Signup and view all the answers

Quel est le résultat de la multiplication suivante : Series(range(6)) * Series(range(6)) ?

<p>0, 1, 4, 9, 16, 25 (B)</p> Signup and view all the answers

Quelle méthode permet de supprimer toutes les lignes d'un DataFrame contenant des valeurs NaN?

<p>df.dropna() (B)</p> Signup and view all the answers

Que renvoie la méthode s.isnull() sur une série s contenant des valeurs NaN?

<p>Un tableau avec True pour chaque NaN (B)</p> Signup and view all the answers

Comment peut-on remplir les valeurs NaN d'une série avec des zéros?

<p>s.fillna(0) (D)</p> Signup and view all the answers

Quelle méthode est utilisée pour renommer les catégories dans une série catégorique?

<p>s.cat.rename_categories() (B)</p> Signup and view all the answers

Quelle commande permet de remplacer les espaces par des valeurs NaN dans un DataFrame?

<p>df.replace(r'\s+', np.nan, regex=True) (B)</p> Signup and view all the answers

Quel effet produit la commande df.dropna(thresh=2)?

<p>Supprime toutes les lignes ayant au moins deux NaN (B)</p> Signup and view all the answers

Quel sera le résultat de la ligne s.cat.ordered = False quand s est une série catégorique?

<p>Les catégories deviennent désordonnées (A)</p> Signup and view all the answers

Comment pandas traite-t-il les comparaisons d'entiers avec l'infini positif et négatif?

<p>Les comparaisons sont effectuées comme prévu (C)</p> Signup and view all the answers

Que fait la méthode s.cat.remove_categories() sur une série ?

<p>Supprime les catégories inutilisées de la série. (C)</p> Signup and view all the answers

Quel est le résultat de la commande df = df[::2] ?

<p>Sélectionne chaque ligne pair du DataFrame. (D)</p> Signup and view all the answers

Quelle méthode est utilisée pour obtenir des statistiques descriptives sur les colonnes d'un DataFrame ?

<p>df.describe() (C)</p> Signup and view all the answers

Que fait la commande df = df[df['col2'] >= 0.0] ?

<p>Supprime toutes les lignes dont la valeur de 'col2' est négative. (D)</p> Signup and view all the answers

Comment peut-on appliquer une fonction de chaîne pour convertir tous les éléments d'une colonne en minuscules ?

<p>s = df['col'].str.lower() (B)</p> Signup and view all the answers

Quelle commande permet de trier les lignes d'un DataFrame par plusieurs colonnes ?

<p>df.sort(['col1', 'col2'], ascending=False) (A)</p> Signup and view all the answers

Quelle fonction permet de concaténer deux colonnes d'un DataFrame ?

<p>s = df['col1'] + df['col2'] (D)</p> Signup and view all the answers

Quel effet a la commande df = df.drop('row_label') ?

<p>Supprime la ligne avec l'étiquette 'row_label'. (A)</p> Signup and view all the answers

Quelle méthode permet de compter la fréquence des valeurs uniques dans une colonne ?

<p>s = df['col'].value_counts() (D)</p> Signup and view all the answers

Que se passe-t-il si on essaie d'utiliser un entier sans deux-points dans l'indexation ?

<p>Cela génère une erreur. (C)</p> Signup and view all the answers

Quel est le but de la méthode df.crosstab() ?

<p>Créer une table de contingence pour le comptage de fréquences. (C)</p> Signup and view all the answers

Quelle méthode est utilisée pour vérifier si une chaîne commence par un motif spécifique ?

<p>s = df['col'].str.startswith('regex') (C)</p> Signup and view all the answers

Quelle est l'importance de vérifier if df.index.is_unique ?

<p>Pour savoir si on peut appliquer des opérations qui supposent des index uniques. (B)</p> Signup and view all the answers

Quel effet a la méthode s = df['col'].str.replace('old', 'new') ?

<p>Elle remplace toutes les occurrences de 'old' par 'new'. (A)</p> Signup and view all the answers

Comment obtenir une échantillonnage aléatoire de 20 lignes dans un DataFrame ?

<p>df.sample(n=20) (A)</p> Signup and view all the answers

Quelle commande utilise-t-on pour sélectionner des lignes par position entière ?

<p>df.iloc[slice] (B)</p> Signup and view all the answers

Quel est le rôle de la fonction zscore dans le traitement des données ?

<p>Elle standardise les données en fonction de la moyenne et de l'écart type. (D)</p> Signup and view all the answers

Quelle est la fonction de mean_r dans la transformation des données ?

<p>Elle remplace les données manquantes par la moyenne du groupe. (D)</p> Signup and view all the answers

Comment la fonction filter est-elle utilisée dans pandas ?

<p>Pour sélectionner des groupes qui répondent à des critères spécifiés. (A)</p> Signup and view all the answers

Quel type d'objet est un Timestamp dans pandas ?

<p>Un objet qui représente un point dans le temps. (B)</p> Signup and view all the answers

Quelle syntaxe est correcte pour définir un Timestamp dans pandas ?

<p>t = pd.Timestamp('2013-01-01') (D)</p> Signup and view all the answers

Quelle est la portée des Timestamps dans pandas ?

<p>Entre 1678 et 2261 ans. (B)</p> Signup and view all the answers

Quel est le résultat de df.groupby('cat').transform(zscore) ?

<p>Un DataFrame contenant les z-scores pour chaque entrée. (C)</p> Signup and view all the answers

Quand peut-on utiliser plusieurs fonctions de transformation ?

<p>Lorsque nous appliquons de multiples transformations à la fois. (D)</p> Signup and view all the answers

Flashcards

Objet Series

Tableau unidimensionnel ordonné de données avec un index. Toutes les données ont le même type.

Index d'un objet Series

Il fournit les étiquettes pour les objets Series et DataFrame ; Il peut contenir des objets hashables uniquement.

Type de données d'un Series

Tous les éléments dans un objet Series ont le même type de données.

Arithmétique vectorisée

L'opération arithmétique sur les Series est appliquée à chaque élément après alignement de l'index.

Signup and view all the flashcards

Exemple d'addition de Series

L'addition de deux Series crée une nouvelle Series avec la somme des éléments aux indices correspondants après qu'ils aient été alignés.

Signup and view all the flashcards

Exemple de multiplication de Series

La multiplication d'un Series par une valeur ou un autre Series crée une nouvelle Series avec des valeurs calculées en multipliant les éléments correspondants.

Signup and view all the flashcards

Transformation des Series

Les Series peuvent être manipulées avec des fonctions, comme la multiplication par un scalaire ou la multiplication avec un autre Series.

Signup and view all the flashcards

Création d'un DataFrame

Plusieurs Series peuvent être combinées pour créer un DataFrame.

Signup and view all the flashcards

Ajout de lignes à un DataFrame

Concaténer des lignes supplémentaires à un DataFrame existant.

Signup and view all the flashcards

Tri des lignes d'un DataFrame

Organiser les lignes d'un DataFrame par valeurs spécifiques.

Signup and view all the flashcards

Suppression de lignes par étiquette

Enlever des lignes d'un DataFrame par leur étiquette ou index.

Signup and view all the flashcards

Sélection de lignes aléatoires

Choisir un sous-ensemble de lignes d'un DataFrame au hasard.

Signup and view all the flashcards

Sélection de lignes par condition booléenne

Sélectionner les lignes d'un DataFrame qui correspondent à une condition booléenne.

Signup and view all the flashcards

Sélection de lignes par position

Sélectionner des lignes d'un DataFrame par leur position entière.

Signup and view all the flashcards

Test de l'unicité des index

Vérifier si les indices des lignes d'un DataFrame sont uniques.

Signup and view all the flashcards

Copie d'un DataFrame

Créer une copie complète d'un DataFrame pour éviter les modifications non désirées.

Signup and view all the flashcards

Concaténation de DataFrames

Fonction pour combiner des DataFrames en ajoutant des lignes (axe 0) ou des colonnes (axe 1).

Signup and view all the flashcards

Fonction agg

Fonction qui applique des agrégations (somme, moyenne, etc.) à chaque colonne d'un DataFrame groupé.

Signup and view all the flashcards

Fonction describe

Fonction pour obtenir des statistiques descriptives (minimum, maximum, moyenne, etc.) de chaque colonne par groupe.

Signup and view all the flashcards

Fonction combine_first

Combine des DataFrames en utilisant les valeurs non nulles du premier DataFrame. L'index est l'union des index.

Signup and view all the flashcards

Fonction groupby

Grouper les données par une ou plusieurs colonnes de DataFrame.

Signup and view all the flashcards

Fonction agg (multiples fonctions)

Appliquer plusieurs fonctions d'agrégation à différentes colonnes.

Signup and view all the flashcards

Transformations de groupes

Calculer des statistiques sur des groupes de données, en utilisant souvent des fonctions comme les scores z.

Signup and view all the flashcards

gb['col2']

Syntaxe raccourcie pour accéder à une colonne spécifique dans un DataFrame groupé. Évite la regrouper de nouveau.

Signup and view all the flashcards

Fonction zscore

Fonction Python qui calcule le score z d'une série de données en soustrayant la moyenne et en divisant par l'écart type.

Signup and view all the flashcards

Transformation groupée

Application d'une fonction à chaque groupe de données dans un DataFrame, en conservant la structure du DataFrame d'origine.

Signup and view all the flashcards

Remplacer les valeurs manquantes

remplacer les valeurs manquantes dans un DataFrame par une valeur calculée, souvent la moyenne du groupe correspondant.

Signup and view all the flashcards

Filtrage groupé

Sélectionner des groupes dans un DataFrame en fonction d'un critère appliqué à chacun des groupes.

Signup and view all the flashcards

Timestamp

Représentation d'un moment précis dans le temps en Python, incluant date, heure, minutes, secondes et millisecondes.

Signup and view all the flashcards

Period

Représentation d'une période de temps en Python, définie par une fréquence, par exemple, un mois, un trimestre.

Signup and view all the flashcards

Index hiérarchique

Index de DataFrame où chaque ligne est associée à plusieurs étiquettes, permettant d'organiser les données en plusieurs niveaux.

Signup and view all the flashcards

Group by level

Fonction pour regrouper les données d'un DataFrame selon un niveau spécifique de l'index hiérarchique.

Signup and view all the flashcards

Supprimer les catégories

La méthode remove_categories() permet de supprimer les catégories d'une série.

Signup and view all the flashcards

Vérifier les nombres finis

La fonction np.isfinite() vérifie si les éléments d'une série sont des nombres finis.

Signup and view all the flashcards

Statistiques descriptives

La méthode describe() calcule des statistiques descriptives basiques pour une série ou un DataFrame.

Signup and view all the flashcards

Corrélation des colonnes

La méthode corr() calcule la corrélation entre les colonnes d'un DataFrame.

Signup and view all the flashcards

Opérations sur les chaînes de caractères

Les objets pandas Series et DataFrame offrent des méthodes intégrées pour manipuler les chaînes de caractères.

Signup and view all the flashcards

Expressions régulières

Les méthodes pandas .str.contains(), .str.startswith(), .str.endswith(), .str.replace(), et .str.extract() permettent de rechercher et de manipuler des chaînes de caractères avec des expressions régulières.

Signup and view all the flashcards

Compter les valeurs

La méthode value_counts() compte les occurrences de chaque valeur unique dans une série.

Signup and view all the flashcards

Table de contingence

La fonction pd.crosstab() crée une table de contingence, montrant la fréquence des combinaisons de valeurs de deux variables catégorielles.

Signup and view all the flashcards

Données manquantes

Des valeurs manquantes ou non disponibles dans un DataFrame, représentées par NaN (Not a Number).

Signup and view all the flashcards

Supprimer les lignes avec des NaN

La méthode dropna() supprime les lignes d'un DataFrame qui contiennent au moins une valeur NaN.

Signup and view all the flashcards

Remplacer les NaN

La méthode fillna() remplace les valeurs NaN par une valeur spécifiée, comme 0 ou la moyenne.

Signup and view all the flashcards

Types de données catégoriques

Un type de données qui représente des catégories, comme 'petit', 'moyen', 'grand'.

Signup and view all the flashcards

Trier les catégories

Organiser les catégories d'un type de données catégorique dans un ordre spécifique.

Signup and view all the flashcards

Renommer les catégories

Modifier les noms des catégories dans un type de données catégorique.

Signup and view all the flashcards

Ajouter des catégories

Ajouter de nouvelles catégories à un type de données catégorique existant.

Signup and view all the flashcards

Infinis

Les nombres infinis (positif ou négatif) sont utilisés pour représenter des valeurs extrêmement grandes ou petites.

Signup and view all the flashcards

Study Notes

Pandas DataFrame Object

  • Pandas DataFrame is a two-dimensional data structure with rows and columns.
  • Columns are made up of pandas Series objects.
  • DataFrames are useful for storing and analyzing tabular data.

Series Object

  • A Series is a one-dimensional, ordered array of data with an index.
  • All data in a Series has the same data type.
  • Arithmetic operations on Series are vectorized after aligning the indexes.

Index Object

  • The Index object provides labels for the Series and DataFrame axes.
  • Only hashable objects are allowed in the Index.
  • A DataFrame has two Indexes, one for columns and one for rows.

Loading Data

  • DataFrames can be loaded from various sources, including CSV files, Excel files, and databases (MySQL).
  • The pd.read_csv(), pd.read_excel(), and pd.read_sql_table() functions are used for loading data.

Data in Series and DataFrame

  • Combining Series into a DataFrame is possible using pd.concat().
  • Series arithmetic operations will align the indexes before performing calculations.
  • Additional columns can be created by assigning new values.

Saving Data

  • DataFrames can be saved in various formats, including CSV files, Excel files, and databases (MySQL).
  • Functions such as df.to_csv(), df.to_excel(), and df.to_sql() facilitate saving.

Working with DataFrame

  • df.info(), df.head(), df.tail(), and df.describe() provide basic DataFrame information.
  • Methods like df.copy(), df.astype(), df.sort() support data manipulation.
  • DataFrames can be iterated over rows and columns using df.iterrows() and df.iteritems().

Mathematics on DataFrames

  • Basic mathematical operations (addition, subtraction, multiplication, division) can be performed on DataFrames.

Filtering and Selecting Data

  • Selecting rows and columns can be achieved using labels, integer positions, or Boolean indexing.
  • Filtering is done based on conditions using Boolean indexing.
  • Using .loc, .iloc, or .ix allows flexible selections.

Working with Rows

  • Selecting rows by label or by integer position is supported.
  • Boolean indexing is used to select rows based on conditions.
  • .drop() removes rows based on labels or positions.

Working with Columns

  • Selecting columns by name, integer positions or by Boolean indexing is possible.

Working with Cells

  • Accessing cells by row and column labels (.at) or integer positions (.iat) is efficient.

Joining and Combining DataFrames

  • DataFrames are joined using merge() method (like SQL joins) or concat() for stacking.
  • combine_first() can be used to fill NaN values, prioritizing one DataFrame over the other.

Group By Operations

  • groupby() splits the DataFrame into groups and applies a function to each separately.
  • Aggregating functions, such as sum(), mean(), count(), can be applied to groups.

Working with Times and Dates

  • Pandas provides tools to work with dates and times (Timestamp and Period).
  • Time zone information can be handled in Pandas.
  • Upsampling (converting to higher frequency) and downsampling (converting to lower frequency) of time series are supported.

Working with Missing and Non-Finite Data

  • Pandas uses NaN to represent missing numeric data.
  • The isnull(), notnull(), and fillna() methods handle missing values in Series and DataFrames.

Working with Categorical Data

  • Pandas has a categorical data type for representing categorical variables.
  • Operations for reordering, renaming, and adding new categories are available.

Basic Statistics

  • Summary statistics (mean, median, standard deviation) are calculated using methods like .describe().
  • Correlation and covariance between columns can be analyzed.
  • Histogram binning and regression operations can be performed using pandas.

Working with Strings

  • String manipulations like lowercasing, uppercasing, and extractions can be applied to strings in a Series.
  • Regular expressions are supported for more complex pattern matching.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Ce quiz explore les concepts de base des objets DataFrame et Series dans la bibliothèque Pandas. Apprenez à manipuler des structures de données tabulaires et à effectuer des opérations de chargement de données à partir de différentes sources. Testez vos connaissances sur les principales fonctionnalités et méthodes disponibles dans Pandas.

More Like This

Pandas DataFrame Selection Quiz
12 questions
Pandas DataFrame Operations
42 questions
Pandas DataFrames and Data Manipulation
32 questions
Use Quizgecko on...
Browser
Browser