Sciences des données - 2024-2025 - Sujet PDF
Document Details
Uploaded by NoiselessAnaphora
ECAM LaSalle
2024
Tags
Summary
This document is a past paper for a 'Sciences des données' exam for first-year engineering students, taken in the academic year 2024-2025. The paper covers the importation of CSV and XLSX data files, and includes specific tasks related to data analysis, statistical functions, and plotting in Python using libraries like Matplotlib, SciPy, Pandas, and Seaborn. The exam is for a university-level class, and students must complete the tasks by a set date.
Full Transcript
**Sujet « Sciences des données » -- 1^er^ année cycle ingénieur -- année scolaire 2024-2025** 1. **Environnement python :** **- Taper dans le moteur de recherche « Online Matplotlib Compiler » et importer les bibliothèques ci-dessous dans cet environnement :** import matplotlib.pyplot as plt im...
**Sujet « Sciences des données » -- 1^er^ année cycle ingénieur -- année scolaire 2024-2025** 1. **Environnement python :** **- Taper dans le moteur de recherche « Online Matplotlib Compiler » et importer les bibliothèques ci-dessous dans cet environnement :** import matplotlib.pyplot as plt import scipy.stats from scipy import stats import numpy as np import pylab import pandas as pd import seaborn as sns import statistics import statsmodels.api as smi import openpyxl 2. **SOIT Importation de la base de données pour un fichier CSV : ne pas oublier les guillemets dans le code** Cliquer sur « Upload files » et sélectionner la base de données CSV nomdufichier = pd.read\_csv(\"nomdufichier.csv\", header = 0, sep = \",\") 3. **SOIT Importation de la base de données pour un fichier XLSX : ne pas oublier les guillemets dans code** Cliquer sur « Upload files » et sélectionner la base de données XLSX nomdufichier = pd.read\_excel(\"nomdufichier.xlsx\") 4. **Corps du sujet :** Vous travaillez sur une base de données de votre choix sur laquelle vous allez coder des fonctions statistiques déjà présente dans le document pdf ci-joint : (à partir de la page 33) en faisant intervenir le maximum des concepts suivants : - Une analyse globale (ou résumé) des mesures statistiques des variables de votre base de données. - Les histogrammes. - Les boites à moustaches. - La description de variables qualitatives. - Le description conjointe de variables quantitatives. - La notion de corrélation. - La description conjointe de variables qualitatives. - La description conjointe de 2 variables quantitatives et d'1 variable qualitative. - Les tests de normalité (avec éventuellement le passage au logarithme en cas de non-normalité de la variable brute). - Les tests d'une moyenne. - Les tets de comparaison de 2 moyennes. - Les tests d'indépendance de 2 variables qualitatives. - Les tests de corrélations. - Les tests d'une proportion. - Les tests de comparaison de deux proportions. - Les tests de positionnement. - Les tests de comparaison de plusieurs moyennes. - Les intervalles de confiance pour une moyenne. - La classification. - La régression linéaire. **Votre projet devra être rendu (par groupe de 5 étudiants pour le jeudi 13 février 2025) dans un fichier Word et envoyé à [[snouet\@aol.com]](mailto:[email protected]) : il faudra rédiger et commenter les sorties de votre code Python. Les sorties devront être affichées, pour les graphiques utiliser si besoin la commande « outil-capture » de Windows. Le code devra être copié-collé en annexe du fichier Word.**