Syllabus Data Science 2024/2025

Summary

This syllabus outlines a Data Science course for the 2024/2025 academic year. It covers prerequisites, resources, course organization, exercises, and evaluation methods. Key topics include pandas, data visualization, web scraping, and big data.

Full Transcript

Data Science, Année universitaire 2024/2025., Bambrik I. INTITULE DU COURS : Data Science CODE : IA416, GL24 PRE-REQUIS Les con...

Data Science, Année universitaire 2024/2025., Bambrik I. INTITULE DU COURS : Data Science CODE : IA416, GL24 PRE-REQUIS Les connaissances préalables que l’étudiant doit avoir afin de suivre ce cours : COEFFICIENT: IA 1, GL 2 - Comprendre les notions générales des Statistiques et Probabilités (Cours L3); CREDITS : IA 2, GL 3 VOLUME HORAIRE HEBDOMADAIRE : 1h30 Cours, 3h00 TP RESSOURCES DUREE SEMESTRIELLE TOTALE DU COURS : 15 semaines (22h30 Cours, 22h30 TP) Les ressources suivantes sont recommandées comme complément du contenu du FILIERE/SPECIALITE : Informatique-M1 (GL/IA) cours: LANGUE DU COURS : Français Datacamp: https://www.datacamp.com/, Cours gratuits CHARGE DE COURS : Bambrik Ilyas Kaggle : https://www.kaggle.com/learn/, Cours gratuits EVALUATION : M1IA CC 40% , Examen 60% ; M1GL CC 34% , Examen 66% Freecodecamp: https://www.freecodecamp.org/learn/data-analysis-with- CONTACT python/#data-analysis-with-python-course Affiliation : Enseignant chercheur, Département d’informatique, Laboratoire LRIT, HackerRank.com : https://www.hackerrank.com/domains/python?filters %5Bstatus%5D%5B%5D=unsolved&badge_type=python Mail : [email protected] ORGANISATION COURS Domaines d’expertise : Algorithmique et Structure de donnée, Développement Web Le cours aura lieu chaque Mardi à 11h30, faculté des Sciences – Salle N101. Le Disponibilité : Jeudi et Samedi 17h00 – 18h00 en ligne sur Teams déroulement du cours, TD et TP sera comme suit : - Chaque séance de cours commence par 10 minutes de rappel. PRESENTATION DU COURS - L’entré en cours n’est pas permise pour un retard supérieur à 10 minutes. L'objectif général de ce cours est d’introduire l’étudiant au domaine de la science des - Deux semaines pour la réalisation de chaque série TP. Après le début d’un nouveau données. En parallèle, l’étudiant sera initié à la programmation réseau avec Python. TP, la correction type est fournie dans la vidéo explicative. OBJECTIFS D’APPRENTISSAGE - A la fin d’une séance TP, chaque étudiant est responsable d’éteindre son PC. A l'issue de ce cours l'apprenant doit être capable de: - Deux teste TP sur feuille sont programmés durant le semestre. - Appliquer les fonctionnalités pandas pour transformer les données. - Chaque séance de TP commence par 15 minutes réservées aux questions posées - Distinguer entre les différents types de graphiques. par les étudiants. - Utiliser seaborn pour visualiser les données tabulaires. - Manipuler les données géographiques. CONSIGNES POUR LES EXERCICES OU TRAVAUX, INDIVIDUELS OU DE GROUPE - Au début de chaque séance, la progression dans la série TP est notée. DESCRIPTIF ET STRUCTURE - Le travaille en équipe est permis. Cependant, chaque étudiant est évalué individuellement par des questions concernant la solution proposée.  Chapitre I Introduction à Pandas: - Le délai de soumission d’un devoir doit être respecté. Tout retard dans la remise Bref introduction aux objets Series et Dataframe. de devoir sera sanctionné (-4 de la note finale pour chaque semaine de retard).  Chapitre II Transformation des données: EVALUATION 1 Data Science, Année universitaire 2024/2025., Bambrik I. Ce chapitre couvrira différentes transformations que nous pouvons appliquer à nos - La consultation des devoirs TP se concentre principalement sur l’analyse / données ainsi que les fonctions de sommaire. synthèse. L’affichage de du résultat est secondaire ;  Chapitre III Data Cleaning: - La note finale de ce module est réparties sur : a) note TP (coefficient 1), b) note Exploite les méthodes de détection des inconsistances dans les données et des entrées contrôle (coefficient 1), c) note d’examen (coefficient 3) ; manquantes. - Chaque étudiant doit avoir ça pièce d’identité lors de l’examen /CC;  Chapitre IV Visualisation des données: - Il est interdit de rependre dans une copie d’examen / teste avec un crayon ; Dans ce chapitre explore seaborn et la visualisation de données. - L’examen finale est d’une durée de 1h15, composé de questions de cours  Chapitre V Web Scraping: seulement; Ce chapitre couvrira la récolte de données avec requests et BeautifulSoup. - Deux testes TP écrits de 45 minutes sont programmés au cours du semestre s ;  Chapitre VI Données Géospaciales: - La note TP finale est composée de la moyenne des deux testes TP sur 14 + la note des travaux TP et assiduité sur 6. Ce chapitre introduit geopandas qui est un module développé spécialement pour la visualisation et manipulation des données géospatiales. - Le copiage des TP ou dans l’examen est pénalisé pour toutes les parties impliquées ;  Chapitre VII Big Data: Ce chapitre introduit le paradigme Mapreduce et le traitement parallèle du Big Data avec pySpark. MATERIEL DE COURS LOGICIELS : a) Anaconda : https://repo.anaconda.com/archive/Anaconda3-2019.03-Windows-x86_64.exe MATERIEL : a) Les étudiants qui ne disposent pas d’un PC portable doivent se procurer d’un FlashDisk ou d’un périphérique de stockage afin sauvegarder leurs travaux à la fin de séance. b) Il est préférable de préparer le devoir TP sur PC portable ou bien de l’exporter sur mémoire de stockage externe afin de l’exécuter sur un PC du laboratoire lors de la consultation. Cependant, c’est permis d’apporter le devoir sur papier pour la consultation. MODULES CONNEXES : Les connaissances acquises dans ce module seront très utiles dans les modules suivants : - Analyse de données - Intelligence artificielle 2 Data Science, Année universitaire 2024/2025., Bambrik I. 3

Use Quizgecko on...
Browser
Browser