Evaluation - Big Data et Architectures Associees (1h30) - PDF
Document Details
Uploaded by MagnanimousOlivine3224
Tags
Summary
This document is an exam paper on Big Data and associated architectures. It includes multiple-choice questions and programming questions related to data structures, Apache Spark and handling Big Data. The document has numerous questions with their individual parts.
Full Transcript
## Évaluation - Big Data et architectures associées (durée 1h30) **Instructions** Reportez sur votre copie les numéros des questions, avec pour chaque question la réponse correspondante. Chaque bonne réponse aux QCM vaut 1 point. Une réponse incorrecte ou incomplète vaut point. Chaque bonne répo...
## Évaluation - Big Data et architectures associées (durée 1h30) **Instructions** Reportez sur votre copie les numéros des questions, avec pour chaque question la réponse correspondante. Chaque bonne réponse aux QCM vaut 1 point. Une réponse incorrecte ou incomplète vaut point. Chaque bonne réponse aux questions 11 à 15 vaut 2 points Aucun document n'est autorisé. **Questions** 1. Lequel de ces types de données n'est pas considéré comme des Big Data? - Données non structurées - Données semi-structurées - Données structurées - Données ultra-structurées 2. Parmi les types de données suivants, lequel correspond à des données non-structurées ? - Tableau de données Excel - E-mails - Base de données SQL - Fichiers html 3. Des données peu volumineuses peuvent être considérées comme des Big Data - Vrai - Faux 4. Quel V des Big Data correspond à la problématique de gérer des données en streaming? - Volume - Vélocité - Variété - Valeur - Véracité 5. La scalabilité horizontale c'est... - Augmenter les performances en ajoutant de nouveaux serveurs - Augmenter les performances en ajoutant de nouvelles ressources sur un même serveur - Augmenter les performances en distribuant les traitements - Augmenter les performances en parallélisant les traitements. 6. La scalabilité verticale c'est - Augmenter les performances en ajoutant de nouveaux serveurs - Augmenter les performances en ajoutant de nouvelles ressources sur un même serveur - Augmenter les performances en distribuant les traitements - Augmenter les performances en parallélisant les traitements. 7. Dans lequel de ces cas a-t-on un accès partagé à la mémoire ? - Traitements parallèles - Traitements distribués - Tous les deux - Aucun des deux 8. Quel(s) type(s) de données est (sont) inadapté(s) pour le stockage dans Hadoop HDFS? - Les données structurées de grande taille - Les données non structurées de grande taille - Les données structurées de petite taille - Les données non structurées de grande taille. 9. Qu'est-ce qu'un RDD dans Apache Spark? - Un type de base de données distribué - Un ensemble de données résilient et distribué - Un algorithme de traitement de données - Un logiciel de visualisation de données 10. Quelle option permet d'afficher le contenu d'un dataframe dans Apache Spark? - collect() - print() - show() - view() 11. Nous disposons d'un dataframe Spark nommé « df » et contenant une liste d'étudiants avec leurs noms, prénoms, et age. Ecrivez le code permettant à partir de ce dataframe de trier le dataframe par ordre alphabétique du nom, puis du prénom. ```python df.orderBy('nom', 'prenom').show() ``` 12. Ecrivez le code permettant à partir de ce dataframe de filtrer le dataframe pour afficher les étudiants ayant un âge compris entre 18 et 25. ```python df.filter(['age'].between(18, 25).show() ``` 13. Ecrivez le code permettant à partir de ce même dataframe d'afficher le nom et le prénom de l'étudiant ayant l'âge le plus élevé à l'aide d'une requête SQL. ```python df.createOrReplaceTempView("etudiants") spark.sql("SELECT nom, prenom FROM etudiants ORDER BY age DESC LIMIT 1").show() ``` 14. Nous disposons d'un RDD Spark nommé rdd_notes. Ecrivez le code permettant de créer un deuxième rdd nommé rdd_notes_plus, en ajoutant la valeur 2 à chaque valeur de rdd_notes. Vous afficherez ensuite le contenu de rdd_notes_plus. ```python rdd_notes_plus = rdd_notes.map(lambda x: x + 2) rdd_notes_plus.collect() ``` 15. Entrez le code permettant d'obtenir la valeur minimale de rdd_notes_plus, et affichez ```python rdd_notes_plus.min() ```