Évaluation - Big Data et Architectures Associées

Quel type d'architecture est approprié pour traiter des données en temps réel ?

Quel concept est essentiel pour assurer la cohérence des données dans un environnement Big Data ?

Parmi les V des Big Data, quel V correspond à la capacité de gérer les données de différents formats et types ?

Quel est le rôle d'Hadoop HDFS dans le traitement des données Big Data ?

Quel avantage offre le traitement parallèle dans un environnement Big Data ?

Quel est le rôle de Apache Spark dans le contexte des Big Data ?

Quel concept est à la base du traitement des données distribuées ?

Quel est l'intérêt d'utiliser un framework comme Apache Spark pour traiter des données Big Data ?

Quel code permet de trier le dataframe par ordre alphabétique du nom, puis du prénom?

Quel code filtre le dataframe pour afficher les étudiants âgés entre 18 et 25 ans?

Comment obtenir le nom et le prénom de l'étudiant ayant l'âge le plus élevé via une requête SQL?

Quel code crée un RDD nommé rdd_notes_plus en ajoutant 2 à chaque valeur de rdd_notes?

Quel code permet d'obtenir la valeur minimale de rdd_notes_plus?

Evaluation - Big Data et Architectures Associées

Durée: 1h30
Instructions: Répondre aux questions en indiquant le numéro de la question et la réponse correspondante.
Notation: Questions à choix multiples (QCM): 1 point par bonne réponse, 0 point pour une réponse incorrecte ou incomplète. Questions 11 à 15 : 2 points par bonne réponse.
Documents autorisés: Aucun.

Questions

Question 1

Type de données non considérées comme Big Data: Données structurées.

Question 2

Exemple de données non-structurées: E-mails, Fichiers HTML.

Question 3

Données peu volumineuses comme Big Data: Faux.

Question 4

Problématique de gestion de données en streaming: Vélocité.

Question 5

Définition de Scalabilité Horizontale: Augmenter les performances en ajoutant de nouveaux serveurs.

Question 6

Définition de Scalabilité Verticale: Augmenter les performances en ajoutant de nouvelles ressources sur un seul serveur.

Question 7

Accès partagé à la mémoire: Traitements parallèles.

Question 8

Données inadaptées à Hadoop HDFS: Données structurées de grande taille, données non-structurées de grande taille.

Question 9

RDD dans Apache Spark: Ensemble de données distribué et résilient.

Question 10

Affichage du contenu d'un dataframe Spark: show().

Question 11

Tri d'un dataframe Spark par ordre alphabétique du nom, puis du prénom: df.orderBy('nom', 'prenom').show()

Question 12

Filtrage d'un dataframe Spark pour les étudiants âgés entre 18 et 25: df.filter(col('age').between(18, 25)).show()

Question 13

Affichage du nom et prénom de l'étudiant le plus âgé: spark.sql("SELECT nom, prenom FROM etudiants ORDER BY age DESC LIMIT 1").show()

Question 14

Création d'un nouveau RDD avec une valeur ajoutée à chaque élément: rdd_notes_plus = rdd_notes.map(lambda x: x + 2) et rdd_notes_plus.collect().

Question 15

Valeur minimale d'un RDD: rdd_notes_plus.min()

Testez vos connaissances sur le Big Data et ses architectures associées avec cette évaluation. Répondez à des questions à choix multiples sur les types de données et les concepts clés liés à la gestion des données. Préparez-vous à démontrer votre compréhension des défis et des solutions dans le domaine du Big Data.