Podcast
Questions and Answers
Quelles sont les caractéristiques de Spark ?
Quelles sont les caractéristiques de Spark ?
- Intelligent (correct)
- Léger (correct)
- Flexible (correct)
- Rapide (correct)
Quels sont les principaux avantages de Spark par rapport à MapReduce ?
Quels sont les principaux avantages de Spark par rapport à MapReduce ?
- Calcul parallèle (correct)
- Calcul rapide en mémoire (correct)
- Traiter les tâches hors ligne
- Aucun des précédents
Quels sont les scénarios d'application de Spark ?
Quels sont les scénarios d'application de Spark ?
- Apprentissage automatique (correct)
- Traitement de flux en temps réel (correct)
- Requêtes interactives (correct)
- Traitement par lots hors ligne (correct)
Quel module est le module principal de Spark ?
Quel module est le module principal de Spark ?
Quel est le propre cadre de gestion des ressources de Spark ?
Quel est le propre cadre de gestion des ressources de Spark ?
Concernant les RDD, laquelle de ces affirmations est incorrecte ?
Concernant les RDD, laquelle de ces affirmations est incorrecte ?
Les RDD ont des opérateurs de transformation et d'action. Lequel des suivants est un opérateur d'action ?
Les RDD ont des opérateurs de transformation et d'action. Lequel des suivants est un opérateur d'action ?
Que comprennent les types de dépendances des RDD ?
Que comprennent les types de dépendances des RDD ?
Qu'est-ce qu'un DataFrame dans Spark ?
Qu'est-ce qu'un DataFrame dans Spark ?
Quelle est la différence entre un DataFrame et un RDD dans Spark ?
Quelle est la différence entre un DataFrame et un RDD dans Spark ?
Expliquez brièvement le concept de 'Streaming Structurel' dans Spark.
Expliquez brièvement le concept de 'Streaming Structurel' dans Spark.
Quel est le but principal de Spark Streaming ?
Quel est le but principal de Spark Streaming ?
Quels sont les modules les plus importants de Spark ?
Quels sont les modules les plus importants de Spark ?
Flashcards
Qu'est-ce qu'Apache Spark ?
Qu'est-ce qu'Apache Spark ?
Apache Spark est un moteur de calcul Big Data rapide, polyvalent et évolutif qui s'appuie sur la mémoire. Il intègre le traitement par lots, le streaming en temps réel, les requêtes interactives, la programmation graphique et l'apprentissage automatique.
D'où vient Apache Spark ?
D'où vient Apache Spark ?
Spark a été développé au laboratoire AMP de l'UC Berkeley en 2009. Son développement est sous licence Apache.
Pourquoi Spark est-il plus rapide ?
Pourquoi Spark est-il plus rapide ?
Spark est un outil performant car il utilise une mémoire partagée pour les RDD. Cette approche permet une vitesse 100 fois supérieure et 10 fois moins d'itérations que d'autres solutions.
Quels langages sont compatibles avec Spark ?
Quels langages sont compatibles avec Spark ?
Signup and view all the flashcards
À quoi servent les opérateurs Spark ?
À quoi servent les opérateurs Spark ?
Signup and view all the flashcards
Qu'est-ce qu'un RDD ?
Qu'est-ce qu'un RDD ?
Signup and view all the flashcards
Comment sont organisées les données RDD ?
Comment sont organisées les données RDD ?
Signup and view all the flashcards
Comment les RDD gèrent-ils les pertes de données ?
Comment les RDD gèrent-ils les pertes de données ?
Signup and view all the flashcards
Qu'est-ce qu'une dépendance étroite ?
Qu'est-ce qu'une dépendance étroite ?
Signup and view all the flashcards
Qu'est-ce qu'une dépendance large ?
Qu'est-ce qu'une dépendance large ?
Signup and view all the flashcards
Quelles sont les catégories d'opérations Spark ?
Quelles sont les catégories d'opérations Spark ?
Signup and view all the flashcards
Qu'est-ce qu'une opération de création ?
Qu'est-ce qu'une opération de création ?
Signup and view all the flashcards
Qu'est-ce qu'une opération de transformation ?
Qu'est-ce qu'une opération de transformation ?
Signup and view all the flashcards
Qu'est-ce qu'une opération de contrôle ?
Qu'est-ce qu'une opération de contrôle ?
Signup and view all the flashcards
Qu'est-ce qu'une opération d'action ?
Qu'est-ce qu'une opération d'action ?
Signup and view all the flashcards
Quelles sont les transformations Spark ?
Quelles sont les transformations Spark ?
Signup and view all the flashcards
Quelles sont les actions Spark ?
Quelles sont les actions Spark ?
Signup and view all the flashcards
Quel est le concept du DAG ?
Quel est le concept du DAG ?
Signup and view all the flashcards
Qu'est-ce qu'un DataFrame ?
Qu'est-ce qu'un DataFrame ?
Signup and view all the flashcards
Comment créer un DataFrame ?
Comment créer un DataFrame ?
Signup and view all the flashcards
Quels langages supportent les DataFrames ?
Quels langages supportent les DataFrames ?
Signup and view all the flashcards
Qu'est-ce que Spark SQL ?
Qu'est-ce que Spark SQL ?
Signup and view all the flashcards
Qu'est-ce que Structured Streaming ?
Qu'est-ce que Structured Streaming ?
Signup and view all the flashcards
Comment fonctionne Spark Streaming ?
Comment fonctionne Spark Streaming ?
Signup and view all the flashcards
Comment Spark Streaming utilise les RDD ?
Comment Spark Streaming utilise les RDD ?
Signup and view all the flashcards
Quel est le cadre de gestion des ressources de Spark ?
Quel est le cadre de gestion des ressources de Spark ?
Signup and view all the flashcards
Décrivez les RDD en détail.
Décrivez les RDD en détail.
Signup and view all the flashcards
Study Notes
Apache Spark
- Apache Spark est un moteur de calcul rapide, polyvalent et évolutif basé sur la mémoire.
- Il intègre le traitement par lots, la diffusion en continu en temps réel, les requêtes interactives, la programmation graphique et l'apprentissage automatique.
- Développé en 2009 au laboratoire AMP de l'UC Berkeley.
- Licence Apache.
- Traitement de grands volumes de données.
- Traitement distribué.
- Écrit en Scala.
Spark : plus rapide que Hadoop
- Utilisation d'une mémoire partagée.
- RDD (Resilient Distributed Datasets) 100x plus rapide, 10x moins d'itérations que Hadoop.
Performances Spark vs Hadoop
- Vitesse: Spark est significativement plus rapide que Hadoop, avec des temps d'exécution 10 à 100 fois plus courts pour de nombreuses tâches.
- Taille des données: Spark manipule de très grands volumes de données, dépassant les capacités de Hadoop dans certains cas.
- Nombre de nœuds / cœurs: Spark utilise moins de nœuds et cœurs (notamment en comparaison avec Hadoop) pour la même tâche.
Langages de programmation Spark
- Scala, Java, Python (PySpark), R (SparkR).
Opérateurs Spark
- map(): transforme chaque élément d'un RDD en un autre élément.
- mapToPair(): similaire à map mais renvoie un tuple.
- filter(): filtre les éléments d'un RDD.
- groupBykey(): regroupe les éléments par leur clé.
- reduceByKey(): calcule la somme des valeurs pour chaque clé.
- join() / cogroup(): combinent deux RDD en fonction de leurs clés.
- foreach(): exécute une fonction sur chaque élément d'un RDD.
RDD (Resilient Distributed Datasets)
- Structure de données distribuée et résiliente (élastique) pour Spark.
- Stockés en mémoire par défaut, mais stockés en disque si la mémoire est insuffisante.
- Partitionnés pour le traitement distribué.
- Stockés dans des clusters sous forme de partitions.
- Support d'un mécanisme de lignage pour la récupération rapide en cas de perte de données.
Dépendances RDD
- Dépendances étroites (Narrow Dependencies): chaque partition d'un RDD parent est utilisée par au maximum une partition d'un RDD enfant (ex: map, filter, union).
- Dépendances larges (Wide Dependencies): les partitions de plusieurs RDD enfants dépendent de la partition du même RDD parent (ex: groupByKey, reduceByKey, sortByKey).
Opérations Spark
- Opérations de création: pour créer des RDD.
- Opérations de transformation: changent un RDD en un nouveau RDD (paresseuses, ne sont pas exécutées immédiatement).
- Opérations de contrôle: permettent de contrôler le comportement des RDD (ex: persistance en mémoire ou sur disque).
- Opérations d'action: déclenchent l'exécution des calculs et retournent le résultat (ex: reduce, collect, count, first, take).
DataFrame
- Structure de données de Spark, organisé en colonnes nommées.
- Equivalente à une table dans une base de données relationnelle.
- Permet de gérer des données structurées avec des optimisations plus performantes que les RDD.
- Constructibles à partir de nombreuses sources (fichiers, Hive, bases de données externes). Disponible dans Scala, Java, Python, R.
Spark Architecture
- Spark SQL: module pour le traitement des données structurées (exploitation d'instructions SQL ou API DataFrame).
- Structured Streaming: traite les données en streaming à l'aide du moteur Spark SQL.
- Spark Streaming: divise les données en flux en tranches de temps pour le traitement.
- Spark Core: cœur du système Spark, gère les RDD.
- Standalone, Yarn, Mesos: frameworks de gestion des ressources pour Spark.
Questions-Réponses
- Fonctionnalités de Spark: rapide, flexible, mémoire efficace, gestion de ressources.
- Avantages par rapport à MapReduce: traitement en mémoire (plus rapide), calcul parallèle.
- Scénarios d'application Spark: traitement de lots hors ligne, traitement en temps réel, requêtes interactives, apprentissage automatique.
- Module central de Spark: RDD (Resilient Distributed Datasets).
- Système de gestion de ressources Spark: Standalone, Mesos, YARN.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.