CoursNoSQL (1).pdf

Bases de données NoSQL Alanna Devlin Génin Lundi 9 septembre 2024 IUT Rives de Seine - BUT Science des Données - Parcours VCOD Alanna Devlin Génin - Tous droits réservés 1 Planning 7 séances de 3 heures Séance 1 : CM (lundi 9 septembre) Séance 2 : TP (jeudi 12 septembre) Séance 3 : TP (vendredi 13 septembre) Séance 4 : TP (mardi 24 septembre) Séance 5 : TP (vendredi 27 septembre) Séance 6 : TP (vendredi 11 octobre) Séance 7 : TP (vendredi 8 novembre) Alanna Devlin Génin - Tous droits réservés 2 Programme Histoire des bases de données Caractéristiques principales des bases de données NoSQL Typologie des bases de données NoSQL Alanna Devlin Génin - Tous droits réservés 3 Evaluation QCM avec une ou deux questions ouvertes (30 à 45 minutes) TP noté (avec rendu 24 ou 48 heures après la séance) Alanna Devlin Génin - Tous droits réservés 4 Mon parcours académique DUT STID ENSAI Alanna Devlin Génin - Tous droits réservés 5 Mon parcours professionnel Stage fin d’études Data Engineer depuis 1 an et demi Alanna Devlin Génin - Tous droits réservés 6 Contact Si vous avez des questions n’hésitez pas à me contacter : [email protected] Alanna Devlin Génin - Tous droits réservés 7 Time for Kahoot ! Alanna Devlin Génin - Tous droits réservés 7 Historique Retour sur les bases de données relationnelles Les bases de données relationnelles permettent de stocker des données structurées dans des relations (également appelées tables). Alanna Devlin Génin - Tous droits réservés 8 Changement de paradigme Années 2000 : explosion du volume de données Modèle relationnel : limité en termes de scalabilité et de flexibilité Nouvelles technologies : Big Data, IoT, applications web et mobiles Alanna Devlin Génin - Tous droits réservés 9 Du modèle relationnel au NoSQL RDBMS NoSQL 1950 1960 1970 1980 1990 2000 2010 2020 Alanna Devlin Génin - Tous droits réservés 10 Introduction au NoSQL Pourquoi NoSQL ? Stockage et de traitement d’une grande quantité de données Scalabilité Haute disponibilité Réplication Partitionnement Indexation Alanna Devlin Génin - Tous droits réservés 11 Mais que signifie NoSQL ? Définition NoSQL signifie Not Only SQL ou No SQL. En 2009, Johan Oskarsson définit NoSQL comme un terme générique pour désigner les bases de données qui ne sont pas des bases de données relationnelles. Alanna Devlin Génin - Tous droits réservés 12 NewSQL NewSQL est un terme générique pour désigner les bases de données qui sont des bases de données relationnelles mais qui sont conçues pour être distribuées. Examples : Google Spanner, CockroachDB, NuoDB, VoltDB, MemSQL, Clustrix, etc. Alanna Devlin Génin - Tous droits réservés 13 Concepts fondamentaux Caractéristiques principales du NoSQL Schéma flexible Scalabilité Haute disponibilité Réplication Partitionnement Indexation Transactions Alanna Devlin Génin - Tous droits réservés 14 Qu’est-ce que le partitionnement ? Définition Le partitionnement (ou partitioning en anglais) consiste à séparer les données en plusieurs chunks. Chunck 5 Chunck 4 Chunck 3 Chunck 2 Chunking Chunck 1 Data source Alanna Devlin Génin - Tous droits réservés 15 Partitionnement ou sharding ? Alanna Devlin Génin - Tous droits réservés 15 Partitionnement vs sharding Définition Le partitionnement est une technique de division des données en plusieurs parties. Définition Le sharding est une technique de distribution des données sur plusieurs nœuds. Alanna Devlin Génin - Tous droits réservés 16 Partitionnement vs sharding PARTITIONING SHARDING ID Name 1 Alice 2 Bob ID Name ID Name 3 Camille 1 Alice 4 Diane VERSUS 2 Bob 5 Elodie ID Name 3 Camille 6 Fabrice 4 Diane 5 Elodie 6 Fabrice Shard 1 Shard 2 Alanna Devlin Génin - Tous droits réservés 17 Di↵érentes stratégies de partitionnement Chunck 5 Chunck 4 ? Partitionnement par tourniquet Chunck 3 Chunck 2 Chunck 1 ? Partitionnement par intervalle Partitionnement par clé/liste ? Partitionnement par hachage Data source Alanna Devlin Génin - Tous droits réservés 18 Cas d’usage Camille Lemoine est propriétaire d’une chaı̂ne de trois restaurants situés à Paris, Londres et Dublin. Elle souhaite stocker les données de ses clients dans une base de données en fonction de ses di↵érents restaurants. Identifiant Prénom Nom Âge Ville 1000 Alice Dupont 30 Paris 1001 Bob Brown 39 Londres 1002 Charlie O’Brien 26 Dublin 1003 Daniel Doyle 42 Dublin 1004 Edna McCarthy 58 Dublin 1005 Fabienne Lenoir 66 Paris 1006 Gilles Morvan 71 Paris Elle vous demande de l’aider à choisir la meilleure stratégie de partitionnement pour stocker les données de ses clients en fonction de leur localisation. Alanna Devlin Génin - Tous droits réservés 19 Partitionnement par tourniquet Définition Le partitionnement par tourniquet (round-robin partitioning en an- glais) est une méthode de distribution des données où chaque enregis- trement est successivement assigné à l’une des partitions disponibles de manière cyclique, assurant une répartition équilibrée de la charge Comment assigner une donnée i à un nœud nj ? La donnée située à l’index i sera assignée au nœud d’index j noté nj avec nj = i mod n et n est le nombre de nœuds. Alanna Devlin Génin - Tous droits réservés 20 Partitionnement par tourniquet Comment partitionner par tourniquet selon l’ID de l’utilisateur ? ID Prénom Nom Nœud 1 1000 Alice Dupont 1001 Bob Brown 1002 Charlie O’Brien 1003 Daniel Doyle 1004 Edna McCarthy 1005 Fabienne Lenoir Nœud 2 1006 Gilles Morvan On considérera qu’un modulo 0 (ie 3 mod 3 = 0) correspond au nœud 3. Nœud 3 Alanna Devlin Génin - Tous droits réservés 21 Partitionnement par tourniquet Comment partitionner par tourniquet selon l’ID de l’utilisateur ? ID Prénom Nom 1000 Alice Dupont ID Prénom Nom Nœud 1 1000 Alice Dupont 1001 Bob Brown 1002 Charlie O’Brien 1003 Daniel Doyle 1004 Edna McCarthy 1005 Fabienne Lenoir Nœud 2 1006 Gilles Morvan On considérera qu’un modulo 0 (ie 3 mod 3 = 0) correspond au nœud 3. Nœud 3 Alice : user ID mod n = 1000 mod 3 = 1 Alanna Devlin Génin - Tous droits réservés 21 Partitionnement par tourniquet Comment partitionner par tourniquet ID Prénom Nom selon l’ID de l’utilisateur ? 1000 Alice Dupont 1003 Daniel Doyle 1006 Gilles Morvan ID Prénom Nom Nœud 1 1000 Alice Dupont 1001 Bob Brown ID Prénom Nom 1002 Charlie O’Brien 1001 Bob Brown 1003 Daniel Doyle 1004 Edna McCarthy 1004 Edna McCarthy 1005 Fabienne Lenoir Nœud 2 1006 Gilles Morvan ID Prénom Nom 1002 Charlie O’Brien On considérera qu’un modulo 0 1005 Fabienne Lenoir (ie 3 mod 3 = 0) correspond au nœud 3. Nœud 3 Alanna Devlin Génin - Tous droits réservés 21 Avantages et inconvénients du partitionnement par tourniquet Lecture : Aucune partition spécifique n’est surchargée, car les données sont uniformément réparties. Écriture : Les écritures sont bien distribuées entre les partitions, évitant ainsi les goulots d’étranglement. Lecture : Les requêtes qui nécessitent des recherches précises peuvent devoir scanner plusieurs partitions, augmentant ainsi le temps de lecture. Écriture : Il n’y a pas de regroupement logique des données, ce qui peut compliquer la gestion et l’accès à des ensembles de données liés. Alanna Devlin Génin - Tous droits réservés 22 Partitionnement par intervalle Définition Le partitionnement par intervalle ou également appelé partitionne- ment par plage (interval partitioning en anglais) scinde les données en partitions basées sur des plages de valeurs spécifiques (par exemple, des plages de dates, de montants, etc.). Le partitionnement par intervalle est souvent utilisé pour les données temporelles, où les enregistrements sont répartis en fonction de la date ou de l’heure de création. Alanna Devlin Génin - Tous droits réservés 23 Partitionnement par intervalle Comment partitionner par intervalle selon l’âge de l’utilisateur avec les catégories d’âge suivantes : 20 à 39 ans, 40 à 69 ans et 70 ans et plus ? ID Prénom Nom Âge Nœud 1 1000 Alice Dupont 30 1001 Bob Brown 39 1002 Charlie O’Brien 26 1003 Daniel Doyle 42 1004 Edna McCarthy 58 1005 Fabienne Lenoir 66 Nœud 2 1006 Gilles Morvan 71 Nœud 3 Alanna Devlin Génin - Tous droits réservés 24 Partitionnement par intervalle Comment partitionner par intervalle selon l’âge de l’utilisateur avec les catégories d’âge suivantes : 20 à 39 ans, 40 à 69 ans et 70 ans et plus ? ID Prénom Nom Âge 1000 Alice Dupont 30 1001 Bob Brown 39 1002 Charlie O’Brien 26 ID Prénom Nom Âge Nœud 1 1000 Alice Dupont 30 1001 Bob Brown 39 ID Prénom Nom Âge 1002 Charlie O’Brien 26 1003 Daniel Doyle 42 1003 Daniel Doyle 42 1004 Edna McCarthy 58 1004 Edna McCarthy 58 1005 Fabienne Lenoir 66 1005 Fabienne Lenoir 66 Nœud 2 1006 Gilles Morvan 71 ID Prénom Nom Âge 1006 Gilles Morvan 71 Nœud 3 Alanna Devlin Génin - Tous droits réservés 24 Avantages et inconvénients du partitionnement par intervalle Lecture : Efficace pour les requêtes qui filtrent sur une plage de valeurs spécifique, car elles accèdent uniquement à la partition pertinente. Écriture : Facile à comprendre et à gérer, particulièrement utile pour les données temporelles ou séquentielles. Lecture : Les requêtes qui ne filtrent pas sur la colonne de partitionnement ou couvrent plusieurs plages peuvent être moins efficaces. Écriture : Les écritures peuvent se concentrer sur certaines par- titions (par exemple, la partition la plus récente dans un par- titionnement par date), créant un déséquilibre et un risque de surcharge de cette partition. Alanna Devlin Génin - Tous droits réservés 25 Partitionnement par clé Définition Le partitionnement par clé (ou liste) (key partitioning ou list parti- tioning en anglais) répartit les données en fonction de la valeur d’une ou plusieurs colonnes spécifiques, qui sont appelées les clés de parti- tionnement. Le partitionnement par clé est souvent utilisé pour les données qui peuvent être regroupées en catégories distinctes, telles que les données géographiques, les catégories de produits, etc. Alanna Devlin Génin - Tous droits réservés 26 Partitionnement par clé Comment partitionner par clé selon la ville ? ID Prénom Nom Ville Nœud 1 1000 Alice Dupont Paris 1001 Bob Brown Londres 1002 Charlie O’Brien Dublin 1003 Daniel Doyle Dublin 1004 Edna McCarthy Dublin 1005 Fabienne Lenoir Paris Nœud 2 1006 Gilles Morvan Paris Nœud 3 Alanna Devlin Génin - Tous droits réservés 27 Partitionnement par clé Comment partitionner par clé selon la ville ? ID Prénom Nom 1000 Alice Dupont 1005 Fabienne Lenoir 1006 Gilles Morvan ID Prénom Nom Ville Nœud 1 1000 Alice Dupont Paris 1001 Bob Brown Londres 1002 Charlie O’Brien Dublin ID Prénom Nom 1003 Daniel Doyle Dublin 1001 Bob Brown 1004 Edna McCarthy Dublin 1005 Fabienne Lenoir Paris Nœud 2 1006 Gilles Morvan Paris ID Prénom Nom 1002 Charlie O’Brien 1003 Daniel Doyle 1004 Edna McCarthy Nœud 3 Alanna Devlin Génin - Tous droits réservés 27 Avantages et inconvénients du partitionnement par clé Lecture : Les requêtes qui filtrent sur la clé de partition sont rapides, car elles accèdent directement à la partition appropriée. Écriture : Les opérations d’écriture sont distribuées de manière équilibrée si la distribution des clés est uniforme, évitant ainsi les goulots d’étranglement. Lecture : Si les requêtes ne filtrent pas sur la clé de partition, elles peuvent devoir parcourir plusieurs partitions, ce qui dégrade les performances. Écriture : Si les clés sont mal réparties (skewed distribution), certaines partitions peuvent être surchargées, entraı̂nant des déséquilibres. Alanna Devlin Génin - Tous droits réservés 28 Partitionnement par hachage Définition Le partitionnement par hachage (hash partitioning en anglais) dis- tribue les données en fonction du résultat d’une fonction de hachage appliquée à une ou plusieurs colonnes. f pxq “ y avec x la clé de partitionnement et y le nœud de destination. Le partitionnement par hachage est souvent utilisé pour répartir uniformément les données et éviter les déséquilibres de charge. Les données sont réparties de manière aléatoire, mais déterministe. Alanna Devlin Génin - Tous droits réservés 29 Partitionnement par hachage Comment partitionner par hachage selon l’ID de l’utilisateur ? ID Prénom Nom Hash Nœud 1 1000 Alice Dupont f(1000) = 2 1001 Bob Brown f(1001) = 1 1002 Charlie O’Brien f(1002) = 3 1003 Daniel Doyle f(1003) = 3 1004 Edna McCarthy f(1004) = 1 1005 Fabienne Lenoir f(1005) = 2 Nœud 2 1006 Gilles Morvan f(1006) = 1 Nœud 3 Alanna Devlin Génin - Tous droits réservés 30 Partitionnement par hachage Comment partitionner par hachage selon l’ID de l’utilisateur ? ID Prénom Nom 1001 Bob Brown 1004 Edna McCarthy 1006 Gilles Morvan ID Prénom Nom Hash Nœud 1 1000 Alice Dupont f(1000) = 2 1001 Bob Brown f(1001) = 1 ID Prénom Nom 1002 Charlie O’Brien f(1002) = 3 1000 Alice Dupont 1003 Daniel Doyle f(1003) = 3 1005 Fabienne Lenoir 1004 Edna McCarthy f(1004) = 1 1005 Fabienne Lenoir f(1005) = 2 Nœud 2 1006 Gilles Morvan f(1006) = 1 ID Prénom Nom 1002 Charlie O’Brien 1003 Daniel Doyle Nœud 3 Alanna Devlin Génin - Tous droits réservés 30 Avantages et inconvénients du partitionnement par hachage Lecture : Les requêtes qui utilisent la colonne de hachage sont rapides, car elles accèdent directement à la partition spécifique. Écriture : Les données sont réparties de manière uniforme, mi- nimisant le risque de surcharge d’une partition. Lecture : Les requêtes qui ne filtrent pas sur la colonne de hachage peuvent nécessiter un balayage de plusieurs partitions. Écriture : Le hachage peut rendre le regroupement logique des données plus difficile et compliquer les opérations de mainte- nance comme le rééquilibrage des partitions. Alanna Devlin Génin - Tous droits réservés 31 Comparatif des di↵érentes stratégies de partitionnement Identifiant Prénom Nom Âge Ville Identifiant Prénom Nom Âge Ville 1000 Alice Dupont 30 Paris 1000 Alice Dupont 30 Paris 1001 Bob Brown 39 Londres 1001 Bob Brown 39 Londres 1002 Charlie O’Brien 26 Dublin 1002 Charlie O’Brien 26 Dublin 1003 Daniel Doyle 42 Dublin 1003 Daniel Doyle 42 Dublin 1004 Edna McCarthy 58 Dublin 1004 Edna McCarthy 58 Dublin 1005 Fabienne Lenoir 66 Paris 1005 Fabienne Lenoir 66 Paris 1006 Gilles Morvan 71 Paris 1006 Gilles Morvan 71 Paris Partitionnement par tourniquet Partitionnement par intervalle (âge) Identifiant Prénom Nom Âge Ville Identifiant Prénom Nom Âge Ville 1000 Alice Dupont 30 Paris 1000 Alice Dupont 30 Paris 1001 Bob Brown 39 Londres 1001 Bob Brown 39 Londres 1002 Charlie O’Brien 26 Dublin 1002 Charlie O’Brien 26 Dublin 1003 Daniel Doyle 42 Dublin 1003 Daniel Doyle 42 Dublin 1004 Edna McCarthy 58 Dublin 1004 Edna McCarthy 58 Dublin 1005 Fabienne Lenoir 66 Paris 1005 Fabienne Lenoir 66 Paris 1006 Gilles Morvan 71 Paris 1006 Gilles Morvan 71 Paris Partitionnement par clé (ville) Partitionnement par hachage Alanna Devlin Génin - Tous droits réservés 32 Résumé des performances Lecture Meilleur : Partitionnement par intervalle ou par clé (si les requêtes ciblent la clé ou l’intervalle). Moins efficace : Partitionnement par tourniquet ou par hachage pour des requêtes non ciblées. Écriture Meilleur : Partitionnement par hachage ou par tourniquet (distribution équilibrée des écritures). Moins efficace : Partitionnement par intervalle (risque de surcharge sur certaines partitions). Le choix de la stratégie dépend du type de requêtes majoritaires (lecture ou écriture), de la distribution des données, et des besoins spécifiques de l’application en termes de performance. Alanna Devlin Génin - Tous droits réservés 33 Scalabilité Alanna Devlin Génin - Tous droits réservés 34 Haute disponibilité Garantir un service disponible en tout temps Réplication Partitionnement Tolérance aux pannes Alanna Devlin Génin - Tous droits réservés 35 Haute disponibilité Alanna Devlin Génin - Tous droits réservés 36 Quelle flexibilité de schéma ? Alanna Devlin Génin - Tous droits réservés 37 ACID vs BASE Alanna Devlin Génin - Tous droits réservés 38 Transactions ACID Atomicité : Toutes les opérations d’une transaction sont exécutées ou aucune Cohérence : La base de données passe d’un état valide à un autre état valide Isolation : Les transactions s’exécutent indépendamment les unes des autres Durabilité : Les modifications sont persistantes Alanna Devlin Génin - Tous droits réservés 39 Propriétés BASE Basically Available : Le système est toujours disponible Soft state : L’état du système peut changer Eventually consistent : Le système finit par être cohérent Alanna Devlin Génin - Tous droits réservés 40 Théorème CAP Consistency Availability Partition tolerance Alanna Devlin Génin - Tous droits réservés 41 Théorème CAP Selon Eric Brewer, un système informatique ne peut garantir simultanément que trois propriétés : Consistency : Toutes les données sont à jour Availability : Toutes les requêtes reçoivent une réponse Partition tolerance : Le système continue de fonctionner malgré les partitions réseau Alanna Devlin Génin - Tous droits réservés 42 Avantages et inconvénients du NoSQL Avantages Scalabilité horizontale Flexibilité des schémas Performances pour certaines charges de travail Inconvénients Complexité de gestion Manque de standardisation Consistance éventuelle (CAP Theorem) Alanna Devlin Génin - Tous droits réservés 43 Ce que NoSQL ne permet pas Joins Group by Transactions ACID Requêtes complexes Agrégations SQL Intégrations avec des applications basées sur SQL Alanna Devlin Génin - Tous droits réservés 44 Quand utiliser NoSQL Grande quantité de données semi-structurées ou non structurées (logs, réseaux sociaux, IoT, time-based data) Améliorer les performances d’accès aux données en combinant le traitement de volumes de données plus importants, la réduction des temps de latence et l’amélioration du débit. Alanna Devlin Génin - Tous droits réservés 45 Cas d’usage des bases de données NoSQL Applications web et mobiles Big Data et analytics Gestion de contenu et réseaux sociaux Internet des objets (IoT) Alanna Devlin Génin - Tous droits réservés 46 Time for Kahoot ! Alanna Devlin Génin - Tous droits réservés 46 Typologie des bases de données NoSQL Ecosystème NoSQL Alanna Devlin Génin - Tous droits réservés 47 Typologie des bases de données NoSQL Alanna Devlin Génin - Tous droits réservés 48 Caractéristiques des bases de données clé-valeur Définition Dans une base de données clé-valeur, les données sont stockées sous forme de paires de clés uniques et de valeurs correspondantes. La clé agit comme un identifiant unique, et la valeur peut être de tout type (chaı̂ne de caractères, JSON, binaire, etc.). Très scalable avec une structure simple. Pas de schéma ou de structure rigide ; stockage de données flexible. ãÑ Idéal pour stocker de grandes quantités de données avec une complexité relationnelle minimale. Alanna Devlin Génin - Tous droits réservés 49 Comment fonctionnent les bases de données clé-valeur ? Alanna Devlin Génin - Tous droits réservés 50 Bases de données clé-valeur Alanna Devlin Génin - Tous droits réservés 51 Cas d’usages des bases de données clé-valeur Stockage de sessions et profils d’utilisateurs ãÑ Chaque utilisateur est référéncé par une clé qui permet d’accéder à ses informations. Paniers d’achats dans les applications de commerce électronique ãÑ Gestion des commandes lors des soldes et de l’évolution de leur statut. Moteur de stockage des métadonnées ãÑ Pour une plateforme de jeu, cela permet d’accéder aux données des joueurs, l’historique des sessions et les tableaux de classement pour des millions d’utilisateurs simultanés. Systèmes de cache (ex. : Redis, Memcached) ãÑ Les applications de réseaux sociaux peuvent stocker des données fréquemment consultées, telles que le contenu des fils d’actualités. Alanna Devlin Génin - Tous droits réservés 52 Avantages et inconvénients des bases de données clé-valeur Avantages Lectures et écritures extrêmement rapides grâce à l’accès direct par clé. Scalabilité horizontale facile pour de grands ensembles de données. Inconvénients Absence de requêtes complexes. Mauvaise gestion du schéma. Alanna Devlin Génin - Tous droits réservés 53 Caractéristiques des bases de données document Définition Dans une base de données orientée document, les données sont stockées sous forme de documents structurés, généralement au for- mat JSON, BSON, ou XML. Chaque document représente un enregistrement, ce qui permet de stocker des données hiérarchiques et complexes. Très flexible : chaque document peut avoir une structure di↵érente. Capable de stocker des données complexes et imbriquées. ãÑ Idéal pour des applications nécessitant un modèle de données flexible et des mises à jour fréquentes. Alanna Devlin Génin - Tous droits réservés 54 Bases de données document Firestore Alanna Devlin Génin - Tous droits réservés 55 Exemple de document JSON Alanna Devlin Génin - Tous droits réservés 56 Comment fonctionnent les bases de données document ? Alanna Devlin Génin - Tous droits réservés 57 Comment fonctionnent les bases de données document ? Alanna Devlin Génin - Tous droits réservés 58 Cas d’usages des bases de données document Gestion du contenu sur les réseaux sociaux ãÑ L’activité de chaque utilisateur est stockée sous forme d’un document contenant des informations imbriquées telles que les posts, commentaires, et connexions. Plateformes de gestion de contenu (CMS) ãÑ Stockage de documents flexibles qui contiennent des informations sur des articles de blog, des images, des métadonnées, etc. Gestion des capteurs ãÑ L’Internet des objets (IoT) permet de collecter un grand volume de données brutes à partir de capteurs (données non structurées et évolutives). Alanna Devlin Génin - Tous droits réservés 59 Avantages et inconvénients des bases de données document Avantages Grande flexibilité dans le schéma, chaque document peut avoir une structure di↵érente. Bonne gestion des données hiérarchiques ou imbriquées. Scalabilité horizontale facile grâce à la partition des documents. Inconvénients Performances limitées pour des requêtes complexes ou des jointures entre documents. Les mises à jour simultanées de documents imbriqués peuvent être plus complexes à gérer. Alanna Devlin Génin - Tous droits réservés 60 Caractéristiques des bases de données orientées colonne Définition Dans une base de données orientée colonne, les données sont stockées par colonnes plutôt que par lignes. Chaque ligne correspond à une clé unique, et les colonnes stockent des paires de nom-colonne : valeur, ce qui permet de regrouper des colonnes similaires pour une meilleure performance des requêtes en lecture. Optimisé pour les lectures massives sur des colonnes spécifiques. Très scalable et performant pour des requêtes analytiques. ãÑ Idéal pour des applications nécessitant des analyses de grandes quantités de données. Alanna Devlin Génin - Tous droits réservés 61 Bases de données orientées colonne Alanna Devlin Génin - Tous droits réservés 62 Exemple : distribution des données sur Cassandra Alanna Devlin Génin - Tous droits réservés 63 Cas d’usages des bases de données orientées colonne Systèmes de gestion des données financières ãÑ Permet d’extraire rapidement des colonnes spécifiques comme les prix ou les transactions sur de grands ensembles de données. Outils analytiques et de Big Data ãÑ Optimisé pour les requêtes analytiques complexes sur des jeux de données massifs. Moteurs de recommandation ãÑ Stocke des informations sur les utilisateurs et leurs préférences sous forme de colonnes, permettant une extraction rapide pour les recommandations en temps réel. Alanna Devlin Génin - Tous droits réservés 64 Avantages et inconvénients des bases de données colonne Avantages Très performant pour les requêtes en lecture sur des colonnes spécifiques. Scalabilité horizontale adaptée pour le traitement de données massives. Idéal pour des applications analytiques ou des systèmes OLAP. Inconvénients Moins efficace pour des écritures fréquentes ou des transactions complexes. Complexité accrue pour gérer les relations entre colonnes. Alanna Devlin Génin - Tous droits réservés 65 Caractéristiques des bases de données graphe Définition Dans une base de données graphe, les données sont organisées en nœuds, liens et propriétés qui permettent de modéliser des relations complexes et dynamiques entre les entités. Les nœuds représentent les entités, les liens représentent les relations entre ces nœuds, et les propriétés fournissent des informations supplémentaires sur les nœuds et les liens. Représentation des relations complexes entre les données. Optimisé pour les requêtes de lecture et les opérations relationnelles. ãÑ Idéal pour des applications nécessitant des relations com- plexes et dynamiques entre les données. Alanna Devlin Génin - Tous droits réservés 66 Bases de données graphe Alanna Devlin Génin - Tous droits réservés 67 Comment fonctionnent les bases de données graphe ? Alanna Devlin Génin - Tous droits réservés 68 Cas d’usages des bases de données graphe Réseaux sociaux ãÑ Modélisation des relations entre utilisateurs, amis, groupes, et interactions pour des recommandations et des analyses sociales. Détection de fraude ãÑ Analyse des connexions entre transactions et entités pour identifier des schémas de fraude ou des comportements suspects. Systèmes de recommandation ãÑ Analyse des préférences des utilisateurs et des relations entre produits pour fournir des recommandations personnalisées. Gestion des réseaux de télécommunications ãÑ Modélisation des réseaux de télécommunications et des relations entre équipements pour optimiser les performances et la maintenance. Alanna Devlin Génin - Tous droits réservés 69 Avantages et inconvénients des bases de données graphe Avantages Excellente performance pour les requêtes impliquant des relations complexes. Flexibilité pour modéliser des structures de données dynamiques. Inconvénients Moins efficace pour les opérations non liées aux relations. Complexité accrue pour les utilisateurs non familiers avec la modélisation en graphe. Alanna Devlin Génin - Tous droits réservés 70 Time for Kahoot ! Alanna Devlin Génin - Tous droits réservés 70

CoursNoSQL (1).pdf

Document Details

Tags

Related

Full Transcript