Podcast
Questions and Answers
Qual das seguintes características não é uma das transparências oferecidas por um SGBD Distribuído?
Qual das seguintes características não é uma das transparências oferecidas por um SGBD Distribuído?
- Transparência de distribuição
- Transparência de replicação
- Transparência de segurança (correct)
- Transparência de fragmentação
O que caracteriza a autonomia local em um SGBD Distribuído?
O que caracteriza a autonomia local em um SGBD Distribuído?
- Os sites dependem um do outro para operar.
- Os dados são geridos centralmente.
- Um siteprincipal controla todos os dados.
- Cada site pode gerenciar seus dados independentemente. (correct)
Qual é uma das principais vantagens dos SGBD Distribuídos em comparação aos sistemas centralizados?
Qual é uma das principais vantagens dos SGBD Distribuídos em comparação aos sistemas centralizados?
- Menor flexibilidade no design
- Dependência de um único site
- Dificuldade em expandir o sistema
- Maior disponibilidade em caso de falhas (correct)
Qual é um componente fundamental de um SGBD Distribuído?
Qual é um componente fundamental de um SGBD Distribuído?
Qual é o principal objetivo da fragmentação em um SGBD Distribuído?
Qual é o principal objetivo da fragmentação em um SGBD Distribuído?
Qual arquitetura de SGBD Distribuído envolve um site central que controla operações?
Qual arquitetura de SGBD Distribuído envolve um site central que controla operações?
A replicação em um SGBD Distribuído serve para:
A replicação em um SGBD Distribuído serve para:
Quais dos seguintes aspectos são considerados desvantagens dos SGBD Distribuídos?
Quais dos seguintes aspectos são considerados desvantagens dos SGBD Distribuídos?
Qual das seguintes afirmações sobre o MapReduce é verdadeira?
Qual das seguintes afirmações sobre o MapReduce é verdadeira?
Qual característica do HBase permite consultas mais rápidas em conjuntos específicos de dados?
Qual característica do HBase permite consultas mais rápidas em conjuntos específicos de dados?
Qual é a principal função do Zookeeper em sistemas distribuídos?
Qual é a principal função do Zookeeper em sistemas distribuídos?
Quais os dados que o Hive consegue processar?
Quais os dados que o Hive consegue processar?
Para que serve o YARN no contexto do Hadoop?
Para que serve o YARN no contexto do Hadoop?
Qual afirmação é verdadeira sobre a integração do HBase com o HDFS?
Qual afirmação é verdadeira sobre a integração do HBase com o HDFS?
Qual é a principal vantagem do uso do MapReduce para processamento de grandes conjuntos de dados?
Qual é a principal vantagem do uso do MapReduce para processamento de grandes conjuntos de dados?
Como o Hive traduz consultas HiveQL?
Como o Hive traduz consultas HiveQL?
Qual funcionalidade não é relacionada ao Zookeeper?
Qual funcionalidade não é relacionada ao Zookeeper?
Qual é uma característica dos SGBDs centralizados?
Qual é uma característica dos SGBDs centralizados?
Qual das seguintes opções é uma vantagem dos SGBDs distribuídos?
Qual das seguintes opções é uma vantagem dos SGBDs distribuídos?
Qual arquitetura de SGBD permite que todos os nós gerenciem seus próprios dados de forma autônoma?
Qual arquitetura de SGBD permite que todos os nós gerenciem seus próprios dados de forma autônoma?
O que caracteriza a replicação total no contexto de SGBDs distribuídos?
O que caracteriza a replicação total no contexto de SGBDs distribuídos?
O que descreve melhor o HDFS?
O que descreve melhor o HDFS?
Qual é uma desvantagem do HDFS?
Qual é uma desvantagem do HDFS?
Qual é a função principal do YARN dentro do ecossistema Hadoop?
Qual é a função principal do YARN dentro do ecossistema Hadoop?
Como os dados são gerenciados no HDFS?
Como os dados são gerenciados no HDFS?
O que caracteriza a fragmentação vertical em SGBDs distribuídos?
O que caracteriza a fragmentação vertical em SGBDs distribuídos?
Qual é a característica da arquitetura híbrida em SGBDs distribuídos?
Qual é a característica da arquitetura híbrida em SGBDs distribuídos?
O que significa 'data locality' no contexto do HDFS?
O que significa 'data locality' no contexto do HDFS?
Qual modelo de consistência garante que todas as cópias dos dados sejam atualizadas imediatamente?
Qual modelo de consistência garante que todas as cópias dos dados sejam atualizadas imediatamente?
Qual é uma das principais funções do ResourceManager no YARN?
Qual é uma das principais funções do ResourceManager no YARN?
Qual é uma limitação do HDFS no que diz respeito ao tamanho dos blocos?
Qual é uma limitação do HDFS no que diz respeito ao tamanho dos blocos?
Flashcards
SGBD Distribuído
SGBD Distribuído
Um sistema de banco de dados que armazena dados em vários computadores interconectados em uma rede.
Disponibilidade
Disponibilidade
A capacidade de um SGBD Distribuído funcionar corretamente mesmo que um ou mais nós da rede falhem.
Fragmentação
Fragmentação
A capacidade de dividir dados em partes menores (fragmentos) para melhorar a eficiência e a localização.
Replicação
Replicação
Signup and view all the flashcards
Consistência
Consistência
Signup and view all the flashcards
Sítio (Site) ou Nó
Sítio (Site) ou Nó
Signup and view all the flashcards
Arquitetura
Arquitetura
Signup and view all the flashcards
Escalabilidade
Escalabilidade
Signup and view all the flashcards
O que é um SGBD Centralizado?
O que é um SGBD Centralizado?
Signup and view all the flashcards
O que é um SGBD Distribuído?
O que é um SGBD Distribuído?
Signup and view all the flashcards
Resiliência em SGBDs Distribuídos
Resiliência em SGBDs Distribuídos
Signup and view all the flashcards
Escalabilidade em SGBDs Distribuídos
Escalabilidade em SGBDs Distribuídos
Signup and view all the flashcards
Melhor Desempenho Local em SGBDs Distribuídos
Melhor Desempenho Local em SGBDs Distribuídos
Signup and view all the flashcards
Distribuição de Carga em SGBDs Distribuídos
Distribuição de Carga em SGBDs Distribuídos
Signup and view all the flashcards
Proximidade aos Dados em SGBDs Distribuídos
Proximidade aos Dados em SGBDs Distribuídos
Signup and view all the flashcards
Arquitetura Centralizada de SGBD Distribuído
Arquitetura Centralizada de SGBD Distribuído
Signup and view all the flashcards
Arquitetura Totalmente Distribuída de SGBD Distribuído
Arquitetura Totalmente Distribuída de SGBD Distribuído
Signup and view all the flashcards
Arquitetura Híbrida de SGBD Distribuído
Arquitetura Híbrida de SGBD Distribuído
Signup and view all the flashcards
Fragmentação Horizontal
Fragmentação Horizontal
Signup and view all the flashcards
Fragmentação Vertical
Fragmentação Vertical
Signup and view all the flashcards
Fragmentação Híbrida
Fragmentação Híbrida
Signup and view all the flashcards
O que é o HDFS?
O que é o HDFS?
Signup and view all the flashcards
O que é MapReduce?
O que é MapReduce?
Signup and view all the flashcards
O que é HBase?
O que é HBase?
Signup and view all the flashcards
O que é Zookeeper?
O que é Zookeeper?
Signup and view all the flashcards
O que é Hive?
O que é Hive?
Signup and view all the flashcards
Como o HDFS se integra ao MapReduce (fase Map)?
Como o HDFS se integra ao MapReduce (fase Map)?
Signup and view all the flashcards
Como o HDFS se integra ao MapReduce (fase Reduce)?
Como o HDFS se integra ao MapReduce (fase Reduce)?
Signup and view all the flashcards
Como o HDFS se integra ao HBase?
Como o HDFS se integra ao HBase?
Signup and view all the flashcards
Como o Zookeeper se integra ao HDFS?
Como o Zookeeper se integra ao HDFS?
Signup and view all the flashcards
Como o HDFS se integra ao Hive?
Como o HDFS se integra ao Hive?
Signup and view all the flashcards
Como o Hadoop se integra ao Hive?
Como o Hadoop se integra ao Hive?
Signup and view all the flashcards
Study Notes
Sistemas de Gestão de Bases de Dados Distribuídos (SGBD Distribuídos)
- Um SGBD Distribuído é uma coleção de bases de dados interligadas, fisicamente distribuídas em uma rede de computadores. O software (DBMS Distribuído) gerencia a distribuição de forma transparente para os usuários.
- Características Principais: Distribuição lógica dos dados (vistos como um todo, apesar da distribuição física), transparência de distribuição, fragmentação (dados divididos como uma base única), replicação (dados espalhados em diversos locais tratados sem intervenção), e autonomia local (cada local/site gerencia seus dados).
- Vantagens: Maior disponibilidade (outros sites continuam funcionando mesmo com falhas em um), melhor desempenho (transações em paralelo), escalabilidade (fácil adição de sites), flexibilidade no design (fragmentação/replicação para atender necessidades).
- Arquitetura: Geralmente possui sites (nodes), rede de comunicação, gerenciador de transações distribuídas, e gerenciador de consultas distribuídas. As categorias podem ser centralizada (um site central controla), totalmente distribuída (todos os sites com autonomia) ou híbrida (combinação das duas anteriores).
- Conceitos-chave: Fragmentação (divisão lógica em partes: horizontal, vertical ou híbrida), replicação (cópias em múltiplos sites), e consistência (manter todas as cópias sincronizadas).
Comparação com SGBD Centralizados
- SGBD Centralizados: Todos os dados armazenados em um único local (servidor). Acesso e processamento centralizados.
- SGBD Distribuídos: Dados armazenados em diferentes locais (nodes) interconectados por uma rede. Processamento paralelo em vários nodes.
Vantagens de SGBD Distribuídos
- Resiliência: Alta disponibilidade, pois outros sites continuam funcionando mesmo com falhas.
- Escalabilidade: Expansão horizontal ao adicionar novos nodes para lidar com mais dados e usuários.
- Melhor Desempenho Local: Processamento local, reduzindo latência.
- Distribuição de Carga: Carga de trabalho distribuída entre nodes, evitando sobrecarga.
- Proximidade aos Dados: Armazenamento próximo aos usuários, tempo de acesso reduzido.
Arquiteturas e Modelos Comuns
- Arquitetura Centralizada: Um nó principal controla todas as operações (mais simples, mas com ponto único de falha).
- Arquitetura Totalmente Distribuída: Todos os sites têm autonomia (mais complexa, mas mais resiliente).
- Arquitetura Híbrida: Combinação das duas, com nós principais coordenando subconjuntos.
- Modelos Baseados em Fragmentação: Horizontal (divisão por linhas), Vertical (divisão por colunas), Híbrido.
- Modelos Baseados em Replicação: Total (todos os sites com cópia completa), Parcial (cada site com parte dos dados).
- Modelos de Consistência: Forte (cópias atualizadas instantaneamente), Eventual (cópias sincronizadas gradualmente).
HDFS (Hadoop Distributed File System)
- Sistema de arquivos distribuído para grandes volumes de dados em clusters. Componente central do Hadoop, otimizado para processamento paralelo.
- Arquitetura Master-Slave: NameNode (master) gerencia metadados; DataNodes (slaves) armazenam dados e gerenciam leitura/escrita.
- Tolerância a Falhas: Dados replicados (geralmente 3 cópias). Continuidade mesmo com falhas.
- Imutabilidade: Modelo WORM (Write Once, Read Many).
- Alta Escalabilidade: Expansibilidade horizontal.
- Data Locality: Processamento perto dos dados.
Usos do HDFS com outros Sistemas
- O HDFS não é um SGBD, mas é usado como base para sistemas distribuídos, especialmente para análise e processamento de grandes volumes de dados. Ferramentas e abstrações são construídas sobre o HDFS.
YARN (Yet Another Resource Negotiator)
- Gerenciador de recursos do Hadoop. Coordena a alocação de recursos (CPU, memória) em clusters.
- ResourceManager (Master): Gerencia recursos disponíveis.
- NodeManager (Slave): Cada nó, monitora e gerencia containers (unidades de recursos alocados).
- ApplicationMaster: Coordena a execução específica de uma aplicação, negociando recursos.
- Integração com HDFS: Gestions os recursos para aplicações de processamento de dados em cima do HDFS.
MapReduce
- Modelo de programação distribuída para processamento paralelo de grandes dados.
- Fase Map: Divisão e transformação dos dados em pares chave-valor.
- Fase Reduce: Combinação dos resultados do Map. (Ex: contagem de palavras).
- Integração com HDFS: Lê dados do HDFS na fase Map, e grava resultados de volta no HDFS.
HBase
- Banco de dados NoSQL distribuído baseado em colunas. Operações de leitura e escrita em tempo real sobre o HDFS.
- Baseado em Colunas: Armazenamento em “famílias de colunas” para consultas direcionadas.
- Alta Escalabilidade: Expansibilidade horizontal.
- Consistência Forte: Garante a consistência de leituras e escritas.
ZooKeeper
- Ferramenta de coordenação em sistemas distribuídos.
- Gerenciamento de Configurações: Compartilhamento de informações entre sistemas.
- Sincronização: Garante consistência de estado.
- Eleição de Líderes: Identificação de um nó principal.
- Integração com HDFS: Coordenação entre NameNode e DataNodes para gerenciamento de falhas.
Hive
- Ferramenta de Data Warehouse para executar consultas SQL em dados HDFS. Mais amigável para analistas de dados.
- Consultas SQL-like: Uso de HiveQL.
- Compatibilidade com Hadoop: Traduz consultas para tarefas MapReduce/Spark/Tez.
- Armazenamento Flexível: Dados estruturados e semiestruturados em HDFS.
- Integração com HDFS: Hive armazena metadados em bancos (ex: MySQL), os dados em HDFS. Execução de consultas usando cluster Hadoop.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Descubra os conceitos fundamentais dos Sistemas de Gestão de Bases de Dados Distribuídos. Este quiz cobre características, vantagens e arquiteturas que permitem uma gestão eficiente e escalável de dados interligados. Teste seu conhecimento sobre como a distribuição e a transparência beneficiam o gerenciamento de dados em rede.