Podcast
Questions and Answers
O que caracteriza a transparência de distribuição em um SGBD Distribuído?
O que caracteriza a transparência de distribuição em um SGBD Distribuído?
São dados apresentados de forma unificada, independente de sua localização física.
Quais são as vantagens de um SGBD Distribuído em relação a um sistema centralizado?
Quais são as vantagens de um SGBD Distribuído em relação a um sistema centralizado?
Maior disponibilidade, melhor desempenho, escalabilidade e flexibilidade no design.
Explique brevemente o que é fragmentação em um SGBD Distribuído.
Explique brevemente o que é fragmentação em um SGBD Distribuído.
É a divisão lógica de dados em fragmentos, que pode ser horizontal, vertical ou híbrida.
Qual é a função do gerenciador de transações distribuídas em um SGBD Distribuído?
Qual é a função do gerenciador de transações distribuídas em um SGBD Distribuído?
Signup and view all the answers
O que se entende por autonomia local em um SGBD Distribuído?
O que se entende por autonomia local em um SGBD Distribuído?
Signup and view all the answers
Como a replicação de dados em um SGBD Distribuído afeta a disponibilidade?
Como a replicação de dados em um SGBD Distribuído afeta a disponibilidade?
Signup and view all the answers
Descreva a arquitetura híbrida de um SGBD Distribuído.
Descreva a arquitetura híbrida de um SGBD Distribuído.
Signup and view all the answers
Por que é importante garantir a consistência em um SGBD Distribuído?
Por que é importante garantir a consistência em um SGBD Distribuído?
Signup and view all the answers
Quais são as principais diferenças estruturais entre SGBDs centralizados e distribuídos?
Quais são as principais diferenças estruturais entre SGBDs centralizados e distribuídos?
Signup and view all the answers
Por que a resiliência é uma vantagem dos SGBDs distribuídos?
Por que a resiliência é uma vantagem dos SGBDs distribuídos?
Signup and view all the answers
De que forma a proximidade dos dados em um SGBD distribuído impacta o desempenho?
De que forma a proximidade dos dados em um SGBD distribuído impacta o desempenho?
Signup and view all the answers
Qual é a principal função do NameNode no HDFS?
Qual é a principal função do NameNode no HDFS?
Signup and view all the answers
Como o HDFS garante a tolerância a falhas?
Como o HDFS garante a tolerância a falhas?
Signup and view all the answers
Qual é a principal limitação do HDFS em relação à latência?
Qual é a principal limitação do HDFS em relação à latência?
Signup and view all the answers
Explique a arquitetura de um SGBD totalmente distribuído.
Explique a arquitetura de um SGBD totalmente distribuído.
Signup and view all the answers
O que caracteriza a fragmentação horizontal em SGBDs distribuídos?
O que caracteriza a fragmentação horizontal em SGBDs distribuídos?
Signup and view all the answers
Como o YARN contribui para a eficiência do Hadoop?
Como o YARN contribui para a eficiência do Hadoop?
Signup and view all the answers
Quais são as vantagens da replicação total em sistemas distribuídos?
Quais são as vantagens da replicação total em sistemas distribuídos?
Signup and view all the answers
Qual é o papel do ApplicationMaster no YARN?
Qual é o papel do ApplicationMaster no YARN?
Signup and view all the answers
Por que a imutabilidade é uma característica importante do HDFS?
Por que a imutabilidade é uma característica importante do HDFS?
Signup and view all the answers
O que é a distribuição de carga em SGBDs distribuídos?
O que é a distribuição de carga em SGBDs distribuídos?
Signup and view all the answers
Como o HDFS é utilizado com o MapReduce?
Como o HDFS é utilizado com o MapReduce?
Signup and view all the answers
Quais são as duas fases principais do modelo MapReduce e qual é a função de cada uma delas?
Quais são as duas fases principais do modelo MapReduce e qual é a função de cada uma delas?
Signup and view all the answers
Como o HBase se integra ao HDFS e quais são as principais características desse banco de dados?
Como o HBase se integra ao HDFS e quais são as principais características desse banco de dados?
Signup and view all the answers
Descreva a função do Zookeeper em sistemas distribuídos e sua relação com o HDFS.
Descreva a função do Zookeeper em sistemas distribuídos e sua relação com o HDFS.
Signup and view all the answers
Por que o Hive é considerado uma ferramenta adequada para analistas que preferem SQL e como ele processa consultas?
Por que o Hive é considerado uma ferramenta adequada para analistas que preferem SQL e como ele processa consultas?
Signup and view all the answers
Qual é a principal função do YARN no ecossistema Hadoop, e como ele se relaciona com outras ferramentas?
Qual é a principal função do YARN no ecossistema Hadoop, e como ele se relaciona com outras ferramentas?
Signup and view all the answers
Explique como o MapReduce contribui para a contagem de palavras em arquivos grandes.
Explique como o MapReduce contribui para a contagem de palavras em arquivos grandes.
Signup and view all the answers
Quais são os casos de uso típicos do HBase e por que ele é escolhido para esses propósitos?
Quais são os casos de uso típicos do HBase e por que ele é escolhido para esses propósitos?
Signup and view all the answers
O que é a linguagem HiveQL e qual é a sua principal função?
O que é a linguagem HiveQL e qual é a sua principal função?
Signup and view all the answers
Como o Zookeeper garante a sincronização entre diferentes nós em um cluster?
Como o Zookeeper garante a sincronização entre diferentes nós em um cluster?
Signup and view all the answers
Qual papel o HDFS desempenha no armazenamento de metadados e dados dentro do Hive?
Qual papel o HDFS desempenha no armazenamento de metadados e dados dentro do Hive?
Signup and view all the answers
Study Notes
Sistemas e Gestão de Bases de Dados Distribuídos (SGBD Distribuídos)
- Um SGBD Distribuído é uma coleção de bases de dados interligadas, distribuídas em uma rede de computadores.
- O software (DBMS Distribuído) gerencia a distribuição dos dados, tornando-a transparente para os usuários.
-
Características Principais:
- Distribuição Lógica: Os dados são vistos como um único conjunto, embora estejam fisicamente em diferentes locais.
-
Transparência:
- Transparência de Distribuição: Usuários não precisam saber onde os dados estão armazenados.
- Transparência de Fragmentação: Fragmentos de dados são tratados como um banco de dados único.
- Transparência de Replicação: Dados replicados são gerenciados sem intervenção do usuário.
- Autonomia Local: Cada local (site, nó) tem autonomia para gerenciar seus dados.
-
Vantagens:
- Maior Disponibilidade: Sites alternativos permitem funcionamento mesmo com falhas.
- Melhoria no Desempenho: Permite paralelismo na execução de transações.
- Escalabilidade: É mais fácil expandir o sistema adicionando novos locais.
- Flexibilidade: Dados podem ser fragmentados e replicados para atender às necessidades da aplicação.
-
Arquitetura:
- Centralizada: Um site principal controla as operações, mais simples mas com ponto único de falha.
- Totalmente Distribuída: Cada site é totalmente autônomo, mais complexa porém mais resiliente.
- Híbrida: Combinação das duas abordagens anteriores.
- Componentes: Sites (Nodes), Rede de Comunicação, Gerenciador de Transações Distribuídas, Gerenciador de Consultas Distribuídas.
-
Conceitos-chave:
- Fragmentação: Divisão lógica dos dados (horizontal, vertical, híbrida).
- Replicação: Cópias dos dados em vários locais para maior disponibilidade e desempenho.
- Consistência: Garantir que as cópias dos dados estejam sincronizadas.
Comparação com SGBD Centralizados
- SGBD Centralizados: Todos os dados em um único local. Acesso e processamento centralizados.
- SGBD Distribuídos: Dados distribuídos em diferentes locais (nós), interconectados. Processamento paralelo possível em vários nós.
Vantagens em relação aos Centralizados
- Resiliência e Disponibilidade: Falhas em um nó não afetam outros.
- Escalabilidade: Podem crescer horizontalmente adicionando novos nós.
- Melhor Desempenho Local: Consultas processadas no local do dado para menos latência.
- Distribuição de Carga: Divisão da carga entre os diferentes nós.
- Proximidade aos Dados: Dados mais próximos dos usuários para menor tempo de acesso.
Arquiteturas e Modelos Comuns
- Arquitetura Centralizada: Um nó principal controla todas as operações.
- Arquitetura Totalmente Distribuída: Cada nó tem total autonomia.
- Arquitetura Híbrida: Combinação das abordagens centralizada e distribuída.
-
Modelos Baseados em Fragmentação:
- Horizontal: Dados divididos por linhas em diferentes locais.
- Vertical: Dados divididos por colunas em diferentes locais.
- Híbrido: Combinação de horizontal e vertical.
-
Modelos Baseados em Replicação:
- Total: Todos os nós possuem cópia completa.
- Parcial: Cada nó possui apenas parte dos dados replicados.
-
Modelos de Consistência:
- Forte: Todas as cópias atualizadas instantaneamente.
- Eventual: Sincronização gradual das cópias.
Hadoop Distributed File System (HDFS)
- Sistema de arquivos distribuído para grandes volumes de dados.
-
Características:
- Arquitetura Master-Slave: NameNode (master) gerencia metadados, DataNodes (slaves) armazenam dados.
- Tolerância a Falhas: Dados replicados (geralmente 3 cópias).
- Imutabilidade: Modelo WORM (Write Once, Read Many).
- Alta Escalabilidade: Cresce horizontalmente adicionando nós.
- Data Locality: Processamento próximo aos dados para menos latência.
-
Vantagens:
- Custo-benefício: Usa hardware genérico.
- Alta Confiabilidade: Replicação protege contra falhas.
- Desempenho em Grande Escala: Otimizado para processamento em massa.
- Uso: Armazenamento e processamento (MapReduce, Spark) de dados.
HDFS com outros Sistemas de Bases de Dados
- HDFS é usado como componente subjacente em sistemas de processamento distribuído mas não é um SGBD. Ferramentas como Yarn, MapReduce, HBase, ZooKeeper, Hive, trabalham sobre HDFS para adicionar funcionalidades como gestão de recursos, processamento paralelo, bancos de dados NoSQL e análises de dados.
YARN (Yet Another Resource Negotiator)
- Gerencia recursos (CPU, memória) para aplicações Hadoop.
- Componentes: ResourceManager (master), NodeManager (slave), ApplicationMaster.
- Funções: Alocação de recursos, agendamento e isolamento de tarefas.
MapReduce & HBase
- MapReduce: Processamento paralelo de dados em duas fases (mapeamento e redução).
- HBase: Banco de dados NoSQL baseado em colunas em cima de HDFS. Alto desempenho em leitura e escrita, com alta escalabilidade.
ZooKeeper
- Ferramenta de gerenciamento e coordenação para sistemas distribuídos.
- Funções: Gerenciamento de configurações, sincronização e eleição de líderes.
Hive
- Ferramenta de data warehouse para consultas SQL-like em dados HDFS. Permite consultas mais amigáveis aos analistas com experiência em SQL.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Este quiz explora os principais conceitos e vantagens dos Sistemas de Gestão de Bases de Dados Distribuídos. Aprenda sobre a distribuição lógica, transparência e autonomia local, além de como esses sistemas garantem maior disponibilidade de dados. Teste seu conhecimento sobre as características e benefícios desses SGBDs.