SGBD Distribuídos: Conceitos e Vantagens
32 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

O que caracteriza a transparência de distribuição em um SGBD Distribuído?

São dados apresentados de forma unificada, independente de sua localização física.

Quais são as vantagens de um SGBD Distribuído em relação a um sistema centralizado?

Maior disponibilidade, melhor desempenho, escalabilidade e flexibilidade no design.

Explique brevemente o que é fragmentação em um SGBD Distribuído.

É a divisão lógica de dados em fragmentos, que pode ser horizontal, vertical ou híbrida.

Qual é a função do gerenciador de transações distribuídas em um SGBD Distribuído?

<p>Coordena transações que envolvem múltiplos sites para garantir que sejam executadas corretamente.</p> Signup and view all the answers

O que se entende por autonomia local em um SGBD Distribuído?

<p>Cada site possui a liberdade de gerenciar seus dados independentemente.</p> Signup and view all the answers

Como a replicação de dados em um SGBD Distribuído afeta a disponibilidade?

<p>Aumenta a disponibilidade, pois a falha em um site não impede o acesso aos dados replicados em outros locais.</p> Signup and view all the answers

Descreva a arquitetura híbrida de um SGBD Distribuído.

<p>É uma combinação de controle centralizado e autonomia distribuída entre os sites.</p> Signup and view all the answers

Por que é importante garantir a consistência em um SGBD Distribuído?

<p>Para assegurar que todas as cópias de dados estejam sincronizadas e refletem informações corretas.</p> Signup and view all the answers

Quais são as principais diferenças estruturais entre SGBDs centralizados e distribuídos?

<p>Os SGBDs centralizados armazenam todos os dados em um único local, enquanto os SGBDs distribuídos têm dados armazenados em múltiplos nós interconectados.</p> Signup and view all the answers

Por que a resiliência é uma vantagem dos SGBDs distribuídos?

<p>Mesmo que um nó falhe, os outros nós podem continuar operando, garantindo a alta disponibilidade do sistema.</p> Signup and view all the answers

De que forma a proximidade dos dados em um SGBD distribuído impacta o desempenho?

<p>Com os dados armazenados próximos aos usuários, o tempo de acesso é reduzido, resultando em consultas mais rápidas.</p> Signup and view all the answers

Qual é a principal função do NameNode no HDFS?

<p>O NameNode gerencia os metadados e a estrutura de diretórios, além de controlar a localização dos blocos de dados.</p> Signup and view all the answers

Como o HDFS garante a tolerância a falhas?

<p>Os dados são replicados em múltiplos DataNodes, geralmente em três cópias, garantindo disponibilidade mesmo em caso de falhas.</p> Signup and view all the answers

Qual é a principal limitação do HDFS em relação à latência?

<p>O HDFS não é ideal para acessos aleatórios e de baixa latência, pois é otimizado para processamento em massa.</p> Signup and view all the answers

Explique a arquitetura de um SGBD totalmente distribuído.

<p>Todos os nós têm autonomia para gerenciar seus dados, eliminando um ponto único de falha e permitindo escalabilidade.</p> Signup and view all the answers

O que caracteriza a fragmentação horizontal em SGBDs distribuídos?

<p>Na fragmentação horizontal, os dados são divididos por linhas e distribuídos em diferentes locais.</p> Signup and view all the answers

Como o YARN contribui para a eficiência do Hadoop?

<p>O YARN gerencia a alocação de recursos no cluster, garantindo que as aplicações tenham os recursos necessários para execução eficiente.</p> Signup and view all the answers

Quais são as vantagens da replicação total em sistemas distribuídos?

<p>Na replicação total, todos os nós têm cópias completas do banco de dados, aumentando a disponibilidade e a tolerância a falhas.</p> Signup and view all the answers

Qual é o papel do ApplicationMaster no YARN?

<p>O ApplicationMaster coordena a execução de uma aplicação específica e negocia os recursos necessários com o ResourceManager.</p> Signup and view all the answers

Por que a imutabilidade é uma característica importante do HDFS?

<p>A imutabilidade suporta um modelo WORM, garantindo a integridade dos dados armazenados.</p> Signup and view all the answers

O que é a distribuição de carga em SGBDs distribuídos?

<p>A distribuição de carga refere-se à capacidade de distribuir o trabalho entre vários nós, evitando a sobrecarga em um único servidor.</p> Signup and view all the answers

Como o HDFS é utilizado com o MapReduce?

<p>O HDFS armazena dados em blocos, que o MapReduce processa em tarefas distribuídas, otimizando o desempenho.</p> Signup and view all the answers

Quais são as duas fases principais do modelo MapReduce e qual é a função de cada uma delas?

<p>As duas fases do MapReduce são Map e Reduce. Na fase Map, os dados são divididos em pares de chave-valor, e na fase Reduce, os resultados do estágio Map são combinados e processados.</p> Signup and view all the answers

Como o HBase se integra ao HDFS e quais são as principais características desse banco de dados?

<p>O HBase utiliza o HDFS como sistema de armazenamento subjacente. Suas principais características incluem ser baseado em colunas, alta escalabilidade e oferecer consistência forte.</p> Signup and view all the answers

Descreva a função do Zookeeper em sistemas distribuídos e sua relação com o HDFS.

<p>O Zookeeper gerencia a coordenação e a configuração em sistemas distribuídos. Ele auxilia na sincronização entre o NameNode e os DataNodes do HDFS, garantindo uma visão consistente do estado do sistema.</p> Signup and view all the answers

Por que o Hive é considerado uma ferramenta adequada para analistas que preferem SQL e como ele processa consultas?

<p>O Hive permite que analistas utilizem consultas SQL-like por meio da linguagem HiveQL. Ele traduz essas consultas para tarefas que podem ser executadas com MapReduce, Spark ou Tez.</p> Signup and view all the answers

Qual é a principal função do YARN no ecossistema Hadoop, e como ele se relaciona com outras ferramentas?

<p>YARN é o gerenciador de recursos do Hadoop, responsável pela alocação e monitoramento de recursos para aplicações distribuídas. Ele se integra com ferramentas como MapReduce, HBase e Hive para otimizar o uso de recursos.</p> Signup and view all the answers

Explique como o MapReduce contribui para a contagem de palavras em arquivos grandes.

<p>O MapReduce divide o arquivo grande em partes menores, contabiliza as palavras em cada parte durante a fase Map e, na fase Reduce, consolida os resultados.</p> Signup and view all the answers

Quais são os casos de uso típicos do HBase e por que ele é escolhido para esses propósitos?

<p>Casos de uso típicos do HBase incluem bancos de dados para aplicativos com alta taxa de escrita e leitura e o armazenamento de dados não estruturados. Ele é escolhido por sua alta escalabilidade e desempenho em tempo real.</p> Signup and view all the answers

O que é a linguagem HiveQL e qual é a sua principal função?

<p>HiveQL é uma linguagem similar ao SQL usada para interagir com dados no Hive. Sua principal função é facilitar consultas a dados armazenados no HDFS utilizando uma sintaxe familiar.</p> Signup and view all the answers

Como o Zookeeper garante a sincronização entre diferentes nós em um cluster?

<p>O Zookeeper garante a sincronização através do gerenciamento de configurações e do compartilhamento de informações entre os nós. Isso fornece uma visão consistente do estado do sistema.</p> Signup and view all the answers

Qual papel o HDFS desempenha no armazenamento de metadados e dados dentro do Hive?

<p>No Hive, o HDFS armazena os dados reais, enquanto os metadados, como esquemas e tabelas, são armazenados em bancos como MySQL.</p> Signup and view all the answers

Study Notes

Sistemas e Gestão de Bases de Dados Distribuídos (SGBD Distribuídos)

  • Um SGBD Distribuído é uma coleção de bases de dados interligadas, distribuídas em uma rede de computadores.
  • O software (DBMS Distribuído) gerencia a distribuição dos dados, tornando-a transparente para os usuários.
  • Características Principais:
    • Distribuição Lógica: Os dados são vistos como um único conjunto, embora estejam fisicamente em diferentes locais.
    • Transparência:
      • Transparência de Distribuição: Usuários não precisam saber onde os dados estão armazenados.
      • Transparência de Fragmentação: Fragmentos de dados são tratados como um banco de dados único.
      • Transparência de Replicação: Dados replicados são gerenciados sem intervenção do usuário.
    • Autonomia Local: Cada local (site, nó) tem autonomia para gerenciar seus dados.
  • Vantagens:
    • Maior Disponibilidade: Sites alternativos permitem funcionamento mesmo com falhas.
    • Melhoria no Desempenho: Permite paralelismo na execução de transações.
    • Escalabilidade: É mais fácil expandir o sistema adicionando novos locais.
    • Flexibilidade: Dados podem ser fragmentados e replicados para atender às necessidades da aplicação.
  • Arquitetura:
    • Centralizada: Um site principal controla as operações, mais simples mas com ponto único de falha.
    • Totalmente Distribuída: Cada site é totalmente autônomo, mais complexa porém mais resiliente.
    • Híbrida: Combinação das duas abordagens anteriores.
  • Componentes: Sites (Nodes), Rede de Comunicação, Gerenciador de Transações Distribuídas, Gerenciador de Consultas Distribuídas.
  • Conceitos-chave:
    • Fragmentação: Divisão lógica dos dados (horizontal, vertical, híbrida).
    • Replicação: Cópias dos dados em vários locais para maior disponibilidade e desempenho.
    • Consistência: Garantir que as cópias dos dados estejam sincronizadas.

Comparação com SGBD Centralizados

  • SGBD Centralizados: Todos os dados em um único local. Acesso e processamento centralizados.
  • SGBD Distribuídos: Dados distribuídos em diferentes locais (nós), interconectados. Processamento paralelo possível em vários nós.

Vantagens em relação aos Centralizados

  • Resiliência e Disponibilidade: Falhas em um nó não afetam outros.
  • Escalabilidade: Podem crescer horizontalmente adicionando novos nós.
  • Melhor Desempenho Local: Consultas processadas no local do dado para menos latência.
  • Distribuição de Carga: Divisão da carga entre os diferentes nós.
  • Proximidade aos Dados: Dados mais próximos dos usuários para menor tempo de acesso.

Arquiteturas e Modelos Comuns

  • Arquitetura Centralizada: Um nó principal controla todas as operações.
  • Arquitetura Totalmente Distribuída: Cada nó tem total autonomia.
  • Arquitetura Híbrida: Combinação das abordagens centralizada e distribuída.
  • Modelos Baseados em Fragmentação:
    • Horizontal: Dados divididos por linhas em diferentes locais.
    • Vertical: Dados divididos por colunas em diferentes locais.
    • Híbrido: Combinação de horizontal e vertical.
  • Modelos Baseados em Replicação:
    • Total: Todos os nós possuem cópia completa.
    • Parcial: Cada nó possui apenas parte dos dados replicados.
  • Modelos de Consistência:
    • Forte: Todas as cópias atualizadas instantaneamente.
    • Eventual: Sincronização gradual das cópias.

Hadoop Distributed File System (HDFS)

  • Sistema de arquivos distribuído para grandes volumes de dados.
  • Características:
    • Arquitetura Master-Slave: NameNode (master) gerencia metadados, DataNodes (slaves) armazenam dados.
    • Tolerância a Falhas: Dados replicados (geralmente 3 cópias).
    • Imutabilidade: Modelo WORM (Write Once, Read Many).
    • Alta Escalabilidade: Cresce horizontalmente adicionando nós.
    • Data Locality: Processamento próximo aos dados para menos latência.
  • Vantagens:
    • Custo-benefício: Usa hardware genérico.
    • Alta Confiabilidade: Replicação protege contra falhas.
    • Desempenho em Grande Escala: Otimizado para processamento em massa.
  • Uso: Armazenamento e processamento (MapReduce, Spark) de dados.

HDFS com outros Sistemas de Bases de Dados

  • HDFS é usado como componente subjacente em sistemas de processamento distribuído mas não é um SGBD. Ferramentas como Yarn, MapReduce, HBase, ZooKeeper, Hive, trabalham sobre HDFS para adicionar funcionalidades como gestão de recursos, processamento paralelo, bancos de dados NoSQL e análises de dados.

YARN (Yet Another Resource Negotiator)

  • Gerencia recursos (CPU, memória) para aplicações Hadoop.
  • Componentes: ResourceManager (master), NodeManager (slave), ApplicationMaster.
  • Funções: Alocação de recursos, agendamento e isolamento de tarefas.

MapReduce & HBase

  • MapReduce: Processamento paralelo de dados em duas fases (mapeamento e redução).
  • HBase: Banco de dados NoSQL baseado em colunas em cima de HDFS. Alto desempenho em leitura e escrita, com alta escalabilidade.

ZooKeeper

  • Ferramenta de gerenciamento e coordenação para sistemas distribuídos.
  • Funções: Gerenciamento de configurações, sincronização e eleição de líderes.

Hive

  • Ferramenta de data warehouse para consultas SQL-like em dados HDFS. Permite consultas mais amigáveis aos analistas com experiência em SQL.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Description

Este quiz explora os principais conceitos e vantagens dos Sistemas de Gestão de Bases de Dados Distribuídos. Aprenda sobre a distribuição lógica, transparência e autonomia local, além de como esses sistemas garantem maior disponibilidade de dados. Teste seu conhecimento sobre as características e benefícios desses SGBDs.

More Like This

Use Quizgecko on...
Browser
Browser