Podcast
Questions and Answers
Qual das seguintes características não é uma das transparências oferecidas por um SGBD Distribuído?
Qual das seguintes características não é uma das transparências oferecidas por um SGBD Distribuído?
O que caracteriza a autonomia local em um SGBD Distribuído?
O que caracteriza a autonomia local em um SGBD Distribuído?
Qual é uma das principais vantagens dos SGBD Distribuídos em comparação aos sistemas centralizados?
Qual é uma das principais vantagens dos SGBD Distribuídos em comparação aos sistemas centralizados?
Qual é um componente fundamental de um SGBD Distribuído?
Qual é um componente fundamental de um SGBD Distribuído?
Signup and view all the answers
Qual é o principal objetivo da fragmentação em um SGBD Distribuído?
Qual é o principal objetivo da fragmentação em um SGBD Distribuído?
Signup and view all the answers
Qual arquitetura de SGBD Distribuído envolve um site central que controla operações?
Qual arquitetura de SGBD Distribuído envolve um site central que controla operações?
Signup and view all the answers
A replicação em um SGBD Distribuído serve para:
A replicação em um SGBD Distribuído serve para:
Signup and view all the answers
Quais dos seguintes aspectos são considerados desvantagens dos SGBD Distribuídos?
Quais dos seguintes aspectos são considerados desvantagens dos SGBD Distribuídos?
Signup and view all the answers
Qual das seguintes afirmações sobre o MapReduce é verdadeira?
Qual das seguintes afirmações sobre o MapReduce é verdadeira?
Signup and view all the answers
Qual característica do HBase permite consultas mais rápidas em conjuntos específicos de dados?
Qual característica do HBase permite consultas mais rápidas em conjuntos específicos de dados?
Signup and view all the answers
Qual é a principal função do Zookeeper em sistemas distribuídos?
Qual é a principal função do Zookeeper em sistemas distribuídos?
Signup and view all the answers
Quais os dados que o Hive consegue processar?
Quais os dados que o Hive consegue processar?
Signup and view all the answers
Para que serve o YARN no contexto do Hadoop?
Para que serve o YARN no contexto do Hadoop?
Signup and view all the answers
Qual afirmação é verdadeira sobre a integração do HBase com o HDFS?
Qual afirmação é verdadeira sobre a integração do HBase com o HDFS?
Signup and view all the answers
Qual é a principal vantagem do uso do MapReduce para processamento de grandes conjuntos de dados?
Qual é a principal vantagem do uso do MapReduce para processamento de grandes conjuntos de dados?
Signup and view all the answers
Como o Hive traduz consultas HiveQL?
Como o Hive traduz consultas HiveQL?
Signup and view all the answers
Qual funcionalidade não é relacionada ao Zookeeper?
Qual funcionalidade não é relacionada ao Zookeeper?
Signup and view all the answers
Qual é uma característica dos SGBDs centralizados?
Qual é uma característica dos SGBDs centralizados?
Signup and view all the answers
Qual das seguintes opções é uma vantagem dos SGBDs distribuídos?
Qual das seguintes opções é uma vantagem dos SGBDs distribuídos?
Signup and view all the answers
Qual arquitetura de SGBD permite que todos os nós gerenciem seus próprios dados de forma autônoma?
Qual arquitetura de SGBD permite que todos os nós gerenciem seus próprios dados de forma autônoma?
Signup and view all the answers
O que caracteriza a replicação total no contexto de SGBDs distribuídos?
O que caracteriza a replicação total no contexto de SGBDs distribuídos?
Signup and view all the answers
O que descreve melhor o HDFS?
O que descreve melhor o HDFS?
Signup and view all the answers
Qual é uma desvantagem do HDFS?
Qual é uma desvantagem do HDFS?
Signup and view all the answers
Qual é a função principal do YARN dentro do ecossistema Hadoop?
Qual é a função principal do YARN dentro do ecossistema Hadoop?
Signup and view all the answers
Como os dados são gerenciados no HDFS?
Como os dados são gerenciados no HDFS?
Signup and view all the answers
O que caracteriza a fragmentação vertical em SGBDs distribuídos?
O que caracteriza a fragmentação vertical em SGBDs distribuídos?
Signup and view all the answers
Qual é a característica da arquitetura híbrida em SGBDs distribuídos?
Qual é a característica da arquitetura híbrida em SGBDs distribuídos?
Signup and view all the answers
O que significa 'data locality' no contexto do HDFS?
O que significa 'data locality' no contexto do HDFS?
Signup and view all the answers
Qual modelo de consistência garante que todas as cópias dos dados sejam atualizadas imediatamente?
Qual modelo de consistência garante que todas as cópias dos dados sejam atualizadas imediatamente?
Signup and view all the answers
Qual é uma das principais funções do ResourceManager no YARN?
Qual é uma das principais funções do ResourceManager no YARN?
Signup and view all the answers
Qual é uma limitação do HDFS no que diz respeito ao tamanho dos blocos?
Qual é uma limitação do HDFS no que diz respeito ao tamanho dos blocos?
Signup and view all the answers
Study Notes
Sistemas de Gestão de Bases de Dados Distribuídos (SGBD Distribuídos)
- Um SGBD Distribuído é uma coleção de bases de dados interligadas, fisicamente distribuídas em uma rede de computadores. O software (DBMS Distribuído) gerencia a distribuição de forma transparente para os usuários.
- Características Principais: Distribuição lógica dos dados (vistos como um todo, apesar da distribuição física), transparência de distribuição, fragmentação (dados divididos como uma base única), replicação (dados espalhados em diversos locais tratados sem intervenção), e autonomia local (cada local/site gerencia seus dados).
- Vantagens: Maior disponibilidade (outros sites continuam funcionando mesmo com falhas em um), melhor desempenho (transações em paralelo), escalabilidade (fácil adição de sites), flexibilidade no design (fragmentação/replicação para atender necessidades).
- Arquitetura: Geralmente possui sites (nodes), rede de comunicação, gerenciador de transações distribuídas, e gerenciador de consultas distribuídas. As categorias podem ser centralizada (um site central controla), totalmente distribuída (todos os sites com autonomia) ou híbrida (combinação das duas anteriores).
- Conceitos-chave: Fragmentação (divisão lógica em partes: horizontal, vertical ou híbrida), replicação (cópias em múltiplos sites), e consistência (manter todas as cópias sincronizadas).
Comparação com SGBD Centralizados
- SGBD Centralizados: Todos os dados armazenados em um único local (servidor). Acesso e processamento centralizados.
- SGBD Distribuídos: Dados armazenados em diferentes locais (nodes) interconectados por uma rede. Processamento paralelo em vários nodes.
Vantagens de SGBD Distribuídos
- Resiliência: Alta disponibilidade, pois outros sites continuam funcionando mesmo com falhas.
- Escalabilidade: Expansão horizontal ao adicionar novos nodes para lidar com mais dados e usuários.
- Melhor Desempenho Local: Processamento local, reduzindo latência.
- Distribuição de Carga: Carga de trabalho distribuída entre nodes, evitando sobrecarga.
- Proximidade aos Dados: Armazenamento próximo aos usuários, tempo de acesso reduzido.
Arquiteturas e Modelos Comuns
- Arquitetura Centralizada: Um nó principal controla todas as operações (mais simples, mas com ponto único de falha).
- Arquitetura Totalmente Distribuída: Todos os sites têm autonomia (mais complexa, mas mais resiliente).
- Arquitetura Híbrida: Combinação das duas, com nós principais coordenando subconjuntos.
- Modelos Baseados em Fragmentação: Horizontal (divisão por linhas), Vertical (divisão por colunas), Híbrido.
- Modelos Baseados em Replicação: Total (todos os sites com cópia completa), Parcial (cada site com parte dos dados).
- Modelos de Consistência: Forte (cópias atualizadas instantaneamente), Eventual (cópias sincronizadas gradualmente).
HDFS (Hadoop Distributed File System)
- Sistema de arquivos distribuído para grandes volumes de dados em clusters. Componente central do Hadoop, otimizado para processamento paralelo.
- Arquitetura Master-Slave: NameNode (master) gerencia metadados; DataNodes (slaves) armazenam dados e gerenciam leitura/escrita.
- Tolerância a Falhas: Dados replicados (geralmente 3 cópias). Continuidade mesmo com falhas.
- Imutabilidade: Modelo WORM (Write Once, Read Many).
- Alta Escalabilidade: Expansibilidade horizontal.
- Data Locality: Processamento perto dos dados.
Usos do HDFS com outros Sistemas
- O HDFS não é um SGBD, mas é usado como base para sistemas distribuídos, especialmente para análise e processamento de grandes volumes de dados. Ferramentas e abstrações são construídas sobre o HDFS.
YARN (Yet Another Resource Negotiator)
- Gerenciador de recursos do Hadoop. Coordena a alocação de recursos (CPU, memória) em clusters.
- ResourceManager (Master): Gerencia recursos disponíveis.
- NodeManager (Slave): Cada nó, monitora e gerencia containers (unidades de recursos alocados).
- ApplicationMaster: Coordena a execução específica de uma aplicação, negociando recursos.
- Integração com HDFS: Gestions os recursos para aplicações de processamento de dados em cima do HDFS.
MapReduce
- Modelo de programação distribuída para processamento paralelo de grandes dados.
- Fase Map: Divisão e transformação dos dados em pares chave-valor.
- Fase Reduce: Combinação dos resultados do Map. (Ex: contagem de palavras).
- Integração com HDFS: Lê dados do HDFS na fase Map, e grava resultados de volta no HDFS.
HBase
- Banco de dados NoSQL distribuído baseado em colunas. Operações de leitura e escrita em tempo real sobre o HDFS.
- Baseado em Colunas: Armazenamento em “famílias de colunas” para consultas direcionadas.
- Alta Escalabilidade: Expansibilidade horizontal.
- Consistência Forte: Garante a consistência de leituras e escritas.
ZooKeeper
- Ferramenta de coordenação em sistemas distribuídos.
- Gerenciamento de Configurações: Compartilhamento de informações entre sistemas.
- Sincronização: Garante consistência de estado.
- Eleição de Líderes: Identificação de um nó principal.
- Integração com HDFS: Coordenação entre NameNode e DataNodes para gerenciamento de falhas.
Hive
- Ferramenta de Data Warehouse para executar consultas SQL em dados HDFS. Mais amigável para analistas de dados.
- Consultas SQL-like: Uso de HiveQL.
- Compatibilidade com Hadoop: Traduz consultas para tarefas MapReduce/Spark/Tez.
- Armazenamento Flexível: Dados estruturados e semiestruturados em HDFS.
- Integração com HDFS: Hive armazena metadados em bancos (ex: MySQL), os dados em HDFS. Execução de consultas usando cluster Hadoop.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Descubra os conceitos fundamentais dos Sistemas de Gestão de Bases de Dados Distribuídos. Este quiz cobre características, vantagens e arquiteturas que permitem uma gestão eficiente e escalável de dados interligados. Teste seu conhecimento sobre como a distribuição e a transparência beneficiam o gerenciamento de dados em rede.