Podcast
Questions and Answers
Quais são as características que os data lakes não suportam?
Quais são as características que os data lakes não suportam?
- Transações ACID (correct)
- Consistência e isolamento (correct)
- Imposição de padrões complexos
- Qualidade dos dados (correct)
Qual solução é proposta para resolver os desafios ACID nos data lakes?
Qual solução é proposta para resolver os desafios ACID nos data lakes?
- Data Hub
- Data Warehouse
- Data Lakehouse (correct)
- Data Mart
O que caracteriza um Lakehouse em comparação a um sistema de várias soluções?
O que caracteriza um Lakehouse em comparação a um sistema de várias soluções?
- Esquema simplificado (correct)
- Maior complexidade de administração
- Movimentação excessiva de dados
- Armazenamento de dados desatualizados
Qual é uma das vantagens de utilizar um único Data Lakehouse?
Qual é uma das vantagens de utilizar um único Data Lakehouse?
Qual é uma limitação dos data warehouses tradicionais em relação a dados não estruturados?
Qual é uma limitação dos data warehouses tradicionais em relação a dados não estruturados?
Qual das seguintes afirmações sobre a Snowflake é correta?
Qual das seguintes afirmações sobre a Snowflake é correta?
Qual é uma desvantagem em manter vários sistemas de dados?
Qual é uma desvantagem em manter vários sistemas de dados?
Qual é a principal função de um Data Lakehouse?
Qual é a principal função de um Data Lakehouse?
Quais são as garantias oferecidas pelo Delta Lake em relação a alterações de dados?
Quais são as garantias oferecidas pelo Delta Lake em relação a alterações de dados?
Como o Delta Lake lida com metadados em larga escala?
Como o Delta Lake lida com metadados em larga escala?
O que o log de transações do Delta Lake fornece aos desenvolvedores?
O que o log de transações do Delta Lake fornece aos desenvolvedores?
Qual das opções abaixo NÃO é suportada pelo Delta Lake?
Qual das opções abaixo NÃO é suportada pelo Delta Lake?
Como o Delta Lake trata a evolução do esquema?
Como o Delta Lake trata a evolução do esquema?
Qual é uma das funcionalidades principais da tabela Delta Lake?
Qual é uma das funcionalidades principais da tabela Delta Lake?
Qual característica do Delta Lake garante a durabilidade de dados?
Qual característica do Delta Lake garante a durabilidade de dados?
Qual a finalidade da captura de alteração de dados (CDC) no Delta Lake?
Qual a finalidade da captura de alteração de dados (CDC) no Delta Lake?
Qual é a função principal do Delta Lake?
Qual é a função principal do Delta Lake?
O que caracteriza um Data Lakehouse?
O que caracteriza um Data Lakehouse?
Quais problemas estão associados a um Data Swamp?
Quais problemas estão associados a um Data Swamp?
Qual é um benefício do uso do comando mergeSchema no Delta Lake?
Qual é um benefício do uso do comando mergeSchema no Delta Lake?
Como o Delta Lake assegura a evolução do esquema?
Como o Delta Lake assegura a evolução do esquema?
Qual é uma característica distintiva de um Data Lake em comparação a um Data Warehouse?
Qual é uma característica distintiva de um Data Lake em comparação a um Data Warehouse?
O que é necessário para evitar que um Data Lake se torne um Data Swamp?
O que é necessário para evitar que um Data Lake se torne um Data Swamp?
Qual é um conceito importante abordado por Matthew Powers sobre Delta Lake?
Qual é um conceito importante abordado por Matthew Powers sobre Delta Lake?
Qual é o valor inicial da coluna 'id' no conjunto de dados?
Qual é o valor inicial da coluna 'id' no conjunto de dados?
Qual a razão pela qual a transação de acréscimo não foi considerada uma incompatibilidade de esquema?
Qual a razão pela qual a transação de acréscimo não foi considerada uma incompatibilidade de esquema?
O que acontece quando se tenta anexar dados com duas colunas a um arquivo Delta com três colunas?
O que acontece quando se tenta anexar dados com duas colunas a um arquivo Delta com três colunas?
Qual é o número de registros após a operação de acréscimo bem-sucedida?
Qual é o número de registros após a operação de acréscimo bem-sucedida?
Se o modo de operação fosse alterado para sobrescrever, o que aconteceria com o esquema do arquivo Delta?
Se o modo de operação fosse alterado para sobrescrever, o que aconteceria com o esquema do arquivo Delta?
Após adicionar 100.000 registros, quantos valores na coluna 'id' devem ser nulos?
Após adicionar 100.000 registros, quantos valores na coluna 'id' devem ser nulos?
Qual opção deve ser adicionada para mudar o esquema de três colunas para apenas duas colunas no arquivo Delta?
Qual opção deve ser adicionada para mudar o esquema de três colunas para apenas duas colunas no arquivo Delta?
Quando os dados são lidos para o quadro de dados events_delta, quantas colunas são mostradas?
Quando os dados são lidos para o quadro de dados events_delta, quantas colunas são mostradas?
Qual é uma característica dos dados armazenados na camada de lote?
Qual é uma característica dos dados armazenados na camada de lote?
Qual é a desvantagem da arquitetura lambda em comparação com a arquitetura kappa?
Qual é a desvantagem da arquitetura lambda em comparação com a arquitetura kappa?
Como os eventos são tratados na arquitetura kappa?
Como os eventos são tratados na arquitetura kappa?
Qual é a principal diferença entre as arquiteturas de lambda e kappa?
Qual é a principal diferença entre as arquiteturas de lambda e kappa?
O que permite o recálculo de dados na arquitetura de lambda?
O que permite o recálculo de dados na arquitetura de lambda?
O que acontece quando é necessário recalcular todo o conjunto de dados na arquitetura kappa?
O que acontece quando é necessário recalcular todo o conjunto de dados na arquitetura kappa?
Qual é a função principal de um DATA LAKE no contexto apresentado?
Qual é a função principal de um DATA LAKE no contexto apresentado?
Qual aspecto é verdadeiro sobre a lógica de processamento na arquitetura kappa?
Qual aspecto é verdadeiro sobre a lógica de processamento na arquitetura kappa?
Flashcards are hidden until you start studying
Study Notes
Arquitetura Lambda
- O caminho quente contém dados para uma janela de tempo relativamente pequena.
- Os resultados do caminho quente são atualizados com dados mais precisos do caminho frio.
- Os dados brutos armazenados na camada de lote são imutáveis.
- Os dados de entrada são sempre adicionados aos dados existentes.
- Os dados anteriores nunca são substituídos.
- Mudanças no valor de um dado específico são armazenadas como um novo registro de evento com carimbo de data/hora.
- Permite o recálculo em qualquer ponto no tempo no histórico dos dados coletados.
Arquitetura Kappa
- A arquitetura Kappa é uma alternativa a Lambda.
- Todos os dados fluem por um único caminho, usando um sistema de processamento de fluxo.
- Os dados são ingeridos como um fluxo de eventos em um log unificado distribuído e tolerante a falhas.
- Esses eventos são ordenados e o estado atual de um evento é alterado somente por um novo evento.
- O processamento de eventos é feito no fluxo de entrada e persistido como uma exibição em tempo real.
Data Lake
- Data lakes não suportam transações ACID, não impõem a qualidade dos dados e sua falta de consistência/isolamento torna quase impossível unir escritas e leituras rodando processos batch e stream.
Data Lakehouse
- Uma solução convergente que combina Data Lake e Data Warehouse.
- Permite derivar inteligência de dados não estruturados (texto, imagens, vídeo, áudio).
- Vantagens: menos tempo e esforço administrativo, esquema simplificado e governança de dados, reduzida movimentação e redundância de dados, acesso direto aos dados para ferramentas de análise, armazenamento de dados econômico.
Snowflake
- Um dos melhores exemplos para abordarmos a plataforma de Lakehouse.
Delta Lake
- Garante que todas as alterações de dados gravadas no armazenamento sejam confirmadas para durabilidade e tornada visível para os leitores atomicamente.
- Escala de petabytes.
- Aproveita o Spark para dimensionar todo o processamento de metadados.
- Registra detalhes sobre todas as alterações feitas nos dados, fornecendo uma trilha de auditoria completa das mudanças.
- Permite acessar e reverter para versões anteriores de dados.
- Impede automaticamente a inserção de dados com um esquema incorreto.
- Permite que o esquema da tabela seja desenvolvido para acomodar dados em constante mudança.
- Suporta mesclagem, atualização e exclusão.
- Tem a capacidade de funcionar em lote e como uma fonte de streaming.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.