Amazon S3: Construção de Data Lake
77 Questions
0 Views

Amazon S3: Construção de Data Lake

Created by
@SlickCotangent

Podcast Beta

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Qual é a taxa de durabilidade dos dados armazenados no Amazon S3?

  • 99.99%
  • 99.9%
  • 99.9999999%
  • 99.999999999% (correct)
  • Qual serviço da AWS pode ser usado para ingestão de dados em tempo real em um data lake baseado em S3?

  • AWS Lambda
  • Amazon RDS
  • AWS Glue
  • Amazon Kinesis (correct)
  • Quais zonas devem ser criadas para organizar os dados dentro dos buckets do S3?

  • Zona de Teste, Zona de Produção, Zona de Backup
  • Zona Bruta, Zona Processada, Zona Curada (correct)
  • Zona Inicial, Zona Intermediária, Zona Final
  • Zona Pré-processamento, Zona de Análise, Zona de Armazenamento
  • Qual é uma prática recomendada para gerenciamento de metadados em um data lake no S3?

    <p>Implementar uma solução de gerenciamento de metadados robusta com AWS Glue Data Catalog</p> Signup and view all the answers

    Qual formato de arquivo é mais eficiente para dados estruturados e semi-estruturados no Amazon S3?

    <p>Apache Parquet</p> Signup and view all the answers

    Qual serviço pode simplificar a gestão de segurança e controle de acesso em um data lake no S3?

    <p>AWS Lake Formation</p> Signup and view all the answers

    Qual é uma das características principais do Amazon S3 em relação ao armazenamento de dados?

    <p>Escalabilidade ilimitada</p> Signup and view all the answers

    Qual vantagem o Amazon S3 oferece para a construção de data lakes?

    <p>Flexibilidade na armazenagem de dados em formatos nativos</p> Signup and view all the answers

    Qual é a principal função do Amazon S3 Intelligent-Tiering?

    <p>Mover automaticamente objetos entre dois níveis de acesso.</p> Signup and view all the answers

    Quais serviços AWS podem ser integrados ao S3 para análise de dados?

    <p>Amazon Athena, Amazon EMR, Amazon Redshift Spectrum.</p> Signup and view all the answers

    Qual é o principal benefício de usar S3 Express One Zone?

    <p>Latência de acesso de milissegundos consistentes.</p> Signup and view all the answers

    Qual classe de armazenamento do S3 é mais adequada para dados de longo prazo que são acessados raramente?

    <p>S3 Standard-IA.</p> Signup and view all the answers

    O que o S3 Glacier Deep Archive oferece em termos de custos?

    <p>O menor custo de armazenamento para dados arquivados a longo prazo.</p> Signup and view all the answers

    Qual é o propósito da data governance usando AWS Lake Formation e AWS Glue?

    <p>Garantir a qualidade dos dados e conformidade regulatória.</p> Signup and view all the answers

    Como o S3 pode ser usado com dispositivos IoT para armazenar dados?

    <p>Os dados são enviados para AWS IoT Core e então roteados para S3.</p> Signup and view all the answers

    Qual é o principal objetivo de implementar estratégias de particionamento no S3?

    <p>Melhorar o desempenho das consultas.</p> Signup and view all the answers

    Qual armazenamento classificado é indicado para dados que precisam de recuperação rápida, mas são acessados raramente?

    <p>S3 Standard-IA.</p> Signup and view all the answers

    Qual classe de armazenamento do S3 oferece a maior durabilidade?

    <p>S3 Standard.</p> Signup and view all the answers

    O que o S3 Storage Lens permite aos usuários monitorar?

    <p>Os padrões de uso e custos associados.</p> Signup and view all the answers

    Qual classe de armazenamento do S3 é a mais adequada para dados que precisam de acesso imediato?

    <p>S3 Glacier Instant Retrieval.</p> Signup and view all the answers

    Quais são as características do S3 One Zone-IA?

    <p>Custo reduzido com menor durabilidade.</p> Signup and view all the answers

    Qual é o principal impacto do uso de políticas de ciclo de vida no S3?

    <p>Otimizar custos através da transição automática entre classes de armazenamento.</p> Signup and view all the answers

    Qual é a vantagem do formato Apache Parquet em comparação com outros formatos?

    <p>Oferece armazenamento em colunas para consultas mais rápidas.</p> Signup and view all the answers

    Qual estratégia de partição é mais comum para dados de IoT em um bucket S3?

    <p>Particionamento por data.</p> Signup and view all the answers

    Como o Amazon Kinesis Data Firehose é utilizado em relação aos dados de IoT?

    <p>Para agregar, transformar e comprimir dados em tempo real.</p> Signup and view all the answers

    Qual abordagem é recomendada para otimização de custos em lagos de dados S3?

    <p>Implementar políticas de ciclo de vida S3.</p> Signup and view all the answers

    Qual é uma prática recomendada para garantir a segurança em um lago de dados?

    <p>Usar autenticação mínima.</p> Signup and view all the answers

    O que é o AWS Glue?

    <p>Um serviço que ajuda na catalogação e preparação de dados para análise.</p> Signup and view all the answers

    Qual é a função do Amazon Athena em relação aos dados armazenados no S3?

    <p>Permitir consultas SQL diretamente nos dados do S3.</p> Signup and view all the answers

    Qual técnica é utilizada para proteger dados sensíveis em um lago de dados?

    <p>Implementar mascaramento e tokenização de dados.</p> Signup and view all the answers

    Quais são os benefícios do uso de versionamento no S3?

    <p>Proteger contra exclusões acidentais.</p> Signup and view all the answers

    Qual é a função das políticas de ciclo de vida do S3?

    <p>Alterar automaticamente a classe de armazenamento com base na idade dos dados.</p> Signup and view all the answers

    O que são VPC endpoints em relação a um lago de dados?

    <p>Uma forma de restringir o acesso à rede aos recursos do lago de dados.</p> Signup and view all the answers

    Qual é a melhor forma de gerenciar o acesso a dados sensíveis?

    <p>Implementar controles de acesso baseados em funções e atributos.</p> Signup and view all the answers

    Qual é o impacto de consolidar arquivos pequenos em objetos maiores no S3?

    <p>Reduz o número de solicitações GET e os custos associados.</p> Signup and view all the answers

    O que é AWS Lake Formation?

    <p>Uma ferramenta para gerenciamento e governança de dados em lagos de dados.</p> Signup and view all the answers

    Qual das seguintes opções ajuda a determinar padrões de acesso a dados em um lago de dados S3?

    <p>S3 Storage Class Analysis</p> Signup and view all the answers

    Qual estratégia pode ser utilizada para otimizar os custos de um lago de dados ao lidar com arquivos pequenos?

    <p>Compressão de dados</p> Signup and view all the answers

    Qual recurso permite realizar operações em larga escala em objetos S3, como copiar ou excluir objetos?

    <p>S3 Batch Operations</p> Signup and view all the answers

    Como o S3 Intelligent-Tiering é mais eficiente para dados com padrões de acesso desconhecidos?

    <p>Ele multiplica os objetos entre classes de armazenamento</p> Signup and view all the answers

    Qual classe de armazenamento do Amazon S3 é mais adequada para dados que precisam de acesso frequente?

    <p>S3 Standard</p> Signup and view all the answers

    Qual classe de armazenamento do Amazon S3 tem a maior durabilidade de dados?

    <p>Todas as classes oferecem a mesma durabilidade</p> Signup and view all the answers

    Qual estratégia é recomendada para garantir a recuperação de desastres em um lago de dados?

    <p>S3 Cross-Region Replication</p> Signup and view all the answers

    Qual formato de arquivo é altamente recomendado para a compressão e eficiência de consulta em dados estruturados?

    <p>Parquet</p> Signup and view all the answers

    Para dados que requerem acesso imediato, qual classe de armazenamento deve ser evitada?

    <p>S3 Glacier</p> Signup and view all the answers

    Qual é a função dos S3 Access Points em um lago de dados?

    <p>Facilitar o gerenciamento de acesso para dados compartilhados</p> Signup and view all the answers

    Qual é o custo previsto para classificar os dados na classe S3 Glacier Deep Archive?

    <p>O mais baixo para dados arquivados a longo prazo</p> Signup and view all the answers

    Por que é importante revisar padrões de recuperação de dados ao usar classes de armazenamento com taxas de recuperação?

    <p>Para evitar custos desnecessários</p> Signup and view all the answers

    Quais são os tipos principais de ações suportadas pelas políticas de ciclo de vida do S3?

    <p>Transição e exclusão</p> Signup and view all the answers

    Qual é a duração mínima de armazenamento para a classe S3 Glacier?

    <p>90 dias</p> Signup and view all the answers

    Qual ferramenta é útil para monitorar padrões de uso e identificar oportunidades de custo em um lago de dados S3?

    <p>S3 Storage Lens</p> Signup and view all the answers

    Qual das seguintes práticas ajuda na gestão de versões históricas de objetos S3?

    <p>Habilitar versionamento</p> Signup and view all the answers

    Qual classe de armazenamento é recomendada para aplicações que requerem tempos de acesso em milissegundos?

    <p>S3 Express One Zone</p> Signup and view all the answers

    Qual medida de segurança é recomendada para proteger dados em repouso em S3?

    <p>Usar VPC endpoints</p> Signup and view all the answers

    Qual é uma consideração importante ao implementar políticas de ciclo de vida no S3?

    <p>As mudanças de cobrança ocorrem conforme os objetos se tornam elegíveis para ações</p> Signup and view all the answers

    Qual das seguintes opções é uma prática recomendada para otimizar a transferência de dados e o desempenho de consulta?

    <p>Aplicar compressão e formatos colunar</p> Signup and view all the answers

    Quais classes de armazenamento S3 têm requisitos mínimos de tamanho de objeto?

    <p>S3 Standard-IA e S3 One Zone-IA</p> Signup and view all the answers

    Qual é a porcentagem de disponibilidade oferecida pela classe S3 Standard?

    <p>99.99%</p> Signup and view all the answers

    O que deve ser configurado para gerenciar automaticamente uploads multipart incompletos?

    <p>Políticas de ciclo de vida</p> Signup and view all the answers

    O que as políticas do ciclo de vida do S3 podem automatizar?

    <p>A gestão dos custos de armazenamento e transições de dados</p> Signup and view all the answers

    Qual é uma das principais vantagens de usar o Amazon Athena ou Amazon Redshift Spectrum com o S3 Express One Zone?

    <p>Enhance performance for frequently accessed datasets</p> Signup and view all the answers

    Qual classe de armazenamento S3 pode armazenar objetos em apenas uma zona de disponibilidade?

    <p>S3 Express One Zone</p> Signup and view all the answers

    Qual classe de armazenamento é mais indicada para dados classificados como “infreqüentemente acessados”?

    <p>S3 Standard-IA</p> Signup and view all the answers

    Qual armazenamento S3 é mais adequado para dados que precisam de acesso imediato, como imagens médicas?

    <p>S3 Glacier Instant Retrieval</p> Signup and view all the answers

    Qual classe de armazenamento S3 seria ideal para dados com padrões de acesso imprevisíveis em um data lake?

    <p>S3 Intelligent-Tiering</p> Signup and view all the answers

    Para qual finalidade o S3 One Zone-IA é mais recomendado?

    <p>Cópias de backup secundárias que podem ser facilmente recriadas</p> Signup and view all the answers

    Qual das seguintes opções é uma característica do S3 Glacier Deep Archive?

    <p>Armazenamento de dados para conformidade regulatória</p> Signup and view all the answers

    Qual benefício o S3 oferece para a computação na edge em ambientes com conexão intermitente?

    <p>Armazenamento temporário e transferência eficiente de dados</p> Signup and view all the answers

    Qual classe de armazenamento é a melhor opção para arquivos que exigem recuperação rápida, mas que são acessados menos de uma vez por mês?

    <p>S3 Standard-IA</p> Signup and view all the answers

    Como o AWS Lambda@Edge melhora a interação com o Amazon S3?

    <p>Realizando filtragem e processamento de dados na borda</p> Signup and view all the answers

    Qual das seguintes opções de armazenamento S3 é melhor para a preservação digital de dados acessados uma ou duas vezes por ano?

    <p>S3 Glacier Flexible Retrieval</p> Signup and view all the answers

    Qual opção de armazenamento é indicada para aplicações com grande volume de dados e baixa latência?

    <p>S3 Express One Zone</p> Signup and view all the answers

    Qual é a principal vantagem de usar S3 Outposts?

    <p>Gerenciamento consistente de dados em locais de borda e nuvem</p> Signup and view all the answers

    O que pode ser considerado um uso não ideal do S3 Glacier?

    <p>Armazenamento de dados acessados com frequência</p> Signup and view all the answers

    Qual método de otimização de custo permite a transição automática de dados para classes de armazenamento mais baratas no S3?

    <p>Políticas de ciclo de vida</p> Signup and view all the answers

    Qual classe de armazenamento S3 é voltada para aplicações móveis e jogos que requerem acesso de baixa latência?

    <p>S3 Standard</p> Signup and view all the answers

    Para quais dados o S3 Glacier Deep Archive é mais apropriado?

    <p>Dados que não serão acessados por mais de uma vez ao ano</p> Signup and view all the answers

    Study Notes

    Amazon Simple Storage Service (S3)

    • Lançado em 2006 pela Amazon Web Services (AWS), S3 é um serviço de armazenamento de objetos escalável e confiável.
    • Oferece durabilidade de 99,999999999% e alta disponibilidade, tornando-se uma escolha segura para armazenamento de dados.

    Construção de Data Lake com S3

    • Camada de Armazenamento: Proporciona escala praticamente ilimitada para dados estruturados e não estruturados.
    • Ingestão de Dados: Utilize serviços como Amazon Kinesis e AWS Glue para ingestão em tempo real e em lote, respectivamente.
    • Organização de Dados: Crie zonas específicas dentro dos buckets para dados brutos, processados e curados.
    • Formatos de Dados: Use formatos como Apache Parquet ou ORC para melhor desempenho de consulta e redução de custos.
    • Gerenciamento de Metadados: Implemente AWS Glue Data Catalog para facilitar a descoberta e consulta de dados.

    Segurança e Governança de Dados

    • Utilize AWS Lake Formation para controle de acesso centralizado e gestão de segurança detalhada.
    • Aplique criptografia em repouso e em trânsito usando AWS KMS.
    • Implemente controle de acesso baseado em funções (RBAC) e verifique os acessos regularmente.

    Integração S3 com IoT

    • Dispositivos IoT podem enviar dados para o AWS IoT Core, que os roteia para buckets S3.
    • Crie regras no AWS IoT Core para processar e armazenar dados em S3 de maneira escalável.
    • Utilize formatos como JSON ou Parquet para armazenar dados de IoT eficientemente.

    Classes de Armazenamento S3

    • S3 Standard: Para dados acessados frequentemente, com alta durabilidade e baixa latência.
    • S3 Intelligent-Tiering: Muda automaticamente objetos entre camadas de acesso, ideal para padrões de acesso variáveis.
    • S3 Glacier: Para arquivamento de dados, com opções de recuperação instantânea e flexível.

    Otimização de Custos em S3

    • Intelligent-Tiering pode reduzir custos de armazenamento em até 70%.
    • Use Políticas de Ciclo de Vida para transitar automaticamente objetos para classes de armazenamento mais baratas.
    • Comprimir dados e usar S3 Select para acessar dados específicos sem baixar arquivos inteiros reduz custos de transferência.

    Melhores Práticas de Segurança em Data Lakes

    • Implemente controles de acesso detalhados com AWS Lake Formation e criptografia.
    • Use monitoramento com AWS CloudTrail e logs de acesso para rastrear atividades suspeitas.
    • Realize auditorias periódicas de acesso e utilize máscara de dados para informações sensíveis.

    Estratégias de Otimização de S3

    • Particionamento de Dados: Melhora o desempenho de consultas ao reduzir os dados escaneados.
    • Formatação e Compressão: Formatos como Parquet melhoram o desempenho de consultas e economizam custos de armazenamento.
    • Replicação de Bucket: Use replicação entre regiões para recuperação de desastres e compliance.

    Integração com Análises e Machine Learning

    • S3 se integra com Amazon Athena, Amazon EMR, e Amazon SageMaker para análises e processamento de dados.
    • Utilize AWS Glue para preparar dados para análise e Amazon QuickSight para visualização.

    Ao implementar essas práticas, organizações podem construir e gerenciar um data lake seguro, escalável e otimizado no Amazon S3, promovendo eficiência em custos e alta performance na análise de dados.### Escolhendo a Classe de Armazenamento do S3

    • Considerar a frequência de acesso ao escolher a classe: S3 Standard é para dados acessados frequentemente, enquanto S3 Standard-IA e S3 One Zone-IA são para dados de acesso menos frequente.
    • Para aplicações que exigem tempos de acesso em milissegundos, as opções recomendadas são S3 Standard ou S3 Express One Zone.
    • Durabilidade das classes de armazenamento S3 é de 99,999999999% (11 nines), exceto S3 One Zone-IA e S3 Express One Zone, que armazenam dados em uma única Zona de Disponibilidade.
    • Disponibilidade do S3 Standard é de 99,99%; S3 Standard-IA oferece 99,9%, enquanto S3 One Zone-IA e S3 Express One Zone têm 99,5% devido ao armazenamento em uma única zona.
    • Para dados que necessitam de acesso imediato, evitar classes de armazenamento Glacier; S3 Glacier Instant Retrieval permite recuperação em milissegundos.
    • S3 Glacier Flexível e S3 Glacier Deep Archive têm tempos de recuperação de minutos a horas.
    • Algumas classes impõem durações mínimas de armazenamento: S3 Standard-IA e S3 One Zone-IA têm mínimo de 30 dias, e S3 Glacier possui mínimo de 90 dias.
    • Custos de armazenamento em classes de acesso menos frequente tendem a ser mais baixos, mas taxas de recuperação mais altas; S3 Glacier Deep Archive oferece o menor custo para dados arquivados a longo prazo.
    • A transição automática entre diferentes classes pode ser gerenciada com políticas de ciclo de vida do S3, conforme os padrões de uso.

    Políticas de Ciclo de Vida do S3

    • Permitem automação na gestão de dados, definindo ações ao longo do ciclo de vida de objetos no S3.
    • As políticas suportam ações de transição que movem objetos entre classes de armazenamento baseadas em condições especificadas.
    • Ações de expiração determinam quando os objetos devem ser automaticamente deletados, como logs após 365 dias.
    • É possível criar uma política pelo console da gestão AWS, REST API ou CLI AWS.
    • Se aplicam a objetos existentes e novos, com alterações de billing em vigor quando um objeto se torna elegível.
    • Pode-se ter até 1.000 regras em uma única configuração de ciclo de vida, aplicáveis a prefixos de chave, tags ou tamanhos de objetos.
    • Exemplos de uso incluem remoção automática de arquivos temporários ou transição de dados para classes mais baratas.

    S3 e Computação de Borda

    • Amazon S3 é crucial para cenários de computação de borda, oferecendo uma solução de armazenamento escalável e durável.
    • Integração com dispositivos AWS Snowball Edge, permitindo processamento e armazenamento local compatível com S3.
    • S3 atua como repositório central para dados coletados na borda, permitindo transferência eficiente para o S3 quando a conectividade está disponível.
    • S3 Outposts traz os recursos do S3 para data centers do cliente, garantindo gestão de dados consistente em ambientes de borda e nuvem.
    • Caching e sincronização melhoram o desempenho, reduzindo latência e otimizando o uso da largura de banda.
    • AWS Lambda@Edge permite processamento de dados em localizações de borda antes do envio para o S3.
    • Integração com serviços IoT da AWS para armazenamento eficiente de dados de dispositivos IoT em buckets do S3.
    • Políticas de segurança do S3, como criptografia e controles de acesso, também se aplicam a cenários de computação de borda.

    Casos de Uso das Classes de Armazenamento do S3

    • S3 Standard: aplicações que exigem acesso frequente a dados, websites dinâmicos e cargas de trabalho de big data.
    • S3 Intelligent-Tiering: ideal para lagos de dados com padrões de acesso imprevisíveis e armazenamento a longo prazo sem impacto no desempenho.
    • S3 Standard-IA: armazenamento de arquivos a longo prazo e cópias de segurança.
    • S3 One Zone-IA: cópias secundárias de dados que podem ser facilmente recriadas.
    • S3 Glacier Instant Retrieval: dados arquivados que precisam de acesso imediato.
    • S3 Glacier Flexible Retrieval: dados arquivados acessados esporadicamente, como preservação digital.
    • S3 Glacier Deep Archive: armazenamento de dados acessados raramente para conformidade regulatória.
    • S3 Express One Zone: cargas de trabalho de alta performance, como computação científica e modelagem financeira.
    • Analisar fatores como frequência de acesso, requisitos de performance, custos e necessidades de durabilidade para otimizar as escolhas de classe de armazenamento.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Description

    Este quiz explora o Amazon Simple Storage Service (S3) e suas capacidades em construção de Data Lakes. Lançado em 2006, o S3 oferece armazenamento de objetos escalável e altamente durável. Teste seus conhecimentos sobre as características, segurança e casos de uso do S3.

    More Like This

    Use Quizgecko on...
    Browser
    Browser