Amazon Athena
74 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Qual é a principal finalidade do Amazon Athena?

  • Permitir consultas interativas em dados armazenados no Amazon S3 (correct)
  • Transformar dados de múltiplas fontes para análise
  • Gerenciar credenciais de acesso à AWS
  • Armazenar grandes volumes de dados de forma segura
  • Qual driver é necessário para conectar o Power BI ao Amazon Athena?

  • Amazon S3 ODBC driver
  • Amazon Redshift ODBC driver
  • Microsoft ODBC driver
  • Amazon Athena ODBC driver (correct)
  • Para qual modo de conexão é recomendado o uso do DirectQuery no Power BI?

  • Para dados que exigem transformação em larga escala
  • Para conjuntos de dados de pequeno porte
  • Para dados que não precisam de atualizações frequentes
  • Para conjuntos de dados grandes que requerem consultas diretas (correct)
  • Qual a função do gateway de dados on-premises na integração com o Power BI e Athena?

    <p>Conectar o Power BI Service ao Amazon Athena de forma segura</p> Signup and view all the answers

    O que é preciso configurar para garantir o acesso adequado ao Amazon Athena?

    <p>Um usuário IAM com permissões específicas</p> Signup and view all the answers

    Quais ferramentas de BI podem ser integradas com o Amazon Athena?

    <p>Tableau e Looker</p> Signup and view all the answers

    Qual é a vantagem de usar o Amazon Athena em relação a outros serviços de análise?

    <p>Permite consultas em dados armazenados em múltiplas fontes sem infraestrutura pré-configurada</p> Signup and view all the answers

    Qual é a maneira de acessar e manipular dados antes de carregá-los no Power BI?

    <p>Utilizar o Query Editor do Power BI</p> Signup and view all the answers

    Como a compressão de dados pode afetar os custos de consulta no Amazon Athena?

    <p>Reduz a quantidade de dados escaneados, diminuindo os custos.</p> Signup and view all the answers

    Qual formato é mais eficiente para consultas no Amazon Athena?

    <p>Parquet</p> Signup and view all the answers

    O que os grupos de trabalho no Amazon Athena possibilitam?

    <p>Gerenciamento de limites de uso de dados por consulta.</p> Signup and view all the answers

    Qual é o custo inicial do Amazon Athena por terabyte de dados escaneados?

    <p>$5 por TB</p> Signup and view all the answers

    Qual recurso do Amazon Athena permite consultas em diferentes plataformas de nuvem?

    <p>Federated queries</p> Signup and view all the answers

    Qual das seguintes opções não é uma estratégia para otimizar custos no Amazon Athena?

    <p>Aumento do tamanho dos arquivos para mais de 5 GB</p> Signup and view all the answers

    Qual é um benefício do uso do Amazon Athena para análises multicloud?

    <p>Permite consultas em dados sem transferência para o S3.</p> Signup and view all the answers

    Qual é a vantagem de usar formatos colunares como o ORC com o Athena?

    <p>Permitir que apenas colunas necessárias sejam lidas.</p> Signup and view all the answers

    Qual é uma estratégia eficaz para reutilização de resultados de consultas no Amazon Athena?

    <p>Habilitar a reutilização de resultados de consultas.</p> Signup and view all the answers

    Quais serviços podem ser analisados usando o Amazon Athena via conectores de fonte de dados?

    <p>Azure Data Lake e Google Cloud Storage</p> Signup and view all the answers

    Qual das opções abaixo descreve uma desvantagem do modelo de pagamento por consulta do Amazon Athena?

    <p>Exige gestão cuidadosa para otimização de custos.</p> Signup and view all the answers

    Como a monitorização de custos pode ser implementada no Amazon Athena?

    <p>Utilizando AWS Cost and Usage Reports.</p> Signup and view all the answers

    Qual abordagem é recomendada para otimizar o tamanho dos arquivos no Amazon Athena?

    <p>Visar tamanhos de arquivo entre 1 e 2 GB.</p> Signup and view all the answers

    Como a análise de logs de desempenho de consultas pode ajudar no custo do Athena?

    <p>Identifica consultas que consomem mais recursos.</p> Signup and view all the answers

    Qual é uma das principais vantagens de usar formatos de dados colunares como Parquet e ORC no Amazon Athena?

    <p>Permitem que o Athena leia apenas as colunas necessárias para uma consulta</p> Signup and view all the answers

    Qual técnica pode ser usada para melhorar a performance de consulta ao particionar os dados?

    <p>Particionar os dados com base em filtros comuns de consulta</p> Signup and view all the answers

    Como a compressão de dados afeta a execução das consultas no Amazon Athena?

    <p>Reduz a quantidade de dados escaneados, acelerando a execução</p> Signup and view all the answers

    Qual das seguintes ferramentas pode ser integrada diretamente ao Amazon Athena para visualização de dados?

    <p>Tableau</p> Signup and view all the answers

    Qual é a principal função do Amazon QuickSight quando integrado ao Amazon Athena?

    <p>Criar dashboards interativos e relatórios</p> Signup and view all the answers

    Qual dos seguintes é um benefício da utilização de caching em ferramentas de BI conectadas ao Athena?

    <p>Melhora a performance para dados frequentemente acessados</p> Signup and view all the answers

    O que a função 'Query Result Reuse' no Amazon Athena permite?

    <p>Reutilizar resultados de consultas anteriores para melhorar performance</p> Signup and view all the answers

    Qual prática pode ajudar a garantir um bom desempenho em consultas que utilizam JOIN no Amazon Athena?

    <p>Assegurar uma distribuição eficiente de dados entre as partições</p> Signup and view all the answers

    Qual é uma das melhores práticas para a visualização de dados utilizando BI e Amazon Athena?

    <p>Considerar o volume de dados e usar técnicas de amostragem quando necessário</p> Signup and view all the answers

    Qual das seguintes afirmações sobre o Amazon Athena é correta?

    <p>Athena permite consultas diretas em dados armazenados no Amazon S3</p> Signup and view all the answers

    Qual é uma limitação a evitar ao usar 'SELECT *' em consultas Athena?

    <p>Pode resultar na leitura de todas as colunas, desnecessariamente</p> Signup and view all the answers

    Qual é a função do driver JDBC ao conectar o Tableau ao Amazon Athena?

    <p>Permitindo a comunicação entre Tableau e Athena para consultas.</p> Signup and view all the answers

    Qual é um recurso do Grafana quando conectado ao Amazon Athena?

    <p>Criação de visualizações em tempo real e gráficos de séries temporais</p> Signup and view all the answers

    Qual é o modo recomendado para conjuntos de dados grandes ao usar Power BI com Amazon Athena?

    <p>DirectQuery mode.</p> Signup and view all the answers

    Qual é uma prática recomendada ao integrar o Tableau com o Amazon Athena?

    <p>Utilizar formatos de arquivo otimizados como Parquet.</p> Signup and view all the answers

    Como a utilização de tipos de dados adequados impacta o desempenho no Amazon Athena?

    <p>Melhora o armazenamento e o processamento das consultas</p> Signup and view all the answers

    Qual é a função principal do otimizador baseado em custo (CBO) no Amazon Athena?

    <p>Melhorar os planos de execução de consultas com base em estatísticas</p> Signup and view all the answers

    O que deve ser configurado para permitir a autenticação federada ao conectar o Tableau ao Amazon Athena?

    <p>OAuth 2.0/OIDC.</p> Signup and view all the answers

    Qual é a principal vantagem de usar extratos de dados no Tableau ao trabalhar com Athena?

    <p>Melhorar o desempenho para dados frequentemente acessados.</p> Signup and view all the answers

    Qual deve ser o tamanho ideal dos arquivos para uma melhor performance de consulta no Amazon Athena?

    <p>1-2 GB.</p> Signup and view all the answers

    Qual etapa é necessária ao configurar uma conexão ODBC do Athena com o Power BI?

    <p>Configurar um nome de origem de dados (DSN) ODBC.</p> Signup and view all the answers

    O que deve ser feito antes de publicar dashboards conectados ao Athena no Tableau Server?

    <p>Publicar o driver JDBC no Tableau Server.</p> Signup and view all the answers

    Qual das seguintes ações está incluída nas permissões necessárias para um usuário IAM acessar o Amazon Athena?

    <p>StartQueryExecution.</p> Signup and view all the answers

    Como o particionamento de dados pode beneficiar consultas no Amazon Athena?

    <p>Limita a quantidade de dados escaneados.</p> Signup and view all the answers

    Qual tipo de conexão deve ser usado para otimizar o desempenho em cenários de múltiplos usuários no Power BI?

    <p>Gateway de dados on-premises em modo padrão.</p> Signup and view all the answers

    Qual é uma das desvantagens de indisponibilizar os dados de query resultantes no Amazon S3?

    <p>Reduz a performance nas consultas subsequentes.</p> Signup and view all the answers

    Qual é um benefício de usar formatos de arquivo columnar como Parquet ou ORC no Amazon Athena?

    <p>Reduzem a quantidade de dados escaneados.</p> Signup and view all the answers

    Qual é um recurso importante ao configurar o Tableau para trabalhar com Amazon Athena para otimizar custos?

    <p>Utilizar grupos de trabalho do Athena para gerenciar acesso.</p> Signup and view all the answers

    Qual é o primeiro passo para configurar fontes de dados no Amazon Athena?

    <p>Acessar o console do AWS Glue</p> Signup and view all the answers

    Como o Amazon Athena acessa dados armazenados no S3?

    <p>Diretamente, sem necessidade de intermediários</p> Signup and view all the answers

    O que é necessário quando se configura uma fonte de dados federada no Athena?

    <p>Desplegar uma função Lambda apropriada</p> Signup and view all the answers

    Qual é a finalidade das workgroups no Amazon Athena?

    <p>Organizar o acesso a diferentes fontes de dados</p> Signup and view all the answers

    Quais dados devem ser formatados para serem compatíveis com o Amazon Athena?

    <p>Dados em formatos como CSV, JSON ou Parquet</p> Signup and view all the answers

    Qual é o passo necessário após configurar uma nova fonte de dados no Athena?

    <p>Executar testes de consulta para validar a conectividade</p> Signup and view all the answers

    O que deve ser feito para garantir que o Athena tenha acesso a buckets S3 específicos?

    <p>Configurar funções de IAM apropriadas</p> Signup and view all the answers

    O que envolve a configuração de uma fonte de dados personalizada no Amazon Athena?

    <p>Implementar uma função Lambda seguindo o SDK do Athena</p> Signup and view all the answers

    Qual o objetivo de se organizar os dados em uma estrutura lógica no S3?

    <p>Melhorar o desempenho das consultas no Athena</p> Signup and view all the answers

    O que deve ser configurado ao definir o armazenamento de resultados de consultas no Athena?

    <p>Um bucket S3 para armazenamento dos resultados</p> Signup and view all the answers

    Qual formato de arquivo pode reduzir significativamente a quantidade de dados escaneados pelo Amazon Athena?

    <p>Apache Parquet</p> Signup and view all the answers

    Qual estratégia é eficaz para reduzir custos ao usar Amazon Athena?

    <p>Compactar os dados usando formatos como GZIP</p> Signup and view all the answers

    Qual é a principal característica do modelo de cobrança Pay-Per-Query do Amazon Athena?

    <p>Baseia-se na quantidade de dados escaneados por consulta</p> Signup and view all the answers

    Como a partição de dados pode beneficiar o uso do Amazon Athena?

    <p>Limita a quantidade de dados escaneados por consulta</p> Signup and view all the answers

    Qual é o impacto do uso de unidades de processamento de dados (DPU) no modelo de capacidade provisionada?

    <p>As DPUs podem ser escaladas conforme a necessidade</p> Signup and view all the answers

    Qual das seguintes opções não resulta em custos adicionais ao usar Amazon Athena?

    <p>Armazenamento de dados em formatos columnar</p> Signup and view all the answers

    Qual das seguintes técnicas pode ser utilizada para melhorar a performance de junções em grandes conjuntos de dados?

    <p>Implementação de bucketing</p> Signup and view all the answers

    Como o recurso de reutilização de resultados de consultas pode ajudar na redução de custos?

    <p>Permite reexecuções de consultas sem custo adicional</p> Signup and view all the answers

    Qual é a razão principal para otimizar os tamanhos dos arquivos no Amazon Athena?

    <p>Tamanhos entre 1 a 2 GB equilibram performance e custo</p> Signup and view all the answers

    Qual estratégia é recomendada para evitar excessos de custos com consultas em Amazon Athena?

    <p>Monitorar e analisar os padrões de consulta regularmente</p> Signup and view all the answers

    Qual das seguintes opções não é uma técnica de otimização de consulta mencionada?

    <p>Uso indiscriminado de comandos SELECT *</p> Signup and view all the answers

    Qual é o custo por terabyte de dados escaneados no modelo Pay-Per-Query?

    <p>$5</p> Signup and view all the answers

    Qual abordagem é recomendada para a limpeza regular de dados no Amazon Athena?

    <p>Excluir versões de dados antigos e redundantes</p> Signup and view all the answers

    Qual é uma característica do modelo de capacidade provisionada?

    <p>Baseia-se no uso de recursos computacionais</p> Signup and view all the answers

    Study Notes

    Amazon Athena

    • Serviço analítico interativo e sem servidor da AWS que permite consultas de dados em escala petabyte diretamente no Amazon S3 usando SQL padrão.
    • Baseado em frameworks de código aberto como Trino e Apache Spark, permitindo flexibilidade na análise de dados de diferentes formatos e fontes.

    Integração com Ferramentas de BI

    • Integra-se facilmente com ferramentas de Business Intelligence (BI), como Microsoft Power BI e Tableau.
    • Power BI permite visualizar dados no formato familiar da interface de BI através do driver ODBC para Amazon Athena.
    • Conexão com Power BI exige instalação do driver ODBC, configuração do Nome de Fonte de Dados ODBC e especificação do bucket S3 para resultados de consulta.
    • No Power BI, os usuários podem optar por modos de Importação ou DirectQuery, dependendo do tamanho dos conjuntos de dados.
    • Para cenários empresariais, é crucial configurar um gateway de dados local para conexões seguras.
    • Outras ferramentas de BI, como Tableau e Looker, também possuem conectores que seguem princípios similares de conexão.

    Gestão de Custos de Consulta no Athena

    • Modelo de precificação baseado na quantidade de dados escaneados com custos a partir de $5 por terabyte.
    • Estratégias para redução de custos incluem:
      • Compressão de dados para reduzir a quantidade escaneada.
      • Formatos colunares como Parquet ou ORC que permitem escaneamento de dados seletivo.
      • Particionamento de dados baseado em filtros comuns de consulta.
      • Otimização de consultas e uso de workgroups para controle de custos.
      • Reutilização de resultados de consultas para evitar verificações redundantes.

    Análise Multicloud

    • Permite consulta e análise de dados em diferentes plataformas de nuvem sem mover dados para o S3.
    • Funcionalidade de consulta federada permite executar SQL em fontes externas, como Azure Data Lake e Google BigQuery.
    • Conectores pré-construídos facilitam a consulta de dados em outras nuvens diretamente do Athena.
    • Integração com ferramentas de visualização como Amazon QuickSight para criar dashboards unificados.

    Conexão com Tableau

    • Conectar Athena ao Tableau fortalece a análise visual, permitindo criar dashboards interativos.
    • Requer a instalação do driver JDBC do Athena e configuração do endpoint no Tableau.
    • Usar extrações de dados no Tableau pode melhorar o desempenho e reduzir custos de consultas.
    • Particionamento de dados em S3 e uso de formatos colunares otimizam ainda mais a performance.

    Visualização de Dados e Melhores Práticas

    • Ferramentas como Amazon QuickSight, Tableau e Power BI integradas com Athena facilitam a visualização de dados.
    • Boas práticas incluem escolha de formatos adequados, implementação de particionamento e uso de tipos de gráfico apropriados.

    Otimização do Desempenho de Consultas

    • Estratégias para melhorar o desempenho incluem uso de formatos de dados colunares, compressão, particionamento e otimização de tamanhos de arquivo.
    • Escrita de consultas SQL eficientes através de cláusulas WHERE e seleção de colunas necessárias ajuda a limitar dados escaneados.
    • Utilização de otimizador baseado em custos e análise regular dos planos de execução de consultas para identificar oportunidades de melhoria.
    • Implementação de "predicate pushdown" reduz a quantidade de dados escaneados, melhorando a eficiência.### Estratégias de Economia de Custos para Data Scanning
    • O modelo de preços do Amazon Athena é baseado na quantidade de dados escaneados por consulta, sendo essencial implementar estratégias para reduzir custos.
    • Formatos de arquivo colunares como Apache Parquet ou ORC podem reduzir os dados escaneados em até 90%. Um exemplo: escaneando de 3 TB em formato texto para apenas 0,25 TB com Parquet.
    • Utilizar compressão de dados (GZIP, LZO, SNAPPY, ZLIB) pode reduzir significativamente os dados escaneados. A compressão GZIP pode alcançar uma redução de 3:1, reduzindo custos em dois terços.
    • Particionamento de dados com base em filtros comuns (ex: data, região) ajuda a escanear apenas partições relevantes, diminuindo o processamento.
    • Tamanhos de arquivo ideais variam de 1 a 2 GB para balancear performance e eficiência de custo. Arquivos menores geram muitas solicitações S3, enquanto maiores podem escanear dados desnecessários.
    • Consultas SQL eficientes limitam dados escaneados: usar cláusulas WHERE, selecionar colunas necessárias e utilizar JOINs apropriados minimizam o processamento.
    • Reutilização de Resultados de Consultas permite economizar em consultas recorrentes, especialmente em conjuntos de dados menos alterados.
    • Grupos de trabalho no Athena ajudam a controlar limites de uso de dados e rastrear despesas entre equipes.
    • Implementar bucketing em grandes conjuntos de dados melhora a performance de joins e reduz a quantidade de dados escaneados.
    • Limpeza regular de dados para excluir versões obsoletas diminui custos de armazenamento e consultas.
    • Monitorar padrões de consulta com AWS Cost Explorer e CloudWatch para identificar consultas caras e otimizar.
    • Para cargas de trabalho previsíveis, o modelo de Capacidade Provisionada pode oferecer economia para volumes de consultas consistentes.

    Modelos de Preços do Athena

    • Dois modelos principais: pagamento por consulta e capacidade provisionada.
    • Modelo de Pagamento por Consulta: cobra $5 por terabyte (TB) escaneado, com um mínimo de 10 MB por consulta. Ideal para consultas ad-hoc.
    • Modelo de Capacidade Provisionada: foca em cargas de trabalho previsíveis, cobrando com base em recursos computacionais utilizados. Preço inicial de $0.30 por hora de Unidade de Processamento de Dados (DPU).
    • Uma DPU oferece 4 vCPUs e 16 GB de memória, com mínimo de 8 horas e possibilidade de escalar as DPUs a partir de 24.
    • Custos adicionais incluem tarifas padrão do Amazon S3 para armazenamento e transferência de dados, e tarifas do AWS Glue Data Catalog se utilizado.

    Configurando Fontes de Dados no Athena

    • AWS Glue Data Catalog é a principal fonte de dados. Crie um banco de dados e utilize crawlers para mapear dados no S3.
    • O Amazon S3 requer que os dados estejam em formatos suportados (ex: CSV, JSON, Parquet) e de preferência organizados de maneira lógica e particionada.
    • Consultas federadas permitem acessar dados externos. Necessita da implantação de uma função Lambda e configuração de permissões adequadas.
    • Conexões JDBC para bancos de dados relacionais exigem configuração de driver apropriado e função Lambda correspondente.
    • Para fontes de dados personalizadas, implemente uma função Lambda que siga o SDK de Query Federation do Athena.
    • Durante a configuração de fontes, especifique nome, descrição e detalhes de conexão, além de assegurar permissões IAM corretas.
    • Utilize grupos de trabalho no Athena para gerenciar acessos e configurações específicas.
    • Teste as configurações executando consultas para garantir conectividade e acessibilidade dos dados.
    • Revise e otimize regularmente as configurações das fontes de dados para consultas eficientes e custo-efetivas.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    More Like This

    AWS Athena for Data Analysis
    98 questions

    AWS Athena for Data Analysis

    LawAbidingCommonsense avatar
    LawAbidingCommonsense
    Amazon Aurora Overview
    71 questions

    Amazon Aurora Overview

    ReputableKelpie avatar
    ReputableKelpie
    Amazon Area Manager Intern Interview
    5 questions
    Use Quizgecko on...
    Browser
    Browser