Fluência em Dados - PDF
Document Details
Uploaded by DashingHeliotrope5850
Universidade Unic de Cuiabá
Tags
Summary
This document provides an overview of Data Fluency, covering concepts, attributes, metrics, and data transformation. It also touches upon data analysis, projections, analytics, machine learning, and artificial intelligence. The document discusses the importance of data in various contexts, and introduces the idea of data governance, big data, and data science.
Full Transcript
FLUÊNCIA EM DADOS 1 consumo pleno de informações, produtos e serviços. FLUÊNCIA EM DADOS Diariamente somos submetidos a um grande Teoria e ques...
FLUÊNCIA EM DADOS 1 consumo pleno de informações, produtos e serviços. FLUÊNCIA EM DADOS Diariamente somos submetidos a um grande Teoria e questões de provas. volume de informações. Porém, a partir do momento em que o indivíduo consegue analisar dados de maneira crítica, a resolução de problemas ou tomada CONTEÚDO PROGRAMÁTICO: de decisões sai do campo da intuição e passa a ser Conceitos, atributos, métricas, transformação de embasada em fontes confiáveis. Dados................................................................... 1 Análise de dados. Agrupamentos. Tendências. Projeções........................................................... 15 CONCEITOS, ATRIBUTOS, MÉTRICAS, Conceitos de Analytics............................................ 18 TRANSFORMAÇÃO DE DADOS. Aprendizado de Máquina........................................ 19 1. INTRODUÇÃO AOS SGBDS e BANCO Inteligência Artificial................................................. 25 DE DADOS Processamento de Linguagem Natural................... 30 CONCEITUANDO BANCO DE DADOS E SGBD Governança de Dados: conceito, tipos (centralizada, Banco de dados compartilhada e colegiada)................................ 32 Ciência de dados: Importância da informação......... 37 É uma coleção de dados inter-relacionados, representando informações sobre um domínio Big Data. Big Data em relação a outras disciplinas. 38 específico. Ciência dos dados................................................... 39 Exemplos: Lista telefônica, controle do acervo Ciclo de vida do processo de ciência de dados...... 43 de uma biblioteca, sistema de controle dos recursos Papeis dos envolvidos em projetos de Ciência de humanos de uma empresa. dados e Big Data................................................ 46 Computação em nuvens.......................................... 47 Arquitetura de Big Data........................................... 49 SGBD(Sistema de Gerenciamento de Banco de Modelos de entrega e distribuição de serviços de Big dados) Data.................................................................... 62 É um software com recursos específicos para Plataformas de computação em nuvem para Big facilitar a manipulação das informações dos dados e Data.................................................................... 54 o desenvolvimento de programas aplicativos. Linguagens de programação para ciência de dados: Um sistema de gerência de banco de dados linguagem Python e R......................................... 55 (SGBD) é uma coleção de programas que permite Bancos de dados não relacionais: bancos de dados que usuários criem e mantenham bancos de dados. NoSQL; Modelos Nosql. Principais SGBD's...... 63 Exemplos : MS SQL Server , Oracle Database, Soluções para Big Data.......................................... 67 IBM DB2, MySQL , PostgreSQL. Sistema de Banco de dados NOÇÕES INTODUTÓRIAS À DISCIPLINA É um sistema de manutenção de registros por computador envolvendo quatro componentes O QUE É FLUÊNCIA EM DADOS? principais, sendo eles dados, hardware, software e Conhecida também por data literacy, a fluência usuários. O sistema de banco de dados pode ser em dados é a habilidade de acessar, identificar e considerado como uma sala de arquivos eletrônica. interpretar dados tendo um objetivo predefinido. E Existe uma série de métodos , técnicas e ferramentas esse objetivo muda conforme o contexto. que visam sistematizar o desenvolvimento de banco Por exemplo, um analista de tráfego orgânico de dados. precisa analisar o número de visitantes de um site a fim de que novas estratégias de atração sejam elaboradas. Um especialista em cibersegurança vai avaliar o número de ameaças ou tentativas de invasão de um sistema para pensar em como diminuir esse índice, ou seja, criar medidas de proteção eficazes. De acordo com Approaches to Building Big Data Literacy, do Instituto de Tecnologia de Massachusetts (MIT), a fluência em dados consiste em quatro competências: 1. – ler dados; 2. – trabalhar com dados; 3. – analisar os dados; 4. – argumentar utilizando dados. Segundo os autores, não basta saber ler e interpretar os dados, é preciso também ter uma compreensão maior da importância dos dados no dia a dia. Portanto, a fluência em dados permite o 2 FLUÊNCIA EM DADOS OBJETIVOS DE UM SISTEMA DE BANCO DE outros e outros ainda poderão somente acessar um DADOS conjunto restrito de dados para escrita e leitura. Os Objetivos de um sistema de banco de dados é isolar os usuários dos detalhes mais 4)Interfaceamento: internos do banco de dados (abstração de dados) e Um Banco de dados deverá disponibilizar também prover independência de dados ás formas de acesso gráfico, em linguagem natural, em aplicações (estrutura física de armazenamento e à SQL ou ainda via menus de acesso, não sendo uma estratégia de acesso). “caixa-preta” somente sendo passível de ser acessada por aplicações. FUNDAMENTOS SGBD Um sistema de gerenciamento de banco de 5) Esquematização: dados é um conjunto de programas de Um Banco de dados deverá fornecer software que permite aos usuários criar, editar, mecanismos que possibilitem a compreensão do atualizar, armazenar e recuperar dados em relacionamento existente entre as tabelas e de sua tabelas de banco de dados. Dados em um banco de eventual manutenção. dados podem ser acrescentados, apagados, alterados, classificados usando um SGBD. Se você 6) Controle de Integridade: fosse um empregado em uma grande organização, a informação sobre você provavelmente seria Um Banco de dados deverá impedir que armazenadas em diferentes tabelas que estão aplicações ou acessos pelas interfaces pudessem ligados entre si. Por referência cruzada dessas comprometer a integridade dos dados. tabelas, alguém poderia mudar o endereço de uma pessoa em uma tabela e ela seria automaticamente 7)Backups: refletida para todas as outras tabelas. O SGBD deverá apresentar facilidade para recuperar falhas de hardware e software, através da CARACTERÍSTICAS GERAIS DE UM SGBD existência de arquivos de “pré-imagem” ou de outros · Controle de Redundâncias recursos automáticos, exigindo minimamente a intervenção de pessoal técnico. · Compartilhamento dos Dados · Controle de Acesso SGBDs são comumente usados para gerenciar: · Interfaceamento Sócios e listas de discussão de subscrição · Esquematização Informação contábil e contabilidade · Controle de Integridade Os dados obtidos a partir de pesquisa · Backups científica Iremos detalhar cada característica de um Informações de clientes SGBD para que possa compreender com clareza. Informações de inventário Registros pessoais 1)Controle de Redundâncias: Informações da biblioteca A redundância consiste no armazenamento de uma mesma informação em locais diferentes, As vantagens de um SGBD provocando inconsistências. Em um Banco de dados Maior disponibilidade: Uma das principais as informações só se encontram armazenadas em vantagens de um SGBD é que a mesma informação um único local, não existindo duplicação pode ser disponibilizada a utilizadores diferentes, descontrolada dos dados. Quando existem ou seja, compartilhamento de dados. replicações dos dados, estas são decorrentes do Redundância minimizada: Os dados de um processo de armazenagem típica do ambiente SGBD são mais concisos, porque, como regra geral, Cliente-Servidor, totalmente sob controle do Banco a informação nela aparece apenas uma vez. Isto de dados. reduz a redundância de dados, ou em outras palavras, a necessidade de repetir os mesmos dados 2)Compartilhamento dos Dados: uma e outra vez. Minimizando a redundância pode, O SGBD de incluir software de controle de portanto, reduzir significativamente o custo de concorrência ao acesso dos dados, garantindo em armazenamento de informações em discos rígidos e qualquer tipo de situação a escrita/leitura de dados outros dispositivos de armazenamento. sem erros. Precisão: dados precisos, consistentes são um sinal de integridade dos dados. SGBDs 3)Controle de Acesso: fomentam a integridade dos dados, porque as atualizações e alterações dos dados só tem O SGBD de dispor de recursos que que ser feitas em um só lugar. As chances de se possibilitem selecionar a autoridade de cada usuário. cometer um erro são maiores se você é obrigado a Assim um usuário poderá realizar qualquer tipo de alterar os mesmos dados em vários lugares acesso, outros poderão ler alguns dados e atualizar diferentes do que se você só tem que fazer a mudança em um só lugar. FLUÊNCIA EM DADOS 3 Programa e arquivo de pode ser bastante oneroso. consistência: Usando um sistema de gerenciamento Segurança: Mesmo com salvaguardas no de banco de dados, formatos de tabelas e lugar, pode ser possível para alguns usuários não programas do sistema são padronizados. Isso faz autorizados acessar o banco de dados. Em geral, o com que os tabelas de dados sejam mais fáceis de acesso de banco de dados é uma proposição de tudo manter, porque as mesmas regras e diretrizes se ou nada. Uma vez que um usuário não autorizado aplicam a todos os tipos de dados. O nível de fica no banco de dados, eles têm acesso a todos os consistência entre os tabelas e programas também tabelas, e não apenas algumas. Dependendo da torna mais fácil de gerenciar dados quando vários natureza dos dados envolvidos, essas quebras na programadores estão envolvidos. segurança também pode representar uma ameaça à User-friendly: Os dados são é mais fáceis de privacidade individual. Cuidados também devem ser acessar e manipular com um SGBD do que sem tomados regularmente para fazer cópias de backup ele. Na maioria dos casos, SGBDs também reduzem das tabelas e armazená-las por causa da a dependência de usuários individuais à especialistas possibilidade de incêndios e terremotos que em computação para atender às necessidades de poderiam destruir o sistema. seus dados. Maior segurança: Como afirmado Lição de encerramento anteriormente, SGBDs permitem que múltiplos Nesta lição, um sistema de gerenciamento de usuários acessem os recursos dos mesmos dados. base de dados foi definida, bem como os seus efeitos Esta capacidade é geralmente vista como um e funções. Um dos aspectos mais poderosos de um benefício, mas há riscos potenciais para a SGBD é a capacidade de organizar e recuperar organização. Algumas fontes de informação devem dados a partir de diferentes, mas relacionadas, ser protegidas ou garantida e vista apenas por tabelas. No entanto, usando Bancos de Dados tem indivíduos selecionados. Através do uso de senhas, suas vantagens e desvantagens. À medida que sistemas de gerenciamento de banco de dados avançar com a sua carreira, você deve estar ciente podem ser usado para restringir o acesso aos das vantagens e desvantagens que acompanham o dados a apenas aqueles que devem vê-lo. uso dessas ferramentas informatizadas. As Outros: Tempo de desenvolvimento de compensações que temos discutido até agora aplicações é reduzido, Maior flexibilidade para incluem coisas como a redundância, precisão, realizar alterações (independência de dados) e acessibilidade e facilidade de utilização de dados em Maior economia, informações atualizadas, menor um SGBD. Ser educado sobre os pontos fortes e volume de papel. fracos de SGBDs lhe permitirá tomar decisões mais eficazes sobre como organizar e utilizar os dados. Que características distinguem um SGBD ? Agora que você completou esta lição, você Catálogo deve ser capaz de: Um SGBD mantém não apenas o Banco de Definir o termo sistema de gerenciamento de Dados, mas também uma definição e descrição das banco de dados (SGBD). estruturas e restrições (catálogo - metadados) Descrever o propósito e funções básicas de A existência do catálogo permite que um um SGBD. mesmo SGBD possa ser utilizado para aplicações Discutir as vantagens e desvantagens de distintas (o catálogo indica uma estrutura física SGBDs. utilizada) 2. USUÁRIOS Independência de Dados Todo agrupamento de bancos de Um SGBD dá aos usuários uma visão dados possui um conjunto de usuários de banco abstrata dos dados, encobrindo detalhes não de dados. Estes usuários são distintos dos relevantes (o usuário-desenvolvedor não precisa usuários gerenciados pelo sistema operacional saber como os dados são fisicamente armazenados). onde o servidor executa. Os usuários possuem objetos de banco de dados (por exemplo, tabelas), e Múltiplas Visões dos Dados podem conceder privilégios nestes objetos para Cada usuário pode exigir uma visão outros usuários controlando, assim, quem pode diferenciada da base de dados acessar qual objeto. Depois de ler esta lição, você deve ser capaz Compartilhamento e Transações de: Definir os tipos de usuários de banco de Controle de concorrência dados. As desvantagens de um SGBD Descrever o propósito e funções básicas de Existem basicamente duas desvantagens um usuário. principais em SGBDs. Um deles é o custo, e a outra o perigo para a segurança dos dados. Administrador de Banco de Dados (DBA) Custo: A Implementação de um sistema de SGBD pode ser cara e demorada, especialmente Em um ambiente de banco de dados, o em grandes organizações. Requisitos de formação recurso primário é o banco de dados por si só e o 4 FLUÊNCIA EM DADOS recurso secundário o SGBD e os softwares depurando, documentando e dando manutenção no relacionados. A administração destes recursos cabe mesmo. É importante que, tanto analistas quanto ao Administrador de Banco de Dados, o qual programadores, estejam a par dos recursos é responsável pela autorização de acesso ao oferecidos pelo SGBD. banco de dados e pela coordenação e monitoração de seu uso. Ou seja ele coordena todas as 3. TIPOS DE SGBD (DBMS) atividades do sistema de banco de dados; possui boa compreensão dos recursos de informação da empresa e suas necessidades. Suas funções incluem: o Definição do esquema o Estrutura de armazenamento e definição de acesso aos dados o Esquema físico e organização o Concede acesso aos usuários o Cuida da integridade dos dados o Atua como elo com os usuários o Acompanha a desempenho, e responde as SGBDs vêm em muitas formas e tamanhos. mudanças exigidas Por algumas centenas de dólares ou até mesmo de o Atividades de manutenção (Backups) forma gratuita, você pode comprar um SGBD para o seu computador desktop. Para sistemas maiores os SGBDs podem ser muito mais caros. Muitos SGBDs Projetista de Banco de Dados são baseados em mainframe e alugados por O Projetista de Banco de Dados organizações. SGBDs desta escala são altamente é responsável pela identificação dos dados que sofisticados e seria extremamente caro para devem ser armazenados no banco de dados, desenvolver a partir do zero. Portanto, é mais barato escolhendo a estrutura correta para representar e para uma organização alugar um programa que armazenar dados. Muitas vezes, os projetistas de desenvolvê-lo. Uma vez que há uma variedade de banco de dados atuam como "staff" do DBA, SGBDs disponíveis, você deve conhecer algumas assumindo outras responsabilidades após a das características básicas, bem como os pontos construção do banco de dados. É função do fortes e fracos, dos principais tipos. projetista também avaliar as necessidades de cada grupo de usuários para definir as visões que serão necessárias, integrando-as, fazendo com que o TIPOS ESTRUTURAIS DE SISTEMAS DE banco de dados seja capaz de atender a todas as GERENCIAMENTO DE BANCO DE DADOS MAIS necessidades dos usuários. UTILIZADOS: Usuários Finais Relacional Existem basicamente três categorias de Os sistemas de gerenciamento de banco de usuários finais que são os usuários finais do banco dados relacional (RDBMS) suportam o modelo de de dados, fazendo consultas, atualizações e gerando dados relacional (= orientado a tabela). O esquema documentos: de uma tabela (= esquema de relação) é definido pelo nome da tabela e um número fixo de atributos Usuários casuais: acessam o banco de com tipos de dados fixos. Um registro (= entidade) dados casualmente, mas que podem corresponde a uma linha da tabela e consiste nos necessitar de diferentes informações a cada valores de cada atributo. Uma relação, portanto, acesso; utilizam sofisticadas linguagens de consiste em um conjunto de registros uniformes. consulta para especificar suas necessidades; Os esquemas de tabelas são gerados por normalização no processo de modelagem de dados. Usuários novatos ou paramétricos: utilizam porções pré-definidas do banco de Certas operações básicas são definidas nas dados,utilizando consultas pre relações: estabelecidas que já foram exaustivamente operações clássicas de conjunto (união, testadas; interseção e diferença) Usuários sofisticados: são usuários que Seleção (seleção de um subconjunto de estão familiarizados com o SGBD e registros de acordo com certos critérios de realizam consultas complexas. filtro para os valores de atributo) Projeção (selecionando um subconjunto de Analistas de Sistemas e Programadores de atributos / colunas da tabela) Aplicações Join: conjunção especial de múltiplas tabelas Os analistas determinam os requisitos dos como uma combinação do produto cartesiano com usuários finais e desenvolvem especificações para seleção e projeção. transações que atendam estes requisitos, e Essas operações básicas, bem como as os programadores implementam estas operações de criação, modificação e exclusão de especificações como programas, testando, esquemas de tabelas, operações de controle de transações e gerenciamento de usuários são FLUÊNCIA EM DADOS 5 realizadas por meio de linguagens de banco de Que significa: dados, sendo o SQL um padrão bem estabelecido Os registros não precisam ter uma estrutura para tais linguagens. uniforme, ou seja, registros diferentes Os primeiros sistemas de gerenciamento de podem ter colunas diferentes. banco de dados relacional surgiram no mercado no Os tipos de valores de colunas individuais início da década de 1980 e, desde então, são o tipo podem ser diferentes para cada registro. mais comumente usado. As colunas podem ter mais de um valor Em bancos de dados relacionais, a relação (matrizes). entre as tabelas de dados é relacional. Bancos de Os registros podem ter uma estrutura dados relacionais conectam dados em tabelas aninhada. diferentes, usando elementos comuns de dados Os armazenamentos de documentos ou um campo chave. Dados em bancos de dados costumam usar notações internas, que podem ser relacionais são armazenados em tabelas processadas diretamente em aplicativos, diferentes, cada uma com um campo chave que principalmente JSON. Os documentos JSON, identifica cada linha ou registro. Bancos de dados também podem ser armazenados como texto puro relacionais são muito mais flexíveis do que as em armazenamentos de valores-chave ou sistemas próprias estruturas de dados hierárquicos ou rede. de banco de dados relacionais. Isso, no entanto, Em bancos de dados relacionais a ligação entre as exigiria o processamento das estruturas do lado do tabelas são chamadas de relações, as tuplas cliente, o que tem a desvantagem de os recursos designam uma linha ou registro, e as colunas são oferecidos pelos armazenamentos de documentos referidas como atributos ou campos. (como índices secundários) não estarem disponíveis. Bancos de dados relacionais trabalham no Exemplos mais populares princípio de que cada tabela tem um campo chave que identifica unicamente cada linha, e que estes campos chave podem ser usados para ligar uma tabela de dados a outra. Deste modo, uma tabela pode ter uma linha formada por um número de conta Armazenamento de valores-chave de cliente, tal como o campo chave, juntamente com Armazenamento de valores-chave são o endereço e número de telefone. O número de conta provavelmente a forma mais simples de sistemas de do cliente nesta tabela pode estar ligada a uma outra gerenciamento de banco de dados. Eles só podem tabela de dados que inclui também o número de armazenar pares de chaves e valores, bem como conta do cliente (um campo de chave), mas, neste recuperar valores quando uma chave é conhecida. caso, contém informações sobre a devolução de Esses sistemas simples normalmente não são produtos, incluindo um número de ordem (um outro adequados para aplicativos complexos. Por outro campo de chave). Este campo chave pode ser ligado lado, é exatamente essa simplicidade que torna a uma outra tabela que contém números de itens e esses sistemas atraentes em certas circunstâncias. outras informações do produto, tais como local de Por exemplo, armazenamentos de valores-chave produção, cor e outros dados. Portanto, usando esse com eficiência de recursos são frequentemente banco de dados, as informações dos clientes podem aplicados em sistemas incorporados ou como bancos ser ligado a informações específicas do produto. de dados em processo de alto desempenho. O banco de dados relacional se tornou bastante popular, por duas razões principais. Em Formulários Avançados primeiro lugar, os bancos de dados relacionais podem ser usados com pouca ou Uma forma estendida de armazenamentos de nenhuma formação. Segundo, as entradas de valores-chave é capaz de classificar as chaves e, banco de dados podem ser modificadas sem portanto, permite consultas de intervalo, bem como redefinir a sua estrutura inteira. um processamento ordenado de chaves. A desvantagem de usar um banco de dados Muitos sistemas fornecem extensões relacional é que a busca de dados pode levar mais adicionais para que possamos ver uma transição tempo do que se outros métodos são usados. razoavelmente contínua para armazenamentos de Ao longo dos anos, muitosSGBDs foram documentos e grandes armazenamentos de colunas. expandidos com conceitos não relacionais, como Exemplos mais populares tipos de dados definidos pelo usuário, não atributos atômicos, herança e hierarquias, motivo pelo qual às vezes são chamados de DBMS objeto-relacional. Exemplos mais populares: Lição de encerramento Como vimos, os SGBDs são de várias formas. Banco de dados orientado a Documentos As diferentes estruturas de SGBDs foram Os armazenamentos de documentos, também comparadas e contrastadas num esforço para ajudar chamados de sistemas de banco de dados a demonstrar seus pontos fortes e fracos. Como um orientados a documentos, são caracterizados por sua trabalhador do conhecimento, você pode um dia ser organização de dados sem esquemas. convidado a selecionar e tomar decisões sobre um 6 FLUÊNCIA EM DADOS SGBD. Esta lição fornece um ponto de partida para a compreensão das questões envolvidas. ativados quando os dados são inseridos, alterados ou Agora que você completou esta lição, você apagados. Asseguram que deve ser capaz de: regras de negócio e de Comparar e contrastar a estrutura dos integridade sejam impostas ao diferentes sistemas de gerenciamento de banco de dados. banco de dados. Definir Bancos de Dados relacionais. Regras (rules) São atribuídas a colunas de Definir os Bancso de dados orientado a modo que os dados que estão Documentos. sendo inseridos devem se Definir Bancos de Dados de Armazenamento adaptar aos padrões definidos. de valores-chave. Por exemplo, pode-se utilizar regras para permitir que um 4. MODELO RELACIONAL campo que irá armazenar a UF Hoje em dia a maioria dos sistemas de base contenha somente Estados de dados são do tipo relacional. válidos. Databases relacionais têm valiosos atributos que a distinguem como superior. Provavelmente o Chaves Embora não sejam objetos em mais importante é você pode mudar a estrutura de Primárias (PK) si, as chaves são essenciais dados sem alterações nas aplicações. Suponha, para os bancos de dados por exemplo, que você adicione uma ou mais colunas relacionais. Promove a numa tabela. Você não precisa alterar nenhum carácterística de unicidade das aplicativo que o sistema vai continuar a processar. linhas, proporcionando uma Claro, se você remover uma coluna que uma maneira de identificar de forma aplicação existente utiliza, você vai ter problemas. única cada item que você queira Depois de ler esta lição, você deve ser capaz armazenar. de: Definir Bancos de Dados relacionais. Chaves Novamente, não são objetos em Discutir as funções e capacidades de uma Estrangeiras si, as chaves estrangeiras são Base de Dados Relacional (FK) colunas que fazem referências Definir os objetos de um Banco de Dados as chaves primárias de outras Relacional tabelas. Objetos de banco de dados relacional Padrões Podem ser configurados em Veremos agora uma breve descrição dos (Defaults) campos de modo que, se objetos que compõem um banco de dados do tipo nenhum dado for inserido relacional. Eles serão vistos com mais detalhes a durante uma operação de Insert, medida em que se aprofundaremos no curso. os valores padrão serão utilizados. São os objetos que contém os Tabelas tipos de dados e os dados reais Views Consistem basicamente em (visualizações) consultas armazenadas nos Colunas ou São as partes das tabelas que bancos de dados que podem Campos armazenam os dados. Devem fazer referência a uma ou muitas receber um tipo de dados e ter tabelas. Você pode criar e salvar um nome único views e utiliza-las no futuro. Normalmente excluem certas Tipos de dados Há vários tipos de dados para colunas de uma tabela e serem utilizados como: vinculam duas ou mais tabelas caráctere, número, data. Um entre si. Podem ser utilizadas único tipo de dados é atribuído a também como mecanismo de uma coluna dentro de uma segurança. tabela Índices Podem ajudar os dados de modo Storeds São como macros em que o que as consultas executem mais Procedures código Transact-SQL pode ser rápido (procedimentos escrito e armazenado sob um ___Fonte: http://ehgomes.com.br/disciplinas/bdd/sgbd.php armazenados) nome. Triggers São como storeds procedures (gatilhos) que são automaticamente FLUÊNCIA EM DADOS 7 5. ARQUITETURA DE TRÊS ESQUEMAS E A Manipulação de dados: INDEPENDÊNCIA DOS DADOS ·Recuperação da informação armazenada O Sistema de Banco de dados deve prover · Inserção de novas informações uma visão abstrata dos dados para os usuários. Essa · Exclusão de informações Abstração se dá em três níveis, o primeiro nível é o externo, o segundo nível é o conceitual e o terceiro · Modificação de dados armazenados nível é o interno. Módulos componentes do SGBD · Módulo de programa que fornece a interface entre os dados de baixo nível de armazenados num banco de dados e os programas aplicativos ou as solicitações submetidas ao sistema · Software que manipula todos os acessos ao banco de dados, proporcionando a interface de usuário ao sistema de banco de dados. Ilustrando o papel do sistema de gerência de banco de dados, de forma conceitual: Nível Interno (Físico): Nível mais baixo de abstração. Descreve como os dados estão realmente armazenados, englobando estruturas complexas de baixo nível e descreve os detalhes completos do armazenamento de dados e caminho de acesso ao banco de dados. Nível Conceitual: Descreve quais dados estão armazenados e seus relacionamentos. Neste nível, o Banco de dados é descrito através de estruturas relativamente simples, que podem envolver estruturas complexas no nível físico. Concentra-se na descrição de entidades, tipos de dados, conexões, operações de O usuário emite uma solicitação de acesso. usuários e restrições. O SGBD intercepta a solicitação e a analisa. Nível Externo (visões do usuário): O SGBD inspeciona os esquemas externos (ou Descreve partes do banco de dados, de subesquemas) relacionados aquele usuário, os acordo com as necessidades de cada usuário, mapeamentos entre os três níveis , e a definição da individualmente ocultando o restante do banco de estrutura de armazenamento. dados. O SGBD realiza as operações solicitadas no Linguagens de SGBD banco de dados armazenado. O SGBD deve oferecer linguagens e interfaces Abaixo, segue imagens com arquiteturas apropriadas para cada categoria de usuários. utilizadas em SGBD´s: Linguagem de Definição de dados (DDL) Está Linguagem é utilizada para permitir especificar o esquema do banco de dados, através de um conjunto de definições de dados. A Compilação dos comandos em DDL é armazenada no dicionário de dados (metadados). Linguagem de Manipulação de dados (DML) Está Linguagem permite ao usuário acessar ou manipular os dados, vendo-os da forma como são definidos no nível de abstração mais alto do modelo de dados utilizado. Uma Consulta (“query”) é um comando que requisita uma recuperação de informação. A parte de uma DML que envolve recuperação de informação é chamada linguagem de consulta. 8 FLUÊNCIA EM DADOS Na imagem abaixo, a métrica Valor Real exibe números de conta do trimestre atual. A transformação do último trimestre é aplicada à métrica de Valor Real para criar a métrica Valor Real - Último Trimestre, que exibe os números das contas do último trimestre. A diferença entre os conjuntos de números pode, então, ser calculada e exibida na métrica Valor Real - Diferença do Último Trimestre. As transformações são úteis para essas análises de séries de tempo, que são relevantes para vários setores, incluindo varejo, serviços bancários e telecomunicações. ____ CRÉDITO DO TEXTO: Emerson S. Gaudêncio. Disponível em https://cooperati.com.br/2012/08/banco-de-dados- conceituando-banco-de-dados-e-sgbd/ MÉTRICAS DE TRANSFORMAÇÃO: Embora exista outros métodos para executar COMPARAÇÕES COM BASE NO TEMPO E esses tipos de cálculos, OUTRAS as transformações geralmente são a As transformações permitem que você aplique abordagem mais genérica e podem ser reutilizadas e um deslocamento de atributo-elemento para aplicadas a outras análises de sequências temporais. comparação de dados métricos. Uma métrica de Por exemplo, outro tipo comum de análise de transformação pode, por exemplo, ajudar um usuário sequência temporal é uma comparação TY/LY (This a comparar a receita do último mês com a receita do Year versus Last Year ou Este Ano x Ano Passado). mês atual. Embora as transformações possam ser Você pode usar filtros para criar a comparação TY/LY, aplicadas a qualquer hierarquia de atributo, a conforme a seguir: hierarquia de tempo é usada mais frequentemente. Para calcular a receita deste ano, use um Para a hierarquia de tempo, o deslocamento pode filtro para este ano com a métrica de ser definido como um número fixo de dias, semanas, Receita. meses ou anos. Para calcular a receita do último ano, use um filtro para o último ano com a métrica de Transformações com base no tempo Receita. As métricas usam transformações de tempo No entanto, uma alternativa mais flexível é para comparar valores em momentos diferentes, usar uma transformação do Ano Passado criada como este ano em relação ao ano passado ou a data anteriormente para definir uma nova métrica, atual em relação mês atual. Por exemplo, a chamada de Receita no Ano Passado. Você pode, transformação do Ano Passado mapeia cada período então, usar um único filtro em 2003 nas métricas de tempo para seu período correspondente do ano Receita e Receita do Ano Passado para obter os passado, enquanto a transformação do Mês Atual resultados para 2003 e 2002, respectivamente. mapeia cada período de tempo para um conjunto de Embora a abordagem de filtro requeira a criação de períodos que compreendem todo o mês até agora. dois filtros, a abordagem de transformação requer apenas um. Além disso, com a abordagem de FLUÊNCIA EM DADOS 9 transformação, a mesma métrica de transformação 2. Na lista suspensa, selecione Templates de pode ser aplicada a um relatório com um filtro Métrica (na parte inferior da lista). adequado para definir análises semelhantes em Selecione Transformação. diferentes conjuntos de dados, embora a abordagem 3. Clique em Próximo. O Editor de função de filtros signifique que novos filtros precisariam ser será aberto. criados para construir cada novo relatório. 4. Na lista suspensa Função de Agregação, Como uma transformação representa uma selecione a função a ser usada para criar a regra, ela pode descrever o efeito dessa regra para métrica. diferentes níveis de dados. Por exemplo, a 5. Defina a expressão da métrica seguindo um transformação do Ano Passado descreve de forma destes procedimentos: intuitiva como um ano específico refere-se ao ano o Para digitar objetos a serem adicionados anterior. Ela também pode expressar como cada mês do ano corresponde a um mês do ano anterior. Da à expressão diretamente, digite o nome mesma maneira, a transformação pode descrever do objeto no campo Expressão. À como cada dia do ano mapeia para um dia do ano medida que você digita, objetos anterior. Essas informações definem a transformação correspondentes são exibidos em uma e abstraem todos os casos em um conceito genérico. lista suspensa. Você pode clicar em um Ou seja, você pode usar uma única métrica com uma objeto ou continuar a digitar. Você pode transformação no ano passado, independentemente digitar vários objetos, como Receita- do atributo de tempo contido no relatório. Lucro. o Para especificar a expressão escolhendo TRANSFORMAÇÕES ATEMPORAIS um objeto, clique no ícone Navegar. A caixa de diálogo Selecionar um objeto Enquanto transformações são mais será aberta. Navegue e selecione um frequentemente usadas para descobrir e analisar as objeto ou pesquise um objeto. tendências com base no tempo em seus dados, nem todas as transformações precisam ser baseadas no tempo. Por exemplo, uma transformação pode Adicionar uma transformação mapear os códigos de produtos extintos a novos. Um 1. Se as opções da área de Transformação exemplo de uma transformação atemporal é Este não forem exibidas, clique em Transformação. Catálogo/Último Catálogo, que pode subtrair um 2. Clique no ícone Pesquisar (Browse) na número de um código de produto antigo para área Transformação. A caixa de diálogo Selecionar convertê-lo em um novo. um objeto será aberta. Navegue até uma A análise de transformação-estilo também transformação e selecione-a, ou pesquise uma pode ser suportada usando as funções Lag e Lead transformação. Depois de selecionar uma fornecidas com MicroStrategy. Essas funções podem transformação, retorne ao Editor de Funções. ser usadas para definir métricas que comparam 3. Você pode remover as transformações que valores de diferentes períodos, sem o uso da métrica adicionou à métrica ou alterar a ordem em que as de transformação. transformações são aplicadas. Escolha dentre as seguintes opções: Criando uma métrica de transformação o Para remover uma transformação, clique no Para criar uma métrica, você deve definir sua ícone Excluir a lado da transformação. fórmula, que consiste em: o Para alterar a ordem das transformações Função: o cálculo aplicado aos dados de selecione uma transformação e use as negócios, como Soma ou Contagem. setas direcionais para mover para cima ou Dependendo de como a métrica é criada, para baixo. sua métrica pode conter várias funções. 4. Repita as etapas apropriadas descritas Expressão: os dados de negócios da fonte acima para definir as transformações adicionais de dados. A expressão pode conter fatos de desejadas. negócios, atributos ou outras métricas. 5. Você pode definir como o cabeçalho e A seguir, são indicadas as etapas para valores da métrica são formatados e exibidos no adicionar uma transformação a uma métrica. relatório. Por exemplo, você pode definir como os A transformação a ser aplicada à métrica já foi valores numéricos são exibidos, os estilos e criada. tamanhos das fontes e as cores de exibição das Para adicionar uma transformação a uma células. A formatação será aplicada à métrica, métrica independentemente do relatório no qual ela esteja 1. Clique em Criar em qualquer página e inserida. selecione Nova Métrica. A caixa de diálogo 6. Clique em Salvar para aplicar as Selecionar uma Função ou Template é alterações. A caixa de diálogo Salvar como é aberta. aberta. Navegue até a pasta em que deseja salvar a métrica. Digite um Nome e uma Descrição para a métrica e clique em OK. A nova métrica será salva. 10 FLUÊNCIA EM DADOS 7. É possível adicionar níveis ou uma vêm com funções predefinidas que podem ser condição à métrica. Escolha dentre as seguintes usadas para transformar seus dados de forma rápida opções: e eficiente. As empresas costumam enfrentar o Por padrão, uma métrica é calculada no desafios de transformação devido à baixa qualidade nível dos atributos do relatório no qual ela dos dados. está inserida. É possível definir o nível de Aqui estão algumas das etapas que estão atributo a ser usado no cálculo da métrica, envolvidas neste processo: independentemente do que está contido em Identifique a estrutura dos arquivos de qualquer relatório no qual a métrica é origem e extraia dados deles colocada. Para conhecer as etapas, Em seguida, mapeie os dados do arquivo de consulte Por padrão, as métricas são origem para a ferramenta de transformação avaliadas no nível dos atributos no relatório; Realize a transformação, ou seja, filtre, isto denomina-se nível de relatório. O nível classifique, limpe ou agregue os dados do relatório permite que o cálculo da Finalmente, envie o arquivo transformado métrica se adapte a diferentes relatórios. para o destino Você pode remover o nível do relatório da métrica. Se você fizer isso, apenas o nível Por que a transformação de dados é importante? explicitamente definido na métrica afetará o As empresas precisam transformar grandes cálculo da métrica, independentemente dos volumes de dados por diversos motivos, como atributos presentes no relatório. Você não migração de dados para a nuvem, consolidação de precisa remover o nível do relatório para registros, exclusão de duplicatas, alteração de adicionar níveis à métrica. Para obter uma formatação, etc. descrição mais detalhada do nível do relatório e o impacto de removê-lo, consulte As transformações também são aplicadas para o Ajuda para relatórios avançados. Execute concatenar e validar dados, realizar pesquisas ou um dos procedimentos a seguir: Para rotear dados para diferentes destinos. É benéfico ter remover o nível do relatório da métrica, uma ferramenta de transformação de dados com clique no ícone Excluir ao lado do Nível do uma ampla gama de opções de transformação para Relatório. Para adicionar o nível do relatório poder manipular os dados da melhor maneira à métrica após sua exclusão, clique no possível. ícone Adicionar Nível do Relatório.. Para Vejamos um exemplo de transformação: obter uma descrição mais detalhada de suponha que um banco adquira uma seguradora que níveis, incluindo exemplos, opera na mesma região. Uma vez concluída a consulte Métricas de Nível: Como modificar aquisição, é decidido que uma única folha de o contexto de cálculos de dados. pagamento será gerada para todos os funcionários. O processo de geração da folha de pagamento teria o Para adicionar uma condição, sido direto se todos os dados dos funcionários consulte Adicione a condição. Uma estivessem armazenados em um sistema unificado, condição permite que você aplique um filtro como um data warehouse ou banco de dados. para apenas uma métrica em um relatório No entanto, neste caso, uma empresa enquanto não afetar as demais métricas. armazenou os dados dos funcionários em um SQL Para obter uma descrição mais detalhada Server e a outra armazenou as informações da folha de métricas condicionais, incluindo de pagamento em uma planilha do Excel. Para criar exemplos, consulte Métricas Condicionais: uma folha de pagamento consolidada para os Como filtrar cálculos de dados. ______Fonte: funcionários, os dados precisam ser transformados https://www2.microstrategy.com/producthelp/Current/MSTRWeb/W para atender aos requisitos do sistema de destino, ou ebHelp/Lang_1046/Content/Transformation_metrics.htm seja, arquivo Excel. TRANSFORMAÇÃO DE DADOS O que é transformação de dados? A transformação de dados é o processo de conversão de dados brutos de um formato para outro para torná-los utilizáveis pelo sistema ou aplicativo de destino. Inclui várias atividades, como 'transformar' seus dados, filtrando-os com base em certas regras e unindo diferentes campos para obter uma visão consolidada. As ferramentas de transformação de dados ajudam a alcançar seu resultado final com facilidade. A transformação é uma etapa intermediária importante na extração, transformação e carregamento Processo (ETL) - um pré-requisito para o carregamento. A maioria Ferramentas ETL também FLUÊNCIA EM DADOS 11 Visualização da folha de pagamento consolidada armazenada no arquivo do Excel As transformações também podem ser usadas para extrair valores de diferentes tipos de dados. Em vez de sobrecarregar seus sistemas com vários - muitas vezes desnecessários - registros, você pode usar diferentes tipos de transformações de dados para filtrar dados irrelevantes. Por exemplo, se você deseja gerar um relatório de todas as vendas realizadas em um determinado país, digamos os EUA, aplicando o filtros A transformação evitará que o sistema de destino seja sobrecarregado desnecessariamente, pois apenas os registros relevantes serão transmitidos. Armazenar registros relevantes e comparativamente menores no sistema de destino significa menos consumo de memória durante o processamento do pipeline de dados, o que reduzirá o tempo de execução. Transformação de dados no local, baseada em nuvem ou manual: qual você deve escolher? O recurso de transformação de dados está disponível em várias ferramentas de integração de dados. Uma coisa boa sobre esse processo é que você pode fazer isso de várias maneiras. Cada abordagem, no entanto, vem com seus benefícios e desafios exclusivos. Vejamos algumas das técnicas comuns de transformação. Transformação de dados no local Dados da origem do SQL Server e Excel sendo A transformação no local permite que as transformados e mapeados para um arquivo de empresas extraiam, transformem e carreguem dados destino do Excel cruciais muito rapidamente. Ter uma ferramenta de Veja como o arquivo de destino cuida da transformação de dados no local também se traduz transformação: em maior conformidade regulatória e melhor gerenciamento de segurança. A maioria dessas ferramentas de transformação vem com a funcionalidade de arrastar e soltar, o que significa que funcionários não técnicos serão capazes de transformar dados e convertê-los em um formato utilizável. Uma coisa importante a ser observada é que as ferramentas no local são implantadas no local; portanto, você deve garantir que possui recursos suficientes em termos de capacidade de armazenamento e sistemas adequados para executar esses tipos de software. Transformação de dados baseada em nuvem O recurso pay-as-you-go da maioria das ferramentas de transformação de dados baseadas em nuvem dá às empresas a liberdade de aumentar ou diminuir a escala conforme e quando necessário. É uma das razões pelas quais as ferramentas baseadas em nuvem são populares. No entanto, ter dados corporativos cruciais salvos em um servidor baseado em nuvem de terceiros traz consigo a sua parcela de preocupações com a segurança. Um benefício de transformar dados na nuvem é que os tempos de instalação e configuração são reduzidos significativamente, o que significa que as 12 FLUÊNCIA EM DADOS empresas podem transformar seus dados sem muitos atrasos. Transformação manual de dados A transformação manual envolve muita codificação. Isso significa que você precisa contratar um recurso de desenvolvimento dedicado para fazer o trabalho. A transformação manual de dados pode consumir muito tempo e recursos, especialmente quando você está lidando com vários formatos de arquivo. Além disso, o risco de erro humano e exclusão acidental de dados de negócios importantes também aumenta ao transformar os dados manualmente. Portanto, é aconselhável usar uma ferramenta automatizada de transformação de dados. Como transformar seus dados Os dados podem ser transformados de várias maneiras, dependendo do seu objetivo e dos requisitos do sistema de destino. O usuário deve estar ciente de certas regras e exemplos de transformação ao usar o software. As transformações pré-criadas podem não apenas ser usadas para limpar, filtrar, dividir e juntar dados, mas também para enriquecê-los. Aqui estão alguns tipos de transformações de dados: Filtrando dados As empresas precisam processar vários registros para recuperar dados relevantes para um cenário específico. Os dados podem ser filtrados com base em uma ou mais regras. Você pode usar esses dados transformados para processamento adicional sem fazer o sistema de destino funcionar em registros irrelevantes. Dados de uma fonte de comprimento fixo sendo filtrados para exibir registros dos EUA No exemplo de transformação de dados acima, o filtros a transformação é aplicada em um documento de origem Fixed Length para mostrar registros apenas dos EUA. FLUÊNCIA EM DADOS 13 Dados do SQL Server sendo roteados para dois destinos do Excel A vida do Rota A transformação aqui é usada para enviar os dados recuperados do SQL Server para dois arquivos de destino diferentes do Excel. As condições no campo ShipVia determinam para qual Definindo a expressão que será usada para filtrar arquivo do Excel os dados serão roteados. os dados Dados de roteamento Você pode usar o Rota transformação para direcionar dados de origem para diferentes caminhos de formatos semelhantes ou diferentes, com base em certas regras lógicas. Aqui está um fluxo de dados para ilustrar o recurso: Regras da transformação de rota na tela Propriedades da transformação do roteador As condições aqui podem ser simples ou complexas, dependendo de seus requisitos. Classificação de dados As grandes empresas geralmente precisam classificar seus dados para torná-los mais gerenciáveis. o tipo a transformação pode ser 14 FLUÊNCIA EM DADOS aplicada a qualquer campo para organizar a saída em ordem crescente ou decrescente. Aqui está um exemplo no qual a transformação Classificar é usada para exibir registros de ID do cliente em ordem decrescente: Propriedades da transformação Classificar A caixa Retornar somente valores distintos também pode ser marcada para remover redundâncias e exibir registros exclusivos. A visualização dos dados do cliente armazenados no banco de dados SQL Server é Benefícios da transformação de dados classificada em ordem decrescente de CustomerID As ferramentas de transformação, quando Isso foi feito selecionando o campo usadas corretamente, podem melhorar CódigoDoCliente e selecionando a ordem de significativamente a qualidade dos dados e melhorar classificação como decrescente da seguinte maneira. a eficiência do processo. Os dados transformados são mais fáceis de usar, confiáveis e compatíveis com os sistemas e aplicativos finais. Os dados transformados de alta qualidade garantem que o sistema de destino tenha apenas dados com o formato e a estrutura exigidos. Aqui estão alguns outros benefícios das ferramentas de transformação de dados: Eles podem ajudar as empresas a colher o máximo valor de seus dados. A padronização de dados por meio de transformações pode melhorar o gerenciamento de dados. Os dados transformados podem ser utilizados por várias ferramentas para diferentes aplicativos, como visualizações, relatórios, análises, etc. ___________ FLUÊNCIA EM DADOS 15 Fonte: https://www.astera.com/pt/type/blog/data- transformation-tools/ 3. Análise prescritiva A análise prescritiva é o próximo passo após os resultados da avaliação preditiva. Isso porque uma prescrição é uma recomendação a algo ANÁLISE DE DADOS. AGRUPAMENTOS. potencialmente previsto. TENDÊNCIAS. PROJEÇÕES. Sendo assim, a melhor forma de obter uma ANÁLISE DE DADOS é o processo de análise prescritiva é fazendo projeções (predições) e, aplicação de técnicas estatísticas e lógicas para então, direcionando esforços para obter o melhor avaliar informações obtidas a partir de determinados resultado a partir das possibilidades. processos. O principal objetivo da prática é extrair Por ser uma análise de dados constantemente informações úteis a partir dos dados. A partir destas mutável (já que está sempre condicionada a informações, é possível tomar decisões mais previsões e predições), os modelos analíticos assertivas e orientadas para resultados. prescritivos são comumente apoiados por tecnologias como inteligências artificial, machine learning e TIPOS SE ANALISE DE DADOS algoritmos. As ferramentas ajudam a fazer sugestões A seguir as definições e indicações para com base em padrões diferenciados e percepções de aplicação das 4 principais metodologias de avaliação objetivos organizacionais, limitações e fatores de de informações. influência. 1. Análise descritiva Nesse tipo de análise, os dados são utilizados 4. Análise diagnóstica para fazer projeções de cenários e identificar Aqui está outro tipo de análise de dados tendências futuras a partir de determinados padrões. concentrada em algo que já aconteceu (assim como Como o próprio nome diz, a análise descritiva a análise descritiva). A análise diagnóstica, é um dos tipos de análise de dados baseado em diferentemente da descritiva, tem, como objetivo, fatos. Isso significa que, na prática, este tipo de encontrar relações de causa e efeito para destrinchar avaliação de dados é feita a partir de resultados um acontecimento. obtidos. São exemplos de análise de dados É claro que estabelecer este tipo de relação descritiva: baseado em um acontecimento passado não é tarefa Relatórios; fácil. Por isso mesmo, o processo é baseado Segmentação e controle de clientes; em probabilidades. Análises de negócio; Conhecer os principais tipos de análise de dados pode ajudar a sua empresa a dominar as Aplicação de métricas; informações-chave do negócio na palma da mão. Avaliação de resultados. Lembre-se de que, com a ajuda das melhores Um dos principais usos para a análise ferramentas, é possível automatizar momentos descritiva é orientar a construção de estratégias importantes da análise de dados (como a consolidação de relatórios e a criação de gráficos), 2. Análise preditiva mantendo a equipe focada naquilo que realmente O mais popular dos tipos de análise de dados importa: a estratégia. é justamente o modelo preditivo. Como o nome diz, sua essência está na previsão de cenários futuros com base na análise de padrões revelados pela base de dados. É importante saber que, em uma análise preditiva, não é possível prever o que vai acontecer, mas sim, o que deve acontecer SE determinadas condições se cumprirem. Qual o processo de análise de dados? Quer ver um exemplo de análise de dados O processo de análise de dados é composto preditiva? por algumas etapas essenciais: Suponhamos que sua empresa esteja 1. Definição do objeto de análise; apreensiva quanto à possível entrada de um 2. Escolha o tipo de dados que serão concorrente no mercado. analisados; A análise preditiva não será capaz de te dizer 3. Defina como será a mensuração dos dados; se o concorrente iniciará ou não suas atividades em 4. Realize a coleta de dados; breve. Em contrapartida, te ajudará a enxergar o que 5. Análise dos dados; poderá acontecer SE o concorrente, de fato, entrar 6. Faça a interpretação dos resultados. no mercado, tomando como base situações anteriores com contextos semelhantes. Podemos dizer, assim, que o objetivo da análise preditiva é determinar uma tendência, correlação, causa ou probabilidade. 16 FLUÊNCIA EM DADOS empresa. Lembre-se que a etapa de coleta é cíclica, pois deve ser feita de forma recorrente, fazendo parte da rotina da equipe. Afinal de contas, o comportamento do consumidor muda o tempo todo, o que torna necessária a atualização dos dados de forma constante. Confira abaixo mais detalhes sobre cada uma delas: Etapa 5 – Analise os dados Etapa 1 – Definição do objeto de análise Você deverá transformar os dados em Nesse primeiro momento, você precisa definir informações relevantes. Recorra a gráficos e outros qual será seu objeto de análise. Estabeleça quais recursos visuais que facilitem essa análise. perguntas deverão ser respondidas. Na etapa de análise de dados é o momento Para que tenham o efeito desejado, os de, finalmente, colocar em prática tudo o que você objetivos devem ser claros, mensuráveis e relevantes viu até aqui. para o negócio. Se possível, conte com ferramentas para Assim, as decisões serão tomadas com maior garantir análises robustas e ágeis, tornando o embasamento, você evitará desperdícios e as ações trabalho de toda a equipe mais produtivo. serão mais eficazes. Chegar a metas que seguem esse padrão depende de um passo muito importante: contar com Etapa 6 – Faça a interpretação dos resultados sua equipe para mapear os desafios enfrentados e Nessa etapa, os questionamentos iniciais definir os objetivos em conjunto. devem ser respondidos e as conclusões precisam ser tomadas. Etapa 2 – Escolha os tipos de dados que serão analisados FERRAMENTAS PARA ANÁLISE DE DADOS Defina qual será a natureza dos dados que Como você viu, as ferramentas são recursos você pretende analisar para responder às perguntas fundamentais na hora de fazer a análise de dados. A da etapa anterior. boa notícia é que existem diversas opções para não É fundamental entender de forma clara, os ter desculpa na hora de realizar esse processo tão fatores que contribuem para o crescimento da sua importante. empresa. Sendo assim, definir métricas claras e Excel possíveis vai garantir análises mais aprofundadas, e Criado em 1987, o Excel faz parte da rotina de que poderão trazer insumos valiosos para a sua diversos profissionais. Para a análise de dados, esse empresa. recurso é valioso, pois permite o armazenamento de dados, a construção de planilhas robustas, gráficos e Etapa 3 – Defina como será a mensuração dos cálculos para garantir a confiabilidade das análises. dados Na terceira etapa, é necessário estabelecer Microsoft Power Bi como você vai medir os dados a serem analisados. Mas se o que você precisa é de dashboards e Depois de definir os objetivos e de relatórios dinâmicos, o Power Bi é a ferramenta as métricas que precisam ser mensuradas é hora de mais indicada. A partir dela, é possível automatizar estabelecer a forma de colocar as análises em questões de rotina da empresa, como análises prática. menos complexas e ajustes de dados. Aqui, é importante contar com uma ferramenta que dê o suporte necessário em todas as etapas, Google Data Studio garantindo a confiabilidade dos dados e ajudando a Já o Google Data Studio é responsável por evitar erros comuns. transformar dados em informações estratégicas, Além disso, defina os responsáveis e as atuando na criação de painéis, relatórios e etapas que devem ser seguidas para que nenhum dashboards personalizados. indicador fique de fora. Google Analytics Etapa 4 – Realize a coleta de dados Uma das ferramentas mais utilizadas pelos Esse é o momento de coletar os dados brutos profissionais de Marketing, o Google Analytics é um que você deseja analisar. recurso gratuito de análises web capaz de fornecer A etapa da coleta de dados é a responsável dados valiosos sobre campanhas e páginas do site. por recolher todos os dados gerados nas fases de Utilizando um código JavaScript, o recurso entrevistas. consegue coletar dados da web, registrando Além de possibilitar o entendimento sobre os informações de acessos do usuário, como o número resultados da empresa, esse processo permite de sessões e a taxa de rejeição. mapear futuras ações par melhorar os resultados do negócio, já que aqui você terá uma visão geral da FLUÊNCIA EM DADOS 17 além de impor uma estrutura num conjunto de dados ANÁLISE DE DADOS COM PYTHON: O QUE É? mais ou menos homogêneos que têm de ser Elaborada para ser simples e acessível, separados. Python é a linguagem de programação responsável pela aplicação em Machine Learning, Inteligência ENTENDENDO O CONCEITO DE AGRUPAMENTO Artificial, e na análise de dados. HIERÁRQUICO Além de permitir o trabalho com séries No processo de análise de cluster um dos temporais, o mecanismo possibilita a manipulação de conhecimentos necessários para termos uma ideia tabelas e dados, além da construção de diversos mais clara sobre o tema é o conhecimento de tipos de gráficos. agrupamento hierárquico. É nele que é criada uma Confira alguns dos benefícios dessa estrutura em formato de árvore que vai indicar o linguagem: número de clusters. É de fácil aprendizagem; Vamos imaginar então essa árvore hierárquica. É multiplataforma; Inicia-se esse processo com cada objeto em uma É gratuita; classe por si só e aos poucos os diferentes objetos Oferece diversas possibilidades de ou variáveis vão se agrupando, criando nós que são desenvolvimento. ou dispõem de características mais semelhantes _________ entre si. Fonte: https://blog.ploomes.com/analise-de-dados/ Podemos perceber que enquanto os elementos se agrupam eles se tornam aglomerados ANÁLISE DE AGUPAMENTOS (CLUSTER) cada vez maiores e, sobretudo, passam a conter elementos cada vez mais diferenciados, até que, no O termo Análise de Agrupamentos, último momento os objetos estão unidos em primeiramente usado por (Tyron, 1939) na realidade conjunto. comporta uma variedade de algoritmos de Quando esses dados finais contém uma classificação diferentes, todos voltados para uma estrutura, digamos assim, clara em termos de grupos questão importante em várias áreas da de objetos que são similares uns aos outros, então pesquisa: Como organizar dados observados em essa estrutura se reflete na árvore hierárquica como estruturas que façam sentido, ou como ramos distintos. desenvolver taxonomias capazes de classificar dados observados em diferentes classes. O Dendrograma Importante é considerar inclusive, que essas classes devem ser classes que ocorrem "naturalmente" no Para visualizar como os agrupamentos são conjunto de dados. formados em cada passo e para avaliar os níveis de similaridade (ou distância) dos agrupamentos que A Análise de Cluster é um método ao qual são formados é utilizado o dendrograma, diagrama permite agrupar sujeitos ou variáveis em grupos com que lembra a estrutura de árvore (daí o nome) que uma ou mais características comuns, não sendo serve para exibir os níveis de similaridade (ou necessário ter informações já dadas sobre a distância). composição desses grupos. Muitas vezes temos conjunto de dados e uma necessidade de agrupar esse conjunto de dados por algum critério de similaridade em vista a algum tipo de conhecimento que a gente deseje aplicar. Um exemplo é queremos agrupar fotos de acordo com alguma similaridade, seja com fotos da mesma pessoa, ou fotos de pessoas de um grupo étnico, ou fotos de pessoas de um gênero. As possibilidades são variadas e as funções que elas podem exercer também. Para realizar esta análise é necessário medir a semelhança, dissemelhança dos sujeitos e variáveis, a partir daí, agrupar. Os conglomerados obtidos a partir disso devem apresentar tanto uma homogeneidade interna (dentro de cada conglomerado), como uma grande heterogeneidade. externa (entre conglomerados). QUAIS AS FUNÇÕES DA ANÁLISE DE A Análise de Cluster acaba por incluir vários AGRUPAMENTOS? procedimentos estatísticos que podem ser utilizados A análise de agrupamentos pode ser realizada para classificar objetos sem preconceitos, ou seja, para uma série de uso, tais como: somente com base nas semelhanças ou não que - Classificar pessoas de acordo com a eles possuem entre si. Isso sem definir previamente personalidade de cada uma delas. critérios de inclusão em qualquer agrupamento. - Segmentar o cliente de acordo com seus Assim, ela traz como possibilidade de uso a hábitos de consumo, criando assim identificação de uma estrutura presente nos dados, 18 FLUÊNCIA EM DADOS estratégias comerciais para aumentar o os sujeitos e os grupos, no método não hierárquico lucro. isso não acontece. - Classificar cidades de acordo com seus Os procedimentos não hierárquicos são aspectos físicos, demográficos, econômicos utilizados basicamente para agrupar indivíduos - e e humanos para assim criar um mapa mais não variáveis - cujo número inicial de clusters é abrangente daquele estado. definido pelo pesquisador. - Identificar grupos de investimento de acordo A probabilidade de acontecerem classificações com perfis de risco. erradas nos agrupamentos é menor nos métodos não - Identificar grupos de alunos mais propensos hierárquicos, mas em contrapartida, há uma à evasão escolar. dificuldade maior em estabelecer o número de - Segmentar empresas com base clusters de partida. Uma alternativa consiste em em indicadores financeiros utilizar o método hierárquico como técnica (rentabilidade, liquidez, margem). exploratória e após utilizar o número de clusters no Essas são somente seis de centenas de método não hierárquico. possibilidades onde a análise de agrupamentos vai se mostrar importante. Outros exemplos de aplicação da Análise de Cluster: MÉTODOS HIERÁRQUICOS Marketing - No marketing, a Análise de Cluster Os métodos de agrupamento de dados podem pode ser aplicada para proceder à segmentação de ser divididos em duas categorias cada uma delas mercados a partir das características geográficas e agregando diferentes tipos de algoritmos. demográficas, e até mesmo com base em perfis psicológicos dos consumidores, para assim identificar Métodos hierárquicos (Algoritmos mercados potenciais para determinados produtos, determinar mercados idênticos em países diferentes aglomerativos ou divisivos). ou encontrar grupos de consumidores que possam Métodos particionais (Algoritmos exclusivos ou servir de referência na previsão de vendas. não exclusivos). Na medicina - Uma das áreas que mais tem Os métodos hierárquicos são técnicas simples benefícios da aplicação da Análise de Cluster é a de análise, onde os dados são particionados de Medicina, bem como na Psicologia, na Psiquiatria. forma sucessiva, produzindo uma representação Nessas áreas, a classificação obtida de uma análise hierárquica dos agrupamentos. de clusters pode permitir identificar as causas das doenças, os sintomas, e consequentemente criar/ Algoritmos aglomerativos melhorar os seus tratamentos. O método hierárquico aglomerativo visa formar Nas Ciências Sociais - Nas Ciências Sociais, os clusters com a mínima distância interna possível, os métodos de análise de clusters podem ser usados iniciando com cada padrão formando seu próprio pelos antropólogos para definirem áreas culturais agrupamento e de forma gradual os grupos são homogêneas para assim pensarem em políticas unidos até que um único agrupamento contendo específicas para tais segmentos. todos os dados gerados. ____________ São desvantagens desse método: Fonte: https://www.trecsson.com.br/blog/economia-e- - Os agrupamentos não podem ser corrigidos, financas/analise-de-cluster ou seja, os padrões de um determinado agrupamento até o final da execução do algoritmo. - Requerem espaço de memória e tempo de CONCEITOS DE ANALYTICS. processamento. Analytics é o uso aplicado de dados, análises e raciocínio sistemático para seguir em um processo Algoritmos divisivos de tomada de decisão muito mais Estes são menos comuns entre os métodos eficiente. Analytics podem ser aplicados em hierárquicos, por conta de sua ineficiência e também diversos negócios e departamentos. por exigir uma capacidade do computador muito Consideramos, Analytics, um ramo de maior que os métodos hierárquicos aglomerativos. Business Intelligence Nesse método busca achar a partição que minimize a matriz de similaridades. Explicando Inteligência Analítica melhor, ele começa com um único agrupamento formado por todos os padrões e de modo gradual vai Utilizar a inteligência analítica está diretamente diminuindo os agrupamentos em agrupamentos ligado com a possibilidade de melhorar o menores até que seja finalizado com um desempenho com relação aos domínios agrupamento padrão. fundamentais de uma empresa ou negócio utilizando, basicamente, análise de dados. MÉTODOS NÃO HIERÁRQUICOS Analytics – tipos de análises Enquanto que no método hierárquico o algoritmo estabelece uma relação de hierarquia entre Há muitos tipos de análises que compõe o termo “Analytics”: FLUÊNCIA EM DADOS 19 Modelagem Estatística; de tratamentos como o câncer por meio da Previsão (Forecasting); decodificação do código do DNA. Data Mining; Prevenção do Crime: Nos dias atuais, Text Mining; combater o crime depende muito de análises, que Otimização; possibilitam identificar e prever a atividade criminal. Delineamento de Experimentos, etc. Esses casos são muito comuns em empresas de cartão de créditos que monitoram as transações de Com todos os avanços na área de tecnologia seus clientes em tempo real, possibilitando a da informação e também com o aumento da quantidade de dados disponíveis, existem diversas identificação de fraudes. oportunidades para se aplicar analises bem O que não faltam são áreas que recorrem a estruturadas. essas analises para aperfeiçoar a vida das pessoas, como muitas empresas que procuraram direcionar seus esforços de marketing por meio de análise de Crescimento dos dados dados de compra. Os varejistas podem usar essas O ritmo do crescimento dos dados está analises para aperfeiçoar suas decisões. acelerando a cada dia. E-mails são armazenados em Tradicionalmente, as lojas analisam os itens que bancos de dados corporativos, conversas telefônicas mais vendem para armazenar uma quantidade maior. são armazenadas e, também, digitalizadas. Muitas Isso evita que elas façam investimentos ruins e empresas estão criando grandes repositórios de que foquem em produtos que tenham muito mais dados (banco de dados), procurando manter um forte saída e que atendam o perfil de seu público alvo. registro digital de tudo o que está acontecendo como, por exemplo, sistemas financeiros, sistemas de O que não faltam são exemplos de aplicações