1-Coleta e processamento de dados.pdf
Document Details
Uploaded by StylishCedar
Tags
Full Transcript
Coleta e processamento de dados Sumário Introdução 01 Gestão de dados para a análise: 02 coleta, armazenamento e limpeza Análise exploratória de dados 04 (AED) Mas, como fazemos essa análise 05 exploratória? Conclusão 08 Saiba mais...
Coleta e processamento de dados Sumário Introdução 01 Gestão de dados para a análise: 02 coleta, armazenamento e limpeza Análise exploratória de dados 04 (AED) Mas, como fazemos essa análise 05 exploratória? Conclusão 08 Saiba mais 09 01 Introdução Na era digital, dados são o Este conteúdo destaca a principal ativo das organizações. importância de compreender o Eles impulsionam inovações e ciclo de vida dos dados, decisões estratégicas em todos os ressaltando cada etapa no suporte setores. A eficácia com que esses à tomada de decisões informadas e dados são coletados, no avanço das iniciativas de IA, armazenados, limpos e analisados capacitando profissionais a liderar determina o sucesso na a transformação digital em suas implementação de soluções de organizações. Inteligência Artificial e na consolidação de uma cultura orientada por dados. Desde a coleta até a análise, o gerenciamento eficiente de dados é fundamental para identificar padrões, tendências e garantir confiabilidade nas soluções de IA. A seleção apropriada de ferramentas analíticas é crucial – você verá isso de forma bastante aprofundada neste ebook – influenciando a agilidade e profundidade das análises. 02 Gestão de dados para a análise: coleta, armazenamento e limpeza Na gestão de dados para análise, a coleta representa o primeiro passo. Este processo envolve a aquisição de informações a partir de diversas fontes, cada uma podendo oferecer insights valiosos para a tomada de decisões. Os métodos variam bastante – elas podem ser manuais ou automatizadas. O melhor para você é aquele que mais se adequa ao seu objetivo. Alguns exemplos são: Pesquisas e questionários capturam informações não disponíveis Observação direta de nos sistemas de registros, oferecendo usuários insights diretos dos usuários: Além de a observação atenta de usuários traz entrevistas presenciais, formulários online insights imediatos sobre suas criados por meio do Google Forms e necessidades, preferências e SurveyMonkey são ótimas estratégias. comportamentos, que poderiam não ser evidentes em outras formas de coleta. Dados de comportamento utilizam sensores de rastreamento online Sistemas transacionais para entender a interação do cliente com produtos ou serviços de interesse. coletam dados, em tempo real, de produção, logística e vendas. Experimentos digitais permitem testar hipóteses e entender preferências de clientes. Usa técnicas como o teste A/B, que compara duas versões de algo para determinar qual delas é mais eficaz em atingir um objetivo específico. Uma vez coletados, os dados precisam ser armazenados em algum lugar, seja na nuvem ou em um servidor local. No final das contas, você tem que escolher o que é melhor para o seu negócio – o importante é que a database seja extremamente segura e de fácil acesso para todos os envolvidos. Alguns exemplos de armazéns de dados são: 03 Bancos de dados Data warehouses relacionais e não integra e centraliza dados de relacionais diversas fontes dentro de uma oferecem estruturas organização. São organizados organizadas para armazenar para recuperação rápida de dados estruturados e não informações, facilitando, estruturados, assim, análises complexas e respectivamente. gerações de relatórios. Data lakes armazena dados brutos e não estruturados em sua forma original, sem a necessidade de transformação ou modelagem prévia. Permite análises avançadas (até de big data), modelagem em IA e aplicação de ferramentas de machine learning: costumam ser mais baratos e ter um melhor custo-benefício que os warehouses; tem uma capacidade absurda de armazenamento, podendo guardar até, literalmente, bilhões de gigas. Mas, de nada adianta ter essa quantidade de dados se eles não forem limpos. Apesar de soar mais simples, esse processo é um dos mais importantes, pois evita distorções. Dados limpos são aqueles que não têm duplicatas, erros de padronização e nem de formato. Por exemplo, dados que incluem datas no formato brasileiro (DD/MM/AAAA) e no formato americano (MM/DD/AAAA) podem gerar confusões e precisam ser padronizados. A limpeza faz isso. Depois dela, podemos, finalmente, avançar para a fase mais importante de todas: a análise exploratória de dados. 04 Análise exploratória de dados (AED) Imagine a seguinte situação: um diamante caríssimo sumiu da maior joalheria da cidade. Entra em cena o detetive, que chega na cena do crime e começa a coletar informações: quando o diamante foi visto pela última vez, quem estava presente no local, qual segurança estava de plantão, se algo diferente aconteceu mais cedo naquele dia, além de, claro, entrevistar os funcionários do local. Em seguida, o detetive examina as câmeras de segurança e anota os horários de entrada e saída de cada cliente para determinar quem estava na loja no momento do desaparecimento misterioso. Isso é a análise exploratória. Baseando-se em informações obtidas nessa coleta e análise, o detetive tem material o suficiente para formular teorias ou ampliar mais ainda a investigação dele. É assim que funciona, também, no mundo dos dados: apoiados no resultado da análise, analistas e cientistas de dados podem visualizar padrões, prever tendências, detectar anomalias, entender a distribuição dos dados e identificar correlações entre vários elementos e fatores – a AED traz uma compreensão profunda sobre a base de dados, qualquer que ela seja. Esse processo é o coração de tudo, pois transforma dados brutos e caóticos em informações compreensíveis e aplicáveis. Além disso, a AED ajuda a garantir a qualidade dos dados antes de proceder a análises mais profundas. Ao explorar as informações visualmente e por meio de estatísticas descritivas, os analistas podem identificar e consertar problemas como valores ausentes, erros de entrada e outliers (os famosos pontos fora da curva), que podem distorcer os resultados das análises subsequentes. Esta etapa não apenas melhora a precisão dos modelos de IA que serão desenvolvidos mais tarde, mas, também, aumenta a confiança em suas conclusões. Indispensável, a análise exploratória de dados prepara o terreno para todo o trabalho analítico futuro. 05 Mas, como fazemos essa análise exploratória? Existem diversas técnicas que costumam ser empregadas na hora de fazer a AED. Geralmente, elas são métodos estatísticos e estratégias de visualização para explorar e entender os dados. Alguma das técnicas mais comuns são: ESTATÍSTICAS DESCRITIVAS 2 cálculos como média, mediana e desvio padrão resumem características fundamentais dos dados e ajudam a identificar padrões e tendências 1 VISUALIZAÇÃO DE DADOS uso de gráficos de barras, linhas e dispersão, além boxplots , uma ferramenta que representa visualmente a distribuição de dados. Tudo isso facilita a identificação de pontos fora da curva e anomalias 3 CORRELAÇÃO avaliação da relação entre variáveis para identificar associações ANÁLISE DE COMPONENTES PRINCIPAIS (PCA) 4 busca condensar uma grande quantidade de variáveis (componentes) em um número menor, com perda mínima de informação. Isso simplifica a base de dados e facilita a leitura. 06 Ferramentas de análise exploratória de dados Como estamos no século 21, felizmente existem vários softwares e bibliotecas que facilitam e aplicam as técnicas que acabamos de ver, tais como: Tableau: software que permite a criação de interações visuais complexas de dados de forma intuitiva, sem a necessidade de programação avançada; Python e todas as suas bibliotecas (pandas, matplotlib e seaborn): oferecem um ambiente de programação flexível para a manipulação de dados e criação de formas de visualização personalizadas; R: um dos softwares estatísticos mais utilizados no mundo. Proporciona acesso a uma vasta gama de pacotes para análise de dados. E como escolher qual a melhor ferramenta para você? Novamente, depende das suas necessidades, mas, esse guia aqui vai dar um panorama mais geral do que cada coisa faz: 1. Ferramentas Básicas de Análise e Manipulação de Dados Excel e Google Planilhas: muito utilizadas para análise básica, manipulação de dados e visualizações simples. São ideais para quem está começando ou para tarefas que não requerem processamento complexo de dados. 2. Ferramentas de Programação para Análise Avançada R e Python: oferecem flexibilidade para análises complexas, com bibliotecas poderosas (como dplyr em R e pandas em Python) para manipulação de dados, análise estatística e machine learning. SQL: fundamental para extrair e manipular dados de bancos de dados relacionais. Essa imagem mostra como o SQL pode ser usado para extrair nomes e idades de todos os clientes que moram em São Paulo e estão na base de dado em questão. 07 3. Ferramentas de Visualização de Dados e BI Tableau e Power BI: permitem criar visualizações interativas e dashboards, facilitando a interpretação de grandes volumes de dados e o compartilhamento de insights. São amigáveis com usuários não especializados. 4. Ferramentas Especializadas SAS, SPSS e Stata: usadas em ambientes corporativos e acadêmicos para análise estatística avançada, com interfaces adequadas para quem tem formação específica nessas áreas. 08 Conclusão A essa altura, vemos que os dados são peça-chave no sucesso de empresas espalhadas por todo o mundo corporativo. Essas informações potencializam inovação, decisões estratégicas assertivas, portanto, entender o ciclo de vida dos dados, desde a coleta até a análise, é uma habilidade que interessa todos os grandes players do mercado. As técnicas e ferramentas discutidas por aqui são fundamentais para extrair insights valiosos de conjuntos de dados complexos. Aqui, te demos várias orientações para escolher o que é melhor para você – agora, é sua vez de selecionar e praticar essas metodologias. A prática contínua de tudo que você viu por aqui vai te levar a uma posição de destaque em qualquer empresa que adote a cultura de dados na hora de elaborar suas estratégias. Além disso, você vai contribuir com tudo relacionado a essa cultura, que veio para ficar. PARA REFLETIR... Depois de ler este ebook, reflita sobre as questões abaixo: 1. Qual ideia ou conceito você descobriu e como isso mudou sua percepção sobre o tópico abordado? 2. Como você aplicaria a análise exploratória em um cenário real da sua vida? 3. Reveja as ferramentas abordadas, pense numa situação (seja ela hipotética ou real) e escolha a melhor alternativa para coletar, analisar e armazenar dados referentes a ela. Saiba mais Governança de dados: LGPD - Lei Geral de práticas, conceitos e Proteção de Dados: novos caminhos sua empresa está pronta?, por Carlos Barbieri Neste livro você entenderá o Neste livro, você tem conceito de Governança de acesso ao que há de mais Dados, os fatores críticos de amplo no contexto da sucesso e as dificuldades e LGPD. Além do texto da desafios na sua implementação. lei, encontra informações Você conhecerá uma breve sobre como mitigar história dos dados digitais, que riscos, de que modo as precederá o direcionamento que inovações trazidas pela essa nova linha de atuação legislação afetam o seu ganhará com os conceitos dia a dia, seja você um emergentes. empresário ou particular. Data Science para Ética, Governança e negócios: o que você Inteligência precisa saber sobre Artificial mineração de dados e pensamento analítico de As discussões sobre dados inteligência artificial e por Foster Provost e Tom seus limites éticos têm Fawcett ganhado contornos mais acentuados na última Este guia amplo, profundo, década. Com diversos porém não muito técnico, resultados danosos a apresenta a você os princípios indivíduos e à sociedade, fundamentais do Data Science e consequência do uso de orienta-o através do vieses discriminatórios “pensamento analítico” nas soluções empregadas necessário para extrair por sistemas conhecimento útil e valor de algorítmicos, tais modelos negócios a partir dos dados que estão embasando, de você obtém. Ao aprender os forma cada vez mais princípios do Data Science, você ampla, decisões de compreenderá as diversas empresas públicas e técnicas de mineração de dados privadas. usadas hoje. 09 Saiba mais Análise Estatística da Decisão por Otto R. Bekman e Pedro Luiz O. Costa Neto A tomada de decisão, portanto, deve, sempre que possível, ser amparada por métodos e ferramentas que possam contribuir para a sua melhor qualidade. Este livro aborda, especificamente, situações em que as decisões devem ser tomadas sob incerteza quanto à realidade em que o problema se coloca. Storytelling com dados: um guia sobre visualização de dados para profissionais de negócios por Cole Nussbaumer Knaflic É amostra magistral de rara arte no mundo dos negócios. Cole Nussbaumer Knaflic possui uma habilidade única - um dom - em contar histórias usando dados. 10