Aula 1_Análise de Dados no Agronegócio.pdf

Full Transcript

UNIVERSIDADE FEDERAL DO TOCANTINS PROGRAMA DE PÓS-GRADUAÇÃO EM AGROENERGIA DIGITAL (PPGA) ANÁLISE DE DADOS NO AGRONEGÓCIO Professor Fernando Machado Haesbaert somativa.com.br ANÁLISE DE DADOS NO AGRONEGÓCIO Apresentação da...

UNIVERSIDADE FEDERAL DO TOCANTINS PROGRAMA DE PÓS-GRADUAÇÃO EM AGROENERGIA DIGITAL (PPGA) ANÁLISE DE DADOS NO AGRONEGÓCIO Professor Fernando Machado Haesbaert somativa.com.br ANÁLISE DE DADOS NO AGRONEGÓCIO Apresentação da Disciplina Introdução à Ciência de Dados Linguagem R Professor Fernando Machado Haesbaert 18/05/1985 em Mata - RS Análise de Dados no Agronegócio 3 Professor Fernando Machado Haesbaert Mestrado Doutorado Agronomia Agronomia UFSM UFSM 2003 2011 2013 2016 2021 2022 Agronomia UFSM Programa Especialização Especial de em Análise de Formação de Dados UFT Professores para Educação Profissional UFSM Análise de Dados no Agronegócio 4 Atuação Profissional Exército Brasileiro 2004 a 2007 EMATER RS 2012 a 2014 Prof. Substituto UFSM 2014 Professor UFT 2016 Análise de Dados no Agronegócio 5 APRESENTE-SE PROGRAMAÇÃO ANÁLISE DE DADOS NO AGRONEGÓCIO ANALISTA DE DADOS! Análise de Dados no Agronegócio 9 CIÊNCIA DE DADOS Data Science: É uma área, uma ciência, um campo ou domínio que inclui e envolve o trabalho com uma grande quantidade de dados e os usa para construir modelos analíticos. Análise de Dados no Agronegócio 10 CIÊNCIA DE DADOS Dado é uma matéria-prima bruta. Seu valor surge quando ele é analisado. Analisar dados -> produzir informação e conhecimento. Análise de Dados no Agronegócio 11 CIÊNCIA DE DADOS Análise de Dados no Agronegócio 12 CIÊNCIA DE DADOS Análise de Dados no Agronegócio 13 ANÁLISE DE DADOS TENHA VOLUMES GIGANTESCOS DE DADOS, MAS SEJA CAPAZ DE ANALISÁ-LOS. Fernando Amaral Análise de Dados no Agronegócio 14 CICLO DA CIÊNCIA DE DADOS Análise de Dados no Agronegócio 15 CICLO DA CIÊNCIA DE DADOS 1º - Importação e organização dos dados. 2º - Entende seus dados com um ciclo iterativo de transformação, visualização e modelagem. 3º - Comunicando seus resultados Um diagrama exibindo o ciclo de ciência de dados: Importar -> Organizar -> Entender (que tem as fases Transformar -> Visualizar -> Modelar em um ciclo) -> Comunicar. Ao redor de tudo isso está o Comunicar. Análise de Dados no Agronegócio 16 Etapas do Processo de Descoberta de Conhecimento Análise de Dados no Agronegócio 17 Processo de KDD (Knowledge Discovery in Databases) Etapas do Processo de Descoberta de Conhecimento em Banco de Dados Análise de Dados no Agronegócio 18 Processo de KDD - KDD (Knowledge Discovery in Databases) - Processo de filtragem de conhecimento útil - Necessidade de compreender e utilizar de forma efetiva os dados disponíveis para a tomada de decisões - Integra várias técnicas e tecnologias, incluindo estatística, visualização de dados, IA, BD / data warehouse, processamento de sinais e supercomputação Análise de Dados no Agronegócio 19 Tarefas, Técnicas e Modelos de Mineração de Dados - KDD (Knowledge Discovery in Databases) - Processo de filtragem de conhecimento útil - Necessidade de compreender e utilizar de forma efetiva os dados disponíveis para a tomada de decisões - Integra várias técnicas e tecnologias, incluindo estatística, visualização de dados, IA, BD / data warehouse, processamento de sinais e supercomputação Análise de Dados no Agronegócio 20 Mineração de Dados Não adianta ter terabytes de dados sobre seus clientes se você não sabe se ele está satisfeito, que tipo de produto ele procura, o quanto ele está disposto a mudar para a concorrência etc. Mineração de Dados transformar dados em informação e conhecimento: Minerar Dados é uma forma sofisticada e complexa de analisar dados. Resultado da mineração: trazer insights sobre o negócio. Análise de Dados no Agronegócio 21 Mineração de Dados Data Mining: é uma técnica ou processo para extrair informações e conhecimentos úteis de grande conjuntos de dados. Ele obtém insights ao extrair, revisar e processar cuidadosamente os dados enormes para descobrir o padrão e as correlações que podem ser importantes para o negócio. É análogo à mineração de minerais, onde o mineral é extraído de rochas, separados, limpo e processado, deixando pronto para o beneficiamento. Análise de Dados no Agronegócio 22 Mineração de Dados Mineração de dados: são processos para explorar e analisar grandes volumes de dados em busca de padrões, previsões, erros, associações entre outros. Normalmente a mineração de dados está associada ao aprendizado de máquina, uma área da inteligência artificial que desenvolve algoritmos capazes de fazer com que o computador aprenda a partir do passado: usando dados de eventos que já ocorreram. O aprendizado de máquina é capaz de identificar padrões que dificilmente seriam identificados a "olho nu" ou mesmo usando técnicas triviais de análise de dados, como filtros, junções, pivos ou agrupamentos. Análise de Dados no Agronegócio 23 Big Data Quantidades imensas de dados (Big Data) - Big Data e Mineração de Dados estão intimamente relacionados. Big Data: é o fenômeno de produção de informação com velocidade, volume e variedade. Mineração de dados: Necessidade de transformar dados em informação útil. Análise de Dados no Agronegócio 24 Mineração de Dados TENHA VOLUMES GIGANTESCOS DE DADOS, MAS SEJA CAPAZ DE ANALISÁ- LOS. Fernando Amaral Análise de Dados no Agronegócio 25 Mineração de Dados É uma técnica que faz parte dos processos de Descoberta de Conhecimento em Base de Dados (KDD). Análise de Dados no Agronegócio 26 Aplicações A mineração de dados tem aplicação cada vez mais difundida nas mais diversas áreas – o desenvolvimento de técnicas de mineração tem proporcionado essa expansão. Áreas tradicionais como: Marketing; Análise de Mercado; Sistemas de Suporte à Decisão; Gerência Empresarial; Análise de tendências, Em expansão: Medicina, Educação, Processamento de Linguagem Natural, Bioinformática, Detecção de fraude, Reconhecimento de fala, Finanças, Robótica, Sistemas de recomendação, Mineração de texto entre muitos outros. Análise de Dados no Agronegócio 27 Exemplos de aplicações MARKETING: Quais clientes irão responder a quais promoções? Quais combinações de produtos mais vendem? Quais clientes irão comprar mesmo sem ofertas? Identificação de consumidores alfa (potencial para atrair outros consumidor) Churn analysis: Quais clientes tendem a abandonar a empresa? Análise de Dados no Agronegócio 28 Exemplos de aplicações Educação: Quais alunos irão abandonar o curso e por quê? Quais alunos são mais fiéis? Quais alunos têm maior probabilidade de voltar a fazer novos cursos? Quais cursos serão mais rentáveis? Quais cursos, com quais características, atraem mais alunos? Análise de Dados no Agronegócio 29 Exemplos de aplicações Recursos Humanos: Qual o perfil de talentos é mais adequado para quais vagas? Qual o perfil de funcionários que abandonarão o emprego e quando? Quais ações são efetivas na produtividade? Quais funcionários serão mais bem-sucedidos? Análise de Dados no Agronegócio 30 Exemplos de aplicações Finanças/Contabilidade Prever o desempenho financeiro da organização Mitigação de riscos futuros Apoio na escolha de investimentos e parceiros Auditorias Análise de crédito Análise de Dados no Agronegócio 31 Exemplos de aplicações Agronegócio Agricultura de precisão Biogenética Robôs para controle de ervas daninhas Colheita automática Previsão do tempo com acurácia Monitoramento e Manejo na Pecuária Análise de Dados no Agronegócio 32 Exemplos de aplicações Agronegócio A mistura de conceitos de programação, estatística, matemática e computação aplicada aos dados coletados, permite aos cientistas de dados, extrair informações vitais para a otimização das técnicas introduzidas durante a consolidação da agricultura moderna. Análise de Dados no Agronegócio 33 Tipos de Análise de Dados Análise descritiva (exploratória): não emite julgamento de valor, ela é indicada para visualizar os dados e entender o impacto no presente. Análise diagnóstica: objetivo de entender um determinado comportamento, sempre se baseando em fatos ocorridos, no passado. Análise preditiva: objetivo de prever eventos futuros com base em dados históricos. Usam algoritmos de aprendizado de máquina para encontrar padrões nos dados. Análise prescritiva: são modelos de tomada de decisão que recomendam um curso de ação específico com base em um conjunto de critérios ou objetivos. Análise de Dados no Agronegócio 34 Tipos de Modelos Análise de Dados no Agronegócio 35 Estrutura de Dados Dados estruturados: base de dados convencionais são organizadas em estruturas tabulares, em que as linhas armazenam uma ocorrência de um evento caracterizado por um conjunto de colunas que representam características que descrevem um exemplar (instância) daquele evento. Dados não estruturados: dados textuais, imagens, vídeos e sons. Análise de Dados no Agronegócio 36 Estrutura de Dados A mineração de dados e o aprendizado de máquina tem uma nomenclatura própria para se referir aos dados e suas estruturas. Em bancos de dados temos uma série de tabelas com informações específicas e relacionamentos entre elas. Exemplo: uma venda estará representada em uma tabela, porém o vendedor, o cliente, o fornecedor e os produtos estarão em outras tabelas relacionadas Análise de Dados no Agronegócio 37 Estrutura de Dados Para mineração de dados e aprendizado de máquina é desejado tabelas em forma tabular de dados – Tidy Data no R. Exemplo: para cada venda se espera encontrar na mesma linha o produto, o fornecedor, o cliente e o vendedor. O que em banco de dados é uma tabela, em aprendizado de maquina é chamado de relação. A relação contém todas as características do negócio. Análise de Dados no Agronegócio 38 Estrutura de Dados Uma tabela em banco de dados é composta por linhas e colunas. No aprendizado de máquina: cada coluna é um atributo (variável) cada linha é uma instância (amostra) Atributo ou variável é uma característica do negócio (dimensões): Ex. vendedor é uma característica da venda. Instância é a ocorrência de um fato do negócio Ex. cada linha na relação é uma venda efetivada. Análise de Dados no Agronegócio 39 Estrutura de Dados CLASSE - um Atributo Especial [Variável Resposta; Variável Y; Variável Dependente; Desfecho] A tarefa mais comum de aprendizado de máquina é a classificação. Na classificação existe um atributo especial que é chamado classe. O objetivo é usar todos os atributos que compõem a relação para tentar prever a classe. Análise de Dados no Agronegócio 40 Estrutura de Dados Análise de Dados no Agronegócio 41 Estrutura de Dados Iris 4.5 Species Species Petal.Length Sepal.Width 4.0 6 3.5 setosa setosa 4 3.0 versicolor versicolor 2.5 2 virginica virginica 2.0 5 6 7 8 5 6 7 8 Sepal.Length Sepal.Length 2.5 Species Species Petal.Length Petal.Width 6 2.0 1.5 setosa setosa 4 1.0 versicolor versicolor 0.5 virginica 2 virginica 0.0 5 6 7 8 2.0 2.5 3.0 3.5 4.0 4.5 Sepal.Length Sepal.Width 2.5 2.5 Species Species Petal.Width Petal.Width 2.0 2.0 1.5 setosa 1.5 setosa 1.0 versicolor 1.0 versicolor 0.5 virginica 0.5 virginica 0.0 0.0 2.0 2.5 3.0 3.5 4.0 4.5 2 4 6 Sepal.Width Petal.Length Análise de Dados no Agronegócio 42 Estrutura de Dados Análise de Dados no Agronegócio 43 Tipos de Dados Existem dois grandes grupos principais de dados Quantitativos: Contínuos - números reais Discretos – números naturais (inteiros) Qualitativos ou Categóricos: Ordinais: Podem ser ordenados – Classe Nominais: pode ser uma descrição, um nome. Análise de Dados no Agronegócio 44 Tarefas de Aprendizado de Máquina Classificação: prever um atributo especial chamado classe. Regressão: é um tipo de classificação, só que a classe é numérica. Agrupamentos: não existe classe - objetivo é criar grupos e atribuir instâncias a estes grupos a partir das características, ou atributos destas instâncias. Regras de associação: buscam a relação entre itens. Redução de dimensionalidade: Componentes Principais Análise de Dados no Agronegócio 45 Qual a grande diferença entre estes dois algoritmos descritos? Supondo que tenhamos que Agora imagine que tenhamos desenvolver um algoritmo para que desenvolver um algoritmo calcular o melhor para prever se uma pessoa será aproveitamento de papel para ou não uma boa pagadora de uma gráfica. Quando pronto, o empréstimo. Você vai ter que algoritmo recebe como entrada usar dados históricos para ver as medidas das impressões qual o perfil do bom e mau que serão feitas e retorna a pagador, e sempre que houver melhor disposição destas um novo pedido de empréstimo, impressões no papel para o seu seu algoritmo vai basear sua melhor aproveitamento. decisão nestes dados legados. Análise de Dados no Agronegócio 46 Qual a grande diferença entre estes dois algoritmos descritos? Aproveitamento de impressão: consegue fazer cálculo sem nunca ter calculado uma impressão. Não é preciso olhar cálculos anteriores, basta ter as medidas da impressão. Uma vez pronto, vai ter um bom desempenho para sempre, a não ser que o processo de impressão seja alterado. Este mesmo algoritmo também funciona em qualquer gráfica para qualquer impressora. Classificador de bons e maus pagadores: Processo de aprendizado baseados em dados históricos de outros clientes para saber se um usuário vai ser um bom pagador de empréstimos, de acordo com seu histórico de empréstimos anteriores, sua renda, números de filhos, se tem casa própria ou não, etc. Poderá em certo ponto ter seu desempenho degradado: o perfil da pessoa que busca empréstimo pode mudar de acordo com situações sociais e econômicas, por exemplo. Análise de Dados no Agronegócio 47 Tarefas de Aprendizado de Máquina A Essência do Aprendizado de Máquina | Blog do Nei Análise de Dados no Agronegócio 48 APRENDIZADO DE MÁQUINA TAREFA X ALGORITMO Análise de Dados no Agronegócio 49 APRENDIZADO DE MÁQUINA Tipos de aprendizado SUPERVISIONADO Os dados para treino do modelo são rotulados. Sabemos o valor real ou classe verdadeira de cada unidade. A variável de interesse pode ser numérica ou categórica. Se a variável for categórica trata-se de um problema de Uma introdução Didática aos Algoritmos de Classificação de Machine Learning | by Geanderson Lenz | Drafter AI | Medium classificação. Análise de Dados no Agronegócio 50 APRENDIZADO DE MÁQUINA Tipos de aprendizado SUPERVISIONADO Se a variável for numérica trata-se de um problema de regressão. Existe um vetor de características que desejamos utilizar para prever o desfecho. O objetivo é treinar um modelo para prever a classe ou valor da variável de interesse para novos elementos. Na prática, dados rotulados podem ser difíceis de obter. Análise de Dados no Agronegócio 51 APRENDIZADO DE MÁQUINA Classificação x Regressão São as duas principais aplicações de aprendizado máquina com dados rotulados. A diferença está no tipo do rótulo. Regressão: número. Classificação: classe. Muitos dos algoritmos de aprendizado supervisionado servem tanto para regressão quanto para classificação. Existe o caso de problemas de classificação multi-label onde uma registro por ter mais de um rótulo. Música internacional¹ de rock² dos anos 90³ (3 rótulos). Análise de Dados no Agronegócio 52 APRENDIZADO DE MÁQUINA Classificação x Regressão Aprendizado Supervisionado vs. Aprendizado Não-Supervisionado em... Análise de Dados no Agronegócio 53 APRENDIZADO DE MÁQUINA Exemplo Classificação de tomografias em câncer ou não câncer Considere o problema que consiste em treinar uma máquina para diagnosticar câncer de tireoide. Para isso foi obtida uma série de ultrassons avaliados por especialistas que rotularam as imagens. Dependendo do aspecto e tamanho do tumor ele é classificado como câncer ou não câncer pelos especialistas. Com os dados rotulados precisamos pensar na representação. Quais são os atributos similares entre imagens classificadas como câncer? Que atributos discriminam bem imagens de câncer e não câncer? Que tratamentos precisamos fazer em nossos atributos? Análise de Dados no Agronegócio 54 APRENDIZADO DE MÁQUINA Exemplo Classificação de tomografias em câncer ou não câncer Quais algoritmos podemos usar para tarefa? Qual será o método de validação? Os resultados foram satisfatórios? Podemos melhorar os resultados? De que forma? Alterando a representação? Modificando parâmetros do algoritmo? Mudando de algoritmo? Análise de Dados no Agronegócio 55 APRENDIZADO DE MÁQUINA Algoritmos de Classificação A classificação é, talvez, a forma mais importante de previsão: o objetivo é prever se um registro é um 0 ou um 1. Exemplos: Sementes em viáveis ou não viáveis; Plantas saudáveis ou doentes. Alguns casos, uma entre muitas categorias. Exemplo: Tipos de solo: "argiloso", "arenoso", "siltoso". Análise de Dados no Agronegócio 56 APRENDIZADO DE MÁQUINA TAREFA X ALGORITMO Uma tarefa é um tipo de aprendizado de máquina que tem um objetivo especifico. Cada tipo de tarefa pode ter várias, ou até dezenas de implementações diferentes através de diferentes algoritmos. Todos os algoritmos de uma mesma tarefa têm o mesmo objetivo. Ex. Naive Bayes é um algoritmo de classificação, Part, também é um algoritmo de classificação, mas são implementados usando conceitos e estruturas totalmente diferentes, mas o objetivo deles é o mesmo: classificar dados. Análise de Dados no Agronegócio 57 APRENDIZADO DE MÁQUINA Pipeline Análise de Dados no Agronegócio 58 APRENDIZADO DE MÁQUINA Representação Em praticamente toda tarefa em ciência de dados, a qualidade dos dados é de extrema importância. Em aprendizado de máquina não é diferente. George Fuechsel uma vez disse: “garbage in, garbage out”. Em português: “lixo entra, lixo sai”. Devemos ser capazes de representar unidades de interesse por meio de características importantes. Estas características são variáveis quantitativas ou qualitativas que devem ser similares entre unidades parecidas e diferentes entre unidades que não sejam parecidas. Análise de Dados no Agronegócio 59 APRENDIZADO DE MÁQUINA Representação QUANTIDADE DE DADOS NÃO É SINÔNIMO DE QUALIDADE OU REPRESENTATIVIDADE. A qualidade e poder de discriminação das características e uso coerente das técnicas disponíveis define o sucesso da tarefa. Extração, engenharia e seleção de atributos chega a ser um campo de estudo a parte. Eliminar variáveis correlacionadas e sem importância reduz a complexidade e o tempo gasto na modelagem. Análise de Dados no Agronegócio 60 APRENDIZADO DE MÁQUINA Problemas com os dados Em aplicações reais é comum que os dados apresentarem os mais diversos tipos de problema. O diagnóstico desses problemas é geralmente feito na análise exploratória (etapa que não pode ser negligenciada). Problemas típicos são: Dados faltantes. Classes desbalanceadas. Alta correlação entre variáveis (multicolinearidade). Dados discrepantes (outliers). Análise de Dados no Agronegócio 61 APRENDIZADO DE MÁQUINA Problemas com os dados Dados desbalanceados Desbalanceamento é comum em alguns problemas. Podemos buscar estratégias que visam balancear a base. Uma solução é obter o número de elementos da categoria com menor quantidade de exemplos e selecionar o mesmo número de elementos para as demais categorias. Outra solução é gerar dados sintéticos via reamostragem. Podemos reamostrar os elementos originais. Podemos reamostrar os elementos com algum tipo de ruído. Outra alternativa que não exige qualquer tipo de tratamento é utilizar algoritmos que sejam robustos a desbalanceamentos. Análise de Dados no Agronegócio 62 APRENDIZADO DE MÁQUINA Problemas com os dados Variáveis correlacionadas Eventualmente podem existir variáveis disponíveis altamente correlacionadas. Uma possível estratégia é selecionar a variável menos custosa entre as correlacionadas. Outra estratégia é utilizar técnicas como componentes principais, que obtém novas variáveis não correlacionadas a partir do conjunto original de variáveis. Análise de Dados no Agronegócio 63 APRENDIZADO DE MÁQUINA Problemas com os dados Transformação de escalas É preferível trabalhar com variáveis em escalas similares entre variáveis. Diversos algoritmos são sensíveis à escala dos dados, principalmente aqueles baseados em distância. Transformações lineares: padronização normalização. Análise de Dados no Agronegócio 64 APRENDIZADO DE MÁQUINA Problemas com os dados Dicotomização/categorização Podemos observar features por natureza dicotômicas. Em outras situações pode ser conveniente dicotomizar variáveis numéricas. Maior/menor que a média. Maior/menor que a mediana. Podemos observar features que por natureza podem assumir uma de múltiplas categorias. Em outras situações pode ser conveniente categorizar variáveis numéricas. Menor que o primeiro quartil, entre o primeiro e segundo quartil, entre o segundo e terceiro quartil, maior que o terceiro quartil. Análise de Dados no Agronegócio 65 APRENDIZADO DE MÁQUINA Transformação de escalas Log Uma das transformações mais usadas para variáveis numéricas com distribuições fortemente assimétricas à direita. Além de melhorar a assimetria, reduz a escala dos valores. Não pode ser aplicada com valores iguais a 0. 𝑥 ∗ = 𝐿𝑜𝑔10 (𝑥) Histogram of x Histogram of xt 700 600 LOG10 100 200 300 400 500 500 Frequency Frequency 300 100 0 0 10 12 14 16 18 20 22 1.00 1.05 1.10 1.15 1.20 1.25 1.30 1.35 x Análise de Dados no Agronegócio xt 66 APRENDIZADO DE MÁQUINA Transformação de escalas Padronização ou Z-score A padronização gera variáveis com média 0 e desvio padrão 1. Isto não garante que as variáveis transformadas seguem distribuição normal padrão. Faz com que a variabilidade expressa pela variância seja igualada ∗ 𝑥𝑖 − 𝑥ҧ 𝑥 = 𝑠 Histogram of x Histogram of xt 200 200 150 150 Frequency Frequency 100 100 50 50 0 0 140 150 160 170 180 190 200 -3 -2 -1 0 1 2 3 Análise de Dados no Agronegócio 67 x xt APRENDIZADO DE MÁQUINA Transformação de escalas Normalização ou Min-Max Consiste em, para cada valor, subtrair o mínimo do vetor e dividir pela amplitude. Esta transformação gera variáveis no intervalo unitário. Faz com que a variabilidade expressa pela amplitude seja igualada. ∗ 𝑥𝑖 − min(𝑥) 𝑥 = max 𝑥 − min(𝑥) Histogram of x Histogram of xt 200 200 150 150 Frequency Frequency 100 100 50 50 0 0 140 150 160 170 180 190 200 0.0 0.2 0.4 0.6 0.8 1.0 Análise de Dados no Agronegócio 68 x xt APRENDIZADO DE MÁQUINA Treinamento do Modelo Treino x teste Em geral, dividimos nosso conjunto de dados em 2 partes: treino e teste. Parte da base de teste é destinada à avaliação. É comum separar 70% dos dados disponíveis para treino e 30% para validação e teste. O particionamento da base deve ser completamente aleatório, quando possível. Existem métodos que garantem que as proporções das classes nos dados de treino, teste e validação sejam as mesmas dos dados originais. Análise de Dados no Agronegócio 69 APRENDIZADO DE MÁQUINA Treinamento do Modelo Treino x teste No treino fornecemos as variáveis e os rótulos para que o modelo aprenda. Podemos validar o modelo verificando como ele se comporta quando não sabe os rótulos (com o teste). Como nós sabemos, temos condições de avaliar a qualidade do modelo e melhorá-lo. Podemos ainda expor o modelo a uma base de teste com dados completamente novos, que não foram usados para treinar nem validar. Métodos de reamostragem e validação cruzada são primordiais. Análise de Dados no Agronegócio 70 APRENDIZADO DE MÁQUINA Treinamento do Modelo Treino x teste Aprendizado de Máquina - Conceitos Validação Cruzada Andre Yukio no LinkedIn: A simples divisão em treino e teste é algo superestimado por quem acaba de… Análise de Dados no Agronegócio 71 APRENDIZADO DE MÁQUINA Validação Particionar a base em treinamento, validação e teste é importante para avaliarmos a qualidade preditiva dos modelos. Existem diferentes formas de usar a base de teste para treino e validação. Técnicas famosas de validação são: Holdout. k-folds. Leave-one-out. Análise de Dados no Agronegócio 72 APRENDIZADO DE MÁQUINA Validação Holdout. É o método mais simples. Consiste em particionar a base em treino, validação e teste. A base de treino serve para ajustar o modelo. A base de validação serve para otimizar (tunar) hiperparâmetros. A base de teste serve para avaliar o comportamento do modelo com dados novos, não vistos no processo de ajuste e refinamento. When training a model — you will need Training, Validation, and Holdout Datasets | by Sue Lynn | Towards Data Science Análise de Dados no Agronegócio 73 APRENDIZADO DE MÁQUINA Validação k-fold. Consiste em particionar a base em treino e teste. A ideia é fazer vários holdouts disjuntos. Os dados de treino são divididos em 𝑘 partições aleatórias de tamanho aproximadamente igual. Essas partições são chamadas de folds. Os folds representam os dados que serão usados para validar o modelo durante cada uma das 𝑘 iterações. Análise de Dados no Agronegócio 74 APRENDIZADO DE MÁQUINA Validação k-fold. Cada iteração é um holdout. Divide o treino em k partes iguais. Treina com k-1 partes. Valida na que sobrou. Repete k vezes. Este processo resulta em k estimativas do desempenho do modelo. A estimativa final de validação é calculada como a média das k estimativas. Análise de Dados no Agronegócio 75 APRENDIZADO DE MÁQUINA Validação Leave-one-out. Consiste em particionar a base em treino e teste. De novo, a ideia é fazer vários holdouts. Pode ser visto como um caso específico de 𝑘-fold em que 𝑘 é igual a 1. Usa-se 𝑛 − 1 observações para treinar o modelo, e testa na unidade que ficou de fora. Análise de Dados no Agronegócio 76 APRENDIZADO DE MÁQUINA Validação Leave-one-out. Análise de Dados no Agronegócio 77 APRENDIZADO DE MÁQUINA Validação Leave-one-out. É uma estratégia mais custosa. Contudo usa praticamente todos os dados disponíveis para treinar. Este processo resulta em 𝑛 estimativas do desempenho do modelo. A estimativa final de validação é calculada como a média (ou outro resumo) das 𝑛 estimativas. Análise de Dados no Agronegócio 78 APRENDIZADO DE MÁQUINA Validação Leave-one-out. Todas essas abordagens assumem independência. Dados de séries temporais, por exemplo, tem estratégias de partição específicas. O mesmo vale para dados agrupados ou com estrutura de dependência espacial ou genética. A sua estratégia de teste tem que condizer com o cenário do modelo em produção. machine learning - How to cross-validate a time series LSTM model? - Cross Validated Análise de Dados no Agronegócio 79 FERRAMENTAS Microsoft: Power BI Premium; SQL Server; Analysis Services Azure Analysis SAS: SAS Enterprise Miner IBM: Intelligent Miner Oracle: Oracle Data Mining (ODM) Weka: Orange Python R/RStudio Análise de Dados no Agronegócio 80 Por que R para Análise de Dados? É uma linguem de programação livre e de código aberto (GNU). É um ambiente de software para computação estatística e gráficos. O R permite a realização de uma imensa variedade de análises de dados. R foi desenvolvida em 1992 por Ross Ihaka e Robert Gentleman, na Universidade de Auckland, Nova Zelândia, e seu nome deriva da letra inicial dos seus criadores. Análise de Dados no Agronegócio 81 Por que R para Análise de Dados? A versão 1.0.0 do R foi lançada em 2000 e, desde então, ela tem sido amplamente adotada pelos departamentos de pesquisa, graças, em parte, à sua ampla matriz de algoritmos estatísticos internos. Bibliotecas abrangentes Análise de Dados no Agronegócio 82 Por que R para Análise de Dados? R é sinônimo de programação voltada à análise de dados, é uma linguagem orientada a objetos. O R é atualmente mantido pelo R Foundation e o R Consortium, um esforço coletivo para financiar projetos de extensão da linguagem. R é totalmente livre e disponível em vários sistemas operacionais: Windows, do Linux/Unix e MacOS. O R tem compatibilidade com diferentes linguagens de programação (C++, Python, Julia) diversos pacotes estão disponíveis para facilitar esse processo de integração. Análise de Dados no Agronegócio 83 IDE Ambientes de Desenvolvimento Integrados Rstudio: https://posit.co/downloads/ TinnR: http://nbcgib.uesc.br/lec/software/editores/tinn-r/en Visual Studio Code (VScode): https://code.visualstudio.com/ R Commander: https://cran.r-project.org/package=Rcmdr Análise de Dados no Agronegócio 84 R online Análise de Dados no Agronegócio 85 Instalação https://www.r-project.org/ > clicar no link CRAN do painel Download Análise de Dados no Agronegócio 86 Instalação Rstudio: https://posit.co/downloads/ Análise de Dados no Agronegócio 87 R Studio Script editor Environmental variables Console Painel (R prompt) (Plots, Files, Packages, Help) Análise de Dados no Agronegócio 88 R Studio A interface do RStudio torna o uso da linguagem R bastante produtivo. A interface gráfica do RStudio facilita o uso do software. Os pacotes do R permitem as mais diversas funcionalidades. Análise de Dados no Agronegócio 89 BIBLIOGRAFIA CURSO-R. Ciência de Dados em R. https://livro.curso- r.com/index.html WILCKHAM, H.; ÇETINKAYA-RUNDEL, M.; GROLEMUND, G. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O´reilly, 2. ed. 2023. Disponível em: https://r4ds.hadley.nz/ IZBICKI, R.; DOS SANTOS. T. M. Aprendizado de máquina: uma abordagem estatística. São Carlos, SP, 2020. Disponível em: Análise de Dados no Agronegócio 90 BIBLIOGRAFIA BOEHMKE, B.; GREENWELL, B. Hands-On Machine Learning with R. 2020. https://bradleyboehmke.github.io/HOML/ MORETTIN, P.; SINGER, J. Introdução à Ciência de Dados: Fundamentos e Aplicações - IME/USP. 2022. https://www.ime.usp.br/~jmsinger/MAE0217/cdados2020mar. pdf KASSAMBARA, A. Machine Learning Essentials: Practical Guide in R. 2018. https://www.google.com.br/books/edition/Machine_Learning_ Essentials/745QDwAAQBAJ?hl=pt-BR&gbpv=1 Análise de Dados no Agronegócio 91 FERNANDO MACHADO HAESBAERT PROAP UFT [email protected] (63) 9 9954 7656 Fernando Haesbaert Análise de Dados no Agronegócio 92

Use Quizgecko on...
Browser
Browser