Qualidade e Análise Preditiva PDF
Document Details
Uploaded by Deleted User
Tags
Summary
This document provides an overview of quality concepts, followed by details on various aspects of predictive analysis, covering topics like quality control, data visualization methods such as histograms and scatterplots, and regression techniques like Ordinary Least Squares (OLS).
Full Transcript
O que é qualidade? o A totalidade das características de uma entidade que lhe conferem a capacidade de satisfazer necessidades explícitas ou latentes (ISO 9000:1994) o Adequabilidade ao uso (Juran) o Adequabilidade ao objetivo (quality of desgin) Evolução de Qualidade ao lon...
O que é qualidade? o A totalidade das características de uma entidade que lhe conferem a capacidade de satisfazer necessidades explícitas ou latentes (ISO 9000:1994) o Adequabilidade ao uso (Juran) o Adequabilidade ao objetivo (quality of desgin) Evolução de Qualidade ao longo do tempo 1. Antiguidade “Pré-História” da Qualidade: foco em processos rudimentares de controle de qualidade 2. Início do século XX – Inpeção: surgimento da qualidade como disciplina 3. Anos 30 – Controlo Estatístico: evolução para prevenção de problemas 4. Anos 50 – Garantia da Qualidade: foco na confiança dos sistemas 5. Anos 70 – Qualidade total: introdução do conceito de Qualidade Total por Feigenbaum 6. Anos 90 – Modelos de Excelência: aplicação de sistemas mais sofisticados Componentes QMS (Tripologia de Juran): ➔ Planeamento da Qualidade ➔ Controlo da Qualidade ➔ Garantia da Qualidade ➔ Melhoria da Qualidade Planeamento da Qualidade ➔ Definir objetivos e especificar os processos e recursos para os atingir Existe dois tipos: → Planeamento Estratégico: estabelece os objetivos da organização a longo prazo, sua visão, missão, valores e meios para os atingir → Planeamento Operacional: estabelece objetivos ao nível dos produtos/serviços, e meios para os atingir. Controlo da Qualidade ➔ Satisfação dos requisitos → Controlo de processos: detetar falhas previamente para n afetar o produto final Melhoria da Qualidade ➔ Aumentar a capacidade de cumprir os requisitos de qualidade Dois aspetos da melhoria: → Melhorar desempenho (atuar no sistema) → Taxa de melhoria do desempenho Garantia da Qualidade ➔ Dar confiança às partes interessadas relativamente ao cumprimento dos requisitos de qualidade. ➔ Assegura que as outras componentes estão a ser desenvolvidas adequadamente Nota: Não incide sobre a qualidade do produto/serviço, mas sobre a extensão com que o sistema de qualidade da empresa tem siso, é, e será controlado. 7 Princípios de Qualidade 1. Focalização no Cliente 2. Liderança 3. Comprometimento das Pessoas 4. Abordagem por Processos 5. Melhoria 6. Abordagem à Tomada de Decisões Baseadas em Factos 7. Relações Mutuamente Benéficas AED – Análise Exploratória de Dados Visualização Variavel categórica: vermelho, azul → gráfico de barras, pizza e dispersão Variavel Discreta: 1,2,3 (são contáveis) → gráfico de barras, gráfico de haste e gráfico de Degrau Variavel continua: 1.75 m; 22.5C → Histograma, Boxplot e Gráfico de linhas ➔ Distribuição o Gráfico de barras: categórico ou discreto o Histograma: continua o Box Plot o Gráfico de Pareto (histograma com uma linha q mostra a frequência acumulada) ➔ Associação → Associação entre variáveis o Gráfico de Dispersão o Matriz de gráficos de dispersão: muitas variáveis o Matriz de Correlação: variáveis numéricas o Gráfico Multi-Vary (multivariado) ➔ Dinâmico → Ao longo do tempo o Gráfico de Linhas o Autocorrelação: correlação de uma série temporal com ela mesma em diferentes períodos de tempo (lags) Análise Preditiva Vantagens das abordagens de Regressão: 1. Flexibilidade: pode ser aplicada a problemas lineares, não-lineares e com entradas quantitativas 2. Eficiência computacional: modelos de regressão possuem métodos de estimação computacionalmente eficientes 3. Disponibilidade de software Mínimos quadrados ordinários (OLS) Regressão linear múltipla: Y = B0 + B1X1 + … + e1 Parte estrutural: tudo excepto o e1 Componente estocástica: e1, representa o erro, que capta as variações não explicadas pelo modelo linear Pressupostos de e1: 1. Homoscedasticidade: os erros têm variância constante (Var(e)=desvio padrão ao quadrado) 2. Independência: as realizações dos erros são independentes umas das outras 3. Distribuição Normal: os erros seguem uma distribuição normal com média 0. Relação não linear Solução analítica Qualidade de ajuste: capacidade de fornecer estimativas dos dados utilizados para estimar o modelo. O objeitvo é minimizar a diferença entre os valores observados e os previstos para os dados conhecidos ->Para medir usar: R^2, ANOVA Nota: É uma condição necessária, mas não suficiente para garantir q o modelo seja bom. Ex: Um modelo pode ajustar-se bem aos dados, mas ter baixo desempenho ao prever novos casos (overfitting) Qualidade de previsão: capacidade de prever novas observações (não vistas pelo modelo) -> Para medir usar: Validação cruzada, RMSE (Root Mean Square Error) R²: Mede a proporção da variabilidade explicada pelo modelo. Nunca diminui ao adicionar variáveis, mesmo irrelevantes, há sempre uma pequena parte da sua variabilidade que ela ajuda a explicar. R² ajustado: Corrige o R² penalizando variáveis irrelevantes, protegendo contra overfitting. Melhor para comparar modelos com diferentes números de variáveis. Colinearidade: ocorre quando duas ou mais variáveis independentes em uma regressão linear estão altamente correlacionadas, o que pode: ➔ Aumentar a incerteza na estimativa dos parâmetros ➔ Tornar a matriz X^T X singular ou quase singular, dificultando a inversão. Como detetar colinearidade: ➔ EDA: usar matrizes de correlação e gráficos de dispersão ➔ Fator de inflação da variância (VIF): mede quanto a variância de um coeficiente é inflacionada devido à colinearidade Como tratar: ➔ Remover variáveis altamente correlacionada ➔ Combina variáveis (pca) ➔ Regularização (Ridge Regression) que penaliza coeficientes altos ➔ Seleção de variáveis (Regressão Forward Stepwise, Best subset (BS)) Regressão Forward Stepwise: teste estatístico (partial F-test) é utilizado para incluir/excluir variáveis preditoras O Best subset: testa todas as combinações ou preditores possíveis e seleciona o Top-k melhor em cada dimensionalidade, de acorod com um determinado critério para análise posterior (R^2, etc.) Métodos de Variáveis Latentes: Variável latente: é uma variável que não é observada, mas é inferida ou estimada a partir de outras variáveis observadas. Servem para reduzir a dimensionalidade dos dados e simplificar modelos de regressão Métodos para calcular variáveis latentes: Principal Component Regression (PCR): utiliza os componentes principais (PCs) derivados da Análise de Componentes Principais (PCA) para resolver problemas de regressão, principalmente em cenários onde existem muitas variáveis independentes (XXX) que são correlacionadas. Os scores são utilizados como repressores e a complexidade (número de PCs) do modelo é ajustada por validação cruzada. Pode ser utilizado quando existem mais variáveis do que observações. A PCR depende da escala Partial Least Squares (PLS): encontra componentes que maximizam a covariância entre X e Y, tornando-as mais diretamente úteis para predição. Os parâmetros são estimados através dos mínimos quadrados parciais em vez de mínimos quadrados. Pode ser utilizado quando existem mais variáveis do que observações. A PLS depende da escala. A complexidade pode ser ajustada por validação cruzada. Funções de penalidade da colinearidade entre variáveis independentes: Ridge Regression: penaliza a soma dos quadrados dos coeficentes LASSO: penaliza a soma dos valores absolutos dos coeficientes Impacto da penalização: ➔ Reduz incertezas na estimação (reduz a variância das estimativas) ➔ Adiciona viés (faz com q as estimativas dos coeficientes sejam um pouco diferentes dos valores “verdadeiros”) Esparcidade: quando há muitas variáveis, mas apenas algumas são realmente relevantes para o modelo. Métodos para avalisar a esparcidade: LASSO, selecção de variáveis, Filters, Wrappers Colinearidade: quando variáveis independentes estão altamente correlacionadas entre si Métodos para avalisar a clinearidade: PCR, PLS, Ridge