Resumo de Estatística Descritiva PDF
Document Details
Uploaded by Deleted User
Tags
Summary
Este documento fornece um resumo da estatística descritiva, incluindo definições de população e amostra, naturezas dos tipos de variáveis, e exemplos de gráficos apresentados nas diferentes categorias de variáveis. O documento demonstra um texto introdutório da matéria, sem problemas de sintaxe ou gramática.
Full Transcript
Descritiva População – Parâmetros – Resumem características da população e assumem valores fixos Ex: Média da população (µ numa distribuição normal), Desvio-padrão populacional (𝜎), Variância populacional (𝜎 2 ) Amostra – Estatísticas – Toda a função que opera sobre uma amostra. De uma população po...
Descritiva População – Parâmetros – Resumem características da população e assumem valores fixos Ex: Média da população (µ numa distribuição normal), Desvio-padrão populacional (𝜎), Variância populacional (𝜎 2 ) Amostra – Estatísticas – Toda a função que opera sobre uma amostra. De uma população podemos retirar diversas amostras estamos perante valores que variam de amostra para amostra. Ex: Média amostral (X_barra), Variância amostral (𝑆2), Desvio-padrão amostral (𝑆). Natureza das Variáveis Variáveis Qualitativas: expressam qualidades dos elementos em análise e são obtidos através de registo de qualidades. - Nominais: variável qualitativa que não pode ser ordenada. - Ordinais: variável qualitativa que pode ser ordenada. Variáveis Quantitativas: assumem valores numéricos dos elementos em análise. - Discretas: variável assume um conjunto finito ou infinito numerável de valores. - Contínuas: variável assume um conjunto infinito não numerável de valores. Natureza Escala de da variável Gráficos Quadros de Frequências Medida Aleatória Circular F (frequências absolutas ) Barras f (frequências relativas ) Nominal Percentagens % Qualitativa Percentagens válidas Barras F (frequências absolutas ) Diagrama de extremos e quartis CumF (frequências acumuladas absolutas ) (para escalas tipo likert) f (frequências relativas ) Ordinal Cum f (frequências acumuladas relativas ) Percentagens % Percentagens válidas Barras F (frequências absolutas ) Diagrama de extremos e quartis CumF (frequências acumuladas absolutas ) f (frequências relativas ) Discreta Cum f (frequências acumuladas relativas ) Quantitativa Percentagens % Percentagens válidas Histograma (por classes) F (frequências absolutas ) Diagrama de extremos e quartis CumF (frequências acumuladas absolutas ) f (frequências relativas ) Contínua Cum f (frequências acumuladas relativas ) Percentagens % Percentagens válidas Medidas Descritivas Natureza Escala Medidas de Localização Medidas de Dispersão da variável de Tendência Tendência Aleatória Medida Central não Central Qualitativa Nominal Moda Ordinal Moda Quantis: Mediana Quartis Decis Percentis Quantitativa Discreta Moda Quantis: Intervalo de variação Mediana Quartis Intervalo interquartis Média Decis Desvio-padrão Percentis Variância Coeficiente de variação Contínua Moda Quantis: Intervalo de variação Mediana Quartis Intervalo interquartis Média Decis Desvio-padrão Percentis Variância Coeficiente de variação Medidas de Localização: Medidas de Tendência Central Moda: valor da variável que ocorre mais vezes na distribuição (tem maior frequência) Mediana: Menor valor da variável até ao qual se acumulam no mínimo 50% das observações. Média: Quociente entre a soma de 2 ou mais n os e o nº total de obs. Média aparada (5% Trimmed Mean): retira do cálculo da média uma percentagem definida dos casos mais baixos e mais altos da distribuição de frequências (5%). PERMITE: eliminar os efeitos de obs. extremas no cálculo da média. Medidas de Tendência Não Central: Quantis: Percentis, Decis, Quartis: valores dados a partir do conjunto de observações, ordenados por ordem crescente, que dividem a distribuição: 100 partes iguais (percentis), 10 partes iguais (decis), 4 partes iguais (quartis). Diagrama de Extremos e Quartis – Boxplot: representa graficamente os extremos e os quartis de um conjunto de dados. (Min, Q1, Q2 ou mediana, Q3, Máx) IQR – interquartile range (Q3 – Q1) Outliers: ponto de obs. Que está distante da maioria das outras obs. Outlier Moderado= Q3 + 1,5IQR ou Q1 – 1,5IQR Outlier Moderado= Q3 + 3IQR ou Q1 – 3IQR Boxplot: representação gráfica par demonstrar as diferenças existentes numa distribuição entre diversos grupos. Medidas de Dispersão: usados para determinar o grau de variabilidade dos dados de um conjunto de valores. Amplitude de Variação (Range): é a diferença entre o maior e o menor valor dos conjuntos de dados. Aumenta à medida em que os valore de distanciam. Amplitude Interquartil (Interquartil Range): informação sobre a variabilidade existente nos 50% centrais de dados da distribuição de valores. IQR=Q3 – Q1 Variância: mostra quão distantes os valores estão em relação à média da distribuição. Desvio-padrão 𝜎: indica qual é o “erro” que estaríamos a cometer se quiséssemos substituir um dos valores coletados pelo valor da média. Coeficiente de Variação: é a forma de expressar a variabilidade dos dados excluindo a influencia da ordem de grandeza da variável. (Usado para analisar a dispersão em termos relativos em relação ao valor médio quando 2 ou mais conjuntos de dados apresentam unidades de medida diferentes. ) Medidas de Skewness: - Distribuição simétrica: o ponto central divide um gráfico em duas partes iguais, de forma a, que a proporção de dados de um lado e do outro são idênticas. Média=Mediana Skewness=0 - Distribuição enviesada à esquerda (com enviesamento negativo): tem uma “cauda” que estende para o lado esquerdo. Média 0 Medidas de Curtose ou Kurtosis: caracteriza o achatamento da curva de distribuição dos dados. Compara o achatamento da curva em relação à curva da distribuição normal. Kurtosis=0 - Kurtosis > 0 - Distribuição Leptocúrtica: curva mais alta (afunilada) e concentrada que a distribuição normal. - Kurtosis < 0 - Distribuição Platicúrtica: curva mais “achatada” que a distribuição normal. Correlação entre duas Variáveis Variáveis Qualitativas Tabelas de frequências: tabelas de contingência (Crosstabs), privilegiam as percentagens em linha e/ou coluna, e o objetivo é descrever a relação entre as duas características em estudo. Representações gráficas: dependendo dos tipos de variáveis que se está a analisar, entre estas, gráficos barras agrupados, diagrama extremos e quartis, gráfico de perfil de médias e diagrama de dispersão. Medidas de Associação/Correlação: indicadores que pretendem medir a intensidade da relação e em algumas medidas como o sentido (+ ou -) da relação entre duas variáveis. - Variável qualitativa nominal vs. Variável qualitativa nominal Crosstabs, gráficos de barras a 100% e de várias variáveis. Coeficiente V de Cramer: toma valores entre 0 e 1. Valores próximos de 0 correspondem a fraca associação e valores próximos de 1 correspondem a associação mais forte. >0.5 – forte associação 0.1 a 0.3 – fraca associação 0.3 a 0.5 – moderada associação 0 a 0.1 – pouca se nenhuma associação - Variável qualitativa ordinal vs. Variável qualitativa ordinal Coeficiente ρ de Spearman: varia entre -1 e 1. Quanto mais próximo estiver dos extremos, maior será a associação entre variáveis. Sinal negativo: variáveis variam em sentido, as categorias mais elevadas de uma variável estão associadas a categorias mais baixas da outra variável. - Variável qualitativa nominal vs. Variável qualitativa Coeficiente Eta: toma valores entre 0 e 1. Valores próximos de 1 indicam forte associação e valores próximos de 0 indicam fraca associação. O valor 0 indica total ausência de associação. - Variável qualitativa quantitativa vs. Variável quantitativa Coeficiente de correlação linear de Pearson (R de Pearson): medida de correlação que analisa a relação linear entre duas variáveis quantitativas. Valores negativos indicam relacionamento no sentido inverso. Intervalos de Confiança Distribuição Normal: 𝑋~ 𝑛 (𝜇, 𝜎) A função densidade de probabilidade de uma variável aleatória com distribuição normal tem a forma de sino, é simétrica em relação ao 𝑥 = 𝜇 e tem pontos de inflexão em 𝑥 = 𝜇 ± 𝜎 - Teorema do Limite Central: O teorema central do limite descreve a distribuição da média de uma amostra aleatória de uma população com variância finita. Quando a partir dos testes K-M e S-W não conseguimos verificar a normalidade da distribuição da variável na população: pode ser evocado o TLC se a dimensão da amostra for >30 e se a distribuição não for acentuadamente assimétrica (verificar pelos testes de Skewness e da Kurtosis), considerando assim que a distribuição da variável na população de onde a amostra foi retirada é aproximadamente normal. Testes Paramétricos - Usados para validar afirmações sobre os parâmetros de uma população (ou a comparação de parâmetros em vários grupos) Pressupostos: Amostras independentes e normalidade das variáveis quantitativas. → Teste de Normalidade n>50, Kolmogorov-Smirnov (KS) n≤50, Shapiro-Wilk (SW) H0: A distribuição da variável na população de onde foi retirada a amostra é normal. H1: A distribuição da variável na população de onde foi retirada a amostra não é normal. Se Sig ≤ α → Rejeitar H0 Se Sig > α → Não Rejeitar H0 Verificar com a distribuição normal na região crítica, dependendo do nível de significância estipulado. Região Crítica: Skewness ou Kurtosis −2,576 < < Paramétrico Não paramétrico α = 0,01 𝑆𝑡𝑑 𝐸𝑟𝑟𝑜𝑟 2,576 t-test para comparar 2 Skewness ou Kurtosis médias em amostras Mann-Whithney −1,960 < < α = 0,05 𝑆𝑡𝑑 𝐸𝑟𝑟𝑜𝑟 independentes 1,960 Oneway Anova Kruskall-Wallis Skewness ou Kurtosis −1,645 < < α = 0,10 𝑆𝑡𝑑 𝐸𝑟𝑟𝑜𝑟 1,645 Teste t para uma média (Bilateral) 1- Definição da variável em estudo 2- Formulação de Hipóteses H0: A média da variável na população é igual a 4 ou H0: μ=4 H1: A média da variável na população é diferente de 4 ou H1: μ≠4 3. Pressuposto a. Normalidade (Distribuição Normal ou Distribuição Aproximadamente Normal) i. Se rejeitarmos a normalidade não podemos continuar com o teste, não podemos inferir a média para a população 4. Escolha do teste adequado (ou da estatística de teste adequada) 5. Determinação da região crítica e da região de aceitação 6. Cálculo do valor do teste e tomada de decisão Se p-value ou Sig ≤ α → Rejeitamos H0 Se p-value ou Sig > α → Não Rejeitamos H0 Exemplo de Decisão: Como o nível de significância associado ao valor do teste é maior que 0,05 (α), p=0,456, então não se rejeita a hipótese nula, ou seja, não existem motivos para duvidarmos que a idade média da população de onde foi retirada a amostra seja de 34 anos. (Unilateral direito, esquerdo muda os sinais) 1- Formulação de Hipóteses H0: μ≤4 H1: μ>4 2- Tomada de decisão Se sig/2 ≤ α e t>0 → Rejeitamos H0 Se sig/2 > α ou ≤α e t Teste de igualdade de 2 médias – Amostras Independentes → Teste de Levene: Variâncias 1. Objetivo: verificar se as variâncias da variável em estudo dão iguais nas duas populações, ainda que desconhecidas 2. Pressuposto: distribuição normal em cada população em estudo 3. Hipóteses H0: as variâncias da variável X são iguais nos dois grupos populacionais ou Ha: as variâncias da variável X são diferentes "..." 4. Decisão Se Sig > α não rejeitamos H0, logo as variâncias são iguais (1ª linha) Se Sig ≤ α rejeitamos H0, logo as variâncias são diferentes (2ª linha) 1 – Objetivo: Verificar se as duas amostras, de elementos independentes, podem ou não ser provenientes de populações com a mesma média da característica em estudo. 2 – Definir as variáveis Variável dependente: quantitativa, variável em estudo Variável independente: qualitativa nominal, variável de 2 categorias 3 – Definir o teste: TEST T 4 – Fazer as hipóteses: H0: as médias da variável X são iguais nos dois grupos populacionais µ1 = µ2 ou µ1 - µ2 = 0 H1: as médias da variável X são diferentes nos dois grupos populacionais µ1 ≠ µ2 ou µ1 - µ2 ≠ 0 5 – Fazer pressupostos (validar a normalidade: gráficos qq-plot, fazer teste não paramétricos de ajustamento à normal.) 6- Decisão Teste de Levene – Variâncias Two Sided p-value Rejeitar H0 se Sig ≤ α Não rejeitar H0 se Sig > α Teste de igualdade de 2 médias – Amostras Emparelhadas Objetivo: Verificar a igualdade de duas médias de duas populações baseadas em duas amostras emparelhadas. Exemplo: Avaliação do desempenho de 20 trabalhadores, num ano e no anterior 1- Objetivo: Verificar a igualdade de duas médias de duas populações baseadas em duas amostras emparelhadas 2- Variáveis - ambas quantitativas 3- Pressupostos: As duas amostras são emparelhadas (Os dados para as duas variáveis foram obtidos com os mesmos elementos da amostra) Variáveis seguem distribuição normal ou Variável diferença (XD = X1 − X2) segue distribuição normal 4. Hipóteses H0: μ1 = μ2; Ha: μ1 ≠ μ2 OU μD = μ1−μ2 H0: μD = 0; Ha: μD ≠ 0 5. Decisão Rejeitar H0 se Sig ≤ α - existe uma diferença significativa entre as médias X1 e X2 Não rejeitar H0 se Sig > α ANOVA 3 ou + médias 1- Objetivo - A análise de variância pretende aferir se existem diferenças significativas entre as médias de mais de duas populações ou entre mais de dois grupos de uma população. 2- Definir variáveis Variável dependente: variável quantitativa Variável independente: variável qualitativa (com várias categorias) 3- Hipóteses H0: μ1 = μ2 = … = μk Ha: μi ≠ μj para algum par (i, j) com i≠j 4. Pressupostos Todas as populações ou grupos de uma mesma população são independentes entre si Normalidade - Todas as populações seguem a distribuição normal Variâncias são iguais – A variância das populações ou de grupos de população são desconhecidas, mas iguais (verificar pelo Teste de Levene) - se não se verificar -> teste de Welch Todas as amostras são aleatórias e independentes entre si 5. Decisão Se Sig ≤ α → Rejeitar H0 Se Sig > α → Não Rejeitar H0 Ex: Como Sig = 0,009 < α = 0,01, rejeitamos H0 ,ou seja, existem pelo menos dois modos de leitura do semanário preferido, cujo tempo médio de leitura é diferente dos restantes. Se rejeitarmos H0 -> Testes de comparações múltiplas a posteriori, para determinar quais as médias que são significativamente diferentes entre si Se assumimos a igualdade das variâncias populacionais, Testes de Scheffé, Tukey, Bonferroni Se não assumimos a igualdade das variâncias populacionais, Teste de Welch -> Teste de Dunnett’s C e Games-Howell Teste de Comparação Múltipla – Teste Dunnet’s C H0: μ1 = μ2 VS Ha: μ1 ≠ μ2 Faz-se a comparação entre todos Se p-value ou Sig ≤ α → Rejeitar H0 Se p-value ou Sig > α → Não Rejeitar H0 Ou seja, quando Sig ≤ α concluímos que as médias deverão ser significativamente diferentes → Teste de Welch 1- Objetivo: Avaliar a igualdade de médias na população quando as variâncias não são iguais, mas a distribuição das variáveis é normal. 2- Hipóteses H0: μ1 = μ2 = μ3 Ha: ∃ i,j i,j = 1,2,3,i ≠ j: μi ≠ μj 3- Decisão Se Sig ≤ α → Rejeitar H0 Se Sig > α → Não Rejeitar H0 Ex: Como p-value ou Sig = 0,000 < α =0,01 rejeitamos H0, ou seja, existem pelo menos dois semanários, cujo tempo médio de leitura é diferentes dos restantes. Testes Não Paramétricos Teste Mann-Whitney 1- Objetivo: Comparar duas distribuições populacionais, tendo por base 2 amostras independentes. Teste não paramétrico alternativo ao teste T (amostras independentes). 2- Variáveis: Variável dependentes: Variável Quantitativa/Qualitativa Ordinal (dividimos esta em dois grupos) Variável independente: Variável Qualitativa Nominal (Grupo A e B) 3- Hipoteses: H0: As médias de ordenações são iguais nas duas populações. H1: As médias de ordenações são diferentes nas duas populações. Ou H0: As distribuições são iguais nas duas populações. H1: As distribuições são diferentes nas duas populações 4- Decisão: Se Sig ≤ α → Rejeitar H0 Se Sig > α → Não Rejeitar H0 Exemplo de Decisão: Como MW = 763,5 e (Sig) = 0,09 < α, rejeitamos H0. A distribuição do número de semanários lidos por mês não é igual para os grupos feminino e masculino. Logo, as médias das ordenações nas respetivas amostras são significativamente diferentes (ver na Mean Rank) (39,96 e 55,93). Assim, conclui-se que homens e mulheres apresentam um tempo de leitura diferente. Teste Mann-Whitney 1- Objetivo: Comparar duas ou mais distribuições populacionais, tendo por base k amostras independentes. 2- Variáveis: Variável dependentes: Variável Quantitativa/Qualitativa Ordinal (dividimos esta em dois grupos) Variável independente: Variável Qualitativa Nominal (Grupo A e B) 3- Hipóteses: H0: As k populações têm a mesma distribuição. H1: Pelo menos uma das populações tem distribuição diferente. Ou H0 : As médias de ordenações são iguais nas k populações. H1: Pelo menos uma das populações tem média de ordenações diferente das restantes. 4- Decisão Se Sig ≤ α → Rejeitar H0 Se Sig > α → Não Rejeitar H0 Ex: Como o valor da significância associada ao valor do teste (0,520) é superior ao nível de significância de 0,05, não se rejeita a hipótese nula, ou seja, As distribuições do número de semanários lidos por mês para os leitores cujo semanário preferido é o Expresso, o Regional e o Sol são iguais. As distribuições do número de semanários lidos por mês para os leitores cujo semanário preferido é o Expresso, o Regional e o Sol são iguais KW(2) = 1,308 e p − value = 0,520. Não se registam diferenças significativas entre as médias das ordenações do número de semanários lidos por mês para os leitores cujo semanário preferido é o Expresso, o Regional e o Sol, na população. Nas amostras, as médias das ordenações não são significativamente diferentes (47,55; 55,52 e 51,38). Teste Mann-Whitney 1- Objetivo: testar a independência de duas variáveis qualitativas, ou seja, testa a ausência de relação entre duas variáveis. 2- Hipóteses: H0: A variável X1 é independente da variável X2 (As duas variáveis qualitativas não estão relacionadas) H1: A variável X1 não é independente da variável X2 (As duas variáveis qualitativas estão relacionadas) ou H0: Não existe relação entre as variáveis X1 e X2. H1: Existe relação entre as variáveis X1 e X2. 3- Estatística do Teste Compara frequências observadas (Foij ) com as frequências esperadas (Feij) caso as variáveis fossem independentes 4. Condições de aplicação (verifica-se na nota a.) Não mais de 20% das classes com eij inferior a 5. Todas as classes com eij superior ou igual a 1. Modelo Regressão linear Simples Admite-se que temos duas variáveis quantitativas e pretendendo explicar a relação que se assume linear entre uma variável independente (causa) x e uma variável dependente (efeito) y. Modelo teórico: y = β0 + β1χ1 + ε1 Modelo estimado: ŷ = β^0 + β^1χ1 β0: ordenada na origem – constante β1: declive da reta de regressão ε1: erro de observação Pressupostos do erro: Variáveis correlacionadas O erro segue uma distribuição normal, com média zero e variância constante σ2 𝜀𝑖~𝑁 0; 𝜎 2 Decomposição da Variação: Variação Total = Variação Residual + Variação devida à Regressão SST = SSE + SSR Coeficiente de determinação 𝑅2: permite decidir da qualidade do ajustamento, varia entre 0 e 1 e representa a percentagem de variação total de Y explicada pela variação devida à reta estimada. Pressupostos MRLS e MRLM: Linearidade da relação entre X e Y verificar com um scatterplot (Xi, Yi); Normalidade: os 𝜀𝑖 seguem distribuição aproximadamente normal verificar com um Normal P-P plot ou com um teste de Kolmogorov-Smirnov à normalidade; O valor esperado dos resíduos é nulo: E 𝜀𝑖 = 0 este pressuposto não é passível de verificação porque os resíduos são estimados de tal forma que a soma das estimativas é sempre nula, o que se pode verificar na média da variável Residual, aquando do cálculo das Residual Statistics; Homocedasticidade: a variância dos 𝜀𝑖 é constante, i.e., 𝑉𝑎𝑟 𝜀𝑖 = 𝜎 2 verificar com um scatterplot 𝑌 𝑖 ; 𝜀𝑖 e ver se aumenta, ou não, a dispersão dos 𝜀𝑖 ; Inexistência de autocorrelação: os erros são independentes, i.e., 𝐶𝑜𝑣 𝜀𝑖 ; 𝜀𝑗 = 0 verificar com um scatterplot 𝑌 𝑖 ; 𝜀𝑖 e ver se há algum padrão no gráfico. 1- Definir o Modelo Estimado 2- Coeficiente de Determinação R2 (mede o efeito da variável independente sobre a variável dependente) R2 = 0,184 ou seja, 18,4% da variabilidade em torno da média é explicada pelo modelo de regressão. R2 < 0,3 − Modelo fraco R2 > 0,5 − Modelo bom 3- Testar a Significância do Modelo → ANOVA Hipóteses: H0: O Modelo de Regressão Linear Múltipla não é adequado (β1 = β2 = β3 = β4 = β5 = β6). H1: O Modelo de Regressão Linear Múltipla é adequado (∃j, βj ≠ 0). Regras de Decisão: Se p – value ou Sig > α, então não rejeitamos a hipótese nula. Se p – value ou Sig ≤ α, então rejeitamos a hipótese nula. Exemplo: Como Sig.= 0,000 – rejeitamos H0 , ou seja, o MRLS é adequado 4- Testar os Coeficientes Hipóteses: H0: β0 = 0 H1: β0 ≠ 0 H0: β1 = 0 H1: β1 ≠ 0 H0: β2 = 0 H1: β2 ≠ 0... Tomada de Decisão: Se p – value ou Sig > α, não rejeitamos H0. Se p – value ou Sig ≤ α, rejeitamos H0. Exemplo: Como Sig.= 0,001 – rejeitamos H0 , ou seja, β0 ≠ 0, ou seja, a constante do modelo possui um efeito significativo sobre a variação da variável dependente. Interpretação dos Coeficientes Não Standardizados Estimados: Constante – na ausência da influência das variáveis explicativas, o "y" é de "constant" Para o Coeficiente “x” (B = 1,460) - Por cada variação no "X", o "Y" varia, em média, na razão directa de 1,460 dias, mantendo tudo o resto constante. Interpretação dos Coeficientes Standardizados Beta Estimados: Beta = 0,358) Por cada desvio-padrão a mais no "X", o "Y" médio varia na razão direta de 0.358 desvios-padrão (mantendo tudo o resto constante).