Estatística I - ISCTE - IUL 2024-25 PDF
Document Details
ISCTE-IUL
2024
ISCTE
Ricardo Manuel Sousa
Tags
Summary
These notes cover the essential topics of the Probability and Statistics course, including data analysis in the form of chapters such as statistical description, data analysis and reduction, probabilities and random variables. The notes are a compilation of exercises and examples of statistics, aiming to provide a detailed understanding of the methods and concepts.
Full Transcript
Departamento de Métodos Quantitativos para Gestão e Economia Estatı́stica I Lisboa, 28 de novembro de 2024 Estatı́stica I ISCTE - IUL Referências Casella, G. and Be...
Departamento de Métodos Quantitativos para Gestão e Economia Estatı́stica I Lisboa, 28 de novembro de 2024 Estatı́stica I ISCTE - IUL Referências Casella, G. and Berger, R. (2024). Statistical inference. CRC Press. Cohen, J. (2013). Statistical Power Analysis for the Behavioral Sciences. Academic press. Curto, J. D. (2021). Estatı́stica com R: Aprenda Fazendo. 1.ª Edição. Harnett, D. and Murphy, J. (1993). Statistical Analysis for Business and Economics. Addison-Wesley Publishers. Martins, M. E. G. (2013). Introdução à Probabilidade e à Estatı́stica. FCUL. Mendenhall, W., Scheaffer, R., and Gerow, K. (1990). Elementary Survey Sampling. Duxbury Press, New York. Murteira, B. (1993). Análise exploratória de dados: estatı́stica descritiva. McGraw-Hill. Murteira, B., Ribeiro, C. S., e Silva, J. A., and Pimenta, C. (2023). Introdução à Estatı́stica. Escolar Editora. Newbold, P., Carlson, W. L., and Thorne, B. M. (2022). Statistics for Business and Economics, 10ª ed. Pearson. Reis, E. (2008). Estatı́stica Descritiva, 7ª ed. Lisboa: Edições Sı́labo. Reis, E. e Calapez, T. (2018). Estatı́stica Aplicada, Vol. 2, 6ª ed. Lisboa: Edições Sı́labo. Reis, E. e Calapez, T. (2020). Exercı́cios de Estatı́stica Aplicada, Vol. 2, 3ª ed. Lisboa: Edições Sı́labo. Reis, E. e Calapez, T. (2021a). Estatı́stica Aplicada, Vol. 1, 7ª ed. Lisboa: Edições Sı́labo. Reis, E. e Calapez, T. (2021b). Exercı́cios de Estatı́stica Aplicada, Vol. 1, 3ª ed. Lisboa: Edições Sı́labo. Robalo, A. e Botelho, M. (2018a). Distribuições e Inferência Estatı́stica. Vol. 2, 6ª ed. Lisboa: Edições Sı́labo. Robalo, A. e Botelho, M. (2018b). Probabilidades e Variáveis Aleatórias. Vol. 1, 6ª ed. Lisboa: Edições Sı́labo. Rohatgi, V. K. (2013). Statistical inference. Courier Corporation. Tabachnick, B. G., Fidell, L. S., and Ullman, J. B. (2013). Using multivariate statistics. Pearson Boston, MA. Velosa, S. e Pestana, D. (2014). Introdução à Probabilidade e à Estatı́stica, 4ª ed. Fundação Calouste Gulbenkian. Alguns dos livros recomendados Edições Sı́labo: Estatistica/ diascurto.wixsite.com/sitedc/livros ricardo manuel [email protected] LATEX 1 Estatı́stica I ISCTE - IUL Conteúdo 1 Estatı́stica 11 1.1 Introdução................................................... 11 1.2 Sondagens e experimentações: População e amostra........................... 11 1.3 Análise Exploratória de Dados....................................... 13 1.4 Estatı́stica Descritiva e Inferência Estatı́stica............................... 14 2 Análise, representação e redução de dados 15 2.1 Tipos de variáveis.............................................. 15 2.2 Tabela de frequências e representações gráficas.............................. 15 2.3 Histograma, boxplot e outliers........................................ 19 2.4 Medidas de localização............................................ 20 2.4.1 Tendência central........................................... 20 2.4.2 Tendência não central........................................ 22 2.4.3 Relação entre quartis, decis e percentis............................... 23 2.5 Medidas de dispersão, assimetria e curtose................................. 23 2.5.1 Medidas de dispersão........................................ 23 2.5.2 Medidas de assimetria e curtose................................... 23 2.6 Medidas de associação entre variáveis.................................... 24 2.6.1 Correlação de Pearson........................................ 24 2.6.2 Correlação de Spearman....................................... 25 2.6.3 Correlação de Eta.......................................... 25 2.6.4 Coeficiente V de Cramer e coeficiente Phi............................. 25 2.7 Estatı́stica Descritiva: Exemplos resolvidos e exercı́cios propostos.................... 27 3 Códigos 39 4 Probabilidades 44 4.1 Conceitos Fundamentais........................................... 44 4.2 Axiomas de Kolmogorov........................................... 45 4.3 Teoria de Probabilidade........................................... 46 4.4 Probabilidade condicionada: Exemplos com tabelas ‘árvores’ de probabilidades............ 47 5 Variáveis aleatórias 49 5.1 Variáveis aleatórias discretas: Exemplos resolvidos e exercı́cios extra.................. 50 5.2 Variáveis aleatórias contı́nuas........................................ 51 5.3 Variáveis aleatórias contı́nuas: Exemplos resolvidos e exercı́cios extra.................. 52 5.4 Variáveis aleatórias bidimensionais discretas................................ 55 5.5 Variáveis aleatórias bidimensionais: Exemplos resolvidos e exercı́cios extra............... 57 6 Distribuições discretas 59 6.1 Distribuição uniforme (discreta)....................................... 59 6.2 Distribuição de Bernoulli e distribuição binomial............................. 60 6.3 Distribuição hipergeométrica........................................ 61 6.4 Distribuição geométrica e binomial negativa................................ 61 6.5 Distribuição multinomial........................................... 62 6.6 Distribuição Poisson............................................. 62 6.7 Distribuições teóricas discretas: Exemplos resolvidos e exercı́cios extra................. 63 7 Distribuições contı́nuas 66 7.1 Distribuição uniforme (contı́nua)...................................... 66 7.2 A distribuição normal e o teorema do limite central............................ 67 7.3 Distribuição qui-quadrado, t-Student e F de Fisher............................ 69 7.4 Distribuições contı́nuas: Exemplos resolvidos e exercı́cios extra..................... 70 ricardo manuel [email protected] LATEX 2 Estatı́stica I ISCTE - IUL 8 Amostragem e distribuições por amostragem 74 8.1 Distribuições por amostragem........................................ 74 8.2 Distribuições por amostragem: Exemplos resolvidos e exercı́cios extra................. 75 9 Estimação 77 9.1 Estimadores (conceitos)........................................... 77 9.2 Estimação pontual.............................................. 78 9.2.1 Método dos momentos........................................ 78 9.2.2 Método da máxima verosimilhança................................. 78 9.2.3 Propriedades dos estimadores.................................... 79 9.3 Estimação pontual: Exemplos resolvidos e exercı́cios extra........................ 80 Lista de Figuras 3 População reclusa em Portugal (1582)................................... 16 4 Grouped stacked bar chart.......................................... 16 5 Grouped bar chart.............................................. 16 6 Ogiva (polı́gono de frequências acumuladas)................................ 17 7 Representação gráfica das Notas (Classes)................................. 17 8 Histograma das idades da população reclusa................................ 18 9 Boxplots (avaliação da assimetria...................................... 19 10 Histogramas (avaliação da assimetria)................................... 20 11 Outliers moderados e severos........................................ 20 12 Distribuições bimodais e unimodais..................................... 21 13 Distribuições (as)simétricas......................................... 22 14 Skewness (assimetria)............................................ 24 15 Kurtosis (curtose).............................................. 24 16 Representações gráficas dos dados sobre a preferência de férias..................... 27 17 Histograma com as 5 classes (h = 4).................................... 27 18 Histograma: 300 números aleatórios.................................... 28 19 Boxplot: 300 números aleatórios...................................... 28 20 Diagrama de Dispersão TV-GPA...................................... 28 21 Boxplot dos dados.............................................. 29 22 Histograma dos dados............................................ 29 23 Histograma (peso estudantes)........................................ 30 24 Histograma (classificações).......................................... 30 25 Histograma (tempos do cubo mágico)................................... 31 26 Boxplot (Grandes Nabos).......................................... 32 27 Histograma (Grandes Nabos)........................................ 32 28 Histograma (nı́veis de colesterol)...................................... 33 29 Boxplot (nı́veis de colesterol)........................................ 33 30 Polı́gono de frequências (nı́veis de colesterol)............................... 33 31 Ogiva (nı́veis de colesterol)......................................... 33 37 Funções de probabilidade de duas binomiais................................ 61 38 Funções de probabilidade de duas geométricas............................... 61 39 Funções de probabilidade de duas Poisson................................. 63 40 Distribuições com diferentes graus de liberdade.............................. 69 41 Resolução gráfica (b) com a função densidade............................... 71 42 Função distribuição da uniforme (d).................................... 71 43 Resolução gráfica com a função densidade (a)............................... 72 44 Função distribuição da normal....................................... 72 ricardo manuel [email protected] LATEX 3 Estatı́stica I ISCTE - IUL Lista de Tabelas 1 Tabela de frequências (absolutas, relativas, simples e acumuladas)................... 15 2 População reclusa (Fonte: DGRSP, 2023)................................. 16 3 Nı́vel de escolaridade população reclusa (Fonte: DGRSP, 2023)..................... 16 4 Simulação das notas do exame....................................... 17 5 Idades da população reclusa (Fonte: DGRSP, 2023)............................ 18 6 Nı́vel de associação para r e ρS (Evans, 1996)............................... 25 7 Nı́vel de associação para η (Cohen, 2013)................................. 25 8 Tabela de contingência (2 × 2)....................................... 26 9 Nı́vel de associação ϕ (Cohen, 2013).................................... 26 10 Tabela de contingência (l × c)........................................ 26 11 Preferência de férias............................................. 27 12 Tabela de frequências (50 random)..................................... 27 13 Estatı́sticas Descritivas............................................ 28 14 TV hours week - Grade point average................................... 28 15 Dados em bruto................................................ 29 16 Estatı́sticas descritivas do dados...................................... 29 17 Número de sinistros.............................................. 29 18 Tabela de frequências (sinistros)...................................... 29 19 Pesos dos estudantes.............................................. 30 20 Classificação dos estudantes......................................... 30 21 Diagrama de caule e folhas (unidade = 1)................................. 32 22 Tabela de frequências (colesterol)...................................... 32 23 Estatı́sticas descritivas (nı́veis de colesterol)................................ 33 24 Pontuação e horas de estudo......................................... 35 25 Disposição dos alunos............................................ 36 26 O tabagismo e a presença de doença pulmonar.............................. 37 27 Tipo de sangue e sintomas.......................................... 37 28 Polı́tica - Género............................................... 37 29 DL - PM................................................... 37 30 Análise da relação entre Sexo e Peso.................................... 38 31 Análise de Variância - Relação entre Curso e Rendimento........................ 38 32 Dados de Satisfação e Reclamações..................................... 38 33 Dados de Horas de Estudo e Nı́vel de Compreensão............................ 38 ricardo manuel [email protected] LATEX 4 Estatı́stica I ISCTE - IUL Todos os erros ou omissões são da minha inteira responsabilidade. Caso detete algum erro ou imprecisão, agradeço desde já que me informe. Sugestões e comentários serão igualmente muito bem-vindos. Obrigado pela vossa colaboração. Sumários Aula 1. Descritiva 1. Apresentação. Programa, sistema de avaliação, bibliografia. Estatı́stica descritiva: variáveis observadas. Tipos de variáveis: qualitativas (nominais e ordinais); quantitativas (discretas e contı́nuas numa escala inter- valar ou de razão). Os dados como observação de variáveis. Influência do tipo de variáveis nas representações gráficas na construção de quadros e no cálculo de medidas de estatı́stica descritiva. [Trabalho autónomo] Ler Capı́tulo 1, páginas 29 a 38 e 44 a 50 de (Newbold et al., 2022), e as páginas 15 a 37 de (Reis, 2008). Aula 2. Descritiva 2. Tabelas de frequências absolutas, relativas e acumuladas. Representações gráficas: diagramas circulares (pie charts), gráficos de barras, histogramas (com e sem o polı́gono de frequências), polı́gono de frequências relativas acumuladas (ogiva) e ainda o diagrama de caule-e-folhas (stem-and-leaf plots). [Trabalho autónomo] Ler Capı́tulo 1, páginas 29 a 38 e 44 a 50 de (Newbold et al., 2022), e as páginas 43 a 57 de (Reis, 2008). Fazer os exercı́cios 9 a 11, Capı́tulo 3, das páginas 58 a 69 de (Reis, 2008). Aula 3. Descritiva 3. Medidas de localização de tendência central: média, moda, mediana e média aparada. [Trabalho autónomo] Ler Capı́tulo 2, páginas 63 a 67 de (Newbold et al., 2022), e as páginas 63 a 85 de (Reis, 2008). Fazer exercı́cios 8, 9, 10 e 11, Capı́tulo 4, das páginas 90 a 92 de (Reis, 2008). Aula 4. Descritiva 4. Cálculo de medidas de tendência não central: quartis, decis, percentis. Diagramas de extremos e quartis (boxplot) e identificação de outliers com as barreiras inferiores e superiores (internas ou externas). [Trabalho autónomo] Ler Capı́tulo 2, páginas 67 a 75 de (Newbold et al., 2022), e as páginas 86 a 89 de (Reis, 2008). Aula 5. Descritiva 5. Medidas de dispersão absoluta: variância (corrigida e não corrigida) e desvio padrão; amplitude do intervalo interquartı́lico e amplitude amostral. Medidas de dispersão relativa: coeficiente de variação. Medidas de assimetria e curtose. Classificação de uma distribuição quanto ao enviesamento e achatamento. [Trabalho autónomo] Ler Capı́tulo 2, páginas 75 a 85 de (Newbold et al., 2022), e as páginas 97 a 110 e 127 a 131 de (Reis, 2008). Fazer exercı́cios 1 e 9, Capı́tulo 5, das páginas 118 a 121 de (Reis, 2008). ricardo manuel [email protected] LATEX 5 Estatı́stica I ISCTE - IUL Aula 6. Descritiva 6. Aula prática. Resolução de exercı́cios. [Trabalho autónomo] Fichas Exemplos (Moodle). Aula 7. Descritiva 7. Análise bivariada. Tabelas de contingência. Medidas de associação entre variáveis numéricas e não numéricas (Phi, V de Cramer, correlação de Spearman e correlação de Pearson). Diagrama de dispersão. [Trabalho autónomo] Ler Capitulo 14, paginas 618 a 622 e 638 a 640 de (Newbold et al., 2022). Aula 8. Probabilidades 1. Revisão de conceitos fundamentais (experiência aleatória, espaço amostral, acontecimentos e axiomas). Pro- babilidade condicionada. Definição de partição. Teorema de Bayes e Teorema da Probabilidade Total. [Trabalho autónomo] Ler Capı́tulo 1, páginas 127 a 142 de (Newbold et al., 2022), e as páginas 36 a 42 e 82 a 86 de (Reis, 2021a). Ler as páginas 66 a 69 e 95 a 106 de (Harnett and Murphy, 1993). Aula 9. Probabilidades 2. Acontecimentos independentes e mutuamente exclusivos. [Trabalho autónomo] Fazer exercı́cios 22 a 24 de (Reis, 2021b). Aula 10. Probabilidades 3. Resolução de Exercı́cios. [Trabalho autónomo] Fazer exercı́cios 28 a 32 de (Reis, 2021b). Aula 11. Variáveis aleatórias 1. Noções gerais. Classificação de variáveis aleatórias. Variável aleatória como função do espaço de resultados em R. Variáveis aleatórias unidimensionais discretas. A função (massa) de probabilidade e a função de distribuição. Propriedades da função (massa) de probabilidade e da função de distribuição (cumulativa). [Trabalho autónomo] Ler as páginas 150 a 155 e 202 a 206 de (Newbold et al., 2022), e as páginas 97 a 115 de (Reis, 2021a). Ler as páginas 114 a 127 de (Harnett and Murphy, 1993). Fazer exercı́cios 1, 2, 4 e 5a, Capı́tulo 2, das páginas 63 e 64 de (Reis, 2021b). ricardo manuel [email protected] LATEX 6 Estatı́stica I ISCTE - IUL Aula 12. Variáveis aleatórias 2. Variáveis aleatórias unidimensionais contı́nuas. Função densidade (de probabilidade) e função de distribuição (cumulativa). Propriedades da função densidade e da função de distribuição. [Trabalho autónomo] Ler as páginas 115 a 122 de (Reis, 2021a) e as páginas 190 a 201 de (Harnett and Murphy, 1993). Fazer exercı́cios 3a, 3b, 3c, 11, 12, 13, 14a, 14b e 16, Capı́tulo 2, das páginas 66 e 69 de (Reis, 2021b). Aula 13. Variáveis aleatórias 3. Parâmetros de uma variável aleatória: valor esperado (ou valor médio ou esperança matemática), variância e desvio padrão (fórmulas de cálculo para variáveis aleatórias discretas e contı́nuas). [Trabalho autónomo] Ler Capı́tulo 4, páginas 156 a 161 (Newbold et al., 2022), e as páginas 137 a 143 e 147 a 149 (Reis, 2021a). Ler páginas 128 a 133 e 201 a 202 de (Harnett and Murphy, 1993). Fazer exercı́cios 3d, 3e, 3f, 5b, 5c, 7, 10, 14c, 15 e 19, Capı́tulo 2, das páginas 63 a 70 de (Reis, 2021b). Aula 14. Variáveis aleatórias 4. Variáveis aleatórias bidimensionais discretas. Função de probabilidade conjunta e funções de probabilidade marginais. Função de probabilidade condicionada. Independência de variáveis aleatórias discretas. [Trabalho autónomo] Ler páginas 123 a 126 de (Reis, 2021a), e as páginas 140 a 145 de (Harnett and Murphy, 1993). Fazer exercı́cios 25, 26, 27, 28 e 32, Capı́tulo 2, das páginas 73 a 77 de (Reis, 2021b). Aula 15. Variáveis aleatórias 5. Variáveis aleatórias bidimensionais discretas. Propriedades do valor esperado e da variância. Covariância e coeficiente de correlação linear. Propriedades da covariância. Covariância nula e independência. [Trabalho autónomo] Ler páginas 150 a 154 de (Reis, 2021a) e páginas 145 a 150 de (Harnett and Murphy, 1993). Ler capı́tulo 4, páginas 180 a 190 de (Newbold et al., 2022). Fazer exercı́cios 29, 30, 31, 36, 37 e 41 a 45, Capı́tulo 2, das páginas 70 a 82 de (Reis, 2021b). Aula 16. Variáveis aleatórias 6. Revisão e esclarecimento de dúvidas relativas ao trabalho autónomo realizado. Resolução de alguns exercı́cios das 4 fichas exemplo e dos exames anteriores disponibilizados na página Moodle. Atividade interativa: Kahoot. Frequência ricardo manuel [email protected] LATEX 7 Estatı́stica I ISCTE - IUL Aula 17. Distribuições discretas 1. Distribuição uniforme discreta. Prova de Bernoulli. Sequência de provas de Bernoulli e distribuição binomial. [Trabalho autónomo] Ler capı́tulo 4, páginas 163 a 169 de (Newbold et al., 2022), e as páginas 179 a 206 de (Reis, 2021a). Ler páginas 156 a 172 de (Harnett and Murphy, 1993). Fazer exercı́cios 1, 2 e 3, das páginas 155 e 156 de (Reis, 2021b). Aula 18. Distribuições discretas 2. A distribuição binomial e a distribuição de Poisson, com foco nas suas propriedades, especialmente a aditivi- dade. Abordagem sobre a função massa de probabilidade e os parâmetros caracterizadores principais. Cálculo de probabilidades com as fórmulas, a consulta das tabelas e ainda a utilização de comandos no R. [Trabalho autónomo] Ler Capı́tulo 4, páginas 171 a 176 de (Newbold et al., 2022), e as páginas 224 a 232 de (Reis, 2021a). Ler páginas 177 a 184 de (Harnett and Murphy, 1993). Fazer exercı́cios 12 a 16 e 27, das páginas 156 a 160 e 224 a 232 de (Reis, 2021b). Aula 19. Distribuições discretas 3. Continuação da aula anterior. Aproximação da distribuição binomial à distribuição de Poisson. Aula 20. Distribuições discretas 4. Distribuição hipergeométrica como alternativa à binomial. Distribuição geométrica e binomial negativa. [Trabalho autónomo] Fazer o exercı́cio 4, Capı́tulo 3, de (Reis, 2021b). Aula 21. Distribuições contı́nuas 1. Continuação da aula anterior. Distribuição uniforme contı́nua. Aula 22. Distribuições contı́nuas 2. A distribuição normal. Transformações lineares de uma variável aleatória normal. Primeiros cálculos de probabilidades com a distribuição normal. Consulta da tabela da normal padrão e comandos no R. [Trabalho autónomo] Ler Capı́tulo 5, páginas 205, 206 e 210 a 218 de (Newbold et al., 2022), e páginas 237 a 249 de (Reis, 2021a). Ler páginas 190 a 219 de (Harnett and Murphy, 1993). Fazer exercı́cios 17 e 18 de (Reis, 2021b). Aula 23. Distribuições contı́nuas 3. Continuação da aula anterior. ricardo manuel [email protected] LATEX 8 Estatı́stica I ISCTE - IUL [Trabalho autónomo] Ler Capı́tulo 5 e 6, páginas 236 e 237, e 258 a 261 de (Newbold et al., 2022), e 250 a 252 de (Reis, 2021a). Fazer exercı́cios 19 a 24 de (Reis, 2021b). Aula 24. Distribuições contı́nuas 4. Continuação da aula anterior. Propriedade da aditividade da distribuição normal. Aula 25. Distribuições contı́nuas 5. Continuação dos conteúdos abordados na aula anterior. Estudo da distribuição exponencial e sua relação com a distribuição de Poisson. Introdução e análise da distribuição Gamma. Aula 26. Distribuições contı́nuas 6. Distribuições derivadas da normal: Qui-quadrado, t-Student e F-Snedecor. Propriedades. [Trabalho autónomo] Ler o Capı́tulo 3, páginas 262 a 268, de (Reis, 2021a). Fazer exercı́cios 31 a 35 de (Reis, 2021b). Aula 27. Distribuições por amostragem 1. Conceitos. Processos de amostragem. Definição de amostra aleatória. Parâmetros e estatı́sticas. [Trabalho autónomo] Ler Capı́tulo 6, páginas 248 a 253 de (Newbold et al., 2022), e as páginas 21 a 34 e 53 a 58 de (Reis, 2018). Ler páginas 236 a 242 de (Harnett and Murphy, 1993). Aula 28. Distribuições por amostragem 2. Distribuição de prob./densidade conjunta de uma amostra aleatória. [Trabalho autónomo] Fazer exercı́cios 1, 2 e 5 a 8, do Capı́tulo 1 de (Reis, 2020). Aula 29. Distribuições por amostragem 3. Continuação da aula anterior. Distribuições das estatı́sticas mais importantes. Aula 30. Distribuições por amostragem 4. Distribuição da média amostral (quando a variância é conhecida e quando é desconhecida) e a distribuição da variância, em populações normais. Distribuição do máximo da amostra e do mı́nimo da amostra. Distribuição da proporção amostral (populações de Bernoulli). [Trabalho autónomo] Ler Capı́tulo 6, páginas 269 a 272 de (Newbold et al., 2022), e as páginas 73 a 78 de (Reis, 2018). Ler páginas 243 a 250 e 252 a 258 de (Harnett and Murphy, 1993). Fazer exercı́cios 4 a 6, 18 e 22, do Capı́tulo 1 de (Reis, 2020). ricardo manuel [email protected] LATEX 9 Estatı́stica I ISCTE - IUL Aula 31. Distribuições por amostragem 5. Distribuição da média e da proporção amostral (populações de Bernoulli), em grandes amostras (n > 30). A convergência para a distribuição normal de acordo com o Teorema do Limite Central (TLC). Corolários. [Trabalho autónomo] Ler Capı́tulo 6 e 7, páginas 252 a 257, e 288 a 293 de (Newbold et al., 2022), e 73 a 78 de (Reis, 2018). Ler páginas 259 a 275 de (Harnett and Murphy, 1993). Fazer exercı́cios 3, 9 a 16, 19 e 20, do Capı́tulo 1 de (Reis, 2020). Aula 32. Estimação pontual 1. Estimadores e estimativas. Propriedades dos estimadores: enviesamento, eficiência relativa e suficiência. [Trabalho autónomo] Ler páginas 95 a 99 de (Reis, 2018), e páginas 324 a 329 de (Harnett and Murphy, 1993). Fazer exercı́cios 1 a 7, do Capı́tulo 2 de (Reis, 2020). Aula 33. Estimação pontual 2. Erro quadrático médio. Propriedades assimptóticas dos estimadores: consistência em média quadrática. [Trabalho autónomo] Ler páginas 100 a 109 de (Reis, 2018). Fazer exercı́cios 8 a 11, 13, 14 e 17, do Capı́tulo 2 de (Reis, 2020). Aula 34. Estimação pontual 3. Continuação da aula anterior. [Trabalho autónomo] Fazer exercı́cios 15, 16, 18 a 21, do Capı́tulo 2 de (Reis, 2020). Aula 35. Estimação pontual 4. Estimação pontual. Método dos momentos e método da máxima verosimilhança. Função de verosimilhança. [Trabalho autónomo] Ler páginas 110 a 116, do Capı́tulo 2 de (Reis, 2018). Fazer exercı́cios 22 a 25, página 68, do Capı́tulo 2 de (Reis, 2020). Aula 36. Estimação pontual 5. Continuação da aula anterior. Exame ricardo manuel [email protected] LATEX 10 Estatı́stica I ISCTE - IUL 1 Estatı́stica 1.1 Introdução O que é a Estatı́stica? Não é uma tarefa simples de definir. Por vezes define-se como sendo um conjunto de técnicas de tratamento de dados, mas é muito mais do que isso. A Estatı́stica é uma “arte” e uma ciência que permite tirar conclusões e fazer inferências a partir de um conjunto de dados. A Estatı́stica é um método e não uma teoria. Quem pretende efetuar estudos ou tomar decisões, começa por recolher ou compilar a informação que lhe parece relevante. Sendo a maior parte dos casos, de natureza quantitativa, isto é, dados numéricos (Velosa, 2014). Até 1900 a Estatı́stica resumia-se ao que hoje em dia se chama Estatı́stica Descritiva. Mas a necessidade de uma formalização dos métodos utilizados fez com que nos anos seguintes se desenvolvesse numa outra direção, nomeadamente no que diz respeito ao desenvolvimento de técnicas de Inferência Estatı́stica. Assim por volta de 1960, os textos de Estatı́stica debruçam-se especialmente sobre métodos de estimação e de testes de hipóteses, assumindo determinados modelos, descurando os aspetos práticos da análise de dados (Murteira et al., 2023). Porém, na última década, em grande parte, devido às facilidades computacionais postas à sua disposição, os es- tatı́sticos, têm-se vindo a preocupar cada vez mais com a necessidade de desenvolver métodos de análise e exploração, que deem uma maior importância aos dados e que se traduz na frase: “Deixem os dados falarem por si”. Assim por vários motivos, o estudo estatı́stico fica muitas vezes pela exploração e descrição dos dados (Murteira, 1993). Quando vai até ao fim, a última fase do processo aparece em geral, associada a inferências estatı́sticas (Robalo, 2018a). Hoje em dia em todos os campos da ciência e nas mais variadas profissões, as pessoas têm necessidade de se envolver em problemas de Estatı́stica. A Estatı́stica Descritiva consiste na recolha, apresentação, análise e interpretação de dados numéricos através da criação de instrumentos adequados: quadros, gráficos e indicadores numéricos. Na Inferência Estatı́stica,..., é (primeiro) necessário introduzir os conceitos de população e amostra. A Estatı́stica é um método que dispõe de uma famı́lia de instrumentos, que permite apreender e quantificar diferentes tipos de fenómenos do mundo que nos rodeia, e que opera num quadro de noções, princı́pios e premissas bem definidas. No entanto, numa situação real e concreta, quando um procedimento estatı́stico é aplicado, as premissas ou hipóteses podem ou não verificar-se, o que nunca é completamente claro. Semelhante situação torna inevitável um elevado grau de subjetividade nas aplicações e leva modernamente à investigação de métodos robustos que sejam válidos para um largo leque de hipóteses ou modelos teóricos. Cumulativamente, sobretudo nas aplicações às ciências sociais e humanas, a precisão conseguida pela linguagem matemática nas ciências exatas fica severamente dependente da qualidade das medidas e das observações, podendo eventualmente a ordem de grandeza dos erros tornar irrelevante o tratamento estatı́stico. Esta contrariedade justifica a pesquisa que modernamente se faz de métodos resistentes que sejam insensı́veis à presença de erros grosseiros ou valores anormais (outliers) ou um grande número de pequenos erros (arredondamentos). 1.2 Sondagens e experimentações: População e amostra A Estatı́stica tem como objetivo, observar um fenómeno, recolher, analisar e interpretar os dados de modo a auxiliar a formulação de decisões (Martins, 2013). É dividida em duas áreas: Descritiva e a Inferência Estatı́stica. Perante um conjunto de dados, podem distinguir-se duas metodologias de abordagem: Por vezes, o estatı́stico depara-se com conjuntos de dados sem qualquer ideia preconcebida sobre o que poderá encontrar. Nesses casos, procede a uma análise exploratória de dados, frequentemente recorrendo a métodos gráficos, análise esta que revela diferentes aspetos do comportamento dos dados. Neste contexto, não se fala em amostras, mas sim em conjuntos de dados, sendo que, de uma maneira geral, a análise exploratória é suficiente para alcançar os objetivos pretendidos. ricardo manuel [email protected] LATEX 11 Estatı́stica I ISCTE - IUL Noutros casos, a análise de dados é conduzida com objetivos bem definidos, procurando responder a questões especı́ficas. Nestes casos, é fundamental que os dados sejam obtidos através de técnicas adequadas, de modo a assegurar a validade dos resultados (amostras representativas). Estas técnicas, nas quais a intervenção do acaso é fundamental, revolucionaram e promoveram o progresso da maioria dos campos da ciência aplicada. Pode-se afirmar que, hoje em dia, não há área do conhecimento cujo desenvolvimento não tenha sido influenciado pela Estatı́stica. De seguida, abordaremos algumas dessas técnicas de produção de dados, destacando as sondagens e as experimentações (aleatórias). Antes de iniciar a recolha de dados, é crucial, perante um determinado problema, identificar corretamente a Po- pulação alvo sobre a qual se pretende obter informação. O objetivo de uma sondagem é o de recolher informação acerca de uma população, selecionando e observando um conjunto de elementos dessa população. Definição 1. Censo e sondagem Censo é um estudo que inclui todos os elementos da população, enquanto uma sondagem é um estudo estatı́stico (da população) efetuado a partir da análise de uma amostra (representativa) que visa compreender as carac- terı́sticas de uma população. A sondagem permite inferir informações sobre a totalidade da população sem a necessidade de examinar cada indivı́duo, sendo um instrumento fundamental para a tomada de decisões informadas em áreas como a polı́tica, a saúde pública, o marketing, entre outras. A representatividade da amostra e a aleatoriedade da sua seleção são cruciais para garantir a fiabilidade e a validade dos resultados obtidos. Tempo, custos e outros inconvenientes impedem a inspeção de toda a população. Assim a informação pretendida será obtida à custa de uma parte do conjunto - amostra, mas com o objetivo de tirar conclusões para o conjunto todo - população. Se se observarem todos os elementos da população tem-se um recenseamento. Os termos sondagem e amostragem são confundidos, mas têm significados distintos. A amostragem refere-se ao processo de seleção de uma amostra a partir de uma população para um estudo estatı́stico. Em outras palavras, é uma fase especı́fica em que se decide quais elementos da população serão analisados. Por outro lado, uma sondagem é um processo mais abrangente que inclui várias etapas, sendo a amostragem apenas uma delas. Além de escolher a amostra, uma sondagem envolve também a recolha de dados, a análise dos resultados obtidos e a elaboração de um relatório final com as conclusões do estudo. Assim, enquanto a amostragem é uma parte do processo de sondagem, esta última abrange um conjunto mais amplo de atividades para atingir os objetivos da investigação. Definição 2. População e amostra População é o conjunto de objectos, indivı́duos ou resultados experimentais acerca do qual se pretende estudar al- guma caracterı́stica comum. Aos elementos da população chamamos unidades estatı́sticas. A dimensão/tamanho da população, N , pode ser muito grande (mas finita e neste caso ser estudada através de um censo ou de uma sondagem) ou infinita. Uma amostra é uma parte da população que é observada com o objectivo de obter informação para estudar a caracterı́stica pretendida. A dimensão/tamanho da amostra é representado por n. Uma amostra é um subconjunto (representativo) da população. É selecionada de forma aleatória ou não aleatória, com o objetivo de extrair informações e fazer inferências sobre a população. O tamanho da amostra pode variar e é geralmente muito menor do que o tamanho da população, mas deve ser grande o suficiente para ser estatisticamente significativa e representativa. Qual a dimensão da amostra considerada? A opção por escolher uma amostra de maior dimensão, é uma questão a ponderar entre os custos envolvidos e o ganho com o acréscimo de precisão. A dimensão depende muito da variabilidade da população subjacente. “Se a dimensão da amostra é demasiado grande, desperdiça-se tempo e talento; se a dimensão da amostra é demasiado pequena, desperdiça-se tempo e talento” (Mendenhall et al., 1990). É importante destacar que, se o processo de amostragem resultar numa amostra enviesada, aumentar o tamanho da amostra não solucionará o problema. Além do enviesamento, outro problema que merece atenção é a precisão. A falta de precisão, juntamente com o enviesamento, são dois tipos de erros que enfrentamos num processo de amostragem. O enviesamento refere- se a um desvio sistemático nos valores da estatı́stica em relação ao parâmetro a ser estimado, sempre na mesma direção. Já a falta de precisão caracteriza-se por uma elevada variabilidade entre os valores da estatı́stica. ricardo manuel [email protected] LATEX 12 Estatı́stica I ISCTE - IUL Geralmente, há algumas quantidades numéricas acerca da população que se pretendem conhecer. A essas quanti- dades chamamos parâmetros. Os parâmetros são estimados por estatı́sticas, que são números calculados a partir da amostra. A Inferência Estatı́stica é uma metodologia que permite fazer estimativas e tirar conclusões sobre uma população a partir da informação contida numa amostra (representativa da população de onde foi retirada). Definição 3. Parâmetro e estatı́stica Um parâmetro é uma medida numérica que descreve uma caracterı́stica especı́fica de uma população e uma estatı́stica é uma medida numérica que descreve uma caracterı́stica especı́fica de uma amostra. População Amostra Parâmetro Estatı́stica Entre os diversos tipos de planeamento utilizados, destacam-se aqueles que resultam em amostras aleatórias simples, amostras aleatórias com reposição, amostras sistemáticas, amostras estratificadas amostras estratificadas, amostras por clusters e amostras multi-etapas (a amostragem não faz parte do nosso programa). A recolha de dados por meio de sondagens torna-se insuficiente quando o objetivo é estudar a resposta de um grupo de indivı́duos a um estı́mulo ou tratamento, termo comumente utilizado em estatı́stica. Nesses casos, recorremos a outro processo de aquisição de dados, conhecido como experimentação (Tabachnick et al., 2013). Enquanto a sondagem visa obter informações sobre uma população, selecionando e observando uma amostra tal como ela se apresenta, a experimentação, por outro lado, impõe um tratamento às unidades experimentais com o propósito de observar sua resposta. O princı́pio fundamental da experimentação é o método de comparação, no qual os resultados da variável resposta de um grupo de tratamento são comparados com os de um grupo de controlo. 1.3 Análise Exploratória de Dados Após a recolha dos dados (uma amostra), procede-se à sua redução utilizando tabelas, gráficos e medidas estatı́sticas. O principal objetivo desta fase é identificar a estrutura subjacente aos dados, abstraindo-se da aleatoriedade presente. Nesta etapa da análise, além da descrição dos dados, com destaque para as suas caracterı́sticas e propriedades principais, busca-se também a formulação de um modelo. Em geral, a situação em estudo é complexa, ou nem todos os seus aspetos são relevantes para o objetivo em questão. Por isso, é formulado um modelo que oferece uma visão simplificada da realidade. “Todos os modelos são errados,... alguns são úteis”( George Box). O objetivo na escolha de um modelo é encontrar um que capture os aspetos mais importantes do fenómeno a ser estudado, mas que ao mesmo tempo seja simples o suficiente para permitir um tratamento eficaz. Esta fase inicial da análise dos dados é conhecida como Estatı́stica Descritiva – ocasionalmente chamada de Análise Preliminar de Dados. No entanto, alguns autores, contestam essa terminologia, argumentando que, em alguns casos, a análise inicial pode ser suficiente por si só, sem a necessidade de realizar inferências adicionais. Assim, o uso do termo preliminar pode ser considerado inadequado ou excessivo. O objetivo de um estudo estatı́stico é, de forma geral, estimar uma quantidade ou testar uma hipótese, recorrendo a técnicas estatı́sticas adequadas. Estas técnicas destacam todo o potencial da Estatı́stica, pois permitem tirar conclusões sobre uma população com base numa pequena amostra, fornecendo ainda uma medida do erro cometido. A esta fase chamamos Inferência Estatı́stica. ricardo manuel [email protected] LATEX 13 Estatı́stica I ISCTE - IUL 1.4 Estatı́stica Descritiva e Inferência Estatı́stica Podemos afirmar que uma análise estatı́stica envolve, duas fases fundamentais, com objetivos distintos: Estatı́stica Descritiva: Nesta fase, procura-se descrever a amostra, destacando as suas principais caracterı́sticas e propriedades. Tenta-se formular um modelo que simplifique a representação da situação em estudo. Inferência Estatı́stica: Com base em propriedades identificadas na análise descritiva da amostra, formula- se proposições mais amplas, que possam refletir a existência de leis na população. Contudo, ao contrário das proposições dedutivas, estas não podem ser classificadas como verdadeiras ou falsas, uma vez que foram verificadas apenas num subconjunto de indivı́duos. Assim, não podem ser consideradas falsas, mas também não podemos afirmar que sejam inteiramente verdadeiras, pois não foram verificadas em todos os indivı́duos da população. Existe, portanto, um grau de incerteza, medido em termos de probabilidade, que corresponde a uma percentagem de erro. O objetivo é avaliar a adequação do modelo proposto na fase anterior. Estatı́stica Descritiva Redução Amostra dos dados, Conjunto de modo a População de dados realçar as com aspecto caracterı́sticas desorganizado principais (Modelo...) Inferir para a População as conclusões obtidas da análise dos dados reduzidos (O modelo é bom?) Inferência Estatı́stica Na análise de dados, ao calcularmos estatı́sticas, que designamos por estimadores, o nosso objetivo é tomar decisões sobre parâmetros desconhecidos, que descrevem as populações de onde foram obtidas as observações. Este processo baseia-se na distribuição amostral da estatı́stica utilizada para estimar o parâmetro em estudo. A distribuição de amostragem descreve o comportamento de uma estatı́stica quando a amostra utilizada para o seu cálculo varia. Definição 4. Distribuição de amostragem Distribuição de amostragem de uma estatı́stica é a distribuição dos valores que a estatı́stica assume para todas as possı́veis amostras, da mesma dimensão, da população. ricardo manuel [email protected] LATEX 14 Estatı́stica I ISCTE - IUL 2 Análise, representação e redução de dados 2.1 Tipos de variáveis Começamos antes de mais por definir uma variável aleatória. Uma v.a. pode definir-se como uma caracterı́stica cuja manifestação assume pelo menos duas modalidades distintas e é imprevisı́vel, ou seja, aleatória e, de um modo geral, expressa os resultados de uma experiência aleatória. Em geral as variáveis aleatórias são representadas por letras maiúsculas (por exemplo, X), enquanto os resultados elementares por elas assumidos representar-se-ão através de letras minúsculas (x1 , x2 ,...). As variáveis podem ser qualitativas (numa escala nominal o ordinal): Nominal - Categorias qualitativas, mutuamente exclusivas (não se intercetam) e não hierarquizáveis (não existe ordem logo não há uma modalidade que possa ser considerada inferior ou superior a outra. Quando são atribuı́dos números às diferentes classes estes são simplesmente usados como ‘etiquetas’ (por exemplo a variável, dicotómica, sexo : 1 - masculino; 2 - feminino ou a nacionalidade: 1 - portuguesa; 2 - espanhola...). Ordinal - As modalidades podem ser ordenadas de acordo com um determinado critério. É válida não só a relação de identidade (como na escala nominal) mas também a relação de ordem. Nas ciências humanas são escalas muito usadas, como a escala de Likert (1 - totalmente contra; 2 - parcialmente contra; 3 - nem contra nem a favor; 4 - parcialmente a favor; 5 - totalmente a favor). As variáveis quantitativas podem ser discretas ou contı́nuas (numa escala intervalar ou de razão). As variáveis quantitativas discretas assumem um conjunto numerável (finito ou infinito) de valores (por exemplo o número de pintas de um dado, o número de filhos,...). As variáveis quantitativas contı́nuas podem assumir qualquer valor num dado intervalo real (por exemplo o tempo, o peso, a altura, a idade, o QI, a pressão arterial,...). Intervalar - Apresentam modalidades representadas por números para os quais são válidas as relações de identidade, de ordem e as operações de soma e subtração A distância numérica entre dois números está associada à distância empı́rica no mundo real. Entre as diferenças obtidas a partir do números são válidas as relações de multiplicação e divisão (mas não entre o números propriamente ditos). A origem da escala é meramente arbitrária. Na temperatura zero não significa ausência de frio/calor. O valor zero em graus Celsius corresponde a 32 na unidade Fahrenheit e a 273 na unidade Kelvin. Razão - As modalidades são representadas por números reais para os quais todas as operações são válidas. Ao contrário das variáveis numa escala intervalar, o valor zero indica ausência total da caracterı́stica em estudo. 2.2 Tabela de frequências e representações gráficas Quando se realiza uma experiência as observações são registadas ela ordem que são observadas (dados em bruto). Devemos por isso organizar os dados numa tabela de frequências. A primeira coluna da tabela devem estar as valores da variável (se discreta) ou intervalos reais (se contı́nua) ou categorias (classes exaustivas e mutuamente exclusivas se qualitativas). A frequência absoluta (Fi , i = 1, · · · , k) é o número de observações associada a cada categoria (k representa o número de categorias). A frequência relativa (fi ) é o quociente entre a frequência absoluta e o número total de observações (aqui designado por n). As frequências absolutas acumuladas e as frequências relativas acumuladas representam-se por CumFi e Cumfi respetivamente, quando faz sentido calcular. k X Tabela 1: Tabela de frequências (absolutas, relativas, simples e acumuladas) Fi = n i=1 Fi Xi Fi fi CumFi Cumfi fi = n x1 F1 f1 CumF1 = F1 Cumf1 k X x2 F2 f2 CumF2 = F1 + F2 Cumf2 = f1 + f2 fi = 1 ··· ··· ··· ··· ··· i=1 xk Fk fk n 1 ricardo manuel [email protected] LATEX 15 Estatı́stica I ISCTE - IUL Dois dos gráficos mais usados são os de barras e os circulares. Nos dados qualitativos e quantitativos discretos a largura das barras (deve deixar-se um espaço entre as barras adjacentes) é igual para todas as categorias e a altura é igual à frequência (absoluta ou relativa). As categorias são representadas no eixo horizontal e as frequências no eixo vertical. Os gráficos circulares (usados nos dados qualitativos numa escala nominal) estão divididos em setores circulares cuja área (e ângulo ao centro correspondente) é proporcional à frequência da categoria que representam. Exemplo - variável qualitativa numa escala nominal Tabela 2: População reclusa (Fonte: DGRSP, 2023) Origem Fi fi Portugueses 9805 0.847 África 883 0.076 América do Sul 346 0.030 Europa 464 0.040 Outros 84 0.007 Figura 3: População reclusa em Portugal (1582) Quando a variável é qualitativa, numa escala ordinal, ou quantitativa, faz sentido falar em frequências acumuladas. O CumFi dá-nos o número que observações com valor inferior ou igual à caracterı́stica xi [F (xi ) = CumFi ]. O gráfico da distribuição de frequências acumuladas de dados quantitativos discretos é uma ‘escada de graus’, onde a altura de cada grau é a frequência acumulada e o ‘salto’ entre classes é a frequência (simples). Os pontos de descontinuidade existem nos ‘saltos’, pelo que a função cumulativa é contı́nua à direita desses pontos. Exemplo - variável qualitativa numa escala ordinal Tabela 3: Nı́vel de escolaridade população reclusa (Fonte: DGRSP, 2023) Nı́vel de escolaridade Fi fi (%) CumFi Cumfi (%) Não sabe ler/escrever 327 2.88 327 2.88 Sabe ler/escrever 411 3.62 738 6.49 1.º Ensino Básico 2464 21.68 3202 28.17 2.º Ensino Básico 2745 24.15 5947 52.32 3.º Ensino Básico 3473 30.56 9420 82.88 Ensino Secundário 1622 14.27 11042 97.15 Ensino Superior 324 2.85 11366 100 Figura 4: Grouped stacked bar chart Figura 5: Grouped bar chart ricardo manuel [email protected] LATEX 16 Estatı́stica I ISCTE - IUL Quanto trabalhamos com dados quantitativos contı́nuos é, quase sempre, necessário agrupá-los em classes para os representar graficamente. Os gráficos mais utilizados para representar dados contı́nuos (agrupados em classes) são o histograma e o polı́gono de frequências. Para isso temos de calcular o número de classes (k) a formar, a amplitude total (r = máximo-mı́nimo de range em inglês) e a amplitude de cada classe (h ≈ r/k com arredondamento por excesso). As classes (que sempre que possı́vel devem ter a mesma amplitude) são um intervalo real do tipo [a, b[, (h = b − a). Podemos recorrer à regra de Sturges para definir o número de classes (k). De uma forma simples o√número de classes (k) é o primeiro inteiro que verifica a desigualdade 2k > n. Outra regra sugere fazer k = Int[ n], onde Int[.] representa a parte inteira de um número. Definição 5. Regra de Sturges: k = Int[1 + log2 n]. É também importante calcular o ponto médio (centro ou marca) da classe, isto é: (a + b)/2. É com este valor que se calcula a média dos dados agrupados e que se usa para representar o polı́gono de frequências. O limite inferior da primeira classe deve ser igual ao mı́nimo da amostra (ou ligeiramente inferior). Definição 6. Histograma e polı́gono de frequências O histograma é uma representação gráfica de dados quantitativos onde as classes são representadas no eixo horizontal e as frequências no eixo vertical. Se as classes tiverem todas a mesma amplitude, a altura representa a frequência. O polı́gono de frequências é uma representação gráfica dos dados em que se une, através de segmentos de reta, todos os pontos cuja abcissa é o ponto médio de uma classe e a ordenada é a sua frequência. Exemplo - variável quantitativa contı́nua (classes com a mesma amplitude) Tabela 4: Simulação das notas do exame Classe Fi fi CumFi Cumf i [7.37, 8.49) 4 0.013 4 0.013 [8.49, 9.61) 25 0.083 29 0.097 [9.61, 10.73) 39 0.130 68 0.227 [10.73, 11.85) 75 0.250 143 0.477 [11.85, 12.97) 69 0.230 212 0.707 [12.97, 14.09) 40 0.133 252 0.840 [14.09, 15.21) 27 0.090 279 0.930 [15.21, 16.33) 16 0.053 295 0.983 [16.33, 17.45) 4 0.013 299 0.997 [17.45, 18.57) 1 0.003 300 1 Figura 6: Ogiva (polı́gono de frequências acumuladas) (a) Histograma sem polı́gono de frequências (b) Histograma com polı́gono de frequências Figura 7: Representação gráfica das Notas (Classes) ricardo manuel [email protected] LATEX 17 Estatı́stica I ISCTE - IUL Exemplo - variável quantitativa contı́nua (classes com amplitudes diferentes) Quando as classes têm amplitudes diferentes, a al- tura das barras no histograma deve ser ajustada Tabela 5: Idades da população reclusa (Fonte: DGRSP, 2023) de modo que a área de cada barra seja proporcio- nal à frequência da classe. Isto é fundamental para Classe Fi hi CumFi fi (%) Cumfi (%) Fi /hi garantir que a representação visual da distribuição dos dados seja precisa. Em histogramas com classes [16, 18) 50 2 50 0.43 0.43 25.0 de amplitudes diferentes, a área das barras reflete a [18, 20) 107 2 157 0.93 1.37 53.5 densidade de frequência, ou seja, a concentração de [20, 24) 600 4 757 5.22 6.58 150.0 [24, 30) 1245 6 2002 10.83 17.41 207.5 valores em cada classe, independentemente da sua [30, 40) 3514 10 5516 30.56 47.97 351.4 amplitude. Este ajuste é crucial para evitar que clas- [40, 50) 3134 10 8650 27.26 75.23 313.4 ses com maior amplitude pareçam ter mais peso ape- [50, 60) 1890 10 10540 16.44 91.67 189.0 nas por abrangerem um intervalo mais vasto, asse- [60, 80) 958 20 11498 8.33 100 47.9 gurando assim uma análise rigorosa da distribuição. Figura 8: Histograma das idades da população reclusa O diagrama de caule-e-folhas é uma forma de representação que se situa entre a tabela e o gráfico, uma vez que, em geral, exibe os valores reais da amostra, mas de uma forma visualmente sugestiva, que remete para o formato de um histograma. Em comparação com o histograma, esta representação é mais simples de construir quando se trabalha com lápis e papel e tem uma vantagem imediata: facilita a ordenação dos dados quando não se dispõe de um computador. Além disso, como preserva os dı́gitos originais dos dados, ao contrário do histograma que os agrupa em intervalos, permite a reconstituição exata da amostra. A base da construção de um diagrama de caule-e-folhas reside na escolha de dois dı́gitos adjacentes dos dados, que permitem dividir cada valor do conjunto em duas partes: o caule e a folha. Estes são dispostos de cada lado de um traço vertical, como demonstramos a seguir: Diagrama de caule e folhas (unidade = 0.1) Caule Folhas 1 2357 2 01359 3 1468 4 247 5 036 O primeiro valor do diagrama de caule e folhas é 1.2 (12 × 10−1 ). ricardo manuel [email protected] LATEX 18 Estatı́stica I ISCTE - IUL A boxplot ou box and whisker plot (caixa com bigodes) é uma representação gráfica que destaca algumas carac- terı́sticas importantes da amostra. O intervalo dos valores da amostra compreendido entre o primeiro e o terceiro quartil (q1 e q3 ) é representado por um retângulo (caixa), com a mediana indicada por uma linha no interior da caixa. A partir dos lados da caixa, desenham-se duas linhas (os ‘bigodes’) que se estendem até ao menor e ao maior valor da amostra que ainda estão dentro dos limites definidos (normalmente, 1.5 vezes o intervalo interquartil). Por vezes, a amostra contém valores que se destacam por serem muito grandes ou muito pequenos em relação aos restantes (outliers). 2.3 Histograma, boxplot e outliers Quando se pretende examinar, além da assimetria, se na coleção de dados há valores estranhos ou outliers (valores com comportamento que se afastam da grande maioria dos restantes valores da variável) é usual confrontar os dados com uma medida de dispersão. A amplitude interquartı́lica (IQR = q3 −q1 ), por não ser sensı́vel a esse afastamento, é usada na identificação dos outliers. A regra prática consiste em considerar um outlier se: Outlier moderado ( ): BIE = q1 − 3IQR < xi < q1 − 1.5IQR = BII ∨ BSI = q3 + 1.5IQR < xi < q3 + 3IQR = BSE Outlier severo (∗): xi < q1 − 3IQR ∨ xi > q3 + 3IQR BII designa a barreira interna inferior e BIS designa a barreira interna superior; BEI designa a barreira externa inferior e BES designa a barreira externa superior; O menor(maior) valor que não é outlier é designado por valor adjacente inferior(superior) [V AI(S)]. Qualquer análise de dados exige uma atenção especial dos outliers. Podem dever-se a erros de registo ou não, e a sua inclusão ou exclusão da análise estatı́stica deve ser ponderada. Na fase de análise dos resultados deve fazer-se uma referência fundamentada aos outliers encontrados procurando uma interpretação. O histograma e a boxplot são importantes na análise de dados já que são (métodos) gráficos comple- mentares. (a) Assimetria negativa (b) Simetria (c) Assimetria positiva Figura 9: Boxplots (avaliação da assimetria ricardo manuel [email protected] LATEX 19 Estatı́stica I ISCTE - IUL (a) Assimetria negativa (b) Simetria (c) Assimetria positiva Figura 10: Histogramas (avaliação da assimetria) Por defeito, o R não diferencia entre outliers moderados e severos. No entanto, é possı́vel configurar a boxplot de forma a distinguir estes dois tipos de outliers, como ilustrado na figura seguinte. Figura 11: Outliers moderados e severos 2.4 Medidas de localização 2.4.1 Tendência central As medidas posição ou de localização central mas importantes são a média, a mediana e a moda. A média aritmética (média) é a soma de todos os valores numéricos observados a dividir pelo número de observações (se os valores forem todos iguais a uma constante a, isto é, se não existir dispersão, a média é a): Pn xi x̄ = i=1. n Quando os dados estão organizados numa tabela de frequências para determinarmos a média, e considerando k o número de valores que a variável X pode tomar, usamos a fórmula: Pk k Fi x i X x̄ = i=1 = fi xi. n i=1 Quando os dados estão agrupados em k classes numa tabela de frequências é necessário usar o ponto médio de cada classe x′i para determinarmos a média (aproximada pois não temos acesso aos dados em bruto): Pk k Fi x′i X x̄ = i=1 = fi x′i. n i=1 Há outras médias que têm interesse em situações especiais, como por exemplo: ricardo manuel [email protected] LATEX 20 Estatı́stica I ISCTE - IUL Média geométrica: x̄g = (x1 × x2 × · · · × xn )1/n. Suponha que a taxa anual de inflação num paı́s, durante os 3 últimos anos, for de 24%, 10% e 2%. Calcule a taxa média de inflação anual, isto é, a taxa constante com que, em 3 anos, o mesmo nı́vel de preços poderia ser atingido: (1 + t) = [(1 + 0.024) × (1 + 0.1) × (1 + 0.02)]1/3 ⇔ t = 11.6% (1 + t = x̄g = 1.116). n Média harmónica: x̄h = Pn. i=1 1/xi Um automóvel percorreu 10 km à velocidade de 120 km/h e os outros 10 km à velocidade de 80 km/h (recorde 2 que velocidade = espaço/tempo). Determine a velocidade média: vm = = 96 (x̄h = km/h). |{z} 1/120 + 1/80 x̄h A média representa o valor que todos teriam se não houvesse variação nos dados. No entanto, por ser uma medida extremamente sensı́vel aos valores da amostra, é importante utilizá-la com cautela, pois pode fornecer uma imagem distorcida dos dados, especialmente na presença de outliers ou distribuições assimétricas. Chamamos a atenção para que com dados de tipo qualitativo não tem sentido calcular a média, mesmo que os dados sejam números. Se, por exemplo, temos um conjunto de 1 e 2 para representar as classes da variável sexo, em que se utilizou o 1 para representar o sexo masculino e o 2 para o sexo feminino (variável codificada), não tem qualquer significado calcular a média daquele conjunto de dados. A mediana divide ao meio o conjunto de valores observados (ordenados por ordem crescente ou decrescente). É menor valor da variável que contém pelo menos 50% das observações. O conjunto de dados é dividido de forma a que o número de observações inferiores ou iguais à mediana seja igual ao número de observações superiores ou igual à mediana (o cálculo da mediana pressupõe que os dados já foram previamente ordenados). Consideremos x1 , x2 ,..., xn um conjunto de observações. Usando a notação x(i) para representar o i-ésimo valor observado mais pequeno, passamos a ter a nossa amostra ordenada, pelo que se verifica que x(1) ≤ x(2) ≤ · · · ≤ x(n). Em particular x(1) e x(n) são respetivamente o mı́nimo e o máximo da amostra. x( n2 ) + x( n2 +1) se n par, 2 Me = x̃ = x( n+1 ) se n ı́mpar. 2 Quando os dados (contı́nuos) estão agrupados em classes numa tabela de frequências a fórmula para calcular a mediana é diferente. Primeiro temos de encontrar a classe mediana, isto é, a primeira classe [li , Li [ onde o cumFi ≥ 0.5. Ou, se preferirmos, a classe i que contém a mediana é tal que Cumfi−1 < 0.5 e Cumfi ≥ 0.5: 0.5 − Cumfi−1 Me = x̃ = li + × (Li − li ). fi A moda é o valor que ocorre com maior frequência num conjunto de observações. A moda pode não existir (conjunto amodal) e se existir pode não ser única. Se for única a distribuição diz-se unimodal, se tiver duas modas diz-se bimodal, se tiver mais de duas diz-se multimodal. Nos dados agrupados em classes o cálculo da moda é mais complexo. (a) Distribuição unimodal) (b) Distribuição bimodal (c) Histograma bimodal Figura 12: Distribuições bimodais e unimodais ricardo manuel [email protected] LATEX 21 Estatı́stica I ISCTE - IUL Quando as classes têm a mesma amplitude a classe modal [li , Li [ é a que tem maior frequência. Considere ∆1 = Fi − Fi−1 (frequência da classe modal menos a frequência da classe anterior à classe modal) e ∆2 = Fi − Fi+1 (frequência da classe modal menos a frequência da classe posterior à classe modal). ∆1 M o = li + × (Li − li ). ∆1 + ∆ 2 Comparação entre a média, a mediana e a moda Em distribuições simétricas (unimodais), a média, a mediana e a moda têm o mesmo valor (x̄ = Me = Mo ). Numa distribuição assimétrica positiva, a média é maior que a mediana e esta (geralmente) maior do que a moda, que é a medida de localização menos usada (x̄ > Me > Mo ), enquanto numa distribuição assimétrica negativa, a média é menor que a mediana e esta (geralmente) menor que a moda (x̄ < Me < Mo ). (a) Distribuição simétrica (b) Distribuição assimétrica positiva (c) Distribuição assimétrica negativa Figura 13: Distribuições (as)simétricas Então qual destas medidas é preferı́vel? Média ou mediana? Quando a distribuição é simétrica, a média e a mediana coincidem. A mediana não é tão sensı́vel, como a média, às observações que são muito maiores ou muito menores do que as restantes (outliers). Por outro lado, a média reflecte o valor de todas as observações. Não é possı́vel afirmar, de forma absoluta, qual destas medidas é preferı́vel, pois a escolha depende sempre do contexto em que estão a ser utilizadas. Como mencionado, a média é bastante sensı́vel a valores extremamente altos ou baixos, sendo por isso considerada uma medida pouco resistente. Em contrapartida, a mediana é uma medida resistente, pois não é afetada pelos outliers. No entanto não reflete a totalidade dos dados tão bem quanto a média. Assim, seria ideal encontrar um compromisso entre estas duas medidas, o que nos leva ao conceito de média aparada. A média aparada é obtida eliminando um número igual de observações nos extremos da amostra ordenada, onde, se presentes, se encontram os outliers. Em seguida, calcula-se a média dos valores restantes. Mas quantos elementos é que se devem eliminar em cada um dos extremos? Não existe uma regra fixa, pois depende nomeadamente do número de outliers existentes. Uma escolha que se costuma fazer é eliminar 5% dos elementos da amostra em cada extremo, resultando num total de 10% de elementos eliminados (quando a percentagem não der um valor inteiro, considera-se o número inteiro mais próximo do valor obtido). 2.4.2 Tendência não central Os quantis são as medidas de posição ou localização não central que vamos estudar. O percentis, os decis e os quartis são os que têm mais interesse estudar. O quantil de ordem p representa-se por Qp (0 < p < 1) e [.] designa parte inteira: x (np) + x(np+1) se np inteiro, Qp = 2 x[np+1] se np não inteiro. Quando os dados estão agrupados em classes numa tabela de frequências a fórmula (mais uma vez) é diferente: p − Cumfi−1 Qp = li + × (Li − li ), Cumfi−1 < p ≤ Cumfi. fi ricardo manuel [email protected] LATEX 22 Estatı́stica I ISCTE - IUL 2.4.3 Relação entre quartis, decis e percentis Q0.50 = Me = p50 = d5 = q2 (a mediana é igual ao percentil 50, ao decil 5 e ao 2.º quartil). Q0.25 = p25 = q1 (1.º quartil é o percentil 25). Q0.75 = p75 = q3 (3.º quartil é o percentil 75). Resumo prático (exemplo para o primeiro quartil): Diz-se ”pelo menos 25%” estão abaixo de q1 quando o conjunto de dados é discreto ou pequeno, podendo existir valores repetidos que aumentem a proporção de dados menores ou iguais a q1. Usa-se ”25%” estão abaixo de q1 quando o conjunto de dados é contı́nuo ou suficientemente grande, assegurando que exatamente 25% dos valores são menores ou iguais a q1. 2.5 Medidas de dispersão, assimetria e curtose 2.5.1 Medidas de dispersão As medidas de localização não nos dão toda a informação necessária sobre os dados. Precisamos também de estu- dar as medidas de dispersão (absolutas). As mais importantes são a variância e o desvio padrão. Devemos também calcular estatı́sticas de dispersão relativas, que permitem comparar a variabilidade de conjuntos de dados expressos em diferentes unidades de medida. Amplitude total, range em inglês (r): r = x(n) − x(1) (diferença entre o máximo e o mı́nimo); Amplitude interquartil, interquartile range em inglês (IQR): IQR = q3 − q1 (diferença entre o 3.º e 1.º quartis). n X O desvio absoluto médio (dm ): dm = |xi − x̄|/n (pouco usada porque a função módulo não é diferenciável). i=1 O desvio padrão de uma amostra (s) indica se os valores estão próximos ou afastados da média (dispersão). A variância (s2 ) é o quadrado do desvio padrão. A variância corrigida da amostra e o desvio padrão corrigido da amostra (geralmente mais usadas na inferência estatı́stica) representam-se respetivamente por s′2 e s′. Pn Pn n n i=1 (xi − x̄)2 ′2 − x̄)2 i=1 (xi X X 2 s = , s = −→ ns2 = (n − 1)s′2 = (xi − x̄)2 = x2i − nx̄2 n n−1 i=1 i=1 k X Quando os dados estão agrupados em k classes é necessário usar o ponto médio (x′i ): 2 s ≈ Fi (x′i − x̄)2 /n. i=1 As medidas de variabilidade absoluta dependem das unidades das observações. Para comparar a variabilidade de diferentes distribuições usam-se medidas de variabilidade relativa que são quantidades adimensionais. A medida mais usada é o coeficiente de variação (é frequente exprimir o coeficiente em %): Cv = s′ /|x̄|, x̄ ̸= 0. Outra IQR q3 − q1 media de variabilidade relativa (robusta à existência de outliers) é o desvio quartil reduzido: =. 2Me 2q2 2.5.2 Medidas de assimetria e curtose Vamos definir primeiro o conceito de momento para estudar as medidas de assimetria e curtose. Definição 7. Momento centrado na média de ordem r (inteiro não negativo) Pn i=1 (xi − x̄)r É a média dos desvios em relação à média elevados à potência de ordem r, mr =. n As medidas de assimetria indicam se uma distribuição é assimétrica ou não. O coeficiente é dado por uma medida normalizada (para comparações). Existem dois coeficientes com valores próximos quando n → +∞. Pn 3 Pn 3 m3 i=1 (xi − x̄) n2 n i=1 (xi − x̄) g1 = 3 = −→ G1 = skew = × g1 = ×. s ns3 (n − 1)(n − 2) (n − 1)(n − 2) s3 ricardo manuel [email protected] LATEX 23 Estatı́stica I ISCTE - IUL (a) g1 ≈ 0 (b) g1 > 0 (c) g1 < 0 Figura 14: Skewness (assimetria) As medidas de curtose indicam sobre o ”peso” das caudas da distribuição. coeficiente de curtose é dado por uma medida normalizada (para comparações) que se obtém dividindo m4 (momento centrado na média de ordem quatro) pelo desvio padrão elevado a 4. O R também dá o excesso de curtose (Curto, 2021). Os valores dos dois coeficientes diferem aproximadamente 3 unidades com n grande (n → +∞), k2 = k1 − 3 (excesso de curtose): m4 n2 (n + 1) 3(n − 1)2 k1 = −→ k 2 = kurt = × k1 −. s4 (n − 1)(n − 2)(n − 3) (n − 2)(n − 3) (a) Mesocúrtica: k1 ≈ 3 (k2 ≈ 0) (b) Leptocúrtica: k1 > 3 (k2 > 0) (c) Platicúrtica: k1 < 3 (k2 < 0) Figura 15: Kurtosis (curtose) Costuma-se comparar o seu valor com a da curva normal que, com k1 = 3 (k2 = 0), é designada de Mesocúrtica (a). Assim se k1 > 3 (k2 > 0) a curva da distribuição é mais esguia, designada Leptocúrtica (b), com caudas mais ”pesadas”do que a distribuição normal (”e um pico alto”), e se k1 < 3 (k2 < 0) a curva da distribuição é mais achatada, designada por Platicúrtica (c), com caudas menos ”pesadas”do que a distribuição normal (”caudas leves e um pico baixo”). 2.6 Medidas de associação entre variáveis Quando temos duas variáveis, X e Y , podemos recolher uma coleção de pares de dados (x1 , y1 ), (x2 , y2 ),..., (xn , yn ) e estudar se existe alguma (possı́vel) relação entre elas. No entanto, antes, deve-se estudar cada uma individualmente. Os dados podem ser do tipo qualitativo (nominal ou ordinal) ou do tipo quantitativo (discreto ou contı́nuo). 2.6.1 Correlação de Pearson Antes de ser calculado o coeficiente de correlação de Person devemos representar o diagrama de dispersão, onde se representam os pontos da coleção de dados, de modo a ter uma ideia do tipo de relação existente (ou inexistente) entre as variáveis. A correlação é uma medida estatı́stica que expressa o grau e a direção da relação entre duas variáveis. Se estivermos a analisar duas variáveis quantitativas, a medida mais usada é o coeficiente de correlação de Pearson. Varia entre -1 (correlação linear forte negativa) e 1 (correlação linear forte positiva), com um valor próximo de zero a significar ausência de correlação linear entre as variáveis. O coeficiente de correlação de Pearson tem sido usado com sucesso quando os resultados da classificação não são afetados por diferenças de dispersão e de escala de variáveis. Pn Pn Cov(X, Y ) (xi − x̄)(yi − ȳ) i=1 xi yi − nx̄ȳ −1 ≤ r = Cor(X, Y ) = = pPn i=1 pPn = pPn pPn ≤1 sx sy r=1 (xi − x̄) 2 i=1 (yi − ȳ) 2 2 i=1 xi − nx̄ 2 2 i=1 yi − nȳ 2 ricardo manuel [email protected] LATEX 24 Estatı́stica I ISCTE - IUL A covariância é uma medida estatı́stica que reflete o grau de variação conjunta de duas variáveis aleatórias, indicando se tendem a variar na mesma direção (covariância positiva), ou seja se uma aumenta a outra também aumenta, ou em direções opostas (covariância negativa), se uma aumenta a outra diminui. Pode assumir qualquer valor [−∞ < Cov(X, Y ) < +∞], por isso apenas podemos verificar a direção da relação mas não a intensidade da relação (depende das unidades de medida das variáveis). Fornece uma indicação inicial da relação entre variáveis, diferenciando-se da correlação, que normaliza essa relação, permitindo a interpretação por que o valor está limitado ente -1 e 1. A existência de correlação não implica necessariamente uma relação de causa e efeito. 2.6.2 Correlação de Spearman Quando uma das variáveis é qualitativa ordinal e a outra quantitativa, ou as duas são ordinais, o coeficiente de correlação ρ (rho) de Spearman é o mais usado. Ao contrário do de Pearson, que assume que as variáveis são linearmente relacionadas, é uma medida não paramétrica, o que o torna mais robusto a outliers e ideal para variáveis que não seguem distribuição normal. Para o calcular (a interpretação do nı́vel de associação é idêntica ao de Pearson), ordene os dados de cada variável e atribua a cada valor a sua respetiva ordem (rank ). De seguida deve subtrair os ranks correspondentes, para obter di de cada par de observações e aplicar a fórmula: Pn 6 i=1 d2i −1 ≤ ρS = 1 − ≤1 n(n2 − 1) Tabela 6: Nı́vel de associação para r e ρS (Evans, 1996) Muito fraca Fraca Moderada Forte Muito forte |r| < 0.1 0.1 ≤ |r| < 0.3 0.3 ≤ |r| < 0.5 0.5 ≤ |r| < 0.7 |r| ≥ 0.7 2.6.3 Correlação de Eta O coeficiente eta (η) é uma medida de associação utilizada para avaliar a força da relação entre uma variável categórica (nominal) e uma variável quantitativa. É particularmente útil quando a relação entre as variáveis não é linear, sendo apropriado para análises de variância (ANOVA). O coeficiente η varia entre 0 e 1: η = 0: Não há relação entre as variáveis. η = 1: Relação perfeita; a variável categórica explica completamente a variabilidade da variável quantitativa. A interpretação do eta quadrado (η 2 ) é geralmente preferı́vel sobre o eta (η). O η 2 , tem uma interpretação mais direta e intuitiva porque representa da proporção da variância total na variável dependente que pode ser explicada pela variável independente. E é também por isso que o η 2 pode ser comparado diretamente entre diferentes estudos. Tabela 7: Nı́vel de associação para η (Cohen, 2013) Muito fraca Fraca Moderada Forte Muito forte 2 2 2 2 η < 0.01 0.01 ≤ η < 0.05 0.05 ≤ η < 0.25 0.25 ≤ η < 0.5 η 2 ≥ 0.5 2.6.4 Coeficiente V de Cramer e coeficiente Phi O coeficiente ϕ (Phi ) é uma medida estatı́stica especialmente concebida para avaliar a força da associação entre duas variáveis binárias. Esta métrica é particularmente relevante em situações onde ambas as variáveis são qualitativas (nominais ou ordinais) e dicotómicas. É o caso particular do V de Cramer para tabelas 2 × 2. Matematicamente, calcula-se com base numa tabela de contingência, sendo uma medida derivada do teste de Qui-quadrado (χ2 ). Para tabelas de maior dimensão, ou seja uma das variáveis tem 3 ou mais categorias, temos o V de Cramer. ricardo manuel [email protected] LATEX 25 Estatı́stica I ISCTE - IUL Tabela 8: Tabela de contingência (2 × 2) Y Totais |a × d − b × c| 0≤ϕ= p ≤ 1(perfeita associação) a b a+b (a + b)(a + c)(b + d)(c + d) X c d c+d Totais a+c b+d a+b+c+d Tabela 9: Nı́vel de associação ϕ (Cohen, 2013) s X2 Pequeno Moderado Elevado 0≤V = ≤ 1(perfeita associação) n × [min(l, c) − 1] Coeficiente ϕ [0.1, 0.3[ [0.3, 0.5[ [0.5, 1[ Tabela 10: Tabela de contingência (l × c) l X c B Totais X 2 = X (Oij − Eij )2 ni. × n.j , Eij = O11 ··· O1c n1. i=1 j=1 Eij n A............ Professor José Dias Curto - Tudo sobre o R (Vı́deos) Ol1 ··· Olc nl. Totais n.1 ··· n.c n Todos os códigos em R e Python são facultativos e apresentados apenas para sua curiosidade. ricardo manuel [email protected] LATEX 26 Estatı́stica I ISCTE - IUL 2.7 Estatı́stica Descritiva: Exemplos resolvidos e exercı́cios propostos 1. Considere as preferências de férias e interprete a tabela e os gráficos apresentados (Código 3). Tabela 11: Preferência de férias Xi Fi fi Casa 8 0.08 Praia 46 0.46 Campo 32 0.32 Outra 14 0.14 (a) Gráfico de barras (b) Gráfico circular Figura 16: Representações gráficas dos dados sobre a preferência de férias 2. Interprete os resultados seguintes, obtidos com as operações realizadas no R para (Código 3): (a) Gerar 50 números inteiros (aleatórios) entre 0 e 20. (b) Construir uma tabela de frequências com 5 classes de amplitude 4 e desenhar o histograma dos dados. Tabela 12: Tabela de frequências (50 random) Classe Fi fi CumFi Cumfi [0, 4) 8 0.16 8 0.16 [4, 8) 13 0.26 21 0.42 [8, 12) 10 0.20 31 0.62 [12, 16) 9 0.18 40 0.80 [16, 20) 10 0.20 50 1 Figura 17: Histograma com as 5 classes (h = 4) ricardo manuel [email protected] LATEX 27 Estatı́stica I ISCTE - IUL 3. Foram gerados 300 números aleatórios (distribuição normal), entre 0 e 20, e pedido para calcular (Código 3): (a) O máximo, o mı́nimo, a amplitude (r), o 1.º e o 3.º quartis (q1 e q3 ) e a amplitude interquartil (IQR). (b) A média (x̄), a mediana (q2 ), a variância corrigida (s′2 ) e o desvio padrão corrigido (s′ ). (c) O coeficiente de variação (Cv ), o coeficiente de assimetria (G1 ) e coeficiente de, excesso, curtose (k2 ). (d) Representar o histograma e a boxplot dos dados, identificando as barreiras internas (BII, BSI). Interprete os resultados obtidos e confirme os valores das barreiras inferior e superior. Figura 19: Boxplot: 300 números aleatórios Figura 18: Histograma: 300 números aleatórios n mean sd median trimmed min max range skew kurtosis se q1 q3 302 10.09 2.47 9.89 10 2.23 1 18.4 0.31 0.68 0.14 8.56 11.59 Tabela 13: Estatı́sticas Descritivas 4. Observe e discute o gráfico de dispersão e interprete o coeficiente de correlação linear de Pearson (Código 3). Tabela 14: TV hours week - Grade point average TV hours 20 5 8 10 13 7 13 5 25 14 GPA 2.35 3.80 3.50 2.75 3.25 3.40 2.90 3.50 2.25 2.75 Figura 20: Diagrama de Dispersão TV-GPA ricardo manuel [email protected] LATEX 28 Estatı́stica I ISCTE - IUL 5. Considere os dados, em bruto, da tabela seguinte. Os dados foram inseridos num Script R (existe a opção de introduzir os dados num ficheiro de Excel e pedir para o R os ler. Foram calculadas algumas estatı́sticas descritivas e representada a boxplot e o histograma. Interprete os resultados obtidos e comente/compare as duas representações gráficas apresentadas. Calcule as barreiras inferior e superior (internas) necessárias para determinar que