Estatística- A Simplificado PDF
Document Details
Uploaded by ExceedingHarp4079
null
null
null
Tags
Summary
These lecture notes provide an introduction to statistics, covering descriptive, probabilistic, and inferential statistics. It includes essential concepts and initial definitions about population, samples, census, and sampling. The material is suitable for basic statistics courses.
Full Transcript
Equipe Exatas Estratégia Concursos Aula 01 INTRODUÇÃO À ESTATÍSTICA A Estatística pode ser definida como a ciência que estuda os processos de coleta, organização, análise e interpretação de dados numéricos variáveis referentes a qualquer fenômeno. Podemos conceituá-...
Equipe Exatas Estratégia Concursos Aula 01 INTRODUÇÃO À ESTATÍSTICA A Estatística pode ser definida como a ciência que estuda os processos de coleta, organização, análise e interpretação de dados numéricos variáveis referentes a qualquer fenômeno. Podemos conceituá-la como um conjunto de técnicas de coleta, organização, análise e interpretação de dados, aplicáveis a várias áreas do conhecimento, que auxiliam no processo de tomada de decisão. A Estatística se divide em três grandes ramos: Estatística Descritiva (ou Dedutiva): responsável pela coleta, organização, descrição e resumo dos dados observados. A partir de um determinado conjunto de dados, a Estatística Descritiva busca organizá-los em tabelas (ou gráficos) e estabelecer um sumário por meio de medidas descritivas como a média, os valores mínimo e máximo, o desvio padrão, entre outras. Estatística Probabilística: responsável por estabelecer o modelo matemático probabilístico adotado para explicar os fenômenos aleatórios investigados pela Estatística. Os resultados desses fenômenos aleatórios podem variar de uma observação para outra, o que dificulta muito a previsão de um resultado futuro. Por isso, a Teoria da Probabilidade é usada para medir a chance de ocorrência de determinados eventos. Estatística Inferencial (ou Indutiva): responsável pela análise e interpretação dos dados. A partir da análise de dados de uma amostra, a Estatística Indutiva estabelece inferências e previsões sobre a população, auxiliando na tomada decisões. Além disso, busca generalizar conclusões a respeito da população a partir de uma amostra, analisando a representatividade, a significância e a confiabilidade dos resultados obtidos. É responsável pela coleta, É responsável por estabelecer o É responsável pela análise e organização, descrição e resumo dos modelo matemático adotado para interpretação dos dados. dados observados. explicar fenômenos aleatórios. Correios (Analista de Correios - Engenheiro - Engenharia da Produção) Estatística Básica - 2024 (Pós-Edital) 3 www.estrategiaconcursos.com.br 125 01983829102 - HELBER FERREIRA BARCELOS Equipe Exatas Estratégia Concursos Aula 01 CONCEITOS INICIAIS Alguns conceitos iniciais da estatística costumam ser abordados em provas de concursos públicos, dentre os quais podemos citar: População: conjunto que contém todos os indivíduos, objetos ou elementos a serem estudados, que apresentam uma ou mais características em comum. A população pode ser finita, quando apresenta um número pequeno ou limitado de observações; ou infinita, quando apresenta um número muito grande ou ilimitado de observações. Amostra: subconjunto extraído da população para análise, devendo ser representativo daquele grupo. A partir das informações colhidas da amostra, os resultados obtidos podem ser utilizados para generalizar, inferir ou tirar conclusões acerca da população. Censo (ou recenseamento): estudo dos dados relativos a todos os elementos de uma população. O censo pode custar muito caro e demandar um tempo considerável, de forma que um estudo considerando apenas uma parcela da população pode ser uma alternativa mais simples, rápida e menos onerosa. Amostragem: processo que consiste na seleção criteriosa dos elementos a serem submetidos à investigação. Se forem cometidos erros no processo de seleção da amostra, muito provavelmente, o estudo ficará comprometido e os resultados serão tendenciosos. Portanto, devemos garantir que a amostra seja representativa da população. Parâmetros: descrições numéricas de características populacionais que raramente são conhecidas. Em geral, é muito caro ou demorado obter os dados da população inteira. Assim, algumas medidas precisam ser estimadas a partir de critérios ou métodos definidos pelo pesquisador, para representar características desconhecidas de uma população. Normalmente, os parâmetros populacionais são constantes para uma população. Estatística (ou estimador): medidas numéricas obtidas de amostras representativas extraídas da população. A partir das informações colhidas da amostra, as estatísticas amostrais podem ser utilizadas para inferir ou tirar conclusões acerca dos parâmetros populacionais, como a proporção de homens e mulheres na população brasileira. Correios (Analista de Correios - Engenheiro - Engenharia da Produção) Estatística Básica - 2024 (Pós-Edital) 4 www.estrategiaconcursos.com.br 125 01983829102 - HELBER FERREIRA BARCELOS Equipe Exatas Estratégia Concursos Aula 01 MÉTODO EXPERIMENTAL X MÉTODO ESTATÍSTICO Para a investigação de um fenômeno, temos a nossa disposição dois métodos: Método Experimental: consiste em manter constantes as causas (fatores), com exceção de uma, que é variada para que seus efeitos sejam descobertos. Contudo, nem sempre poderemos aplicar o método experimental, pois os fatores que afetam um fenômeno podem não permanecer constantes enquanto variamos a causa que nos interessa. Por exemplo, para analisarmos a queda nas vendas de uma empresa que produz chocolates, teríamos que considerar vários fatores que não necessariamente permanecerão constantes durante toda a investigação do fenômeno, tais como o fluxo de turistas na localidade; a temperatura média; o preço do concorrente; etc. Método Estatístico: admite e registra todas as possíveis variações das causas presentes, procurando determinar a influência de cada fator no resultado final. Dessa forma, o método estatístico busca descobrir relações entre os fatores, como, por exemplo, a influência da temperatura média e do fluxo de turistas na venda de chocolates. As CAUSAS são mantidas CONSTANTES, Admite e REGISTRA TODAS AS POSSÍVEIS COM EXCEÇÃO DE UMA, que é VARIADA VARIAÇÕES DAS CAUSAS PRESENTES, para que seus efeitos sejam descobertos. procurando determinar a influência de cada fator no resultado. Correios (Analista de Correios - Engenheiro - Engenharia da Produção) Estatística Básica - 2024 (Pós-Edital) 5 www.estrategiaconcursos.com.br 125 01983829102 - HELBER FERREIRA BARCELOS Equipe Exatas Estratégia Concursos Aula 01 DADOS ESTATÍSTICOS Os dados estatísticos constituem os valores resultantes do processo de coleta de dados. Os dados referem-se a um conjunto de valores, observações de um fenômeno de interesse, que denominamos de variável. Eles são organizados por meio de variáveis (a característica está sendo medida) e observações (elementos da amostra/população). Uma variável é um atributo cujo valor pode variar de uma unidade de investigação para outra. Por exemplo, a unidade de investigação pode ser um morador de uma determinada cidade e a variável a sua altura. As observações são os valores assumidos por uma variável em uma das unidades investigadas. ==ac64f== Com relação ao número de observações coletadas, os dados são classificados em univariados, bivariados ou multivariados: a) dados univariados: quando uma única observação de cada unidade de investigação é registrada. Por exemplo: peso; b) dados bivariados: quando duas observações de cada unidade de investigação são registradas. Por exemplo: peso e altura; c) dados multivariados: quando mais de duas observações acerca de cada unidade de investigação são registradas. Por exemplo: peso, altura, sexo e idade. Quanto à forma de apresentação, os dados podem ser classificados em dados brutos ou rol. Dados Brutos Os dados brutos são aqueles que não foram numericamente organizados em ordem crescente ou decrescente, ou seja, estão na forma como foram coletados. A tabela na qual os elementos não aparecem numericamente ordenados é denominada de tabela primitiva. Em geral, ela oferece pouca ou nenhuma informação ao leitor, sendo necessária uma organização dos dados, a fim de torná-los mais expressivos. Rol O rol é a organização dos dados brutos em ordem de grandeza crescente ou decrescente. Com os dados organizados em rol, podemos saber, com facilidade, qual o menor e o maior elemento de um conjunto de dados. Correios (Analista de Correios - Engenheiro - Engenharia da Produção) Estatística Básica - 2024 (Pós-Edital) 6 www.estrategiaconcursos.com.br 125 01983829102 - HELBER FERREIRA BARCELOS Equipe Exatas Estratégia Concursos Aula 01 VARIÁVEIS ESTATÍSTICAS A variável estatística consiste no conjunto de características que desejamos averiguar estatisticamente, podendo ser definida como o objeto da pesquisa estatística. As variáveis estatísticas podem ser classificadas em duas categorias: qualitativas e quantitativas. Variáveis Qualitativas As variáveis qualitativas (ou categóricas) são as características que não podem ser descritas de forma numérica, mas que podem ser definidas por meio de qualidades (atributos ou categorias) do indivíduo pesquisado. Elas podem ser classificadas em nominais ou ordinais: a) variável qualitativa nominal, as possíveis categorias não podem ser ordenadas. Por exemplo, a cor dos olhos dos moradores de uma determinada cidade (pretos, castanhos, azuis e verdes); b) variável qualitativa ordinal, as possíveis categorias podem ser ordenadas de alguma forma. Por exemplo, o grau de instrução dos funcionários de um determinado órgão (fundamental, médio, superior). Variáveis Quantitativas As variáveis quantitativas são características que podem ser descritas em termos de quantidades (valores numéricos), obtidas por meio de contagem ou mensuração. Elas podem ser classificadas em discretas e contínuas: a) variáveis quantitativas discretas, os possíveis valores formam um conjunto finito ou enumerável de números e, geralmente, resultam de um processo de contagem. O número de ocorrências da característica em análise pode ser contado. Por exemplo, número de leitos disponíveis em um município. b) variáveis quantitativas contínuas, os possíveis valores formam um intervalo de números reais e, normalmente, resultam de um processo de mensuração. A característica pode ser medida em uma escala contínua, a qual podem ser associados um número infinito de possíveis valores. Por exemplo, altura dos habitantes de uma cidade. Correios (Analista de Correios - Engenheiro - Engenharia da Produção) Estatística Básica - 2024 (Pós-Edital) 7 www.estrategiaconcursos.com.br 125 01983829102 - HELBER FERREIRA BARCELOS Equipe Exatas Estratégia Concursos Aula 01 Os resultados obtidos não podem ser ordenados/hierarquizados. Nominais Ex: cor dos olhos; esporte praticado. ==ac64f== Qualitativas Os resultados obtidos podem ser ordenados/hierarquizados. Ordinais Ex: nível de escolaridade. Variáveis Os possíveis valores formam um conjunto finito ou enumerável; resultam de contagem. Discretas Ex: número de leitos por cidade; idade. Quantitativas Os possíveis valores formam um intervalo de números reais; resultam de mensuração. Contínuas Ex: peso; altura. Correios (Analista de Correios - Engenheiro - Engenharia da Produção) Estatística Básica - 2024 (Pós-Edital) 8 www.estrategiaconcursos.com.br 125 01983829102 - HELBER FERREIRA BARCELOS Equipe Exatas Estratégia Concursos Aula 01 SÉRIES ESTATÍSTICAS Uma série estatística consiste em um conjunto de dados organizado com base em uma característica comum, ou seja, uma mesma variável. Ela normalmente é representada por meio de tabelas ou gráficos, conforme ficar melhor representada, a fim de sintetizar os dados estatísticos observados e torná-los mais compreensíveis. Uma tabela é um quadro que resume um conjunto de observações, sendo composta de: a) corpo – conjunto de linhas e colunas com as informações sobre a variável em estudo; b) cabeçalho – parte superior que especifica o conteúdo das colunas; c) coluna indicadora – parte que indica o conteúdo das linhas; d) linhas – traços que facilitam a leitura dos dados; e) célula – espaço onde os dados são armazenados; f) título – identificação da tabela, contendo as informações sobre seu conteúdo; g) fonte – referência de onde os dados foram obtidos, localizada no rodapé. Um gráfico é uma forma clara e objetiva de apresentar uma série estatística. Seu objetivo é proporcionar uma compreensão mais rápida do fenômeno em estudo. O gráfico deve ser destituído de detalhes sem importância (ser simples); permitir a correta intepretação dos valores representativos do fenômeno (ser claro); e transmitir a verdade sobre o fenômeno (ser verossímil). A tabela anterior pode ser representada por meio do gráfico ao lado. Finalmente, podemos verificar a presença de três elementos nas séries estatística: o tempo, o espaço e a espécie. Conforme os elementos variem, a série pode ser classificada em três categorias: temporal (ou cronológica), geográfica (ou territorial) e específica. Correios (Analista de Correios - Engenheiro - Engenharia da Produção) Estatística Básica - 2024 (Pós-Edital) 9 www.estrategiaconcursos.com.br 125 01983829102 - HELBER FERREIRA BARCELOS Equipe Exatas Estratégia Concursos Aula 01 Séries Temporais (ou Cronológicas) É a série cujos dados são dispostos segundo a População brasileira no período de 1970 a época de ocorrência. Enquanto o tempo varia, o 2010 (x1000) fato e o local permanecem constantes. Também Anos População são chamadas de séries históricas ou evolutivas. 1970 93.134 1980 119.011 A principal característica é o fator cronológico 1991 146.825 variável. Ao lado temos a série histórica da 2000 169.799 população residente no Brasil no período de 2010 190.755 1970 a 2010, com frequência decenal. Fonte: Censo Demográfico (2010) Séries Geográficas (ou Territoriais) ==ac64f== É a série cujos dados são dispostos segundo a População Urbana em 2010 (x1000) localidade de ocorrência. Enquanto o local varia, Região População o fato e o tempo permanecem constantes. Norte 11.664 Também são chamadas de séries espaciais ou de Nordeste 38.821 localização. A principal característica é o fator Sudeste 74.696 Sul 23.260 geográfico variável. Ao lado temos a série Centro-Oeste 12.482 geográfica da população urbana residente em Fonte: Censo Demográfico (2010) cada uma das regiões brasileiras no ano de 2010. Séries Específicas É a série cujos dados são dispostos segundo a População Urbana e Rural em 2010 (x1000) modalidade de ocorrência. Enquanto o fato Zona População varia, a época e o local permanecem constantes. Urbana 93.134 Também são chamadas de séries categóricas. A Rural 119.011 principal característica é o fator especificativo Total 190.755 Fonte: Censo Demográfico (2010) variável. Ao lado temos uma série específica das populações urbana e rural residentes no Brasil no ano de 2010. Correios (Analista de Correios - Engenheiro - Engenharia da Produção) Estatística Básica - 2024 (Pós-Edital) 10 www.estrategiaconcursos.com.br 125 01983829102 - HELBER FERREIRA BARCELOS Equipe Exatas Estratégia Concursos Aula 01 Séries Mistas (ou Compostas) Muitas vezes, podemos ter a necessidade de apresentar, em uma única tabela, a variação de valores de mais de uma variável, isto é, combinar duas ou mais séries. As séries resultantes desse processo de combinação são chamadas de séries mistas (ou compostas) e apresentadas por meio de tabelas de dupla entrada. O nome da nova série deve levar em População do Brasil por Sexo de 1970 a 2010 (x1000) consideração pelo menos dois elementos. Assim, Sexo Anos Homens Mulheres se for uma série mista de fato e tempo, 1970 46.327 46.807 denominaremos de série específico-temporal. 1980 59.142 59.868 Ao lado temos uma série específico-temporal 1991 72.485 74.340 representando as populações de homens e 2000 83.602 86.270 mulheres residentes no brasil, no período de 2010 93.406 97.348 Fonte: Censo Demográfico (2010) 1970 a 2010, com variação decenal. Por sua vez, se tivermos uma série mista de local População do Brasil por Região de 1970 a 2010 (x1000) e tempo, denominaremos de série geográfica- Anos Regiões N NE SE S CO temporal. Ao lado temos uma série geográfico- 1970 3.603 28.111 39.850 16.496 5.072 temporal representando as populações 1980 5.880 34.815 51.737 19.031 7.545 residentes em cada região brasileira, no período 1991 10.030 42.497 62.740 22.129 9.427 de 1970 a 2010, com variação decenal. 2000 12.900 47.741 72.412 25.107 11.636 2010 15.864 53.081 80.364 27.386 14.058 Fonte: Censo Demográfico (2010) Por fim, devemos notar que podem existir séries compostas de três ou mais entradas, embora isso raramente aconteça, por conta da dificuldade de representação. Correios (Analista de Correios - Engenheiro - Engenharia da Produção) Estatística Básica - 2024 (Pós-Edital) 11 www.estrategiaconcursos.com.br 125 01983829102 - HELBER FERREIRA BARCELOS Equipe Exatas Estratégia Concursos Aula 01 DISTRIBUIÇÃO DE FREQUÊNCIAS Logo após a coleta de dados, temos o que chamamos de dados brutos. Os dados brutos fornecem pouca informação ao leitor, sendo necessário organizá-los. A simples organização dos dados em um rol crescente já ajuda bastante nesse sentido. Por exemplo, com os dados organizados em rol, facilmente identificamos os valores mínimo e máximo do conjunto de dados. Rol Crescente 85 115 129 143 161 89 115 129 143 165 96 123 134 148 168 98 123 135 153 170 99 124 135 154 171 103 126 135 155 171 104 126 137 157 171 105 126 137 158 173 113 127 137 159 175 114 128 142 161 175 Outra informação que conseguimos extrair dos dados organizados em rol crescente é que alguns tempos, como 126 min, 135 min, 137 min e 171 min, foram mais frequentes, ou seja, apareceram mais vezes durante a pesquisa. Uma maneira mais concisa de mostrar os dados do rol é apresentar cada valor juntamente com o número de ocorrências (frequência), em vez de repeti-los. A tabela que contém todos os valores com suas respectivas frequências é denominada de distribuição de frequências. Uma distribuição de frequências também pode ser definida como uma série estatística na qual permanecem constantes o fato, o local e a época. Ela pode ser classificada em dois tipos: pontual (ou discreta) e intervalar (ou contínua). Na distribuição de frequências pontual, são apresentados todos os dados coletados juntamente com suas respectivas frequências, não havendo perda de valores. Esse processo pode exigir muito espaço, especialmente quando o número de valores da variável tende a aumentar. Tempo Tempo Tempo Tempo Freq. Freq. Freq. Freq. (min) (min) (min) (min) 85 1 114 1 135 3 158 1 89 1 115 2 137 3 159 1 96 1 123 2 142 1 161 2 98 1 124 1 143 2 165 1 99 1 126 3 148 1 168 1 Correios (Analista de Correios - Engenheiro - Engenharia da Produção) Estatística Básica - 2024 (Pós-Edital) 12 www.estrategiaconcursos.com.br 125 01983829102 - HELBER FERREIRA BARCELOS Equipe Exatas Estratégia Concursos Aula 01 103 1 127 1 153 1 170 1 104 1 128 1 154 1 171 3 105 1 129 2 155 1 173 1 113 1 134 1 157 1 175 2 Quando a variável é contínua, o mais recomendável é agrupar os valores por intervalos de classe. Em vez de listar cada um dos valores, utilizamos uma distribuição de frequências intervalar, apresentando os intervalos de classe e as frequências correspondentes. Dessa forma, perdemos a informação detalhada dos tempos médios, mas ganhamos em termos de praticidade, simplificando o processo de análise de dados: Tempo médio (𝑿𝒊 ) Frequência (𝒇𝒊 ) 𝟖𝟓 ≤ 𝒙 < 𝟏𝟎𝟎 5 𝟏𝟎𝟎 ≤ 𝒙 < 𝟏𝟏𝟓 5 ==ac64f== 𝟏𝟏𝟓 ≤ 𝒙 < 𝟏𝟑𝟎 12 𝟏𝟑𝟎 ≤ 𝒙 < 𝟏𝟒𝟓 10 𝟏𝟒𝟓 ≤ 𝒙 < 𝟏𝟔𝟎 7 𝟏𝟔𝟎 ≤ 𝒙 < 𝟏𝟕𝟓 9 𝟏𝟕𝟓 ≤ 𝒙 < 𝟏𝟗𝟎 2 Para identificar uma classe, temos que conhecer os valores dos limites inferior e superior da classe, que delimitam um intervalo de classe. Desse modo, precisamos definir a natureza do intervalo de classe, se aberto ou fechado. Portanto, temos as seguintes notações para os diferentes tipos de intervalos: Notação Notação Tipo de Intervalo Significado matemática estatística Engloba todos os elementos entre 𝑎 Intervalo aberto 𝑎