Estatística e Análise de Dados 1 - PDF
Document Details
Tags
Summary
Este documento abrange tópicos de método científico e estatística. Explora diferentes tipos de investigação, definições de variáveis, e processos de recolher e analisar dados. Também inclui uma introdução aos métodos de amostragem.
Full Transcript
Estatística e análise de dados 1 Método Científico 1. Definição de um problema/questão de investigação 2. Recolha de informação 3. Formulação de hipóteses Proposição testável que prevê como variáveis se relacionam. Tipos de relações entre variáveis: Associação entr...
Estatística e análise de dados 1 Método Científico 1. Definição de um problema/questão de investigação 2. Recolha de informação 3. Formulação de hipóteses Proposição testável que prevê como variáveis se relacionam. Tipos de relações entre variáveis: Associação entre 2 variáveis Diferença entre 2 ou mais grupos numa determinada variável Diferença entre 2 ou mais condições experimentais numa determinada variável Condiciona o resto das etapas 4. Definição de variáveis 5. Recolha de dados 6. Análise de dados 7. Interpretação dos dados 8. Divulgação dos resultados Tipos de investigação Experimental Laboratorial – Quanto mais controlo mais artificial serão os resultados De campo – Quanto menos controlo mais próximos da realidade serão os resultados Não experimental Qualitativa – inclui descrições narrativas, análise de conteúdo etc. o Fenomenológicos o Etnográficos o Estudo de caso Quantitativa – inclui dados quantitativos e análises estatísticas o Correlacionais o Longitudinais o Observação naturalista o Meia análise o Inquéritos Conceitos básicos Estatística É uma ciência que recolhe, organiza, interpreta e apresenta os dados de uma amostra extraída de uma população e que, a partir dessa amostra, valendo-se do cálculo das probabilidades, encarrega-se de fazer inferências acerca da população. Utiliza apenas a extração de dados, classificação de dados e analise de dados dos métodos científicos. Pode se dividir em Descritiva – Descreve as características de 1 amostra Inferencial – Parte de 1 amostra para fazer generalizações para 1 população Amostragem: processo utilizado para a recolha da amostra na população Aleatória Dirigida Métodos de amostragem Probabilística: cada elemento na população tem á mesma probabilidade de pertencer a mesma amostra e esta seja diferente de zero. 1 grupo o Amostragem aleatória simples – Quanto maior o N (amostra) maior aproximação à representatividade. Cada indivíduo tem a mesma chance de ser selecionado, ideal para populações homogêneas o Amostragem aleatória estratificada - Aplicada quando a população possui características distintas; amostra mais representativa da população. (-) pode ser difícil obter a lista; pode ser financeiramente mais dispendioso 2 ou mais grupos o Amostragem sistemática - Usada quando há uma lista ordenada da população. Seleciona um primeiro elemento aleatório e depois escolhe a cada X elementos até atingir o tamanho desejado. É fácil de realizar; não requer programas específicos; tem de ter atenção padrões recorrentes na grelha de amostragem (são ferramentas utilizadas para organizar e sistematizar informações sobre a seleção de amostras em pesquisas) o Amostragem por Clusters - Seleciona grupos aleatórios em vez de indivíduos. (+) é útil quando é difícil ou impossível conhecer todos os casos do Universo, mas todos estes casos existem naturalmente em clusters. (-) o cluster pode não representar a população. Vantagens: Permite selecionar amostras representativas da população Permite estimar os erros de amostragem Desvantagens: Requer grelha de amostragem Não probabilística: cada integrante da população não tem a mesma probabilidade de ser selecionado para constituir a amostra, sendo a extensão da amostra extremamente importante uma vez que quanto maior for, menor será a probabilidade de que casos incomuns possam influenciar a totalidade de maneira significativa. 1 grupo o Conveniência - Baseada na avaliação do pesquisador para escolher indivíduos típicos ou atípicos que forneçam dados relevantes. (+) simples, fácil, conveniente, não é necessária uma lista completa (-) pode não ser representativa da população o Bola de neve - Indivíduos são selecionados por meio de recomendações de outros, ideal para encontrar participantes de grupos difíceis de acessar. (+) simples, fácil, conveniente, não é necessária uma lista completa; útil quando a população é de difícil acesso. (-) pode não ser representativa da população; enviesamentos das instruções. 2 ou mais grupos o Quotas - Similar à estratificada, mas os indivíduos não são selecionados aleatoriamente dentro de cada cota. (+) simples, fácil, conveniente, não é necessária uma lista completa. (-) pode não ser representativa da população; requer dados atualizados sobre a constituição dos grupos. Vantagens: Não requer grelha de amostragem Apropriada para representar grupos de difícil identificação Contorna os obstáculos éticos à identificação dos indivíduos Desvantagens: Não garante a representatividade da amostra Dificuldade em estimar os erros de Amostragem Amostra - Subconjunto da população (tem de ser o mais representativo possível – uma amostra é representativa quando as suas características são idênticas a da população alvo). A representatividade de uma amostra calcula se através da comparação da média da amostra com a media da população alvo. Erro amostral/erro de amostragem – diferença entre os resultados da amostra e os da população alvo. População - Conjunto completo de elementos Variáveis – Característica ou qualidade atribuída ao objeto de investigação Variável independente: aquela que o investigador manipula, introduz para medir o efeito Variável dependente: sofre o efeito da variável independente Variável atributo: característica própria do participante Variável parasita: variável estranha que contamina os resultados Variável de controlo: elemento constante e inalterado ao longo do curso da investigação Tipos variáveis Qualitativas – Representam qualidades dos indivíduos, e pode, ser representadas por números, mas estes não têm qualquer significado matemático Escalas de medida o Variáveis nominais - Os dados identificam se por categoria sem relação de ordem (apenas permite dizer se uma modalidade é igual ou diferente de outra). No SPSS são utilizados n° para as rotularmos, mas sem significado matemático. Limitação: Apenas análises estatísticas baseadas na contagem (frequências). o Variáveis ordinais - Variáveis em que as categorias se podem ordenar de forma crescente/ decrescente Limitação: Apenas análises estatísticas baseadas na contagem, classificação e outras baseadas em interpretações de “maior do que” ou “menor do que”. Quantitativas – São representadas por números, e esses têm significado matemático Discretas: Não há casas decimais pois estas não fazem sentido. Contínuas: Qualquer número incluindo os com casas decimais Escalas de medida: o Variáveis intervalares - Os intervalos ou distâncias entre cada número e o seguinte são iguais, mas de origem arbitrária. Não se sabe a que distância cada um deles se encontra de zero. Não possuem zero absoluto o Variáveis proporcionais ou de razão - Cada número pode ser concebido como uma distância medida a partir de zero (0 reflete a ausência da característica). Permite uso de todas as técnicas estatísticas No geral deve se sempre usar as variáveis intervalares pois é sempre possível transformá-las em variáveis ordinais ou nominais e não ao contrário; permitem a realização de mais análises estatísticas e o uso de testes mais robustos. No SPSS existem 3 tipos de variáveis: nominais, ordinais e escalares (escalares => intervalares e de razão). Estatística descritiva Medidas de tendência central - Conjunto de medidas destinadas a descrever o centro da distribuição de valores de uma determinada variável na amostra Média – Resultado da soma de todos os valores dos participantes dividido pelo número total de valores o Cálculo: soma de todos os valores a dividir pelo número total de participantes. o Simbologia: nos cálculos x- e no reportar é M. o Vantagens: É a estatística descritiva mais comum; tem boas propriedades estatísticas; relativamente estável em amostras distintas retiradas de uma mesma população; tem em consideração todos os resultados. o Desvantagens: Influenciada pelos valores extremos; afetada pela assimetria da distribuição; apenas pode ser usada para medidas intervalares e de razão. o Média aritmética ponderada – utiliza se quando os dados se encontram agrupados. Corresponde á mediana dos números em cada grupo multiplicado pela frequência e depois dividido pelo número total de participantes. Moda – Valor de uma variável que surge com maior frequência na amostra o Cálculo: colocar os dados por ordem crescente e contar quantas vezes surge cada resultado. O maior será a moda. o Variável nominal o Pode existir mais do que uma moda. (2 modas: bimodal; +2 modas: multimodal) o Simbologia: Mo o Vantagens: Não é afetada por dados extremos da distribuição; é simples de determinar e de interpretar; dá-nos o resultado observado mais frequente. o Desvantagens: Pode não representar uma proporção dos dados; ignora dados extremos; se a frequência de alguns resultados for muito semelhante, a moda pode ser influenciada por um conjunto pequeno de dados. Mediana – Valor da variável ordenada em que o meio dos valores é a mediana o Variável ordinal (tem uma ordem) o Cálculo: coloca se os dados por ordem crescente e encontra se o meio. Se o número de participantes for ímpar o do meio é o valor da mediana se o número de participantes for par a soma dos dois valores do meio divididos por dois dá o valor da mediana. Esta apresenta se sempre com duas casas decimais. o Simbologia: Mdn o Vantagens: É pouco afetada por: valores extremos na distribuição e assimetria da distribuição; pode ser usada com dados ordinais, intervalares e de razão; fácil de determinar e interpretar o Desvantagens: Propriedades estatísticas menos favoráveis que a média; Não tem em consideração todos os dados; Comparação de medianas de 2 amostras da mesma população podem ser muito distintas. Medidas de dispersão: Medidas que fornecem uma indicação da variação entre os elementos de um conjunto numérico e o centro da sua distribuição Frequências o Variável Nominal (Moda) o Pode ser de dois tipos: ✓ Frequência Absoluta – Representa o nº de vezes que cada valor da variável aparece na amostra; Calcula se através da soma de todas as frequências que deve ser o nº total de sujeitos da amostra (N); Simbologia: Fi ✓ Frequência Relativa – A razão entre a frequência absoluta (Fi) e o nº total de dados (N); Multiplicando a FR por 100 obtemos a percentagem; Simbologia: FR o Reportar – Ex: A amostra é constituída por 63 sujeitos, sendo 27 (42.9%) do género masculino e 36 (57.1%) ao género feminino. Amplitude Total o É a diferença entre o valor máximo e o valor mínimo dos dados observados o Variável ordinal o Cálculo: A= Xmáximo – Xminimo o Quanto maior a amplitude → maior dispersão dos dados. o Simbologia: A o Vantagens: Forma muito simples de se avaliar a dispersão dos dados. o Desvantagens: Muito influenciada pelos valores extremos (menos frequentes e significativos), por isso podem existir distribuições com a mesma amplitude, mas com dispersões muito distintas Intervalo interquartílico o Dividir os dados em partes iguais o Variável ordinal o Quartil: Dividir a amostra em 4 partes iguais, logo 25% cada quartil o Fornece informação quanto à forma como as observações se distribuem em torno da mediana; o É a diferença entre os valores correspondentes ao terceiro quartil (Q3) e ao primeiro quartil (Q1) o Simbologia: IQQ o Cálculo: Calcular a mediana, e de seguida calcular as medianas do Q1 e do Q3. Depois subtrair essas medianas. o A distribuição é tanto mais dispersa quanto maior for a amplitude interquartis. o Reportar - Ex: A amostra é constituída por 11 sujeitos que têm entre 22 a 252 amigos no Instagram (Mdn = 98, IQQ = 63). o Vantagens: Mais completa que a amplitude total, porque usa 2 valores menos extremos; Não é afetado pelos valores extremos da distribuição. o Desvantagens: Não tem em consideração todos os valores da distribuição. Variância o É a diferença ou o quão distante os valores estão da mediana o É tanto maior quanto mais afastados da média estiverem os dados o Simbologia: S2 o Cálculo: Fazer a média e depois a cada valor da amostra tirar a média (xi-x). De seguida fazer o quadrado de cada um desses valores e soma los (xi-x)2. Depois a variância vai ser esse valor (∑) a dividir pelo número de dados da amostra menos 1 (N-1). Desvio padrão o Traduz a dispersão média dos valores individuais em relação ao valor da média da amostra o Quanto maior for o DP, maior será a dispersão dos valores relativamente à média da amostra o Variável intervalar o Cálculo: É a raiz quadrada da variância. o Simbologia: DP o Reportar - Ex: A amostra é constituída por 63 sujeitos com idades compreendidas 18 e 47 anos (M = 21, DP = 3.98). Medidas de forma Assimetria Curtose