Apontamentos Análise de Dados em GRH I (4) PDF
Document Details
Uploaded by RoomyEllipsis7162
ISCTE - O Instituto Superior de Ciências do Trabalho e da Empresa
2021
Tags
Summary
Os apontamentos da cadeira Análise de Dados em Gestão de Recursos Humanos I para o ano letivo 2021/2022, do ISCTE. Detalham conceitos como tipos de escalas de medida, apresentação, análise e interpretação de dados e mais. Inclui informação sobre estatística.
Full Transcript
ISCTE - O INSTITUTO SUPERIOR DE CIÊNCIAS DO TRABALHO E DA EMPRESA ANÁLISE DE DADOS EM GESTÃO DE RECURSOS HUMANOS I Regente: Profª. Catarina Marques Ano letivo de 2021/2022. Índice {#índice.Cabealhodondice} ====== [[Introdução] 3](#introdu%C3%A7%C3%A3o) [[Objetivos da Estatística:] 3](#objetivo...
ISCTE - O INSTITUTO SUPERIOR DE CIÊNCIAS DO TRABALHO E DA EMPRESA ANÁLISE DE DADOS EM GESTÃO DE RECURSOS HUMANOS I Regente: Profª. Catarina Marques Ano letivo de 2021/2022. Índice {#índice.Cabealhodondice} ====== [[Introdução] 3](#introdu%C3%A7%C3%A3o) [[Objetivos da Estatística:] 3](#objetivos-da-estat%C3%ADstica) [[Estatística descritiva] 3](#estat%C3%ADstica-descritiva) [[Tipos de escalas de medida] 4](#tipos-de-escalas-de-medida) [[Fontes de informação] 5](#fontes-de-informa%C3%A7%C3%A3o) [[Amostragem] 5](#amostragem) [[Amostragem Probabilística (aleatória ou casual)] 6](#amostragem-probabil%C3%ADstica-aleat%C3%B3ria-ou-casual) [[Amostragem Não Probabilística] 8](#amostragem-n%C3%A3o-probabil%C3%ADstica) [[Tratamento de dados univariados] 8](#tratamento-de-dados-univariados) [[Tabelas de frequência] 8](#tabelas-de-frequ%C3%AAncia) [[Gráficos] 11](#gr%C3%A1ficos) [[Medidas de Localização] 12](#_Toc85898397) Introdução ========== Estatística é a ciência que se ocupa da obtenção de informação (\...) é um instrumento de leitura de informação e da sua transformação em conhecimento. A matéria-prima da Estatística são dados observados sobre diversas entidades (indivíduos, por exemplo) relativos a diversos atributos ou características dessas mesmas entidades (idade, sexo, estado civil ou escalão de rendimento, por exemplo). Objetivos da Estatística: ------------------------- A Estatística procura responder a 3 questões básicas: - Como recolher dados para analisar; - Como analisar e sumarizar os dados recolhidos; - Qual a precisão dos resultados da análise. Fases de um estudo estatístico: - Definição do problema -- nesta fase o investigador deve procurar saber, através de artigos, revistas e Internet, se outros estudos foram desenvolvidos relativamente ao mesmo tema e quais as conclusões daí retiradas; - Planificação do processo de resolução -- definir os procedimentos necessários à resolução do problema; é ainda nesta fase que se decide a forma de obtenção dos dados, o tipo de dados e se se vai analisar a população ou uma amostra; - Recolha de dados -- fase operacional, que envolve a obtenção, a reunião e o registo sistemático dos dados; para esta obtenção pode-se recorrer a questionários, observações diretas, entrevistas, experimentações e pesquisa bibliográfica; - Organização de dados -- resumir os dados através da sua contagem e agrupamento com o propósito de distinguir o essencial do secundário relativamente ao fenómeno em estudo; - Apresentação dos dados -- é feita através de tabelas e gráficos; - Análise e interpretação dos dados -- calculam-se novos números com base nos dados estatísticos. Estes novos números permitem fazer uma descrição do fenómeno evidenciando algumas das suas características particulares. Estatística descritiva ---------------------- Estatística descritiva -- tem por finalidade descrever certas propriedades relativas a um conjunto de dados (amostra), pondo em evidência as características principais e as propriedades. - Estatística tratada nesta cadeira. Estatística indutiva -- trata-se de generalizar os resultados obtidos em determinado conjunto de elementos (amostra) a um outro conjunto mais numeroso (população). A estatística indutiva procura inferir propriedades mais gerais da população a partir de propriedades obtidas de uma análise descritiva da amostra ou de amostras da mesma população -- estatística inferencial. - A inferência estatística não é verdadeira nem falsa, mas, antes, é algo de provável e acompanhado de alguma incerteza. A Estatística Descritiva, em particular, consiste na apresentação, análise e interpretação de um conjunto de dados, através da criação de instrumentos adequados: - utilização de tabelas para condensar os dados: distribuição de frequências; - representação gráfica; - cálculo de valores numéricos que caracterizam os dados de uma forma global: medidas de estatística descritiva. O valor da informação pode traduzir-se em: - Aquisição de novos conhecimentos; - Redução do risco na tomada de decisão; - Apoio para confirmar uma decisão; - Ganho de tempo para decidir; - Preparar uma defesa no caso de uma decisão falhar. Tipos de escalas de medida ========================== Variável: característica que se estuda sobre determinada identidade. Tipos de variáveis: - Qualitativas -- medem qualidades; - Quantitativas -- medem quantidades. As variáveis qualitativas, possuem categorias e podem ser: - Nominais -- os números representam nomes, não havendo uma ordem subjacente: ex. região; - Ordinais - - números representam nomes e têm uma ordem subjacente. Ex. nível de escolaridade. As variáveis quantitativas, possuem valores e podem ser: - Discretas -- trata de números inteiros: ex. número de irmãos; - Contínua -- trata de números com casas decimais: ex altura. Quanto ao tipo de escalas de medida: Medidas qualitativas: - Nominal; - Ordinal. Medidas quantitativas ou métricas: - Intervalar -- trabalha-se com intervalos e não quocientes (o 0 não é absoluto); - De razão - trabalha-se com quocientes e o 0 é a ausência, é absoluto. Fontes de informação ==================== Fontes de dados utilizadas para um estudo podem ser: - Secundárias ou previamente disponíveis (fontes internas ou externas), que tem como vantagens: custo e disponibilidade; - Primárias - recolhidas propositadamente para um estudo específico, através de questionário, por exemplo, tendo como vantagens: atualidade, capacidade de obter informação mais completa e precisa acerca de um problema específico. Métodos de recolha: - Focus Groups; - Entrevistas em profundidade; - Observação; - Registos automáticos; - Experimentação; - Simulação; - Recolha de dados através de inquéritos. Amostragem ========== População - Conjunto de elementos com uma ou mais características comuns. Unidade estatística - elemento da população. População alvo - totalidade dos membros de interesse acerca dos quais desejamos obter informação. População inquirida - Conjunto de elementos para os quais é possível recolher uma amostra. Base de sondagem - Representação material da população que resulta, geralmente, de limitações práticas associadas ao estudo da População alvo; tem associada uma lista de N elementos da População em estudo. Amostra - É um subconjunto da População de n \< N elementos. A informação contida na amostra refere-se a dados de características específicas das entidades em causa (indivíduos, por exemplo). Censo ou recenseamento - O processo de recolha de informação incide sobre toda a população. Sondagem -- estudo científico de uma parte da população com o objetivo de conhecer melhor atitudes, hábitos e preferências da população relativamente a acontecimentos, circunstâncias e assuntos de interesse comum. Amostragem ou sondagem - O processo de recolha de dados de uma amostra. A decisão Recenseamento ou Amostragem envolve múltiplos fatores: dimensão da população, capacidade de controlo da qualidade das medições, natureza destrutiva das medições, custos (tempo e dinheiro), etc. A principal preocupação de qualquer estudo é que a amostra seja representativa da população em estudo! Figura Amostragem Probabilística (aleatória ou casual) ----------------------------------------------- Este tipo de amostragem permite determinar a probabilidade de inclusão de cada elemento na amostra e quantificar alguma incerteza associada a resultados. A amostragem probabilística pode-se fazer de diversas formas: - Amostragem aleatória simples -- igual probabilidade de seleção de cada unidade; - Amostragem estratificada ou proporcional -- amostragem dentro de estratos pré-definidos; - Amostragem aleatória sistemática -- determina-se a primeira unidade e as restantes são sistematicamente intervaladas; - Amostragem por grupos (clusters) -- amostragem de grupos; - Amostragem multi-etapas. #### Amostragem Aleatória Simples Dada uma população de dimensão N, uma amostra aleatória simples de n elementos é toda a amostra em que a probabilidade de qualquer outro conjunto de n elementos da população ser selecionado é a mesma. - Cada elemento da população tem igual probabilidade de ser incluído numa amostra; - Este tipo de amostragem pode evitar enviesamento originado por uma escolha pessoal e subjetiva dos correspondentes. #### Amostragem aleatória sistemática Dada uma população de dimensão N, ordenada por algum critério, se se pretende uma amostra de dimensão n, escolhe-se aleatoriamente um elemento x de entre os k primeiros, onde k é a parte inteira do quociente N/n. a partir de x escolhem-se sucessivamente os elementos, x + k, x + 2k, x + 3k,... Exemplo: Consideremos uma população com 10000 casos e uma amostra com 200 casos. O rácio 10000/200 = 50, que representa o intervalo de amostragem. Assim, escolhe-se aleatoriamente um número entre 1 e 50 para ser o primeiro caso da amostra. Suponhamos que dessa escolha resulta o caso 20. Os restantes casos a incluir na amostra serão o 70 (20 +50-k), o 120 (20 +100-2\*50), o 170 (20 + 150-3\*50), etc. #### Amostragem estratificada A população é dividida em classes homogéneas, chamadas estratos. Feitos os estratos, a amostra escolhe-se aleatoriamente em número proporcional ao número de elementos de cada estrato. Exemplo: admitamos que pretendemos estudar o meio de transporte utilizado por 125 estudantes de uma escola que residem em três zonas diferentes: - Zona A -- 15 alunos; - Zona B -- 30 alunos; - Zona C -- 80 alunos. Para tal decidiu-se considerar uma amostra de 30 alunos. Então, segundo a amostragem estratificada, selecionam-se, da zona C, A e B, respetivamente: 125 -- 30 125 -- 30 125 -- 30 80 -- x 15 -- y 30 -- z x = 19,2 y = 3,6 z =7,2 Assim, seriam selecionados aleatoriamente 19 alunos da zona C, 4 alunos da zona A e 7 alunos da zona B. #### Amostragem por Grupos A população é dividida em clusters, onde cada cluster é representativo da população. Seleciona-se aleatoriamente um conjunto de clusters e a amostra é constituída por todos os elementos dos clusters selecionados. Exemplo: Estudo da satisfação com o curso dos alunos das licenciaturas em GRH: 1. Fazer uma lista das universidades com licenciaturas em GRH; 2. Decidir qual a fração amostral, ou seja, quantas escolas inquirir (ex: 20%); 3. Escolher aleatoriamente 20% das escolas; 4. Inquirir todos os alunos que frequentam os cursos de GRH nas escolas selecionadas. #### Amostragem Multi-etapas Considera-se a população dividida em vários grupos e selecionam-se aleatoriamente alguns dos grupos. Por sua vez, estes grupos ainda estão divididos em grupos dos quais se selecionam alguns aleatoriamente. Exemplo: para uma sondagem eleitoral, considera-se o país dividido em regiões, dentro de cada região estimam-se os grupos de centros populacionais com dimensão semelhante, selecionam-se aleatoriamente algumas dessas cidades, as cidades são divididas em freguesias e algumas das freguesias são selecionadas aleatoriamente. Finalmente, em cada freguesia são escolhidos alguns elementos da população a inquirir. Amostragem Não Probabilística ----------------------------- Na amostragem não probabilística não há base de sondagem, logo não se garante a representatividade da amostra, sendo esta útil para estudos inicias e podendo escolher-se esta através de quatro processos: - Intencional ou segundo juízo; - Por conveniência; - Bola de neve; - Por quotas. #### Amostragem intencional ou segundo juízo Os casos selecionados são indicados por especialistas. É indicada quando o referido juízo é particularmente importante para a definição dos casos de interesse. Exemplo: indicar trabalhadores de uma empresa que se relacionam bem com direção de serviços de informática. #### Amostragem por conveniência Os casos escolhidos são os facilmente disponíveis. Vantagem: é fácil, barato e rápido. Exemplo: Estudo da satisfação com o curso dos alunos das licenciaturas em GRH: 1. Escolher duas escolas com cursos de GRH mais perto de residência de entrevistadores; 2. Selecionar alunos que passam na entrada de escola entre as 10h-13h, 14h-16h e 18h-20h. #### Amostragem bola de neve Os primeiros casos da amostra são selecionados segundo juízo; os restantes são indicados sucessivamente por casos selecionados anteriormente. #### Amostragem por quotas Análogo à amostragem estratificada com uma diferença: em vez de se escolher uma amostra aleatória dentro de cada estrato, escolhe-se uma amostra não aleatória (por conveniência, por exemplo) de tamanho igual à que a fração amostral indica. Tratamento de dados univariados =============================== Tabelas de frequência --------------------- #### Tabelas de frequência para dados nominais Xi n -- dados ordenados ![Uma imagem com mesa Descrição gerada automaticamente](media/image2.png) Tabela Não pode ter percentagens acumuláveis, uma vez que estamos a tratar de categorias e não valores. #### Tabelas de frequência para dados ordinais Uma imagem com mesa Descrição gerada automaticamente Tabela #### Tabelas de frequências para dados quantitativos simples com repetições Exemplo: perguntou-se o número de irmãos a 25 alunos da turma do João. Os dados obtidos foram os seguintes: 0, 2, 3, 2, 2, 4, 3, 2, 4, 1, 0, 3, 1, 0, 3, 4, 2, 0, 5, 1, 0, 3, 4, 3, 5 Após receber os dados deve-se proceder à sua organização: Tabela xi ni Frequência relativa (fi) Frequência absoluta acumulada Frequência relativa acumulada ------- ---- -------------------------- ------------------------------- ------------------------------- 0 5 5/25x100 = 20% 5 20% 1 3 3/25x100= 12% 3+5= 8 32% 2 5 20% 8+5= 13 52% 3 6 6/25x100= 24% 13+6= 19 76% 4 4 4/25x100= 16% 19+4= 23 92% 5 2 2/25x100= 8% 23+2= 25 100% Total 25 100% #### #### Tabelas para dados quantitativos de maior amplitude Em geral, para sumarizar dados quantitativos em tabelas de frequências, opta-se por classificar os dados em intervalos não sobrepostos. A classificação de dados quantitativos (medidas intervalares ou de razão) pode obedecer a diversos critérios. Algumas regras básicas para determinar o número -- C - de classes a considerar são: - Em geral, entre 4 e 14; - Nenhuma com frequência nula; - Sempre que possível, de igual amplitude; - Pontos médios fáceis. ![](media/image4.png) Figura Quando se ordena os dados em classes estes passam a ser dados qualitativos ordinais! Como calcular o ponto médio de cada classe: - (Limite inferior + limite superior) / 2 Quantos dados se deve considerar para um conjunto de n dados? Para determinar o número de classes de um conjunto de dados, existem várias indicações, sendo uma delas a regra de Sturges: Uma imagem com texto Descrição gerada automaticamente Figura n -- dimensão da amostra Na eventualidade de uma classe não ter frequência, altera-se a amplitude da classe e não o número de classes. Gráficos -------- Gráficos para variáveis qualitativas: Gráfico de barras e Gráfico setorial. Gráfico para variáveis quantitativas: Histograma. Nota: o gráfico de caixa-de-extremos-e-quartis será associado ao estudo de medidas descritivas. #### Gráfico setorial Divide-se um círculo em setores correspondentes às categorias de um atributo qualitativo; as áreas desses sectores são proporcionais às frequências que se podem associar às categorias correspondentes. Estes gráficos permitem facilmente comparar a área de cada setor com a área total. Não são adequados quando há muitas categorias. [\[CHART\]]{.chart} Figura -- dados da tabela 1 #### Gráfico de barras Constrói-se colocando as categorias do atributo qualitativo considerado num dos eixos (tipicamente no eixo horizontal) e as respetivas frequências no outro eixo. Para cada categoria desenha-se um retângulo cuja área é proporcional à frequência que lhe corresponde. Estes gráficos permitem a comparação de duas ou mais variáveis (v. análise bivariada). [\[CHART\]]{.chart} Figura -- dados da tabela 2 #### Histograma Uma representação (barras contíguas) que associa a dados quantitativos uma classificação e as correspondentes frequências relativas (larguras das barras correspondem a intervalos de classe e áreas são proporcionais às frequências). Figura []{#_Toc85898397.anchor} Medidas de Localização ---------------------- - Moda para dados nominais; - Moda, Mínimo, Máximo e Percentis para dados ordinais; - Moda, Média e Percentis para dados quantitativos ou métricos. Chama-se **moda** de um conjunto de dados qualitativos / quantitativos à categoria / classe com maior frequência absoluta. Para um conjunto de dados pode existir mais do que uma moda ou até mesmo nem existir: Dados Moda ------------------------- ----------------------- 8 8 9 3 3 5 8 9 9 8 e 9 (bimodal) 0 6 4 5 8 0 4 6 5 8 Não tem moda (amodal) 3 5 1 6 9 8 6 6 1 8 3 6 6 Tabela Quando são apresentados dados agrupados em classes com intervalos de igual amplitude, chama-se classe modal à classe com maior frequência. Leite (g) Número de bebés ------------ ----------------- \[45, 50\[ 11 \[50, 55\[ 31 \[55, 60\[ 65 \[60, 65\[ 48 \[65, 70\[ 60 \[70, 75\[ 46 \[75, 80\] 30 Tabela Neste caso, a classe modal é \[55, 60\[. **Mínimo**: X~1:n~ -- exemplo da tabela 5: o mínimo é 45. **Máximo**: X~n:n~ -- exemplo da tabela 5: o máximo é 80. ![](media/image7.png) Percentis: dividem a distribuição em 100 partes iguais. P~k~ -- antes de P~k~ tenho k% dos dados; depois de P~k~ tenho 100% - k% dos dados. 1 P~40~ 40% (k%) 60% (100% - k%) **Mediana** -- P50 -- divide a lista de dados em duas partes iguais, sendo que a Mediana é o valor que está na posição central (50%). **Quartis** -- dividem a distribuição em quatro partes -- Q~1~: P~25~; Q~2~: P~50~; Q~3~: P~75~; cada parte corresponde a 25%. - Amplitude entre quartis: Q~3~ -- Q~1~. Exemplo: considere os dados de X - Satisfação com a formação que recebe na sua função atual (1- Nada satisfeito; 2- Pouco Satisfeito; 3- Razoavelmente Satisfeito; 4- Satisfeito; 5- Muito satisfeito; 6- Completamente Satisfeito). X~1~ X~2~ X~3~ X~4~ X~5~ ------ ------ ------ ------ ------ 2 4 5 2 1 Para determinar o percentil 50% é necessário, em primeiro lugar, ordenar a amostra: X~1:5~ X~2:5~ X~3:5~ X~4:5~ X~5:5~ -------- -------- -------- -------- -------- 1 2 2 4 5 O valor observado do P~50~ fica no meio da amostra ordenada Formula: P~50~ = k x n = 50% (0,5) x 5 = 2,5 (dá-nos a posição da mediana na amostra) - Sempre que não tivermos um número inteiro faz-se a seguinte conta: \[nk+1\] = 2,5+1 =3 (arredonda-se sempre em excesso), ou seja a mediana encontra-se na posição X~3:5~, que corresponde a 2, pouco satisfeito -- metade das pessoas estão, pelo menos, pouco satisfeitas. P~60~ = k x n = 0,6 x 5 = 3 - Sendo nk inteiro já sabemos que a posição é a X~3:5~, que corresponde 2, Pouco satisfeito -- 60% das pessoas estão pouco ou nada satisfeitas. P~75~ = k x n = 0,75 x 5 = 3,75 - \[nk+1\] = 3,75+1= 4 -- posição X~4:5~, Satisfeitas - 25% das pessoas estão, no mínimo satisfeitas. Quando nos deparamos com de **variáveis quantitativas**: X~1:6~ X~2:6~ X~3:6~ X~4:6~ X~5:6~ X~6:6~ -------- -------- -------- -------- -------- -------- 1,5 2 2 3 4 5 1º passo: P~50~ = nk = 0,5 x 6 =3 2º passo: P~50~ = (X~nk:n~ + X~nk:1n~)/2 = (X~3:6~ + X~4:6~)/2 = 5/2 =2,5 =3 **Média** -- número que se obtém dividindo a soma dos respetivos valores pelo número total de dados, representa-se por ᾱ. Exemplo: Média de idades de 7 amigos que foram jantar juntos. X-idade X~1~ X~2~ X~3~ X~4~ X~5~ X~6~ X~7~ ------ ------ ------ ------ ------ ------ ------ 18 23 25 20 20 22 18 ![](media/image9.png) Uma imagem com texto Descrição gerada automaticamente FÓRMULA DA MÉDIA ![Uma imagem com texto Descrição gerada automaticamente](media/image11.png) Média para dados quantitativos simples com repetições: Uma imagem com mesa Descrição gerada automaticamente![Uma imagem com mesa Descrição gerada automaticamente](media/image13.png) Média para dados quantitativos classificados: Uma imagem com mesa Descrição gerada automaticamente ![Uma imagem com mesa Descrição gerada automaticamente](media/image15.png) Medidas de dispersão -------------------- - Amplitude amostral; - Amplitude inter-quartis; - Conceito de extremo (outlier) e gráfico de caixa-de-extremos-e-quartis; - Variância e desvio padrão; - Coeficiente de variação: uma medida de dispersão relativa; As medidas de dispersão permitem avaliar a utilidade das medidas de localização: - À moda associa-se a entropia; - À média associa-se o desvio padrão - À mediana a amplitude. ### Amplitudes: amplitude amostral e amplitude inter-quartis Exemplo: ![](media/image17.png) Amplitude amostral = A = x~n:n~ -- x~1:n~ Amplitude inter-quartis = A~iq~ = P~0,75~ -- P~0,25~ = Q~3~ -- Q~1~ Como determinar a amplitude amostral e inter-quartil do exemplo acima: 1. Ordenar a amostra: X~1:5~ X~2:5~ X~3:5~ X~4:5~ X~5:5~ -------- -------- -------- -------- -------- 10 20 30 45 200 A = x~n:n~ -- x~1:n~ = 200 -- 10 = 190 A~iq~ = P~75~ -- P~25~ P75 = 5x0,75 = 3,75 = 4 (posição) 45 P25 = 5x0,25 = 1,25 = 2 (posição) 20 A~iq~ = P~75~ -- P~25~ = 45 -- 20 = 25 A amplitude inter-quartil dá-se a variabilidade dentro da mediana; se o intervalo for muito apertado temos pouca dispersão no que diz respeito aos valores centrais. #### Gráfico de caixa-de-extremos-e-quartis O intervalo inter-quartil corresponde à subtração do Q~3~ pelo Q~1~. Extremos (outlier) moderados-- valores que estão fora das balizas do gráfico de extremos e quartis (sendo estas balizas as duas linhas retas). Para identificar se um dado é um extremo realiza-se as realizasse contas: P~0,25~ -- 1,5xA~iq~ e P~0,75~ + 1,5xA~iq~; se o valor estiver a ultrapassar os valores respetivos de cada conta então é considerado um outlier. Outlier severo: ![](media/image19.png) o -- Extremo moderado \* - Extremo severo Limiar extremo superior = P~0,75~ + 1,5xA~iq~ = 45 + 37,5 = 82,5 Limiar extremo inferior = P~0,25~ -- 1,5xA~iq~ = 20 -- 37,5 = -17,5 Limiar extremo severo superior = P~0,75~ + 3xA~iq~ = 45 + 75 = 120 Limiar extremo severo inferior = P~0,25~ -- 3xA~iq~ = 20 -- 75 = -55 Quando o limiar inferior é negativo, considera-se o 1º dado, o x~1:5~ o limiar inferior. ### Variância e Desvio-padrão #### Formula da Variância Para dados com frequência absoluta (F~i~): \ [\$\$s\^{2} = \\frac{\\sum x\\mathbb{i}\^{2}\*Fi}{n} - \\left( \\overline{x} \\right)\^{2}\$\$]{.math.display}\ Para dados com frequência relativa (f~i~): \ [\$\$s\^{2} = \\frac{\\sum x\\mathbb{i}\^{2}\*fi}{} - \\left( \\overline{x} \\right)\^{2}\$\$]{.math.display}\ Para dados simples (onde a freq. Absoluta é sempre 1) \ [\$\$s\^{2} = \\frac{\\sum x\\mathbb{i}\^{2}}{n} - \\left( \\overline{x} \\right)\^{2}\$\$]{.math.display}\ Utilizando o exemplo do Facebook, vamos proceder à descoberta do desvio-padrão. 1. Calcular a média - [\$\\overline{x} = \\frac{\\sum x\_{i}}{x\_{n}}\$]{.math.inline} = (10+20+30+45+200) /5 = 61 2. Calcular o desvio em relação à média: para se calcular o desvio padrão necessita-se, primeiro de calcular a variância: [\$s\^{2} = \\frac{\\sum\\left( x\_{i} - \\overline{x} \\right)\^{2}}{n}\$]{.math.inline} = [\$s\^{2} = \\frac{\\sum x\\mathbb{i}\^{2}}{n} - \\left( \\overline{x} \\right)\^{2}\$]{.math.inline} A professora prefere a utilização desta segunda equação, para valores mais precisos x~i~ - [\$\\overline{x}\$]{.math.inline} ------------------------------------------- 20 -- 61 = -41 10 -- 61 = -51 200 -- 61 = 139 30 -- 61 = -31 45 -- 61 = -16 3. Procuro o quadrado dos valores -- (x~i~ - [\$\\overline{x})\$]{.math.inline}^2^ (x~i~ - [\$\\overline{x})\$]{.math.inline}^2^ ------------------------------------------------ (-41)^2^ = 1680 (-51)^2^ = 2601 (139)^2^= 19 321 (-31)^2^ = 961 (-16)^2^ = 256 [∑]{.math.inline} ~todos~ = 24 819 [\$s\^{2} = \\frac{\\sum\\left( x\_{i} - \\overline{x} \\right)\^{2}}{n}\$]{.math.inline} =[ *s*^2^]{.math.inline} = 24 819/5 = 4963,8 - Isto corresponde aos comentários ao quadrado e nós precisamos dos valores na medida inicial: para isso fazemos, agora, a média da variância que é [\$s = \\sqrt{s\^{2}}\$]{.math.inline}, chegando assim ao desvio padrão. 4. Calcular o desvio padrão [\$s = \\sqrt{s\^{2}}\$]{.math.inline} = [\$\\sqrt{4963,8}\$]{.math.inline} = 70, 45 Calcular as medidas de dispersão para dados quantitativos com repetições: Uma imagem com texto Descrição gerada automaticamente Calcular medidas de dispersão para dados quantitativos classificados: ![Uma imagem com mesa Descrição gerada automaticamente](media/image21.png) **Exemplo** jornal semanário - como estimar o desvio padrão do tempo de leitura (minutos) dedicado a um jornal semanário considerando a distribuição seguinte: s^2^ = [\$\\left( x\_{c}\^{\'} \\right)\_{\\ \\ \*}\^{2}f\_{r} - \\left( \\overline{x} \\right)\^{2}\$]{.math.inline} Classes Frequências relativas Ponto médio (x'~c~) ------------- ----------------------- --------------------- \[0,40\[ 9% 20 \[40,80\[ 43% 60 \[80,120\[ 18% 100 \[120,160\[ 20% 140 \[160,200\[ 10% 180 Média = (20x0,09 + 60x0,43 + 100x0,18 + 140x0,2 + 180x0,1) /5 = 91,6 --------------------------------------------------- \ [(*x*~*c*~^′^)~ \*~^2^*f*~*r*~]{.math.display}\ --------------------------------------------------- (20)^2^x0,09 = 36 (60)^2^x0,43 = 1548 (100)^2^x0,18 = 1800 (140)^2^x0,2 = 3920 (180)^2^x0,1 = 3240 Total -- 10 544 --------------------------------------------------- s^2^ = 10 544 -- (91,6)^2^ = 10 544 -- 8390, 56 = 2 153,44 s = [\$\\sqrt{2153,44}\$]{.math.inline} = 46,4 **Exemplo** Avaliações - Considere as seguintes avaliações de 6 estudantes (escala de 0 a 20): - 6; 7,5; 9; 11; 11; 16 Determine a média e desvio padrão a. Das notas originais b. Das notas às quais foram somados 2 valores c. Das notas divididas por 0.8 a\) [\$\\overline{x} = \\frac{\\sum x\_{i}}{n}\$]{.math.inline} = (6+7,5+9+11+11+16) /6 = 60,5/6 = 10,1 [\$s\^{2} = \\frac{\\sum\\left( x\_{i} - \\overline{x} \\right)\^{2}}{n}\$]{.math.inline} --------------------------------------------------- \ [\$\$x\_{i} - \\overline{x}\$\$]{.math.display}\ --------------------------------------------------- 6-10,1 = -4,1 7,5-10,1 = -2,6 9-10,1 = -1,1 11-10,1 = 0,9 11-10,1 = 0.9 16-10,1 = 5,6 --------------------------------------------------- ------------------------------------------------------------------------- \ [\$\$\\left( x\_{i} - \\overline{x} \\right)\^{2}\$\$]{.math.display}\ ------------------------------------------------------------------------- (-4,1)^2^ = 16,81 (-2,6)^2^ = 6,76 (-1,1)^2^ = 1,21 (0,9)^2^ = 0,81 (0,9)^2^ = 0,81 (5,6)^2^ = 31,36 ------------------------------------------------------------------------- 16,81+6,76+1,21+0,81+0,81+31,36 = 57,76 [*s*^2^]{.math.inline} = 57,76/6 = 9,6 [\$s = \\sqrt{s\^{2}}\$]{.math.inline} = [\$\\sqrt{9,6}\$]{.math.inline} = 3,1 b\) notas somadas a 2 valores: [\$\\overline{x} = \\frac{\\sum x\_{i}}{n}\$]{.math.inline} = \[(6+2) + (7,5+2) + (9+2) + (11+2) + (11+2) + (16+2)\] / 6 = (8+9,5+11+13+13+18) / 6 = 12,1 [\$s\^{2} = \\frac{\\sum x\\mathbb{i}\^{2}}{n} - \\left( \\overline{x} \\right)\^{2}\$]{.math.inline} = 10,2 [\$s = \\sqrt{s\^{2}}\$]{.math.inline} = 3,2 Não se tendo alterado a variabilidade dos resultados, apenas o movimentar da curva com a soma de 2 valores a cada constante, a variância e o desvio padrão mantém-se iguais. c\) notas divididas por 0,8 [\$\\overline{x} = \\frac{\\sum x\_{i}}{n}\$]{.math.inline} = \[(6/0,8) + (7,5/0,8) + (9/0,8) + (11/0,8) + (11/0,8) + (16/0,8)\] / 6 = (7,5 + 9,4 + 11.25 + 13,8 + 13,8 + 20) / 6 = 12.6 [\$s\^{2} = \\frac{\\sum x\\mathbb{i}\^{2}}{n} - \\left( \\overline{x} \\right)\^{2}\$]{.math.inline} --------------------------------------------------- \ [\$\$x\_{i} - \\overline{x}\$\$]{.math.display}\ --------------------------------------------------- 7,5-12,6 = -5,1 9,4-12,6 = -3,2 11,25-12,6 = -1,4 13,8-12,6 = 1,2 13,8-12,6 = 1,2 20-12,6 = 7,4 --------------------------------------------------- ------------------------------------------------------------------------- \ [\$\$\\left( x\_{i} - \\overline{x} \\right)\^{2}\$\$]{.math.display}\ ------------------------------------------------------------------------- (-5,1)^2^ = 26,01 (-3,2)^2^ = 10,24 (-1,4)^2^ = 1,96 (1,2)^2^ = 1,44 (1,2)^2^ = 1,44 (7,4)^2^ = 54,76 ------------------------------------------------------------------------- 26,01+10,24+1,96+1,44+1,44+54,76= 95,85 [*s*^2^]{.math.inline} = 95,85/6 = 15,98 [\$s = \\sqrt{s\^{2}}\$]{.math.inline}= [\$\\sqrt{15,98}\$]{.math.inline} = 3.997 Neste caso alterou-se a curva, não houve só a sua movimentação, mas sim uma mudança de escala -- isto dá-se quando se multiplica ou divide as constantes! Quando há uma mudança de origem e de escala: - A média é afetada por ambas as variáveis; - A variância e o DP são unicamente afetados quando há uma mudança de escala. ### Coeficiente de variação É uma medida de dispersão relativa e é apresentada da seguinte forma: cv= [\$\\frac{S\_{x}}{\\overline{x}}\$]{.math.inline} Esta medida serve para fazer a comparação de dispersão entre dois dados. ### Medida Estandardizada Uma vez determinada a média e o desvio padrão associados a um conjunto de observações, é possível estandardizar ou normalizar essa medida, obtendo Z: \ [\$\$z = \\frac{x - \\overline{x}}{s\_{x}}\$\$]{.math.display}\ Medidas de Forma ---------------- - \(1) Medida de assimetria ou enviesamento; - \(2) Medida de achatamento ou curtose; Nota: estas medidas não se aplicam a dados qualitativos. As medidas de localização indicam-nos o lugar das constantes de certas medidas; as medidas de dispersão de dispersão indicam-nos a concentração dos dados na curva, se estes estão dispersos ou concentrados e as medidas de forma permitem saber se a curva é simétrica ou se é achatada (permite-nos estudar a simetria da distribuição dos dados) e a curtose (=achatamento) da distribuição dos dados. ![](media/image23.png) ![](media/image25.png) Avalia-se todas as curvas quanto à sua simetria e curtose: ### Simetria os dados estão mais concentrados no lado mais "pequeno" do gráfico de extremos e quartis: - Pode ser enviesada à direita assimétrica (quando a distribuição dos dados é mais concentrada à direita) -- assimétrica negativa, onde a média \< mediana: [\$\\overline{x}\$]{.math.inline} -- Me = negativo - Pode ser enviesada à esquerda assimétrica (quando a distribuição dos dados é mais concentrada à esquerda) -- assimétrica positiva, onde a média \> Mediana: [\$\\overline{x}\$]{.math.inline} -- Me = positivo (faz-se este cálculo para classificar a assimetria). Se medida de assimetria \> 0 ⇒ assimétrica positiva Se medida de assimetria = 0 ⇒ simétrica Se medida de assimetria \< 0 ⇒ assimétrica negativa O grau de assimetria assim medido viabiliza a inferência sobre a assimetria da população da qual provém a amostra considerada a partir do seguinte rácio: r~a~ = Medida de assimetria/ Erro padrão de medida - Se r~a~ ≤ -2 indicia, para a população, uma assimetria negativa, enviesamento à direita. - Se r~a~ ≥ 2 indicia, para a população, assimetria positiva, enviesamento à esquerda. - Se -2 \< r~a~ \< 2 indicia, para a população, uma distribuição simétrica. ### Curtose Só é possível calcular se n≥4 e S\>0: - Se medida de achatamento \> 0 ⇒ distribuição mais alongada /leptocúrtica; - Se medida de achatamento =0 ⇒ normal/nem alongada nem achatada /mesocúrtica; - Se medida de achatamento \< 0 ⇒ distribuição mais achatada/platicúrtica ![](media/image27.png) r~a~ =Medida de achatamento/ Erro padrão de medida: - Se r~a~ ≤ -2 indicia, para a população, um maior achatamento / distribuição platicúrtica. - Se r~a~ ≥ 2 indicia, para a população, um menor achatamento / distribuição leptocúrtica - Se -2 \< r~a~ \< 2, indicia, para a população, um achatamento normal / distribuição mesocúrtica. Tratamento de dados Bivariados ============================== A análise descritiva da associação entre um par de variáveis permite: - Compreender melhor a sua variação; - Prever os seus valores. Esta análise deve ser adequada ao(s) tipo(s) de medida das variáveis apoiando-se em: - Tabelas e gráficos adequados; - Medidas de associação; - Modelos. Dados bivariados qualitativos, sendo uma variável nominal --------------------------------------------------------- - Tabelas cruzadas de frequências e gráficos de barras; - Medida de associação V de Cramer; - Variáveis nominal x nominal; nominal x ordinal. Estuda-.se a relação entre duas variáveis: começa-se com a análise de cada variável para prosseguir, posteriormente, à análise bivariável, ou seja, fazer uma análise à relação entre as variáveis. Exemplo: é útil fazer um trabalho que é útil para a sociedade? Duas variáveis: - Utilidade (representada por uma escala de Likert); - Escola frequentada (A, B ou C). Uma imagem com mesa Descrição gerada automaticamente 1. Que percentagem de alunos responde "Importante" **e** é da Escola C? (82/879) x 100 = 9.3% - é num total de 879 porque a pergunta pede a percentagem total de alunos, não só da escola C "... e é da Escola C". 2. Que percentagem de alunos de Escola C responde "Importante"? (82/302) x 100 = 27% - desta vez pede-se a percentagem dos alunos da Escola C. 3. De entre os alunos que respondem "Importante" qual a percentagem dos que são da escola C? (82/306) x 100 = 26% - pede-se do total dos alunos que responderam importante -- 306 -- quantos são da escola C -- 82. O Coeficiente V de Cramer serve para medir associação entre 2 variáveis nominais ou entre uma variável nominal e uma ordinal: - 0 \< V \< 1 -- em que 0 significa que as variáveis não são nada associadas e 1 são perfeitamente associadas; quanto maior a diferença maior a associação! Dados Bivariados mistos, sendo uma variável nominal e a outra métrica (= quantitativa) -------------------------------------------------------------------------------------- - Comparação de médias e desvios-padrão; - Gráficos de extremos e quartis comparativos; - Medida de associação: Eta (medida de associação entre uma V. nominal e uma V. quantitativa). ![](media/image29.png) Para haver relação nestes gráficos, é necessário haver um desfasamento dos dois boxplots -- quanto mais separados (um para cima e outro para baixo) estiverem os boxplots mais as variáveis estão associadas. O Coeficiente Eta (η) serve para medir associação entre 1 variável quantitativa e uma nominal: - 0 \< η \< 1 -- em que 0 significa que as variáveis não são nada associadas e 1 são perfeitamente associadas; quanto maior a diferença maior a associação. Dados Bivariados ordinais ou mistos (ordinal vs métrica) -------------------------------------------------------- - Gráficos de barras e de extremos e quartis - Medida de associação 𝑟^s^ de Spearman Coeficiente de Spearman r^s^: Para medir associação entre 2 variáveis ordinais ou entre uma variável quantitativa e uma ordinal: - -1 \< r^s^\