Summary

This document provides an overview of analysis of data, including qualitative and quantitative approaches. It details categorization and coding techniques, tabulation processes, and methods for calculating frequencies and percentages. Keywords related to data analysis are also included.

Full Transcript

UD. 4 ANÁLISE DE DATOS A análise de datos é a ciencia que se encarga de examinar un conxunto de datos co propósito de sacar conclusións sobre a información para poder tomar decisións, ou simplemente ampliar os coñecementos sobre diversos temas. A análise de datos dependen do tipo de información que...

UD. 4 ANÁLISE DE DATOS A análise de datos é a ciencia que se encarga de examinar un conxunto de datos co propósito de sacar conclusións sobre a información para poder tomar decisións, ou simplemente ampliar os coñecementos sobre diversos temas. A análise de datos dependen do tipo de información que se estea recompilando, polo que é importante ter definida a técnica a utilizar: Análise de datos cualitativos: Baséase na interpretación. As formas máis comúns de obter esta información é a través de entrevistas, grupos de discusión e grupos de observación, onde os investigadores xeralmente analizan patróns nas observacións durante toda a fase de recolección de datos. Análise de datos cuantitativos: Preséntanse en forma numérica e baséanse en resultados tanxibles. 1. CATEGORIZACIÓN E CODIFICACIÓN. Na análise de datos cualitativos, é necesario realizar un proceso polo cal as respostas transfórmanse en información utilizable. Este proceso consta de tres etapas: O enquisado ou o entrevistador rexistra as respostas e categorízaas (asigna valores unificados ás respostas obtidas). O codificador converte cada resposta nun código específico (codificación). O proceso de codificación consiste na asignación dun código, nome ou etiqueta que tente agrupar o significado. É importante tamén asignar códigos aos valores de perda (non resposta). O dixitador introduce as respostas nunha base de datos. Con isto búscase reducir os datos da investigación co fin de expresalos e describilos dalgunha maneira (conceptual, numérica ou graficamente) de modo que respondan a unha estrutura sistemática e intelixible para outras persoas, e por tanto, significativa. Proceso básico: 1. Facer unha listaxe das respostas reais a cada pregunta. No caso de mostras grandes, a listaxe faise coas respostas dunha mostra dos entrevistados, e elabórase o libro de códigos. 2. Consolidar as respostas: o exame da lista indica que varias respostas pódense interpretar coma se significasen esencialmente o mesmo, polo que se poden consolidar nunha soa categoría. 3. Determinar os códigos: asignar un código numérico a cada unha das categorías. 4. Introducir dos códigos. 2. TABULACIÓN. Consiste na revisión do número de respostas (frecuencia) que tivo unha pregunta e a súa presentación en táboas, é dicir, representación ordenada dos datos que facilite o seu uso. A tabulación é o medio que permite ao investigador ter unha visión de conxunto de información de todos os cuestionarios. A continuación, procédese á depuración dos datos, é dicir, a detectar aqueles que son erróneos, ben por erros na realización do cuestionario, ou ben por inconsistencia das respostas. Caben dúas opcións: Corríxense os datos considerados erróneos recolléndoos de novo. Elimínase ese dato, segundo a súa relevancia para a investigación. A tabulación pode realizarse pregunta a pregunta (tabulación simple) ou de dúas en dúas ou máis preguntas á vez (tabulación cruzada). A tabulación simple permite valorar a frecuencia e as porcentaxes con que se presentaron estas respostas na mostra. Pódese calcular frecuencia absoluta, frecuencia relativa, frecuencia acumulada e porcentaxe. A tabulación cruzada permite poñer en relación respostas de dúas ou máis preguntas diferentes, respostas que poden estar ligadas entre si. Pódese calcular frecuencia absoluta e frecuencia relativa. A distribución de frecuencias ou táboa de frecuencias é unha ordenación en forma de táboa dos datos estatísticos, asignando a cada dato a súa frecuencia correspondente. Frecuencia absoluta (f ou n): número de veces que aparece unha resposta (resultado do reconto). Frecuencia relativa (fr): número de veces que aparece unha resposta en relación á frecuencia total de todas as modalidades xuntas (N). Frecuencia acumulada: é o resultado de sumar sucesivamente as frecuencias absolutas ou relativas, desde o menor ao maior dos seus valores. Porcentaxe (P ou %): frecuencia relativa multiplicada por 100 = (f * 100) / N. Adoita expresarse con tres díxitos. A suma de todas as porcentaxes debe dar 100 ou número moi próximo se se realizaron redondeos. Tabulación simple de frecuencias Variable idade Frecuencia Frecuencia Frecuencia Porcentaxe (anos) absoluta relativa acumulada < 12 anos 2 0,08 2 8% 12 – 15 anos 10 0,4 12 40% > 15 anos 13 0,52 25 52% TOTAIS 25 1 100% Tabulación cruzada de frecuencias Enfermos Sans (Controis) Frecuencia Frecuencia absoluta Y relativa Y Expostos 120 75 195 0,4875 Non expostos 80 125 205 0,5125 Frecuencia 200 200 absoluta X Frecuencia 0,5 0,5 relativa X 3. ANÁLISE INFORMÁTICA DE DATOS. Cada vez máis, a cantidade de datos que se manexan e a variedade de análise que se realizan pasan a capacidade de cálculo manual. Así, o manexo físico deu paso ao desenvolvemento de aplicacións informáticas. Os programas informáticos son ferramentas que facilitan a tarefa de reducir datos obtidos no proceso de investigación. A análise estatística de datos é un conxunto de métodos, técnicas e procedementos para o manexo de datos, a súa ordenación, presentación, análise e interpretación. A estatística trata o reconto, ordenación e clasificación dos datos obtidos, para facer comparacións e sacar conclusións. Distínguese entre: Estatística descritiva: os seus procedementos van dirixidos á organización e descrición dun conxunto de datos. Trátase de extraer información da mostra. Estatística inferencial ou analítica: os seus procedementos oriéntanse a realizar inferencias sobre unha poboación a partir das características coñecidas para unha mostra extraída dela. Cando se estudan as características dunha poboación, o máis probable é que non sexa posible acceder a toda a poboación, polo que habitualmente se estuda unha mostra. Son conceptos básicos da estatística: Poboación, Individuo, Mostra, Mostraxe, Valor (cada un dos distintos resultados que se poden obter nun estudo) , Dato, Variable cualitativa (nominal, ordinal), Variable cuantitativa (discreta, continua), xa revisados anteriormente. A. Distribución de frecuencias ou táboa de frecuencias (estatística descritiva). A distribución de frecuencias agrupadas ou táboa con datos agrupados emprégase se as variables toman un número grande de valores ou a variable é continua. Agrúpanse os valores en intervalos que teñan a mesma amplitude, denominados clases. A cada clase asígnaselle a súa frecuencia correspondente. Cada clase está delimitada polo límite inferior da clase e o límite superior da clase. A amplitude da clase é a diferenza entre o límite superior e inferior de cada clase. A marca de clase é o punto medio de cada intervalo e é o valor que representa a todo o intervalo para o cálculo dalgúns parámetros (MC= límite inf + límite sup / 2) Os datos presentados en táboas móstranse tamén en gráficos (revisado anteriormente). B. Parámetros estatísticos (estatística descritiva) Os parámetros estatísticos son números que serven para sintetizar a información dada por unha táboa ou por unha gráfica. Hai tres tipos de parámetros estatísticos: De centralización: indícannos arredor a que valor (centro) se distribúen os datos e son a media, a mediana e a moda. ◦ Media: valor media da distribución. É o cociente da suma de todos os datos multiplicados pola súa frecuencia entre o número total de datos. A medida de dispersión que adoita acompañar á media é a desviación estándar ou desviación típica. ◦ Mediana: puntuación ou valor que ocupa a posición central dos datos, despois de ordenalos. Separa a metade superior da distribución e a inferior, é dicir, divide a serie de datos en dous partes iguais. Se o número de datos é par, corresponde á media dos datos centrais. ◦ Moda: é o valor que aparece con maior frecuencia. De dispersión: informa sobre canto se afastan do centro os valores da distribución. É dicir, permiten coñecer o grao de agrupamento dos datos arredor das medias de centralización. Son: ◦ Rango ou amplitude total: diferenza entre o maior e menor dos datos dunha distribución, é dicir, Rango= Max – Min. ◦ Desviación media: media aritmética dos valores absolutos das desviacións respectos á media. ◦ Varianza: media aritmética do cadrado das desviacións dos valores da variable respecto á media. ◦ Desviación típica: é a raíz cadrada da varianza, é dicir, a raíz cadrada da media dos cadrados das puntuacións de desviación. C. Correlación (estatística analítica). A correlación estatística determina a relación ou dependencia que existe entre as dúas variables que interveñen nunha distribución bidimensional. É dicir, determina se os cambios nunha variable inflúe nos cambios doutra. No caso de que suceda, diremos que as variables están correlacionadas ou que hai correlación entre elas. Para probar a relación entre dúas variables utilízanse: Proba χ² (chi cadrado): mide o grao de relación entre dúas variables nunha táboa de continxencia (son as que se empregan para rexistrar e analizar a relación entre dúas ou máis variables, habitualmente cualitativas). Correlación de Pearson: mide o grao de relación entre dúas variables numéricas. Covarianza (dunha variable bidimensional): é a media aritmética dos produtos das desviacións de cada unha das variables respecto á súa medias respectivas. Serve para determinar a dependencia lineal entre variables X e Y. A covarianza indica o sentido da correlación entre as variables: ◦ Se a covarianza (sxy) é maior de 0 a correlación é directa, hai dependencia directa positiva (a grandes valores de x, grandes valores de y). ◦ Se a covarianza (sxy) é igual a 0 interprétase como non relación lineal entre as dúas variables estudadas x e y. ◦ Se a covarianza (sxy) é menor de 0 a correlación é inversa, hai dependencia inversa ou negativa (a grandes valores de x, pequenos valores de y). Coeficiente de correlación lineal (r): determina o grao de dependencia lineal entre dúas variables X e Y, é un número real comprendido entre 1 e -1. ◦ Se toma valores a -1, a correlación é forte e inversa, e será tanto máis forte canto máis se aproxime a -1. ◦ Se toma valores a 1, a correlación é forte e directa, e será tanto máis forte canto máis se aproxime a 1. ◦ Se toma valores próximos a 0, a correlación é débil. ◦ Se r = 1 ou -1, os puntos da nube están sobre recta crecente ou decrecente. D. INTERVALOS DE CONFIANZA Cando se estudan as características dunha poboación, o máis probable é que non sexa posible acceder a toda a poboación se non que se estuda unha mostra da mesma. A estimación dunha media ou unha porcentaxe poboacional a partir dunha mostra é un dos protocolos analíticos máis utilizados nos estudos epidemiolóxicos, por tanto, as medias ou porcentaxes que se obteñen nas mostras de estudo utilízanse para estimar os valores da poboación de orixe. No informe final do estudo indicarase o valor dos parámetros da poboación, aínda que en realidade determinásense só nunha mostra. Porcentaxe de individuos Nº medio de pezas con caries activas (IC 95%) permanentes cariadas, ausentes e obturadas (IC 95%) 12 anos 25,5 (21,9 - 29) 1,12 (0,98 – 1,27) 15 anos 27,5 (23,7 – 31,2) 1,72 (1,53 – 1,53) 35-44 anos 56,5 (48,3 – 59,9) 6,75 (6,33, 7,2) Segundo a táboa, no grupo de idade de 12 anos, hai un 25,5% de persoas con caries activas. Á beira do valor 25,5, aparecen entre paréntese dúas novas cifras, 21,9% e 29%. Estas novas cifras indican que aínda que o valor que se obtivo para a porcentaxe de individuos con caries é do 25,5%, esta porcentaxe podería oscilar entre un 21,9 e 29%, para un intervalo de confianza (IC) do 95%. Así é como sempre atopamos os datos obtidos en calquera estudo epidemiolóxico. Estas novas cifras calcúlanse a través dun procedemento estatístico. Para iso, calcúlase a media e o seu erro estándar, e a continuación os límites dos intervalos de confianza. Os intervalos de confianza que habitualmente se utilizan nos estudos epidemiolóxicos son o IC do 95% e o 99%. IC do 95%: con este intervalo están a darse os posibles valores que poderían tomar a media da poboación en 95 de cada 100 mostras que se puidesen elixir, por tanto quedaría un 5% de posibles valores que non estarían dentro dese intervalo. Así se indica que a un IC do 95% acompáñao unha probabilidade de erro do 5%, o que se expresa como p< 0,05. IC do 99%: con este intervalo están a darse os posibles valores que poderían tomar a media da poboación en 99 de cada 100 mostras que se puidesen elixir, por tanto quedaría un 1% de posibles valores que non estarían dentro dese intervalo. Así se indica que a un IC do 99% acompáñao unha probabilidade de erro do 1%, o que se expresa como p< 0,01. Ao realizar un estudo interesa cometer o menor erro posible e obter o intervalo de confianza máis estreito. Diminúese este erro aumentando o tamaño da mostra. Os intervalos de confianza determínanse, no caso de mostras de estudo, con n>30 a partir do erro estándar da media, a través do seguinte protocolo: IC 95% p< 0,05 media +/- 2 x Sm IC 99% p< 0,01 media +/- 2,6 x Sm Sm é erro estándar. Obtense dividindo a desviación típica da mostra entre a raíz cadrada de n-1. Ao describir unha variable cuantitativa é necesario presentar sempre dous tipos de medidas: unha medida de tendencia central. unha medida de dispersión. A medida de dispersión que adoita acompañar á media é a desviación estándar ou desviación típica. Para o cálculo da desviación típica, aplícase o procedemento especificado a continuación: Para cada dato, calcúlase a diferenza coa media. O resultado elévase ao cadrado. Súmanse os cadrados obtidos para todos os datos e divídese entre o número de datos = VARIANZA Calcúlase a raíz cadrada = DESVIACIÓN TÍPICA As variables categóricas adoitan presentarse con porcentaxes.

Use Quizgecko on...
Browser
Browser