Bioestadística y Metodología Científica en Ciencias de la Salud PDF
Document Details
Uploaded by Deleted User
Universidad de León
Anónimo
Tags
Summary
Este documento presenta una introducción a la bioestadística y metodología científica en ciencias de la salud, enfocado en el Grado de Enfermería de la Universidad de León. Se exploran diferentes tipos de variables (cualitativas, cuasi-cuantitativas, cuantitativas) y su clasificación. Adicionalmente, explica la bioestadística descriptiva e inferencial.
Full Transcript
Bioestadistica-curso-completo.pdf Anónimo BIOESTADÍSTICA Y METODOLOGÍA CIENTÍFICA EN CIENCIAS DE LA SALUD 1º Grado en Enfermería Facultad de Ciencias de la Salud Universidad de León Reservados todos los derech...
Bioestadistica-curso-completo.pdf Anónimo BIOESTADÍSTICA Y METODOLOGÍA CIENTÍFICA EN CIENCIAS DE LA SALUD 1º Grado en Enfermería Facultad de Ciencias de la Salud Universidad de León Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA TEMAS 1 y 2. INTRODUCCIÓN A LA BIOESTADÍSTICA: VARIABLES, ESCALAS Y CUESTIONARIOS 1.1. Estadística y Bioestadística La Estadística es la ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones en fenómenos de tipo aleatorio. A este respecto, se entiende por bioestadística la aplicación particular de la estadística a las ciencias biológicas y de la salud, referente a la obtención y el análisis de datos biológicos o de salud mediante la utilización de métodos estadísticos. La bioestadística consta de dos ramas principales, no excluyentes sino complementarias. Bioestadística Descriptiva Como su propio nombre indica, se refiere a describir los datos obtenidos en un estudio. Para ello es necesario llevar a cabo una organización de los mismos, un análisis y una representación final. Todo este proceso se basa en reducción de datos, construcción de tablas, representaciones gráficas y observación de posibles relaciones entre variables. Bioestadística Inferencial Por el contrario, la segunda rama de la bioestadística denominada “inferencial” o “inductiva”, plantea y resuelve el problema de establecer previsiones y conclusiones generales sobre una población a partir de los resultados obtenidos de una muestra. Los modelos estadísticos actúan de puente entre lo observado (muestra) y lo desconocido (población). Su construcción y estudio están basados en el Cálculo de Probabilidades. 1.2. Las Variables La enfermería, en tanto en cuanto se encarga del cuidado y la atención a los individuos y/o a la comunidad, para ayudar a mejorar el estado de salud de aquellos y/o de esta, es una ciencia de la salud y como tal está encuadrada dentro de las ciencias de la vida. Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Una de las principales características de los fenómenos biológicos es la variabilidad, la cual es una propiedad por la que un mismo fenómeno toma distintos valores de unos individuos a otros, e incluso entre los mismos individuos. Como la información que vamos a recoger se haya afectada por la variabilidad, los datos que se recogen se denominan variables, factores o elementos afectados por la variabilidad. Los valores o las distintas situaciones posibles del carácter en estudio se denominan modalidad, y deben de ser exhaustivas y mutuamente excluyentes; es decir, deben de recoger todos los posibles valores y cada elemento posee una y solo una de las modalidades posibles. Ejemplo 1: La variable sexo recoge hombre y mujer Ejemplo 2: La variable estado civil: soltero, casado, viudo, separado, divorciado. Las modalidades pueden ser agrupadas en clases, que son un conjunto de una o más modalidades en la que debe verificarse que cada modalidad pertenece a una y solo una clase. Ejemplo 3: Clasificar la edad en grupos o intervalos: 0‐4 años, 5‐10 años; 11‐15 años, etc… Clasificación de las Variables Las variables pueden ser clasificadas como: Cualitativas: Expresan una calidad o atributo. A ∈ ("rubio", "moreno”, “castaño", "pelirrojo"). Son variables de carácter nominal, no medibles. (Ojo, también pueden ser números, A ∈ (1,2,3). Pero que expresan una cualidad. Sólo se cumple que 1 es distinto de 2 y de 3. 1#2#3. Cuasi cuantitativas: También denominadas ordinales, aunque son nominales existe un orden o prelación entre un valor y el siguiente, son susceptibles de ser ordenadas. A ∈ ("primero", "segundo", "tercero”, …); o bien; A ∈ ("nulo", "leve", "moderado", "intenso",). Se cumple que: primero < segundo < tercero; o bien; nulo < leve < moderado < intenso. Cuantitativas: Pueden ser medidas, son cantidades numéricas con las que se pueden realizar operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos: o 1. Discretas o Discontinuas: Entre un valor y el siguiente no existe ningún otro valor. Los valores de estas variables son números naturales: X ∈ N. Por ejemplo, el número de hijos (1, 2, 3, …, 8 …, etc.). 2. Continuas: Entre un valor y otro existen infinitos valores. Los valores de 2 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA estas variables son números reales: X ∈ R. La precisión del instrumento de medida va a “discretica" la variable; en realidad lo que ocurre es que estamos agrupando en intervalos de clase y el verdadero valor de la variable en estudio se encuentra en un intervalo que es función del instrumento de medida. Por ejemplo, la altura en metros de las personas medida con una regla que nos da dos decimales de precisión sería: X ∈ (… 1,60; 1,61; 1,62; 1,63; …), esto quiere decir que una persona cuya altura fuera 1,62 metros en realidad su altura se encontraría entre 1,62 y 1,63 metros, es decir dentro de un intervalo de radio 5∙10 ‐3. Las variables cuantitativas son las que aportan una información más exacta. Siempre que se pueda, las variables deben recogerse de forma cuantitativa (Figura 1), entre otras cosas porque pueden ser posteriormente agrupadas en intervalos de clase. FIGURA 1. MEDIDA Y RECODIFICACIÓN DE LA TENSIÓN ARTERIAL DIASTÓLICA Si la información recogida es cuantitativa, posteriormente podemos modificar esa variable, si se ha recogido de forma cualitativa la información no recogida ya se ha perdido y no hay posibilidades de recodificación o repesca de información. La Figura 1 muestra como las cifras de tensión arterial diastólica se pueden recoger en más. de Hg (ejemplo: 85 mph), una vez recogida de esta manera se puede recodificar como se quiera; menos de 90, entre 90 y 94; entre 95 y 104 o más de 104; o como normo tenso (89). Pero si la información se recoge como normo tenso e hipertenso después no se puede conocer la cifra de TA. Otra forma de clasificar las variables, según la influencia del investigador en su asignación en: Controlada o Independiente: Cuando dicha variable toma valores según un determinado factor conocido por el investigador y no atribuible al azar. Aleatoria o Dependiente: Es aquella variable cuyos valores se modifican por efectos del azar y en función de la variable controlada o independiente. No siempre son coincidentes la variable controlada y la independiente ni la aleatoria con la dependiente, pero son sinónimas en los estudios experimentales. 3 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. BIOESTADÍSTICA Y METODOLOGÍA... Banco de apuntes de la a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Ejemplo 4: En estudio controlado o experimental se asigna (normalmente por azar, a través de técnicas de aleatorización) a unos individuos a tomar un tratamiento A y otros un tratamiento B. Los resultados se miden en términos de curación o no curación. En este caso la variable tratamiento es una variable controlada e independiente. Es controlada porque el investigador asigna quien va tomar uno u otro tratamiento, aunque la mejor forma de asignación sea el azar, el investigador controla el sistema de asignación y decide cual es. Esta variable es a su vez independiente, en relación a la variable resultado (curación o no), la cual, si va a depender, entre otras cosas (o así se espera) de la variable independiente (tipo de tratamiento). Esta variable va a ser a su vez aleatoria, toda vez que los resultados no dependen del investigador sino del azar o de tantos factores que el investigador no controla que se entiende que son aleatorias. 1.3. Escalas de Medidas La medición es el proceso por el cual se asignan números a objetos o características según determinadas reglas, siendo considerada un importante factor en el avance de cualquier ciencia. Si algo no se puede medir o expresar numéricamente el conocimiento adquirido sobre ese particular es pobre e insatisfactorio. Una escala de medida es un sistema para asignar números a las distintas modalidades de las variables en estudio. En este caso, también cada modalidad corresponde solo a un número y el número solo a una modalidad (relación biunívoca). Un ejemplo de escala de medida es una regla o varilla dividida en rayas con intervalos equidistantes (por ejemplo, de 0 a 100). La longitud de cualquier objeto referida al número de intervalos que ocupa en la regla va a servirnos para aplicar las relaciones numéricas a algo que hasta entonces no era posible. Los tipos de escalas de medida son los siguientes: Escala nominal: Cuando la única comprobación empírica que puede hacerse es la igualdad o desigualdad. Coincidiría con las variables cualitativas; solo expresan una calidad o atributo y su numeración apenas le confiere las propiedades de los números, tan válido sería representarlas con cualquier otro símbolo (en el caso de la nacionalidad: número, bandera, matrícula, etc.). Solo están permitidas aquellas transformaciones que preserven las relaciones de igualdad‐desigualdad de los objetos respecto a una determinada característica. Los estadísticos aplicables en estos casos son frecuencias, moda y las condiciones la permutación. Escala ordinal: En este caso, además de lo anterior (establecer relaciones de igualdad/desigualdad), se puede realizar una ordenación de los individuos. Los sujetos pueden manifestar una determinada característica o modalidad en mayor o menor grado unos que otros (escalas de dolor, escalas pronosticas, test de pagar, etc.). En estos casos los estadísticos aplicables son la mediana, percentiles y la correlación ordinal. La condición que debe cumplirse siempre es el mantenimiento del orden. 4 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Escala de Intervalo: Además de las posibilidades anteriores, (igualdad/desigualdad y ordenación), la escala de intervalo permite comprobar la igualdad o desigualdad de las diferencias entre las magnitudes de los objetos medidos. Para ello es preciso utilizar instrumentos de medida y establecer una escala cuantitativa en la que los valores numéricos están agrupados en intervalos. (Ejemplo de la escala Celsius: 0 º C es la congelación del agua y 100 la ebullición, la división en 100 partes iguales de ese tramo es la escala de medida). Los estadísticos aplicables en este caso son la media aritmética, la desviación típica y las correlaciones. La única condición que debe respetarse es del tipo T=aben; donde b>0. 1.4. Los Cuestionarios Según el diccionario de la Real Academia Española de la Lengua, un cuestionario, del latín quaestionarĭus, es un libro que trata de cuestiones o que solo tiene cuestiones; o bien una lista de preguntas que se proponen con cualquier fin. De la misma manera cuestión, del latín quaestĭo‐ōnis, es según el diccionario una pregunta que se hace o propone para averiguar la verdad de algo controvirtiéndolo; o bien un problema que debe ser resuelto por métodos científicos. De cualquiera de las maneras el cuestionario es la herramienta que se utiliza para la recogida de información de cualquier estudio epidemiológico. De la importancia de su diseño podemos afirmar que ningún estudio epidemiológico va a ser mejor que su cuestionario. Por ello se debe de dedicar el tiempo suficiente al diseño del cuestionario (Figura 2); no es tiempo perdido… si nuestro cuestionario es deficiente y nos damos cuenta de ello en la fase de análisis de los resultados… entonces el tiempo perdido es mayor. FIGURA 2. FASES DE ELABORACIÓN DE UN CUESTIONARIO 5 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Lo primero que se debe de pensar a la hora de elaborar en cuestionario es cuál es nuestro objetivo… no es lo mismo un estudio descriptivo que un estudio analítico o uno de intervención… cambian los objetivos y por tanto el tipo de cuestionario y el número y tipo de las variables a recoger. Para elaborar un buen cuestionario debemos de saber mucho de lo que queremos investigar… bien por experiencia propia, bien por haber realizado una exhaustiva y precisa búsqueda bibliográfica. Lo segundo es saber si ya existe algún cuestionario, algún modo de recoger la información sobre la que queremos investigar… y si es válido para nuestro propósito. Si nuestro objetivo es medir algún aspecto concreto (no la mera recogida de información), por ejemplo, el grado de dependencia nicotínica… si hay depresión…o ansiedad… el nivel socio‐económico, etc…debemos conocer si ya hay cuestionarios validados que miden esa o esas variables…si ya hay un cuestionario validado debemos de usarlo puesto que nos ahorra tiempo (no tenemos que validar el nuestro) y además nos permite la comparación con otros autores y estudio. Si no hay ningún cuestionario validado, o está validado para otra lengua o cultura, debemos, antes de nada, validar nuestro cuestionario. También debemos de decidir sobre el tipo de cuestionario que queremos llevar a cabo…dependiendo de nuestros recursos y limitaciones debemos de elegir el que más se adapte a nuestro caso. Los cuestionarios pueden ser autocontestados (si las preguntas son sencillas, no se precisa de explicaciones complementarias, o el nivel cultural y de comprensión de la población objeto es elevado), o bien cumplimentado por entrevista dirigida (se precisa de un encuestador adiestrado que facilite la comprensión de las preguntas e incluso interprete la respuesta del encuestado). En otras ocasiones el cuestionario no es más que el lugar donde se anota la información recogida de otras fuentes de información como pueden ser las historias clínicas. También, en otras ocasiones los cuestionarios son mezclas de los diferentes tipos. Finalmente debemos de plantear las preguntas o la información a recoger, como plantearlas, con que categorías... El número de las mismas y su orden, así como la extensión de todo el cuestionario. Hay una tendencia natural a recoger más información de la necesaria y a olvidarse de incluir preguntas o cuestiones relevantes. Incluir muchas variables supone tiempo y dinero e incrementar la probabilidad de encontrar asociaciones espurias. Olvidar preguntas o información relevante, como variables de confusión, puede lastrar los resultados y las conclusiones del estudio y en algunos casos lo invalidará. Es por ello relevante que las variables recogidas sean las justas, ni exceso ni falta de ellas. Las categorías, las modalidades, de cada variable deben de ser exhaustivas y excluyentes. Se deben de recoger todas las opciones y una misma opción no puede ser incluida en dos categorías. 6 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Ejemplo 5: Si recogemos la variable edad como menos de treinta y más de treinta… ¿Dónde incluimos a los que tienen 30 años? Ejemplo 6: Si preguntamos sobre nacionalidad no podemos preguntar si es español, europeo o americano. Otra cuestión a tener en cuenta es que si la información que se recoge es cuantitativa ésta debe de anotarse como tal, ya que esa información puede después recodificarse; del revés no es posible y es información perdida. Es conveniente situar las preguntas que sean más difíciles de contestar al final, de esta manera no se desanimará de antemano el encuestado. Es frecuente repetir dos o tres cuestiones que poseen la misma información, pero con diferente redacción. Estas preguntas de control permiten detectar cuándo están contestando honestamente. En los cuestionarios suelen aparecer preguntas filtro. Son aquéllas que se realizan previamente para eliminar o saltar las cuestiones que no les afecte. Ejemplo 7: “¿Es usted diabético?”. Si la respuesta es NO, se debe saltar todas las preguntas referentes a los hábitos higiénico‐dietéticos y farmacológicos de esta patología. La redacción, y el vocabulario, debe estar acorde a la persona observada, tomando en cuenta su edad, nivel cultural, nivel escolar, nivel socio‐económico, etc. Además, en la redacción de la pregunta no debe estar sugerida ninguna de las respuestas. Tampoco conviene apoyarse o mencionar opiniones o sugerencias ya existentes, como son posiciones de instituciones, de personas, etc. A nivel práctico hay una serie de cuestiones que se deben tener en cuenta a la hora de elaborar un cuestionario (Anexo1). Cuando queremos que los sujetos emitan “juicios de valor” no “juicios de hecho”, es decir cuando expresa lo que “la persona crea, opine” y no lo que “de hecho sea”, utilizamos Escalas tipo Likert. Estas escalas miden la actitud mediante unos enunciados, que irán alternando aspectos favorables y desfavorables. Las respuestas utilizadas más habitualmente constan de 5 categorías: muy en desacuerdo, en desacuerdo, indeciso, de acuerdo, muy de acuerdo. Ejemplo 8: Me siento, generalmente, seguro de mí mismo (favorable). Me cuesta mucho tomar decisiones (desfavorable). El Diferencial Semántico de Usgos nos permite evaluar basándonos en tres dimensiones (valorativo, potencia y actividad) un determinado concepto, mediante una serie de escala bipolares: valorativa (bueno‐malo, sincero‐falso,), potencia (fuerte‐débil, duro‐ blando,) y actividad (activo‐pasivo, dinámico‐estático,). Ejemplo 9: La salud. Buena 7 6 5 4 3 2 1 Mala; 7 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Fuerte 7 6 5 4 3 2 1 Débil; Activa 7 6 5 4 3 2 1 Pasiva Debemos de pensar también en la informática…que es de gran ayuda puesto que se pueden diseñar variables autocompletadas por el ordenador a partir de la información recogida. Ejemplo 10: La variable edad…el ordenador la puede calcular a partir de la fecha de encuesta y fecha de nacimiento…y es más fácil que las personas sean más precisas diciendo la fecha de nacimiento que la edad. De la misma manera los ordenadores funcionan mejor con caracteres numéricos que alfanuméricos. Las variables que se deben de recoger en todo caso son las siguientes: Identificativas. Permiten identificar al sujeto. Socio‐demográficas. (estado civil, estudios, tipo de trabajo, población…) Intervención. Resultado. Asociadas a la intervención o al resultado. Factores modificadores del resultado. Factores de confusión: es una variable o factor que distorsiona la medida de la asociación entre otras dos variables. El resultado de la presencia de una variable de confusión puede ser el surgimiento de un efecto donde en realidad no existe o la exageración de una asociación real (confusión positiva) o, por el contrario, la atenuación de una asociación real e incluso una inversión del sentido de una asociación real (confusión negativa). Finalmente se debe de probar el cuestionario en las mismas condiciones en las que se va a aplicar. Llevar a cabo un estudio piloto con un número pequeño de casos y ver los problemas, las lagunas, que tiene nuestro cuestionario. Anexo 1. ¿Cómo hacer las preguntas de un cuestionario? En una encuesta se tiene que fijar y decidir el contenido (fondo), la redacción (la forma) y la ubicación de las preguntas, así como la forma de las respuestas: Decisiones sobre el contenido de las preguntas: 1. ¿Es necesaria la pregunta? ¿Será útil? 2. ¿Se necesitan varias preguntas sobre esta cuestión? 3. ¿Cuentan los encuestados con los datos necesarios para contestar la pregunta? 8 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA 4. ¿Necesita la pregunta ser más concreta, específica e íntimamente ligada con la experiencia personal del informante? 5. ¿Es el contenido de la pregunta lo suficientemente general y está libre de concreciones y especificidades falsas? 6. ¿Expresan las preguntas actitudes generales y son tan específicas como suenan? 7. ¿Está el contenido de la pregunta polarizado o cargado en una dirección sin preguntas acompañantes que equilibren el énfasis? 8. ¿Darán los informantes la información que se les pide? Decisiones sobre la redacción de las preguntas: 1. ¿Se puede malinterpretar la pregunta? ¿Contiene fraseología (palabras, sintaxis) difícil o poco clara? 2. ¿Expresa la pregunta adecuadamente las alternativas al punto? 3. ¿Es engañosa la pregunta por culpa de asunciones no establecidas o de implicaciones que no se ven? 4. ¿Está cargada emocionalmente o inclinada hacia un tipo particular de contestación? 5. ¿Puede producir mejores resultados una redacción más personalizada de la pregunta? 6. ¿Puede preguntarse mejor la cuestión, de manera más directa o más indirecta? Decisiones sobre la forma de respuesta de la pregunta: 1. ¿Puede contestarse mejor la pregunta con un impreso donde hay que marcar con una cruz, o contestar con una o dos palabras o una respuesta libre? 2. Si se usa la contestación con una marca o cruz, ¿cuál es el mejor tipo de cuestión: ¿dicotómica, de elección múltiple, o de escala? 3. Si se usa una lista ¿cubre adecuadamente todas las alternativas significativas sin solaparse y en un orden definible? ¿Es de una longitud razonable? ¿Es la redacción de los ítems imparcial y equilibrada? 4. ¿Es fácil, definida, uniforme y adecuada para la finalidad, la forma de respuesta? Decisiones sobre la ubicación de la pregunta en la secuencia: 1. ¿Puede verse influida la contestación por el contenido de las cuestiones precedentes? 2. ¿Está en correcto orden teórico y/o práctico? ¿En un orden natural? 9 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA 3. ¿Aparece la pregunta demasiado pronto o demasiado tarde desde el punto de vista de despertar interés y recibir la atención suficiente? Hay que considerar que no todas las preguntas, o todas las formulaciones posibles se pueden utilizar. Consideremos algunos ejemplos de las preguntas que no deben hacerse: Preguntas de intelectuales: Por ejemplo: ¿Qué aspectos particulares del actual debate positivista‐interpretativo de la psicología del desarrollo le gustaría ver reflejados en el tratamiento de la hiperactividad infantil? Preguntas complejas: Por ejemplo: Cuando estudia los temas dados en clase ¿prefiere consultar un libro determinado incorporando la terminología que este propone o escoge varios libros de los que extrae un poco de cada uno, haciendo un resumen y explicándolo con sus propias palabras? Preguntas o instrucciones irritantes: Por ejemplo: ¿Cuándo no entiende una explicación en clase se siente inútil? Si tiene más de 40 años y no tiene estudios universitarios, FP y ESO, ponga una marca en la casilla rotulada “cultura mínima” y otra en la casilla rotulada “viejo”. Preguntas que emplean negaciones: Por ejemplo: ¿Cuál es su sincera opinión sobre que ningún enfermero/a debería dejar de realizar cursos de perfeccionamiento durante su ejercicio profesional? Preguntas demasiado abiertas: Por ejemplo: Use las pág. 5,6 y 7 respectivamente para responder a cada una de las cuestiones a cerca de sus actitudes respecto a los cursos de perfeccionamiento y sus opiniones sobre el valor en la vida profesional de los enfermeros/as. 10 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA TABULACIÓN, MEDIDAS DE CENTRALIZACIÓN - DISPERSIÓN Y REPRESENTACIÓN GRÁFICA 1. ORGANIZACIÓN DE LA INFORMACIÓN: TABULACIÓN Al estudiar a un conjunto de individuos, bien sea una población, o más habitualmente una muestra, vamos a obtener una serie de datos correspondientes a cada una de las variables estudiadas. La interpretación de los datos obtenidos requiere de un tratamiento para mejor abarcarlos y entenderlos. Normalmente vamos a resumir los valores de las variables en función de los valores que tomen. Una de los más sencillos y habituales procedimientos para resumir la presentación de estos datos es la tabulación, es decir, representaren una tabla los datos obtenidos debidamente ordenados; de manera que se facilite su comprensión. Habitualmente la información recogida de los cuestionarios se introduce en una base de datos, un formato que tiene Columnas y Filas. Las filas suelen corresponder a los valores que cada individuo tiene para cada una de las variables recogidas. Cada columna recoge la información de todos los individuos referidas a una variable. A partir de estas bases de datos lo primero que se debe de hacer en todo estudio es la representación en tablas de frecuencias de todas y cada una de las variables recogidas en el cuestionario. 1.1. Tablas de Frecuencias Las tablas de frecuencias están compuestas de filas y columnas. 11 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Las columnas están formadas por datos alfabéticos y/o numéricos ordenados de arriba abajo. La primera columna suele recoger las modalidades (excluyentes y exhaustivamente) de la variable. El resto de las columnas recogen las diversas frecuencias de las diversas modalidades de las variables, según el tipo de variable a estudio. Las filas o líneas están formadas por toda una serie de valores alfabéticos y/o numéricos colocados de izquierda a derecha. La primera línea suele ser el encabezamiento de cada columna. Cada una de las filas recoge el valor de cada una de las frecuencias para esa modalidad. En el caso de variables cualitativas las únicas frecuencias posibles para su presentación son las frecuencias absolutas y las relativas, así como los porcentajes. Frecuencias Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias; es decir, al conjunto de clases junto a las frecuencias correspondientes de cada una de ellas. Podemos definir como frecuencia el número de veces que se repite, o que tiene lugar la observación de un determinado fenómeno. Si esta repetición no se pone en relación con nada se denomina frecuencia absoluta. De manera que la frecuencia absoluta: ni de la clase ci es el número de observaciones que presentan una modalidad perteneciente a esa clase. La frecuencia relativa fi de la clase ci es el cociente entre las frecuencias absolutas de dicha clase y el número total de observaciones. 𝒏𝒊 𝒇i = 𝑵 Este cociente, al estar el numerador incluido en el denominador es una proporción y viene expresado en tantos por uno y su rango oscila entre 1 y 0, le son de aplicación, por tanto, las leyes de la probabilidad. (∑𝒏i = 𝑵) Para el caso de las variables cuantitativas o semicuantitativas, además de las frecuencias absolutas y relativas podemos calcular las frecuencias acumuladas. La frecuencia absoluta acumulada Ni es el número de elementos de la población a estudio cuya modalidad es inferior o equivalente a la modalidad ci. La frecuencia relativa acumulada Fi es el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan modalidad inferior o igual a ci. 12 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Otras definiciones de interés que se derivan de los conceptos de frecuencias son los porcentajes y los percentiles. El porcentaje es la frecuencia relativa multiplicada por 100. Al no expresarse en tantos por uno, con los inevitables decimales, es más fácil la interpretación de los observados que la frecuencia relativa. (% = fi x 100). Los percentiles serían la expresión de las frecuencias relativas acumuladas expresadas también en porcentaje o bien en agrupaciones más o menos lógicas de los valores en que se distribuye la variable. Así tenemos los centiles, que serían los auténticos percentiles, en este caso los valores de distribución de la variable se dividen en cien partes iguales. Los deciles cuando los valores de distribución de la variable están agrupados en 10 partes iguales. Y los cuartiles cuando los valores de distribución de la variable están agrupados en cuatro partes iguales. Ejemplos de Tablas de Frecuencias Vamos a ver un ejemplo con la distribución por sexo de una enfermedad: En el caso de variables ordinales o semicuantitativas, además de lo anterior podemos calcular las frecuencias acumuladas: En el caso de las variables cuantitativas discretas los cálculos a realizar son iguales al caso anterior. 13 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Para las variables cuantitativas continuas, las que puede tomar cualquier valor entre dos consecutivos dados, las tablas de frecuencia se realizan agrupando los datos en intervalos. Para establecer el número de intervalos y la amplitud de los mismos hay una serie de reglas orientativas sobre cómo realizarlo. En el caso de un número pequeño de valores posibles (sobre 100), una fórmula empleada para establecer el número de intervalos es que sean tantos como la raíz cuadrada del número de observaciones efectuadas. En el caso de que las observaciones realizadas sean muchas es más conveniente utilizar otra fórmula para establecer el número de intervalos: 1 + 3,22 · log n. Es decir, el logaritmo del número de observaciones por 3,22 y más uno. Va a ser también función del investigador decidir cuál va a ser la amplitud de cada intervalo, si bien se recomienda que esta sea igual en todos los intervalos y normalmente se recomienda que la amplitud de cada intervalo sea la amplitud total dividido por el número de intervalos. (Valor mínimo - valor máximo)/ K. En el caso de que el número resultante no sea adecuado se recomienda acortar los intervalos extremos, los que incluyen el valor más alto y el más bajo. Dentro de los intervalos podemos definir las siguientes situaciones: Límites del intervalo: Son los extremos de cada uno de los grupos de valores. Hay un límite superior y un límite inferior. También podemos definir un límite exacto y un límite aparente. El límite aparente es el que se corresponde con los valores realmente observados. Sin embargo, entre el límite superior del intervalo inferior y el límite inferior del intervalo superior, en una variable continua hay infinitos valores, que son discretizados por la precisión de nuestro aparato de medida. De esta manera podemos decir que los límites aparentes representan a todos los valores situados media unidad a su izquierda y media unidad a su derecha; de manera que los límites exactos serían los de esos valores intermedios. Por ejemplo: en un intervalo entre 114 y 122 centímetros, aquello que realmente medimos, los límites exactos serían 113,5 cm. y 122,5 cm. El punto medio del intervalo es la semisuma de los límites del intervalo y será quien represente a todos los valores del citado intervalo para el cálculo de las diversas medidas de tendencia y dispersión. 2. MEDIDAS DE CENTRALIZACIÓN Y DISPERSIÓN Ya se ha comentado que la estadística es la ciencia que intenta estudiar la variabilidad. La estadística se ocupa de los métodos y procedimientos para recoger, clasificar y representar un conjunto de datos en un grupo de individuos e inferir a partir de ellos estimaciones, predicciones u otras generalizaciones sobre un grupo mayor de individuos. Ya hemos visto cómo la organización de la información, por medio de la tabulación (ordenación en tablas) nos va a ayudar a leer e interpretar esa variabilidad. A veces, como una imagen vale más que mil "tablas" es conveniente hacer una 14 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA representación gráfica de los datos recogidos para de un golpe de vista hacernos una idea de que está sucediendo. El tema que estamos viendo hoy da un paso más en el tratamiento de la información para de una manera "condensada", en unos pocos números, poder definir, o lo que es lo mismo, expresar de una forma clara y sencilla la información recogida sobre una población y a la vez facilitar el establecimiento de comparaciones, hacer estimaciones… Para este fin de sintetizar o analizar un conjunto de datos existen dos tipos de índices, las medidas de tendencia central y las medidas de dispersión, que nos van a permitir estudiar y comparar varias distribuciones entre sí. Así, las medidas de tendencia central son índices estadísticos que nos dan el valor de la variable hacia el cual tienden a agruparse los datos; los más estudiados son la moda, la mediana y la media. No solo el definir el valor central o hacia el que tiende una distribución va a ser de interés, toda vez el grado de dispersión de los valores que tiene la variable también tiene interés. Así, las medidas de dispersión son índices estadísticos que nos permiten conocer el grado de variabilidad o dispersión de los datos de una distribución. Los más utilizados son la varianza, la desviación típica, el rango o amplitud y el coeficiente de variación. También hay otras características que pueden examinarse y van a ser de interés para definir una población y son:. Las medidas de posición, que nos indican el lugar que ocupa un determinado individuo en la distribución. La forma como se agrupan los datos: simetría y apuntamiento. 2.1. Medidas de Tendencia Central y Dispersión Moda (Mo) y Amplitud La moda de un conjunto de datos es el valor que más se repite, el más frecuente. En el caso de variables cualitativas o cuantitativas discretas la moda es el valor con mayor frecuencia absoluta y relativa; en el diagrama de barras es el punto de mayor altura. En el caso de variables de intervalo la moda suele ser el punto medio del intervalo con mayor frecuencia absoluta. Una forma gráfica de calcular la Mo en un histograma es la proyección sobre el eje de abcisas del punto más alto del histograma o polígono de frecuencias. Gráficamente las distribuciones pueden ser clasificadas como unimodales, bimodales o plurimodales si presenta uno, dos o más puntos sobrelevados. 15 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA La moda es muy fácil de calcular y no precisa ni cálculo númerico, puede no ser única. Se puede calcular aunque los intervalos primero y último sean abiertos. Depende de la amplitud, límite y número de los intervalos elegidos. La amplitud es una medida de dispersión igual a la diferencia entre el valor máximo y mínimo real de la distribución. También suele definirse el rango, que es expresar el valor mínimo y máximo de la distribución. Mediana (Me) y Amplitud Intercuartil Antes de definir estas medidas de tendencia central y dispersión es preciso definir lo que se llaman medidas de posición, toda vez que ambas medidas se calculan a partir o bien son medidas de posición. Las medidas de posición más utilizadas son los percentiles que se definen como cada uno de los 99 valores de la variable que dividen al número total de casos en cien partes iguales cuando los datos están ordenados según su magnitud. Otra forma de definir un percentil es como el valor de la variable por debajo del cual se encuentra un porcentaje determinado de observaciones. Así, el P65 es el valor de la variable en el que el 65 % de los valores son iguales o inferiores a él. Donde Li es el límite inferior del intervalo donde se encuentra el percentil a estudio, K el percentil; N es el número total de datos; Nd = número de datos por debajo del intervalo y Nc = frecuencia absoluta del intervalo crítico; i = amplitud del intervalo. La mejor forma de calcular los percentiles es mediante la representación gráfica de las frecuencias acumuladas y la proyección sobre el eje de abcisas. Dentro de las medidas de posición tienen interés los percentiles de los siguientes valores: P1 P5 P10 P25 P50 P75 P90 P95 P99. Los percentiles 25, 50 y 75 también son denominados quartil 1,2 y 3 respectivamente Q1 Q2 Q3. Ejemplo 1: Percentil 25 (P25) 25% 75% Mínimo Máximo P25 16 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Ejemplo 2: Cuartiles y percentiles. Q1 Q2 Q3 Q4 25% 25% 25% 25% Mínimo Máximo P75 P50 P25 La mediana de una serie de datos ordenados en orden creciente o decreciente es la puntuación que ocupa el valor central de la distribución estadística. Aquel valor que deja a la derecha y a la izquierda el 50 % de todos los valores de la serie. Gráficamente la mediana sería el valor en el eje de abcisas que divide al histograma o al polígono de frecuencias en dos superficies idénticas, con la misma área. El valor de la mediana coincide con la frecuencia relativa acumulada del 0,5 en el caso de variables discretas. En el caso de variables cuantitativas continuas o representadas mediante intervalo en primer lugar hay que localizar el intervalo que cumple el requisito anterior (intervalo crítico). Una vez conocido dicho intervalo se aplica la siguiente fórmula: Donde Li es el límite exacto inferior del intervalo crítico; N en el número total de datos; nd = número de datos por debajo del intervalo crítico y nc = frecuencia absoluta del intervalo crítico; i = amplitud del intervalo. Una de las principales propiedades de la mediana es que no se haya muy afectada por los valores extremos de la distribución, ya que no depende de los valores que toma la variable sino de su colocación u ordenación. Su cálculo es rápido y su interpretación sencilla. El valor que va a tomar la mediana es siempre un valor real. El mayor problema de la mediana es que sus propiedades matemáticas son muy complicadas lo que va a dificultar las comparaciones y la inferencia estadística. En las variables de intervalo el valor de la mediana va a depender del número y amplitud de los intervalos. Va a poder ser calculada aunque los intervalos primero y último sean abiertos. La amplitud intercuartil es una medida de dispersión de valor igual a la longitud del intervalo que contiene el 50 % central de las observaciones. Esta amplitud se calcula a partir los percentiles 25 y 75 o cuartiles 1 y 3. AQ = P75- P25. También se utiliza como medida de dispersión la desviación cuartil que es igual a la amplitud cuartil dividida por dos. 17 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA Media (0) y Varianza (S2) La media aritmética o media es la suma de todos los valores de una variable dividida por el número total de datos. Es la suma de todos los posibles valores ponderada por la frecuencia de los mismos. En el caso de variables de intervalo se multiplica el punto medio del intervalo por la frecuencia absoluta del mismo. La media supone el centro de gravedad de una distribución, de manera que los valores extremos van a tener mucho peso en el cálculo de la misma. Tiene también unas interesantes propiedades matemáticas que van a poder facilitar la comparación y por tanto la inferencia estadística (la suma de las diferencias de la variable con respecto a la media es cero, puede expresarse de forma lineal, la media de varios grupos de observaciones es igual a la media de las medias, posible cálculo abreviado, posibilita el cambio de origen y la unidad de medida, etc.). La media tiene por tanto unas muy buenas propiedades que facilitan su extensión, sin embargo, en distribuciones asimétricas con valores muy extremos, no normales, no es recomendable su uso por verse muy afectada por los valores extremos. Depende de la amplitud y el número de intervalos en las variables de intervalo y no puede calcularse si hay intervalos abiertos. Muchas veces, en el caso de variables discretas el resultado no es un resultado posible en la distribución. La Variancia o Varianza (S2) es la medida de dispersión que corresponde a la media y se define como la media cuadrática (de los cuadrados) de las diferencias entre cada valor de la variable y la media aritmética de la distribución. Si en vez de muestras trabajamos con poblaciones el símbolo es 𝝈𝝈P2 y el denominador N. Este estadístico de dispersión tiene ventajas sobre la desviación media, la diferencia entre los valores de la variable y su media en valores absolutos, en cuanto a la capacidad de hacer inferencias matemáticas que no permite la desviación media. Sin embargo, tiene el inconveniente que las medidas en las que se expresa es el cuadrado de las unidades de medida de la variable y eso dificulta su interpretación; por esta razón se utiliza la desviación estándar (SD) que no es otra cosa más que la raíz cuadrada de la variancia. La dispersión que mide la variancia es fácilmente entendible toda vez que se calcula observando las diferencias de los valores respecto al valor central, si las diferencias fueran calculadas tal cual muy probablemente, las diferencias positivas más las negativas darían lugar a una dispersión 0, sobre todo en poblaciones que siguieran la 18 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA curva normal; por esta razón se elevan al cuadrado las diferencias, de manera que todas las diferencias se dan en signo positivo, este artefacto mantiene las propiedades del índice de dispersión y sus propiedades matemáticas que van a facilitar su interpretación. La interpretación de la desviación estándar no es fácil y solo podemos deducir que en función de lo homogénea que sea la muestra o la población a estudio la SD tomará un valor mayor o menor, de manera que una pequeña SD nos indica que los datos están muy agrupados y una elevada SD nos indica que están dispersos. Por lo demás tiene las mismas virtudes y problemas que la media. Hay unas formulas muy sencillas que nos permiten calcular de una manera más sencilla y dentro de las tablas de frecuencia la media y la variancia y son: Medidas de Dispersión Relativa: Las medidas de dispersión absolutas dependen de las unidades de medida utilizadas al recoger las variables estudiadas y por esta razón no van a permitir la comparación con variables recogidas en otras unidades o bien con otras variables recogidas en otro tipo de unidades. En algunas ocasiones es preciso conocer si una variable presenta una mayor o menor variación que otra variable recogida en diferentes unidades, en estas situaciones necesitamos utilizar las denominadas medidas de dispersión relativa que consisten en un cociente entre la medida de dispersión y su correspondiente medida de centralización. La más utilizada es el Cociente de Variación (CV). CV= (desviación típica/media) x 100 3. REPRESENTACIÓN GRÁFICA Como hemos visto anteriormente, una de las formas de ordenar y presentar la información de manera clara y al detalle es la tabulación u ordenación en una tabla de la información recogida. Sin embargo, en muchas ocasiones es más interesante, más "gráfico", dar una visión no tan de detalle y si más de conjunto de la información que queremos transmitir. Para este fin se utilizan las representaciones gráficas, que resultan más expresivas, de lectura más directa y más fácil lectura, además van a facilitar la comparación. 19 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA 3.1. Tipos de gráficos según los diferentes tipos de variables Variables cualitativas y cuantitativas discretas. Las formas de representar gráficamente las variables cualitativas o atributos y las cuantitativas discretas son las superficies representativas, el diagrama de barras y el diagrama polar. Superficies representativas Puede tratarse de todo tipo de áreas, incluso volúmenes y las más diversas formas geométricas; incluidos mapas (cartogramas) o representaciones de la variable a estudiar. De alguna manera estas superficies representan de forma proporcional la distribución de las distintas modalidades de la variable estudiada. Las más comunes son las siguientes: Sectores circulares: Se trata de la representación en un círculo o tarta de la variable a estudio de manera que cada una de las modalidades esté representada por un sector proporcional a su frecuencia. El cálculo es muy sencillo, teniendo en cuenta que el círculo tiene 360 º, se calcula por una regla de tres simple los grados correspondientes a cada modalidad. X = (360 x ni) / N. Pictogramas: Como en el caso anterior un "muñeco" o representación, normalmente en superficie o volumen representa de forma proporcional la distribución de una variable. Cartogramas: Sobre un mapa se presenta a través de diferenciación por colores o diferentes tramas la diferente distribución en un área geográfica de una determinada variable. Diagrama de barras Es la representación en un eje de coordenadas, de manera que, normalmente, en el eje de las ordenadas se utiliza para la representación de las frecuencias correspondientes de las modalidades de la variable y en el de abcisas para los valores de la variable. La diferente altura sobre el eje de abcisas será igual a la frecuencia de cada uno de los valores de la variable. Es el más utilizado y sirve tanto para representar frecuencias relativas como acumuladas como absolutas. Diagrama Polar Es lo mismo que el diagrama de barras pero las barras o rectas surgen de un mismo punto como los radios de una rueda. La longitud de cada uno de los radios es proporcional a la frecuencia de la modalidad. Variables cuantitativas continuas. 20 Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad. a64b0469ff35958ef4ab887a898bd50bdfbbe91a-2360621 RUILOBA La forma más habitual de representar una variable cuantitativa continua es el histograma. El histograma está formado por rectángulos representativos de cada intervalo de clase y debe de cumplir las siguientes propiedades: 1) Su base, sobre el eje de las X abarca desde el límite inferior al superior de los límites reales, no aparentes. 2) La superficie, que no la altura, es proporcional al número de individuos del intervalo que representa. Una forma de mantener la proporcionalidad es dividir el número de individuos entre la amplitud del intervalo y representaría el número de casos por unidad del intervalo. Esta misma representación se puede realizar con las frecuencias acumuladas. Otra forma de representación de las variables cuantitativas continuas es el Polígono de Frecuencias. La construcción es idéntica al histograma, lo habitual es dibujar el histograma y sobre él el polígono de frecuencias. Se unen con rectas los puntos medios de los intervalos de clase a la altura del rectángulo. Los puntos de partida suelen ser el punto de medio del intervalo de clase anterior al primero y se inicia en el eje de abcisas y finaliza en este eje, en el punto medio del intervalo de clase posterior al último. O bien en los límites inferior y superior respectivamente del primer y último intervalo de clase.