Introducción al Análisis de Datos (2.ª Ed.) - Sanz y Torres PDF
Document Details
Uploaded by LeadingLead1018
2019
Juan Carlos Suárez Falcón, Patricia Recio Saboya, María Concepción San Luis Costas, María del Pilar Pozo Cabanillas
Tags
Related
- 3003PSY Survey Design and Analysis in Psychology PDF
- Unidad 2 - Tabulación (Subrallado) PDF
- PSY201: Introduction to Quantitative Research in Psychology Lecture Notes PDF
- Análisis de Datos I PDF
- Bases pour l’analyse descriptive et inférentielle (BASDI) PDF
- PSY 201 Introduction to Statistics for Psychology I Lecture Slides PDF
Summary
This textbook, "Introducción al Análisis de Datos - 2ª Edición", provides a comprehensive introduction to data analysis for psychology and health sciences students. It covers basic concepts, organization of data, measures of central tendency and position, variability, and relationship between variables. The book includes numerous examples, exercises, and solutions to help readers master the material, and has online content access.
Full Transcript
2ª EDICIÓN Introducción al Análisis de Datos Aplicaciones en Psicología y Ciencias de la Salud JUAN CARLOS SUÁREZ FALCÓN PATRICIA RECIO SABOYA MARÍA CONCEPCIÓN SAN LUIS COSTAS MARÍA DEL PILAR POZO CABANILLAS INCLUYE ACCESO A...
2ª EDICIÓN Introducción al Análisis de Datos Aplicaciones en Psicología y Ciencias de la Salud JUAN CARLOS SUÁREZ FALCÓN PATRICIA RECIO SABOYA MARÍA CONCEPCIÓN SAN LUIS COSTAS MARÍA DEL PILAR POZO CABANILLAS INCLUYE ACCESO A CONTENIDOS ON LINE.. sanz y torres INTRODUCCIÓN AL ANÁLISIS DE DATOS Aplicaciones en Psicología y Ciencias de la Salud TE! editor no se hace responsable de las opiniones recogidas, comentarios y manifestaciones vertidas por las autores. La presente obra recoge exclusivamente la opinión de su autor como manifestación de su derecho de libertad de expresión. La Editorial se opone expresamente a que cualquiera de las páginas de esta obra o partes de ella sean utilizadas para la realización de resúmenes de prensa. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta obra solo puede ser realizada con la autorización de sus titulares, salvo excepción prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos) si necesita fotocopiar o escanear algún fragmento de esta obra. Por tanto, este libro no podrá ser reproducido total o parcialmente, ni transmitirse por procedimientos electrónicos, mecánicos, magnéticos o por sistemas de almacenamiento y recuperación informáticos o cualquier otro medio, quedando prohibidos su préstamo, alquiler o cualquier otra forma de cesión de uso del ejemplar, sin el permiso previo, por escrito, del titular o titulares del copyright. © Juan Carlos Suárez Falcón, Patricia Recio Saboya, María Concepción San Luis Costas y María del Pilar Pozo Cabanillas © EDITORIAL SANZ Y TORRES, S. L. Vereda de los Barros, 17 Poi. Ind. Ventorro del Cano - 28925 Alcorcón (Madrid) '@ 902 400 416 - 91 323 71 10 www.sa nzytorres. es [email protected] www.editorialsanzytorres.com [email protected] ISBN: 978-84-17765-42 - 2 Depósito legal: M-20441-2019 Portada: Javier Rojo Abuín Composición: Iván Pérez López Impresión y encuadernación: Edipack Gráfico índice Presentación........................................................................... XV Tema l. CONCEPTOS BÁSICOS V ORGANIZACIÓN DE DATOS 1 1.1. Introducción................................................................... 3 1.2. La investigación en Psicología........................................... 4 1.3. Concepto y funciones de la estadística: descripción e inferencia...................................................................... 7 1.4. Variables : medición y clasificación..................................... 10 1.5. Descripción de variables: distribución de frecuencias y representación gráfica..................................................... 18 1.5.1. Descripción de variables cualitativas....................... 22 1.5.2. Descripción de variables ordinales o cuasicuantitativas................................................ 25 1.5.3. Descripción de variables cuantitativas..................... 27 1.6. Tendencia central, variabilidad y forma de una variable: aprox imación gráfica....................................................... 35 1.7. Resumen....................................................................... 40 1.8. Ejercicios....................................................................... 40 1.9. Soluciones a los ejercicios................................................ 42 Tema 2. ÍNDICES DE TENDENCIA CENTRAL V DE POSICIÓN 47 2.1. Introducción................................................................... 49 2.2. Índices de tendencia central............................................. 50 2.2.1. Media aritmética.................................................. 50 2.2.2. La mediana......................................................... 62 2.2.3. La moda............................................................. 70 2.2.4. Elección de un índice de tendencia central............... 73 2.3. Índices de posición.......................................................... 76 2.3.1. Percentiles.......................................................... 77 2.3.2. Cuartiles y deciles................................................ 86 VII INTRODUCCIÓN Al ANÁLISIS DE DATOS : APLICACIONES EN PS ICOLOGÍA Y CIENCIAS DE LA SALUD 2.4. Resumen....................................................................... 88 2.5. Ejercicios....................................................................... 88 2.6. Soluciones a los ejercicios................................................ 90 Tema 3. MEDIDAS DE VARIABILIDAD Y FORMA 99 3.1. Introducción.................................................................... 101 3.2. Medidas de variabilidad..................................................... 102 3.2.1. Amplitud total o rango........................................... 104 3.2.2. Varianza y desviación típica.................................... 105 3.2.3. Coeficiente de variación......................................... 112 3.2.4. Amplitud intercuartil.............................................. 115 3.3. Medidas de forma............................................................ 117 3.3.1. Asimetría de una distribución.................................. 117 3.3.2. Apuntamiento o curtosis de una distribución............. 121 3.4. Diagrama de caja............................................................. 123 3.5. Puntuaciones típicas......................................................... 127 3.6. Resumen........................................................................ 130 3.7. Ejercicios........................................................................ 131 3.8. Soluciones a los ejercicios................................................. 133 Tema 4. RELACIÓN ENTRE VARIABLES 1 141 4.1. Introducción.................................................................... 143 4.2. Asociación entre dos variables cualitativas........................... 146 4.2.1. Tabla de contingencia............................................ 147 4.2.2. Representación gráfica: diagrama de barras conjunto 155 4.2.2.1. Diagrama de barras adosadas................... 156 4.2.2.2. Diagrama de barras apiladas.................... 156 4.2.3. Medida s globales de asociación entre variables cualitativas.......................................................... 159 4.2.3.1. Independencia y x 2..................... 159 4.2.3.2. Coeficiente C de Contingencia................... 164 4.2.3.3. Coeficiente V de Cramer.......................... 167 4.2.3.4. Coeficiente cp.......................................... 168 4.3. Relación entre variables ordinales...................................... 169 4.3.1. Coeficiente de correlación por rangos de S pe rm n... 170 VIII ÍNDICE 4.4. Resumen........................................................................ 175 4.5. Ejercicios........................................................................ 175 4.6. Soluciones a los ejercicios................................................. 178 Tema 5. RELACIÓN ENTRE VARIABLES 11 183 5.1. Introducción.................................................................... 185 5.2. Relación entre dos variables cuantitativas............................ 187 5.2.1. Representación gráfica de la relación: diagrama de dispersión............................................................ 187 5.2.2. Covarianza........................................................... 194 5.2.3. Coeficiente de correlación lineal de Pearson.............. 196 5.2.3.1. Cálculo.................................................. 197 5.2.3.2. Interpretación y características................. 199 5.2.3.3. Casos particulares de coeficiente de correlación lineal de Pearson..................... 205 5.2.3.3.1. Relación entre variables ordinales............................... 206 5.2.3.3.2. Relación entre variables dicotómicas........................... 211 5.2.3.3.3. Relación entre una variable dicotómica y otra cuantitativa... 213 5.3. Coeficientes de correlación en función del tipo de variable: tabla resumen................................................................. 216 5.4. Regresión lineal simple..................................................... 217 5.4.1. Cálculo de los coeficientes de regresión.................... 218 5.4.2. Valoración del modelo............................................ 224 5.4.2.1. La varianza error.................................... 226 5.4.2.2. El coeficiente de determinación................. 229 5.4.3. Características del modelo de regresión................... 230 S.S. Regresión lineal múltiple................................................... 233 5.6. Resumen........................................................................ 236 5.7. Ejer cicios........................................................................ 237 S.S. Soluciones a los ejercicios................................................. 24 1 IX INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Tema 6. NOCIONES BÁSICAS DE PROBABILIDAD 247 6.1. Introducción.................................................................... 249 6.2. Conceptos previos............................................................ 251 6.2.1. Experimento aleatorio............................................ 251 6.2.2. Espacio muestra l................................................... 252 6.2.3. Sucesos y tipos de sucesos..................................... 254 6.2.4. Operaciones con sucesos........................................ 256 6.3. Definición de probabilidad................................................. 259 6.4. Teorema de la suma......................................................... 264 6.5. Probabilidad condicionada................................................. 266 6.6. Teorema del producto....................................................... 269 6.7. Teorema de la probabilidad total........................................ 272 6.8. Teorema de Bayes............................................................ 277 6.9. Algunas aplicaciones de la probabilidad condicionada en Psicología de la Salud....................................................... 281 6.10. Resumen........................................................................ 286 6.11. Ejercicios........................................................................ 287 6.12. Soluciones a los ejercicios................................................. 290 Tema 7. VARIABLES ALEATORIAS Y MODELOS DISCRETOS DE PROBABILIDAD 299 7.1. Introducción.................................................................... 301 7.2. Concepto de variable aleatoria........................................... 302 7.3. Tipos de variables aleatorias.............................................. 305 7.4. Va riables aleatorias discretas............................................. 306 7.4.1. Función de probabilidad de una V.A. discreta............. 306 7.4.2. Función de distribución de una V.A. discreta.............. 308 7.4.3. Media y varianza de una V.A. discreta...................... 312 7.5. Distribuciones discretas de probabilidad.............................. 315 7.4.1. La distribución de Bernoulli..................................... 315 7.5.2. La distribución binomial......................................... 318 7.5.3. Otras distribuciones discretas................................. 324 7.6. Resumen........................................................................ 324 7.7. Ejercicios........................................................................ 325 7.8. Soluciones a los ejercicios................................................. 327 X ÍNDI CE Tema e. MODELOS CONTINUOS DE PROBABILIDAD 333 8.1. Introducción.................................................................... 335 8.2. Características de las variables aleatorias continuas.............. 336 8.2.1. Función de densidad y función de distribución........... 337 8.2.2. Media y varianza de una variable aleatoria continua... 340 8.3. La distribución normal...................................................... 341 8.3.1. Características y propiedades................................. 342 8.3.2. Utilización de las tablas.......................................... 345 8.3.3. Histograma y distribución normal............................ 348 8.3.4. Aproximación de la binomial a la normal.................. 351 8.4. La distribucion x2 de Pearson............................................. 355 8.5. La distribución t de Student............................................... 357 8.6. La distribución F de Fisher-Snedecor................................... 360 8. 7. Resumen........................................................................ 363 8.8. Ejercicios........................................................................ 364 8.9. Soluciones a los ejercicios................................................. 366 Tema 9. MUESTREO V DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO 371 9.1. Introducción.................................................................... 373 9.2. Muestreo........................................................................ 374 9.2.1. Conceptos básicos en el muestreo........................... 375 9.2.2. Tipos de muestreo................................................ 378 9.2.2.1. Métodos de muestreo probabilístico........... 379 9.2.2.2. Métodos de muestreo no probabilístico....... 384 9.3. Distribución muestra! de un estadístico............................... 386 9.4. Distribución muestra! del estadístico media......................... 402 9.4.1. Distribución normal de la variable X con varianza poblacional conocida.............................................. 402 9.4.2. Distribución normal de la variable X con varianza poblacional desconocida......................................... 406 9.4.3. La variable X no se distribuye normalmente.............. 407 9.5. Distribución muestra! del estadístico proporción................... 408 9.5.1. Distribución muestra! de P para muestras pequeñas... 409 9.5.2. Distribución muestra! de P para muestras suficientemente grandes........................................ 411 XI INTRODUCCIÓN A L ANÁLIS IS DE OATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD 9.6. Distribución muestra! del estadístico varianza...................... 413 9.7. Resumen........................................................................ 418 9.8. Ejercicios........................................................................ 419 9.9. Soluciones a los ejercicios................................................. 421 Tema 10. ESTIMACIÓN DE PARÁMETROS Y CÁLCULO DEL TAMAÑO MUESTRAL 427 10.1. Introducción.................................................................. 429 10.2. Estimación de parámetros............................................... 433 10.2.1. Propiedades de los estimadores............................ 434 10.2.2. Métodos de obtención de estimadores................... 439 10.2.3. Estimación puntual............................................. 439 10.2.4. Estimación po r intervalos..................................... 440 10.3. Cálculo del intervalo de confianza..................................... 444 10.3.1. Intervalo de confianza para el parámetro ~t con o- 2 conocida............................................................ 444 10.3.2. Intervalo de confianza para el parámetro ~t con o- 2 desconocida....................................................... 448 10.3.3. Intervalo de confianza para el parámetro n (aproximación a la normal).................................. 451 10.3.4. Intervalo de confianza para el parámetro o- 2........ 453 10.4. Significado del nivel de confianza...................................... 456 10.5. Generalización de la construcción de intervalos................... 457 10.6. Factores que afectan al intervalo de confianza.................... 458 10.7. Cálculo del tamaño muestra!............................................ 459 10.7.1. Tamaño muestra! para el parámetro media............. 460 10.7.1.1. Conocida la varianza poblacional............ 461 10.7.1.2. Desconocida la varianza poblacional....... 462 10.7.2. Tamaño muestra! para el parámetro proporción...... 465 10.8. Resumen....................................................................... 466 10.9. Ejercicios...................................................................... 467 10.10. Soluciones a los ejercicios............................................... 470 REFERENCIAS BIBLIOGRÁFICAS 479 TABLAS ESTADÍSTICAS 481 XII Presentación Este manual se ha escrito con la intención de hacer más fácil el estudio del Análisis de Datos a los estudiantes que, por una u otra razón, cursan estudios de Grado en la modalidad semipresencial; esos alumnos que, como el corredor de fondo, afrontan la dura tarea de adquirir los conoci- mientos que los convertirán, al llegar a la meta, en profesionales de su especialidad. El libro está dirigido de forma muy especial a los alumnos de primer curso de Grado en Psicología de la UNED, pero también pretende servir de ayuda a aquellos otros que, en el ámbito de las Ciencias Sociales y de la Salud, puedan encontrar en este texto el apoyo necesario para aclarar conceptos, resolver dudas y refrescar las bases teóricas sobre las que se asienta la metodología. A unos y otros, el equipo docente de esta mate- ria hemos dedicado todo nuestro esfuerzo. El tiempo, testigo inexorable de nuestro quehacer, dirá si hemos sido o no capaces de lograr nuestro objetivo. Esta materia forma parte del conjunto de asignaturas que componen la metodología de trabajo de aquellas Ciencias que basan su conocimiento en los datos empíricos y cuya finalidad es garantizar la calidad del proceso investigador e integrar los resultados de la investigación en la praxis. La formación correspondiente a esta materia en el Grado en Psicología de la UNED se materializa en las siguientes asignaturas: Fundamentos de Investigación, Introducción al Análisis de Datos, Diseños de Investiga- ción y Análisis de Datos y Psicometría. Es importante reseñar aquí que, el aprendizaje de estas materias está fuertemente relacionado entre sí y sus contenidos se fundamentan unos en otros progresivamente no sólo porque Introducción al Análisis de Datos (primer curso) y Diseños de In- vestigación y Análisis de Datos (seg undo curso) constituyen un continuo de conocimientos (la división en dos asignaturas sólo indica un paréntesis en el tiempo) sino porque toda s las materias metodológicas incardinan unas en otras, dando lugar al m od o riguroso de trabajar con el Método Científico, procedimiento esenci al e imprescindible del quehacer en una correcta formación universitaria. Así pues, el estudiante debe aprender y XIII INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD utilizar estas materias como un todo cuya transversalidad es básica en su formación global. Concretamente, el Análisis de Datos hace referencia al conjunto de herramientas que la Estadística Teórica proporciona al investigador, con la finalidad de facilitar el manejo de información numérica mediante resú - menes numéricos, gráficos e índices y proporciona técnicas que, con un grado de certeza, garantizan la validez de las conclusiones de los estudios empíricos. El texto presenta los conocimientos básicos sobre los que se fundamen- ta la Estadística Aplicada. Para su elaboración hemos seguido las reco- mendaciones del Instituto Universitario de Educación a Distancia (IUED), empleando un lenguaje sencillo y conciso, organizando la presentación de los conceptos en orden de complejidad creciente, apoyándonos en ejem- plos y problemas resueltos y motivando el trabajo individual mediante el uso de ejercicios de autoevaluación al final de cada tema, que facilitan la comprobación personal del grado de consecución de los objetivos didác- ticos. Los contenidos que recoge el texto son los que habitualmente compo- nen la materia de un primer curso de introducción al Análisis de Datos. Se presentan ordenados en 10 temas. Los cinco primeros están dedicados a la Estadística Descriptiva para una y dos variables, presentando los proce- dimientos de ordenación de datos, gráficos e índices que resumen las ca- racterísticas individuales y conjuntas de las variables, así como los índices que valoran las posibles relaciones entre ellas. Los temas 6, 7 y 8 abordan los conceptos básicos de Probabilidad y el estudio de las distribuciones discretas y continuas. El conocimiento de la probabilidad es imprescindi - ble en nuestro ámbito de trabajo, ya que es el recurso matemático que permite trabajar sobre datos empíricos, los cuales contienen una cierta incertidumbre inherente al azar. A continuación, el tema 9 presenta las bases sobre las que se fundamenta la Inferencia Estadística: el muestreo y el concepto de distribución muestra! de un estadístico. Por último, el tema 10 se dedica a una de las técnicas fundamentales de la Inferencia Estadística, la estimación de parámetros. Un manual es el trabajo continuado y esforzado de uno o varios pro- fesores que ponen su experiencia al servicio del estudiante, destilando de todo lo aprendido aquello que consideran es lo más relevante para la formación en la materia que se trate. Los firmantes de esta presentación XIV PRESENTACIÓN somos el equipo docente que ha elaborado este libro, cuatro profesores que compartimos la enseñanza de esta materia «Introducción al Análisis de Datos en Psicología», que tanto sorprende a los estudiantes en el pri- mer curso. Tras casi diez años de implantación del grado de Psicología en la UNED se planteó la necesidad de actualizar el manual de esta asignatu- ra. De la conveniencia docente, de las discusiones en grupo, de las suge- rencias de otros colegas, de las cuestiones planteadas por los estudiantes en el curso virtual y de la elaboración del material de apoyo surge este libro. Todos y cada uno de nosotros hemos colaborado en todos y cada uno de los temas aportando no sólo información sino también las oportu- nas críticas que siempre complementan y mejoran el resultado. Ha sido un trabajo enriquecedor que comenzó como una aventura entre colegas y terminó como un logro entre amigos. Queremos finalizar esta presentación con el reconocimiento explícito a aquellos que nos han precedido en esta tarea. De ellos hemos apren- dido que nuestro trabajo es apasionante y gratificante, también nos han hecho comprender que un profesor «se hace» con el transcurso del tiem- po, sabiendo asumir consejos y críticas con humildad y agradecimiento porque como decía Baltasar Gracián: «no hay maestro que no pueda ser discípulo ». Los autores, Madrid, julio de 2019 XV TEMAl Conceptos básicos y organización de datos 1.1. INTRODUCCIÓN 1.2. LA INVESTIGACIÓN EN PSICOLOGÍA 1.3. CONCEPTO Y FUNCIONES DE LA ESTADÍSTICA: DESCRIPCIÓN E INFERENCIA 1.4. VARIABLES: MEDICIÓN Y CLASIFICACIÓN 1.5. DESCRIPCIÓN DE VARIABLES: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN GRÁFICA 1.5.1. Descripción de variables cualitativas 1.5.2. Descripción de variables ordinales o cuasicuantitativas 1.5.3. Descripción de variables cuantitativas 1.6. TENDENCIA CENTRAL, VARIABILIDAD Y FORMA DE UNA VARIABLE: APROXIMACIÓN GRÁFICA 1.7. RESUMEN 1.8. EJERCICIOS 1.9. SOLUCIONES A LOS EJERCICIOS CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS 1.1. INTRODUCCIÓN En la actualidad, la Estadística se aplica en casi todas las disciplinas. En las ciencias sociales y de la salud su uso ha aumentado exponencialmente en los últimos 30 años. Así, por ejemplo, se utiliza en estudios epidemio- lógicos (Medicina), en estudios tox icológicos relacionados con la eficacia de los medicamentos (Farmacia), en estudios genéticos y de impacto am- biental (Biología), en muestreos en las prospecciones petrolíferas o hi - dráulicas (Geolog ía) , en los censos de población e información demográ- fica (Sociología), y en estudios sobre la optimización del coste-beneficio (Economía). En Psicología se utiliza para cualquier cuestión relacionada con la medición de variables psicológicas y con la evaluación, ya sea diag - nóstica, de tratamientos, de programas educativos, sociales, etc... Se puede hacer una distinción entre Estadística teórica y aplicada; la primera se ocupa de los aspectos matemáticos formales y normativos, y la segunda constituye la aplicación a un campo concreto, como los ejem - plos vistos. La estadística aplicada ha recibido distintas denominaciones según su campo de aplicación, tales como bioestadística, psicoestadísti- ca o socioestadística. Algunos autores han propuesto para la estadística aplicada la denominación de análisis de datos (Botella, Suero y Ximénez, 2012; Garriga et al., 2009; Merino et al., 2007), término cuyo uso se está extendiendo y que da nombre a este libro. A pesar de su diversidad de aplicaciones, esta disciplina no es popular entre los estudiantes de ciencias sociales y de la salud, debido posible - mente a la imagen de la Estadística como una rama de las matemáticas de difícil comprensión y ajena a nuestro día a día. Sin embargo, diaria - mente estamos sometidos a un bombardeo de datos estadísticos. El no ser capaz de distinguir una interpretación rigurosa de unos datos de una defectuosa, hace que se sea vulnerable a la manipulación. En ocasiones, las estadísticas presentadas en distintos medios (de comunicación, polí- ticos, publicidad, entorno laboral... ) son incorrectas o engañosas, ya sea por falta de preparación o por voluntad de « maquillar» los resultados. De ahí, la frase atribuida a Benjamín Disraeli (primer ministro del Reino Uni - do) «hay tres tipos de mentiras: las mentiras, las grandes mentiras y las estadísticas». La Estadística nos proporciona las herramientas necesarias para valorar de manera crítica la información que recibimos. En este primer tema introductorio se aborda el papel que juega la Es- tadística en el análisis de los datos en Psicología , se define el concepto de 3 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD variable, así como su clasificación y notación simbólica y se analizan los distintos niveles de medida de una variable (nominal, ordinal, de intervalo y de razón). Asimismo, se explica cómo organizar la información en una matriz de datos, y cómo a partir de ella se construye una distribución de frecuencias y se realizan representaciones gráficas para considerar, de un solo vistazo, las características del fenómeno estudiado. Objetivos del tema: Ubicar la materia Análisis de Datos en el plan de estudios del grado en Psicología. Establecer el papel del análisis de datos en Psicología. Diferenciar y manejar los conceptos básicos, la nomenclatura y las definiciones centrales de la estadística, a fin de poder aplicarlos en el estudio formal de la materia. Manejar con soltura las distintas denominaciones y clasificaciones de las variables. Entender la importancia de la medición en el ámbito psicológico, distinguiendo entre las distintas escalas o niveles de medida (no- minal, ordinal, de intervalo y de razón), y conociendo las relaciones que pueden establecerse en cada una de ellas. Saber elaborar, a partir de un conjunto de datos, una distribución de frecuencias, adquiriendo y desarrollando la capacidad para re- copilar, organizar, presentar, e interpretar datos numéricos. Aplicar las técnicas de representación gráfica adecuadas en función de los datos disponibles (diagrama de barras, diagrama de secto- res, histograma y diagrama de líneas). Entender, desde una perspectiva gráfica, la tendencia central, la variabilidad y la forma de una variable. 1.2. LA INVESTIGACIÓN EN PSICOLOGÍA A lo largo de la historia, el hombre se ha servido de diversas formas de conocimiento, tales como el mito, el sentido común o el folclore popular. Con la aparición de la ciencia moderna en el siglo XVII, el método científico 4 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS pasó a ser la fuente de conocimiento más utilizada (Navas, 2001). Las cien- cias se distinguen entre sí por su objeto de estudio, pero tienen en común el método científico. Al igual que la Biología tiene como objeto de estudio la vida, y la Química las propiedades de las sustancias, la Psicología se sirve del método científico para acercarse a su objeto de estudio: la conducta. El método científico es un procedimiento estructurado que utiliza la ciencia para la ampliación de sus conocimientos. El método científico se caracteriza por ser sistemático y replicable. Sistemático porque es un proceso que tiene unas etapas definidas y rep/icable porque los datos obtenidos mediante su uso tienen que poder ser replicados o refutados ( en las mismas circunstancias) por cualquier investigador interesado. El mé- todo científico, por tanto, proporciona una manera de actuar para afrontar una investigación, a través de las siguientes fases interdependientes: 50 Planteamiento Formulación Procedimiento del problema de hipótesis para la Cuestión sin Solución recogida de responder tentativa del datos: diseño Elaboración Análisis de Discusión de que surge del problema de Muestra Informe datos los resultados conocimiento investigación Instrumentos, Investigación previo materiales... Recogida de datos Figura 1.1. Fases de una investigación con el método científico En primer lugar se define un problema, que puede surgir de teorías ya establecidas, de la lectura de la bibliografía o de la experiencia directa con los hechos. En la mayoría de los casos surgen de lagunas o contradic- ciones en investigaciones anteriores. A partir de ese problema se plantea una hipótesis, que no es más que una solución tentativa al problema planteado. Las siguientes tres fases tratan de contrastar si la hipótesis planteada es compatible con los hechos. Para ello, es necesario establecer un procedimiento adecuado de recogida de información, analizar los datos obtenidos y discutir los resultados en busca de conclusiones. Por último, hay que elaborar un informe de la investigación que se ha realizado para dar a conocer los resultados obtenidos (Fontes et al., 2010). 5 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Esta asignatura se ocupa de las fases cuarta y quinta de una investiga- ción: el análisis de los datos y la interpretación de los resultados obteni- dos. Por tanto, aquí se trata de aprender a procesar los datos recogidos en una investigación con el fin de obtener la información que se precisa para contrastar la hipótesis formulada, y poder dar respuesta al problema plan- teado. En las asignaturas Fundamentos de Investigación y Diseños de Investigación y Análisis de Datos se tratarán de manera detallada el resto de las fases de una investigación científica, así como los posibles diseños a utilizar y el análisis correspondiente a cada uno de ellos. Ejemplo 1.1. Diversos estudios ponen de manifiesto el efecto que la ansiedad ante los exámenes puede tener en la calificación obte- nida en la Prueba de Acceso a la Universidad (PAU). Un equipo in- vestigador ha diseñado un programa de tratamiento para paliar este efecto, que combina técnicas de estudio con técnicas de relajación. Para comprobar la eficacia del tratamiento en el examen de Lengua de la PAU se ha seleccionado a una muestra de 40 estudiantes con este problema de ansiedad, que participaron voluntariamente en el estudio. De ellos, la mitad se ha asignado aleatoriamente al grupo 1 (sin tratamiento) y la otra mitad al grupo 2 (que pasará el tratamien- to). Al finalizar el curso académico, se recogieron datos sobre las variables relevantes de la investigación, además de algunas variables sociodemográficas, como sexo, nivel de estudios de la madre, opción de bachillerato elegido y horas de estudio semanales. ¿cómo relacionaría los datos de este ejemplo con las fases de una investigación? Solución: Las dos primeras fases de la investigación son la definición del pro- blema y la deducción de hipótesis contrastables. En el ejemplo, el problema objeto de estudio es valorar la eficacia del programa de tratamiento que se ha aplicado; para ello, se comprobará si el trata- miento influye en la calificación obtenida en la prueba de Lengua de la PAU. Una hipótesis es una predicción del resultado de la investigación, por lo que, en este caso, como hipótesis, el grupo investigador espera que su tratamiento sea eficaz, lo que operativamente significa que el grupo 2, (que ha pasado el tratamiento que combina técnicas de estudio con técnicas de relajación), tenga un mayor rendimiento en el examen que el grupo 1, que no ha pasado dicho tratamiento. 6 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS En la siguiente fase se encontraría la determinación de un plan de trabajo o procedimiento para la recogida de datos, es decir la elección de un diseño de investigación. Aquí, el investigador decide escoger como muestra a 40 estudiantes con problemas de ansiedad ante los exámenes asignándolos de manera aleatoria a los grupos 1 y 2 (para que reciban o no el tratamiento) comparando después sus resultados. Comparar los resultados conlleva el análisis de los datos obtenidos y la discusión de dichos resultados. En esta investigación en concreto se analizarían las calificaciones obtenidas en el examen de Lengua de la PAU por ambos grupos para comprobar si realmente el grupo 2 que ha recibido el tratamiento obtiene mejores puntuaciones que el grupo 1. Para ello se calcularía y se compararía la media de ambos grupos (su cálculo se verá en el Tema 2). Además, en otras investigaciones con otros objetivos, podría ser interesante plantear otro tipo de aná- lisis, como cuantificar la relación entre el n° de horas estudiadas y la calificación en el examen de Lengua, o realizar pronósticos en el ren- dimiento en el examen en función de la ansiedad ante los exámenes y el n° de horas estudiadas (ambos procedimientos se estudiarán en el Tema 5 del programa). Por último, para difundir los resultados de la investigación se elabora un informe. En este texto se exp lica rán de manera detallada los análisis de datos básicos que pueden ser necesarios realizar, tanto en la investigación psi- cológica como en el ejercicio profesional. El análisis de datos constituye una parte integral no solo de la actividad investigadora, sino también en la práctica profesional. En este sentido, resulta crucial tener unos co- nocimientos básicos de Estadística para evaluar los resultados de una investigación, y en general para leer de forma crítica las publicaciones de carácter psicológico (ya sean artículos científicos, libros, informes de investigación o notas de prensa). 1.3. CONCEPTO Y FUNCIONES DE LA ESTADÍSTICA: DESCRIPCIÓN E INFERENCIA La Estadística es la rama de las matemáticas que se encarga del es- tudio de determinadas características en una población, recogiendo los 7 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD datos, agrupándolos, organizándolos en tablas, representándolos gráfica- mente y analizándolos para sacar conclusiones de dicha población. Teniendo en cuenta las funciones de la Estadística, podemos considerar dos grandes áreas: la Estadística Descriptiva y la Estadística Inferencia!. Mediante la Estadística Descriptiva se organizan y resumen conjun- tos de observaciones cuantificadas procedentes de una muestra o de la población total. Este resumen puede hacerse mediante tablas, gráficos o valores numéricos. Así, se dispone de distintos procedimientos que nos permiten estudiar las características de una o más variables: En el caso de una variable, podemos recurrir a estadísticos que nos in- dicarán cuáles son los valores más habituales de esa variable (índices de tendencia central), hasta qué punto esos valores son similares o diferentes entre sí ( estadísticos de variabilidad), en qué grado las observaciones se reparten equilibradamente por encima y por debajo de la tendencia central ( estadísticos de asimetría) y cómo de apun- tada es la distribución de las puntuaciones de la variable ( estadísticos de curtosis). Estos conceptos se abordarán de manera intuitiva al final de este tema, y de manera formal en los Temas 2 y 3. En el caso de dos variables podemos utilizar índices que nos indiquen hasta qué punto están ambas variables relacionadas entre sí (índi- ces de asociación), así como procedimientos que nos permitirán predecir el valor de una variable en función de otra ( ecuaciones de regresión). Los Temas 4 y 5 abordarán de manera detallada ambos procedimientos. Mediante la Estadística Inferencia! se realizan inferencias acerca de una población basándose en los datos obtenidos a partir de una muestra. Estas generalizaciones de la muestra a la población se basan en el cálculo de probabilidades. Los últimos temas de este texto tratarán sobre proba- bilidad e inferencia estadística. En una investigación cualquiera, lo habitual es que se desee conocer un parámetro o característica de los elementos de una población; sin em- bargo, la población suele ser demasiado extensa para estudiarla al comple- to (conllevaría un coste inabordable). Por este motivo, se realiza un mues- treo con el que se obtiene un conjunto de elementos que representan a la población y se estudia la característica deseada en la muestra mediant e estadísticos que se util izarán para estimar los parámetros de la población. 8 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS En este sentido, en el Ejemplo 1.1 es de esperar que el investiga- dor esté interesado en estudiar si el tratamiento es útil para tratar a los estudiantes con ansiedad ante los exámenes en general. Por tanto, su población objetivo serían los estudiantes que padecen ansiedad ante los exámenes. Dado que no es posible acceder a todos los estudiantes con este problema, escoge una muestra de 40 que son los que realmente par- ticipan en la investigación. Es importante distinguir entre población y muestra: una población es el conjunto de todos los elementos que cumplen una determinada carac- terística objeto de estudio y una muestra es un subconjunto cualquiera de una población. Estos elementos pueden ser personas, animales o cosas que cumplan una definición compartida por la población. Por ejemplo, una población podrían ser los niños con Trastorno por Déficit de Atención e Hiperactividad (TDAH) de la Comunidad de Madrid. En este caso, los elementos de esta población son personas y las características que tienen en común son presentar un diagnóstico de TDAH, ser niños y residir en la Comunidad de Madrid. Una muestra es un subconjunto de una población, pero, ¿por qué elegir un subconjunto y no trabajar con la población com- pleta? Pues en la gran mayoría de casos, es una cuestión de viabilidad, ya que habitualmente no es posible trabajar con la población completa. En el ejemplo que nos ocupa, el número de niños con TDAH puede ser dema- siado grande como para trabajar con todos ellos, además de que puede haber familias (elementos de la población) que no deseen participar en el estudio. Por tanto, lo habitual es trabajar con muestras. Para asegurar la representatividad de la muestra se han establecido algunas técnicas de muestreo, como se verá en el Tema 9 de este manual. En una investigación siempre se trata de caracterizar a la población; en el ejemplo planteado nos puede interesar conocer la inteligencia de los niños con TDAH. En este caso, utilizaríamos un test de inteligencia, por ejemplo el WISC-IV; al no tener acceso a la población completa de niños con TDAH se extrae una muestra de dicha población para obtener el nivel de inteligencia de cada niño de la muestra. Es preciso distinguir entre parámetro y estadístico. Un parámetro es un índice medido en una población que la describe de alguna manera, mien- tras que un estadístico es un índice medido en una muestra. Utilizando la estadística inferencia! se pronostica el valor de los parámetros poblaciona- les a partir de los estadísticos muestrales. Así, en el ejemplo de los niños 9 INTRODUCCIÓN AL ANÁLISIS DE DATOS : APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD con TDAH se calcula la media en inteligencia de los niños de la muestra, que es el estadístico X, para pronosticar el valor medio en inteligencia de la población, que es el parámetroµ (el valor que realmente nos interesa). Habitualmente los parámetros se representan por letras griegas (µ para la media, o} para la varianza y n para la proporción) y los estadísticos por letras latinas (X para la media, s} para la varianza y P para la proporción). Población: es el conjunto de todos los elementos que cumplen una determinada característica objeto de estudio. Muestra: es un subconjunto cualquiera de una población. Parámetro: es una propiedad descriptiva (una medida) de una po- blación. Se denota con letras griegas. Estadístico: es una propiedad descriptiva (una medida) de una muestra. Se denota con letras latinas. 1.4. VARIABLES: MEDICIÓN Y CLASIFICACIÓN En el Ejemplo 1.1, para llevar a cabo su estudio, los investigadores pueden registrar los datos de los 40 estudiantes en las variables sexo, nivel educativo de la madre, bachillerato elegido, nivel de ansiedad ante los exámenes, horas de estudio semanales, grupo asignado y calificación en el examen de Lengua de la PAU. Una variable es el conjunto de valores resultantes de medir una ca- racterística de interés sobre cada elemento individual de una pobla- ción o muestra. Para representar a las variables se utilizan letras latinas mayúsculas. Para referirnos a un valor cualquiera de la variable X se utiliza el subíndice i (X¡), siendo n el número de elementos que componen la muestra, por lo que, de manera genérica, se designa la variable como: X¡ siendo i = 1, 2, 3... , n 10 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS Cuando se trata de objetos fís icos, el proceso de medición es directo y generalmente senci llo porque es cuestión de seguir unas reglas prescri- tas ex presadas mediante determinadas escalas. Así por ejemplo, es fácil med ir la estatura de una persona asignando el número correspondiente de la cinta métrica a la distancia que hay desde sus pies hasta su cabeza. Cuando se trata de medi r la tim idez de un estudiante en una situación de interacción social, medir ya no es tan sencillo. El reto al que se enfrenta la Psicología es su necesidad de medir en muchas ocasiones va ri ables que no son directamente observables. Medición es el proceso por el cua l se asignan núm eros a objetos o sucesos seg ún determinadas regl as. El proceso de medición es prev io al aná li sis de datos y especifica el procedi miento de asig na ción de nú meros a los valores de la variab le. Por ejemplo, a los dos valores de la varia ble sexo (hombre y mujer) se les puede asignar los números 1 y 2, y al peso de una rata se le puede as ig- nar el número en gramos que da la ba lanza. Para medir variables psico- lógicas en muchas ocasiones se utilizan test psicológicos diseñados para ese fin. Su aplicación proporciona una puntuación para cada persona en esa variable. Otro ejemplo podría ser la valoración de la calidad de vida de un pa - ciente, medida a través de una pregunta que forma parte de un test am - plio y que se incluye en bastantes investigaciones sobre sa lud: ¿cómo calificarías tu calidad de vida? A) Muy mala. B) Regular. C) Normal. D) Bastante buena. E) Muy buena. La regla consiste en asign ar un número a cada una de las opciones de respuesta. Así se podría asignar un 1 a escoger la opción «muy mala >> , un 2 a «regular», un 3 a «normal », un 4 a «bastante buena » y un 5 a «muy buena ». 11 INTRODUCCIÓN AL ANALI SIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS OE LA SALUD ut il izan diferentes escalas de medida en función de m edi r, entendiendo como escala de medida el conjunto de r glas o modelos desarrollados para la asignación de números a las va- ri ables. Un ejemplo de escala de medida es la escala centígrada de tem- peratura, que se basa en asignar Oº a la temperatura de congelación del agua y 100º a la de ebullición. En función de las relaciones matemáticas que puedan verificarse empí- ricamente entre los distintos valores de una variable y, siguiendo la clasi- ficación de Stevens (1946), pueden distinguirse cuatro tipos de niveles o escalas de medida: nominal, ordinal, de intervalo y de razón. En la escala nominal solo distinguiremos la igualdad o desigualdad en- tre dos valores, la escala ordinal añade la posibilidad de establecer un orden, en la escala de intervalo se usa una unidad y tienen sentido las diferencias y, por último, en la escala de razón se pueden comparar dos medidas mediante un cociente. Para cada tipo de variable existen unos procedimientos estadísticos apropiados para hacer el mejor uso de la información que contienen los valores de las variables. A) ESCALA NOMINAL La escala de medida nominal consiste en la asignación, puramente ar- bitraria de números o símbolos a cada uno de los valores de la variable. Por tanto, la única relación que se tiene en cuenta es la de igualdad (y la desigualdad), que implica la pertenencia o no a una categoría de- terminada. En la escala nominal los valores de la variable se denominan categorías. Usando una escala nominal podemos decidir si un sujeto es igual o di- ferente a otro, pero no podemos establecer relaciones de orden respecto a esa variable, ni de cantidad. Por ejemplo, si utilizamos la variable en- fermedad, distingu iendo entre: (1) «sanos» y (2) «enfermos», carece de sentido establecer relaciones entre estos dos números del tipo 1 + 1 = 2, ya que sería considerar algo así como que dos personas «sanas» es igual a u na persona «enferma ». En las variables nominales se puede asignar a cada valor de la variable cualquier tipo de símbolo. En el ejemplo anterior, en lugar de números podríamos haber utilizado (S) para designar a los «sanos» y (E) a los «enfermos». 12 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS A las variables que presentan un nivel de medida nominal se les de- nomina variables cualitativas o categóricas. Las variables cualitativas se clasifican además, en función del número de categorías que presentan. Si una variable presenta solo dos categorías se dice que es una variable dicotómica (por ejemplo, el sexo); si presenta más de dos categorías se dice que es una variable politómica (por ejemplo, el estado civil). Ejemplo 1.2. ¿qué variables de las que aparecen en el Ejemplo 1.1 pueden considerarse nominales? De ellas, ¿hay alguna dicotómica? En el Ejemplo l. l. son variables nominales el grupo, el sexo y el ba- chillerato elegido. La variable grupo se utiliza para distinguir a los estudiantes que han recibido el programa de entrenamiento (que combina técni- cas de estudio con técnicas de relajación) de los estudiantes que no han recibido dicho tratamiento. - Es una variable cualitativa porque pertenecer a un grupo u otro no indica que se posea en mayor o menor grado la caracterís- tica medida (grupo) simplemente que son grupos distintos. - Es una variable dicotómica porque únicamente puede adop- tar dos valores distintos: grupo 1 y grupo 2. La variable sexo se utiliza para distinguir a hombres y mujeres. - Es una variable cualitativa porque pertenecer a un grupo u otro no indica que se posea la característica en mayor o me- nor grado, únicamente se distingue entre los distintos valores de la variable. - Es una variable dicotómica porque únicamente puede adop- tar dos valores distintos: hombre y mujer. La variable bachillerato se utiliza para distinguir entre los estudian- tes que han elegido las distintas opciones posibles de bachillerato. Es una variable cualitativa porque elegir una opción deter- minada de bachillerato no significa tener un valor mayor o menor de la variable. - Es una variable politómica porque puede adoptar más de dos valores distintos. 13 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD En ocasiones se categorizan variables que podrían medirse a un nivel superior; en este caso, decimos que una variable se ha dicotomizado si se han establecido dos categorías, y politomizado si se han establecido más de dos categorías. Un ejemplo sería la variable peso del roedor de un experimento: aunque podríamos medir exactamente su peso en gramos, puede resultar útil en una investigación dicotomizar la variable peso clasi- ficando a las ratas en peso alto y bajo, o politomizarla, estableciendo tres o más niveles de peso. B) ESCALA ORDINAL En la escala ordinal se asignan números a objetos para indicar la ex- tensión relativa en que se posee una característica. Los datos pueden utilizarse para jerarquizar u ordenar las observaciones, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que se está clasifi- cando. Esta escala no solo permite la identificación y diferenciación de los sujetos sino que además permite establecer relaciones del tipo «mayor que» o « menor que», aunque no se plantea una distancia entre unas me- didas y otras. En este caso, la asignación de números a las distintas cate- gorías no puede ser completamente arbitraria, debe hacerse atendiendo al orden existente entre éstas. Un ejemplo sería la va riable severidad de la enfermedad, que podría adoptar tres valores: 1 leve, 2 moderado y 3 grave. Podemos decir que no es lo mismo padecer una enfermedad con una intensidad leve o grave, y que la intensidad de la enfermedad en el caso de grave es mayor. Las variables ordinales también reciben el nombre de cuasicuantita- tivas. Ejemplo 1.3. ¿Qué variables de las que aparecen en el Ejemplo 1.1 pueden considerarse ordinales? La única variable ordinal de las que aparecen en el Ejemplo 1.1. es la variable nivel de estudios de la madre. Se puede considerar que esta variable adopta cinco valores: Primarios, Enseñanza Secunda - ria Obligatoria (ESO), Bachillerato, Grado unive rsitario y Posgrado 14 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS universitario, que podríamos codificar con los números 1, 2, 3, 4 y 5 respectivamente (por supuesto, serían posibles otras codificaciones alternativas). En este caso, los números no solo indican que son di- ferentes, sino también un mayor o menor nivel de estudios. Sin em- bargo, las distancias entre los distintos niveles de estudio no tienen por qué ser iguales. Por tanto, únicamente se verifican las relaciones de igualdad-desigualdad y orden. C)ESCALADEINTERVALO La s escalas de intervalos son aquellas que ordenan los objetos según la magnitud del atributo que representa n y proveen intervalos iguales entre las unidades de medida. Con la escala de intervalo, los números asignados a los objetos, no solo permiten decidir si un objeto es igual o diferente a otro o si posee en mayor o menor grado la característica de interés; además, la distancia entre los distintos valores consecutivos de la variable es la misma. La inte ligencia medida con un test es un ejemplo de escala de inter- valo. Si cuatro personas (A, B, C y D) han obtenido 80, 90, 150 y 160 puntos en un test de inteligencia, podemos decir que la diferencia en in- teligencia entre A y Bes la misma que entre C y D (90-80 = 160-150), ya que el test proporciona una unidad de medida estable. Sin embargo, no se puede afirmar que D sea el doble de inteligente que A aunque tenga el doble de puntuación en el test, ya que para realizar una afirmación de ese tipo sería necesario que el cero de la escala fuera absoluto. En este caso es arbitrario porque obtener un cero en un test de inteligencia no refleja ausencia de la característica medida, no significa que no se posea ni un ápice de inteligencia. Por convención, las puntuaciones obtenidas de test psicológicos se consideran que están medidas en una escala de intervalo. Como se ha visto en el ejemplo, lo que caracteriza a una escala de in- tervalo es la existencia de una unidad de medición común y constante. En la escala de intervalo el origen es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. 15 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD Ejemplo 1.4. lQué variables de las que aparecen en el Ejemplo 1.1 pueden considerarse de intervalo? En el Ejemplo 1.1. la variable ansiedad ante los exámenes es una va- riable de intervalo porque se trata de una variable que se ha medido con un test psicológico. Así, se puede afirmar que hay igualdad o des- igualdad de ansiedad en las distintas puntuaciones del test, que las puntuaciones más altas indican mayor ansiedad que las puntuaciones más bajas y que la distancia en ansiedad entre, por ejemplo, las pun- tuaciones 14 y 16 es la misma que entre las puntuaciones 18 y 20. Lo único que no se puede admitir en esta variable es que un estudiante que haya obtenido un O en el test de ansiedad ante los exámenes no posea en absoluto esta característica ya que el O en esta escala es un valor arbitrario, que no refleja ausencia de la variable medida. Lo mismo puede argumentarse de la variable calificación en Lengua D) ESCALA DE RAZÓN En la escala de razón los números asignados a los objetos admiten como válidas las relaciones de igualdad-desigualdad, orden, suma, resta, multiplicación y división. Se caracteriza porque tiene todas las características de una medida de in- tervalo y, además, se le puede asignar un punto de origen verdadero de valor cero, es decir, el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Dado que el cero ya no es arbitrario, sino un valor absoluto, se puede afirmar que A tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B. La altura y el peso son dos ejemplos típicos de escala de razón. Por ejemplo, si una rata de laboratorio pesa 350 gramos y otra 175, podemos afirmar que la ia rata pesa el doble que la segunda. Ejemplo 1.5. lQué variables de las que aparecen en el Ejemplo 1.1 pueden considerarse de razón? La variable número de horas de estudio semanales es una variable de razón. Sus puntuaciones admiten como válidas todas las relaciones: las puntuaciones pueden ser iguales o diferentes, las puntuaciones mayores indican mayor nº de horas estudiadas, la distancia entre 16 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS un alumno que ha estudiado 2 horas y otro que ha estudiado 4 es la misma que entre otros dos alumnos que hayan estudiado 6 y 8 ho- ras respectivamente, y si un alumno ha estudiado 6 horas, podemos afirmar que ha estudiado el doble de horas que otro alumno que ha estudiado 3 horas. Esta última relación se puede verificar porque en esta escala el valor O es absoluto: si no se estudia ninguna hora se trata de una ausencia completa de la característica medida. Hay que tener en cuenta que en muchas ocasiones el nivel de medida de una variable va a depender de cómo se haya definido. Por ejemplo, la variable calificación obtenida en el examen de Lengua de la PAU puede suscitar dudas razonables sobre su nivel de medida. Si la variable se de- fine como el nivel de conocimientos de Lengua necesarios para ingresar en la universidad se trataría de una variable de intervalo porque con esta interpretación el cero sería arbitrario ( obtener un cero en el examen no significa ausencia total de los conocimientos necesarios sino que se ha ob- tenido un rendimiento nulo en las preguntas en concreto con las que se ha construido el examen). Sin embargo, si en lugar del nivel de conocimien- tos, nos interesa simplemente contar el número de aciertos (definiendo la variable como el número de aciertos obtenidos en el examen de Lengua de la PAU) se trataría de una variable de razón, ya que aquí el cero sí es absoluto e indicaría ausencia absoluta de preguntas acertadas. Es muy importante, por tanto, la definición operativa de una varia- ble (cómo se define y se registra) porque puede determinar su nivel de medida. La mayoría de las variables psicológicas se considera que están medidas en una escala de intervalo. Así, si la variable perseverancia, que es un rasgo de personalidad, se ha medido mediante una prueba psicoló- gica o test, su nivel de medida es de intervalo. Sin embargo, si se define perseverancia como el número de intentos o ensayos que realiza una per- sona para conseguir un objetivo se trata de una escala de razón. Si la va- riable discriminación visual sólo puede tomar dos valores (discrimina/no discrimina) estamos en una escala nominal. Si definimos discriminación visual como, por ejemplo, número de veces que una persona discrimina en 20 ensayos, se trataría de una escala de razón. Las variables medidas en escala de intervalo y de razón son variables cuantitativas. Las variables cuantitativas se clasifican, además, en función de los valores numéricos que pueden asignarse en continuas y discretas. 17 INTRODUCCIÓN AL ANÁLISIS OE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS OE LA SALUD Una va ri able continua es aquella para la que, dados dos valores, siempre se puede encontrar un tercer valor que esté incluido entre los dos primeros. Un ejemplo de variable continua es el peso, ya que entre los valores 79 y 80 kg. se pueden considerar uno, dos, tres o todos los decimales que se quiera. Una variable discreta es aquella que adopta valores aislados. Por tanto, fijados dos valores consecutivos, no se puede tomar ninguno intermedio. Un ejemp lo de variable discreta es el número de hijos (huelga decir que se pueden tener dos hijos o tres, pero nunca un valor intermedio entre ambos). En la Tabla l. l. se resumen los t ipos de variabl es , las escalas de m edi- da , las caract erísticas bá sicas de cada una de ellas, las relaciones válidas que admiten, y algunos ejemplos. Tabla 1.1. Resum en de las escalas de med ida. Tipo de Escala de Características Relaciones Ejemplos va riable Medida básicas válidas Cualitativa - Sexo, estado Los núm eros Relaciones del civil, raza, identifican y tipo «igual que» Dicotómica -+Nominal diagnóstico clasifican objetos o «distinto que» Politómica clínico. Además, los Además, Dureza, posición números indican relaciones del en el ranking de Cuasicuantitativa -+ Ordinal las posiciones tipo «mayor la ATP, grado de relativas de los que » o «menor satisfacción. objetos que » Además, Temperatura Ad emás, hay igualdad o en grados Intervalo una unidad de Cuantitativa - desigualdad de centígrados, medición común diferencias inteligencia. Di sc reta Además, Continua Además, el Longitud, peso, igualdad o Razón punto cero es altura, tiempo desigualdad de absoluto de reacción. razones 1.5. DESCRIPCIÓN DE VARIABLES: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN GRÁFICA En el apartado anterior ha quedado de manifiesto que en Psicología se trabaja con valores de variables que pueden ser nominales, ordinales, de 18 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS intervalo o de razón, con las características propias de cada escala. En cualquier caso, una vez que el investigador ha recabado la información a través del proceso de medida y recogido los datos correspondientes, dispone de un listado o base, comúnmente llamado matriz de datos. La generación de una base de datos supone la codificación previa de las ob- servaciones, la introducción de los datos en algún programa informático, la depuración de los datos ya grabados (detección y tratamiento de los errores de grabación y valores perdidos), y eventualmente la realización de transformaciones de variables que faciliten su posterior tratamiento estadístico. Hay muchos programas estadísticos que se pueden utilizar para organizar y analizar los datos. En concreto, en el curso virtual de la asignatura hay disponibles tutoriales sobre el uso de Excel para hacer distribuciones de frecuencia, gráficos y diversos análisis. Codificar datos es asignar números a las variables cualitativas y cua- sicuantitativas, y registrar los valores de las variables cuantitativas que constituyen la base de datos, así como asignar un código (que puede ser un espacio en blanco o un valor numérico) a los valores perdidos (aque- llos que no han sido registrados u observados). En la matriz de datos, los casos se sitúan en las filas y las variables en las columnas. En la Tabla 1.2 se muestran los datos de los 40 estudiantes en las variables sexo, nivel de estudios de la madre, bachillerato elegido, pun- tuación en un test de ansiedad ante los exámenes, calificación obtenida en el examen de Lengua de la PAU y horas de estudio semanales, del Ejemplo l. l. La codificación de las variables se hace en función de sus características: La variable ID es una variable de identificación que asigna un nú - mero a cada estudiante. Se considera una variable nominal, ya que estos números únicamente sirven para identificar a cada estudian- te. La variable grupo (cualitativa y dicotómica) se ha codificado asignan- do el valor 1 a los estudiantes sin tratamiento y el 2 a los estudiantes con tratamiento. La variable sexo es una variable cualitativa y dicotómica. Dado que es nominal, para codificarla es posible asignar cualquier número a estos dos valores siempre y cuando se asigne un número diferente a hombres y mujeres. En la Tabla 1.1 a los hombres se les asigna el valor 1 y a las mujeres el valor 2. 19 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD La variable nivel de estudios de la madre es una variable ordinal que puede adoptar 5 valores distintos: Primarios, ESO, Bachillerato, Grado universitario y Posgrado universitario. Para codificarla, ade- más de asignar un número diferente a cada valor, hay que tener en cuenta que los números deben cumplir la condición de orden (no se puede asignar al nivel de estudios Primarios un número mayor que el asignado a Bachillerato, por ejemplo). Los números asignados a los distintos valores son: 1 Primarios, 2 ESO, 3 Bachillerato, 4 Grado universitario y 5 Posgrado universitario. La variable Bachillerato elegido es una variable cualitativa y politómi- ca, que puede adoptar los valores Ciencias, Humanidades y Ciencias Sociales y Arte. Al ser nominal el único requisito para codificarla es asignar un número diferente a cada una de las modalidades. Así, se ha asignado el valor 1 a los estud iantes que han elegido el Bachi- llerato de Ciencias, el 2 a Humanidades y Ciencias Sociales y el 3 al Bachillerato de Artes. En las tres últimas columnas de la tabla se sitúan las tres variables cuantitativas de la investigación. La variable ansiedad ante los exá- menes recoge las puntuaciones obtenidas en un test diseñado para tal efecto. De manera similar se codifican la calificación en el examen de Lengua de la PAU y el número de horas de estudio semanales, recogiendo los valores correspondientes a estas variables. Una vez que los datos están codificados es preciso realizar una depu- ración de la base de datos, que conlleva el procesamiento de los datos perdidos y de los valores atípicos. Los datos perdidos son valores que no han sido registrados, habitualmente porque el participante no ha consig- nado ese dato. Existen procedimientos de imputación de datos, basados en los valores válidos de otros casos que se utilizan en ocasiones en va- riables cuantitativas. Un dato atípico es un valor muy diferente al resto de valores de la misma variable. Suelen ser ocasionados por errores al introducir los datos o por valores extremos. Los datos atípicos distorsio- nan los resultados de los análisis, y por esta razón hay que identificarlos y tratarlos de manera adecuada, generalmente excluyéndolos del análisis. La Tabla 1.2 se basa en un ejemplo ficticio con fines didácticos, en el que no se han introducido datos perdidos. Si los datos han sido registrados manualmente en un software es re- comendable hacer un control de calidad de la grabación de los mismos, 20 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS Tabla 1.2. Datos recogidos en la investigación del ejemplo 1.1. ¡¡m¡t/tl' f Horas de ""lD estudio "'i '11 semi!i:Í~les 11 1 7 2 1 1 13 4 11 3 1 2 3 2 4 9 16 4 1 1 2 2 15 4 5 5 1 2 2 2 3 8 14 6 1 1 3 1 10 7 10 7 1 1 4 1 7 7 12 8 1 2 1 2 25 1 10 9 1 1 2 3 15 4 2 10 1 2 4 2 5 8 15 11 1 2 3 2 12 5 10 12 1 1 3 1 17 4 10 13 1 1 2 2 30 3 15 14 1 1 1 3 9 5 9 15 1 2 2 2 12 5 9 16 1 1 4 2 4 7 8 17 1 1 1 2 8 6 14 18 1 1 3 1 19 4 8 19 1 1 3 2 15 6 18 20 1 1 2 2 17 4 8 21 2 1 3 1 4 6 4 22 2 2 1 2 14 4 8 23 2 2 4 3 9 7 10 24 2 1 5 1 8 8 12 25 2 1 5 2 5 10 16 26 2 2 2 1 3 8 15 27 2 1 5 1 10 7 13 28 2 2 3 2 7 7 10 29 2 2 4 1 5 7 12 30 2 2 3 3 5 8 18 31 2 2 1 1 5 8 14 32 2 2 3 2 12 6 9 33 2 2 2 3 17 6 11 34 2 1 2 2 3 4 3 35 2 1 1 3 10 6 10 36 2 1 2 1 10 5 9 37 2 1 4 2 6 7 14 f ¡, 38 2 2 1 2 2 8 10 39 2 1 5 1 9 5 9 40 2 2 4 2 22 2 4 21 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD revisando la codificación de un porcentaje de los casos, habitualmente un 5% - 10% del total. Una vez depurada, la base de datos se utiliza para extraer la infor- mación relevante. Si tenemos muy pocos datos es posible que la simple inspección visual de los mismos sea suficiente para describir el fenómeno estudiado. Pero esto no es nada frecuente. Habitualmente el número de datos es elevado, por lo que se hace necesario organizar la información mediante una distribución de frecuencias. Una distribución de frecuencias es una tabla en la que se resume la in- formación disponible de una variable. Se sitúan los valores de la variable por filas y en las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la lectura de la información que contienen los datos. Además de la organización de los datos, la distribución de frecuencias cumple dos funciones fundamentales: ofrecer la información necesaria para realizar representaciones gráficas y facilitar los cálculos para obtener los estadís- ticos que serán objeto de estudio en los próximos temas. 1.5.1. Descripción de variables cualitativas La descripción de una variable cualitativa consiste básicamente en una distribución de frecuencias y en su representación gráfica mediante un diagrama de barras o de sectores. En la quinta columna de la Tabla 1.2 aparece el Bachillerato elegido por los participantes. Sin embargo, la simple inspección visual de estos datos no es suficiente para que el investigador se haga una idea precisa de cuántos estudiantes han elegido cada una de las modalidades de Ba - chillerato existentes, por lo que es necesario construir una distribución de frecuencias. En la distribución de frecuencias de variables cualitativas habitualmen- te se muestran las frecuencias absolutas, las frecuencias relativas y los porcentajes. Para construir la tabla de distribución de frecuencias se inspeccionan en primer lugar los valores que toma la variable. En este caso se trata de una variable de carácter cualitativo (nominal) que puede adoptar tres valores distintos. En la primera columna se especifican los valores que adopta la 22 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS variable X o el número asignado a ese valor (en la Tabla 1.3 se muestran ambos). En la segunda columna aparece la frecuencia absoluta (n¡) que es el número de observaciones en cada categoría. En la siguiente columna aparece la frecuencia relativa o proporción de cada categoría (p¡), que se obtiene dividiendo la frecuencia absoluta , n¡, entre el número total de observaciones, que se representa por n. La frecuencia relativa también se expresa en términos de porcentaje (P¡) para lo cual hay que multiplicar ca da una de las proporciones por cien (cuarta columna). Tabla 1.3. Distribu ció n de frecuencias de la varia bl e Bachillera to elegido. X n; P; P; l. Ciencias y Tecnología 13 0,325 32,5 2. Humanidades y ce Sociales 21 0,525 52,5 3. Artes 6 0,15 15 ¿ 40 1 100 Pues bien, ahora sí podemos hacernos una idea de la distribución de los estudiantes según el Bachillerato que han elegido; sabemos que el más demandado es el de Humanidades y Ciencias Sociales (un 52,5% de los estudiantes lo eligen) y que el menos demandado es el de Artes ( elegido por un 15% del total de estudiantes). Los dos gráficos más habituales en la descripción de variables cua- litativas son los gráficos de barras y los gráficos de sectores. En los gráficos de barra los distintos valores de la variable se sitúan en el eje horizontal y las frecuencias o los porcentajes en el eje de ordenadas. Cada barra representa una categoría de la variable a representar, siendo su altura igual a su frecuencia (o porcentaje). En los gráficos de sectores cada sector representa una categoría de la variable y su ángulo central debe ser proporcional a su frecuencia (o porcentaje). En la Figura 1.2 se muestra el diagrama de barras y el diagrama de sectores de la variable Bachillerato elegido. El diagrama de barras se ha construido sobre las frecuencias absolutas de la variable y el diagrama de sectores sobre los porcentajes. 23 INTRODUCCIÓN AL ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD (a) n; 25 20 15 10 5 o Ciencias Humanidades Artes y ceSociales (b) Figura 1.2. Diagrama de barras (a) y diagrama de sectores (b) de la variable Bachillerato elegido. Como se verá en el Tema 2, el único índice apropiado para variables cualitativas es la moda. Ejemplo 1.6. Se muestra a continuación la distribución de frecuen- cias de la variable estado civil de una determinada muestra. ¿cuál es la proporción de personas casadas? 24 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS X n, Soltero 6 Casado 24 Divorciado 6 Viudo 4 40 Hay 24 personas casadas (frecuencia absoluta). La proporción o fre- cuencia relativa de las personas casadas será: 1.5.2. Descripción de variables ordinales o cuasicuantitativas En el caso de variables ordinales se procede de la misma manera, aunque con los valores situados en la tabla de acuerdo a un determinado orden. Por ejemplo, la variable nivel de estudios de la madre presenta los valores : Primarios, ESO, Bachillerato, Grado universitario y Posgrado uni - versitario. En la distribución de frecuencias hay que preservar este orden, ya sea empezando por el valor más bajo o más alto de la variable: Tabla 1.4. Distribución de frecuencias de la vari ab le nivel de estudios de la madre. X n; P; P, n" P,, pa l. Primarios 7 0,175 17,5 7 0,175 17,5 2. ESO 11 0,275 27,5 18 0,450 45 3. Bachillerato 11 0,275 27,5 29 0,725 72,5 4. Grado universitario 7 0,175 17,5 36 0,900 90 5. Posgrado universitario 4 0,1 10 40 1 100 ¿ 40 1 100 En esta tabla se han añadido tres columnas más: la frecuencia ab- soluta acumulada (na), la frecuencia relativa acumulada o propor- ción acumulada (pª ) y el porcentaje acumulado (Pª ), para cada una 25 INTRODUCCIÓN Al ANÁLISIS DE DATOS: APLICACIONES EN PSICOLOGÍA Y CIENCIAS DE LA SALUD de las categorías de respuesta. Para obtener estos valores, simplemente hay que ir acumulando (sumando), desde la categoría de menor valor de la variable a la de mayor valor, las frecuencias absolutas, proporciones o porcentajes, de cada categoría de respuesta. Por ejemplo, la frecuencia absoluta acumulada en el caso de Bachillerato es 29, resultado de sumar las frecuencias de los valores anteriores (7 + 11 = 18) y la suya propia (18 + 11 = 29), indicando que 29 personas presentan un nivel de estudios de Bachillerato o inferior. En las variables nominales carece de sentido el cálculo de las frecuencias acumuladas, ya que sus valores no establecen un orden determinado. Los conceptos explicados hasta el momento son: Frecuencia absoluta (n;}: número de veces que se repite cada uno de los valores de una variable. La suma de todas las frecuencias ab- solutas representa el total de la muestra (n). Proporción o frecuencia relativa (p¡): cociente entre la frecuencia absoluta de cada valor de la variable (n;) y el número total de obser- vaciones (n). Formalmente P; = n;fn. Porcentaje (P¡): valor de la frecuencia relativa (P;) multiplicado por cien. Formalmente P; = P; x 100 Frecuencia absoluta acumulada (n 0 ) : número de veces que se repite cada valor o cualquiera de los valores inferiores. Proporción acumulada o frecuencia relativa acumulada (p 11 ): cociente entre la frecuencia absoluta acumulada y el total de obser- vaciones. Formalmente Pa = n0 /n. Porcentaje acumulado (P11 ): valor de la frecuencia relativa acumu- lada multiplicado por cien. Formalmente: Pª = Pa x 100. Al igual que las variables cualitativas, las variables ordinales gene- ralmente se representan con un diagrama de barras o un diagrama de sectores. El diagrama de barras también se puede realizar sobre las fre- cuencias, proporciones o porcentajes acumulados, siempre teniendo en cuenta que es necesario respetar el orden de los valores de la variable representada. En este caso, se ha elegido un diagrama de barras que con- tiene en el eje horizontal la tabla con los datos que representa el gráfico. 26 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS (a) n¡ 12 10 8 6 4 2 o Grado Posg rado Prim aria ESO Bachill. Uni v. Univ. 7 11 11 7 4 (b) 45 na 40 ~ 35 - 30 ~ 25 20 ~ 15 10 5 o n Prim ari a ESO Bachill. Grado Posg rado Uni v. Uni v. 7 18 29 36 40 Figura 1.3. Diagrama de barras (a) y diagrama de barras acumulado (b) de la variable nivel de estudios de la madre. Algunos índices apropiados para este tipo de variables son la mediana y la moda (explicados en el Tema 2) y la amplitud intercuartil (explicada en el Tema 3). 1.5.3. Descripción de variables cuantitativas Al trabajar con variables cuantitativas puede suceder que el número de valores que tome la variable sea reducido (como la variable n° de hijos, que habitualmente no adopta valores mayores de 4) o sea muy amplio (como las variables ansiedad ante los exámenes y horas de estudio sema- nales de la Tabla 1.2). En