Investigación Cuantitativa II - 2023

23/9/24, 19:24 Investigación Cuantitativa II 23/9/24, 19:24 Investigación Cuantitativa II...

23/9/24, 19:24 Investigación Cuantitativa II 23/9/24, 19:24 Investigación Cuantitativa II Tabla de contenidos Tipos de Diseño Matriz de Datos Codificación según tipos de variable Fuentes de datos digitales Tablas de frecuencia Medidas Resumen Tablas y Pruebas Análisis y presentación de resultados Monitoreo de medios digitales Investigación Cuantitativa II Sitio: Aulas Virtuales de la Facultad de Humanidades y Ciencias Sociales Imprimido por: Joel Motkoski Curso: Metodología de la Investigación en Comunicación -2023- Día: lunes, 23 de septiembre de 2024, 19:24 Libro: Investigación Cuantitativa II https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 1/23 https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 2/23 23/9/24, 19:24 Investigación Cuantitativa II 23/9/24, 19:24 Investigación Cuantitativa II Tipos de Diseño Matriz de Datos DISEÑOS EXPERIMENTALES Para que los datos sean útiles, es necesario organizar las observaciones de modo tal que se pueda reconocer y distinguir el comportamiento de las características observadas y sus relaciones. En ellos el investigador desea comprobar los efectos de una intervención específica, en este caso el investigador tiene un papel activo, pues lleva a Lo importante es que del tipo de observaciones realizadas y el nivel de medición alcanzado (cómo se midieron) determinarán las clases de cuadros, cabo una intervención. gráficas y tablas de resumen que exhiben y comunican mejor las observaciones. También definirán los métodos estadísticos a utilizar. DISEÑOS NO EXPERIMENTALES Durante la recolección de los datos se seleccionan las observaciones de manera que todos los grupos relevantes estén representados en la muestra. Por ejemplo, para determinar la opinión sobre política, especialistas podrían estudiar a un grupo de personas que tengan diferentes nivel de ingresos, En ellos el investigador observa los fenómenos tal y como ocurren naturalmente, sin intervenir en su desarrollo. nivel educativo, barrio, grupo de edades, en las mismas proporciones que en la población estudiada y siempre y cuando estas variables tengan (o se DISEÑOS RETROSPECTIVOS supone que tienen) alguna relación sobre la opinión política. Como dijimos en el libro El Proceso de investigación, capítulo Proceso y Práctica, los datos puede provenir de observaciones hechas por el Los diseños retrospectivos los podemos definir como aquellos en los que una vez medida la variable dependiente, buscamos “hacia atrás” los indicios investigador o de registros elaborados con otros propósitos. Por ejemplo, con fines de facturación y de informes médicos, un hospital registra el qué nos permitan determinar con qué otros fenómenos correlacionan. Pero esta búsqueda de indicios requiere como cualquier investigación una número de pacientes que utilizan el tomógrafo computado. Esta información cruzada con otras variables relevadas (patologías, edad, sexo, etc.), teoría para buscar de manera apropiada las posibles fuentes que producen el fenómeno. puede organizarse para producir resultados que los especialistas pueden describir o interpretar. el investigador observa la manifestación de algún fenómeno (variable dependiente) e intenta identificar sus antecedentes o causas (variable Cuando los datos se ordenan de manera compacta y útil, el procesamiento de los datos y los resultados obtenidos hace que los responsables de la independiente). toma de decisiones pueden obtener información rápida y confiable. Cómo organizar una matriz de datos DISEÑOS PROSPECTIVOS El primer paso luego de medir y relevar las variables seleccionadas es organizar la carga de datos en un soporte informático, para su posterior Se inician con la observación de ciertas causas presumibles y avanzan longitudinalmente en el tiempo a fin de observar sus consecuencias. procesamiento y análisis. Esto se puede hacer en una planilla de Cálculo como el Excel o en programas para el ingreso de datos. La investigación prospectiva se realiza, por lo común, después de que la investigación retrospectiva ha producido evidencia importante respecto a Generalmente los datos recogidos de un relevamiento estadístico se organiza en forma de una Matriz de Datos. determinadas relaciones causales. Una matriz es un arreglo bidimensional en forma de filas y columnas. En las columnas se colocan las variables relevadas. En las filas se colocan a cada unidad de observación, unidad de análisis o caso. Dentro de los estudios no experimentales (observacionales) podemos dividirlos en Descriptivos (sólo describen lo que ocurre, sin sacar conclusiones) y Analíticos, cruzamos variables (analizar las relaciones existentes entre dos o más variables), pero no se interviene en ningún caso. Esto no quita y posiblemente sea redundante decir que un diseño experimental es analítico. Entonces no es necesario aclarar (que oscurece) que es analítico. Idem con prospectivo no es necesario. Pero vuelvo a repetir ante la duda es mejor explicar y explayarse en lo que van a realizar con las muestras y las variables. Muchas veces es más claro que la costumbre de encasillar el diseño en una clasificación. En el caso de una enfermedad o aspecto minoritario Parámetro: podría ser prevalencia (proporción o % de enfermos/total), incidencia. si es minoritaria podría expresarse no en % sino en miles o mas Ej: Razón de mortalidad materna= muertes maternas durante y hasta los 42 posteriores al parto/ nacidos vivos; se expresa en casos/ 10.000 nacidos vivos y es poblacional (en teoría) dado que son datos de Estadísticas vitales (como mortalidad). Para poder procesar la matriz de datos deben cumplirse algunas reglas: No se tienen que unir celdas. Tampoco dejar filas o columnas vacías. Si es en el programa Excel: no se deben dejar cálculos hechos a los costados o al final de la matriz de datos ni tampoco gráficos. Si los hacemos tendrán que ubicarse en otra hoja. Si no tenemos en cuenta estos detalles al abrir/exportar en un programa para análisis estadístico, lo hará con errores o no lo abrirá. Una Matriz como la de la imagen no se puede procesar https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 3/23 https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 4/23 23/9/24, 19:24 Investigación Cuantitativa II 23/9/24, 19:24 Investigación Cuantitativa II En este último ejemplos las categorías se codifican en números: Traducción y codificación: junior=1, Adherente=2, Certificado=3, Rectificado=4, vitalicio=5 Estos códigos numéricos son los que se cargan en la matriz de datos. Base de datos Es un sistema formado por un conjunto de datos y un software para la gestión del mismo, de tal modo que permite controlar el almacenamiento de datos. Los datos son independientes de los programas que los usan. Se almacenan las relaciones entre los datos junto con éstos. Se puede acceder a los datos de diversas formas. Una base de datos es un conjunto de datos relacionados entre sí, se diseña, construye y organiza con un propósito u objetivo específico. La organización sigue el siguiente esquema Para que esa base de datos pueda procesarse debería "limpiarse". Quedaría así: Cuando se trata de variables cualitativas, en las que relevamos categorías, lo que se realiza es una codificación numérica de los "valores o categorías" de la variable. Esto se realizar mediante tareas “mecánicas o automatizadas necesarias para volver útil la información para el análisis. Esto se realiza en el instrumento de medicación mediante la codificación de todas las categorías Por ejemplo Numeración de planillas (identificación de Unidad de Análisis) Codificación: Ej. 1=Si, 2=No. Traducción: Ej. Fecha de nacimiento -> Edad Tabulación: Ej. Escala visual de Dolor, https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 5/23 https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 6/23 23/9/24, 19:24 Investigación Cuantitativa II 23/9/24, 19:24 Investigación Cuantitativa II Codificación según tipos de variable Sobre la carga Cuando comenzamos a completar una matriz de datos debemos tener claro cómo están codificadas numéricamente las categorías o valores de cada una de las variables en estudio. Como vimos en el capítulo anterior, en el armado de la matriz de datos hay ciertas reglas que debemos respetar. El trabajo de depuración de datos (tidy data) es crucial para la validez y fiabilidad de los resultados. Al momento de cargar en la matriz, hay que considerar qué tipo de variable es y cómo debe codificarse: Variable cuantitativas o numéricas En general no hay que hacer ningún cambio para la carga de datos. Es decir se registra el número correspondiente (en el caso de la variable edad, se colocan los números de edad registrado). En este tipo de variables es importante consignar si se trabajará con números enteros o con decimales y en qué cantidad. A partir de estas variables se pueden generar nuevas variables cuantitativas aplicando funciones específicas (log, ln, 1/x, raíz cuadrada, etc.). También es posible realizar varias pruebas estadísticas de exploración de las variables y sus relaciones, mediante técnicas de análisis univariado (una sola variable en análisis), o bivariado, o multivariado. También las variables cuantitativas, por razones metodológicas, se pueden agrupar en categorías de una variable ordinal. Ejemplo: Edad en grupo de edades. Mayores o menores de un valor determinado. Podrían ser grupo de cinco 0 a 5; de 6a 10; de 11 a 15; 16 a 20; 21 a 25; 26 a 30; 31 a 35; etc. o cualquier otra agrupación realizada en base a algún criterio de separación o conformación de grupos. Codificación variable cualitativa ordinal, utilizando escala de Likert: Variables cualitativas Es conveniente asignarle un número a cada una de las categoría que tiene la variable (codificar). Esto facilita la carga de datos, ya que es menos probable equivocarse al ingresar un código numérico que el nombre completo o abreviado de la categoría. Ejemplo: Sexo: Masculino=1, Femenino=2 En el caso de las variables cualitativas nominales no hay una forma de seleccionar el código para cada categoría. Muchas veces en el caso de nominales dicotómicas (presencia o ausencia) se elige “0” para ausencia y “1” presencia. También se suelen ordenar los códigos según la frecuencia de aparición de las categorías, en el caso que se sepa de antemano Codificación variable cualitativa nominal: Variables de respuesta múltiple Existe un tipo de variables que no cumple el requisito de tener categorías mutuamente excluyentes. Se llaman variables de respuestas múltiples y suelen ser frecuentes en los estudios de ciencias sociales, marketing etc. Lo que pasa con estas variables es que al admitir mas de una categoría (por ejemplo cuando preguntamos que nos indiquen las aplicaciones y redes sociales que más utilizan durante el día. Y pedimos que pueden marcar más de una opción. Este tipo de respuestas se caracteriza por permitir una selección de varias categorías. Al momento de codificar estas variables para la carga de datos lo que se realiza es un desglose de la variable, convirtiendo cada categoría en una variable dicotómica, que registra la presencia o no de cada ítem (atributo, propiedad, elemento). Un ejemplo: ¿Qué tipo de texto le gusta leer?: Enciclopedia:___ Manual:___ Policial:___ Aventura:___ Codificación variable cualitativa ordinal: Ciencia ficción:___ Terror:___ Novela:___ Poesía:___ Deporte:___ Cada categoría u opción se convertirá en una columna en la base de datos indicando si “lee” (1) o “no lee”(0). Otros ejemplos de preguntas con respuestas múltiples I: marque los canales de TV de aire que ve. II: marque en orden de importancia los canales de TV de aire que ve. III: marque 3 canales de TV de aire que ve. IV: marque los dos canales que más ve en orden de importancia. Las variables de respuesta múltiple se caracterizan por admitir mas de una categoría o valor (respuestas). En función de ello se pueden clasificar según permitan o no respuestas de forma limitada y jerarquizada. En el ejemplo la opción I es una variable de respuesta múltiple (VRM) ilimitada no jerarquizada; la opción II es una VRM jerarquizada ilimitada; la opción III es una VRM limitada no jerarquizada; la opción IV es una VRM limitada y jerarquizada. https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 7/23 https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 8/23 23/9/24, 19:24 Investigación Cuantitativa II 23/9/24, 19:24 Investigación Cuantitativa II Fuentes de datos digitales Antes de la era digital los datos se generaban en ámbitos específicos y se guardaban de modo compartimentado, aislados entre sí. La información sobre la sociedad podía proceder básicamente de dos fuentes: o de registros administrativos o de estudios montados específicamente para relevar datos. Los registros de la administración pública - matrícula escolar, ingresos hospitalarios, información tributaria, etc - eran, hasta la expansión de la digitalización, difícil y raramente accesibles, pues en su recolección no estaba contemplada su reutilización. Se acumulaban en enormes actas y expedientes y tenían como función primordial documentar el funcionamiento del aparato del Estado. Para poder estudiar la sociedad y sus demandas, el Estados moderno desarrolla de la mano de la metodología estadística un conjunto de estudios, que incluye censos, encuestas y muestras. A estos se suman los estudios de mercado, la investigación social realizada en el ámbito científico académico y en organizaciones de la sociedad civil. Con la digitalización, las fuentes se amplían y diversifican, y se produce un salto cualitativo al poder relacionar entre sí sobre el mismo soporte digital conjuntos de datos de los orígenes más diversos, con la consecuente necesidad de definir e introducir estándares en cuanto a formatos y herramientas. En esta proliferación, conviven datos provenientes de distintos tipos de organizaciones: datos abiertos, datos gubernamentales, datos secretos de alta seguridad, datos del censo, datos de las redes sociales, datos científicos, datos analíticos de uso de aplicaciones masivas. De esta enorme cantidad de datos, una alta proporción se obtiene automáticamente, aunque también pueden relevarse y reunirse manualmente; de hecho, podemos clasificar la Entonces es importante saber que cada categoría (opción) de una variable RM se convertirá en una columna en la matriz de datos y será tratada como producción actual de datos masivos según las fuentes o sistemas sociotécnicos para obtenerlos en las siguientes categorías: una variable dicotómica (se consignará si se presenta o no ese atributo). En caso de ser RM ilimitada habrá tantas columnas como categorías posibles haya; en el caso de ser RM limitada habrá las columnas a las que se hayan limitados las opciones de respuesta. Para la cuestión de la jerarquía se sigue el mismo principio, si es ilimitada jerarquizada las columnas deberán marcar el orden de jerarquía en sus etiquetas (denominación corta de la variable –Datos dirigidos: generados por formas convencionales de vigilancia y un operador humano, el objeto es un lugar o una persona. en la matriz de datos). Si la vRM es no jerarquizada simplemente se cargan sin orden establecido. –Datos automatizados: vigilancia automatizada como lectura automatizada de patentes de coches o tarjetas de transporte (SUBE), dispositivos digitales, sensores, datos escaneados de chips y códigos de barras, datos de interacciones. –Datos voluntariados: intercambiados o entregados a los sistemas voluntariamente por las personas; incluyen transacciones, redes sociales, monitoreo de datos de salud y personales y sousveillance, crowdsourcing, ciencia ciudadana. El uso ético de los datos Una distinción a establecer en referencia a las fuentes tiene que ver con su grado de sensibilidad...es muy distinto acceder y trabajar con datos metereológicos, de flujos financieros o demográficos que con los datos de nuestros desplazamientos obtenidos por el GPS, datos sobre nuestra salud, en base a todos nuestros estudios recolectados por prestadores de salud, sistemas de salud y dispositivos que monitorean nuestros signos vitales, o nuestras interacciones y relaciones en una red social como Facebook. Los datos en esta segunda categoría provienen de la órbita personal y privada; su recolección y uso demanda por lo tanto una reflexión de tipo ético sobre lo que implica su apropiación, cuestiones que serán fruto de una reflexión sobre los problemas asociados a la investigación con datos, en el próximo módulo. Fuentes, repositorios, dataset Genéricamente, por fuente se entiende todo lugar de donde obtenemos información. Con la digitalización creciente, las fuentes de información se vuelven ubicuas y abarcan a todos nuestros dispositivos. Un repositorio es un espacio centralizado donde se almacena, organiza, mantiene y difunde información digital, habitualmente archivos informáticos, de manera que estos pueden ser accesibles a través de internet. Los archivos pueden pueden contener trabajos científicos, conjuntos de datos o software Existen tres tipos principales de repositorios: 1. Repositorios institucionales: son los creados por las propias organizaciones para depositar, usar y preservar la producción científica y académica que generan. Supone un compromiso de la institución con el acceso abierto al considerar el conocimiento generado por la institución como un bien que debe estar disponible para toda la sociedad. 2. Repositorios temáticos: son los creados por un grupo de investigadores, una institución, etc. que reúnen documentos relacionados con un área temática específica. 3. Repositorios de datos : repositorios que almacenan, conservan y comparten los datos de las investigaciones. Los conjuntos de datos Debido al ingente volumen de datos disponibles, hallar un conjunto de datos con los datos que uno busca puede volverse muy dificultoso, así como también la determinación de la veracidad o el origen de la información. Es fundamental registrar y verificar las fuentes. Una herramienta que recientemente se suma a este ecosistema, con el fin de facilitar el acceso de científicos, periodistas de datos y público general a los millones de datasets existentes en la web, es el Dataset Search de Google. Algunas fuentes en línea: repositorios y directorios. ROAR. Registry of Open Access Repositories OpenDOAR. The Directory of Open Access Repositories Biblioteca Electrónica de Ciencia y Tecnología http://www.biblioteca.mincyt.gob.ar/ acceso a Bases de datos y repositorios Sistema nacional de repositorios digitales http://repositoriosdigitales.mincyt.gob.ar/vufind/Content/repos Fuentes de organismos o gobierno Argentina – Datasets datos públicos generados, guardados y publicados por organismos de gobierno de la República Argentina. https://datos.gob.ar/dataset Datos Publicos Buenos Aires https://www.gba.gob.ar/datosabiertos https://data.buenosaires.gob.ar/dataset https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 9/23 https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 10/23 23/9/24, 19:24 Investigación Cuantitativa II 23/9/24, 19:24 Investigación Cuantitativa II INDEC Redatam - acceso y base de datos del Censo 2010 de la República Argentina, permite búsquedas por distintas unidades https://redatam.indec.gob.ar/argbin/RpWebEngine.exe/PortalAction?BASE=CPV2010A Tablas de frecuencia Portal de datos abiertos de la UE http://data.europa.eu/euodp/es/data/ European data portal https://www.europeandataportal.eu/ Eurostat https://ec.europa.eu/eurostat Los resultados numéricos de las observaciones realizadas en un conjunto de datos forman una serie estadística; tras su ordenación y clasificación se Acceso a bases de datos o tablas de Eurostat con posibilidad de explorar o descargar las bases de datos, o de visualizar como mapa, tabla, gráfico las presentan los resultados agrupados en una tabla estadística. Se trata de una serie de columnas paralelas en las que se sitúa la información necesaria. tablas https://ec.europa.eu/eurostat/data/database Visualizaciones y herramientas de visualización de Eurostat https://ec.europa.eu/eurostat/help/first-visit/tools En la tabla podemos ver la distribución de valores o categorías de la variable ámbito geográfico de la noticia en el monitoreo 2020 realizada en esta Banco Mundial indicadores http://datos.bancomundial.org/ cátedra. OCDe Library OCDE https://www.oecd-ilibrary.org Datos Publicos Buenos Aires https://www.gba.gob.ar/datosabiertos En este ejemplo vemos la distribución de las categorías de la variable ámbito geográfico de la noticia (es decir cuál es el lugar donde acontece la noticia). La primera columna corresponde a la frecuencia (es decir el conteo de cuántas veces se presenta cada categoría). La segunda columna muestra cuánto representa ese número en relación a la totalidad de ocurrencias. La tercera columna corrige el porcentaje en caso de que hubiera algún valor perdido (una celda vacía en la matriz). La última columna va sumando los porcentajes de cada categoría. Así por ejemplo podemos decir que el 21,7% de las noticias corresponden al interior de la provincia de Misiones, mientras que el 14,1 % a la capital provincial. En conjunto las noticias sobre Misiones acumulan el 35,8% del total de noticias publicadas. Entonces ¿Qué es una tabla de frecuencias? Las tablas de frecuencias nos muestran los datos de las variables según cómo se distribuyen en la muestra. Es decir que la frecuencia es la cantidad de veces que se presenta un valor o categoría que corresponde a una variable. En las filas de tabla se presenta los valores o categorías y en las columnas las frecuencias y los porcentajes. En el ejemplo que sigue, tomado del monitoreo de medios digitales 2020, verán en la columna frecuencia los números 411, 305, 228, 202 que corresponden a la cantidad de veces que aparecieron en la muestra noticias (casos o unidades de análisis) cada uno de los medios que aparecen en las filas. La última celda tiene el número total, 1146 indica el tamaño de la muestra. En la columna de la derecha tienen una medida de resumen, el porcentaje, que nos permite tener una idea de cuánto en realidad significan cada uno de esos números. En nuestro ejemplo eso significa que el 35.9% de las noticias son de MOL, el medio que más piezas informativas produjo en el periodo relevado. Frecuencia es el número de veces en que una modalidad o un valor de la variable se presenta en una prueba de un experimento dado. Por ejemplo, el número de veces que ha aparecido el 2 después de haber lanzado un dado 50 veces. Distinguimos entre frecuencia absoluta, que es el número de veces que aparece la característica, y que es la relación o razón que existe entre la frecuencia absoluta y el número de observaciones realizadas; o lo que es lo mismo: la relación entre la frecuencia absoluta y el número de individuos de la muestra. A partir de ahora utilizaremos la letra fa para simbolizar frecuencias absolutas y la letra fr para simbolizar. Asi tenemos: https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 11/23 https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 12/23 23/9/24, 19:24 Investigación Cuantitativa II 23/9/24, 19:24 Investigación Cuantitativa II Medidas Resumen Como vimos, es muy importante saber cuál es el tipo de variable y el nivel de medición porque según eso podemos saber qué tipo de medida podemos usar para resumir y presentar los datos. La frecuencia relativa indica la proporción en que se presenta una categoría o valor de una variable, respecto del total de la población o la muestra. Si observamos la columna de la frecuencia relativa vemos que toma valores siempre menores que 1. Cuando comenzamos a trabajar antes de poder establecer las relaciones entre dos o más variables, necesitamos saber qué tipo de datos tenemos. Lo primero que debemos realizar entonces es una exploración por las tablas de frecuencias, es decir un tipo de tabla que nos ordenan los valores o La suma de los valores de esa columna es igual a 1. Lo que determinamos con el cálculo de la frecuencia relativa es el “reparto de la unidad” en las categorías de cada variable y nos presentan el conteo por cada categoría o valor. Se ven más o menos así: diferentes modalidades o valores. Sin embargo, la frecuencia relativa se expresa habitualmente a través del porcentaje (como ven en la tabla arriba) ¿Qué relación existe entre la frecuencia relativa y el porcentaje? Simplemente cambia la referencia sobre el total. Siendo el total para la frecuencia relativa=1 y para el porcentaje = 100 ( o base 100). Frecuencia acumulada de un valor de la variable es igual a la suma de las frecuencias hasta un determinado valor o categoría de la variable. No tiene sentido hablar de frecuencia acumulada cuando la variable es cualitativa nominal porque no se pueden sumar las modalidades. Podemos distinguir entre frecuencias absolutas acumuladas (faa) y frecuencias relativas acumuladas (fra). En las tablas seguiremos el siguiente orden: datos o categorías - frecuencias absolutas - fr. abs. acumuladas - fr. relativas - fr. rel. acumuladas. Supongamos que construimos una tabla de frecuencias a partir del número de hijos que se observan en un grupo de 50 familias: La primera columna nos dice cuántos casos (unidades de análisis) corresponden a cada medio. La segunda nos dice el porcentaje respecto del total, que representan esos casos. Moda Para este tipo de variables nominales, la única medida descriptiva que podemos utilizar es la Moda, que consiste simplemente en decirnos cuál es el valor o categoría que más se repite. En el ejemplo ya vemos que el medio con más noticias es Misiones On Line, que en nuestra matriz fue codificado con el número 1 (Misiones On Line 1; El territorio Digital 2; Primera Edición 3; Misiones Cuatro 4). Un ejemplo concreto de cómo se expresa esto en una tabla de frecuencias: La moda es el dato individual que más veces se repite, el que reúne la mayor frecuencia absoluta (conteo). Mediana Cuando tenemos variables ordinales, además de la moda podemos establecer otra medida estadística llamada Mediana. Lo que nos dice esta medida es cuál es el numero en el que se ubican la mitad de casos analizados. Para calcular tenemos que poner todos los valores en línea y establecer dónde está la mitad. Luego debemos ver cuántos casos caen en cada lado de esa medida. La mediana marca la tendencia central del conjunto de datos tomando en consideración a un solo dato (el que se ubica en la mitad). Para eso los datos previamente deben estar ordenados de manera ascendente o descendente. https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 13/23 https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 14/23 23/9/24, 19:24 Investigación Cuantitativa II 23/9/24, 19:24 Investigación Cuantitativa II En este caso, la categoría 3 (contextualizado) es la mediana (coincide con la moda). ¿Cómo llegamos a esto? Si sabemos que la mediana es el valor La media es una medida que utilizamos para variables numéricas, y es el resultado de sumar todos los valores del conjunto de datos y dividirlos por el central en el que se ubican los datos si estuvieran ordenados en fila en un orden (ascendente o descendente). Lo que habría que hacer es total de caso u observaciones que componen el conjunto. precisamente ordenar las observaciones y ubicar dónde se ubica el medio, que nos dividirá los datos en dos mitades. Y luego ver en qué tipo de categoría cae esa número. Tomando datos al azar, el procedimiento es algo así: 1, 1, 1, 2,2,2,2,2,2,3,3,3,3,3,3,3,3, 3, 4,4,4 (es decir ordenar la serie de cómo se presentan los valores en la muestra según un orden). En este ejemplo marqué la mediana con color naranja, si contamos para cada uno de los lados de la serie existe la misma cantidad de datos. Es es la mediana. Ahora bien, los números de esta serie pueden representar categorías de una variable ordinal (1: noticia sin contextualizar; 2 noticia escasamente contextualizada; 3 noticia contextualizada, 4 noticia que demanda acciones a los responsables). En ese caso diremos que la mediana se ubica en la categoría, noticia contextualizada. Volviendo a la tabla que usamos de ejemplo, veamos cómo lo leemos en un programa de análisis estadístico. Para interpretar esto, tenemos que leer la columna que nos dice el porcentaje acumulado, vemos que en la primera fila, los datos de las noticias sin contextualizar representan solo el 5,1% de total, con las escasamente contextualizadas se llega al 38%, pero al incluir la tercera categoría se sobrepasa el 50%. Por lo tanto nuestro mediana cae en la categoría contextualizado. Cómo leemos los datos, la mitad de las noticias relevadas presentan la información contextualizada, escasamente contextualizada o sin contextualizar. Mientras que la otra mitad presenta los datos contextualizados o demanda algún tipo de acciones a los responsables. Este tipo de medidas es mucho más últil cuando tenemos una variable cuantitativa. Una propiedad que tiene la mediana cuando se trata de este tipo es variables es que no es sensible a la variación en los puntos extremos, se dice que es resistente a la presencia de estos valores siempre que no se altere el tamaño de los casos (muestra). Pero si se alteran los casos (el tamaño de la muestra), si se alterará el valor de la mediana. Veamos cuál sería la mediana de una variable numérica. Vemos que prácticamente coinciden las tres medidas que solicitamos: la moda (la que más se repite); la mediana (el valor que divide la distribución de la mitad de los datos), y una nueva que es el promedio o media (ver más adelante). La mediana en una variable numérica nos dirá cuál es el valor en el que se ubican la mitad de nuestros datos. Si lo hiciéramos manualmente ellos deberíamos ordenar primero todos los datos en forma ascendente (primero todos lo que consignaron 0 cantidad de fuentes, luego los que consignaron 1 y así sucesivamente hasta agotar la serie). Luego vemos dónde cae la mitad de esa serie así ordenada. Luego cuando tenemos la tabla de frecuencias organizada vemos simplemente en el porcentaje de frecuencias acumuladas cuál es el valor que está por debajo y por encima del 50%. En nuestro caso, vemos que el 19% de noticias no presenta fuentes, pero cuando pasamos al siguiente valor (noticias con 1 fuente) el porcentaje ya excede por mucho el 50%. Por lo tanto el valor en el que se ubica nuestra mediana es 1. Podemos decir que la mitad de los datos no presentan fuentes o presentan solo 1 fuente; mientras que el 50% presentan una o más fuentes. Media o Promedio Pero en este caso, vemos que ya la moda nos dio mucha información sobre cuál es el número de fuentes que más se repite (1 fuente). Pero vemos que nuestra lista de fuentes va desde 0 a 12. Si quisiéramos saber cuál es el promedio de fuentes utilizadas vemos que nos da un valor decimal 1, 11%. O sea que en promedio prácticamente coincide con la moda, la mediana. https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 15/23 https://virtual.fhycs.unam.edu.ar/mod/book/tool/print/index.php?id=52916 16/23 23/9/24, 19:24 Investigación Cuantitativa II 23/9/24, 19:24 Investigación Cuantitativa II H0: Las variables X e Y son independientes. En nuestro caso: balance de fuentes y enfoque informativo son independientes. Tablas y Pruebas Ha: Las variables X e Y están relacionadas. La variable balance de fuentes está relacionada con la variable enfoque informativo Bajo la H0de independencia, se sabe que los valores del estadístico x2 se distribuyen según una distribución conocida denominada chi-cuadrado, que Cuando se quiere observar la relación entre dos variables categóricas los datos se organizan en tablas de doble entrada o de contingencia. depende de un parámetro llamado grados de libertad (g.l.). Para el caso de una tabla de contingencia de r filas y c columnas, los gl son igual al número de filas menos 1 (r-1) por el número de columnas menos 1 (c-1). De ser cierta la H0, el valor obtenido debería estar dentro del Como resultado de esta clasificación las frecuencias (tablas bidimensionales) aparecen organizadas en casillas que contienen la información rango según la distribución chi-cuadrado correspondiente (tabla). Si el valor-p es muy pequeño (usualmente se considera p

Investigación Cuantitativa II - 2023

Document Details

Tags

Related

Summary

Full Transcript